Transcript of Introduction au web sémantique librement adaptée de Nova Spivack
1. Yves Simon Social Computing - autour du web smantique Le web
smantique, infrastructure du social mdia Du web 2.0 au web 4.0
Daprs : Making sense of the semantic web Nova Spivack, CEO &
fondateur de Radar Networks (Twine) http://www.mindingtheplanet.net
Autres lectures . Contact : yves(at)social-computing.com Dcembre
2007 page 1
2. Yves Simon Social Computing - autour du web smantique
Constats : Dans le vieux monde des grand medias traditionnels, les
actualits sont des produits vendus aux consommateurs - ou aux
entreprises qui essaient de joindre ces consommateurs. Dans le
nouveau monde des medias sociaux et interactifs, ces mmes actualits
deviennent une matire brute que les utilisateurs assemblent pour
formuler leur point de vue personnel, et republient pour exprimer
leur perspective leurs amis, familles, collgues et communauts
virtuelles. Cest donc un matriel de rflexion avec lequel on
construit sa propre worldview, plutt quun produit fini quon
consomme sans penser. - Fabrice Florin, fondateur et directeur
excutif de NewsTrust 2007 - L'offre mdia actuelle est surabondante
dans tous les domaines (TV, presse, mobiles, Internet) ; cest le
client qui devient la ressource rare et cela transforme les
mcanismes de fidlisation ! Ensuite, les modes de consommation se
fragmentent (dlinarisation en TV, catch-up TV) : le consommateur
papillonne dsormais sur diffrents supports et mdias dans une
logique en rupture avec celle des grands rendez-vous mdias dantan.
Enfin, on voit une migration des consommateurs vers de nouveaux
crans : 90 % des Franais ont un mobile, 40 % ont un lecteur MP3 10
millions de Franais surfent sur Internet avec leurs tlphones
mobiles On observe aussi que le poids dInternet dans ces volutions
est absolument majeur : Internet reprsente aujourdhui 7 % du march
publicitaire mondial ; la croissance des dpenses publicitaires sur
Internet a t de + 40 % par an depuis 2003 (contre 2 3 % pour les
autres supports). Tout cela interpelle les acteurs mdias
traditionnels ! Et cela pose des questions absolument fondamentales
en matire de conqute et de fidlisation de laudience. Je vois donc
dans le dveloppement de ce Web 2.0 communautaire quelque chose que
les mdias traditionnels doivent absolument prendre en compte dans
leur logique de fidlisation de laudience. Il y a une force
propagatrice absolument incroyable du Web 2.0 : elle va forcment
multiplier les communauts et celles-ci vont crer leurs propres
contenus. - Dominique Gautier, Partner, Roland Berger Strategy
Consultants (conf. Futur des mdias Dcembre 2007) - On est confront
une forme de paradoxe dans lvolution des usages. Dun ct on observe
un dveloppement exponentiel des nouveaux usages, et, de lautre, on
constate la difficult des industriels mesurer et extrapoler limpact
de ces nouveaux usages sur les marchs de demain. Il y a trois
raisons ce paradoxe. La premire est la raison du temps. Linnovation
est trs rapide et la prise de recul est impossible. La deuxime est
quil est difficile disoler ces usages. On ne peut donc donner des
chiffres sur chacun de ces usages, pris isolment. La troisime
raison est que les marchs sont tirs autant par les consommateurs
eux-mmes que par les marqueteurs. On continue baigner dans le
syndrome du SMS, avec des jeunes gnrations qui crent leurs propres
rgles. Trois caractristiques me paraissent cependant assez fortes
concernant les nouveaux usages. Dcembre 2007 page 2
3. Yves Simon Social Computing - autour du web smantique La
premire est le sentiment de superposition des usages et des
technologies. La demande sur les consoles de jeu et sur liPhone
dmontre cette boulimie de technologies, laquelle vont sadjoindre
les nouveaux usages. La seconde caractristique est lextension du
numrique tous les domaines, photo ou musique, avec une mobilit
quasi addictive. La mobilit est devenue un droit, une ncessit ! La
troisime caractristique tient aux contenus. Ils sont de plus en
plus segmentaires, sadressant des niches. Les grands mdias
traditionnels sont obligs dintgrer dans leur stratgie cette dmarche
dite de long tail . Quelques chiffres pour clairer ces trois ides :
Les utilisateurs consomment plusieurs mdias la fois pour 30 %
dentre eux. Pour les 15-24 ans, ce taux passe 60 ou 70 %. Huit
internautes sur dix dclarent consommer des contenus convergents.
FaceBook enregistre 250 000 nouveaux abonns par jour dans le monde.
Il y a un milliard de recherches par jour sur Google dans le monde
et 90 millions en France. A cot de cela, il y a des comportements
surprenants qui perdurent : 13 15 millions de magazines tl sont
vendus chaque semaine. Le temps dcoute devant la tl ne bouge pas.
Le modle est donc moins homogne quavant, avec une difficult isoler
les usages et les analyser. Nicolas Teisseyre, Senior Partner,
Roland Berger Strategy Consultants (conf. Futur des mdias Dcembre
2007) - Le social mdia c'est discuter avec le public, pas lui
parler. Notre dmarche a t de crer un site gratuit dinfos qui ne
soit pas adoss un groupe industriel ou financier existant. Nous
avons ensuite effectu un double pari rdactionnel et conomique. Le
pari rdactionnel tait dassocier le journaliste professionnel la
culture participative dInternet. Pour gagner ce pari, nous avons
estim quil valait mieux partir dune page blanche plutt que de
rester dans une structure traditionnelle (Libration). Le pari
conomique concerne deux facettes. Dabord, on est parti dlibrment
sans investisseurs, avec des amis et nos familles. Puis, on a
choisi tout de suite un modle gratuit car nous voulons tre un mdia
participatif. Nous avons en effet lambition de construire une
communaut sans barrires autour du site. Les recettes publicitaires
sont au rendez-vous et elles compensent depuis novembre nos cots
qui sont cependant artificiellement trs bas (les fondateurs ne se
payent pas ; les salaires sont trs bas). Aprs 7 mois dexistence,
cest pas mal ! Par ailleurs, nous dveloppons des activits de
prestations de services (sites cls en main). Nous visons terme un
CA constitu de 70 % de recettes publicitaires et de 30 % de
prestations de services. Une 3me source de revenus apparat dune
faon inattendue : la ventes de nos contenus aux TV ; on va voir
comment cela va voluer. Mme si nous ne vendons pas nos infos aux
internautes, nous devons justifier notre dmarche ; cest pourquoi
notre contenu est trs forte valeur ajoute ; notre modle est bas
l-dessus et il est valid aprs quelques mois dexistence. - Pierre
Haski Prsident et Directeur de la publication, Rue 89 (conf. Futur
des mdias Dcembre 2007) Les applications web de type MySpace,
Youtube, Wikipdia, Amazon deviennent de vritables lieux de
socialisation et d'agrgation de contenus permettant d'apprhender au
mieux leurs contextes. Effectivement, les lecteurs parlent aux
lecteurs, partagent leurs avis, recommandations, mots cls, videos,
images, sons relatifs aux contenus et dveloppent donc tout autant
de mtadonnes parfois plus parlantes que les donnes elle-mmes et
ncessitant des traitements pointus d'indexation et de normalisation
pour leur bonne restitution et donc leur bon usage. Nous avons
besoin de trouver le plus rapidement possible la bonne information
travers des silos d'informations volumineux sur le web, dans nos
systmes d'informations et nos organisations. De multiples silos
d'informations sont aujourdhui disponibles pour chaque sujet que
nous devons traiter. Dcembre 2007 page 3
4. Yves Simon Social Computing - autour du web smantique Figure
1 : L'explosion du volume de donnes accessibles Les technologies de
l'information doivent nous proposer de nouveaux espaces de
dcouvertes. Dcouvertes de personnes travers des informations
(donnes, centres d'intrts ...) qui nous relient elles et cration /
dcouvertes d'informations par l'exploitation des carts entre
"patrimoines informationnels" (Users Generated Contents UGC). Les
deux grands principes dun modle de longue trane sont (selon Chris
Anderson): Rendre tout disponible Aider le client trouver ce quil
cherche Mais actuellement, le principe mme des Rseaux sociaux, fait
que le deuxime principe est rarement appliqu ; ou moyennant
paiement. Associs ces principes, six rgles de fonctionnement :
Faire le plus possible travailler les utilisateurs Oublier que les
produits sont figs et ont un prix unique Accepter la gratuit comme
cot de commercialisation Possder un inventaire large de produits ou
de fonctionnalits Dvelopper une vraie notorit professionnelle
Saffranchir de la barrire linguistique Dcembre 2007 page 4
5. Yves Simon Social Computing - autour du web smantique Le
Social Web : la prise en compte des besoins dune multitude de
communauts dynamiques : 7ime tendance IDC 2008, une anne de rupture
: A moins de vivre dans un monastre tibtain, vous n'avez pu que
constater le dveloppement rapide des rseaux sociaux, de MySpace
YouTube en passant par Digg et Wikipedia. Ce phnomne va entraner
une avalanche de donnes quelque 400 milliards de Go (contre 225
milliards en 2007). Toutefois, plutt que d'aider les entreprises et
les particuliers dcouvrir la sagesse des foules (Wisdom of crowds),
IDC pense que cette explosion de donnes non structures va plutt
engendrer une sorte de cacophonie. Pour donner du sens ce dluge
d'informations, de nouveaux logiciels devraient voir le jour en
2008. IDC met toutes ces applications dans un domaine baptis Eureka
2.0. Ces applications vont pouvoir extraire du sens de tonnes de
textes, des impressions, des sentiments... tout cela entrant sous
le concept de recherche smantique. Ce type de logiciels devrait
aider les entreprises suivre les perceptions de marques, le niveau
de satisfaction clients et faire clore de nouvelles ides de
produits. Dcembre 2007 page 5
6. Yves Simon Social Computing - autour du web smantique Le web
smantique, cest quoi ? Le web smantique, c'est lvolution du web (un
ensemble de serveurs proposant de visualiser des pages web plus ou
moins dynamiques associes des services web) vers une gigantesque
base de donnes rparties semi structure. Ainsi la navigation sur le
web passe du concept dhypertextes celui dhyperdonnes, donc
dmultiplie les possibilits de relations (et donc de navigation et
d'indications) entre "objets" du web, donc l'atomise, l'enrichit et
l'approfondit considrablement. Le web smantique, c'est, selon Nova
Spivack, un web en "HD" / "haute rsolution" qui permet des modes
d'accs multiples (navigation facettes) des informations enrichies
d'informations contextuelles multiples (mtadonnes). Figure 2 :
Visualisation d'un rseau d'informations de type RDF relies entre
elles travers des liens typs Le concept du web smantique n'a rien
voir avec la smantique au sens large, c'est le nom donn pour
qualifier les applications qui vont supporter les standards du W3C
: RDF, OWL, SPARKLE, SWRL, GRDDL mais aussi certains standards de
reprsentation d'informations comme HR-XML, FOAF, Open ID qui
avancent vers la maturit et deviendront rapidement les normes de
facto du web smantique ... Les donnes ainsi cres pourront tre
facilement exploites par diffrentes applications comme elles
pourront provenir de multiples applications diffrentes comme
Wikipedia, Amazon, Flickr, Delicious, Youtube, Dailymotion, Google
Social, Linkedin, Facebook ... Dcembre 2007 page 6
7. Yves Simon Social Computing - autour du web smantique
Lopportunit rside dans le graphe smantique et sa capacit rassembler
diffrentes types dinformations comme les projets, les vnements, les
groupes, le multimdia, les documents, les pages web, les services,
les produits, les emails, les personnes, les socits, les lieux, les
centre dintrts, les activits, les news Ce rassemblement
dinformations structures et non structures va permettre de proposer
des rsultats de recherche dinformations plus pertinents, des
publicits mieux cibles, une gestion de projets plus efficace grce
une collaboration plus troite et un partage des informations plus
fluide, des contenus plus riches, des recommandations plus fines et
prcises, etc Figure 3 : Interrelations entre informations de nature
diffrentes Les liens que l'on peut dcouvrir travers l'analyse des
donnes, des contenus et des contextes autour des informations et
des personnes sont le socle relationnel sur lequel est base
lintelligence dune application du web smantique (plateforme Twine
entre autres). Cest aussi un socle primordial une utilisation avre
des technologies de cartographie dinformations. Aussi, plus on
augmente le taux de connection entre donnes par leur enrichissement
(mtadonnes) et leur organisation les unes par rapport aux autres
(calculs de proximits, corrlations, dfinition de critres de
pertinence, de contextualisation), plus on est capable de
rapprocher automatiquement les contenus des utilisateurs. Dcembre
2007 page 7
8. Yves Simon Social Computing - autour du web smantique Figure
4 : Vers un web plus intelligent De cette faon, nous nous
affranchissons progressivement de la recherche d'information
traditionnelle par mots cls vers l'interaction (web 2.0 Tagging O
term search), la recherche en language naturel et la recherche
smantique pour nous orienter vers une intelligence artificielle
"hybride". Celle-ci est le fruit d'une vritable convergence de
tendances gnrales exprimes par des experts reconnus dans des
domaines spcifiques et d'algorithmes de choix bass sur la
reconnaissance automatise de donnes comme vos habitudes
informationnelles et celles de votre entourage immdiat ... Beaucoup
d'algorithmes existent aujourd'hui pour dmultiplier les capacits
d'accs l'information des utilisateurs et des publications sur les
principaux indicateurs lis aux contenus. Ces contenus sont devenus
poliformes et se rpartissent selon des cls d'aggrgations volutives,
dynamiques qu'il convient de traiter au mieux pour correspondre aux
attentes de personnalisation des utilisateurs. Enfin, la dynamique
des communauts d'usages des nouvelles technologies ncessite des
outils de mesure novateurs. Leur laboration reprsente un champ de
recherches considrable. Quand 40% des consommateurs amricains
s'attendent ce que les sites de ecommerce leur proposent des
promotions cibles en fonction de leurs profils d'achats, il n'est
plus possible de remettre en cause la pertinence des algorithmes de
calculs de proximits et de corrlations. Aussi, la personnalisation
progressive des rsultats produits sur les applications sera
possible grce une historisation exhaustive de l'usage de celles-ci
(recherches, achats, commentaires, etc ...) qui devra permettre
d'entretenir et de dvelopper des liens de proximit avec les
utilisateurs (alertes, interactions, reconnaissance et suggestions
...) mais aussi d'amliorer l'organisation des listes de rsultats et
les outils d'accs ceux-ci. Il existe 5 niveaux dans l'approche
smantique : 1/ Social - Tagging - Folk/ production de mots cls
qualifiant des contenus par des utilisateurs Facile crer, utiliser,
stocker, traiter (pas d'algorithmes, pas d'ontologies maintenir
...), pas de technologies mettre en oeuvre ... mais trop basique,
comporte trop dapproximations pour tre vraiment utile, manque
doutils de normalisation statistiques et linguistiques. Exemples
Technorati, Del.icio.us, Flickr, Wikipedia Dcembre 2007 page 8
9. Yves Simon Social Computing - autour du web smantique 2/
Statistiques / calculs d'occurences et de cooccurences pour dfinir
les mots cls qualifiant des contenus non structurs automatiquement
Algorithmes purement mathmatiques, statistiques, capables de
fonctionner sur de larges chelles, indpendant du language, produit
rapidement des agrgats et des indicateurs ... Pas de comprhension
du contenu, tributaire des volumes sans permettre de trouver
finement ce qui est recherch. N'est pas adquat pour les donnes
structures. Exemples : Google, Lucene, Autonomy 3/ Linguistiques /
extraction d'entits nommes la plus fine possible Dtection de la
langue, extraction d'entits, mise en correspondance travers des
tables de synonymes, listes de rsultats en relation prcise avec les
requtes des utilisateurs. Demande des ressources machines plus
importantes, plus difficile monter en charge, beaucoup d'erreurs
rsident, demande un effort et une maintenance lourds pour chaque
langue traite. Exemples : Inxight, Attensity, Powerset, Hakia ...
4/ Web smantique / mise en relation de contenus travers des
descripteurs et des usages convergents Positionnement de
RadarNetworks, DBpedia Project, Metaweb Requtes plus prcises,
applications bien dveloppes, rapidement. Ne requiert pas trop de
ressources machines ???, fonctionne pour les donnes structures et
non structures. Interoprable entre plusieurs applications (API).
Peu d'outils, difficile de monter en charge, qui cre les mtadonnes
? 5/ Intelligence Artificielle / rutilisation de l'ensemble des
approches prcdentes pour que l'application interagisse
intelligemment et de faon volutive avec ses utilisateurs ...
Fonctionne bien dans des domaines restreints, rpond correctement
aux questions, raisonne et apprend ... Demande des ressources
machines importantes, difficults monter en charge, difficile
programmer et universaliser, l'apprentissage demande beaucoup de
travail. Exemple de socit : Cycorp ? Il y a deux faons de "pousser"
le web vers un web smantique : Bottom-Up : ajouter des mtadonnes
smantiques aux pages et aux contenus des bases de donnes. Cela
implique que chaque site web fasse la dmarche de "smantiser" son
contenu, donc d'apprendre RDF et OWL ... Top-Down : gnration
automatique de mtadonnes smantiques par domaines verticaux donc
crer des services (applications web) qui vont faire la moulinette
entre le web non- smantique et le web smantique. Dans ce cas,
personne n'a plus besoin d'apprendre le RDF et l'OWL ... ref : Alex
Iskold Dcembre 2007 page 9
10. Yves Simon Social Computing - autour du web smantique En
pratique les approches hybrides associant diffrentes techniques
fonctionnent mieux. Le web smantique est un facilitateur : Par
l'association directe de l'intelligence (mtadonnes) aux donnes
plutt qu' travers des applications ... Les donnes se suffisent
alors elles mme, les lments de comprhension (contextualisation) des
donnes font partie des donnes. Les applications peuvent concentrer
leurs fonctionnalits sur de nouveaux usages, autour de donnes plus
faciles prendre en compte. Les donnes peuvent tre partages et lies
les unes aux autres plus facilement. L'alliance de diffrentes
technologies (type moteur de recherche) permettant la mise en
oeuvre de fonctionnalits tendues valorise fortement les contenus
par leur enrichissement et en facilite l'accs sous diffrentes
facettes donc en augmente l'usage nombre d'utilisateurs constants
(et donc le temps d'audience et le stock de pages disponibles pour
des annonceurs). Les standards du web smantique : RDF : Resources
Description Framework : un mta-langage spcialis dans les mta donnes
qui permet d'associer un objet un autre objet travers un lien
logique dcrit. OWL : Web Ontology Language : langage informatique
utilis pour modliser des ontologies, ensemble de concepts et
connaissances Sparql : permet d'exprimer des requtes interrogatives
ou constructives adaptes la structure spcifique des graphes RDF.
Plus sophistiqu que le SQL SWRL : Semantic Web Rule Language (OWK +
RuleML). Permet de dcrire des natures de relations dduites entre
"objets" ... Cette personne ayant un pre ayant un frre dispose donc
d'un oncle ... GRDDL : Gleaning Resource Descriptions from Dialects
of Languages. Permet de transformer des donnes en provenance de
diffrentes sources (ex. microformats) en RDF pour les assembler et
les rutiliser dans un autre cadre (hybrider - mashup) ... Voir :
http://www.yoyodesign.org/doc/w3c/grddl-primer/ Le web smantique
est le concept de donnes autodcrites et lies entre elles Fusionner
des bases de donnes en RDF est simple, le web devient une base de
donnes dynamique ... Dcembre 2007 page 10
11. Yves Simon Social Computing - autour du web smantique
RDF/OWL ne sont pas les seules faons de gnrer un web smantique,
d'autres voies sont ouvertes grce aux fils de tags, aux plans de
classements, aux tsaurus, aux microformats, aux entits nommes, des
modes de reprsentation de mtadonnes alternatifs. Existe t il un web
smantique ou plusieurs ? La rponse est ... les deux ... Le web
smantique est un web de webs smantiques, chacun de nous peut avoir
son propre web smantique Dcembre 2007 page 11
12. Yves Simon Social Computing - autour du web smantique
Pourquoi cela a t il prit autant de temps ? La vision originelle
tait trop oriente Intelligence Artificielle Les technologies et les
outils ntaient pas encore matures (capacits de traitements,
stockages, enrichissement, restitution, rutilisation ) Le besoin de
donnes utilisables par diffrentes applications sur le web n'tait
pas clairement identifi ... La recherche par mots cls et
l'organisation par tags taient suffisants ... dans le contexte dune
application, pas dun web dapplications Les utilisateurs nont pas
ide de la qualit des traitements que les technologies peuvent
proposer et donc de la qualit potentielle des applications de
demain Beaucoup d'incomprhensions clarifier ... Passer le guet
(crossing the Chasm) : Communiquer sur l'interoprabilit des donnes,
pas sur l'intelligence artificielle L'vanglisation du march passe
par une bonne communication sur l'intrt d'utiliser ces standards.
Les standards et les technologies arrivent maturit Les besoins des
utilisateurs voluent, leurs attentes vont de plus en plus vers des
applications capables de leur fournir des rsultats sans qu'ils
aient besoin de rentrer des mots cl ou des tags nouveau. Les
services web doivent rendre leurs donnes accessibles aux autres
applications dans le format le plus universel possible. Beaucoup
d'entreprises commencent gnrer des donnes enrichies. Il y aura
bientt beaucoup de donnes de ce type disposition ! Dcembre 2007
page 12
13. Yves Simon Social Computing - autour du web smantique
Agenda : 2007 - 2009 : Early Adoption 2010 - 2020 : Adoption de
masse 2020 - + : Nouveau cycle ... Le futur du web : 1980 :
l'ordinateur individuel est la plate forme 1990 : le navigateur
devient la plate forme 2000 : le web est la plate forme 2010 : la
toile est la plate forme 2020 : le rseau est la plate forme 2030 :
le corps humain est la plate forme ? Figure 5 : de l're des PC au
Web 4.0 ... Dcembre 2007 page 13