Introduction au web sémantique librement adaptée de Nova Spivack

13
Yves Simon – Social Computing - autour du web sémantique Décembre 2007 – page 1 Le web sémantique, infrastructure du social média Du web 2.0 au web 4.0 D’après : « Making sense of the semantic web » Nova Spivack, CEO & fondateur de Radar Networks (Twine) http://www.mindingtheplanet.net Autres lectures …. Contact : yves(at)social-computing.com

description

A propos du social media ...

Transcript of Introduction au web sémantique librement adaptée de Nova Spivack

  • 1. Yves Simon Social Computing - autour du web smantique Le web smantique, infrastructure du social mdia Du web 2.0 au web 4.0 Daprs : Making sense of the semantic web Nova Spivack, CEO & fondateur de Radar Networks (Twine) http://www.mindingtheplanet.net Autres lectures . Contact : yves(at)social-computing.com Dcembre 2007 page 1
  • 2. Yves Simon Social Computing - autour du web smantique Constats : Dans le vieux monde des grand medias traditionnels, les actualits sont des produits vendus aux consommateurs - ou aux entreprises qui essaient de joindre ces consommateurs. Dans le nouveau monde des medias sociaux et interactifs, ces mmes actualits deviennent une matire brute que les utilisateurs assemblent pour formuler leur point de vue personnel, et republient pour exprimer leur perspective leurs amis, familles, collgues et communauts virtuelles. Cest donc un matriel de rflexion avec lequel on construit sa propre worldview, plutt quun produit fini quon consomme sans penser. - Fabrice Florin, fondateur et directeur excutif de NewsTrust 2007 - L'offre mdia actuelle est surabondante dans tous les domaines (TV, presse, mobiles, Internet) ; cest le client qui devient la ressource rare et cela transforme les mcanismes de fidlisation ! Ensuite, les modes de consommation se fragmentent (dlinarisation en TV, catch-up TV) : le consommateur papillonne dsormais sur diffrents supports et mdias dans une logique en rupture avec celle des grands rendez-vous mdias dantan. Enfin, on voit une migration des consommateurs vers de nouveaux crans : 90 % des Franais ont un mobile, 40 % ont un lecteur MP3 10 millions de Franais surfent sur Internet avec leurs tlphones mobiles On observe aussi que le poids dInternet dans ces volutions est absolument majeur : Internet reprsente aujourdhui 7 % du march publicitaire mondial ; la croissance des dpenses publicitaires sur Internet a t de + 40 % par an depuis 2003 (contre 2 3 % pour les autres supports). Tout cela interpelle les acteurs mdias traditionnels ! Et cela pose des questions absolument fondamentales en matire de conqute et de fidlisation de laudience. Je vois donc dans le dveloppement de ce Web 2.0 communautaire quelque chose que les mdias traditionnels doivent absolument prendre en compte dans leur logique de fidlisation de laudience. Il y a une force propagatrice absolument incroyable du Web 2.0 : elle va forcment multiplier les communauts et celles-ci vont crer leurs propres contenus. - Dominique Gautier, Partner, Roland Berger Strategy Consultants (conf. Futur des mdias Dcembre 2007) - On est confront une forme de paradoxe dans lvolution des usages. Dun ct on observe un dveloppement exponentiel des nouveaux usages, et, de lautre, on constate la difficult des industriels mesurer et extrapoler limpact de ces nouveaux usages sur les marchs de demain. Il y a trois raisons ce paradoxe. La premire est la raison du temps. Linnovation est trs rapide et la prise de recul est impossible. La deuxime est quil est difficile disoler ces usages. On ne peut donc donner des chiffres sur chacun de ces usages, pris isolment. La troisime raison est que les marchs sont tirs autant par les consommateurs eux-mmes que par les marqueteurs. On continue baigner dans le syndrome du SMS, avec des jeunes gnrations qui crent leurs propres rgles. Trois caractristiques me paraissent cependant assez fortes concernant les nouveaux usages. Dcembre 2007 page 2
  • 3. Yves Simon Social Computing - autour du web smantique La premire est le sentiment de superposition des usages et des technologies. La demande sur les consoles de jeu et sur liPhone dmontre cette boulimie de technologies, laquelle vont sadjoindre les nouveaux usages. La seconde caractristique est lextension du numrique tous les domaines, photo ou musique, avec une mobilit quasi addictive. La mobilit est devenue un droit, une ncessit ! La troisime caractristique tient aux contenus. Ils sont de plus en plus segmentaires, sadressant des niches. Les grands mdias traditionnels sont obligs dintgrer dans leur stratgie cette dmarche dite de long tail . Quelques chiffres pour clairer ces trois ides : Les utilisateurs consomment plusieurs mdias la fois pour 30 % dentre eux. Pour les 15-24 ans, ce taux passe 60 ou 70 %. Huit internautes sur dix dclarent consommer des contenus convergents. FaceBook enregistre 250 000 nouveaux abonns par jour dans le monde. Il y a un milliard de recherches par jour sur Google dans le monde et 90 millions en France. A cot de cela, il y a des comportements surprenants qui perdurent : 13 15 millions de magazines tl sont vendus chaque semaine. Le temps dcoute devant la tl ne bouge pas. Le modle est donc moins homogne quavant, avec une difficult isoler les usages et les analyser. Nicolas Teisseyre, Senior Partner, Roland Berger Strategy Consultants (conf. Futur des mdias Dcembre 2007) - Le social mdia c'est discuter avec le public, pas lui parler. Notre dmarche a t de crer un site gratuit dinfos qui ne soit pas adoss un groupe industriel ou financier existant. Nous avons ensuite effectu un double pari rdactionnel et conomique. Le pari rdactionnel tait dassocier le journaliste professionnel la culture participative dInternet. Pour gagner ce pari, nous avons estim quil valait mieux partir dune page blanche plutt que de rester dans une structure traditionnelle (Libration). Le pari conomique concerne deux facettes. Dabord, on est parti dlibrment sans investisseurs, avec des amis et nos familles. Puis, on a choisi tout de suite un modle gratuit car nous voulons tre un mdia participatif. Nous avons en effet lambition de construire une communaut sans barrires autour du site. Les recettes publicitaires sont au rendez-vous et elles compensent depuis novembre nos cots qui sont cependant artificiellement trs bas (les fondateurs ne se payent pas ; les salaires sont trs bas). Aprs 7 mois dexistence, cest pas mal ! Par ailleurs, nous dveloppons des activits de prestations de services (sites cls en main). Nous visons terme un CA constitu de 70 % de recettes publicitaires et de 30 % de prestations de services. Une 3me source de revenus apparat dune faon inattendue : la ventes de nos contenus aux TV ; on va voir comment cela va voluer. Mme si nous ne vendons pas nos infos aux internautes, nous devons justifier notre dmarche ; cest pourquoi notre contenu est trs forte valeur ajoute ; notre modle est bas l-dessus et il est valid aprs quelques mois dexistence. - Pierre Haski Prsident et Directeur de la publication, Rue 89 (conf. Futur des mdias Dcembre 2007) Les applications web de type MySpace, Youtube, Wikipdia, Amazon deviennent de vritables lieux de socialisation et d'agrgation de contenus permettant d'apprhender au mieux leurs contextes. Effectivement, les lecteurs parlent aux lecteurs, partagent leurs avis, recommandations, mots cls, videos, images, sons relatifs aux contenus et dveloppent donc tout autant de mtadonnes parfois plus parlantes que les donnes elle-mmes et ncessitant des traitements pointus d'indexation et de normalisation pour leur bonne restitution et donc leur bon usage. Nous avons besoin de trouver le plus rapidement possible la bonne information travers des silos d'informations volumineux sur le web, dans nos systmes d'informations et nos organisations. De multiples silos d'informations sont aujourdhui disponibles pour chaque sujet que nous devons traiter. Dcembre 2007 page 3
  • 4. Yves Simon Social Computing - autour du web smantique Figure 1 : L'explosion du volume de donnes accessibles Les technologies de l'information doivent nous proposer de nouveaux espaces de dcouvertes. Dcouvertes de personnes travers des informations (donnes, centres d'intrts ...) qui nous relient elles et cration / dcouvertes d'informations par l'exploitation des carts entre "patrimoines informationnels" (Users Generated Contents UGC). Les deux grands principes dun modle de longue trane sont (selon Chris Anderson): Rendre tout disponible Aider le client trouver ce quil cherche Mais actuellement, le principe mme des Rseaux sociaux, fait que le deuxime principe est rarement appliqu ; ou moyennant paiement. Associs ces principes, six rgles de fonctionnement : Faire le plus possible travailler les utilisateurs Oublier que les produits sont figs et ont un prix unique Accepter la gratuit comme cot de commercialisation Possder un inventaire large de produits ou de fonctionnalits Dvelopper une vraie notorit professionnelle Saffranchir de la barrire linguistique Dcembre 2007 page 4
  • 5. Yves Simon Social Computing - autour du web smantique Le Social Web : la prise en compte des besoins dune multitude de communauts dynamiques : 7ime tendance IDC 2008, une anne de rupture : A moins de vivre dans un monastre tibtain, vous n'avez pu que constater le dveloppement rapide des rseaux sociaux, de MySpace YouTube en passant par Digg et Wikipedia. Ce phnomne va entraner une avalanche de donnes quelque 400 milliards de Go (contre 225 milliards en 2007). Toutefois, plutt que d'aider les entreprises et les particuliers dcouvrir la sagesse des foules (Wisdom of crowds), IDC pense que cette explosion de donnes non structures va plutt engendrer une sorte de cacophonie. Pour donner du sens ce dluge d'informations, de nouveaux logiciels devraient voir le jour en 2008. IDC met toutes ces applications dans un domaine baptis Eureka 2.0. Ces applications vont pouvoir extraire du sens de tonnes de textes, des impressions, des sentiments... tout cela entrant sous le concept de recherche smantique. Ce type de logiciels devrait aider les entreprises suivre les perceptions de marques, le niveau de satisfaction clients et faire clore de nouvelles ides de produits. Dcembre 2007 page 5
  • 6. Yves Simon Social Computing - autour du web smantique Le web smantique, cest quoi ? Le web smantique, c'est lvolution du web (un ensemble de serveurs proposant de visualiser des pages web plus ou moins dynamiques associes des services web) vers une gigantesque base de donnes rparties semi structure. Ainsi la navigation sur le web passe du concept dhypertextes celui dhyperdonnes, donc dmultiplie les possibilits de relations (et donc de navigation et d'indications) entre "objets" du web, donc l'atomise, l'enrichit et l'approfondit considrablement. Le web smantique, c'est, selon Nova Spivack, un web en "HD" / "haute rsolution" qui permet des modes d'accs multiples (navigation facettes) des informations enrichies d'informations contextuelles multiples (mtadonnes). Figure 2 : Visualisation d'un rseau d'informations de type RDF relies entre elles travers des liens typs Le concept du web smantique n'a rien voir avec la smantique au sens large, c'est le nom donn pour qualifier les applications qui vont supporter les standards du W3C : RDF, OWL, SPARKLE, SWRL, GRDDL mais aussi certains standards de reprsentation d'informations comme HR-XML, FOAF, Open ID qui avancent vers la maturit et deviendront rapidement les normes de facto du web smantique ... Les donnes ainsi cres pourront tre facilement exploites par diffrentes applications comme elles pourront provenir de multiples applications diffrentes comme Wikipedia, Amazon, Flickr, Delicious, Youtube, Dailymotion, Google Social, Linkedin, Facebook ... Dcembre 2007 page 6
  • 7. Yves Simon Social Computing - autour du web smantique Lopportunit rside dans le graphe smantique et sa capacit rassembler diffrentes types dinformations comme les projets, les vnements, les groupes, le multimdia, les documents, les pages web, les services, les produits, les emails, les personnes, les socits, les lieux, les centre dintrts, les activits, les news Ce rassemblement dinformations structures et non structures va permettre de proposer des rsultats de recherche dinformations plus pertinents, des publicits mieux cibles, une gestion de projets plus efficace grce une collaboration plus troite et un partage des informations plus fluide, des contenus plus riches, des recommandations plus fines et prcises, etc Figure 3 : Interrelations entre informations de nature diffrentes Les liens que l'on peut dcouvrir travers l'analyse des donnes, des contenus et des contextes autour des informations et des personnes sont le socle relationnel sur lequel est base lintelligence dune application du web smantique (plateforme Twine entre autres). Cest aussi un socle primordial une utilisation avre des technologies de cartographie dinformations. Aussi, plus on augmente le taux de connection entre donnes par leur enrichissement (mtadonnes) et leur organisation les unes par rapport aux autres (calculs de proximits, corrlations, dfinition de critres de pertinence, de contextualisation), plus on est capable de rapprocher automatiquement les contenus des utilisateurs. Dcembre 2007 page 7
  • 8. Yves Simon Social Computing - autour du web smantique Figure 4 : Vers un web plus intelligent De cette faon, nous nous affranchissons progressivement de la recherche d'information traditionnelle par mots cls vers l'interaction (web 2.0 Tagging O term search), la recherche en language naturel et la recherche smantique pour nous orienter vers une intelligence artificielle "hybride". Celle-ci est le fruit d'une vritable convergence de tendances gnrales exprimes par des experts reconnus dans des domaines spcifiques et d'algorithmes de choix bass sur la reconnaissance automatise de donnes comme vos habitudes informationnelles et celles de votre entourage immdiat ... Beaucoup d'algorithmes existent aujourd'hui pour dmultiplier les capacits d'accs l'information des utilisateurs et des publications sur les principaux indicateurs lis aux contenus. Ces contenus sont devenus poliformes et se rpartissent selon des cls d'aggrgations volutives, dynamiques qu'il convient de traiter au mieux pour correspondre aux attentes de personnalisation des utilisateurs. Enfin, la dynamique des communauts d'usages des nouvelles technologies ncessite des outils de mesure novateurs. Leur laboration reprsente un champ de recherches considrable. Quand 40% des consommateurs amricains s'attendent ce que les sites de ecommerce leur proposent des promotions cibles en fonction de leurs profils d'achats, il n'est plus possible de remettre en cause la pertinence des algorithmes de calculs de proximits et de corrlations. Aussi, la personnalisation progressive des rsultats produits sur les applications sera possible grce une historisation exhaustive de l'usage de celles-ci (recherches, achats, commentaires, etc ...) qui devra permettre d'entretenir et de dvelopper des liens de proximit avec les utilisateurs (alertes, interactions, reconnaissance et suggestions ...) mais aussi d'amliorer l'organisation des listes de rsultats et les outils d'accs ceux-ci. Il existe 5 niveaux dans l'approche smantique : 1/ Social - Tagging - Folk/ production de mots cls qualifiant des contenus par des utilisateurs Facile crer, utiliser, stocker, traiter (pas d'algorithmes, pas d'ontologies maintenir ...), pas de technologies mettre en oeuvre ... mais trop basique, comporte trop dapproximations pour tre vraiment utile, manque doutils de normalisation statistiques et linguistiques. Exemples Technorati, Del.icio.us, Flickr, Wikipedia Dcembre 2007 page 8
  • 9. Yves Simon Social Computing - autour du web smantique 2/ Statistiques / calculs d'occurences et de cooccurences pour dfinir les mots cls qualifiant des contenus non structurs automatiquement Algorithmes purement mathmatiques, statistiques, capables de fonctionner sur de larges chelles, indpendant du language, produit rapidement des agrgats et des indicateurs ... Pas de comprhension du contenu, tributaire des volumes sans permettre de trouver finement ce qui est recherch. N'est pas adquat pour les donnes structures. Exemples : Google, Lucene, Autonomy 3/ Linguistiques / extraction d'entits nommes la plus fine possible Dtection de la langue, extraction d'entits, mise en correspondance travers des tables de synonymes, listes de rsultats en relation prcise avec les requtes des utilisateurs. Demande des ressources machines plus importantes, plus difficile monter en charge, beaucoup d'erreurs rsident, demande un effort et une maintenance lourds pour chaque langue traite. Exemples : Inxight, Attensity, Powerset, Hakia ... 4/ Web smantique / mise en relation de contenus travers des descripteurs et des usages convergents Positionnement de RadarNetworks, DBpedia Project, Metaweb Requtes plus prcises, applications bien dveloppes, rapidement. Ne requiert pas trop de ressources machines ???, fonctionne pour les donnes structures et non structures. Interoprable entre plusieurs applications (API). Peu d'outils, difficile de monter en charge, qui cre les mtadonnes ? 5/ Intelligence Artificielle / rutilisation de l'ensemble des approches prcdentes pour que l'application interagisse intelligemment et de faon volutive avec ses utilisateurs ... Fonctionne bien dans des domaines restreints, rpond correctement aux questions, raisonne et apprend ... Demande des ressources machines importantes, difficults monter en charge, difficile programmer et universaliser, l'apprentissage demande beaucoup de travail. Exemple de socit : Cycorp ? Il y a deux faons de "pousser" le web vers un web smantique : Bottom-Up : ajouter des mtadonnes smantiques aux pages et aux contenus des bases de donnes. Cela implique que chaque site web fasse la dmarche de "smantiser" son contenu, donc d'apprendre RDF et OWL ... Top-Down : gnration automatique de mtadonnes smantiques par domaines verticaux donc crer des services (applications web) qui vont faire la moulinette entre le web non- smantique et le web smantique. Dans ce cas, personne n'a plus besoin d'apprendre le RDF et l'OWL ... ref : Alex Iskold Dcembre 2007 page 9
  • 10. Yves Simon Social Computing - autour du web smantique En pratique les approches hybrides associant diffrentes techniques fonctionnent mieux. Le web smantique est un facilitateur : Par l'association directe de l'intelligence (mtadonnes) aux donnes plutt qu' travers des applications ... Les donnes se suffisent alors elles mme, les lments de comprhension (contextualisation) des donnes font partie des donnes. Les applications peuvent concentrer leurs fonctionnalits sur de nouveaux usages, autour de donnes plus faciles prendre en compte. Les donnes peuvent tre partages et lies les unes aux autres plus facilement. L'alliance de diffrentes technologies (type moteur de recherche) permettant la mise en oeuvre de fonctionnalits tendues valorise fortement les contenus par leur enrichissement et en facilite l'accs sous diffrentes facettes donc en augmente l'usage nombre d'utilisateurs constants (et donc le temps d'audience et le stock de pages disponibles pour des annonceurs). Les standards du web smantique : RDF : Resources Description Framework : un mta-langage spcialis dans les mta donnes qui permet d'associer un objet un autre objet travers un lien logique dcrit. OWL : Web Ontology Language : langage informatique utilis pour modliser des ontologies, ensemble de concepts et connaissances Sparql : permet d'exprimer des requtes interrogatives ou constructives adaptes la structure spcifique des graphes RDF. Plus sophistiqu que le SQL SWRL : Semantic Web Rule Language (OWK + RuleML). Permet de dcrire des natures de relations dduites entre "objets" ... Cette personne ayant un pre ayant un frre dispose donc d'un oncle ... GRDDL : Gleaning Resource Descriptions from Dialects of Languages. Permet de transformer des donnes en provenance de diffrentes sources (ex. microformats) en RDF pour les assembler et les rutiliser dans un autre cadre (hybrider - mashup) ... Voir : http://www.yoyodesign.org/doc/w3c/grddl-primer/ Le web smantique est le concept de donnes autodcrites et lies entre elles Fusionner des bases de donnes en RDF est simple, le web devient une base de donnes dynamique ... Dcembre 2007 page 10
  • 11. Yves Simon Social Computing - autour du web smantique RDF/OWL ne sont pas les seules faons de gnrer un web smantique, d'autres voies sont ouvertes grce aux fils de tags, aux plans de classements, aux tsaurus, aux microformats, aux entits nommes, des modes de reprsentation de mtadonnes alternatifs. Existe t il un web smantique ou plusieurs ? La rponse est ... les deux ... Le web smantique est un web de webs smantiques, chacun de nous peut avoir son propre web smantique Dcembre 2007 page 11
  • 12. Yves Simon Social Computing - autour du web smantique Pourquoi cela a t il prit autant de temps ? La vision originelle tait trop oriente Intelligence Artificielle Les technologies et les outils ntaient pas encore matures (capacits de traitements, stockages, enrichissement, restitution, rutilisation ) Le besoin de donnes utilisables par diffrentes applications sur le web n'tait pas clairement identifi ... La recherche par mots cls et l'organisation par tags taient suffisants ... dans le contexte dune application, pas dun web dapplications Les utilisateurs nont pas ide de la qualit des traitements que les technologies peuvent proposer et donc de la qualit potentielle des applications de demain Beaucoup d'incomprhensions clarifier ... Passer le guet (crossing the Chasm) : Communiquer sur l'interoprabilit des donnes, pas sur l'intelligence artificielle L'vanglisation du march passe par une bonne communication sur l'intrt d'utiliser ces standards. Les standards et les technologies arrivent maturit Les besoins des utilisateurs voluent, leurs attentes vont de plus en plus vers des applications capables de leur fournir des rsultats sans qu'ils aient besoin de rentrer des mots cl ou des tags nouveau. Les services web doivent rendre leurs donnes accessibles aux autres applications dans le format le plus universel possible. Beaucoup d'entreprises commencent gnrer des donnes enrichies. Il y aura bientt beaucoup de donnes de ce type disposition ! Dcembre 2007 page 12
  • 13. Yves Simon Social Computing - autour du web smantique Agenda : 2007 - 2009 : Early Adoption 2010 - 2020 : Adoption de masse 2020 - + : Nouveau cycle ... Le futur du web : 1980 : l'ordinateur individuel est la plate forme 1990 : le navigateur devient la plate forme 2000 : le web est la plate forme 2010 : la toile est la plate forme 2020 : le rseau est la plate forme 2030 : le corps humain est la plate forme ? Figure 5 : de l're des PC au Web 4.0 ... Dcembre 2007 page 13