Du Big Data à la Smart Information : comment valoriser les actifs informationnels de votre...

80
Du Big Data à la « Smart Information » : comment valoriser les actifs informationnels de votre entreprise ? Pierre Col – Directeur Marketing [email protected] @PierreCol

Transcript of Du Big Data à la Smart Information : comment valoriser les actifs informationnels de votre...

Le big data valorise la smart information de votre entreprise

Du Big Data la Smart Information : comment valoriser les actifs informationnels de votre entreprise ?Pierre Col Directeur Marketing [email protected] @PierreCol

Pierre Col @PierreCol

19781963

1983

1986

199620072010

#

Avant de nous prsenter, une petite question : qui ici tait n en 1978 ? Peu de monde et cela confirme ce que laisse penser ma barbe blanche : je suis devenu un vieux con de linformatique :-)En 1978, g de 15 ans, je codais mon premier programme en assembleur Z80 ensuite aprs une cole dingnieurs en informatique et intelligence artificielle jai vu passer plusieurs vagues technologiques et pas des moindres : jai dabord co-crit un logiciel serveur pour le web 0.0, celui quon consultait sur un petit cube marron avec un cran N&B de 24 lignes par 40 caractres Puis jai vu les dbuts du web il y a un peu plus de 20 ans et travaill pour un des principaux hbergeurs franais, Jet Multimdia, depuis vendu SFR. Jai ensuite accompagn le lancement de quelques startup lyonnaises avant de rejoindre lditeur de logiciels lyonnais Antidot. Je tiens aussi un blog chez ZDNet France o je parle dinfrastructures Internet. Si jai tenu parler devant vous, cest parce que je considre que la combinaison du web, du big data et de lintelligence artificielle via le machine learning va apporter une acclration extraordinaire, non seulement de linformatique mais de toute lhumanit.

2

Antidotditeur de logicielsMoteurs de recherche| enrichissement des donnes Depuis 1999 | Paris, Lyon, Aix-en-Provence48 collaborateurs, +200 clientsMission : dlivrer nos clients des solutions hautement configurables et innovantes qui crent de la valeur partir de leurs donnes et augmentent leur performance oprationnelle

#

Antidot est un diteur de logiciels lyonnais, qui travailel depuis 15 ans apporter des solutions logicielles pour que les entreprises valorisent mieux leurs informations et leurs donnes3

Parmi nos clientsProduction de contenus

Industrie

E-Commerce

Sant

#

Nous avons des clients dans tous les secteurs, principalement ceux-ci.4

AgendaDu Big Data la Smart Information : quelle approche ?Linked Enterprise DataQuels outils pour crer la Smart Information ?Web de donnesMachine LearningExemples varis

#

Voici de quoi je vais vous parler aujourdhui.5

Du Big Data laSmart Information :quelle approche ?

#

Quest ce que le Big Data ?VolumeVlocit Varit Valeur

Les 4 V portent les enjeux du Big Data

#

Le Big Data se dfinit par la combinaison des 4 V et vous allez voir pourquoi nous considrons que les 2 derniers, Varit et Valeur, sont troitement lis.7

Exploiter la varit - Crer la valeurNe pas senfermer dans une approchetrop technologique lie la volumtrie des donnesla vlocit de traitementNe pas se focaliser uniquement sur les donnes structures numriques

#

Limiter le Big Data aux donnes structures ce qui peut rentrer dans un tableaux Excel, mme gigantesque cest passer ct dnormment de valeur.

8

Exploiter la varit - Crer la valeur

#

Cette tude de 2012 montre la sous-exploitation des donnes non structures9

Exploiter la varit - Crer la valeur

#

Les donnes non structures sont partout dans lentreprise.10

Exploiter la varit - Crer la valeurIl faut tirer profit de lnorme gisement de valeur des donnes non structures : documents bureautiques, courriels GED gestion lectronique de documentsCRM gestion de la relation clientsERP outils de gestion dentrepriseet de toute leur richesse smantique !

#

Toutes les applications produisent des donnes non structures : comment en exploiter le sens ?11

http://www.flickr.com/photos/jimgris/281139738/Changer de paradigmeSige social dOracle, lditeur du SGBDR le plus utilis dans le monde, dans la Silicon Valley

#

Quand on voit le sige social dOracle, principal diteur de logiciels de bases de donnes, on comprend pourquoi la vieille logique des silos de donnes est si prgnante, encore aujourdhui

Changer de paradigmeNe plus considrer les applications mais SEULEMENT LES DONNES

#

Les donnes sont le principal actif dune entreprise. Des entreprises sont mortes davoir perdu leurs donnes.13

Relier les donnesMettre les donnes de lentreprise en commun, les mailler au niveau le plus fin

#

En reliant des donnes et documents, on cre de la smart information14

Faire merger limplicite

#

Le courriel envoy par le client X de lentreprise E au commercial Y de votre entreprise parle du projet P, qui implique les produits A et B, etc15

Crer des objets informationnels mtier

#

La smart information nest pas gnrique, elle est produite dans un contexte mtier.16

Quels outils ?Le web de donnes

#

Web de donnes - web smantiqueUne fois de plus la solution vient du Web qui apporte des standards reconnus

#

Le W3C http://w3c.org est lorganisme international indpendant qui standardise le web.18

Web de donnes Web smantique Nouvelle volution du Web dans laquelle les ordinateurs peuvent publier, capter et changer des donnes de faon automatique et non ambiguLe Linked Data consiste lier ces donnes et transformer le Web en une gigantesque base de connaissances distribue

#

Le web smantique, concrtementCertains en parlent

dautres le font !

#

Car le web smantique est lobjet de nombreuses confrences et travaux de recherche depuis des annes, mais cest aussi dj une ralit industrielle, notamment pour Google avec le Knowledge Graph20

Le web smantique, concrtement

#

Pour construire son "graphe de connnaissances", Google agrge des contenus structurs, issus notamment de Freebase (rachete en 2010) du World Fact Book de la CIA et de plus en plus de Wikidata, la base de donnes structure de Wikipedia.21

Le web smantique, concrtement

KnowledgeGraph

#

Le Knowledge Graph, ce sont ces informations factuelles situes dans une bote droite des rsultats de recherche ici pour Antidot o nous travaillons22

KnowledgeGraph Le web smantique, concrtement

#

Ici pour IDRAC, qui nous a fourni un alternant de bon niveau23

Knowledge Graph Le web smantique, concrtement

#

remarquez que Google y partage une information quil dtient, comme les avis ou les recherches associes, ici avec dautres coles de management.24

Le web smantique, concrtement

KnowledgeGraph

#

Le Knowledge Graph permet Google de rpondre directement des questions, ici sur la population de la France, avec une synthse dinformations fiables et pertinentes.25

Le web smantique, concrtement

Knowledge Graph

#

Le Knowledge Graph propose galement de linformation culturelle, ici avec une frise donnant accs une info synthtique sur les peintres impressionnistes 26

KnowledgeGraph Le web smantique, concrtement

#

et l sur le chanteur Renaud27

Le web smantique, concrtement

Knowledge Graph

#

pour lequel sont donns des lments biographiques et aussi un accs direct ses principales uvres, mme si mes yeux il manque la chanson Hexagone, victime de la censure giscardienne quand jtais lycen et codeur dbutant, et que je vous invite couter ;-)

28

Le web smantique, concrtement

KnowledgeGraph

#

En cliquant sur lalbum Laisse bton, on a une information trs complte sur son contenu et une frise de tous les autres albums, toujours sans quitter Google !

29

Tim Berners-Lee verbatim The Semantic Web is a web of data, in some ways like a global database The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation

#

Ce que commence faire Google avec le Knowledge Graph rpond exactement la vision de Tim Berners-Lee, qui a thoris le web de donnes il y a prs de 15 ans (une base de donnes globale pour favoriser la coopration hommes-machines)...30

Raw data now ! fvrier 2009

http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr

#

avant de lancer le mouvement du Linked Open Data en 2009, dans une confrence TED demeure clbre et que je vous invite revoir, en version sous-titre.31

http://www.flickr.com/photos/jimgris/281139738/Lide : casser la vieille logique des silos de donnes cloisonnesSige social dOracle, lditeur du SGBDR le plus utilis dans le monde, dans la Silicon Valley

#

Quand on voit le sige social dOracle, principal diteur de logiciels de bases de donnes, on comprend pourquoi la vieille logique des silos de donnes est si prgnante, encore aujourdhui

pour partager la donne structure sur un espace dcentralis : le webUn Web de documents

Documents relis par des liensPas de structuration smantiquePas de requtes structures

#

Ca cest le web des annes 90, avec des hyperliens reliant des documents texte, sans vraie structure33

pour partager la donne structure sur un espace dcentralis: le webPuis un Web dapplications

Donnes exposes travers des APIAPI valables uniquement pour un siloPas dinteroprabilit entre les silos

#

Ca cest le web des annes 2000, avec des API permettant daccder aux donnes, chaque fournissseur de donnes apportant son API spcifique34

pour partager la donne structure sur un espace dcentralis : le webEt maintenant un Web de donnes

Web de donnes = espace unifiLiens entre les donnes elles-mmesAPIs remplaces par des standards ouverts

#

Et a cest le web smantique, qui a pris son essor dans les annes 2010 : les liens se font au niveau le plus granulaire, entre les donnes elles-mmes !Comment est-ce possible ? 35

Une condition ncessaire : assurer linteroprabilit des donnes structuresTransport

#

Le web fonctionne selon un modle en couches : HTTP standardise le transport des donnes36

Une condition ncessaire : assurer linteroprabilit des donnes structuresSyntaxe

#

XML simplifie lchange direct des donnes, sans transcodage ou conversion de format37

Une condition ncessaire : assurer linteroprabilit des donnes structuresSmantique

#

Reste mettre derrire les donnes une smantique, indpendante de la langue que parlent les internautes cest le rle des ontologies38

Un langage pour les machinesUne grammaireLe vocabulaireDes rglesdcritureDes moyens de communicationRDFRDFS / OWLOntologieRDF/XMLN3, TurtleRDFaHTTPSPARQL

#

Voici les standard du web smantique, tels quils sont valids par le W3C39

Standards : le layer cake aujourdhui

Dj normalis ou en cours de normalisation au W3C

#

Ils forment un socle prouv pour des applications industrielles et prennes mme sil reste encore un peu de travail, notamment dans les couches suprieures, et particulirement en ce qui concerne la confiance que lon peut accorder aux donnes disponibles sur le web.40

Le Linked Open Data Cloud - 2014

#

Voici le Linked Open Data Cloud, le nuage des donnes ouvertes lies accessibles directement et librement sur le web.Je laisse maintenant la parole Julien, jeune Jedi du web smantique, qui va vous montrer en quoi cest un sabre laser aussi puissant que prcis !

41

Exemple :Muses de France

#

Le cur du mashupConstruire un site agrgeant des informations sur les muses de France Usages : une ide gnrale de lusage dvelopperDonnes : choix du jeu de donnes principal

#

Des jeux de donnes complmentaires

#

Modlisation des donnesMuse(data.gouv.fr)Muse(MCC)Muse(Wikidata)Catgo Muse(Commons)Muse(BnF)Livre(BnF)Oeuvre(Wikidata)Artiste(Wikidata)POI(OSM)Identifiant MuseofileNom du museCoordonnes gographiques

#

Objectifs fonctionnelsPour linternaute : une porte dentre

Se projeter immdiatement dans la visite

#

Objectifs fonctionnelsPour les professionnels : un tableau de bordCentraliser linformation pour faciliter la curation des donnes

#

Construire linterface utilisateurUne page Une page agrgeant de recherche les donnes

#

Construire linterface utilisateurUn onglet thmatique par jeu de donnes :uvres

#

Construire linterface utilisateurUn onglet thmatique par jeu de donnes :Artistes

#

Construire linterface utilisateurUn onglet thmatique par jeu de donnes :Bibliographie

#

Construire linterface utilisateurUn onglet thmatique par jeu de donnes :Imagesduvres

#

Construire linterface utilisateurUn onglet thmatique par jeu de donnes :Rseaux sociaux

#

Construire linterface utilisateurUn onglet thmatique par jeu de donnes :POIalentour

#

Ce mashup / dmo est en ligneLes Muses en France : http://bit.ly/MuseesFrance

Profitez-en pour vos week-ends !

#

Quels outils ?Le Machine Learning

#

Quest ce que le Machine Learning ?Dfinition : Facult donne un ordinateur dapprendre un comportement partir dexemples

Fondement scientifique : Intelligence Artificielle (IA)

#

LIntelligence Artifi-quoi ?

#

Loi de Moore.Plus de donnes grce au Big Data et aux objets connects.58

Re-re-renaissance de lIALIntelligence Artificielle a t inventedans les annes 70Elle est de retour sur le devant de la scneDeux facteurs principaux :Le dveloppement de la puissance de calculLa disponibilits accrues des donnes !

#

Loi de Moore.Plus de donnes grce au Big Data et aux objets connects.59

Lvnement qui change tout

#

2011 : victoire dIBM Watson sur les deux meilleurs champions de Jeopardy. plate couture.Evnments prcurseurs (source Wikipedia) : le 11 mai 1997,Deep Blueest devenu le premier systme informatique de jeu d'checs battre le champion du monde en titre,Garry Kasparov134. En 2005, un robot de Stanford a remport leDARPA Grand Challenge en conduisant de manire autonome pendant131millessur une piste de dsert sans avoir fait de reconnaissance pralable135. Deux ans plus tard, une quipe de Carnegie-Mellon remporte leDARPA Urban Challenge, cette fois en navigant en autonome pendant55millesdans un environnement urbain tout en respectant les conditions de trafic et le code de la route136. En fvrier 2011, dans un match de dmonstration dujeu tlvisJeopardy!, les deux plus grands champions de Jeopardy!, Brad Rutter et Ken Jennings ont t battus avec une marge confortable par lesystme de questions-rponsesconu par IBM, aucentre de recherche Watson137. https://fr.wikipedia.org/wiki/Histoire_de_l%27intelligence_artificielle 60

Lvnement qui change toutPuissance de calcul : 100 serveursDonnes disponibles : 200 millions de pages

#

Si on y rflchit deux fois, 200 millions de pages ce nest pas grand chose lchelle de linformation disponible sur le web.61

Lvnement qui change tout

#

Le systme analyse la question et recherche les rponses potentielles en puisant dans un historique des questions/rponses Jeopardy et dans une base documentaire.Mais la particularit du systme rside dans la faon dont les rponses potentielles trouves sont choisies. Les ingnieurs dIBM nont pas dvelopp un algorithme dcisionnel classique pour parvenir ce choix, ils ont laiss la machine apprendre quelles sont les bonnes rponses de sorte que nul ne peut dfinir aujourdhui quel est lagencement de paramtres rellement utilis par Watson lorsquil fait ce choix.62

Machine Learning : les principesDire si un logement se trouve New York ou San Francisco

Altitude des logementsConcept dattributCrdit : http://www.r2d3.us

#

http://www.r2d3.us/visual-intro-to-machine-learning-part-1/63

Machine Learning : les principesDire si un logement se trouve New York ou San FranciscoConcept de modle dentrainement

#

Donnes dentrainementDonnes de testMachine Learning : les principesDire si une maison se trouve New York ou San FranciscoConcept de surentranement

#

Quest-ce que le Deep Learning ?Se base sur les algorithmes de type rseaux de neuronesLe systme dcouvre lui-mme les attributs et construit seul le modle dentranementIl nest pas certain quun humain puisse comprendre comment fonctionne vraiment le modle !

#

Quest-ce que le Deep Learning ?Peut mme aller jusqu saffranchir dune base dentrainement : pas de documents tiquets, apprentissage non supervisAvnement rendu possible par la puissance des GPU - Graphic Computing Units - trs adapts ce type de calcul

#

Quest-ce que le Deep Learning ?

#

Wired : Googles Artificial Brain Learns to Find Cat Videoshttp://www.wired.com/2012/06/google-x-neural-network/68

Machine Learning : pour quoi faire ?Reconnaissance du texte - y compris manuscrit - et de la voix humaineTraduction automatiqueText Mining : extraction dinformations signifiantesAide la recherche dinformation

#

69

Machine Learning : pour quoi faire ?Assistants personnelsAssistance au diagnostic mdicalSmart citiesScurit informatiqueRobotique

#

Machine Learning : pour quoi faire ?

Boston Dynamics a t rachet par Google en 2013

#

Le Machine Learning chez AntidotEnrichirTrouver

SearchSemantic & Complex

Machine Learning

Graph & Linked Data

#

Classification automatique

#

Issu du site de notre client http://www.rechercheisidore.frClassification automatique de 4 millions de documents de recherche en sciences humaines et sociales selon plus de trente disciplines.73

Classification automatique

#

Issu du site de notre client http://www.rechercheisidore.frClassification automatique de 4 millions de documents de recherche en sciences humaines et sociales selon plus de trente disciplines.74

Classification automatique

#

Issu du site de notre client http://caij.qc.caClassification automatique de 1,5 millions de dcisions de justice (ie jurisprudence) selon plus de 100 domaines de droit.75

Enrichissement smantique

#

Portail dinformation juridique, 5 millions de documents de toutes sortesSuggestions de recherches smantiques76

Enrichissement smantique

#

Portail dinformation juridique, 5 millions de documents de toutes sortesFiltrage des informations selon des mtadonnes mtier.77

Extraction dentits

#

Implment au journal Le Point pour assister ltiquetage des articles de la rdaction.78

Les avantages du ML pour le Text Mining

#

Meilleure qualitPeu dadhrence la langueTemps de traitement courts, temps de mise en uvre court, maintenance trs peu chronophage.79

Merci de votre attentionDes questions ?