Myriad Livre Blanc NLP-v4 · 2019. 7. 16. · modèles utilisés en NLP à l’heure actuelle. 1....
Transcript of Myriad Livre Blanc NLP-v4 · 2019. 7. 16. · modèles utilisés en NLP à l’heure actuelle. 1....
www.myriad-data.com Copyright © 2017
2
Glossaire
Big Data: Le Journal Officiel du 22 août 2014 préconise d’utiliser en français lemotmégadonnées. Ilendonneladéfinitionsuivante :donnéesstructuréesounon,dont letrèsgrandvolumerequiertdesoutilsd’analyseadaptés.
Deep Learning: ou apprentissage profond. Famille de méthodes de Machine Learning,permettantunapprentissageautomatiquedifférentparniveaudedétail,enutilisantdesréseauxdeneuronesartificiels.
SmallData:Iln’ypasdedéfinitionofficiellepourlesSmallData.C’estplutôtenoppositionauxBig Data, les «petites» données qui concernent la vie de tous les jours de l’entreprise (ex:donnéesdesticketsdecaisse,nombredeclientsayantpénétrédanslemagasin...)etsouventnonexploitées par les entreprises.Dès lors que ces données sont exploitées et que leur utilité estavérée,cespetitesdonnéesdevenues«intelligentes»sontsouventappeléesSmartDatas.
Machine Learning: ou apprentissage machine. Technique combinant la combinaison del’efficacité des modèles statistiques à décrire la réalité avec la puissance de traitement etd’automatisation de l’Informatique. La machine va donc «apprendre» son propre modèleprédictif en s’entraînant sur des données d’apprentissage. Cf le Livre BlancMyriad 2016 «LeMachineLearning,EnvolverslePrédictif»pourplusdedétails.
IntelligenceArtificielle: Ilexisteplusieursdéfinitionsdifférentesde l’IntelligenceArtificielle,maisdanssadéclinaisonactuelleauservicedesentreprises,onpeutdirequ’ellecorrespondàdes techniques informatiques permettant de réaliser des tâches, nécessitant des capacités deréflexion ou de calcul avancées pour des humains. Celle-ci contient notamment le MachineLearning,leNaturalLanguageProcessing,laComputerVision…
Sommaire
p.3:Introduction
p.5:LeNLP.Qu’est-ce?
p.7:LeNLP.Commentçafonctionne?p.8:LeNLP.Qu’est-cequeçapeutfaire?
p.10:LeNLP.Commentças’appliquepourl’entreprise?
www.myriad-data.com Copyright © 2017
3
Introduction
L’Intelligence Artificielle, en tant que partie prenante du processus de
digitalisation de l’entreprise, connaît un essor impressionnant sur grand nombre desecteurs d’activité et ses cas d’application se multiplient. Un des grands axes dedéveloppements de l’IA est constitué par la prise en compte et lamise en valeur desdonnéesnonstructuréesautrefoispeuutilisées.Unegrandepartiedecesdonnéesnonstructuréessontauformatdetextes,comme
• Lecontenudessitesinternetetleursmétadonnées• Lesmessagesdesréseauxsociaux• Leslogsdesmachines• Lesemails• Lesarticles,documents,présentationsauseind’uneentreprise• Leslivrespubliés
Aujourd’hui, l’IntelligenceArtificiellepeutvenirenrichir lescapacitésd’uneentrepriseen tirant partie de ces données textuelles, grâce à une technique appelée «NaturalLanguageProcessing»ouTraitementAutomatiqueduLangageNaturel.
Pour donner un ordre de grandeur de l’importance des données textuelles, nouspouvons voir la projection ci-dessous de la croissance mondiale des donnéesd’entreprise (Source: IDC, The Digital Universe 2010), ainsi que les statistiques desdonnéesderéseauxsociaux.
De manière simplifiée, on peut dire du NLP qu’il correspond à la partietextuelle/linguistiquede l’IntelligenceArtificielle.Or le texte/langageest justementlemoyen d’expression naturelle de l’homme. C’est en cela que le NLP constitue latechniquepermettantuneinterfaceinteractiveentrel’humainetlamachine.
www.myriad-data.com Copyright © 2017
4
Etant donné l’intérêt actuel duNLP, nous allons exposer dans ce livre blancce qu’estprécisémentleNaturalLanguageProcessing,lesmodèlessous-jacents,sespossibilitésetseslimites,etprésenterplusieurscasd’applications:
Ø gestiondescompétencesdansledomaineRH
Ø maintenancedansl’industrieØ analysedecommentairespourleRetail
Ø domainejuridiquepourlaconformitéproduit
Cescasd’applicationmontrentàquelpoint leNaturalLanguageProcessingpeutvaloriserdesdonnéestextuellessouventpeuutilisées.
McKinseyReport,Mars2017
L'automatisation des processus intelligents (IPA), qui regroupe entreautres le NLP et les agents cognitifs, fera partie intégrante desmodèlesd'exploitation de prochaine génération des entreprises. De nombreusesentreprises de tous les secteurs ont expérimenté cette technologie, avecdesrésultatsimpressionnants:
• Automatisationde50à70%destâches• cequisetraduitpardeséconomiesannuellesde20à35%• etuneréductiondutempsdetraitementdirectde50à60%
avec, au total, un retour sur investissement le plus souvent enpourcentagesàtroischiffres.
www.myriad-data.com Copyright © 2017
5
Définition et angles d’approche du NLP
LeNatural Language Processing, ou TraitementAutomatique du Langage, n’estpasunedisciplineneuve.Sonorigineremonteàlafindeladeuxièmeguerremondiale,avec des recherches portant principalement sur la traduction automatique entredifférentes langues. En 1954, un ordinateur réussit à traduire automatiquement 60phrases du Russe à l’Anglais. La publication en 1957 du livre Syntactic structuresparNoamChomskyfutunerévolutionpourledomaine.Ilymontranotammentqu’ilexistedescaractéristiquescommunesàtousleslangagesetinventauntypedegrammairequiconvertitlelangagenaturelenuneformecompréhensiblepardesordinateurs.
A partir des années 80, l’augmentation de la capacité de traitement desordinateurs, puis le développement d’Internet et de la communication textuellenumérisée (sms, emails, réseaux sociaux…), ainsi que plus récemment l’émergenced’infrastructures Big Data et d’algorithmes d’Intelligence Artificielle ont permis uneexplosiondescapacitésetdesapplicationsduNaturalLanguageProcessing.
Pointdevuedutyped’informationconsidérédansletexte.
Untexteestunedonnéetrèsriche,quicontientbeaucoupd’informationssouslaformesynthétiqued’unechaînedecaractèresquesontleslettres,leschiffresouautressymboles.Ilesteneffetrédigé/prononcéparunepersonnedansunstyleparticulier,ildépendd’uncontextedonnéainsiquedelalangueetdelaculturedelapersonne,etilvise à exprimer et transmettre un contenu objectif sur des événements extérieurs, cecontenuétantsouventaccompagnéd’uneopinionplussubjectivedecettepersonne.
Ainsi,suivant letyped’informationque l’onsouhaiteextraired’untexte, leNLPvapermettred’acquérir
• de laconnaissancesur le langageutiliséen lui-même(orthographe,grammaire,sensetconnotationsdesmots…)
• delaconnaissancesurlecontenudutexte(lemessagequelapersonneveutfairepasser)
• delaconnaissancesurlapersonneàl’originedutexte(style,sentiments…)
Définition
Le Traitement Automatique du Langage (ou «Natural Language Processing» enAnglais) correspond à un cycle automatisé par l’informatique delecture/correction/analyse de données textuelles pour en retirer différents typesd’information. Unedesesdéclinaisonsfréquemmentutiliséespourlarecherchededonnéess’appellele«TextMining».Deplus,leTraitementAutomatiqueduLangageestdenos jours souventsupportépardesalgorithmesd’IntelligenceArtificielleouMachineLearning.
www.myriad-data.com Copyright © 2017
6
• delaconnaissancesurlaréalitéextérieure(fiabilitéetadéquationdumessageàl’environnementdécrit)
Pointdevuedumoded’applicationdutraitementeffectué.Le but duNLP est d’arriver à extraire les différents types de connaissance décrits ci-dessusdemanièreautomatiquegrâceà l’informatique.Cecipeutse fairesuivantdeuxmodes:
• L’automatisationpeutêtredéterministe.C’est-à-direquelesprogrammeursvontimplémenterdesrèglesmétiersbiendéfiniespourletraitementetl’analysedesdonnées textuelles. Cela peut concerner la correction orthographique oul’identificationdemots-clés (parexempledesvillesoudesentreprises)à l’aided’unréférentielprédéfinietpardestechniquesdites«d’expressionsrégulières».
• Ou l’automatisationpeut être statistique.Cemodeutilise alorsdes algorithmesauto-apprenants,c’est-à-direquivontapprendrelesrèglesmétiersdetraitementetd’analyseeux-mêmesgrâceàdesloisstatistiques.CesalgorithmesrelèventduMachine Learning, du Deep Learning et plus largement de l’IntelligenceArtificielle.
Pointdevueduniveaudecompréhensiondutexte.Un texte formant (généralement) un tout cohérent, on peut s’intéresser à différentsniveauxdansledegrédecohérencedecetexte.
• Analyse lexicale: il s’agit de trouver pour chaquemot sa nature grammaticale(parexemplenom,déterminant,adjectif,verbe…).
• Analyse syntaxique: on s’intéresse à la structure des groupes de mots et desphrases. Par exemple, le regroupement des mots dans des groupes nominaux(«une petite souris»), groupes verbaux («a mangé») puis, de manière plusprofonde, des liens entre les différents groupes de mots au sein d’une phrase(sujet,compléments,propositionssubordonnées…).
• Analysesémantique:elleciblelesensdesmotsetdesgroupesdemots.Cetyped’analysecomporteplusieursniveauxdeprofondeur: leregroupementdemotsou groupes de mots dans des concepts, la gestion des synonymes ou de laproximitédesens,l’identificationetlaclassificationdemotsdansdescatégoriesplus vastes que des concepts (par exemple la catégorie entreprise, lieu, oupersonne…), la détermination de mots-clés dans un texte et des sujetsdominants…
• Analyselogique:commentlesconceptssont-ilsreliésentreeuxauseindutexte,quel sont les liens logiques qui les associent? Ce type d’analyse s’appuie sur
www.myriad-data.com Copyright © 2017
7
l’analysesyntaxiquemaisvaplusloinenapportantuneclassificationlogiquedesrelationsentreconcepts.
• Analysedesentiment:quelleest latonalitédutexteoud’unedesesparties,entermedejugementpositifounégatif,d’objectivitéousubjectivité,d’optimismeoupessimisme, de bienveillance ou malveillance, de détente ou nervosité,d’intéressementoud’ennui…?
Les modèles du NLP
Aprèsavoirprésenté lesdifférentspointsdevuesous lesquelsconsidérer lesdonnéestextuellesetdonc leNLP,nouspouvonsmaintenantexaminerde façonplus techniquequellessontlestechnologies,oulesclassesdemodèles,sous-jacentesauNLP.Ondivisecelles-cienfonctiondelareprésentationdutexteutilisée.
Cettelisten’estbiensûrpasexhaustivemaisrassembleunéchantillonreprésentatifdesmodèlesutilisésenNLPàl’heureactuelle.
1. Expressionsrégulières.Commenousl’avonsdéjàmentionnéci-dessus,lesexpressionsrégulièresconstituentunmoded’applicationdéterministeduNLP.Lesexpressionsrégulièresfournissenteneffetune méthode puissante, flexible et efficace mais déterministe pour le traitement dutexte.Lanotationétenduedecorrespondancedemotifsd'expressionsrégulièrespermetnotamment
• d'analyserrapidementdegrandesquantitésdetextepourtrouverdesmotifsdecaractèresspécifiques
• dedécouperuntexte(unechaînedecaractères)enparagraphes,phrases,mots• devaliderletexteafindes'assurerqu'ilcorrespondàunmodèleprédéfini(par
exempleuneadresseélectronique)• d’extraire,modifier,remplacerousupprimerdessous-chaînesdetexte• d’ajouterdeschaînesextraitessuivantdesrèglesprédéfiniesàunecollectionafin
degénérerunrapport.
Parexemple,pourvérifiersiunechaînedecaractèrecorrespondbienàunfichier.txt,onutiliseral’expressionrégulière«^.*\.txt$ »,cequisedécomposeen:àpartirdudébut
www.myriad-data.com Copyright © 2017
8
delachaîne(^),autorisertouttypedecaractèreuncertainnombredefois(.*),puisletextedoitseterminerpar.txt(\.txt$).
Pourtrouvertouteslesadressesemaild’untexte,onimplémentel’expressionrégulièreci-dessous.
Cette expression régulière signifie: après un caractère blanc (\b), autoriser toutcaractère alphanumérique (avec ._%+-) un certain nombre de foismais aumoins une([A-Za-z0-9._%+-]+),puislecaractèrearobase(@),puisdescaractèressuivisd’unpoint([A-Za-z0-9.-]+\.), puis au moins deux caractères alphabétiques ([A-Za-z]{2,})correspondantàlaterminaison(.comou.fr)etenfinunblanc(\b).
2. Extrairedesmots-clésavecTF-IDF
TF-IDF(«termfrequency-inversedocumentfrequency»)correspondaupremierniveaud’analysestatistiquedesmotsd’untexte,mais ilestsouventefficace.Cepoidsestunemesure statistique, mais obtenue de manière déterministe, utilisée pour évaluerl'importanced'unmotdansundocumentfaisantpartied’unecollectionoud’uncorpusdedocuments.L'importancedumotaugmenteproportionnellementaunombredefoisquecemotapparaîtdans ledocumentmaisestcompensépar la fréquenceglobaledumotdanslecorpus.
Eneffet,plusunmotapparaîtdansundocument,plus ilvacaractérisercedocument;mais plus unmot est globalement utilisé dans le corpus, plus sa fréquence habituelled’apparition est importante (par exemple lesmots «et», «le», «à»…), etmoins sonapparition dans un document précis ne va caractériser ce document. Le poidsTF-IDFassociéàunmotestdoncd’autantplusélevéquelemotestfréquentdansledocumentconsidéréetquelemotestraredanslecorpus.Celapermetdedétecterfacilementlesmots-clés(avecTF-IDFélevé)d’undocument.
www.myriad-data.com Copyright © 2017
9
Parexemple,undocumentquel’onsouhaiteanalysercontient10foislemot«souris»et50foislemot«est».Silemot«souris»,quin’estpastrèsfréquent,n’apparaîtquedans2%desdocumentsducorpus,alorsquelemot«est»apparaîtdans50%desdocumentsducorpus, leTF-IDFde«souris»pour ledocumentconsidérésera28 fois1plusélevéqueceluide«est».
Des variantes de ce système de pondération TF-IDF sont utilisées par lesmoteurs derecherchepourévalueretclasserlapertinenced'undocumentenfonctiondesrequêtesdesutilisateurs.
3. Modèlesdeclassificationdetexte
Lesmodèles de classification sont desmodèles deMachine Learning à apprentissagesupervisé. Ces modèles fournissent des prédictions de catégorie basées sur unhistoriqued’exemplesdéjàclassifiés,appeléensembled’apprentissage.Considéronsunexemple tiré du monde bancaire pour illustrer le fonctionnement d’un modèle declassification.
Unebanquesouhaiteprédirepar leMachineLearningsidesemprunteursparticuliersvont pouvoir rembourser leur emprunt à termeounon, c’est-à-dire à les classifier endeux catégories «solvable» / «non solvable». Pour cela elle dispose d’un certainnombre d’informations sur les emprunteurs, caractéristiques démographiques, profilsfinanciers,profilsprofessionnels…ainsiqued’unhistoriqueimportantsurdesempruntspassésindiquantsicesempruntsontététotalementremboursésounon.
La machine considère itérativement chaque emprunteur de l’historique, puis à l’aided’un modèle de classification, tente une prédiction «solvable» / «non solvable» del’emprunteurenfonctiondesescaractéristiques.Suivantquelaprédictionaétéjusteounon, la machine ajuste les coefficients dumodèle de classification, et recommence leprocessus pour un autre emprunteur. Plus le modèle est entraîné sur un nombreimportantdedonnées (debonnequalité),meilleure seront lesprédictionsdumodèle,quipeuventensuites’appliqueràdenouveauxemprunteurs,dontonnesaitpasencorelacatégorie«solvable»/«nonsolvable».1Lecalculdelararetéd’unmotdansuncorpusimpliqueunlogarithme,cequiexpliquelerésultat28.
www.myriad-data.com Copyright © 2017
10
Pour plus de détails sur les modèles de Machine Learning, ou pour d’autres casd’applications, consulter en particulier le Livre Blanc Myriad «Le Machine Learning,EnvolverslePrédictif».
En cequi concerne l’applicationdesmodèlesde classification à l’analysedesdonnéestextuelles, celle-ci peut se décliner de différentes manières suivant le degré decompréhensionciblédutexte(cfDivisionduNLP).
• Pour l’analyse lexicale, on peut utiliser desmodèles de classification «Part-Of-Speech (POS) Tagging». Ceux-ci permettent à partir des caractéristiques desmots(placedanslaphrase,motsprécédentsetsuivants,casse…)declassifiercesmotssuivant leurnaturegrammaticale.Ainsiunephrasecomme«unesourisamangédufromage»devientalors
Onpeutfaireremarquerqu’ilsuffiraitd’utiliserunmodedéterministegrâceàlaconstitutiond’unréférentielpréenregistrédonnantpourchaquemotsanature.Mais,outrequ’ilestdifficiledeconstruireunréférentielcomplet,certainsmotspeuvent avoir une nature différente suivant le contexteet ceci ne sera détectéque par un modèle probabiliste prenant en compte ce contexte. Par exemple,«faible» peut être un nom ou un adjectif, «bien» un nom, un adjectif ou unadverbe...
• Pour l’analyse syntaxique, on peut utiliser des modèles de parsing, quipermettent,àpartirduPOSTaggingdesmotsd’unephrase,delesregrouperlesmots en groupes et de leur donner une fonction. L’exemple précédent devientalors
www.myriad-data.com Copyright © 2017
11
• Pour l’analyse sémantique, on peut utiliser des modèles de classification en«entitésnommées»(NamedEntityRecognition),quireprésententdescatégoriesimportantes de mots pour l’analyse du texte. Cette détection se fait sur desgroupesdemotsàpartirdeleurscaractéristiquessyntaxiquesobtenuesàl’étapeprécédente. Par exemple, il y a la catégorie des entreprises, celle des nomspropres,celledesdates,celledespays,celledesvilles…
Ici encore, on peut utiliser des référentiels préenregistrés pour faire cettedétection,maislesmodèlesNERpermettentdedétecteraussidesmotsinconnusauréférentieletdeclassifierdesmotspouvantapparteniràplusieurscatégoriessuivantlecontexte.
• Pour l’analysedesentiment,onutilisedesmodèlesdeclassificationbinaireparrapport à un sentiment du type positivité du propos, objectivité, optimisme,nervosité,ouintérêt.Cesmodèlespermettentdurantl’apprentissaged’associeràchaquemot un coefficient de positivité ou négativité par rapport au sentimentconsidéré,puisdeprédirelesentimentglobald’unnouveautexteensommantlescoefficientsdetouslesmotsprésentsdanscetexte.Par exemple, si l’apprentissage d’un modèle sur un corpus a permis dedéterminerlescoefficientspourlesentimentpositif/négatifassociésauxmotsdela phrase «ilaappréciésachambremaisleserviceétaitatroce» comme ci-dessous,lesentimentglobaldecettephraseseranégatif.
4. Modèlesdeconcepts(WordNet)
Pour aller plus loin dans la compréhension du langage, des linguistes ont recensé lesattributssémantiquesdesmotsduvocabulairededifférenteslanguesdansdesbasesdedonnées lexicales.Unedesplusconnuess’appelleWordNet,construitepar l’Universitéde Princeton. L’identification d’un concept dans un texte se fait alors de manièredéterministeparconsultationd’unebasededonnéesdecetype.
www.myriad-data.com Copyright © 2017
12
Apartird’unmot–parexemplesouris–lemodèlepermetdedéterminerquelssontlesdifférents concepts associés à ce mot, avec leurs différents sens. Chaque concept estcodéparun«synset»(synonymset),c’est-à-direunensembledesynonymesdécrivantchacunleconcept.L’intersectiondessensdecessynonymespermetdecaractériserdemanière univoque le concept. Ci-dessous, le mot «souris» est associé à 4 conceptsdifférents,chacunétantlistéavecson«synset»etsadéfinition.
Ces synsets, représentant des concepts, sont regroupés dans des catégories plusgénéralesetabstraites,quiformentainsiunehiérarchiedeconceptsappeléeontologie.Il existe d’autres bases de données proposant des ontologies similaires ou plusspécialisées, certaines répertorient aussi les relations pouvant avoir lieu entre desconceptsdetypedifférents.
5. Modèlesdeplongementprédictifdemots(représentationvectorielle)
Les modèles de plongement prédictif de mots, ou «Word Embedding», dont le plusemblématique est Word2Vec, utilisent des réseaux de neurones artificiels pourapprendrestatistiquementunereprésentationvectorielledechaquemotprésentdansle texte.Levecteurassociéàchaquemotprendencompte lecontextedans lequelestapparu ce mot tout au long du texte, ce qui permet d’avoir une représentationnumériqueencodantdespropriétésgrammaticalesetsémantiques. L’hypothèsesous-jacenteestquedeuxmotsserontd’autantplusprochesdesensqu’ilsapparaissentdansdescontextessimilaires.
La pertinence de cette représentation dépend évidemment de l’entraînement desmodèles–tailleducorpustextueld’apprentissage,qualitédececorpus,optimisationduparamétrage via des métriques de tests – mais certains résultats sont étonnants deprécision. En effet, la représentation vectorielle permet de faire des opérationsalgébriques,commel’additionoulasoustraction,auxvecteursV[w]dechaquemotw.
www.myriad-data.com Copyright © 2017
13
Par exemple, V[roi]-V[homme]+V[femme] a pour plus proche voisin V[reine] dans unmodèlesuffisammententraîné.L’interprétationbasiquedecefaitpeutêtrelasuivante:auconceptderoi,onasoustrait leconceptdemasculinité,etonobtient leconceptderoyauté.Enluiajoutantleconceptdeféminité,onobtientalorsleconceptdereine.Cettereprésentation par plongement prédictif de mots permet ainsi une compréhensionsémantiqueétonnantedesmotsd’untexte.
Projectiond’unEspacesémantiquepourunmodèledeplongementprédictifSource:SitedeS.ZafranysurleMachineLearning
6. Modèlesstatistiquesdelangage
Undesbutsdesmodèlesstatistiquesde langageestdeconstruireunmodèlequipeutestimerladistributiondulangagenatureldemanièreaussiprécisequepossible.Untelmodèlecorresponddoncàunedistributiondeprobabilitésurleschaînesdecaractèresqui représente la fréquence d'apparition estimée ou «normale» de ces chaînes decaractèresentantquephrasedansuntexte.
Undes avantagesde ce typedemodèles estde fournirunmoyen simplede traiter lelangagenaturel,aveclequelbeaucoupd’outilsstatistiquesexistent,etquipeuts’adapterà des textes très différents. Un autre avantage réside dans le fait d’utiliser del’apprentissagenonsupervisé,c’est-à-direqu’iln’yapasbesoindefournirdesréponsesàl’algorithme,pasdetaggingdecorpustextuelsàfaire,maisl’algorithmeapprendgrâceauxassociationsstatistiquesentrelesmots.
www.myriad-data.com Copyright © 2017
14
Les modèles de thèmes probabilistes constituent des cas particuliers très utilisés demodèlesstatistiquesdelangage.Ceux-ciontvocationàtrouverlesthèmesdominantsdetextes donnés. Les thèmes (ou «topics») sont eux aussi représentés par desdistributionsdeprobabilitéquimodélisent la fréquenced’apparitionde telou telmotdansuntexteassociésàcesthèmes.Cecipermetplusieurschoses:
• D’inclure dans un thème non seulement lesmots qui le décrivent précisémentmaisaussilesmotsreliés(avecdespoidsmoinsélevés)
• De permettre à un mot en particulier d’appartenir à plusieurs thèmes,notammentsicemotaplusieursconnotationsousens.
Chaquedistributiondeprobabilitéassociéeàunthèmeestestiméepardesalgorithmesstatistiques sur des textes que l’on souhaite classifier, puis l’on peut visionner cesthèmes, évaluer leur pertinence, et enfin trouver la proportion de ces thèmes dansd’autres textes.Cesmodèles sontdonc très intéressantspouravoirunevisionglobaled’uncorpusetenproduireuneclassificationthématique.
Fonctionnementd’unmodèledethèmesprobabilisteSource:DavidBlei,Commun.ACM55(2012)77-84.
7. TextRank(Graphesdesimilarité)
Cetypedemodèles,inspirédel’algorithmePageRankdeGoogle,permetdedétecterdesgroupesdemotscaractérisantuntexte.Untexteestmodéliséparungrapheconstituéde nœuds représentant des groupes de mots du texte et d’arêtes représentant lafréquenceàlaquellelesdeuxgroupesdemotsapparaissentensembledansletexte.
www.myriad-data.com Copyright © 2017
15
Le modèle TextRank permet donc un apprentissage non-supervisé, basé sur lastatistiqued’apparitiondesmots.Unefoiscegrapheconstruit,destechniquesd’analysedegraphessontappliquéespourdéterminer lesgroupesdemotsayantunecentralitéplusimportante,quisontalorsdescandidatsdegroupesdemots-clésdutexte.Plusungroupedemotestconnectéàd’autres(demultiplesarêtespartentdunœudassocié),etplus ses voisins sont connectés entre eux, plus ce groupe de mots aura alors unecentralitéélevée.
ExempledefonctionnementdeTextRank
Source:R.MihalceaandP.Tarau,«TextRank:BringingOrderintoTexts»
www.myriad-data.com Copyright © 2017
16
Les possibilités et limites du NLP
Compte-tenudesmodèlesdécritsdanslasectionprécédenteetdebiend’autresencore, la question suivante est naturelle: commentmettre tous ces modèles bout àboutetquepermettent-ilsdefaire?
Les possibilités du NLP peuvent être génériquement regroupées dans leworkflow ci-dessous. Chacune de ces possibilités correspond à des tâches qui sontréalisables par des humains à petite échelle; mais la puissance du NLP réside dansl’automatisationdecestâchesetledéploiementàgrandeéchelle.
LeWorkflowduNaturalLanguageProcessing
1. Collecte
Lacollectededonnées textuelles se situeplutôtenamontduNLP,maiselle constitueune étaped’importance crucialepour lesmodèlesNLPqui suivent. Celle-ci incluedestechniquestrèsdifférentescomme
• LeWebscrappingoulewebcrawling,pourlarécupérationdedonnéestextuellesdisponiblessurinternet
www.myriad-data.com Copyright © 2017
17
• L’extractiondutextecontenudansdesfichiersinformatiquescommelesformatsPDF,MSWord,MSPowerPoint…
• La reconnaissance optique de caractères, dans des fichiers de type image, quiutiliseaujourd’huiduDeepLearning
• La conversion de fichiers audio en texte (SpeechToText) qui utilise aussi destechniquesderéseauxdeneuronesartificiels
• L’intégration dans un système GED de gestion électronique des documents auseind’uneentreprise
• Laconsommationdedonnéestextuellesprovenantd’APIderéseauxsociauxoudesitesd’information(news)
2. Transformation
Lapartietransformationdesdonnéestextuellesregroupedesréalitéstrèsdiverses.Celaconcernetoutchangementdesdonnéesparrapportàunbutparticulieretconnu(règlemétier),notamment:
• Lesprétraitements,nettoyageetstandardisationdetextes• Lacorrectionorthographiqueetsyntaxique• Lastructurationdesdonnéesparrapportàunestructureprédéfinie• La traduction, qui fait partie des problèmes difficiles appelés «AI-complets»,
c'est-à-dire nécessitant différents types de connaissances que possèdent leshumains(grammaire,sémantique,faitsextérieurssurlemonderéel,etc..)
3. Classificationthématique
La classification de documents textuels intervient à un niveau assez haut decompréhension des textes. Il s’agit d’identifier les thèmes globaux de ces textes pourpermettreuneclassificationpertinenteparrapportàdesobjectifsmétiers.
• Détection de thèmes principaux d’un texte et des mots représentatifs de cesthèmes
• Identificationdetitresetdemots-clésimportantsdansuntexte• Regroupementdes textesd’un corpuspar similarité thématique. Ceci peut être
effectuéavecunniveaudedétailsarbitrairementélevéenfonctiondesbesoins
4. Compréhension
Danslapartiecompréhensiondestextes,onpeutinclurebeaucoupdetypesd’analysesdécritesdanslessectionsprécédentes:
• Analyselexicale,syntaxiqueetlogiquepourunecompréhensiondelaforme• Analyse sémantique et conceptuelle pour une compréhension du fond,
permettantnotammentunegestiondessynonymes
www.myriad-data.com Copyright © 2017
18
• Analyseconceptuelleet/oureconnaissanceautomatiquedecatégories(NER)demots
Cependant, une compréhension fine, et de bout en bout, de textes longs composés demultiples phrases, avec un enchaînement logique complexe, est actuellement hors deportéedesalgorithmesetconstitueunchampderechercheactifetencoreouvert.
5. Agrégation
Lapartieagrégationconcernelesinformationsgénéralesquel’onpeutextraireàpartird’untexte.EllesenourritdelapartieClassificationpourladétectiondesthèmesetdelapartie Compréhension pour la détection des entités nommées (NER). Cela permetnotamment
• De produire des résumés automatisés de textes, avec une vision directe desthèmesimportantset/oudesmots-clés,souslaformedetableauxdebordoudetextesgrâceàlapartieGénérationdetexte
• Deconstruiredesindicateurssurlestextesgrâceàdel’analysedesentiment
6. Génération
Dans cette partie, la machine génère du langage naturel pour faire passer uneinformationourépondreàunequestiondemanièredirectementcompréhensibleparleshumains.Cettetechniqueestenparticuliertrèsutiliséedans leschatbots.Cecipeutsefaireprincipalementdedeuxmanières
• Mode déterministe: les phrases générées par lamachine sont pré-écrites aveccertains trousà comblerpar lamachineavecdes informationsdanssabasededonnéeset elles sont sélectionnéesen fonctionde cequiestdemandé.Ceci estparticulièrement performant dans un périmètre restreint, sur un domaineparticulieroupourrépondreàdes«FAQs».
• Mode statistique: les phrases générées par la machine le sont grâce à desmodèles probabilistes de langage. En fonction des thèmes considérés, qui sontrepérésgrâceà lapartieCompréhension,une loideprobabilité estdéterminéepour la réponse à apporter, à partir de corpus d’apprentissage écrits par deshumains, et desmots sont ainsi générés suivant cette loi de probabilité. Cettetechnique relève encore du domaine de la recherche pour ce qui est de lagénérationdetexteslongsetstructurés.D’autrepart,pourrépondreàunequestionspécifique,cettetechniquepeutêtrecouplée avec la partie Recherche d’informations, et à partir des mots-clésdétectés dans la question, lamachine recherche des documents, isole la partiespécifique des documents pertinente pour la question, et peut la restituer/lamodifieraudemandeur.
www.myriad-data.com Copyright © 2017
19
7. Recherched’informations
Larecherched’informationpermetàunutilisateurdeformulerunerequête(enlangagenaturel ou non) et que lui soient restituées des informations pertinentes en regard.Cetterequêteest,aprèsunepartieCompréhensionducontenudelarequête,comparéeàunebasededonnéespropreausystèmederecherched’informations.
Cettebasededonnéesestdonccrucialepourlapertinencedesinformationsretournées.Elle est constituée de documents qui ont été analysés (cf parties Compréhension etagrégation),dontnotamment lesmotsclésontétéextraitsparNERouTextRank,puisont été intégrés dans la base de données en tant que métadonnées associées audocument considéré. Lorsqu’une requête est effectuée, un score de pertinence avecchaquedocument de cette base est effectué et les documents les plus pertinents sontretournésàl’utilisateur.
Cas d’applications
Le Natural Language Processing, ainsi que nous l’avons analysé en détail plushaut, permet l’interaction directe homme-machine, et donc d’automatiser nombre deprocessus/traitements portant sur des données textuelles ou générées par l’homme.Voyonsiciquelquescasd’application.
www.myriad-data.com Copyright © 2017
20
Ressources humaines
• Automatisationderecherchedeprofils• MatchingCVs-offresdeposte• Constructionderéférentielsde
compétence• Identificationdecompétences
manquantesetpropositiondeformation
Réseaux sociaux
• Etudesdetendances(ex:motsbuzz)
• Etudesd’imagedemarquesoudeproduits
• Analysedesréactionsàl’actualité(opinions)
Industrie
• StructurationdesrapportsécritsdeMaintenance–renforcementdescapacitésGMAO
• Analysedemarché/compétition• Surveillancedelaréputationsur
internet• Suividesrèglesdeconformité
produit
E-commerce
• Recherchesdesacheteursbaséessurlesens,gestiondessynonymes
• AnalysedesentimentdanslescommentairesdesitewebouforumsetEvaluationdelasatisfactionclient
• Utilisationpourlapersonnalisationderecommandationproduit
Juridique, transport, luxe, comptabilité…
Chatbots
• Informerl’utilisateur• Réponseauxquestions• Améliorerl’imagedemarqueet
l’expérienceclient
www.myriad-data.com Copyright © 2017
21
Focus sur des applications
Pourmieuxcomprendre lavaleurajoutéeduNaturalLanguageProcessinget lacombinaisonpossibledes fonctionnalités et algorithmesquenousavonsvuplushaut,focalisons-noussurdesretoursd’expérience.
Focus1:LagestiondescompétencesenRessourcesHumaines
Un grand groupe a souhaité tester les possibilités du Natural LanguageProcessingpouraidersesRHetautomatisercertainestâchesdanslagestioninternedestalentsetdanslapartierecrutement.
Enjeux
LedépartementRHduclientfaisaitfaceauxenjeuxsuivants:
Déroulementdel’expérimentation
! Grandnombredecollaborateursdontlesdonnéessontnonstructurées! Grandnombredepostulantschaqueannée(plusieurscentainesdemilliers)! Grand nombre d’offres de postes à remplir, par des profils internes ou des
postulantsextérieurs! Trop de saisiemanuelle pour l’exploitation des données non structurées et
l’analyseenvued’unMatchingpertinent
www.myriad-data.com Copyright © 2017
22
Le pipeline utilisé pour l’expérimentation chez ce client suit le schéma ci-dessus. IlregroupeetcombinecertainespossibilitésduNLPvuesplushaut:
• lacollectedesdonnéestextuelles(extraction)• latransformationdecesdonnées(prétraitements,tagging,structuration)• leurcompréhension(Modélisationsémantique,détectiondescompétences)• l’agrégation(constructiond’indicateurs)• lagénération(Matching)• etlarecherched’informations(Miseenplaceduréférentieldecompétences).
Résultats:
Pourallerplusloin:
Comme on a pu le constater sur ce point particulier, le NLP permet d’augmenterconsidérablement l’efficacité RH. Il existe en outre beaucoup d’autres cas d’usagepossibles du NLP, combiné à d’autres techniques de l’Intelligence Artificielle, pour ledomaine des Ressources Humaines. Le schéma suivant permet d’en avoir un aperçuglobal2.
2Pourplusdedétails,cflesitehttp://www.skillminer-ai.com
www.myriad-data.com Copyright © 2017
23
LesPossibilitésdel’IntelligenceArtificiellepourlesRH(Source:Myriad)
Focus2:LagestiondelamaintenanceassistéeparIntelligenceArtificielle
Danslesecteurdel’Industrieetdel’Energie,unedesgrandespossibilitésoffertespar l’Intelligence Artificielle est celle de la maintenance prédictive. Cela permetnotamment:
• de diagnostiquer en temps réel l’état de fonctionnement de la chaîne deproduction/l’équipementàsurveiller
• d’analyser les risques futurs de défaillance technique et identifier les piècesconcernées
• de déterminer en conséquence un plan de maintenance prédictive del’équipementenminimisantsontempsd’arrêt.
Pour alimenter les algorithmes de prédiction, on remonte les données decapteurs connectés, mais une possibilité d’enrichissement de ces données consiste àconnecter la GMAO (Gestion de Maintenance Assistée par Ordinateur). Cette base de
www.myriad-data.com Copyright © 2017
24
données contient notamment des données textuelles concernant les événementsd’intervention/maintenancesurl’équipement.
L’utilisationcesdonnéesdécrivant lesévénementsdemaintenance,quandellessontprésentes,esttrèsimportantepourlespertinencesdeprédictiondesalgorithmes,etainsiunedémarched’analyse,decompréhensionetdestructurationdecesdonnéestextuellesparleNaturalLanguageProcessings’avèrenécessaire.
Parexemple,leNaturalLanguageProcessingpermetde
• repérer et classifier les mots-clés d’un texte décrivant un événement demaintenance: lematériel concerné et son état, le technicien intervenant sur lematériel,letyped’événement,ladate…
• pouvoirrechercherfacilementetcorrélercesdonnéesunefoisclassifiées• utiliser ces données, avec d’autres de type capteurs, pour des algorithmes de
MachineLearningdéterminantunplandemaintenanceprédictive.
Focus3:L’analyseautomatiséedelasatisfactionclient
Al’heureoùl’expérienceutilisateurprendtantd’importanceetoùlesméthodesagiles préconisent le co-développement des solutions avec les utilisateurs, lacompréhensionde la satisfaction client estunenjeu clépourbonnombrede secteurs
www.myriad-data.com Copyright © 2017
25
d’activité. LeNatural LanguageProcessingpermetuneautomatisationde ladétection,l’analyseetlasurveillancedecettesatisfactionclient,delamanièresuivante.
• Détermination de sites web clés pour l’étude de la satisfaction client etchargementdescontenusviaAPIs/crawling
• Détectiondemessagesconcernanttelproduitoutellemarque• Analyseautomatiséeducontenupourdéterminer la tonalitéet le sentimentdu
message• Analyseapprofondiepourciblerlescaractéristiquesappréciées/critiquées• Agrégation de l’analyse au sein d’un tableau de bord permettant d’avoir une
visionglobaleduproduit/delamarquesurlessitesciblés
Focus4:Lesuividelaconformitéproduit
LeNaturalLanguageProcessingpeutaussiêtreutilisépoursuivreetcomprendrede manière automatique l’évolution des textes légaux, règlementaires, et les normesconcernantunproduit,ouunsecteurd’activité.Cecasd’usagepeutsedéclinercommesuit
• Collectedestexteslégauxourèglementairessurlepérimètreconcerné(produit,secteur),parexemplesurdessitescommeLegifranceouAFNOR.
• Analyseparl’humaindesmodalitésd’expressionsdesobligationsdanscetexteetdeleurstructurelogique
• Choixdetextesderéférenceentantquecorpusd’apprentissagedesalgorithmes,ettaggingdecestextes,enparticulierdesmots-clés,descatégoriesimportantesdemots,descoordinationslogiques
• ImplémentationdesalgorithmesdeNaturalLanguageProcessingetconstitutiond’unebasededonnéess’appliquantaupérimètreconsidéré.
www.myriad-data.com Copyright © 2017
26
A propos de l’auteur
AxeldeGoursacestdirecteurdesopérationsdeMyriad.Aprèsavoirétédiplômédel'EcolePolytechniqueetdel'EcoleNormaleSupérieuredeParis,ilasoutenuen2009unethèsededoctoratenMathématiquesetPhysiqueauxUniversitésdeParis-Sudetde Münster (Allemagne). Puis, il a obtenu un poste de manager de projets derechercheàl'UniversitéCatholiquedeLouvainetauFondNationaldelaRecherchescientifique (FNRS, Belgique) en Mathématiques et applications. Passionné descienceetdetechnologie,ilestégalementunchercheurinternationalementreconnuet un expert en Machine Learning et Natural Language Processing. Il dirigemaintenantledépartementopérationneldeMyriad.
Myriadestunesociétédeservicequiassureleconseiletledéploiementdesolutionsd’IntelligenceArtificielleetdeBigData.MyriadoffreauxEntreprisesunevéritableexpertisedans lesdomainesanalytiques,deSciencedesDonnéesetd’Architecture.Aujourd’hui, les sociétés reconnaissent qu’il est nécessaire de s’affranchir d’uneorganisationdesdonnéesensilospourenrévélerlavaleur.Celasupposedemettreenplaceunesourceuniquepourlesdonnéesdel’entreprise,qu’ellessoientounonstructurées. Myriad accompagne ses clients dans le cadre de leur transformationversleBigDataetleurfournituneassistanceglobalepourl’implémentationdecettetransformation, allant d’une stratégie de données claire au Machine et DeepLearning.
Saspécificitérésideà la foisdansuneapprochesur-mesure,dehautniveautechnique, mais aussi résolument orientée business, ainsi que sur une méthodeprogressiveclaire“Découvrir/Concevoir/Déployer”,quipermetàsesclientsd’avoirlecontrôletotaldeleursinitiativesBigDataetDataScience.PourassurerlamaîtrisedesCoûtsetduROI,uneapprocheprogressivebaséesurdescasd’utilisationsréelsdéfinisparlesmétiersestessentiellepourMyriad.Cetteapprocheestunélémentclépourcomprendre lebusinessdesesclients, leurpermettrede resterà lapointeetélaborerunecartenumériquequitransformeleursdonnéesenunvéritableavantagecompétitifdurable.