4 pages Content Analytics

4 pages Content Analytics
4 pages Content Analytics
4 pages Content Analytics
4 pages Content Analytics
download 4 pages Content Analytics

of 4

  • date post

    26-May-2015
  • Category

    Documents

  • view

    263
  • download

    10

Embed Size (px)

Transcript of 4 pages Content Analytics

  • 1. CONTENT ANALYTICSREGLES DE LART

2. Content Analytics et Big Data Big Data et Content Analytics sont sur toutes les bouches comme si une nouvelle rvolutiontait en marche. Une relle volution sans doute, du fait des rseaux sociaux et des nouvellesapplications qui permettent tout un chacun de participer la construction des contenus. Chacunest en mesure de dire ce quil pense sur Internet, de dire ce quil aime , de dire o il se trouve et cequil fait.Toute cette information constitue par des millions dinternautes reprsente un volume de contenucolossal disponible et accessible sur la toile. Au-del de la capacit grer ces volumes gigantesqueset pouvoir les interroger mme sils sont disparates, le vritable enjeu est celui de lanalyse de cesmasses dinformations structures et non structures.Le but avou ou inavou de cette analyse des contenus consiste permettre une comprhension etune synthse comportementale et temporelle fournie par lanalyse des tendances et lanalyse de lapense. La difficult est grande. Le chemin est sem dembuches.Avant de pouvoir analyser les contenus, il faut en faire lacquisition et collecter lesinformations o elles se trouvent. Il faut extraire de cette masse dinformation souvent nonstructure, une forme comprhensible et intelligible dinformation. Lanalyse syntaxique,smantique et morphologique des contenus et la rconciliation est alors possible en prenanten compte lidentification des exceptions. Le rsultat de ce travail ne serait pas audible sans lamise en uvre de systmes de reprsentation qui permettent une navigation progressive etmultidimensionnelle dans la connaissance extraite.Le contenu sous toutes ses Text Mining ou fouille deformestextesAvant daborder les techniques qui sattachent Le Text mining ou fouille des textes est un au Content Analytics, le guide dresse unsujet central dans la problmatique du tat des lieux du contenu sousContent Analytics. On sait bien en effet toutes ses formes, en apportant des que de lordre de 80 90% de rponses diffrentes questions : linformation ( content ) interne ou Dequel contenu parle-t-on ? externe qui intresse lentreprise est non Comment linformation volue-t-elle ? structure. Le text mining sest Quelles sont les formes rencontres ? dvelopp pour rpondre au besoin de disposer dune meilleure indexationEtat des lieux de la gestion duautomatique des textes, visant enrichir les textes de mtadonnes en reprsentantcontenule sens.Les solutions de gestion de contenu (ECM)sont souvent mises en uvre pour grerInformatique dcisionnelle (BI).les contenus. Le primtre de ces Linformatique dcisionnelle ou Businesssolutions est variable : Capture deIntelligence en anglais,estdonnes, cycle devie deprobablement le concept le plus proche dulinformation, accs aux donnes,Content Analytics. Les objectifs de lafonctions collaboratives, archivage BI et du Content Analytics sontdes donnes. Dans leur primtrecommuns : mettre disposition dutraditionnel, ces solutions atteignent desdcideur une vue densemble des donneslimites qui peuvent tre dpasses par lestraites et permettre une navigationapports de lanalyse de contenu.multidimensionnelle. Le guide aborde lesdiffrences entre ces deux concepts. 3. Rseaux sociauxAnalyseLavnement des rseaux sociaux en Aprs lextraction, lanalyse traite lesligne et la gnralisation progressive de contenus par des techniques deleur pratique ne cessent de dmultiplier le catgorisation (ajout des marqueursvolume des contenus changs par les de sens), de rconciliation deinternautes. Ces rseaux sociaux sont contenu, de gestion des exceptionsdevenus un vrai phnomne de masse, qui et signaux faibles.gnre chaque jour des millionsdinteractions. Le guide explique commentil faut prendre en compte ce phnomne Reprsentation et navigationpour en tirer un bnfice. Le rle de la reprsentation des contenus est a priori de rendre ceux-ci facilementCloud Computingcomprhensibles et de permettre de saisir dun seul coup dil les points deLe cloud computing est galement analys donnesimportants,lalluredes pour mettre en vidence la manire dont il volutions, bref lide mise en vidence contribue la valorisation des contenus au par lecroisement visuel des travers de son architecture distribue. informations. Le guide explique quelles donnes reprsenter et les diffrentsBig Data types de reprsentation les plus utiliss.Les concepts et outils du Content Analyticssont souvent mis en perspective du Big Exemples de dclinaison de laData . Quest-ce que le Big Data ? Quel valorisation de contenuest le rapport entre le Big Data et leContent Analytics ?Un ensemble de cas dutilisation rels oupotentiels des technologies de ContentAcquisition et collecte Analytics permet dillustrerlesexplications du guide : rduction desAvant de pouvoir analyser le contenu, il faut lerisques dans une compagnie dassurance, collecter. Le guide propose un parcoursmiseen adquation desoffres dans les types de sources de contenus : du universitaires,rductiondutaux document papier la numrisation, dudattrition clients dans une socit de formulaire web la base de donnes, de la tlcommunication, application dune parole et de limage au texte, de la vido taxe cologiste,amlioration de au contenu. Disposer de lensemble delefficacit des investigations policires, linformation et de faon cohrenteeRputation en B to B. suppose de mettre en uvre des connecteurs et de dfinir un formalisme Exemple de Projets Lab autour des donnes collectes. Les sources sont souvent diffrentes mais les du Content Analytics traitements sont souvent similaires. Deux exemples de projets Lab permettentdillustrer la puissance des technologiesExtractiondu Content Analytics. Projet WatsonPour permettre dexploiter les contenus bruts dIBM, Analyse de tendance : Mydans un systme de Content Analytics, ilPresenting Avatar.est ncessaire de passer du texte ausens. Les techniquesdextractiondinformation (entits nommes, thmes,opinions, ) reposent sur les composantsdanalyse "Morphologique",lescomposants "Syntaxiques", lescomposants "Smantiques". 4. REMERCIEMENTSCe guide ddi aux apports des technologies du Content Analytics a t rdig par desspcialistes du domaine trait qui sont, pour la plupart, membres de lAssociation desProfessionnels pour lEconomie Numrique (APROGED). Cette association a t cre en1993 et reprsente lensemble des professionnels (diteurs, constructeurs, distributeurs,intgrateurs, prestataires de services, socits de conseil, tiers archiveurs, ) des secteursde la dmatrialisation, de la gestion de contenu et de document, de larchivage, de lacapture, de lditique, du workflow,...En 2011, lAssociation des professionnels des Industries de la Langue (APIL) qui regroupeles acteurs du traitement automatique des langues et de la gestion des connaissances(indexation, linguistique, moteurs de recherche, smantique, ) a rejoint lAPROGED.Ce document reprsente le premier travail commun entre les acteurs de lAPROGED etceux de lex-APIL dans la nouvelle configuration. Le groupe de travail qui a rdig cedocument en mode collaboratif a souhait vous offrir une vision prcise de ltat de lartdu Content Analytics .Merci donc tous les auteurs y ayant contribu : Contributeurs membres APROGED Christian Dubourg, Ever Team Guillaume Fouquet, Novadys Elie Francis, Ever Team Thierry Guillotin, Ever Team Patrick Hofleitner, IBM Ian Nathan, Intellique Bernard Normier, Consultant Cration : APROGED Suzanne NUNES Sofia Rolland, Banctec Eglantine Schmitt, ProxemAnimateur du groupe de travail Content Analytics organis par lAprogedChristian Dubourg- Secrtaire APROGED* Contributeur externe lAPROGED Arnaud Goumain, Magillem