Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France
Transcript of Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France
1
Michel Le Nouy – SI OF - Banque de Contenus – GFII Paris – 08 décembre 2015
Contenus et données
Michel le N
ouy
Forum
GF
II 8 décem
bre 2015
Michel Le Nouy – SI OF - Banque de Contenus – GFII Paris – 08 décembre 2015
Ouest-F
rance ?
2
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Mais aussi …
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Constat� Production très orientée process de fabrication :
• Complexité de l’industriel• Multitude des produits et donc des contraintes• Adhérence des données, des contenus, des équipes
� Données descriptives « pauvres » :• Limitées et suffisantes aux besoins du process
� Du « Sur Mesure »• Capacité d’adaptation à l’actualité, à l’information• Réactivité aux évènements
3
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Constat� Foisonnement des parutions� Multiplicité des sources et contenus� Articles, tableaux, photos, vidéos, pages …� Papier + Numérique
� Limitations vue globale et logique des documents
� Limitations des usages aux applications tierces ou externes
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Banque de contenus
� Construire une plateforme accessible :• A l’ensemble des rédactions et services du groupe
� Présenter une vue exhaustive des contenus et données produites • Toutes thématiques• Toutes sources • Tous médias
� Favoriser les nouveaux usages
4
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Convaincre
Avocat ? Point de vue ?
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Chercher < TrouverRésultats
Complexité
Connaissance
Analyses et
informations
enrichies
Information
Données
structurées
Document
Basique
Unitaire
basse moyenne haute très haute
Search :
Mots-clés et booléens
« Bolloré AND Renault »
« Bolloré a signé un accord avec Renault SA »
Search avec proximité :
Mots-clés proches les uns des autres
« Bolloré NEXT Renault »
Statistiques :
« Combien de documents contiennent
à la fois : Bolloré ET Renault en 2008»
Annotations de termes :
Avec l’aide de thésaurus
« Bolloré est annoté Transport et
logistique, énergie car appartenant au
thésaurus »
Annotations d’entité :
Avec l’aide de l’analyse morpho-syntaxique
« Renault SA est annoté Société, car Renault (terme) est
suivi de SA indiquant une notion de société» (pas
besoin de thésaurus)
Annotations de relation entre entité :
Avec l’analyse des verbes
« a signé (=relation) est annoté partenaire, car a signé
un accord est l’une des relations sémantiques associées à
Partenaire»
5
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Constitution d’une Equipe
� Un projet d’équipe • Multi-disciplinaire• Multi-compétences
�Journalistes
�Documentalistes
�Data Scientiste
�Designer
�Architecte
�Développeur
� Avant un projet technique
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Technos - Concepts
� Résolument : • Open Source (mais pas que)
• Sémantique• Web de données
� ES
� Mongo
� RDF
� Schema.org
� D3js
� Temis
� Semsoft
6
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Collecte
� Sources :• Uniquement internes au groupe
�Structuration
�Descriptions
�Hétérogène
• Page PDF
• Article TXT / Xml
• Tableaux / Fichiers
• Base de données
• ….
• Complétude avec sources Open-Data
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Analyse
� Entités :• Personnes• Sociétés• Lieux• ….
� Classifications :• IPTC• Thésaurus …• Empreintes sémantique
� Signaux faibles
7
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Exploitation
� 1ere version en exploitation� Plusieurs rédactions connectées� Indexations sources et formats multiples� Annotations entités
• Personnes• Sociétés • Lieux
� 30 000 000 documents depuis 1899, • Accessibles en quelques millisecondes
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Facilités / Difficultés / Confiance � Hétérogénéité des sources
• Page PDF / Article XML�Analyse du contexte d’extraction
• Période analysée�1899 à 2015
• Généraliste / Spécialisé�Etendue des sujets traités par les rédactions ..
� Echelle et Etendue …• Des sources / référentiels et cas d’usages demandés
� Ambiguïtés ++ = Confiance --
8
Mic
hel L
e N
ouy
–S
I OF
-B
anqu
e de
Con
tenu
s –
GF
II P
aris
–08
déc
embr
e 2
015
Conclusion
� Plus difficile et plus long• a mettre en œuvre qu’imaginé au départ
� Sans fin …• On peut toujours annoter / enrichir, plus et mieux
� Mais surtout passionnant, et enrichissant• Quand les premiers retours d’expérience sont +++