Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France

8
1 Michel Le Nouy – SI OF - Banque de Contenus – GFII Paris – 08 décembre 2015 Contenus et données Michel le Nouy Forum GFII 8 décembre 2015 Michel Le Nouy – SI OF - Banque de Contenus – GFII Paris – 08 décembre 2015 Ouest-France ?

Transcript of Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France

Page 1: Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France

1

Michel Le Nouy – SI OF - Banque de Contenus – GFII Paris – 08 décembre 2015

Contenus et données

Michel le N

ouy

Forum

GF

II 8 décem

bre 2015

Michel Le Nouy – SI OF - Banque de Contenus – GFII Paris – 08 décembre 2015

Ouest-F

rance ?

Page 2: Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France

2

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Mais aussi …

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Constat� Production très orientée process de fabrication :

• Complexité de l’industriel• Multitude des produits et donc des contraintes• Adhérence des données, des contenus, des équipes

� Données descriptives « pauvres » :• Limitées et suffisantes aux besoins du process

� Du « Sur Mesure »• Capacité d’adaptation à l’actualité, à l’information• Réactivité aux évènements

Page 3: Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France

3

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Constat� Foisonnement des parutions� Multiplicité des sources et contenus� Articles, tableaux, photos, vidéos, pages …� Papier + Numérique

� Limitations vue globale et logique des documents

� Limitations des usages aux applications tierces ou externes

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Banque de contenus

� Construire une plateforme accessible :• A l’ensemble des rédactions et services du groupe

� Présenter une vue exhaustive des contenus et données produites • Toutes thématiques• Toutes sources • Tous médias

� Favoriser les nouveaux usages

Page 4: Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France

4

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Convaincre

Avocat ? Point de vue ?

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Chercher < TrouverRésultats

Complexité

Connaissance

Analyses et

informations

enrichies

Information

Données

structurées

Document

Basique

Unitaire

basse moyenne haute très haute

Search :

Mots-clés et booléens

« Bolloré AND Renault »

« Bolloré a signé un accord avec Renault SA »

Search avec proximité :

Mots-clés proches les uns des autres

« Bolloré NEXT Renault »

Statistiques :

« Combien de documents contiennent

à la fois : Bolloré ET Renault en 2008»

Annotations de termes :

Avec l’aide de thésaurus

« Bolloré est annoté Transport et

logistique, énergie car appartenant au

thésaurus »

Annotations d’entité :

Avec l’aide de l’analyse morpho-syntaxique

« Renault SA est annoté Société, car Renault (terme) est

suivi de SA indiquant une notion de société» (pas

besoin de thésaurus)

Annotations de relation entre entité :

Avec l’analyse des verbes

« a signé (=relation) est annoté partenaire, car a signé

un accord est l’une des relations sémantiques associées à

Partenaire»

Page 5: Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France

5

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Constitution d’une Equipe

� Un projet d’équipe • Multi-disciplinaire• Multi-compétences

�Journalistes

�Documentalistes

�Data Scientiste

�Designer

�Architecte

�Développeur

� Avant un projet technique

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Technos - Concepts

� Résolument : • Open Source (mais pas que)

• Sémantique• Web de données

� ES

� Mongo

� RDF

� Schema.org

� D3js

� Temis

� Semsoft

Page 6: Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France

6

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Collecte

� Sources :• Uniquement internes au groupe

�Structuration

�Descriptions

�Hétérogène

• Page PDF

• Article TXT / Xml

• Tableaux / Fichiers

• Base de données

• ….

• Complétude avec sources Open-Data

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Analyse

� Entités :• Personnes• Sociétés• Lieux• ….

� Classifications :• IPTC• Thésaurus …• Empreintes sémantique

� Signaux faibles

Page 7: Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France

7

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Exploitation

� 1ere version en exploitation� Plusieurs rédactions connectées� Indexations sources et formats multiples� Annotations entités

• Personnes• Sociétés • Lieux

� 30 000 000 documents depuis 1899, • Accessibles en quelques millisecondes

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Facilités / Difficultés / Confiance � Hétérogénéité des sources

• Page PDF / Article XML�Analyse du contexte d’extraction

• Période analysée�1899 à 2015

• Généraliste / Spécialisé�Etendue des sujets traités par les rédactions ..

� Echelle et Etendue …• Des sources / référentiels et cas d’usages demandés

� Ambiguïtés ++ = Confiance --

Page 8: Text Mining et enrichissement sémantique de contenus : retour d'expérience du groupe Ouest-France

8

Mic

hel L

e N

ouy

–S

I OF

-B

anqu

e de

Con

tenu

s –

GF

II P

aris

–08

déc

embr

e 2

015

Conclusion

� Plus difficile et plus long• a mettre en œuvre qu’imaginé au départ

� Sans fin …• On peut toujours annoter / enrichir, plus et mieux

� Mais surtout passionnant, et enrichissant• Quand les premiers retours d’expérience sont +++