[FR] Comment trouver l'information structurée pour servir de pivot au futur du web ?

www.spotter.com

Comment trouver l'information structurée pour servir de pivot

au futur du web ?

Gil FrancopouloSpotter + Tagmatica

www.spotter.com / www.tagmatica.com

www.spotter.com

Le titre pose la question de ce que sera la futur du Web

• Ma foi ... qui le sait ? qui connaît le futur ???=> Trois directions:1) proportion + importante qu'actuellement du

Web mobile / Web fixe2) au moins aussi participatif qu'actuellement

(Web 2.0)3) outils + puissants pour filtrer ou retrouver

l'information (point que l'on va développer)

www.spotter.com

• Actuellement, les outils qui filtrent ou indexent (ce qui revient à la même chose) ont une connaissance très superficielle des contenus

• Cela se limite à des comptages de mots, des comptages de liens, des comptages d'accès

• Le problème est que les mots des textes en langage naturel sont souvent ambigus. Il y a des homonymes, des synonymes. Et ce qui nous intéresse, ce ne sont pas les mots pris isolément, c'est le sens d'un texte, qui, la plupart du temps, lui, n'est pas ambigu

• Demain, je pense que nous aurons des outils qui auront une connaissance sémantique des contenus textuels et audio-visuels

• Une solution technique serait d'avoir une annotation sémantique qui décrive de manière non-ambiguë quel est le sens d'une page. Ensuite, des logiciels calculeraient à partir de ces annotations. Le problème est comment produire et maintenir une telle annotation ?

www.spotter.com

On pourrait envisager de demander à l'auteur de la page d'annoter son texte, mais cela semble irréaliste car:

• l'auteur n'est pas nécessairement la meilleure personne pour annoter car il n'a pas connaissance des capacités de compréhension du lecteur

• quid du coût ?• si la page change, quid de l'annotation ?• et les pages engendrées dynamiquement par des

programmes ?• et les conventions d'annotations ?• etc.=> en définitive, un nombre infime de pages seraient ainsi

annotées

www.spotter.com

• Une autre option est de calculer une représentation sémantique automatiquement à l'aide d'un pivot qui est une base de connaissances associée à un analyseur linguistique

• Oh là là ... cela fait peur car cela risque d'être compliqué à construire et surtout à mettre à jour car les connaissances changent tout le temps. Il y a des personnes qui deviennent célèbres du jour au lendemain, des événements nouveaux chaque semaine etc.

• SOLUTION => Il est possible de construire une base de connaissances en se "branchant" sur une source d'information qui rende compte de ces mots nouveaux => Wikipedia

www.spotter.com

• D'autre part, il est souhaitable que cette base de connaissances puisse "traverser" les langues de manière sensée car les utilisateurs sont de plus en plus multilingues: je cherche des pages traitant de tel ou tel sujet et je suis capable de lire les pages en français et anglais

• On pourrait dire: mais pourquoi ne pas utiliser des bases de l'Open Linked Data comme Yago ou DBPedia ? Le problème est que les versions d'une langue à l'autre ne sont pas rapprochées et qu'elles ne sont pas rafraichies assez fréquemment pour suivre l'actualité

www.spotter.com

• Une solution possible est de s'appuyer sur une base de connaissances comme GlobalAtlas qui comporte deux parties:

• une ontologie des types en OWL écrite à la main de manière raisonnée

=> relativement stable et multilingue qui va permettre de rapprocher sémantiquement des Wikipedias de langues différentes

• une base d'instances en RDF=> mise à jour automatique tous les week-ends

www.spotter.com

Ontologie des types = 1 millier en OWL

www.spotter.com

Création initiale de GlobalAtlas

Geonames

Base version#1

filtrer

www.spotter.com

Wikipedia FR Wikipedia EN Wikipedia ES

Infobox FR Infobox EN Infobox ES

filtrer filtrer filtrer

extraire

1,4 Gmots

Noms typés #1 Noms typés #50... 50 types

Base version#N

intégrer en fusionnant Base version#N+1

Noms typés #2

Ontologie des types

450 K mots

Mise à jour tous les week-ends

www.spotter.com

Conclusion

• Disposer d'une bonne base de connaissances n'est pas suffisant, il faut de plus bien analyser les textes pour produire des annotations sémantiques de qualité

• Merci de votre attention

[FR] Comment trouver l'information structurée pour servir de pivot au futur du web ?

Technology

Transcript of [FR] Comment trouver l'information structurée pour servir de pivot au futur du web ?