Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES

Post on 04-Dec-2014

323 views 0 download

description

Les applications des technologies de web mining pour le SEO

Transcript of Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES

SEO & FOUILLE DE TEXTESL’extraction d’information

Extraction d’information

• « Information extraction  »– Reconnaissance d’entités nommées– Identification des coréférences

(ONU=Organisation des Nations Unies)– Extraction de relations– Extraction d’évènements– Extraction de terminologies…

Reconnaissance des entités nommées

• La reconnaissance d'entités nommées est une sous-tâche de l'activité d'extraction d'information dans des documents

• Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc.

Exemple : OpenCalais (Reuters)

Autre exemple

• Dbpedia Spotlight

Annotation automatique

Extraction d’évènements

Extraction de faits et de relations

Structuration de données non structurées

Revminer

Catégorisation automatique

« Normalisation » des coréférences

• The Beatles• Beatles• Beatle• Beatles (The)• The Beatles (Group)

Génération de textes automatique

Génération de pages hubs

Maillage automatique

Analyse du sentiment

Conclusion

Merci !