Annotation et métadonnées Gaëlle Hignette, AgroParisTech [email protected].

79
Annotation et métadonnées Gaëlle Hignette, AgroParisTech [email protected] r

Transcript of Annotation et métadonnées Gaëlle Hignette, AgroParisTech [email protected].

Page 1: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

Annotation et métadonnées

Gaëlle Hignette,

AgroParisTech

[email protected]

Page 2: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 2

Plan du cours

Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée Références

Page 3: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 3

Plan du cours

Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée Références

Page 4: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 4

Définitions: annotation

Langage courant (dictionnaire le Robert): Note critique ou explicative qu’on écrit sur un texte, un

livre En informatique:

Commentaire (libre) rattaché à un document ou une portion de document

Utilisé dans les bases documentaires, les collecticiels…

Concept (prédéfini) rattaché à une portion de document

Utilisé pour la recherche et l’extraction d’information

Page 5: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 5

Définitions: métadonnées

Langage courant: Néologisme Métalangage: langage qui décrit un autre

langage (dit « primaire ») En informatique:

Données informatives sur les données courantes

ex. auteur, date de modification, …

Page 6: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 6

Et le web sémantique?

Métadonnées dans le web sémantique Dublin Core

Annotations dans le web sémantique Langages du web sémantique peu adaptés à

l’annotation au sein du texte Annotations stockées en en-tête de document

ou dans un moteur à part, avec pointeurs Annotation de documents provenant du web

En vue d’une application précise Stockage local Format au choix, souvent XML

Page 7: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 7

Exemple d’annotation Dublin Core

Le document HTML<HTML><HEAD> <TITLE> Dublin Core Metadata Initiative - Home Page</TITLE>

<LINK rel= "meta" href="dcDesc.dcxml"> </HEAD>

<BODY> .......... </BODY> </HTML>

L’annotation en RDF dans le fichier dcDesc.dcxml<?xml version="1.0"?>

<!DOCTYPE rdf:RDF PUBLIC "-//DUBLIN CORE//DCMES DTD 2001 11 28//EN

"http://dublincore.org/documents/2001/11/28/dcmes-xml/dcmes-xml-dtd.dtd"> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc

="http://purl.org/dc/elements/1.1/">

<rdf:Description rdf:about="http://dublincore.org/">

<dc:title>Dublin Core Metadata Initiative - Home Page</dc:title>

<dc:description>The Dublin Core Metadata Initiative Web site.</dc:description>

<dc:date>1998-10-10</dc:date> <dc:format>text/html</dc:format>

<dc:language>en</dc:language>

<dc:contributor>The Dublin Core Metadata Initiative</dc:contributor>

</rdf:Description> </rdf:RDF>

Page 8: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 8

Exemple d’annotation utilisant des pointeurs

Page 9: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 9

Exemple d’annotation à l’intérieur du document

<html><head></head><body><h1>The <b>Semsem</b> team Members</h1><table>

<person> <tr> <td><name>Jack</name></td> <td><email>[email protected]</email></td> <td><theme>KR</theme></td> </tr> </person> <tr> ... </tr> <tr> ... </tr> </table>

</body></html>

Page 10: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 10

Plan du cours

Annotations et métadonnées, définitions Annotation manuelle

Qui doit annoter? Quelques outils d’aide à l’annotation

Annotation semi-automatique Annotation non supervisée Références

Page 11: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 11

Annotation manuelle par l'auteur

Charge de travail supportable Métadonnées: génération automatique

possible Annotation: au fil de la création du texte À condition de disposer d'outils faciles

d'utilisation Mais parfois inutilisable

L'auteur ne sait pas comment on va vouloir utiliser ce qu'il publie => quoi annoter?

Choix de l'ontologie

Page 12: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 12

Annotation par "l'utilisateur"

Reprendre tout le web existant: impossible en annotation manuelle

Annotation par commentaire libres destinées à la lecture par des humains: nécessairement manuelle, liée à l’utilisation

Annotation manuelle par des concepts prédéfinis indispensable comme base pour les techniques d'apprentissage

Disponibilité de nombreux outils d’aide à l’annotation

Page 13: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 13

Plan du cours

Annotations et métadonnées, définitions Annotation manuelle

Qui doit annoter? Quelques outils d’aide à l’annotation

Annotation semi-automatique Annotation non supervisée Références

Page 14: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 14

Cadixe, annotation en XML

Pour des fichiers texte Annotation au fil de la lecture Insertion des tags XML dans le désordre,

mais tags guidés par une DTD Rendu graphique personnalisable Vérification après-coup de la conformité à la

DTD Stockage local des annotations en XML

Page 15: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 15

Cadixe: copie d’écran

Page 16: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 16

CREAM, annotation en RDF

Pour des fichiers HTML 3 modes d’annotation

Indépendamment de la page, directement dans l’éditeur d’ontologie

À la lecture, de l’éditeur de page vers l’éditeur d’ontologie

À l’écriture, de l’éditeur d’ontologie à l’éditeur de page Stockage des annotations dans la page (en-tête en

RDF) et/ou dans un serveur d’annotations permettant le raisonnement

Page 17: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 17

CREAM: exemple

Page 18: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 18

CREAM: annotation d’une page existante

Page 19: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 19

CREAM: création d’une page à partir de l’ontologie

Page 20: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 20

Annotea, annotations pour le travail collaboratif Outil du W3C Annotations textuelles par des auteurs Stockage des annotations en XHTML,

métadonnées des annotations dans des serveurs RDF ou index local

Intégration directe dans un browser spécifique: Amaya

Intégration dans le browser Mozilla: Annozilla

Page 21: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 21

Annotea: screenshot

Page 22: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 22

Et le multimédia...

Vannotea: annotation collaborative de vidéos M-OntoMat-Annotizer: extension de CREAM

pour l’annotation de vidéos outils de Mindswap: annotation d’images,

d’emails, de HTML et texte Open Ontology Forge: outil de création

d’ontologies et d’annotation type CREAM – intégration de l’annotation d’images et de texte

Page 23: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 23

M-OntoMat-Annotizer: screenshot

Page 24: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 24

Plan du cours

Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique

Définition de règles pour l’annotation Algorithmes d’apprentissage Systèmes d’annotation semi-automatique

Annotation non supervisée Références

Page 25: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 25

Définition de règles pour l’annotation

Règles spécifiques à un domaine, écrites par un expert

Extraction d’entités nommées (noms de personnes, de compagnies, dates...)

Extraction basée sur une structure de documents redondante

Extraction basée sur des contextes linguistiques

Page 26: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 26

Extraction d’entités nommées

Généralement basée sur une combinaison de dictionnaire et d’expressions régulières

Tâche de base pour des extractions d’information de plus haut niveau

Proposé dans la plateforme GATE: chaîne de traitement ANNIE tokenizer sentence splitter gazetteer NE transducer

Page 27: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 27

Mapping de structure avec Lixto

Création d’une classe Choix graphique d’un exemple Création automatique d’un pattern

possibilité de modifier manuellement le pattern Test du pattern

possibilité de montrer d’autres exemples pour affiner le pattern

Eléments définis les uns par rapport aux autres

Page 28: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 28

Lixto: screenshot

Page 29: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 29

Règles linguistiques avec EXCOM

Relations linguistiques indépendantes du domaine lien de causalité rencontre entre personnes formulation d’une hypothèse, d’une conclusion etc.

Basé sur la présence d’un indicateur fort, puis d’indices contextuels permettant la désambiguation

Gros effort en linguistique impliqué

Page 30: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 30

Plan du cours

Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique

Définition de règles pour l’annotation Algorithmes d’apprentissage Systèmes d’annotation semi-automatique

Annotation non supervisée Références

Page 31: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 31

Annotation par apprentissage

Annotation manuelle d'une base d'exemples Application d'un algorithme d'apprentissage Annotation automatique ou semi-automatique

des documents restants Risque d'erreur Minimisation de l'effort d'annotation

Page 32: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 32

Boosted Wrapper Induction

Freitag & Kushmerick, 2000 Fonctionnement concept par concept Tâche de classification des limites

Début: cet espace entre deux mots est-il le début d'une instance du concept?

Fin: cet espace entre deux mots est-il la fin d'une instance du concept?

Matching début/fin: longueur probable

Page 33: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 33

BWI: Détecteurs de limites

Un pattern est un motif à repérer dans le texte Ex. [Melle <AlphaCap>] reconnaîtra Melle Dupond,

Melle Chapitre, Melle Hignette… Un détecteur est constitué de deux patterns: avant

limite et après limite Ex. [Melle][<AlphaCap>]

Un détecteur a une confiance

Melle Dupond

Page 34: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 34

BWI: Définition du wrapper

Le wrapper est constitué de un ensemble de détecteurs de limite de début, un ensemble de détecteurs de limite de fin, une fonction de distribution de longueurH: N [0,1] H(k)=Prob("champ a k mots")

Page 35: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 35

BWI: Classification

Chaque espace entre deux mots reçoit un score de limite de début et un score de limite de fin: Score = somme des confiances des

détecteurs qui reconnaissent cet espace Une instance est reconnue entre les espaces

i et j siScoredebut(i)*Scorefin(j)*H(j-i)>t

t: paramètre de réglage précision/couverture

Page 36: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 36

BWI: Boosting

Temps 0: tous les exemples positifs ont le même poids

Boucler tant qu'on a moins de T détecteurs choisir un détecteur changer le poids des exemples: plus de poids

aux exemples positifs non encore couverts ou aux négatifs couverts par erreur

Page 37: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 37

BWI: choix des détecteurs

Initialement: détecteur sans préfixe ni suffixe À chaque étape on ajoute un mot ou

généralisation au préfixe et au suffixe Maximiser

sqrt(poids vrais positifs) - sqrt(poids faux positifs)

Arrêt quand l'extension ne permet pas d'éliminer plus de faux positifs / longueur max de pattern atteinte

Page 38: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 38

BWI: avantages

Bonne précision Couverture: l'union fait la force Fonctionne sur texte libre ou structuré Généralisations:

initialement prévu pour des informations de casse

mais peut tenir compte d'un pré-traitement (ex. reconnaissance de prénoms, dates, classe grammaticale, etc.)

Page 39: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 39

(LP)2

Ciravegna 2001 Algorithme conçu pour tenir compte d'un pré-

processing: forme grammaticale, dictionnaires, entités nommées

Règles d'insertion de tags ouvrants et de tags fermants Meilleures règles Règles contextuelles

Règles de correction Validation: suppression des tags orphelins

Page 40: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 40

(LP)2: meilleures règles

pour chaque exemple Pattern générateur = w mots avant, w mots après le

tag Retenir les k meilleures généralisations

taux d'erreur = erreur/succès < seuil plus de matches, moins d'erreurs suppression des règles redondantes

retirer les exemples couverts par les règles continuer tant qu'il reste des exemples à couvrir

Page 41: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 41

(LP)2: règles contextuelles

Seuil de taux d'erreur exigeant Très bonne précision Couverture faible

Augmenter la couverture sans trop perdre de précision Appliquer les "meilleures règles" Utiliser les tags créés pour la génération des patterns Exemples utilisés = ceux qui ne sont pas couverts par

les meilleures règles Typiquement: fermeture d'un tag…

Page 42: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 42

(LP)2: règles de correction

Tags insérés parfois mal placés Règles permettant de déplacer un tag de

maximum w positions fenêtre de w mots autour du tag mal placé meilleures k généralisations du pattern avec

tags action = déplacement du tag dans la fenêtre

Page 43: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 43

Plan du cours

Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique

Définition de règles pour l’annotation Algorithmes d’apprentissage Systèmes d’annotation semi-automatique

Annotation non supervisée Références

Page 44: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 44

SemTag

Annotation des instances définies dans une ontologie ex. « Michael Jordan »

Désambiguation par le contexte (n mots avant, n mots après) jugements humains sur certains contextes mesures statistiques sur la fréquence des

mots ex. Michael Jordan, arguably the greatest

player in basketball history ... ≠ Professor Michael Jordan Email: [email protected]

Page 45: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 45

S-CREAM: Semi-automatic CREAtion of Metadata Creation de la base d'exemples: annotation manuelle

dans CREAM Extraction d'information par Amilcare, basé sur (LP)2

Préprocessing par Annie Détection des phrases Forme grammaticale Dictionnaire Entités nommées

Création des relations entre instances

Page 46: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 46

De l'extraction d'information aux métadonnées relationnelles

Hôtel de la Chasse13 rue de l'Orée du Bois

22327 TrégoulecTel. 02 96 46 76 23

Bienvenue sur le site de l'hôtel de la chasse. Nous

sommes ouverts du 15 mars au 15 novembre.

Le prix d'une nuit en chambre simple est de 32

euros, une nuit en chambre double vous coûtera 40

euros.

AmilcarehôtelCP

villetelephone

prix

devise

date

CREAM

•Hôtel de la chasse INSTANCE_OF hotel•Hôtel de la chasse LOCALITE ville1•ville1 INSTANCE_OF ville •ville1 NOM Trégoulec•Ville1 CP 22327•Hôtel de la chasse PROPOSE_PRIX p1•Hôtel de la chasse PROPOSE_PRIX p2•p1 INSTANCE_OF prix•p1 VALEUR 32•p1 DEVISE euros•p2 INSTANCE_OF prix•p2 VALEUR 40•p2 DEVISE euros

Page 47: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 47

De l'extraction d'information aux métadonnées relationnelles Méthode ad-hoc, dépend de la tâche d’annotation à

réaliser Définition du concept maître Création des instances du concept maître Rattachement de toutes les autres instances à

l’instance-maître Par typage Par proximité Par remplissage

Règles ad-hoc d’aggrégation d’attributs

Page 48: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 48

MnM

Instances et attributs, mais pas de relations entre instances

Interface graphique simple Apprentissage via Amilcare Lien direct entre information extraite et

attributs Correction manuelle

Page 49: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 49

MnM: screenshot

Page 50: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 50

Melita

Fonctionne sur le même principe que MnM Permet de régler le degré d’intrusion de

l’automatique par rapport au manuel

Page 51: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 51

Melita: screenshot

Page 52: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 52

Plan du cours

Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée

Utilisation de la redondance sur le web Annotation de tableaux de données

Références

Page 53: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 53

Armadillo: principe

Basé sur la redondance de l’information sur le web Reconnaissance des instances d’une classe ambiguë

grâce à sa sur-classe et les classes en relation exemple: classe recherchée = Universitaire

sur-classe = Personne, facile à trouver grâce aux systèmes d’extraction d’entités nommées

classes en relation: Université (relation Travaille dans), Article (relation Ecrit par)

définition: Universitaire = Personne qui Travaille dans une Université, avec au moins un Article Ecrit par cette Personne

Page 54: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 54

Armadillo: fonctionnement

Point de départ: « oracle » i.e. données certaines sur une classe source, en relation avec la classe à annoter (ex. liste des universités)

Identification des candidats: instances de la sur-classe en lien avec la classe source (ex. personnes dans les pages d’une université)

Classification des candidats par utilisation des autres classes liées (ex. sites bibliographiques)

Page 55: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 55

KnowItAll

Motifs linguistiques d’extraction indépendants du domaine ex: <GNClass> « such as » <GNList>

great cities such as Paris, London or Berlinphilosophers such as Socrates and Platon

Possibilité d’évaluer la confiance dans les motifs sur une base d’exemples

Augmentation de la couverture en réutilisant les données extraites par ces motifs

Page 56: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 56

KnowItAll: augmentation de la couverture Par apprentissage de motifs d’extraction

spécifiques au domaine Par extraction des sous-classes

scientists such as mathematicians, physicists and chemists

philiosophical mathematicians such as Leibniz and Lambert

Par extraction de listes

Page 57: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 57

Plan du cours

Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée

Utilisation de la redondance sur le web Annotation de tableaux de données

Références

Page 58: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 58

Annotation de tableaux dans @WEB

Annotation de tableaux de données Ressources:

une ontologie du domaine des tableaux à annoter

But de l’annotation: Recherche des relations sémantiques

représentées par le tableau Rapprochement des valeurs symboliques du

tableau avec les termes de l’ontologie

Page 59: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 59

Prérequis: l’ontologie

micro-organismes

produitsalimentaires

Escherichia

E. coli

E. coli O157

Bacillus

B. cereus

pathogen

UHT milk pasteurized milk

milk

pasteurized UHT milk

types symboliques

types numériques

pH: pas d’unités,

[0,14]

etc...

Temperature: °C ou °F,

pas d’intervalle de valeurs

relations

Page 60: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 60

Example de tableau à annoter

Microorganism Minimum Growth Temperature

Maximum Growth Temperature

Bacillus cereus 5°C 55°C

Enterotoxigenic Escherichia coli 7°C 46°C

titres de colonnes

relations sémantiques

colonne symbolique colonnes numériques

Page 61: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 61

Etapes de l’annotation d’un tableau

Distinction entre colonnes symboliques et numériques

Calcul des scores de similarité entre termes de l’ontologie et termes issus du web

Reconnaissance du type des colonnes numériques

Reconnaissance des relations représentées par le tableau

Reconnaissance du type des colonnes symboliques

Instanciation des relations pour chaque ligne du tableau

Page 62: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 62

Etape 1: Reconnaissance des colonnes numériques et symboliques Sur chaque cellule, compter le nombre d’indices

numérique sûr: nombre en notation scientifique ou nombre suivi d’une unité

indice numérique: nombre ou unité indice symbolique: mot qui n’est ni une unité ni un

indicateur de résulat absent Déterminer le type de la cellule

numérique si la cellule contient au moins un numérique sûr ou plus d’indices numériques que d’indices symboliques

Déterminer le type de la colonne numérique si au moins la moitié des cellules sont

numériques

Page 63: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 63

Etape 1: exemple

Products Samples tested

Positive for Campylobacter (%)

Year Reference

Chilled chicken

22 68.2 1984 Gill and Harris, 1984

Chicken products

1320 (approx – not specified)

0.07 1992/1994

Campbell and Gilbert, 1995

symb.

symb.

num.

inconnu

symb. num.

num.

num.

num.

num.

num. num.

symb.

symb.

symb.

Page 64: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 64

Quels termes de l’ontologie représentent le mieux le terme du web?=> calcul d’un score de similarité entre le terme du web et chacun des termes de l’ontologie

Les termes sont transformés en vecteurs pondérés Les axes de coordonées représentent l’ensemble de tous les

mots lemmatisés possibles Les valeurs des coordonnées représentent le poids de chaque

mot dans le terme termes de l’ontologie: poids défini manuellement termes du web: poids de 1 sur chaque mot

Mesure de similarité = cosinus de l’angle entre deux vecteurs

Etape 2: Annotation de termes du web par des termes de l’ontologie

Page 65: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 65

similarité entre « minced beef » et « minced poultry » :

similarité entre « minced beef » et « ground beef »:

coordonnées

terme

mince beef poultry ground

WEB: minced beef 1 1 0 0

ONTOLOGY: minced poultry 0.2 0 1 0

ONTOLOGY: ground beef 0 1 0 0.2

1.0)12.0()11(

0010012.012222

5.0)2.01()11(

2.000011012222

nk k

nk k

nk kk

ow

owow

12

12

1),cos(

Etape 2: exemple sur un nom d’aliment

Page 66: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

Minced beef

Chorizo (low-acid fermented sausage)

Smoked salmon

minced poultry: 0.1ground beef: 0.5

lactic acid bacteria: 0.3

fermented milk: 0.3smoked sausage: 0.4dried sausage: 0.4 fresh sausage: 0.4

smoked sausage : 0.1smoked salmon: 1.0smoked fish: 0.1

Sommes des similarités

aliment : 0.6

aliment : 1.5

aliment : 1.2

similarités

microorganisme: 0.0

microorganisme: 0.3

microorganisme: 0.0

ALIMENT

ALIMENT

ALIMENT

Pour la colonne: scorecontenu(aliment)=3/3, scorecontenu(microorganisme)=0/3

Etape 3a: Reconnaissance du type d’une colonne symbolique: score de contenu

Page 67: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 67

Etape 3a: Reconnaissance du type d’une colonne symbolique: choix du type

Calcul de scoretitre , score d’un type d’après le titre de la colonne = similarité entre titre de la colonne et nom du type

Calcul du score final:

scorefinal = 1 – (1-scorecontenu)(1-scoretitre)

Choix du type de meilleur score pour la colonne (au moins x% supérieur au deuxième meilleur)

Page 68: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

Etape 3 b: Reconnaissance du type d’une colonne numérique

D-reduction at 50°C

10 min 30 sec

15 min

Repérage des unités

°C

min

sec

fait partie d’un couplenombre-unité dans le titre

Types possiblesselon les unités

D value

storage time

0.5

0.5

0.5

0.5

: 0.5

: 0.5

Types possibles selon le titre

D value : 0.5

Pour la colonne, score(type)=1-(1-scoreunité(type))(1-scoretitre(type))si les valeurs dans la colonne sont compatibles

score(D value) = 1 - (1-0.5)(1-0.5) = 0.75score(storage time) = 1- (1-0.5)(1-0) = 0.5

Page 69: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 69

Etape 4: reconnaissance des relations - exemple

Strain Min

pH

Max pH

Min temperature

Max temperature

ATCC 3502

5 10 10°C 40°C

NCIB 4270

5.2 10.5 3.3°C 35°C

Table 2: Conditions of growth for Clostridium botulinum

inconnu pH pH Temperature Temperature

Chercher les relations de l’ontologie dont le type résultat a été reconnu parmi les colonnes du tableau

Page 70: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 70

Inconnu pH pH Temperature Temperature

Relation du web:

Relations de l’ontologie:

Conditions of growth for Clostridium botulinum

Relation Signature Score sur les colonnes

Score sur le titre

Score final

Growth parameter - pH

pHMicroorganism

1/2 0.35 0.68

Product property - pH

pH

Food product

1/2 0 0.5

Growth parameter - Temperature

Temperature

Microorganism

1/2 0.35 0.68

Etape 4: exemple (suite)

Page 71: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 71

Etape 5: instanciation des relations

Annotation sous forme de sous-ensembles flous Sous-ensemble classique: chaque élément x

de l’ensemble de définition appartient ou n’appartient pas au sous-ensemble

Sous-ensemble flou: chaque élément x de l’ensemble de définition appartient au sous-ensemble avec un degré d’appartenance (x) compris entre 0 et 1

Page 72: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 72

Etape 5a: instanciation des symboliques Toutes les correspondances trouvées sont

conservées à condition qu’elles correspondent au type de la colonne

Sémantique de similarité

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

turkey meat cooked vegetables turkey pie

cooked turkey :

Page 73: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 73

Etape 5b: instanciation des numériques

Rassemblement de toutes les colonnes contenant le même type Sémantique d’optimalité Sémantique d’imprécision

Page 74: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 74

Etape 5b: optimalité

Définit une plage d’acceptabilité et une plage d’optimalité reconnaissance de mots-clefs dans les titres de

colonnes (Minimum, Maximum, Optimum) Exemple

Species pH Min pH Opt

pH Max

Bacillus cereus

5 6 - 7 8.8

Page 75: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 75

Etape 5b: imprécision

Sémantique par défaut si aucune sémantique d’optimalité n’a été trouvée intervalle dans une cellule – expression régulière moyenne+écart-type dans une cellule – expression régulière moyenne+écart-type dans deux colonnes – mot clef valeur précise

0

0,5

1

35 36 37 38 39 40

0

0,5

1

35 36 37 38 39 40

0

0,5

1

35 36 37 38 39 40

Page 76: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 76

Plan du cours

Annotations et métadonnées, définitions Annotation manuelle Annotation semi-automatique Annotation non supervisée Références

Page 77: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 77

Références Cadixe: Le projet Caderige, Catégorisation Automatique de Documents

pour l'Extraction de Réseaux d'Interactions GEniques http://www-leibniz.imag.fr/SICLAD/Caderige/

CREAM: S. Handschuh , S. Staab , R. Studer. Leveraging metadata creation for the Semantic Web with CREAM. KI '2003 - Advances in Artificial Intelligence. Proc. of the Annual German Conference on AI, R. Kruse et al., Springer, Berlin, SEP 2003

LIXTO: R. Baumgartner, O. Frölich, G. Gottlob, P. Harz, M. Herzog, P. Lehmann. Web Data Extraction for Business Intelligence: the Lixto Approach . BTW 2005.

Annotea: J. Kahan, M. Koivunen, E. Prud'Hommeaux, and R. Swick. Annotea: An Open RDF Infrastructure for Shared Web Annotations. In Proc. of the WWW10 International Conference. Hong Kong, 2001.

BWI: D. Freitag and N. Kushmerick. Boosted wrapper induction. In Proc. of the 17th National Conference on Artificial Intelligence AAAI-2000, pages 577--583, 2000.

Page 78: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 78

Références (2) (LP)2: Fabio Ciravegna. (LP)2, Rule Induction for Information Extraction

using Linguistic Constraints. Technical Report no CS-03-07, University of Sheffield, September 2003

SemTag: Stephen Dill, Nadav Eiron, David Gibson, Daniel Gruhl, Ramanathan Guha, Anant Jhingran, Tapas Kanungo, Sridhar Rajagopalan, Andrew Tomkins, John Tomlin, Jason Zien. SemTag and Seeker: Bootstrapping the semantic web via automated semantic annotation , WWW2003

MnM: M. Vargas-Vera, E. Motta, J. Domingue, M. Lanzoni, A. Stutt, F. Ciravegna. MnM: Ontology Driven Semi-Automatic and Automatic Support for Semantic Markup. The 13th International Conference on Knowledge Engineering and Management (EKAW 2002), ed Gomez-Perez, A., Springer Verlag, 2002

Melita: Fabio Ciravegna, Alexiei Dingli, Daniela Petrelli and Yorick Wilks : User-System Cooperation in Document Annotation based on Information Extraction The 13th International Conference on Knowledge Engineering and Management (EKAW 2002), ed Gomez-Perez, A., Springer Verlag, 2002

Page 79: Annotation et métadonnées Gaëlle Hignette, AgroParisTech gaelle.hignette@agroparistech.fr.

06/11/2008 Annotations et métadonnées - Gaëlle Hignette 79

Références (3)

Armadillo: Norton, B., Chapman, S., & Ciravegna, F. (2005). The Semantic Web : Research and Applications, chapter Orchestration of Semantic Web Services for Large-Scale Document Annotation, (pp. 649–663). Springer.

KnowItAll: Etzioni, Cafarella, Downey, Popescu, Shaked, Soderland, Weld, & Yates (2005). Unsupervised named-entity extraction from the web : an experimental study. Artificial Intelligence,165(1), 91–134.