N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies...
Transcript of N. Aussenac-GillesConstruction d'ontologies à partir de textes - BDA 20031 Construction dontologies...
1Construction d'ontologies à partir de textes - BDA 2003N. Aussenac-Gilles
Construction d’ontologies à partir de textes
Nathalie Aussenac-Gilles
IRIT – CSC ingénierie des connaissances
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 2
Thème et objectifs
Thème : Méthode et outils pour la construction de modèles
conceptuels à partir de textes
Objectifs : Montrer les enjeux pour les recherches sur la modélisation
conceptuelle de la problématique des ontologies Clarifier les caractéristiques des différents paradigmes Placer le débat au niveau des modèles et de leurs contenus Importance de l’usage et des applications
Présenter un panorama d’outils et une méthode
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 3
Plan
1. Ontologies et textes à BDA : motivations
2. Différentes facettes de la modélisation conceptuelle
3. Ressources terminologiques et ontologiques : définitions
4. Construire des modèles conceptuels à partir de textes
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 4
1. Motivations
Convergence des objets de recherche
Domaines concernés : Bases de données, modélisation objet, ingénierie des connaissances
Langages, méthodes, plates-formes, vérification par la logique … de modèles conceptuels
Ateliers de génie logiciel étendus pour représenter des ontologies
ER ou UML pour représenter des ontologies ex : ICOM http://www.cs.man.ac.uk/~franconi/icom/
atelier basé sur ER, intègre un moteur de logique de description, sauvegarde des ontologies en XML.
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 5
1. Motivations
Croisements du côté des applications
Frontières moins nettes entre types d’applications Ex : PICSEL : ontologie pour accéder à des serveurs de BD BD semi-structurées pour la mémoire d’entreprise Mise en forme de business rules au sein d’un SI
Utilisation des ontologies pour organiser, structurer des données Ex : faut-il une ontologie ou une BD pour organiser une
bibliographie ? « Ontologie » désigne une hiérarchie de termes, une base de
données lexicales ou
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 6
1. Motivations
Poser les bases pour un débat
Confusion ou perplexité au niveau des applications Face à un besoin d’entreprise : ontologie ou schéma
E/R ou UML ? Confusion entre la question des langages et la
question de la nature de chacun de ces modèles Situer le débat au niveau de la modélisation
conceptuelle Statut des modèles Ancrage et fondements des connaissances
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 7
1. Motivations
L’invasion des ontologies
Tout est-il ontologie ? Retour sur la définition Retour sur les prétentions affichées Panorama sur les ressources terminologiques et ontologiques
Des ontologies « à tout faire » Des prétentions … aux usages Ce que permet la formalisation (cf. BD déductive ?)
Formaliser pour affiner le sens Formaliser pour vérifier Formaliser pour raisonner
Ce que permet une dimension lexicale Des termes pour communiquer Des termes pour localiser des concepts ou des connaissances
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 8
Plan
1. Ontologies et textes à BDA : motivations
2. La modélisation conceptuelle en question
a. Réponses possibles en matière de modélisation
b. Différentes facettes de la modélisation conceptuelle
3. Ressources terminologiques et ontologiques : définitions
4. Construire des modèles conceptuels à partir de textes
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 9
2. Modélisation conceptuelle en question
Modéliser, c’est répondre à des besoins Modèles comme support au dialogue Modèles comme spécification de code Eventail de contraintes sur les modèles
Modéliser, c’est représenter Primitives conceptuelles (méta-modèle) « Langage » de représentation
Modéliser, c’est sélectionner les « bonnes connaissances » Méthodes pour analyser, identifier, décrire Outils d’aide
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 19
Facettes de la modélisationFondements des modèles
Fonder des modèles sur l’introspection, l’analyse d’organigrammes et des normes (formes normalisées) L’approche BD
Fonder des modèles sur des principes ontologiques caractérisant classes et propriétés des objets, des états … Approche ontologique formelle et philosophique
Fonder des modèles sur l’analyse de l’activité et des savoir-faire individuels ou collectifs mis en œuvre L’approche IC (ergonomie et sociologie)
Fonder des modèles sur l’usage des connaissances tel qu’il est révélé par le langage, avec le consensus minimal que cela suppose Approche développée dans ce tutoriel
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 20
Plan
1. Ontologies et textes à BDA : motivations
2. Différentes facettes de la modélisation conceptuelle
3. Ressources terminologiques et ontologiques
a. Définitions
b. Enjeux de la formalisation
4. Construire des modèles conceptuels à partir de textes
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 21
3.a. Ressources terminologiques et ontologiques : définitions
Une gamme de produits construits pour accéder aux connaissances via la langage
Thésaurus (recherche documentaire et RI) Terminologies (aide à la rédaction, traduction) Base de connaissances terminologiques
(formation, modélisation d’un corpus) Ontologies (systèmes à base de connaissances,
agents sur le web, …)
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 22
ThesaurusThésaurus SRLF et de la SFAR
hémopéritoine
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 23
Ontologie : définition
Modèles des connaissances d’un domaine : ontologie du domaine … pertinentes pour une application, une tâche donnée : ontologie
régionale Application de principes de normalisation, de « bonne
construction » Conceptualisation sous forme de réseau sémantique (concepts,
relations) + axiomes
Ontologie INGÉNIERIE DES CONNAISSANCES. Ensemble des objets reconnus comme existant dans le domaine. Construire une ontologie, c’est aussi décider d’une manière d’être et d’exister des objets.
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 24
Liens
Hiérarchie de relationHiérarchie de concepts
Ontologie
ETAT_PATHOLOGIQUE ETAT_PATHOLOGIQUE_LOCAL LESION adénopathie … épanchement épanchement gazeux épanchement liquidien épanchement de pus épanchement hématique
LESION (LOCALISATION) ANATOMIE
LOCALISATION à_côté_de à_l'extérieur_de au_dessus_de … au_niveau_de
ANATOMIE … ANA_TISSU_ENVEL capsule duremère mésentère peau … péritoine
hémopéritoine : « épanchement hématique localisé au niveau du péritoine »
épanchement hématique (au_niveau_de) péritoine
Concept défini
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 25
Hiérarchie de relationsHiérarchie de concepts
Ontologie
LESION épanchement fracture
LESION (LOCALISATION) SITUATION
LOCALISATION à_côté_de à_l'extérieur_de au_dessus_de … au_niv_de …
SITUATION angle base bord
SITUATION (OBJET) ANATOMIE_OBJET
OBJET … DE …
ANATOMIE_OBJET OS crâne
fracture à la base du crâne
fracture (au_niveau_de) base (DE) crâne
Liens
Concept défini
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 26
Thesaurus vs. Ontologie
Thesaurus Contenu :
Descripteurs, mots-clés Relations : «is_a», « synonyme » (terme préférentiel), «voir_aussi»
Utilisé par un agent humain (documentaliste, spécialiste) pour indexer des documents
Ontologie Contenu
Une taxinomie des concepts, une taxinomie de relation Des « rôles »
Décrite dans un langage de représentation des connaissances et exploitée par un système informatique
Possibilité de comparer et de classer des concepts Capacité générative Inférences
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 27
Le modèle des données d’une BCT
DOCUMENT2Service YYY
------------Unité1.2Service XXX
------------
relation conceptuelle
Fragments de Textes
Unité 1.1
DOCUMENT1
Service XXX
#Documentdéfinition ------attributs ----
contextes de validité
Concepts#Top
dossier de spécification
document de projet.
document de spécification détailléeinformations linguistiques
Termes
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 29
3.b. Ontologies : enjeux de la formalisationCapacité d’expression
Exemple : projet PICSEL, LRI
Partie terminologique Concepts organisés en hiérarchie, définis par leurs relations
(cns ou père + prop.spécifiques)(DEF-CONCEPT chercheur
(and personnel-recherche
(ATLEAST 1 Grade)(ATMOST 1 Grade) (ALL Grade Grade)
(ALL encadre Thésard)))
Contraintes : Relations d’exclusion entre concepts de base
EquipementCulturel equipementSportif Typage des rôles : (ALL encadre Thésard) dans définition Chercheur
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 30
3.b. Ontologies : enjeux de la formalisationCapacité d’expression
Partie déductive Relations autres que unaires et binaires :R1 : VolAR(villeDépart, dateDépart1, villeArrivée, dateDépart2) <= Vol(v1),
lieuDepart(v1, villeDépart), lieuArrivée (v1, villeArrivée), Vol(v2), lieuDepart(v2, villeArrivée), lieuArrivée (v2, villeDépart), dateDépart(v1,dateDépart1), dateDépart(v2,dateDépart2), antérieure (dateDépart, dateDépart2)
Relations disjonctives : autant de règles que d’alternativesProduitJeune(x) <= produit(x), (ATMOST 1 produitServiceAssocié)
ProduitJeune(x) <= produit(x), produitServiceAssocié(x,y), bonMarché(y)
Relations inverses Raccourci d’enchaînement de rôles
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 31
3.b. Ontologies : enjeux de la formalisationCapacité d’expression
Expression de requêtes SéjourAuSoleil(s,p) <= CombinéSéjour(s), LogementAssocié(s,l),
lieuDeRésidence(r), SituéDans(r,p), LieuAuSoleil(p)
Calcul de plans de requête Vérifier la satisfiabilité Substituer chaque terme de la requête par sa définition logique, c’est-à-dire
par toutes ses spécialisations possibles -> plusieurs requêtes disjonctives Réécriture de chaque requête conjonctive (même principe) à partir de la
réécriture de chacun des atomes -> identification des faits correspondants Affinement de requêtes
Repérage de conflits Exploitation de la hiérarchie pour généraliser Calcul de requête satisfiable à partir de requêtes insatisfiables par
généralisation de concepts
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 32
Plan
1. Ontologies et textes à BDA : motivations
2. Différentes facettes de la modélisation conceptuelle
3. Ressources terminologiques et ontologiques
4. Construire des modèles conceptuels à partir de textes
a. Justification
b. Panorama d’outils pour l’analyse de textes
c. Une méthode à travers une étude de cas : le projet verre
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 33
4 - Construire des modèles à partir de textesJustification
Pourquoi recourir aux textes ? Sources de connaissances (partagées et stabilisées à l’écrit) Améliorent la lisibilité et la maintenance des modèles Complémentaires de l’expertise humaine
Gain de temps, réduction des coûts
Quels textes ? Nature et contenu des corpus Ensemble de textes choisis en fonction de l’application et de
leurs caractéristiques (contenu, genre textuel, date, auteurs, format, etc.)
Documents techniques, documents didactiques, retranscriptions d’entretiens, informations échangées par réseaux …
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 34
Quels outils d’analyse de textes pour la construction de modèles conceptuels ?
Logiciels de traitement automatique des langues : TAL« Partir des textes pour mieux y revenir »
Textes
Système d’informationTraitant des textes tal2
Modèle
tal1
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 35
Problématique du traitement de l’information textuelle
système
L'échographie abdominale retrouve une contusion splénique et un hémopéritoine. Traumatisme abdominal avec une fracture de rate et un hémopéritoine abondant, ayant nécessité une splénectomie en urgence. Un nouvel état de choc apparaît associé à syndrome compartimentaire abdominal (hémopéritoine + hématome rétropéritonéal)) justifiant la laparotomie exploratrice. L'évacuation de l'hémopéritoine ne permet pas de mettre en évidence une cause nette au saignement ;Instabilité hémodynamique initiale, avec TA 80 / 60 et fréquence cardiaque à 120 / min en relation avec des pertes sanguines sur les foyers de fractures (échographie abdominale normale, absence d‘ hémopéritoine ou de lésion viscérale intrapéritonéale évidente)).deux échographies abdominales successives un hémopéritoine évolutif, sans pneumopéritoine, ainsi qu'un décollement péricardique postérieur.un traumatisme thoraco-abdominal avec fracture des arcs postérieurs des 7e, 8e et 9e côtes droites, contusion hépatique au niveau des segments VI-VII, hémopéritoine de moyenne abondance, contusion splénique,Instabilité hémodynamique nécessitant remplissage, transfusion de culots globulaires, PFC et plaquettes dans le cadre d'un hémopéritoine sur fracture du bassin.
texte
épanchement hématique (au_niveau_de) péritoine
Ressource
ANATOMIELESION LOCALISATION
hémopéritoine
CONCEPT
terme
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 36
Traitement de l’information textuelle
sevrage en noradrénaline le 23 / 10. Stabilité cardiorespiratoire, le sevrage de la Noradrénaline est fait à J5 de la réintervention et l'extubation est réalisée à J6. Evolution favorable avec sevrage rapide en Noradrénaline le 20 / 06 / 99. Stabilité hémodynamique initiale correcte avec sevrage progressif en Noradrénaline obtenu à J3. Les suites du choc hypovolémique hémorragique sont simples, avec sevrage de noradrénaline à J3 et extubation à J2. L'évolution est alors favorable avec Instauration d'une corticothérapie ayant permis un sevrage rapide de la Noradrénaline, La patiente est sevrée de noradrénaline le 16 / 06 / 00. Le patient est sevré de Noradrénaline le 13 / 05 / 00. La Noradrénaline est sevrée dans la nuit du 20 au 21 / 01. Après remplissage vasculaire par 1000 cc de Plasmion et 1000 cc d'Elohes, la Noradrénaline est rapidement sevrée
sevrage (OBJET) Noradrénaline
RTO
système
texte
sevrage en noradrénaline sevrage de la noradrénaline
sevrage Adj? [de|en] la? noradrénaline
sevré de noradrénaline
noradrénaline être Adv? sevré
sevrage_Noradrénaline
CONCEPT
termes
patrons
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 37
Panorama de logiciels pour extraire et structurer
Une typologie fonctionnelle :1. Extraction de concordances : YAKWA, SATO2. Extraire des candidats termes. ex : Syntex, NOMINO, ANA3. Extraire des relations candidates. Ex: Prométhée, Caméléon4. Extraire des constructions prédicats / arguments : ASIUM,
SVET’LAN Autres typologies
Méthodes linguistique / méthodes statistiques Construction de RTO / mise à jour de RTO Phase d’amorçage / phase d’enrichissement
Rappel : il ne s’agit pas de construction automatique…
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 38
1 . Extraction de concordances
Fonction : pour un patron donné, présenter toutes les occurrences rassemblées
Niveau d’annotation du corpus corpus « nu » : uniquement forme (suite de mots) corpus étiqueté : patrons morpho-syntaxique. Exemples :
{nom}+{verbe « être » indicatif}+{article indéfini} {pronom personnel 1ère pers.}+{verbe indicatif}+{« dans »}+
{déterminant démonstratif}+{Nom}
activité de construction d' un |modèle |de connaissances , ou modélisation des solution verticale comporte un |modèle |à la KADS , une bibliothèque de composants A un stade ultime , le |modèle |formel est , la plupart du temps , connaissances en distinguant le |modèle |conceptuel du modèle opérationnel du monde ( on parle de |modèle |de produit ) et objet de modélisation de le projet européen KADS , le |modèle |conceptuel joue le rôle de modèle originale , de créer un |modèle |cognitif du futur système
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 39
Exemple de logiciel d’exploration de corpus : Yakwa
Principes Requêtes basées sur la syntaxe et la sémantique Nécessite une corpus étiqueté (Tree Tagger analyseur
syntaxique)
Utilisation pour la recherche de relations entre concepts Aller chercher des indices lexicaux (marqueurs) de
relations sémantiques pour organiser les concepts Lien avec Caméléon : utilisation de marqueurs génériques
pour relations EST-UN et PARTIE-DE
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 40
Création de requêtes
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 41
Interprétation des résultats
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 42
Fonction : extraction et tri automatiques de candidats termesCT : séquence susceptible d’être retenue comme étiquette de concept
Méthodes d’extraction statistiques
segments répétés information mutuelle
morpho-syntaxiques repérage de patrons analyse syntaxique partielle
Critères de tris numériques fréquence d’occurrences dans le corpus productivité : nombre de CT plus complexes dont le CT est constituant
2 . Extraction de termes
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 43
Syntex : analyse syntaxique et construction d’un réseau de syntagmes
En entrée : un corpus étiqueté Dans chaque phrase, à chaque mot est associée une
étiquette morphosyntaxique (Cordial, TreeTager) En sortie : 1) un corpus analysé syntaxiquement
Dans chaque phrase, identification des relations de dépendance syntaxique (sujet, complément d’objet, épithète, …) entre les mots
En sortie : 2) un réseau de syntagmes 1) De chaque phrase, extraction de syntagmes verbaux,
nominaux, adjectivaux 2) Pour l’ensemble du corpus, construction d’un réseau de
syntagmes structuré par les relations Tête et Expansion
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 44
1) Analyse syntaxique
Le chat de Marie mange une petite souris.
Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.
Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.
OBJSUJ
Etiquetage morphosyntaxique
Analyse syntaxique
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 45
2) Construction d’un réseau de syntagmes
L’ érosion attaque un plan de faille
SUJ OBJ
attaquer un plan de faille
plan de faille
faille
T
T E
E
plan : nom plan de faille : syntagme nominalattaquer : verbe attaquer un plan de faille : syntagme verbal
T : têteE : expansion
Extraction desyntagmes
plan
attaquer
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 46
2) Construction d’un réseau de syntagmes
attaquer
~ pénéplaine ~ pente raide ~ plan de faille ~ roche sédimentaire ~ section anticlinale ~ table karstique
faille
escarpement de ~ligne de ~plan de ~
T
plan
~ de cisaillement ~ de diaclase ~ de faille ~ de glissement ~ de schistosité ~ de stratification
T
E
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 47
Données de l’analyse distributionnelle
agent de l’état
agent de l’état
agent de l’état
agent
agent
agent
formation professionnelle
formation professionnelle
formation professionnelle
formation
formation
formation
état
professionnel
( bénéficier de formation professionnelle , SUJ )
( bénéficier de formation, SUJ )
( bénéficier , SUJ )
( bénéficier de formation professionnelle , SUJ )
( bénéficier de formation, SUJ )
( bénéficier , SUJ )
( agent de l’état bénéficier , DE )
( agent bénéficier , DE )
( bénéficier , DE )
( agent de l’état bénéficier , DE )
( agent bénéficier , DE )
( bénéficier , DE )
( agent , DE )
( formation , ADJ )
Termes Contextes
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 48
Mesures de similarité
Contextes pour le terme :murmure vésiculaire
Termes pour le contexte :( patient présenter , OBJ )
( abolir , OBJ )( abolir à gauche , OBJ )( abolition , DE )( diminuer , OBJ )( diminuer à gauche , OBJ )( diminution , DE )( percevoir , OBJ )
amyotrophiedétressedouleurdouleur thoraciquedyspnéefièvrefracturehématomeSyndrome
productivité = 7 productivité = 9
Productivité d’un terme, d’un contexte
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 49
3 . Extraction de relations : Caméleon
La notion de marqueur : Eléments lexico-syntaxiques permettant de repérer une
relation conceptuelle
Hypothèses : Une même relation peut s’exprimer par différents marqueurs Les relations peuvent dépendre du corpus Les marqueurs peuvent dépendre du corpus
Corpus étiqueté en entrée, hypothèses de relations en sortie
Modèle conceptuel enrichi de relations conceptuelles
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 50
Ajuster les marqueurs
Sélectionner des relations et des marqueurs génériquesex : hypéronymie (est-un) :
Det N1 est Det N2 (qui, adj, p.passé, p.présent) Tous les N2 sauf det N1 Det N1 comme det N2
Les évaluer en corpus Les adapter au corpus pour réduire le bruit et le silence Identifier patrons et relations spécifiques au corpus
Par projection de couples de termes Par observation de contextes Par observation des résultats de Syntex On construit une base de marqueurs adaptés au corpus
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 51
Phrases qui contiennent la forme et qui
peuvent contenir une relation (hypothèses)
Formule qui définit le marqueur
Termes en relation que
peuvent indiquer des
concepts reliés
Répérer des relations lexicales
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 52
Repérage de relations
avec Caméléon
Des hypothèses de relations aux
Relations conceptuelles
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 53
Plan
1. Ontologies et textes à BDA : motivations
2. Différentes facettes de la modélisation conceptuelle
3. Ressources terminologiques et ontologiques
4. Construire des modèles conceptuels à partir de textes
a. Justification
b. Panorama d’outils pour l’analyse de textes
c. Une méthode appliquée à une étude de cas : le projet verre
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 54
Construire des modèles à partir de texte Principes
Exploiter les textes Partir des textes comme sources et supports de
connaissances Utiliser des techniques et outils d’analyse de corpus basés
sur des principes linguistes et statistiques Plonger le modèle conceptuel dans son contexte linguistique
: conserver un lien du modèle vers les textes
Poids de l’application L’ontologie est construite pour une application. L’application s’inscrit dans une pratique (domaine) L’ingénieur de la connaissance est un médiateur.
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 55
L’ontologue au centre
RessourceTermino-
Ontologique
Application
Domaine
Textes tal
Ressourcesexistantes
Utilisateur
u
Ontologue
o
Spécialistes
s s
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 56
Une autre vue sur la méthode
Modèle
Documents Techniques
Outils d’Analyse de Textes
2. Appliquer des outils d’analyse de textes
3. Structurer et normaliser les données
4. Formaliser dans un modèle
1. Constituer un corpus
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 57
1. Constitution du corpus
Choisir des documents Compromis entre représentativité (sujet, genre textuel) ET taille Trouver les documents les plus pertinents pour l’application Mettre les documents au bon format Evaluer leur pertinence
Décider de la manière de les traiter Identifier les groupes homogènes : type de document, sujet Rendre compte de connaissances communes ou différenciées
Opportunisme : découpage en sous-corpus
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 58
Constitution du corpus
Vocabulaire générique du verre
Livre
Vocabulaire technique : procédés du verre textile
10 chapitres104132 mots
Brevets
Vocabulaire technique des dépôts de brevets
13 brevets61272 mots
Veille
Vocabulaire de la finance et économie
7 mois articles AFP91658 mots
563 noms et 59 SN
Entre 93 et 98% des SV et SN etplus de la moitié des mots simples sont propres à chaque sous-corpus.
caractérisation rapide de la nature de ces vocabulaires
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 59
2 . Etude terminologique
Documents techniques
Eléments d’ontologie
Outils d’analyse de textes
YakwaSyntex
Extraction de termes mis en relation par Syntex
Recherche de relations à l’aide de patrons avec Yakwa
Fiches terminologiques dans Terminae et fiches Concept-terminologique dans Excel
Liée à la normalisation
Terminae
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 60
Représentation dans Terminae
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 61
3 . Normalisation
Interprétation sémantique du contenu des textes guidée par l’expertise et les besoins de l’application Il est utopique (et coûteux) de vouloir TOUT tirer des
textes et seulement des textes. Structurer => Fixer un point de vue lié à l’application
3 types d’activités Regroupements, généralisations, spécialisations Mêmes données, exploitées selon trois points de vue.
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 62
Recommandations pour la normalisation
A. Des principes d’analyse des textes
B. Une démarche générale pour définir et organiser des concepts (en 5 points)
C. Des principes de normalisation
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 63
A - Principes d’analyse des textes
Deux axes pour caractériser les tâches effectuées Axe texte/modèle
Data-driven : du texte au modèle (dépouillement)
Model-driven (fouille, recherche ciblée)
ManufacturingProcesses
top
Textile glass concepts Inventions
Finance concepts
ProcessesMaterials
Products
Glass Fiber
Glass Yarn manufacturing Processes
Glass Yarnn
Fiberizing
CorpusRésultats du TAL
Axe « parcours au sein du modèle »Ascendant : regroupement, abstractionDescendant : spécialisation, raffinement de conceptsCentrifuge : rayonnement autour de concepts centraux
Des principes empiriques
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 64
B - Démarche générale pour définir et organiser des concepts
1. Repérage de concepts centraux. Etude des termes synonymes associés (démarche centrifuge)
2. Organisation hiérarchique : concepts spécifiques (fils) et génériques (pères) des concepts centraux, relation EST_UN (démarche descendante et ascendante).
3. Étude des autres types de relations associés à ce concept • à partir de séquences de Syntex (démarche des textes vers le modèle)
• Mise en forme des marqueurs correspondants et recherche avec Yakwa de couples de concepts reliés par cette relation (du modèle vers les textes)
4. Organisation des résultats dans TERMINAE
5. Validation partielle par l’expertise
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 65
C - Principes de normalisation
Justifier la place d’un concept dans l’ontologie par les relations qu’il entretient avec les autres concepts Concept ou instance Différenciation des concepts Unicité de définition Homogénéité de point de vue Cohérence des descriptions
Critères de normalisation Point commun entre 1 concept et son père Différence entre 1 concept et son père Points communs entre 1 concept et ses frères Différences entre un concept et ses frères
Représentation à l’aide des relations et de l’héritage
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 66
2 - Spécialisation et généralisation d’un concept
Exploitation des relations tête/expansion (on cherche les mots dont « process » est en tête) ; fiberizing process, manufacturing process, industrial process, etc
Exploitation des verbes et formes nominales Gérondifs : coating, drawings, moulding, Manufacturing, fiberizing, washing,
bushings
Étude des voisins dans Syntex et observation des contextes qu’ils partagent. Process et processing
Repérage de marqueurs spécifiques au corpus de la relation générique/spécifique, comme EST-UN, TYPE-DE Process of manufacturing + Nom complément
process of manufacturing the glass yarns process for manufacturing thin profiles process for manufacturing the granules
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 67
2 et 3 - Etude des relations autour d’un concept
Des relations lexicales aux relations sémantiques Déterminer les concepts reliés et le type des relations Les représenter à l’aide de rôles ou de relations EST-UN Décider des propriétés des relations : héritage, …
Des relations à une hiérarchie de concepts Différencier des concepts selon des critères homogènes :
corps solide/corps liquide, différents processus de fabrication …
Relations révèlent des critères de différentiation Ajout de concepts non terminologiques
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 68
Contenu du modèle
PROCESS
ManufacturingProcess
WashingScraps
ManufacturingGlassYarns
DRAWINGPROCESS
CONVERSIONINTO
SALEABLEPRODUCTS
GLASSMANUFACTURING
PROCESS
MouldingProcess
PressMouldingProcessWashingScrapsSteps
SheetMouldingProcess
ManufacturingThinProfiles
OpenLayUpMouldingProcess
ReinforcedReactionInjectionMouldingProcess
ReinforcedPlasticMouldingProcess
CompositeMouldingProcess
InjectionMouldingProcess
SeparatingFibresOfYarns
UnwindingGlassYarns
DippingSheetOfGlassFibres
HotShaping
HeatingSheet
ReCirculatingSolvent
TransferringResine
FeedingScraps
AddingCleanSolvent
CirculatingScraps
CollectingResinLoaded
Solvent
DryingWashedScraps
DetectingLossSolvent
PROCESS
ManufacturingProcess
WashingScraps
ManufacturingGlassYarns
DRAWINGPROCESS
CONVERSIONINTO
SALEABLEPRODUCTS
GLASSMANUFACTURING
PROCESS
MouldingProcess
PressMouldingProcessWashingScrapsSteps
SheetMouldingProcess
ManufacturingThinProfiles
OpenLayUpMouldingProcess
ReinforcedReactionInjectionMouldingProcess
ReinforcedPlasticMouldingProcess
CompositeMouldingProcess
InjectionMouldingProcess
SeparatingFibresOfYarns
UnwindingGlassYarns
DippingSheetOfGlassFibres
HotShaping
HeatingSheet
ReCirculatingSolvent
TransferringResine
FeedingScraps
AddingCleanSolvent
CirculatingScraps
CollectingResinLoaded
Solvent
DryingWashedScraps
DetectingLossSolvent
PROCESS
ManufacturingProcess
WashingScraps
ManufacturingGlassYarns
DRAWINGPROCESS
CONVERSIONINTO
SALEABLEPRODUCTS
GLASSMANUFACTURING
PROCESS
MouldingProcess
PressMouldingProcessWashingScrapsSteps
SheetMouldingProcess
ManufacturingThinProfiles
OpenLayUpMouldingProcess
ReinforcedReactionInjectionMouldingProcess
ReinforcedPlasticMouldingProcess
CompositeMouldingProcess
InjectionMouldingProcess
SeparatingFibresOfYarns
UnwindingGlassYarns
DippingSheetOfGlassFibres
HotShaping
HeatingSheet
ReCirculatingSolvent
TransferringResine
FeedingScraps
AddingCleanSolvent
CirculatingScraps
CollectingResinLoaded
Solvent
DryingWashedScraps
DetectingLossSolvent
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 69
Première structuration dans Excel
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 70
4 . Formalisation
Nature de la formalisation Traduction en logique (concept = ensemble de relations,
conditions nécessaires et suffisantes pour sa définition) Vérification de l’unicité des définitions
• TERMINAE : • Représentation des connaissances en logique de description• Formats d’exportation standards (OIL, RDFs)
• Jusqu’où formaliser ?• Revenir à la demande• Introduction de concepts, relations et règles pour optimiser la
représentation et l’utilisation qui en est faite (ex : requêtes)
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 71
Fibre de verre
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 72
Conclusion
Apport des ontologies Fondements ontologiques Formalisation Capacité de raisonnement Standards pour la représentation des connaissances
Apport des ontologies à composante terminologique Retour vers les textes Documentation
Acquérir des connaissances à partir de textes Méthodes éprouvées Outils mieux adaptés et plus disponibles Fondements des modèles s’appuyant sur les usages et les connaissances
écrites, stabilisées d’un domaine
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 73
Perspective : mise à jour de modèles conceptuels
Maintenance d’un modèles, d’une ontologie Retour d’expérience Mise à jour du corpus de référence
La trace Il peut y avoir une distance importante entre les résultats des
outils et le modèle de type RTO corpus Termes ? MC
Le corpus est un des éléments de documentation d’un modèle Termes de la RTO : « pont » entre le réseau de concepts et le corpus Garder la trace des choix de validation et de modélisation (positifs et
négatifs)
Incrémentalité Utiliser la RTO construite pour faciliter l’analyse du nouveau corpus:
par les outils de TAL et par l’ontologue
N. Aussenac-Gilles Construction d'ontologies à partir de textes - BDA 2003 74
Des recherches à poursuivre
Les applications « en vraie grandeur » sont nécessaires pour faire avancer les recherches La notion d’ontologie est intrinsèquement liée à
celle d’application, d’usage Tester la faisabilité Identifier les verrous Retour sur investissement : mettre en place des
expériences pour mesurer le ratio : coût /gain Remise en question des ontologies ?
75Construction d'ontologies à partir de textes - BDA 2003N. Aussenac-Gilles
Bibliographie Acquisition à partir de textes Bourigault D., Aussenac-Gilles N., Charlet J. Construction de ressources terminologiques ou
ontologiques à partir de textes : un cadre unificateur pour trois études de cas. Revue d’Intelligence Artificielle (RIA). Numéro spécial sur les Terminologies. Slodzian M. (Ed.). Paris : Hermès. A paraître en 2004.
Aussenac-Gilles N., Biébow B., Szulman S., Modélisation du domaine par une méthode fondée sur l’analyse de corpus. In Ingénierie des Connaissances. R. Teullier, P. Tchounikine et J. Charlet Eds. Paris : Eyrolles. A paraître en 2003.
Bourigault D. & Aussenac-Gilles N., Construction d'ontologies à partir de textes, actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles TALN2003, 11-14 juin 2003, Batz-sur-mer, pp. 27-47
Projet Verre N. Aussenac-Gilles and A. Busnel. Méthode de construction à partir de textes d’une ontologie
du domaine de l’industrie de la fibre de verre. Rapport final, contrat de recherche entre IRIT et Saint-Gobain Recherche. Rapport Interne IRIT/2002-28-R. Sept. 2002.
PICSEL Reynaud C, M.C. Rousset, B. Safa (2002). Construction de médiateurs pour intégrer des
sources d’information multiples et hétérogènes : le projet PICSEL. Revue I3. N°1. Vol. 1 Cépaduès-Editions.
Modélisation conceptuelle http://www.semanticweb.org/ Engle P. Data modelling, left and right. The Data Administration Newsletter. 2003. http://www.TDAN.com/ Guizzardi G., Herre H., Wagner G., On the General Ontological Foudationsof Conceptual Modeling. Proc. Of 21th Int.
Conf. On Conceptual Modeling (ER2002). Berlin : SpringerVerlag, LNCS. 2002.