Aussenac ri ia-2015
-
Upload
nathalie-aussenac-gilles -
Category
Documents
-
view
90 -
download
0
Transcript of Aussenac ri ia-2015
Ontologies et accès aux contenus, un exemple de fertilisation
croisée entre SIG et IA
Nathalie Aussenac-Gilles
(IRIT – CNRS, Toulouse, France)
Plan
• Systèmes d’information et IA: différences fondatrices– Un point de vue : la gestion des textes– Approches et problématiques
• Convergences– Évolutions dans chaque domaine– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique– Une vue RI : Représenter un texte par un graphe sémantique– Une vue IA : les modèles de RTO– Une fertilisation à cultiver pour aller plus loin : ex des relations
sémantiques
2Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
SI, IA : Différences fondatrices
« Si tu ne sais pas où tu vas, regarde d’où tu viens »
• Des sous-disciplines de l’informatique
• Questions des recherche et problématiques propres
• Applications différentes
• Ma lorgnette : les textes
• Données, Informations
• vs connaissances
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 3
Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, l'ingénierie des connaissances, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. Or une réponse opérationnelle fait souvent appel à tous ces domaines.
SI, IA : Différences fondatrices
Les textes dans les SIG• Des données : Documents comme fichiers, mots
comme Chaînes de caractères
• Statut : sources d’information, traces d’activités, restitution de traitements
• Traitements
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 4
Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, l'ingénierie des connaissances, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. Or une réponse opérationnelle fait souvent appel à tous ces domaines.
Rechercher des fichiers
Stocker, archiver
Représentations optimisées : Indexer
DocumenterMéta-données
... Systèmes d’information … Afficher, mettre en forme, éditer
SI, IA : Différences fondatrices
Les textes en IA > la langage en IA• Approche symbolique
• Langage et raisonnement, ref. linguistique
• La logique comme modèle cognitif
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 5
Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche.
Relation de causalitéValeurs graduelles : plus les convergences sont nombreuses,
moins les frontières sont nettesFormalisation : Pour tout p et f, Convergence(p) & nombreuses (p) & frontière(f) > non nette (f)
Computationallinguistics vs NLP
Symboles, Connaissances (prédicats, règles, faits)
Description, analyses manuelles, corpus « artificiels »
Deux domaines dans l’informatique
Recherche d’information
BD
SIAD
Recommandations
Gestion documents
…
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 6
Logiques
Base de connaissances
Décision et incertitude
…
TAL
Ingénierie des connaissances
Plan
• Systèmes d’information et IA: differences fondatrices– Un point de vue : la gestion des textes– Approches et problématiques
• Convergences– Évolutions dans chaque domaine– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique– Une vue RI: ex de la thèse de M. Baziz– Une vue IA: les modèles de RTO– Une fertilisation à cultiver pour aller plus loin : ex des
relations sémantiques
7Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
SI, IA : exemples d’évolutions
Les textes dans les SIG• Chercher des réponses précises
• Affichage et accès sur le web
• Mettre en relation : hypertexte
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 827/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 8
Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. <partie 1 > Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, <a href = « http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. </partie1> Or une réponse opérationnelle fait souvent appel à tous ces domaines.
Dissocier forme et contenu
Découper, structurer, étiqueter, baliser
Représentations sémantiques : Index sémantiques
Documenter des fragmentsMéta-données
... Ingénierie des connaissances…
Fonctions « cognitives »
plus complexes … intelligence ?
SI, IA : exemples d’évolutions
Les textes en IA : le succès du TAL• Sémantique formelle
• TAL à base de règles linguistiques : analyses syntaxiques
• Plus de corpus sur le web : TAL statistique
• Plus de ressources, lexiques, dictionnaires …
• Apport du Machine Learning
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 9
Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. <partie 1 > Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, <a href = « http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. </partie1> Or une réponse opérationnelle fait souvent appel à tous ces domaines.
Corriger, analyser, étiqueter automatiquement
Résumer, traduire
Construire des arbres syntaxiques, sémantiques
Le défi du web sémantique : exemple du site de la BBC
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 10
Additional informations on web pages
Situation in a taxonomy
Close and similar animals
Dynamic generation of the page content using various knowledgesourcesDefinition
Properties
Relevant BBC documents
Le défi du web sémantique : exemple du site de la BBC
27/05/2015 - Aussenac 11
Fertilisation croisée
entre
A life science taxonomy
Semanticdistance
Dynamic generation of the page
content using various knowledgesources
The Semantic options to answer theseneeds- Unified representation- Standard meta-data- Ontologies- Formal definitions- Inference capabilities
Rich and formal concept descriptions
Le défi du web sémantique : exemple du site de la BBC
27/05/2015 - Aussenac 12
Fertilisation croisée
entre
Dynamic “data semantisation”
Semantic searchStandard query language
Dynamic generation of the page content using various knowledgesources
Semantic annotation
• Ontologies and vocabularies for– Tagging videos and papers– Collecting additional information on the web– Providing synthetic information about wildlife
• Ontologies– 6 main ontologies
• wildlife ontology
http://www.bbc.co.uk/ontologies/wildlife/2010-11-04.shtml
27/05/2015 - Aussenac 13Fertilisation
croisée entre SIG et IA
Le défi du web sémantique : exemple du site de la BBC
Deux domaines dans l’informatique
Recherche d’information
BD
SIAD
Recommandations
Gestion documents
…
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 14
Logique, représentation
des connaissances
Base de connaissances
Décision et incertitude
Ontologies
TAL, …
Ingénierie des connaissances
Web
sémantique
Questions-réponses
Apprentissage automatique
Web des données, Entrepôts de données RDF
Fouille de données
RI sur le web
Rapprochement entre données et connaissances
Plan
• Systèmes d’information et IA: differences fondatrices– Un point de vue : la gestion des textes– Approches et problématiques
• Convergences– Évolutions dans chaque domaine– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique– Une vue RI: ex de la thèse de M. Baziz– Une vue IA: les modèles de RTO– Une fertilisation à cultiver pour aller plus loin : ex des
relations sémantiques
15Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 16
Systèmes de Recherche d’Information sémantique M. Baziz (2004)
----- -- --- ---------- -- --- -----
Besoin en Information
Représentation de la requête
Analyse
Appariement
---- ------------------------
---- ------------------------
---- ------------------------
---- ------------------------
---- ------------------------
---- ------------------------
Collection de documents
Representation des documents
---- ------------------------
---- ------------------------
---- ------------------------
---- ------------------------
---- ------------------------
---- ------------------------
Indexation
---- ------------------------
---- ------------------------
---- ------------------------
---- ------------------------
---- ------------------------
---- ------------------------
Documents sélectionnés
hierarchies de concepts, thesaurus, ontologies, ...
Représentation
Indexation
• Qu’est ce qu’indexer ?
– Associer des descripteurs à un document pour le retrouver [Calabretto et Prié,04]
– Extraire d’un document une représentation caractéristique de son contenu [Baziz,05]
• Nature variable des descripteurs :
– RI non sémantique : descripteur = groupe de mots
– RI sémantique : descripteur = élément d’ontologie
17
Le moteur manque de puissance en accélération
et en vitesse de pointe.
Phase moteur : accélération
Phase véhicule : grande vitesse
Motorisation Manque de puissance
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 18
t1, t4
t7 t9
tk,
Schéma général de l’approchedes réseaux sémantiques pour représenter les documents [Baziz, 05]
ontologien1
n4
n3
n2
n6
n5
P13P23
P12
P14
P42
P4i
P2i
Pmi
P3mP2m
Un réseau sémantique
Projeter un document sur une ontologie
Questions:
• Comment identifier les noeuds ?
• Comment les pondérer ?
• Comment pondérer les liens entre eux ?
un document
• noeuds + arcs• noeuds = concepts• arcs = liens étiqueté entre concepts
Réseau sémantique [Quillian, 68][Lee, 93]
Des réseaux sémantiques pour représenter les documents
• Quelle ontologie ?
– Wordnet …. qui n’est pas une ontologie mais un réseau lexical (Cf Guarino et Welty)
• Projeter un document sur une ontologie
1. Détection et extraction de concepts candidats
2. Calcul de similarité entre concepts candidats
3. Construire le meilleur réseau (noyau) sémantique
1927/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
Détection de concepts
20
Exemple1 :
Exemple2 :
Exemple3 :
Solar energy
C1
The structure of an organism 2 concepts formés de mots simples
The abdominal external oblique muscleC1
C2
Ck=tjtj+1..tmConcept= Max CkText=t1t2...tnwith m<=nk
C3
Le concept le plus long formé par des mots successifs et appartenant à au moins une entrée dans l’ontologie est sélectionné:
Le plus long (C3) est le bon.
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA
Problémtisation de l’indexationdu point de vue du TAL et de l’IA
• Articuler texte et représentation sémantique• Disposer de représentations
– Sémantiquement valides et précises : ontologies validées– Vocabulaires riches mais moins formels : vocabulaires du LOD ou SKOS– De logiciels pour retrouver des éléments de modèle dans les textes
• Etre conscient des distorsions, ambiguïtés entre mots / représentations / interprétation des représentations
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 21
Indices
linguistiques
RTO
Meta-modèle de Ressource Termino-Ontologique
27/05/2015 - AussenacFertilisation croisée entre SIG et IA 22
Termes manipulés
comme classes
Associer des informations (POS, langue, ..)
Meta-modèle
OBIR (Reymonet 2007 et 2009)
Autres modèlesLingInfo (Buitelaar et al. 2006)
LexOnto [Cimiano et al. 2007]
LexInfo [Buitelaar et al. 2009]
LIR in NEON (Monteil Ponsoda et al., 2008, 2011)
Meta-modèle pour ontologies lexicales : le méta-modèle NEON
27/05/2015 - Aussenac 24Fertilisation croisée entre SIG et IA
LIR :
Linguistic
Information
Repository
the LEMON meta-model
27/05/2015 - AussenacFertilisation croisée entre SIG et IA 26
Main Classes of the meta-model:
● Lexical Entry
● Form: inflectional variant
– Representation: written versions) of the entry
● Sense (one of the meanings of the lexical Entry)
– Reference: actual meaning in the ontology
Questions à approfondir
• Annotation sémantique– Quelle richesse des annotations ? Avec quel type
de ressources ? Quelle fidélité au langage suivant les applications ?
• Passage à l’échelle, complexité– Mieux étudié en RI
– Quelle efficacité de l’ensemble du processus ? Sachant le coût de construction d’une ontologie, la place requise par des annotations sem etc
– Jusqu’où enrichir les
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 27
Plan
• Systèmes d’information et IA: differences fondatrices– Un point de vue : la gestion des textes– Approches et problématiques
• Convergences– Évolutions dans chaque domaine– Un point de rencontre : données <-> connaissances
• Cas de la recherche d’information sémantique– Une vue RI: ex de la thèse de M. Baziz– Une vue IA: les modèles de RTO– Une fertilisation à cultiver pour aller plus loin : ex des
relations sémantiques
28Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
Semantic relations,what do we mean?
Research field• Domain Ontology engineering
– Formal (logic, RDF, OWL …) and may lead to infer new knowledge
– The relation is part of a network– May be shared or not
• Semantic web– Independent triples– Publically available in data
repositories with W3C Standard format
– Connect triples with existing ones, with web ontologies
What is a relation
bot:Tree bot:has_part bot:Branch
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 29
Trunk
Has-part
Root
Plant
Fonguscereals
Has-part
Root
is_a
TreeHas-part
Branch
bot:myTree
bot:has-part
bot:MyTreeRoots
bot:Treebot:has-
partbot:Branch
rdf:Type
Finding semantic relations, what are the issues?
• Knowledge sources: – where can we find relations?
• Extraction techniques– How can we identify them?
• Representation – Which way do I represent this information?
• Validation– What makes a relation representation valild? Relevant?
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 30
Finding semantic relations, what are the issues?
• Knowledge sources – text, human experts, existing “semantic” resources (lexicon,
terminologies, ontologies, Linked Data vocabularies)– Domain specific vs general knowledge
• Extraction techniques– “obvious” language regularities, known relations and classes (or
entities) -> Patterns• Issues : domain dependence, domain coverage, variation and
flexibility, rigidity (need to be regularly updated) • Research issues: automatic building by machine learning
– “more implicit” language regularities, medium size corpora, open list of classes/entities -> supervised learning
– Very large corpora, unexpected relations -> unsupervised learning
31Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
Pattern based relation extraction, an issue: variation
• A tree comprises at least a trunk, roots and branches.
• With branches reaching the ground, the willow is an ornamental tree.
• The tree of the neighbor has been delimed.
• He climbs on the branches of the tree.
• This tree is wonderful. Its branches reach the ground.
• Contains: very systematic pattern; the parts may be difficult to spot; enumeration > various parts
• With: meronymy pattern only in some genres (such as catalogs, biology documents)
• Delimed : Term and pattern are in the same word; requires background knowledge: delimed -> has_partbranches (and branches are cut)
• Of : Very ambiguous pattern; polysemy reduced in [verb N1 of N2]
• Its : very ambiguous pattern; necessity to take into account two sentences
32Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac
Relation extraction:learning relations from enumerative structures
• Corpus– 745 enumerative structures from
Wikipedia pages– 3 relation types: taxonomic,
ontological_non_taxonomic, non_ontological
• Classification task– Feature definition– Automatic evaluation of features– 3 algorithms are compared : SVM,
MaxEntropy and baseline (majority)– Training of the 2 algorithms
• Results– 82% f-measure for SVM– Best result with a 2 step process
(ontological yes/no -> feature and then taxonomic yes/no)
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 33
From intepretation to representation
• A tree comprises at least a trunk, roots and branches.
• With branches reaching the ground, the willow is an ornamental tree.
• The tree of the neighbor has been delimed.
• He’s climbing on the branches ofthe tree.
• This tree is wonderful. Itsbranches reach the ground.
Tree
Trunk
Branches
Has-part Roots
Ornamental Tree
Willow Tree Has-part Branches
Has-part Branches
Has-part Branches
Fertilisation croisée entre SIG et IA 3427/05/2015 - Aussenac
NeighborTree
Instance _of
Convergences SIG / IA
• La complémentarité est encore plus diverse
– Logique floue : réponses “approchées” à des requêtes
– Réseaux bayésiens et classifieurs pour la recherche d’information(documents classés en fonction de la requête)
– Exploitation des standards du W3C : entrepôts de données etc.
– Passage à l’échelle des index sémantiques …
27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 35