Aussenac ri ia-2015

34
Ontologies et accès aux contenus, un exemple de fertilisation croisée entre SIG et IA Nathalie Aussenac-Gilles (IRIT – CNRS, Toulouse, France) [email protected]

Transcript of Aussenac ri ia-2015

Ontologies et accès aux contenus, un exemple de fertilisation

croisée entre SIG et IA

Nathalie Aussenac-Gilles

(IRIT – CNRS, Toulouse, France)

[email protected]

Plan

• Systèmes d’information et IA: différences fondatrices– Un point de vue : la gestion des textes– Approches et problématiques

• Convergences– Évolutions dans chaque domaine– Un point de rencontre : données <-> connaissances

• Cas de la recherche d’information sémantique– Une vue RI : Représenter un texte par un graphe sémantique– Une vue IA : les modèles de RTO– Une fertilisation à cultiver pour aller plus loin : ex des relations

sémantiques

2Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac

SI, IA : Différences fondatrices

« Si tu ne sais pas où tu vas, regarde d’où tu viens »

• Des sous-disciplines de l’informatique

• Questions des recherche et problématiques propres

• Applications différentes

• Ma lorgnette : les textes

• Données, Informations

• vs connaissances

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 3

Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, l'ingénierie des connaissances, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. Or une réponse opérationnelle fait souvent appel à tous ces domaines.

SI, IA : Différences fondatrices

Les textes dans les SIG• Des données : Documents comme fichiers, mots

comme Chaînes de caractères

• Statut : sources d’information, traces d’activités, restitution de traitements

• Traitements

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 4

Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, l'ingénierie des connaissances, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. Or une réponse opérationnelle fait souvent appel à tous ces domaines.

Rechercher des fichiers

Stocker, archiver

Représentations optimisées : Indexer

DocumenterMéta-données

... Systèmes d’information … Afficher, mettre en forme, éditer

SI, IA : Différences fondatrices

Les textes en IA > la langage en IA• Approche symbolique

• Langage et raisonnement, ref. linguistique

• La logique comme modèle cognitif

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 5

Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche.

Relation de causalitéValeurs graduelles : plus les convergences sont nombreuses,

moins les frontières sont nettesFormalisation : Pour tout p et f, Convergence(p) & nombreuses (p) & frontière(f) > non nette (f)

Computationallinguistics vs NLP

Symboles, Connaissances (prédicats, règles, faits)

Description, analyses manuelles, corpus « artificiels »

Deux domaines dans l’informatique

Recherche d’information

BD

SIAD

Recommandations

Gestion documents

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 6

Logiques

Base de connaissances

Décision et incertitude

TAL

Ingénierie des connaissances

Plan

• Systèmes d’information et IA: differences fondatrices– Un point de vue : la gestion des textes– Approches et problématiques

• Convergences– Évolutions dans chaque domaine– Un point de rencontre : données <-> connaissances

• Cas de la recherche d’information sémantique– Une vue RI: ex de la thèse de M. Baziz– Une vue IA: les modèles de RTO– Une fertilisation à cultiver pour aller plus loin : ex des

relations sémantiques

7Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac

SI, IA : exemples d’évolutions

Les textes dans les SIG• Chercher des réponses précises

• Affichage et accès sur le web

• Mettre en relation : hypertexte

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 827/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 8

Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. <partie 1 > Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, <a href = « http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. </partie1> Or une réponse opérationnelle fait souvent appel à tous ces domaines.

Dissocier forme et contenu

Découper, structurer, étiqueter, baliser

Représentations sémantiques : Index sémantiques

Documenter des fragmentsMéta-données

... Ingénierie des connaissances…

Fonctions « cognitives »

plus complexes … intelligence ?

SI, IA : exemples d’évolutions

Les textes en IA : le succès du TAL• Sémantique formelle

• TAL à base de règles linguistiques : analyses syntaxiques

• Plus de corpus sur le web : TAL statistique

• Plus de ressources, lexiques, dictionnaires …

• Apport du Machine Learning

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 9

Alors que les points de convergence entre Systèmes d'information et Intelligence Artificielle semblent de plus en plus nombreux, les frontières entre ces deux domaines de l'informatique sont de moins en moins nettes, tant sur le terrain des applications que celui des questions de recherche. <partie 1 > Aujourd'hui, faire progresser la recherche d'information, répondre à des questions précises, analyser des données de réseaux sociaux ou encore adapter les réponses aux usages et préférences des utilisateurs sont des questions étudiées par le traitement automatique des langues, la recherche d'information et les systèmes d'information du web, <a href = « http:// … »>l'ingénierie des connaissances </a>, ou le web sémantique, mais aussi par les mathématiciens et statisticiens. </partie1> Or une réponse opérationnelle fait souvent appel à tous ces domaines.

Corriger, analyser, étiqueter automatiquement

Résumer, traduire

Construire des arbres syntaxiques, sémantiques

Le défi du web sémantique : exemple du site de la BBC

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 10

Additional informations on web pages

Situation in a taxonomy

Close and similar animals

Dynamic generation of the page content using various knowledgesourcesDefinition

Properties

Relevant BBC documents

Le défi du web sémantique : exemple du site de la BBC

27/05/2015 - Aussenac 11

Fertilisation croisée

entre

A life science taxonomy

Semanticdistance

Dynamic generation of the page

content using various knowledgesources

The Semantic options to answer theseneeds- Unified representation- Standard meta-data- Ontologies- Formal definitions- Inference capabilities

Rich and formal concept descriptions

Le défi du web sémantique : exemple du site de la BBC

27/05/2015 - Aussenac 12

Fertilisation croisée

entre

Dynamic “data semantisation”

Semantic searchStandard query language

Dynamic generation of the page content using various knowledgesources

Semantic annotation

• Ontologies and vocabularies for– Tagging videos and papers– Collecting additional information on the web– Providing synthetic information about wildlife

• Ontologies– 6 main ontologies

• wildlife ontology

http://www.bbc.co.uk/ontologies/wildlife/2010-11-04.shtml

27/05/2015 - Aussenac 13Fertilisation

croisée entre SIG et IA

Le défi du web sémantique : exemple du site de la BBC

Deux domaines dans l’informatique

Recherche d’information

BD

SIAD

Recommandations

Gestion documents

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 14

Logique, représentation

des connaissances

Base de connaissances

Décision et incertitude

Ontologies

TAL, …

Ingénierie des connaissances

Web

sémantique

Questions-réponses

Apprentissage automatique

Web des données, Entrepôts de données RDF

Fouille de données

RI sur le web

Rapprochement entre données et connaissances

Plan

• Systèmes d’information et IA: differences fondatrices– Un point de vue : la gestion des textes– Approches et problématiques

• Convergences– Évolutions dans chaque domaine– Un point de rencontre : données <-> connaissances

• Cas de la recherche d’information sémantique– Une vue RI: ex de la thèse de M. Baziz– Une vue IA: les modèles de RTO– Une fertilisation à cultiver pour aller plus loin : ex des

relations sémantiques

15Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 16

Systèmes de Recherche d’Information sémantique M. Baziz (2004)

----- -- --- ---------- -- --- -----

Besoin en Information

Représentation de la requête

Analyse

Appariement

---- ------------------------

---- ------------------------

---- ------------------------

---- ------------------------

---- ------------------------

---- ------------------------

Collection de documents

Representation des documents

---- ------------------------

---- ------------------------

---- ------------------------

---- ------------------------

---- ------------------------

---- ------------------------

Indexation

---- ------------------------

---- ------------------------

---- ------------------------

---- ------------------------

---- ------------------------

---- ------------------------

Documents sélectionnés

hierarchies de concepts, thesaurus, ontologies, ...

Représentation

Indexation

• Qu’est ce qu’indexer ?

– Associer des descripteurs à un document pour le retrouver [Calabretto et Prié,04]

– Extraire d’un document une représentation caractéristique de son contenu [Baziz,05]

• Nature variable des descripteurs :

– RI non sémantique : descripteur = groupe de mots

– RI sémantique : descripteur = élément d’ontologie

17

Le moteur manque de puissance en accélération

et en vitesse de pointe.

Phase moteur : accélération

Phase véhicule : grande vitesse

Motorisation Manque de puissance

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 18

t1, t4

t7 t9

tk,

Schéma général de l’approchedes réseaux sémantiques pour représenter les documents [Baziz, 05]

ontologien1

n4

n3

n2

n6

n5

P13P23

P12

P14

P42

P4i

P2i

Pmi

P3mP2m

Un réseau sémantique

Projeter un document sur une ontologie

Questions:

• Comment identifier les noeuds ?

• Comment les pondérer ?

• Comment pondérer les liens entre eux ?

un document

• noeuds + arcs• noeuds = concepts• arcs = liens étiqueté entre concepts

Réseau sémantique [Quillian, 68][Lee, 93]

Des réseaux sémantiques pour représenter les documents

• Quelle ontologie ?

– Wordnet …. qui n’est pas une ontologie mais un réseau lexical (Cf Guarino et Welty)

• Projeter un document sur une ontologie

1. Détection et extraction de concepts candidats

2. Calcul de similarité entre concepts candidats

3. Construire le meilleur réseau (noyau) sémantique

1927/05/2015 - Aussenac Fertilisation croisée entre SIG et IA

Détection de concepts

20

Exemple1 :

Exemple2 :

Exemple3 :

Solar energy

C1

The structure of an organism 2 concepts formés de mots simples

The abdominal external oblique muscleC1

C2

Ck=tjtj+1..tmConcept= Max CkText=t1t2...tnwith m<=nk

C3

Le concept le plus long formé par des mots successifs et appartenant à au moins une entrée dans l’ontologie est sélectionné:

Le plus long (C3) est le bon.

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA

Problémtisation de l’indexationdu point de vue du TAL et de l’IA

• Articuler texte et représentation sémantique• Disposer de représentations

– Sémantiquement valides et précises : ontologies validées– Vocabulaires riches mais moins formels : vocabulaires du LOD ou SKOS– De logiciels pour retrouver des éléments de modèle dans les textes

• Etre conscient des distorsions, ambiguïtés entre mots / représentations / interprétation des représentations

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 21

Indices

linguistiques

RTO

Meta-modèle de Ressource Termino-Ontologique

27/05/2015 - AussenacFertilisation croisée entre SIG et IA 22

Termes manipulés

comme classes

Associer des informations (POS, langue, ..)

Meta-modèle

OBIR (Reymonet 2007 et 2009)

Autres modèlesLingInfo (Buitelaar et al. 2006)

LexOnto [Cimiano et al. 2007]

LexInfo [Buitelaar et al. 2009]

LIR in NEON (Monteil Ponsoda et al., 2008, 2011)

TEXVIZ implémente ce modèle de RTO

23

Meta-modèle pour ontologies lexicales : le méta-modèle NEON

27/05/2015 - Aussenac 24Fertilisation croisée entre SIG et IA

LIR :

Linguistic

Information

Repository

the LEMON meta-model

27/05/2015 - AussenacFertilisation croisée entre SIG et IA 26

Main Classes of the meta-model:

● Lexical Entry

● Form: inflectional variant

– Representation: written versions) of the entry

● Sense (one of the meanings of the lexical Entry)

– Reference: actual meaning in the ontology

Questions à approfondir

• Annotation sémantique– Quelle richesse des annotations ? Avec quel type

de ressources ? Quelle fidélité au langage suivant les applications ?

• Passage à l’échelle, complexité– Mieux étudié en RI

– Quelle efficacité de l’ensemble du processus ? Sachant le coût de construction d’une ontologie, la place requise par des annotations sem etc

– Jusqu’où enrichir les

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 27

Plan

• Systèmes d’information et IA: differences fondatrices– Un point de vue : la gestion des textes– Approches et problématiques

• Convergences– Évolutions dans chaque domaine– Un point de rencontre : données <-> connaissances

• Cas de la recherche d’information sémantique– Une vue RI: ex de la thèse de M. Baziz– Une vue IA: les modèles de RTO– Une fertilisation à cultiver pour aller plus loin : ex des

relations sémantiques

28Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac

Semantic relations,what do we mean?

Research field• Domain Ontology engineering

– Formal (logic, RDF, OWL …) and may lead to infer new knowledge

– The relation is part of a network– May be shared or not

• Semantic web– Independent triples– Publically available in data

repositories with W3C Standard format

– Connect triples with existing ones, with web ontologies

What is a relation

bot:Tree bot:has_part bot:Branch

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 29

Trunk

Has-part

Root

Plant

Fonguscereals

Has-part

Root

is_a

TreeHas-part

Branch

bot:myTree

bot:has-part

bot:MyTreeRoots

bot:Treebot:has-

partbot:Branch

rdf:Type

Finding semantic relations, what are the issues?

• Knowledge sources: – where can we find relations?

• Extraction techniques– How can we identify them?

• Representation – Which way do I represent this information?

• Validation– What makes a relation representation valild? Relevant?

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 30

Finding semantic relations, what are the issues?

• Knowledge sources – text, human experts, existing “semantic” resources (lexicon,

terminologies, ontologies, Linked Data vocabularies)– Domain specific vs general knowledge

• Extraction techniques– “obvious” language regularities, known relations and classes (or

entities) -> Patterns• Issues : domain dependence, domain coverage, variation and

flexibility, rigidity (need to be regularly updated) • Research issues: automatic building by machine learning

– “more implicit” language regularities, medium size corpora, open list of classes/entities -> supervised learning

– Very large corpora, unexpected relations -> unsupervised learning

31Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac

Pattern based relation extraction, an issue: variation

• A tree comprises at least a trunk, roots and branches.

• With branches reaching the ground, the willow is an ornamental tree.

• The tree of the neighbor has been delimed.

• He climbs on the branches of the tree.

• This tree is wonderful. Its branches reach the ground.

• Contains: very systematic pattern; the parts may be difficult to spot; enumeration > various parts

• With: meronymy pattern only in some genres (such as catalogs, biology documents)

• Delimed : Term and pattern are in the same word; requires background knowledge: delimed -> has_partbranches (and branches are cut)

• Of : Very ambiguous pattern; polysemy reduced in [verb N1 of N2]

• Its : very ambiguous pattern; necessity to take into account two sentences

32Fertilisation croisée entre SIG et IA27/05/2015 - Aussenac

Relation extraction:learning relations from enumerative structures

• Corpus– 745 enumerative structures from

Wikipedia pages– 3 relation types: taxonomic,

ontological_non_taxonomic, non_ontological

• Classification task– Feature definition– Automatic evaluation of features– 3 algorithms are compared : SVM,

MaxEntropy and baseline (majority)– Training of the 2 algorithms

• Results– 82% f-measure for SVM– Best result with a 2 step process

(ontological yes/no -> feature and then taxonomic yes/no)

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 33

From intepretation to representation

• A tree comprises at least a trunk, roots and branches.

• With branches reaching the ground, the willow is an ornamental tree.

• The tree of the neighbor has been delimed.

• He’s climbing on the branches ofthe tree.

• This tree is wonderful. Itsbranches reach the ground.

Tree

Trunk

Branches

Has-part Roots

Ornamental Tree

Willow Tree Has-part Branches

Has-part Branches

Has-part Branches

Fertilisation croisée entre SIG et IA 3427/05/2015 - Aussenac

NeighborTree

Instance _of

Convergences SIG / IA

• La complémentarité est encore plus diverse

– Logique floue : réponses “approchées” à des requêtes

– Réseaux bayésiens et classifieurs pour la recherche d’information(documents classés en fonction de la requête)

– Exploitation des standards du W3C : entrepôts de données etc.

– Passage à l’échelle des index sémantiques …

27/05/2015 - Aussenac Fertilisation croisée entre SIG et IA 35