3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à...

24
1 ASSTICCOT, RTP-DOC, Paris 3 décembre 2002 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines (ERSS) www.irit.fr/ASSTICCOT/ De janvier à décembre 2002 Plan Rappels : objectifs initiaux et mode de fonctionnement Méthode de travail Expériences interdisciplinaires Réponses à une grille de réflexion commune Résultats Perspectives

Transcript of 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à...

Page 1: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

1ASSTICCOT, RTP-DOC, Paris3 décembre 2002

ASSTICCOT : Constitution de produits terminologiques à partir de corpus 

N. Aussenac-Gilles (IRIT), A. Condamines (ERSS)

www.irit.fr/ASSTICCOT/ De janvier à décembre 2002

PlanRappels : objectifs initiaux et mode de

fonctionnementMéthode de travail

Expériences interdisciplinaires Réponses à une grille de réflexion commune

Résultats Perspectives

Page 2: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 2

Objectifs de l’Action Spécifique

• Faire se rencontrer plusieurs communautés sur la question de la modélisation de connaissances à partir de corpus :• Linguistique de corpus et terminologie• Sciences de l’information• Informatique

• Ingénierie des connaissances• Recherche d’information• Traitement Automatique de la Langue• Apprentissage à partir de textes

RappelsRappels PerspectivesM2/Questions RésultatsM1/Expériences

Page 3: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 3

Motivations

• Des problématiques similaires à mieux identifier• Vers plus d’interdisciplinarité

– L’existant : des relations bilatérales – L’enjeu : une évaluation systématique des

complémentarités

• Repérer des axes de recherche à développer• Valoriser et fédérer les acquis dans un contexte

pluridisciplinaire– rendre plus efficace l’élaboration de ressources

terminologiques en fonction des besoins– repérer l’impact de ces questions sur chaque

discipline

RappelsRappels PerspectivesM2/Questions RésultatsM1/Expériences

Page 4: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 4

Mode de fonctionnement

• Composition– Une trentaine de chercheurs issus de différentes disciplines – Une dizaine de laboratoires dont DYALANG, LIPN, IRIT et ERSS.

• 4 groupes– Linguistique de corpus et terminologie (M. Bouveret)– TAL et apprentissage (P. Zweigenbaum)– Sciences de l’information et recherche d’information (S. Lainé-

Cruzel)– Ingénierie des connaissances (S. Després)

• Deux types de réunions (6 réunions + 1 prévue)– travail par groupe (selon une grille commune de questions)– séances plénières (mises en commun, confrontations entre

disciplines)

• Organisation d’un atelier associé à CFD (oct. 2002)

RappelsRappels PerspectivesM2/Questions RésultatsM1/Expériences

Page 5: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 5

Méthode de travail

1. Partage d’expériences pluridisciplinaires

2. Grille de réflexion commune3. Exposés de synthèse disciplinaire

(non développé dans l’exposé)

Rappels PerspectivesM2/QuestionsM2/Questions RésultatsM1/ExpériencesM1/Expériences

Page 6: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 6

Exemples de collaborations bilatérales (1)

• Terminologie textuelle et TAL– TAL pour la construction de ressources : Syntex et

Caméléon

– Données terminologiques comme ressources pour le TAL : thésaurus pour traiter des dossiers patients

– TAL et RI: Syntex et catégorisation automatique pour la Recherche d’Information

Rappels PerspectivesM2/Questions RésultatsM1/ExpériencesM1/Expériences

Page 7: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 7

Exemples de collaborations bilatérales (2)

• Ontologies et recherche d’information– Hiérarchie de termes pour la classification de

documents DocCUBE– Ontologies pour la reformulation de requêtes – Ontologies pour l’interrogation de données semi-

structurée PICSEL

• Terminologie textuelle et outils de TAL pour la construction d’ontologies– Index d’un livre, Ontologie de l’ingénierie des

connaissances

Rappels PerspectivesM2/Questions RésultatsM1/ExpériencesM1/Expériences

Page 8: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 8

Expériences pluridisciplinaires

• Collaboration entre IC, Terminologie Textuelle et TAL :– Bénéficie de l’expérience du groupe TIA (pb de

frontière)

• Collaborations entre RI, IC et Sciences de l’information : réseau Rhône Alpes

• Passer d’expériences ponctuelles à une théorisation des problèmes et une vraie approche pluridisciplinaire

Rappels PerspectivesM2/Questions RésultatsM1/ExpériencesM1/Expériences

Page 9: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 9

Grille de questions pour une réflexion interdisciplinaire

1. Définition des besoins -> 2. Rôle des corpus 3. Positionnements théoriques4. Définition des méthodes et outils : logiciels

de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes

5. Description des modèles produits ou utilisés

6. Mode d’évaluation des résultats

Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences

Page 10: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 10

1 - Besoins : Documents et connaissances

• Documents et collections de documents comme possibles sources de connaissances d’un domaine– Comment accéder à ces connaissances ?– Comment accéder aux documents à travers les connaissances ?– Quels produits terminologiques intermédiaires pourraient

faciliter cet accès ?– > problèmes communs à l’ingénierie des connaissances et aux

sciences de l’information, recouvrant des problématiques différentes

• Documents comme moyens d’accès à des manifestations linguistiques (s’oppose à l’introspection) : mise en œuvre vs enrichissement des connaissances de la langue– Documents comme révélateurs d’usages (corpus)– > lien avec la linguistique de corpus, la terminologie, les

sciences de l’information

Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences

Page 11: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 11

1 - Besoins : Nature des ressources terminologiques

• Ressources existantes– Sans lien vers les textes (construites par introspection ou

entretiens avec des experts)– Générales (indépendantes du domaine et/ou de

l’application)– Figées dans le temps

• > peut-on les intégrer dans les applications ?

• Nouveaux besoins– Domaines spécifiques => constituer des ressources

terminologiques spécialisées – Rôle majeur des documents => construire ces ressources à

partir de textes pour mieux tenir compte des usages et rendre plus efficace l’accès aux documents

– Masse et évolutivité => savoir gérer la cohérence entre documents et ressources

Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences

Page 12: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 12

Grille de questions pour une réflexion interdisciplinaire

1. Définition des besoins2. Rôle des Corpus -> 3. Positionnements théoriques4. Définition des méthodes et outils : logiciels

de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes

5. Description des modèles produits ou utilisés

6. Mode d’évaluation des résultats

Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences

Page 13: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 13

2 - Corpus

• Définition commune– L’existant : des textes (ou portions de textes)– Le corpus est construit en fonction d’un besoin

particulier ou d’une hypothèse d’étude• Des réalités différentes

– Collection, document, corpus– Nature et taille– critères de construction– modes et objectifs d’exploitation

Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences

Page 14: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 14

2 - Bilan d’étude sur les corpus

• Des besoins communs– Nécessité de caractériser les textes au delà de

leur thématique (problème des genres textuels)

– Meilleure maîtrise du lien entre caractéristiques des textes et nature des applications

– Prise en compte de la méthode utilisée pour construire des ressources dans la constitution du corpus

Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences

Page 15: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 15

2 - Une étude sur genre textuel et variation des phénomènes langagiers

• Le genre d’un texte influe sur sa syntaxe, mais aussi sur son lexique

• Diversité des critères descriptifs : public visé (grand public vs spécialistes : Crise cardiaque / Infarctus du myocarde), statut du locuteur, finalité du discours, …

• Ex : Productivité des adjectifs dérivés dans des corpus médicaux (hématologie) : les dérivés en –al sont plus productifs dans des documents Web que dans des comptes rendus hospitaliers

• Une typologie des genres est-elle possible ?• Multiplication des situations possibles• Classes trop générales • Hétérogénéité des genres (ex: écrit vs oral)• Plusieurs genres dans un même texte• Trop grande diversité des critères descriptifs

Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences

Page 16: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 16

Grille de questions pour une réflexion interdisciplinaire

1. Définition des besoins2. Rôle des corpus 3. Positionnements théoriques4. Définition des méthodes et outils :

logiciels de Traitement Automatique de la Langue, d’apprentissage, d’exploration de textes

5. Description des modèles produits ou utilisés (ressources et applications) ->

6. Mode d’évaluation des résultats

Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences

Page 17: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 17

5 – Ressources et applications : Objets de l’étude

• S’appuyer sur des études de cas• Identifier des points d’impact de l’application

visée sur la démarche de construction de ressources terminologiques

1) Profil du « constructeur »2) Construction du corpus 3) Choix de la structure de données4) Utilisation des outils de TAL, de fouille de textes5) Utilisation des outils de modélisation 6) Validation, évaluation

• Dresser des perspectives pour une meilleure maîtrise et adéquation du processus

Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences

Page 18: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 18

5 - Résultats sur ressources et applications (1)

• Il existe des résultats théoriques, des méthodes et des outils, qui aboutissent à des résultats prometteurs.

• Un cadre unifié, un éventail de pratiques• Approche qui rend compte de l’usage

spécialisé de la langue– Quelle complémentarité avec des ressources

existantes (dictionnaires, WordNet) ?• Exploitation par les outils (Synoterm)• Exploitation par le cogniticien

– Faut-il replacer ces ontologies dans des cadres de haut niveau ?

Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences

Page 19: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 19

5 - Résultats sur ressources et applications (2)

• Efforts à poursuivre– Mieux intégrer les différents outils– Mieux maîtriser le paramétrage par type de projet

• Trouver le bon compromis entre investissement et gain– L’ontologie formelle n’est pas toujours nécessaire.– Trouver le modèle optimal par contexte d’application– Anticiper les besoins d’évolution

• Savoir faire des propositions pragmatiquement acceptables, utilisables dans un objectif d’ingénierie– Aller au delà de propositions théoriques et disciplinaires

Rappels PerspectivesRésultatsM2/QuestionsM2/QuestionsM1/Expériences

Page 20: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 20

Résultats

• Productions– Documents par discipline– Atelier lors de la conférence CFD2002– Document de synthèse– Collaborations bilatérales– MoI en vue d’un réseau européen «SemTech» (6

PCRD)

• Résultats théoriques– Théorisation des expériences pluridisciplinaires et

situation des points de vue monodisciplinaires– Identification de principes communs– Perspectives de recherche

Rappels PerspectivesRésultatsRésultatsM2/QuestionsM1/Expériences

Page 21: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 21

Principes communs

• La construction de ressources terminologiques est un processus d’interprétation humaine de résultats fournis par des outils

• Les ressources doivent être spécialisées par domaine et par application (réutilisabilité ?)

• Les concepts sont élaborés à partir de réalisations textuelles avec lesquelles ils conservent un lien terminologique

Rappels PerspectivesRésultatsRésultatsM2/QuestionsM1/Expériences

Page 22: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 22

Perspectives scientifiques (1)

• Problème du genre des textes– Définition de critères de caractérisation des textes – Objectif de l’utilisation des textes comme un des

critères de caractérisation

• Se donner les moyens de gérer l’évolution des besoins et des ressources (textes, terminologie)– Cohérence usages – ressources crées– Évolution des besoins

Rappels PerspectivesPerspectivesRésultatsM2/QuestionsM1/Expériences

Page 23: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 23

Perspectives scientifiques (2)

• Influence de l’application visée sur la nature des ressources terminologique à constituer– Vers une typologie (caractérisation) des applications ?– Mieux maîtriser les potentialités des différents types

de ressources

• Prise en compte de la variation par les outils de TAL– Intégration d’outils– Par rapport au genre textuel : liens entre critères de

caractérisation et résultats des outils de TAL – Par rapport aux applications visées (accès à

l’information, etc.)

Rappels PerspectivesPerspectivesRésultatsM2/QuestionsM1/Expériences

Page 24: 3 décembre 2002ASSTICCOT, RTP-DOC, Paris1 ASSTICCOT : Constitution de produits terminologiques à partir de corpus N. Aussenac-Gilles (IRIT), A. Condamines.

3 décembre 2002 ASSTICCOT, RTP-DOC, Paris 24

Perspectives de l’AS

• Equipe projet • Livre• Justifie demande de prolongation

Rappels PerspectivesPerspectivesRésultatsM2/QuestionsM1/Expériences