FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie...

53
FRE 2645 Automatisation des tâches Automatisation des tâches documentaires dans un catalogue documentaires dans un catalogue de santé en ligne de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS, Laboratoire PSI FRE CNRS 2645 – INSA & Université de Rouen Equipe CISMeF, CHU de Rouen.

Transcript of FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie...

Page 1: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

FRE 2645

Automatisation des tâches Automatisation des tâches documentaires dans un catalogue de documentaires dans un catalogue de

santé en lignesanté en ligne

Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan.

Equipe GCSIS, Laboratoire PSI FRE CNRS 2645 – INSA & Université de Rouen

Equipe CISMeF, CHU de Rouen.

Page 2: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 2

PlanPlan

Introduction

Tâches documentaires Présentation Veille et description documentaires

Indexation automatique MeSH Description du système MAIF

Approche TAL Approche k-PPV Fusion des approches

Indexation d’un texte avec MAIF Evaluation du système MAIF (vs. systèmes francophones,

MTI)

Conclusion et perspectives

Page 3: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 3

IntroductionIntroduction

Objectifs : Vers la « compréhension » des documents de Santé par la machine Automatisation des tâches documentaires

Contexte: le Catalogue et Index des Sites Médicaux Francophones Projet initié in 1995 (http://www. cismef.org) ~14,000 ressources professionnels de santé, étudiants, patients Mise à jour manuelle: 55 nouvelles ressources par semaine ~ 1.500 ressources en attente

Automatisation des tâches documentaires nécessaire, en particulier pour l ’indexation.

Démarche expérimentale « Bottom-up » : modélisation des problèmes, expérimentation, analyse des résultats, + itération

Page 4: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 4

Tâches documentaires : Tâches documentaires : présentationprésentation

Utilisateur

Requête Doc’CISM

eF

InterrogationExpert

W. W. W. Veille ManuelleRessources hors CISMeF

Validation Manuelle

Ressources à inclure

Description

Notice CISMeF

« noyau » CISMeF(indexation manuelle)

Indexation Manuelle

Page 5: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 5

Tâches documentaires : Tâches documentaires : présentationprésentation

Veille documentaire Identifier les ressources susceptibles d’être intégrées au catalogue Sélectionner les ressources à intégrer

Description des ressources à intégrer : notice CISMeF Classification en spécialités médicales Indexation de textes à l’aide de descripteurs MeSH Indexation bimodale texte/image (FF – 2ème année de thèse)

Recherche d’information Outil de recherche (LS – thèse soutenue en 2004) Dialogue avec l’utilisateur (AL – 2ème année de thèse)

Page 6: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 6

Tâches documentaires : veilleTâches documentaires : veille

Conception du Veilleur Automatique CISMeF (CVA) : formalisation de la veille manuelle. Fréquence de la veille Profondeur d’exploration Création de listes de liens

« connus » ou « à éviter »

Validation manuelle: mise à jour de la liste des URLs « à indexer ».

Page 7: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 7

Tâches documentaires : Tâches documentaires : description des ressources dans description des ressources dans

une noticeune notice

Thésaurus MeSH®

(Medical Subject Headings):

~23.000 mots clés et 83 qualificatifs Liste pondérée de mots clés MeSH ou de paires mot

clé/qualificatif MeSH

Terminologie CISMeF:

263 types de ressource

Liste pondérée de types de ressource CISMeF

Terminologie CISMeF:

135 métatermes

Liste ordonnée de métatermes CISMeF

Page 8: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 8

Tâches documentaires : création Tâches documentaires : création d’une notice semi-automatiqued’une notice semi-automatique

Extraction automatique (à partir d’une URL) des éléments suivants : Indexation MeSH (+ titre et format de la ressource) Catégorisation en spécialités médicales ou

« métatermes » (notices longues)

Les autres éléments restent extraits manuellement (Résumé, nom d’auteur, date de publication, etc. )

Page 9: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 9

Tâches documentaires : Tâches documentaires : catégorisation en spécialités catégorisation en spécialités

médicalesmédicales

Avant l’indexation : optique de désambigüisation. En cardiologie l’acronyme « IVG » dénote une

<insuffisance ventriculaire gauche > tandis qu’en chirurgie il dénote une <interruption volontaire de grossesse>.

Modèles de Compression [AIME 2003]

Après l’indexation : utilisation de l’indexation MeSH On peut déduire qu’une ressource indexée par le mot

clé <diarrhée du nourrisson> relève de pédiatrie. Liens Sémantiques [IJMI 2004]

La seconde méthode est utilisée en pratique

Page 10: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 10

Indexation Automatique MeSHIndexation Automatique MeSH

Objectifs définis par l’équipe après des tests infructueux de logiciels d’indexation existants :

Augmenter la couverture du catalogue

Permettre un gain de temps

Maintenir une indexation respectant les principes de l’indexation manuelle: Descripteurs obligatoires (check tags) Associations mot clé / qualificatif Taille variable de l’index

Page 11: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 11

Indexation Automatique MeSH : Indexation Automatique MeSH : le système MAIFle système MAIF

L’indexation comme traduction conceptuelle: approche Traitement Automatique du Langage Naturel [IPM 2005] Dictionnaires électroniques MeSH Bibliothèque de transducteurs Formalisation de règles d’indexation

L’indexation comme une catégorisation fine : approche k Plus Proches Voisins Extraction automatique de Titres

Fusion des approches et sélection de l’index final [TALN 2005]

mots clés MeSH, qualificatifs, paires Notices CISMeF

Texte Intégral Titre

INTEX+ Dic. MeSH K-PPV

Fusion

Liste ordonnée de mots clés et paires MeSH

mots clés + paires mots clés + paires

Extraction de termes

MeSH

Association de

pairesMeSH

Page 12: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 12

Le système MAIF : approche TALLe système MAIF : approche TAL

L’algorithme suit la méthode manuelle [Lancaster, 1991]

1. Analyse de la ressource pour en extraire des concepts:Repérage des éléments textuels (analyse de surface)

2. Traduction dans le vocabulaire contrôlé : Mapping vers les termes MeSH

3. Correction en fonction des règles d’indexation Utilisation des propriétés de la terminologie Sélection (quasi) systématique des check tags Application de règles d’indexation

Page 13: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 13

MAIF – TAL : MAIF – TAL : dictionnaires électroniques MeSHdictionnaires électroniques MeSH

Format DELA (Dictionnaire Electronique du LADL, le Laboratoire d'Automatique Documentaire et Linguistique créé par M. Gross)

Versions contenant les formes fléchies: DELAF pour les mots simples et DELACF pour les mots composés.

FormeFléchie,FormeCanonique.InfoFlexionnelle

Page 14: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 14

MAIF – TAL : MAIF – TAL : dictionnaires électroniques MeSH - dictionnaires électroniques MeSH -

PrincipePrincipe

Format ~ DELA: FormeMeSH,TermeMeSH.InfoFlexionnelle

ex: grippe,grippe.N:fs (DELA)acariose,acarioses.N:fs (*DELA)

Définition de classes de termesex: MALADIE (C et F03)

ACTION ( D27.505)SUBSTANCE (D sauf D05, D12, D13, D25, D27.505)

Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs, MALADIE, etc.

ex: grippe,grippe.N+MeSH+MALADIE:fsdiagnostic,diagnostic.N+QMeSH:ms

Page 15: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 15

MAIF – TAL : MAIF – TAL : dictionnaires électroniques MeSH - dictionnaires électroniques MeSH -

SourceSource

Dictionnaires DELA existantsex : grippe,grippe.N+MeSH+MALADIE+z1:ms

Ressources UMLF Flexions et dérivations pour les mots simples Validation manuelle :

*spironolactoner,spironolactone.V+MeSH entrée rejetéediagnostiquer,diagnostic.V+MeSH entrée conservée

Synonymes MeSH et CISMeFex : sorroche,mal des montagnes.N+MeSH+MALADIE:msGénération puis validation des pluriels

Page 16: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 16

MAIF – TAL : MAIF – TAL : dictionnaires électroniques MeSHdictionnaires électroniques MeSH

Traduction automatique de synonymes Traduction automatique de synonymes

Collaboration avec S. Ozdowska (ERSS, Toulouse) : méthode d’appariement par propagation syntaxique

Le couple amorce (protective/protecteur) permet d’apparier les termes (clothing/vêtements) par propagation de la relation ADJ-N :

Traduction directe et compositionelle [EGC 2005], [TIA 2005]

Corpus CISMeF, RCP, Hansard

Page 17: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 17

MAIF – TAL : MAIF – TAL : dictionnaires électroniques MeSHdictionnaires électroniques MeSH

Bilan Bilan [INTEX04][INTEX04] Couverture de ~83% du MeSH (soit ~ 2,23 entrées/terme)

Extrait du dictionnaire Entrée « triviale » :diabete de type i,diabete de type i.N+MeSH:msVariante orthographique :diabete de type 1, diabete de type i.N+MeSH:ms Synonymes :diabete juvenile, diabete de type i.N+MeSH:msdiabete insulinodependant, diabete de type i.N+MeSH:msFlexions :diabetes de type i, diabete de type i.N+MeSH:mpdiabetes juveniles, diabete de type i.N+MeSH:mp (synonyme)Dérivations :diabetique de type 1, diabete de type i.N+MeSH:ms (variante)diabetiques de type i, diabete de type i.N+MeSH:mp

Page 18: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 18

MAIF – TAL :MAIF – TAL :transducteurs MeSHtransducteurs MeSH

Description des termes complexes à l’aide de grammaires locales

Page 19: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 19

MAIF – TAL :MAIF – TAL :Formalisation des règles Formalisation des règles d’usage des qualificatifsd’usage des qualificatifs

Règles implémentées pour l’extraction de paires mot clé / qualificatif – ex :

Identification de déclencheurs tels que « lutter contre la MALADIE » ou « vaccin anti-MALADIE » La paire < MALADIE/PC> doit être utilisée pour l’indexation.

Page 20: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 20

MAIF – TAL :MAIF – TAL :Formalisation des règles Formalisation des règles d’usage des qualificatifsd’usage des qualificatifs

Règles non implémentées

Identification de déclencheurs tels que « traitement de la MALADIE » ou « traiter la MALADIE »

1. Si ACTION ET SUBSTANCE<MALADIE/DT>

ET <ACTION/TU>ET < SUBSTANCE /TU>

2. Si ACTION ET NON SUBSTANCE<MALADIE/DT>ET <ACTION/TU>

3. Si NON ACTION ET NON MALADIE <MALADIE/TH> (défaut)OU <MALADIE/SU> (intervention E04)OU< MALADIE/RT> (traitement par rayons)

Page 21: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 21

MAIF – TAL :MAIF – TAL :(1) Analyse de la ressource(1) Analyse de la ressource

(2) traduction MeSH des concepts(2) traduction MeSH des concepts

INTEX/NooJ [Silberztein, 93] : Outils linguistiques d’analyse de corpus utilisables en ligne de commande

Implémentent des fonctions pour automates et transducteurs temps de traitement indépendant de la taille des dictionnaires

(~23.000 mots clés MeSH) Application des dictionnaires et transducteurs

Mots clés MeSHQualificatifs MeSHPaires mot clé / qualificatif MeSH

Page 22: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 22

MAIF – TAL :MAIF – TAL :(3)(3) Correction de l’indexationCorrection de l’indexation

Hiérarchie : indexation au plus précisdiabète

diabète de type IIdiabète gestationneldiabète de type I…

report des occurrences de <diabète> vers ses fils

Associations MC / Q : validation et appariement à l’intérieur d’une même phrase avec les MC les + fréquents sinon

Calcul de score: tf*idf

Check Tags: promus au rang 1 si fréquence > 2

Page 23: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 23

MAIF – TAL : BilanMAIF – TAL : Bilan

Extraction précise des termes apparaissant explicitement en corpus

Mais silence sur les termes à portée globale ex : <étude comparative>

Nécessité d’une autre approche Méthode de classification La norme « indexation » [NF Z 47-102, 1978] souligne

l’importance des titres

Page 24: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 24

Le système MAIF : k-PPV, Le système MAIF : k-PPV, approche des k Plus Proches approche des k Plus Proches

VoisinsVoisins

Une ressource est représentée par son titre: les mots grammaticaux et non significatifs étant filtrés, un « sac de mots » est constitué.

eg: Le diabète de type 1 ->{diabète, type, 1}

Similarité avec une autre ressource: nombre de mots du titre en commun (vs. distance d’édition)

Candidats à l’indexation: les mots clés (ou paires) utilisés pour indexer les k-PPV, avec un score compris entre 1 (le MC appartient à l’index d’un voisin) et k (le MC appartient à l’index des k voisins)

Page 25: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 25

MAIF k-PPV: bilanMAIF k-PPV: bilan

Extraction des termes à portée globale

Mais fiabilité aléatoire Significativité du titre Disponibilité de voisins réellement proches

Nécessité de fusionner les approches TAL et k-PPV

Page 26: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 26

Le système MAIF : Le système MAIF : fusion des approches TAL et k-fusion des approches TAL et k-

PPVPPV

Score fusionné : Importance égale pour les deux approches Rang vs. score relatif : résultats équivalents

Application de Règles d’indexation après fusion

Substitution (MeSH) « MC1/Q1 MC2 »

ex : <cœur/TR> <transplantation cardiaque>

Adjonction (CISMeF) «  MC1/Q1 MC1/Q1 + MC2 /Q2 »

ex :<appendicectomie> <appendicectomie> +

<appendicite/SU>

Page 27: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 27

Le système MAIF : Le système MAIF : fusion des approches TAL et k-fusion des approches TAL et k-

PPV PPV fonction de rupturefonction de rupture

Soit une liste de N candidats à l’indexation ordonnée en fonction des scores Si décroissants.

Le seuil T est :

Ainsi, seuls les T candidats de rang i=1, …, T sont retenus pour l’index final.

1

1

1,...,1

maxargii

ii

Ni SS

SST

Page 28: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 28

Indexation d’un texte avec MAIF :Indexation d’un texte avec MAIF :pré-traitementpré-traitement

(…)L'apparition du diabète de type 2 chez l'enfant et ses implications en santé publique Alors que l'épidémie d'obésité s'étend dans le monde industrialisé, les cliniciens décrivent les premières séries de cas de diabète de type 2 chez l'enfant dans diverses parties du monde. Aux Etats-Unis et au Royaume-Uni, des enquêtes épidémiologiques sont en cours visant à mieux définir l'ampleur et l'évolution du problème et à caractériser les enfants diagnostiqués afin de mieux différencier le diabète de type 2 du type 1. En France où la première série de cas vient d'être publiée, le diabète de type 2 de l'enfant pourrait également être méconnu, mal classé ou non rapporté. Le programme national de prévention en nutrition constitue la première étape de lutte contre ce problème de santé publique potentiel.(…)

{L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique}1

 {Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. }2 {Aux

Etats-Unis et au Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. }3 {En France ou la premiere serie de cas vient d'être

publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. }4 {Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce

probleme de sante publique potentiel.}5

Page 29: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 29

Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF:analyse de surface, traduction analyse de surface, traduction

MeSHMeSH

{L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique}1

 {Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. }2 {Aux Etats-Unis et au

Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. }3 {En France ou la premiere serie de cas vient d'être

publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. }4

{Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce probleme de sante publique potentiel.}5

Eléments textuels

diabete de type 2 

enfantenfants

sante publique 

epidemieobesite

Etats-UnisRoyaume-Uni

epidemiologiquescours

diagnostiquesFrance

malpreventionnutrition

lutte

MeSH

<diabète de type 2><diabète><enfant><enfant>

<santé publique><santé>

<épidémie><obésité><Etats-Unis

d'Amérique><Grande Bretagne>

</EP></ED></DG>

<France><douleur >

</PC><nutrition>

<lutte>

Freq.

403120111111111111

ce probleme de sante publique potentiel

=

Le diabete de type 2

Page 30: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 30

Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF: analyse de surface, traduction analyse de surface, traduction

MeSHMeSH Eléments textuels

diabete de type 2 enfantenfants

sante publiqueepidemieobesite

Etats-UnisRoyaume-Uni

epidemiologiquescours

diagnostiquesFrance

malpreventionnutrition

Lutte contre le diabète de type 2

MeSH

<diabète de type 2><enfant><enfant>

<santé publique><épidémie><obésité><Etats-Unis

d'Amérique><Grande Bretagne>

</EP></ED></DG>

<France><douleur >

</PC><nutrition>

<diabète de type 2/PC>

Freq.

3312111111111111

{L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique}1

 {Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. }2 {Aux Etats-Unis et au

Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. }3 {En France ou la premiere serie de cas vient d'être

publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. }4

{Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce probleme de sante publique potentiel.}5

{Le programme national de prevention en nutrition constitue la premiere etape de lutte contre le diabete de type 2. }5-ALT

Page 31: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 31

Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF:appariement des qualificatifs appariement des qualificatifs

isolésisolés

Phrase

Mots clés Qualificatifs Appariements

3 <Etats-Unis><Royaume-Uni>

<enfant><diabète de type

2>

</épidémiologie></enseignement et

éducation> 

</diagnostic>

<diabète de type 2/épidemiologie>

<diabète de type 2/enseignement et éducation>

<diabète de type 2/diagnostic>5 <nutrition>

<lutte><santé publique>

</prévention et contrôle> -

A l’intérieur des phrases

Avec les mots clés les plus fréquentsMots clés les plus

fréquentsQualificatifs Appariements

<diabète de type 2>

<enfant>

</prévention et contrôle>

<diabète de type 2/prévention et contrôle>

Page 32: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 32

Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF:scores et post-traitementscores et post-traitement

Descripteurs F. Score

<diabète de type 2><enfant>

<santé publique><épidémie><obésité>

<Etats-Unis d'Amérique><Grande Bretagne>

<diabète de type 2/épidemiologie><diabète de type 2/enseignement et

éducation><diabète de type 2/diagnostic>

<France><douleur >

<diabète de type 2/prévention et contrôle><nutrition>

<lutte>

442111111111111

21,649,048,936,885,094,945,617,327,097,122,159,527,224,79

1

Descripteurs F. Scoretf*idf

<diabète de type 2><enfant>

<santé publique><épidémie><obésité>

<Etats-Unis d'Amérique><Grande Bretagne>

<diabète de type 2/épidemiologie><diabète de type 2/enseignement et

éducation><diabète de type 2/diagnostic>

<France><douleur >

<diabète de type 2/prévention et contrôle><nutrition>

<lutte>

442111111111111

21,6421,648,936,885,094,945,617,327,097,122,159,527,224,79

1

Hiérarchie

Check tags

Page 33: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 33

Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF:recherche des Plus Proches recherche des Plus Proches

VoisinsVoisins Réduction du risque de diabète de type 2 chez les enfants

autochtones du Canada Diabète de type 2 ou diabète non insulino-dépendant Allergies et hypersensibilités de type 1 chez l'enfant et chez l'adulte

dépistage systématiquedépistage systématique/NOdépistage systématique/UTdiabète de type 2diabète de type 2/DGdiabète de type 2/PCprévention primaire

diabète de type 2 allergèneshypersensibilitéhypersensibilité/DGhypersensibilité/EThypersensibilité/PHhypersensibilité/TH

Descripteurs Score

<diabète de type 2>< allergènes >

< dépistage systématique >< dépistage systématique/NO >< dépistage systématique/UT >

< diabète de type 2/DG >< diabète de type 2/PC >

< hypersensibilité >< hypersensibilité/DG >< hypersensibilité/ET >< hypersensibilité/PP >< hypersensibilité/TH >< prévention primaire >

 

2111111111111

Page 34: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 34

Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF:Fusion, sélection de l’indexFusion, sélection de l’index

Descripteurs Scorefusion

é

 

<enfant> <diabète de type 2> <diabète de type 2/ PC> <diabète de type 2/ DG> <douleur> <santé publique> <diabète de type 2/ EP> <allergènes> <dépistage systématique> <dépistage systématique/ NO> <dépistage systématique/ UT> <hypersensibilité><hypersensibilité/ DG><hypersensibilité/ ET> <hypersensibilité/ PP><hypersensibilité/ TH> <prévention primaire> <diabète de type 2/ ED> <épidémie><Grande Bretagne> <obésité> <nutrition> <Etats-Unis d'Amérique> <France> <lutte>

32,2132,2113,1212,987,887,407,327,147,147,147,147,147,147,147,147,147,145,875,704,654,223,973,931,780,83

00,420,010,000,240,030,01

000000000

0,100,010,100,050,030,010,370,36

-

1

1

ii

ii

SS

SS

Indexation Manuelle:

*<diabète de type 2><enfant><Etats-Unis d'Amérique><France><Grande Bretagne>

Page 35: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 35

Évaluation de MAIF Évaluation de MAIF

Rg MAIF-TAL MAIF-10PPV(73 ressources

traitées)

MAIF

 14

1050T

Précision - Rappel36 – 5

32 – 1622 – 278 – 40

27 – 21(Tmoy =12)

Précision - Rappel49 – 6

34 – 1520 – 227 – 36

49 – 16(Tmoy =3)

Précision - Rappel58 – 7

37 – 1826 – 3310 – 5433 – 25(Tmoy =9)

Corpus de 83 ressources – couverture MeSH de MAIF-TAL: 35%

Indexation à l’aide de paires mot clé / qualificatif

Evaluation de la correction (précision) et de l’exhaustivité (rappel) du système

Une autre évaluation a mis en évidence un silence de l’indexation manuelle auquel le système automatique peut pallier

Page 36: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 36

Evaluation des sytèmes Evaluation des sytèmes d’indexation MeSH Francophones d’indexation MeSH Francophones

[AIME 2005][AIME 2005]

Corpus de 83 ressources – couverture MeSH de MAIF-TAL: 35%

Indexation à l’aide de mots clés isolés

Pour MeSHMap, les performances sont inférieures à celles observées sur des abstracts en anglais (vs. Textes intégraux en Français ici)

Rg NOMINDEXHON-

MeSHMapperMAIF

- TAL - 

MeSHMap

 141050T

Précision - Rappel

13.25 - 2.37 12.65 - 9.20

12.53 - 22.55 6.20 - 51.44

9.70 - 11(Tmoy=6,6)

Précision - Rappel 45.78 -

8.6331.93 - 26.4120.61 - 36.967.76 - 57.81

42.23 - 19.80(Tmoy =4.6)

Précision - Rappel 45.78 -

7.42 30.72 - 22.05 21.23 - 37.26 7.04 - 48.50

29.93 - 29.11 (Tmoy

=12)

Précision - Rappel 13.41 –

1.7715,24 - 10,5711,83 - 18,205,56 - 39,3912,22 - 5,13(Tmoy =3,09)

Page 37: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 37

Résultats: F-measure / rangRésultats: F-measure / rang(couverture MeSH de MAIF ~35%)(couverture MeSH de MAIF ~35%)

Page 38: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 38

Résultats: F-measure / rangRésultats: F-measure / rang(Couverture MeSH de MAIF ~35%)(Couverture MeSH de MAIF ~35%)

Page 39: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 39

Résultats: F-measure / rangRésultats: F-measure / rang (Couverture MeSH de MAIF ~60%)(Couverture MeSH de MAIF ~60%)

Page 40: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 40

Evaluation de MTI et MAIFEvaluation de MTI et MAIFsur un corpus parallèle (50 sur un corpus parallèle (50

ressources) ressources) [AMIA 2005][AMIA 2005]

MTI offre de meilleures performances L’évaluation a permis une comparaison des méthodes d’indexation Pour MAIF, l’approche k-PPV est limitée par la taille de la base d’apprentissage (N~14 000 vs. 10,6 millions pour MTI)

Page 41: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 41

Le système MAIF : BilanLe système MAIF : Bilan

Le développement de MAIF a permis d’enrichir les ressources terminologiques et de formaliser les règles d’indexation

Le système MAIF Respecte les critères de l’indexation manuelle (indexation par paires

MC/Q, index de taille variable, …) Peut contribuer à combler le silence de l’indexation manuelle

Evaluation MAIF offre des performances équivalentes ou supérieures aux

systèmes Francophones existants MTI offre de meilleures performances sur l’anglais, mais MAIF peut

apporter des améliorations (indexation par paires, fonction de rupture)

Page 42: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 42

Conclusion : Conclusion : Automatisation des tâches Automatisation des tâches

documentairesdocumentaires

Utilisateur

Requête Doc’CISM

eF

Interrogation Expert: Cogni-

CISMeF

Index. Auto MeSH

Index. Auto MeSH

Index. Auto Plein Texte

Notice

Auto.

Notice

Auto.

Index. Auto. Plein Texte

Description

Index. Auto. MeSH

« noyau » CISMeF (Index. Man. MeSH)

Validation et Complément Manuels

Notice CISMeF

W. W. W.CVA

Veille ManuelleRessources

hors CISMeF

Validation Manuelle

PRIORITÉ HAUTE

PRIORITÉ BASSE

Ressourcesà inclure

Ressourcesà inclure(N=1500)

Ressourcesà inclure

Validation Automatique (sites éditeurs)

Page 43: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 43

ConclusionConclusion

Terminologie Médicale : Mise à disposition de la communauté d’un dictionnaire et d’une

bibliothèque de transducteurs MeSH

Indexation MeSH : Le système MAIF prouve la faisabilité d’une indexation

automatique MC/Q

Evaluation : Mise en place d’une campagne d’évaluation des systèmes

d’indexation MeSH francophones –> réflexion sur les outils d’évaluation

Page 44: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 44

PerspectivesPerspectives

Finalisation de l’intégration de MAIF dans le processus CISMeF

Evaluation opérationnelle de l’utilisation semi-automatique de MAIF par les indexeurs CISMeF : évaluation qualitative (précision, impact sur le silence de

l’indexation manuelle) évaluation quantitative (réduction des délais d’indexation)

Amélioration des approches TAL et k-PPV, de la fusion

Post-Doc NLM : Adaptation de l’extraction de paires MC/Q MeSH dans MTI Application de la fonction de rupture

Page 45: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 45

Généralisation des travauxGénéralisation des travaux

Indexation avec d’autres terminologies médicales (SP 1ére année de thèse) : Intégration de MAIF Application des approches TAL et k-PPV sur CIM-10, CCAM et

SNOMED (UMLS)

Formalisation de règles à l’aide de transducteurs : Application à l’analyse des RCP avec un thésaurus du VIDAL Application à l’indexation par triplets MC/Q\TR

Classification : Création d’un outil bibliométrique [BMC Medical Informatics 2006] Application « documents proches », et illustration cartographique

Page 46: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 46

Quelques publications Quelques publications détaillant ces travaux:détaillant ces travaux:

Revues Névéol A., Rogozan A., Darmoni SJ. Automatic indexing of health resources in

French with a controlled vocabulary for the CISMeF catalogue; IPM 2006 Névéol A., Soualmia LF., Douyère M., Rogozan A., Thirion B., Darmoni SJ. Using

CISMeF MeSH “Encapsulated” Terminology and a Rule-based Algorithm for Health Resources Categorization ; IJMI 2004

Darmoni SJ, Névéol A., Renard, JM., Gehano JF., Soualmia LF., Dahamna B., et al. A MEDLINE categorization algorithm; BMC 2006

Conférences internationales Névéol A., Mork JG., Aronson AR., Darmoni SJ. Evaluation of French and English

MeSH Indexing systems with a parallel corpus ; AMIA 2005 Névéol A., Mary, V., Gaudinat, A., Boyer, C., Rogozan, A., Darmoni, SJ. A

Benchmark Evaluation of the French MeSH Indexing Systems. AIME 2005

Conférences Nationales Névéol A., Ozdowska S.: Extraction bilingue de termes médicaux dans un corpus

parallèle anglais/français. EGC 2005 Névéol A., Douyère M., Rogozan A., Darmoni SJ. Construction de ressources

terminologiques en santé pour un système d’indexation automatique; Journées INTEX/NOOJ 2004;

Page 47: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 47

Discussion: MAIFDiscussion: MAIF

Les deux méthodes: Respectent les critères de l’indexation manuelle (indexation

par paires MC/Q, index de taille variable, …) Tiennent compte dans une certaine mesure des méthodes

d’indexation manuelle Méthode k-NN:

Fondée sur les titres (?superficiel?) Non productif (perpétue le silence)

Méthode TALN: Traite la ressource complète (?trop de détail?) Peut combler les silences de l’indexation manuelle

Fusion: l’efficacité dépend des résultats k-NN…

Page 48: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 48

Catégorisation après l’indexationCatégorisation après l’indexation

Structure de la terminologie CISMeF

Méthode:[Névéol et al. 04, IJMI]

Grâce aux liens sémantiques de la terminologie CISMeF les spécialités Médicales (=« métatermes ») sont inférées de la description d’une ressource (MeSH + types de ressource).

Page 49: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 49

Résultats sur 125 ressourcesRésultats sur 125 ressources

Précision de ~80% %, rappel 93%

Cette méthode est actuellement utilisée pour la catégorisation des ressources CISMeF.

Pas d'apprentissage préalable

L’analyse des résultats a permis d’enrichir la terminologie (création de nouveaux liens et de nouveaux métatermes)

Développement d’un outil bibliométrique fondé sur une méthode similaire [Darmoni et al. 05, à paraître dans BMC]

Page 50: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 50

Analyse des résultats d’une Analyse des résultats d’une évaluation préliminaire (TALN)évaluation préliminaire (TALN)

Check tags Silence de l’indexation manuelle -> valeur ajoutée du

système

Sélection de mots clefs non représentatifs Utilisation de « probabilités de sélection » pour pondérer

les scores des candidats. Pour chaque terme t, on a:

avec R une ressource du catalogue, et IR

l’indexation de cette ressource.

Page 51: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 51

Extraction Automatique Extraction Automatique du titre et du formatdu titre et du format

Page 52: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 52

Résultats sur 339 URLsRésultats sur 339 URLs

Nb ressources % Extraction de Titre

Exemple Commentaires

89 26% Obstacle technique - PDF vérouillés, formats non traités

(.zip…)

21 6% Extraction d’un titre non significatif

" BMbioch.fm ", "Corel Office Document"

L’auteur n’a pas spécifié de titre

significatif57 17% Titres rhématique,

nom d’auteur, d’éditeur…

"Publications 04-707-02“, "Faculté de Médecine de

Lyon Sud: cours"

Le titre extrait ne décrit pas le contenu

de la ressource

172 51% Extraction d’un titre significatif

"Trisomie 21", "Fondements de l'ergothérapie"

Le titre extrait décrit bien le contenu de la

ressource

68% d ’extractions pertinentes

Page 53: FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan. Equipe GCSIS,

Diapo 53

Traduction compositionelleTraduction compositionelle

They may care for immunocompromised patients (including premature infants)

Ils peuvent s'occuper de patients immunodéprimés (y compris de bébés prématurés)

premature prématuré

The infant can be vaccinated at birthL'enfant pourra être vacciné après sa naissance

birth naissance

premature birth naissance prématurée