FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie...
-
Upload
fleuretta-muller -
Category
Documents
-
view
103 -
download
0
Transcript of FRE 2645 Automatisation des tâches documentaires dans un catalogue de santé en ligne Aurélie...
FRE 2645
Automatisation des tâches Automatisation des tâches documentaires dans un catalogue de documentaires dans un catalogue de
santé en lignesanté en ligne
Aurélie Névéol – encadrée par SJ. Darmoni et A. Rogozan.
Equipe GCSIS, Laboratoire PSI FRE CNRS 2645 – INSA & Université de Rouen
Equipe CISMeF, CHU de Rouen.
Diapo 2
PlanPlan
Introduction
Tâches documentaires Présentation Veille et description documentaires
Indexation automatique MeSH Description du système MAIF
Approche TAL Approche k-PPV Fusion des approches
Indexation d’un texte avec MAIF Evaluation du système MAIF (vs. systèmes francophones,
MTI)
Conclusion et perspectives
Diapo 3
IntroductionIntroduction
Objectifs : Vers la « compréhension » des documents de Santé par la machine Automatisation des tâches documentaires
Contexte: le Catalogue et Index des Sites Médicaux Francophones Projet initié in 1995 (http://www. cismef.org) ~14,000 ressources professionnels de santé, étudiants, patients Mise à jour manuelle: 55 nouvelles ressources par semaine ~ 1.500 ressources en attente
Automatisation des tâches documentaires nécessaire, en particulier pour l ’indexation.
Démarche expérimentale « Bottom-up » : modélisation des problèmes, expérimentation, analyse des résultats, + itération
Diapo 4
Tâches documentaires : Tâches documentaires : présentationprésentation
Utilisateur
Requête Doc’CISM
eF
InterrogationExpert
W. W. W. Veille ManuelleRessources hors CISMeF
Validation Manuelle
Ressources à inclure
Description
Notice CISMeF
« noyau » CISMeF(indexation manuelle)
Indexation Manuelle
Diapo 5
Tâches documentaires : Tâches documentaires : présentationprésentation
Veille documentaire Identifier les ressources susceptibles d’être intégrées au catalogue Sélectionner les ressources à intégrer
Description des ressources à intégrer : notice CISMeF Classification en spécialités médicales Indexation de textes à l’aide de descripteurs MeSH Indexation bimodale texte/image (FF – 2ème année de thèse)
Recherche d’information Outil de recherche (LS – thèse soutenue en 2004) Dialogue avec l’utilisateur (AL – 2ème année de thèse)
Diapo 6
Tâches documentaires : veilleTâches documentaires : veille
Conception du Veilleur Automatique CISMeF (CVA) : formalisation de la veille manuelle. Fréquence de la veille Profondeur d’exploration Création de listes de liens
« connus » ou « à éviter »
Validation manuelle: mise à jour de la liste des URLs « à indexer ».
Diapo 7
Tâches documentaires : Tâches documentaires : description des ressources dans description des ressources dans
une noticeune notice
Thésaurus MeSH®
(Medical Subject Headings):
~23.000 mots clés et 83 qualificatifs Liste pondérée de mots clés MeSH ou de paires mot
clé/qualificatif MeSH
Terminologie CISMeF:
263 types de ressource
Liste pondérée de types de ressource CISMeF
Terminologie CISMeF:
135 métatermes
Liste ordonnée de métatermes CISMeF
Diapo 8
Tâches documentaires : création Tâches documentaires : création d’une notice semi-automatiqued’une notice semi-automatique
Extraction automatique (à partir d’une URL) des éléments suivants : Indexation MeSH (+ titre et format de la ressource) Catégorisation en spécialités médicales ou
« métatermes » (notices longues)
Les autres éléments restent extraits manuellement (Résumé, nom d’auteur, date de publication, etc. )
Diapo 9
Tâches documentaires : Tâches documentaires : catégorisation en spécialités catégorisation en spécialités
médicalesmédicales
Avant l’indexation : optique de désambigüisation. En cardiologie l’acronyme « IVG » dénote une
<insuffisance ventriculaire gauche > tandis qu’en chirurgie il dénote une <interruption volontaire de grossesse>.
Modèles de Compression [AIME 2003]
Après l’indexation : utilisation de l’indexation MeSH On peut déduire qu’une ressource indexée par le mot
clé <diarrhée du nourrisson> relève de pédiatrie. Liens Sémantiques [IJMI 2004]
La seconde méthode est utilisée en pratique
Diapo 10
Indexation Automatique MeSHIndexation Automatique MeSH
Objectifs définis par l’équipe après des tests infructueux de logiciels d’indexation existants :
Augmenter la couverture du catalogue
Permettre un gain de temps
Maintenir une indexation respectant les principes de l’indexation manuelle: Descripteurs obligatoires (check tags) Associations mot clé / qualificatif Taille variable de l’index
Diapo 11
Indexation Automatique MeSH : Indexation Automatique MeSH : le système MAIFle système MAIF
L’indexation comme traduction conceptuelle: approche Traitement Automatique du Langage Naturel [IPM 2005] Dictionnaires électroniques MeSH Bibliothèque de transducteurs Formalisation de règles d’indexation
L’indexation comme une catégorisation fine : approche k Plus Proches Voisins Extraction automatique de Titres
Fusion des approches et sélection de l’index final [TALN 2005]
mots clés MeSH, qualificatifs, paires Notices CISMeF
Texte Intégral Titre
INTEX+ Dic. MeSH K-PPV
Fusion
Liste ordonnée de mots clés et paires MeSH
mots clés + paires mots clés + paires
Extraction de termes
MeSH
Association de
pairesMeSH
Diapo 12
Le système MAIF : approche TALLe système MAIF : approche TAL
L’algorithme suit la méthode manuelle [Lancaster, 1991]
1. Analyse de la ressource pour en extraire des concepts:Repérage des éléments textuels (analyse de surface)
2. Traduction dans le vocabulaire contrôlé : Mapping vers les termes MeSH
3. Correction en fonction des règles d’indexation Utilisation des propriétés de la terminologie Sélection (quasi) systématique des check tags Application de règles d’indexation
Diapo 13
MAIF – TAL : MAIF – TAL : dictionnaires électroniques MeSHdictionnaires électroniques MeSH
Format DELA (Dictionnaire Electronique du LADL, le Laboratoire d'Automatique Documentaire et Linguistique créé par M. Gross)
Versions contenant les formes fléchies: DELAF pour les mots simples et DELACF pour les mots composés.
FormeFléchie,FormeCanonique.InfoFlexionnelle
Diapo 14
MAIF – TAL : MAIF – TAL : dictionnaires électroniques MeSH - dictionnaires électroniques MeSH -
PrincipePrincipe
Format ~ DELA: FormeMeSH,TermeMeSH.InfoFlexionnelle
ex: grippe,grippe.N:fs (DELA)acariose,acarioses.N:fs (*DELA)
Définition de classes de termesex: MALADIE (C et F03)
ACTION ( D27.505)SUBSTANCE (D sauf D05, D12, D13, D25, D27.505)
Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs, MALADIE, etc.
ex: grippe,grippe.N+MeSH+MALADIE:fsdiagnostic,diagnostic.N+QMeSH:ms
Diapo 15
MAIF – TAL : MAIF – TAL : dictionnaires électroniques MeSH - dictionnaires électroniques MeSH -
SourceSource
Dictionnaires DELA existantsex : grippe,grippe.N+MeSH+MALADIE+z1:ms
Ressources UMLF Flexions et dérivations pour les mots simples Validation manuelle :
*spironolactoner,spironolactone.V+MeSH entrée rejetéediagnostiquer,diagnostic.V+MeSH entrée conservée
Synonymes MeSH et CISMeFex : sorroche,mal des montagnes.N+MeSH+MALADIE:msGénération puis validation des pluriels
Diapo 16
MAIF – TAL : MAIF – TAL : dictionnaires électroniques MeSHdictionnaires électroniques MeSH
Traduction automatique de synonymes Traduction automatique de synonymes
Collaboration avec S. Ozdowska (ERSS, Toulouse) : méthode d’appariement par propagation syntaxique
Le couple amorce (protective/protecteur) permet d’apparier les termes (clothing/vêtements) par propagation de la relation ADJ-N :
Traduction directe et compositionelle [EGC 2005], [TIA 2005]
Corpus CISMeF, RCP, Hansard
Diapo 17
MAIF – TAL : MAIF – TAL : dictionnaires électroniques MeSHdictionnaires électroniques MeSH
Bilan Bilan [INTEX04][INTEX04] Couverture de ~83% du MeSH (soit ~ 2,23 entrées/terme)
Extrait du dictionnaire Entrée « triviale » :diabete de type i,diabete de type i.N+MeSH:msVariante orthographique :diabete de type 1, diabete de type i.N+MeSH:ms Synonymes :diabete juvenile, diabete de type i.N+MeSH:msdiabete insulinodependant, diabete de type i.N+MeSH:msFlexions :diabetes de type i, diabete de type i.N+MeSH:mpdiabetes juveniles, diabete de type i.N+MeSH:mp (synonyme)Dérivations :diabetique de type 1, diabete de type i.N+MeSH:ms (variante)diabetiques de type i, diabete de type i.N+MeSH:mp
Diapo 18
MAIF – TAL :MAIF – TAL :transducteurs MeSHtransducteurs MeSH
Description des termes complexes à l’aide de grammaires locales
Diapo 19
MAIF – TAL :MAIF – TAL :Formalisation des règles Formalisation des règles d’usage des qualificatifsd’usage des qualificatifs
Règles implémentées pour l’extraction de paires mot clé / qualificatif – ex :
Identification de déclencheurs tels que « lutter contre la MALADIE » ou « vaccin anti-MALADIE » La paire < MALADIE/PC> doit être utilisée pour l’indexation.
Diapo 20
MAIF – TAL :MAIF – TAL :Formalisation des règles Formalisation des règles d’usage des qualificatifsd’usage des qualificatifs
Règles non implémentées
Identification de déclencheurs tels que « traitement de la MALADIE » ou « traiter la MALADIE »
1. Si ACTION ET SUBSTANCE<MALADIE/DT>
ET <ACTION/TU>ET < SUBSTANCE /TU>
2. Si ACTION ET NON SUBSTANCE<MALADIE/DT>ET <ACTION/TU>
3. Si NON ACTION ET NON MALADIE <MALADIE/TH> (défaut)OU <MALADIE/SU> (intervention E04)OU< MALADIE/RT> (traitement par rayons)
Diapo 21
MAIF – TAL :MAIF – TAL :(1) Analyse de la ressource(1) Analyse de la ressource
(2) traduction MeSH des concepts(2) traduction MeSH des concepts
INTEX/NooJ [Silberztein, 93] : Outils linguistiques d’analyse de corpus utilisables en ligne de commande
Implémentent des fonctions pour automates et transducteurs temps de traitement indépendant de la taille des dictionnaires
(~23.000 mots clés MeSH) Application des dictionnaires et transducteurs
Mots clés MeSHQualificatifs MeSHPaires mot clé / qualificatif MeSH
Diapo 22
MAIF – TAL :MAIF – TAL :(3)(3) Correction de l’indexationCorrection de l’indexation
Hiérarchie : indexation au plus précisdiabète
diabète de type IIdiabète gestationneldiabète de type I…
report des occurrences de <diabète> vers ses fils
Associations MC / Q : validation et appariement à l’intérieur d’une même phrase avec les MC les + fréquents sinon
Calcul de score: tf*idf
Check Tags: promus au rang 1 si fréquence > 2
Diapo 23
MAIF – TAL : BilanMAIF – TAL : Bilan
Extraction précise des termes apparaissant explicitement en corpus
Mais silence sur les termes à portée globale ex : <étude comparative>
Nécessité d’une autre approche Méthode de classification La norme « indexation » [NF Z 47-102, 1978] souligne
l’importance des titres
Diapo 24
Le système MAIF : k-PPV, Le système MAIF : k-PPV, approche des k Plus Proches approche des k Plus Proches
VoisinsVoisins
Une ressource est représentée par son titre: les mots grammaticaux et non significatifs étant filtrés, un « sac de mots » est constitué.
eg: Le diabète de type 1 ->{diabète, type, 1}
Similarité avec une autre ressource: nombre de mots du titre en commun (vs. distance d’édition)
Candidats à l’indexation: les mots clés (ou paires) utilisés pour indexer les k-PPV, avec un score compris entre 1 (le MC appartient à l’index d’un voisin) et k (le MC appartient à l’index des k voisins)
Diapo 25
MAIF k-PPV: bilanMAIF k-PPV: bilan
Extraction des termes à portée globale
Mais fiabilité aléatoire Significativité du titre Disponibilité de voisins réellement proches
Nécessité de fusionner les approches TAL et k-PPV
Diapo 26
Le système MAIF : Le système MAIF : fusion des approches TAL et k-fusion des approches TAL et k-
PPVPPV
Score fusionné : Importance égale pour les deux approches Rang vs. score relatif : résultats équivalents
Application de Règles d’indexation après fusion
Substitution (MeSH) « MC1/Q1 MC2 »
ex : <cœur/TR> <transplantation cardiaque>
Adjonction (CISMeF) « MC1/Q1 MC1/Q1 + MC2 /Q2 »
ex :<appendicectomie> <appendicectomie> +
<appendicite/SU>
Diapo 27
Le système MAIF : Le système MAIF : fusion des approches TAL et k-fusion des approches TAL et k-
PPV PPV fonction de rupturefonction de rupture
Soit une liste de N candidats à l’indexation ordonnée en fonction des scores Si décroissants.
Le seuil T est :
Ainsi, seuls les T candidats de rang i=1, …, T sont retenus pour l’index final.
1
1
1,...,1
maxargii
ii
Ni SS
SST
Diapo 28
Indexation d’un texte avec MAIF :Indexation d’un texte avec MAIF :pré-traitementpré-traitement
(…)L'apparition du diabète de type 2 chez l'enfant et ses implications en santé publique Alors que l'épidémie d'obésité s'étend dans le monde industrialisé, les cliniciens décrivent les premières séries de cas de diabète de type 2 chez l'enfant dans diverses parties du monde. Aux Etats-Unis et au Royaume-Uni, des enquêtes épidémiologiques sont en cours visant à mieux définir l'ampleur et l'évolution du problème et à caractériser les enfants diagnostiqués afin de mieux différencier le diabète de type 2 du type 1. En France où la première série de cas vient d'être publiée, le diabète de type 2 de l'enfant pourrait également être méconnu, mal classé ou non rapporté. Le programme national de prévention en nutrition constitue la première étape de lutte contre ce problème de santé publique potentiel.(…)
{L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique}1
{Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. }2 {Aux
Etats-Unis et au Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. }3 {En France ou la premiere serie de cas vient d'être
publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. }4 {Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce
probleme de sante publique potentiel.}5
Diapo 29
Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF:analyse de surface, traduction analyse de surface, traduction
MeSHMeSH
{L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique}1
{Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. }2 {Aux Etats-Unis et au
Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. }3 {En France ou la premiere serie de cas vient d'être
publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. }4
{Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce probleme de sante publique potentiel.}5
Eléments textuels
diabete de type 2
enfantenfants
sante publique
epidemieobesite
Etats-UnisRoyaume-Uni
epidemiologiquescours
diagnostiquesFrance
malpreventionnutrition
lutte
MeSH
<diabète de type 2><diabète><enfant><enfant>
<santé publique><santé>
<épidémie><obésité><Etats-Unis
d'Amérique><Grande Bretagne>
</EP></ED></DG>
<France><douleur >
</PC><nutrition>
<lutte>
Freq.
403120111111111111
ce probleme de sante publique potentiel
=
Le diabete de type 2
Diapo 30
Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF: analyse de surface, traduction analyse de surface, traduction
MeSHMeSH Eléments textuels
diabete de type 2 enfantenfants
sante publiqueepidemieobesite
Etats-UnisRoyaume-Uni
epidemiologiquescours
diagnostiquesFrance
malpreventionnutrition
Lutte contre le diabète de type 2
MeSH
<diabète de type 2><enfant><enfant>
<santé publique><épidémie><obésité><Etats-Unis
d'Amérique><Grande Bretagne>
</EP></ED></DG>
<France><douleur >
</PC><nutrition>
<diabète de type 2/PC>
Freq.
3312111111111111
{L'apparition du diabete de type 2 chez l'enfant et ses implications en sante publique}1
{Alors que l'epidemie d'obesite s'etend dans le monde industrialise, les cliniciens decrivent les premieres series de cas de diabete de type 2 chez l'enfant dans diverses parties du monde. }2 {Aux Etats-Unis et au
Royaume-Uni, des enquêtes epidemiologiques sont en cours visant a mieux definir l'ampleur et l'evolution du probleme et a caracteriser les enfants diagnostiques afin de mieux differencier le diabete de type 2 du type 1. }3 {En France ou la premiere serie de cas vient d'être
publiee, le diabete de type 2 de l'enfant pourrait egalement être meconnu, mal classe ou non rapporte. }4
{Le programme national de prevention en nutrition constitue la premiere etape de lutte contre ce probleme de sante publique potentiel.}5
{Le programme national de prevention en nutrition constitue la premiere etape de lutte contre le diabete de type 2. }5-ALT
Diapo 31
Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF:appariement des qualificatifs appariement des qualificatifs
isolésisolés
Phrase
Mots clés Qualificatifs Appariements
3 <Etats-Unis><Royaume-Uni>
<enfant><diabète de type
2>
</épidémiologie></enseignement et
éducation>
</diagnostic>
<diabète de type 2/épidemiologie>
<diabète de type 2/enseignement et éducation>
<diabète de type 2/diagnostic>5 <nutrition>
<lutte><santé publique>
</prévention et contrôle> -
A l’intérieur des phrases
Avec les mots clés les plus fréquentsMots clés les plus
fréquentsQualificatifs Appariements
<diabète de type 2>
<enfant>
</prévention et contrôle>
<diabète de type 2/prévention et contrôle>
Diapo 32
Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF:scores et post-traitementscores et post-traitement
Descripteurs F. Score
<diabète de type 2><enfant>
<santé publique><épidémie><obésité>
<Etats-Unis d'Amérique><Grande Bretagne>
<diabète de type 2/épidemiologie><diabète de type 2/enseignement et
éducation><diabète de type 2/diagnostic>
<France><douleur >
<diabète de type 2/prévention et contrôle><nutrition>
<lutte>
442111111111111
21,649,048,936,885,094,945,617,327,097,122,159,527,224,79
1
Descripteurs F. Scoretf*idf
<diabète de type 2><enfant>
<santé publique><épidémie><obésité>
<Etats-Unis d'Amérique><Grande Bretagne>
<diabète de type 2/épidemiologie><diabète de type 2/enseignement et
éducation><diabète de type 2/diagnostic>
<France><douleur >
<diabète de type 2/prévention et contrôle><nutrition>
<lutte>
442111111111111
21,6421,648,936,885,094,945,617,327,097,122,159,527,224,79
1
Hiérarchie
Check tags
Diapo 33
Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF:recherche des Plus Proches recherche des Plus Proches
VoisinsVoisins Réduction du risque de diabète de type 2 chez les enfants
autochtones du Canada Diabète de type 2 ou diabète non insulino-dépendant Allergies et hypersensibilités de type 1 chez l'enfant et chez l'adulte
dépistage systématiquedépistage systématique/NOdépistage systématique/UTdiabète de type 2diabète de type 2/DGdiabète de type 2/PCprévention primaire
diabète de type 2 allergèneshypersensibilitéhypersensibilité/DGhypersensibilité/EThypersensibilité/PHhypersensibilité/TH
Descripteurs Score
<diabète de type 2>< allergènes >
< dépistage systématique >< dépistage systématique/NO >< dépistage systématique/UT >
< diabète de type 2/DG >< diabète de type 2/PC >
< hypersensibilité >< hypersensibilité/DG >< hypersensibilité/ET >< hypersensibilité/PP >< hypersensibilité/TH >< prévention primaire >
2111111111111
Diapo 34
Indexation d’un texte avec MAIF:Indexation d’un texte avec MAIF:Fusion, sélection de l’indexFusion, sélection de l’index
Descripteurs Scorefusion
é
<enfant> <diabète de type 2> <diabète de type 2/ PC> <diabète de type 2/ DG> <douleur> <santé publique> <diabète de type 2/ EP> <allergènes> <dépistage systématique> <dépistage systématique/ NO> <dépistage systématique/ UT> <hypersensibilité><hypersensibilité/ DG><hypersensibilité/ ET> <hypersensibilité/ PP><hypersensibilité/ TH> <prévention primaire> <diabète de type 2/ ED> <épidémie><Grande Bretagne> <obésité> <nutrition> <Etats-Unis d'Amérique> <France> <lutte>
32,2132,2113,1212,987,887,407,327,147,147,147,147,147,147,147,147,147,145,875,704,654,223,973,931,780,83
00,420,010,000,240,030,01
000000000
0,100,010,100,050,030,010,370,36
-
1
1
ii
ii
SS
SS
Indexation Manuelle:
*<diabète de type 2><enfant><Etats-Unis d'Amérique><France><Grande Bretagne>
Diapo 35
Évaluation de MAIF Évaluation de MAIF
Rg MAIF-TAL MAIF-10PPV(73 ressources
traitées)
MAIF
14
1050T
Précision - Rappel36 – 5
32 – 1622 – 278 – 40
27 – 21(Tmoy =12)
Précision - Rappel49 – 6
34 – 1520 – 227 – 36
49 – 16(Tmoy =3)
Précision - Rappel58 – 7
37 – 1826 – 3310 – 5433 – 25(Tmoy =9)
Corpus de 83 ressources – couverture MeSH de MAIF-TAL: 35%
Indexation à l’aide de paires mot clé / qualificatif
Evaluation de la correction (précision) et de l’exhaustivité (rappel) du système
Une autre évaluation a mis en évidence un silence de l’indexation manuelle auquel le système automatique peut pallier
Diapo 36
Evaluation des sytèmes Evaluation des sytèmes d’indexation MeSH Francophones d’indexation MeSH Francophones
[AIME 2005][AIME 2005]
Corpus de 83 ressources – couverture MeSH de MAIF-TAL: 35%
Indexation à l’aide de mots clés isolés
Pour MeSHMap, les performances sont inférieures à celles observées sur des abstracts en anglais (vs. Textes intégraux en Français ici)
Rg NOMINDEXHON-
MeSHMapperMAIF
- TAL -
MeSHMap
141050T
Précision - Rappel
13.25 - 2.37 12.65 - 9.20
12.53 - 22.55 6.20 - 51.44
9.70 - 11(Tmoy=6,6)
Précision - Rappel 45.78 -
8.6331.93 - 26.4120.61 - 36.967.76 - 57.81
42.23 - 19.80(Tmoy =4.6)
Précision - Rappel 45.78 -
7.42 30.72 - 22.05 21.23 - 37.26 7.04 - 48.50
29.93 - 29.11 (Tmoy
=12)
Précision - Rappel 13.41 –
1.7715,24 - 10,5711,83 - 18,205,56 - 39,3912,22 - 5,13(Tmoy =3,09)
Diapo 37
Résultats: F-measure / rangRésultats: F-measure / rang(couverture MeSH de MAIF ~35%)(couverture MeSH de MAIF ~35%)
Diapo 38
Résultats: F-measure / rangRésultats: F-measure / rang(Couverture MeSH de MAIF ~35%)(Couverture MeSH de MAIF ~35%)
Diapo 39
Résultats: F-measure / rangRésultats: F-measure / rang (Couverture MeSH de MAIF ~60%)(Couverture MeSH de MAIF ~60%)
Diapo 40
Evaluation de MTI et MAIFEvaluation de MTI et MAIFsur un corpus parallèle (50 sur un corpus parallèle (50
ressources) ressources) [AMIA 2005][AMIA 2005]
MTI offre de meilleures performances L’évaluation a permis une comparaison des méthodes d’indexation Pour MAIF, l’approche k-PPV est limitée par la taille de la base d’apprentissage (N~14 000 vs. 10,6 millions pour MTI)
Diapo 41
Le système MAIF : BilanLe système MAIF : Bilan
Le développement de MAIF a permis d’enrichir les ressources terminologiques et de formaliser les règles d’indexation
Le système MAIF Respecte les critères de l’indexation manuelle (indexation par paires
MC/Q, index de taille variable, …) Peut contribuer à combler le silence de l’indexation manuelle
Evaluation MAIF offre des performances équivalentes ou supérieures aux
systèmes Francophones existants MTI offre de meilleures performances sur l’anglais, mais MAIF peut
apporter des améliorations (indexation par paires, fonction de rupture)
Diapo 42
Conclusion : Conclusion : Automatisation des tâches Automatisation des tâches
documentairesdocumentaires
Utilisateur
Requête Doc’CISM
eF
Interrogation Expert: Cogni-
CISMeF
Index. Auto MeSH
Index. Auto MeSH
Index. Auto Plein Texte
Notice
Auto.
Notice
Auto.
Index. Auto. Plein Texte
Description
Index. Auto. MeSH
« noyau » CISMeF (Index. Man. MeSH)
Validation et Complément Manuels
Notice CISMeF
W. W. W.CVA
Veille ManuelleRessources
hors CISMeF
Validation Manuelle
PRIORITÉ HAUTE
PRIORITÉ BASSE
Ressourcesà inclure
Ressourcesà inclure(N=1500)
Ressourcesà inclure
Validation Automatique (sites éditeurs)
Diapo 43
ConclusionConclusion
Terminologie Médicale : Mise à disposition de la communauté d’un dictionnaire et d’une
bibliothèque de transducteurs MeSH
Indexation MeSH : Le système MAIF prouve la faisabilité d’une indexation
automatique MC/Q
Evaluation : Mise en place d’une campagne d’évaluation des systèmes
d’indexation MeSH francophones –> réflexion sur les outils d’évaluation
Diapo 44
PerspectivesPerspectives
Finalisation de l’intégration de MAIF dans le processus CISMeF
Evaluation opérationnelle de l’utilisation semi-automatique de MAIF par les indexeurs CISMeF : évaluation qualitative (précision, impact sur le silence de
l’indexation manuelle) évaluation quantitative (réduction des délais d’indexation)
Amélioration des approches TAL et k-PPV, de la fusion
Post-Doc NLM : Adaptation de l’extraction de paires MC/Q MeSH dans MTI Application de la fonction de rupture
Diapo 45
Généralisation des travauxGénéralisation des travaux
Indexation avec d’autres terminologies médicales (SP 1ére année de thèse) : Intégration de MAIF Application des approches TAL et k-PPV sur CIM-10, CCAM et
SNOMED (UMLS)
Formalisation de règles à l’aide de transducteurs : Application à l’analyse des RCP avec un thésaurus du VIDAL Application à l’indexation par triplets MC/Q\TR
Classification : Création d’un outil bibliométrique [BMC Medical Informatics 2006] Application « documents proches », et illustration cartographique
Diapo 46
Quelques publications Quelques publications détaillant ces travaux:détaillant ces travaux:
Revues Névéol A., Rogozan A., Darmoni SJ. Automatic indexing of health resources in
French with a controlled vocabulary for the CISMeF catalogue; IPM 2006 Névéol A., Soualmia LF., Douyère M., Rogozan A., Thirion B., Darmoni SJ. Using
CISMeF MeSH “Encapsulated” Terminology and a Rule-based Algorithm for Health Resources Categorization ; IJMI 2004
Darmoni SJ, Névéol A., Renard, JM., Gehano JF., Soualmia LF., Dahamna B., et al. A MEDLINE categorization algorithm; BMC 2006
Conférences internationales Névéol A., Mork JG., Aronson AR., Darmoni SJ. Evaluation of French and English
MeSH Indexing systems with a parallel corpus ; AMIA 2005 Névéol A., Mary, V., Gaudinat, A., Boyer, C., Rogozan, A., Darmoni, SJ. A
Benchmark Evaluation of the French MeSH Indexing Systems. AIME 2005
Conférences Nationales Névéol A., Ozdowska S.: Extraction bilingue de termes médicaux dans un corpus
parallèle anglais/français. EGC 2005 Névéol A., Douyère M., Rogozan A., Darmoni SJ. Construction de ressources
terminologiques en santé pour un système d’indexation automatique; Journées INTEX/NOOJ 2004;
Diapo 47
Discussion: MAIFDiscussion: MAIF
Les deux méthodes: Respectent les critères de l’indexation manuelle (indexation
par paires MC/Q, index de taille variable, …) Tiennent compte dans une certaine mesure des méthodes
d’indexation manuelle Méthode k-NN:
Fondée sur les titres (?superficiel?) Non productif (perpétue le silence)
Méthode TALN: Traite la ressource complète (?trop de détail?) Peut combler les silences de l’indexation manuelle
Fusion: l’efficacité dépend des résultats k-NN…
Diapo 48
Catégorisation après l’indexationCatégorisation après l’indexation
Structure de la terminologie CISMeF
Méthode:[Névéol et al. 04, IJMI]
Grâce aux liens sémantiques de la terminologie CISMeF les spécialités Médicales (=« métatermes ») sont inférées de la description d’une ressource (MeSH + types de ressource).
Diapo 49
Résultats sur 125 ressourcesRésultats sur 125 ressources
Précision de ~80% %, rappel 93%
Cette méthode est actuellement utilisée pour la catégorisation des ressources CISMeF.
Pas d'apprentissage préalable
L’analyse des résultats a permis d’enrichir la terminologie (création de nouveaux liens et de nouveaux métatermes)
Développement d’un outil bibliométrique fondé sur une méthode similaire [Darmoni et al. 05, à paraître dans BMC]
Diapo 50
Analyse des résultats d’une Analyse des résultats d’une évaluation préliminaire (TALN)évaluation préliminaire (TALN)
Check tags Silence de l’indexation manuelle -> valeur ajoutée du
système
Sélection de mots clefs non représentatifs Utilisation de « probabilités de sélection » pour pondérer
les scores des candidats. Pour chaque terme t, on a:
avec R une ressource du catalogue, et IR
l’indexation de cette ressource.
Diapo 51
Extraction Automatique Extraction Automatique du titre et du formatdu titre et du format
Diapo 52
Résultats sur 339 URLsRésultats sur 339 URLs
Nb ressources % Extraction de Titre
Exemple Commentaires
89 26% Obstacle technique - PDF vérouillés, formats non traités
(.zip…)
21 6% Extraction d’un titre non significatif
" BMbioch.fm ", "Corel Office Document"
L’auteur n’a pas spécifié de titre
significatif57 17% Titres rhématique,
nom d’auteur, d’éditeur…
"Publications 04-707-02“, "Faculté de Médecine de
Lyon Sud: cours"
Le titre extrait ne décrit pas le contenu
de la ressource
172 51% Extraction d’un titre significatif
"Trisomie 21", "Fondements de l'ergothérapie"
Le titre extrait décrit bien le contenu de la
ressource
68% d ’extractions pertinentes
Diapo 53
Traduction compositionelleTraduction compositionelle
They may care for immunocompromised patients (including premature infants)
Ils peuvent s'occuper de patients immunodéprimés (y compris de bébés prématurés)
premature prématuré
The infant can be vaccinated at birthL'enfant pourra être vacciné après sa naissance
birth naissance
premature birth naissance prématurée