Post on 04-Apr-2015
FRE 2645
Formalisation Formalisation de règles d'indexation MeSHde règles d'indexation MeSH pour un usage automatique pour un usage automatique
Aurélie Névéol1,2, F. Florea1, B. Thirion2, SJ. Darmoni1,2
Laboratoire PSI FRE CNRS 2645 - INSA de Rouen & Université de Rouen
Equipe CISMeF & L@STICS, CHU de Rouen.
Diapo 2
PlanPlan
Contexte: recherche d’information en santé (CISMeF)
Objectif : Indexation et codage des documents médicaux
Algorithme d’indexation
Construction de ressources terminologiques
Dictionnaire électronique médical
Bibliothèque de transducteurs (Implémentation de règles)
Perspectives
Conclusion: impact sur l’indexation
Diapo 3
Indexation et codage Indexation et codage de documents médicauxde documents médicaux
Depuis une dizaine d’années:
Augmentation croissante du nombre de ressources médicales électroniques (dossiers patients, articles scientifiques, recommandations, etc. )
Forte demande sur les professionnels de santé et les documentalistes pour une indexation ou un codage normalisé des informations à l’aide de terminologies (MeSH, CIM10, SNOMED…)
Automatisation nécessaire
Diapo 4
Exemple d’indexation: notice Exemple d’indexation: notice CISMeFCISMeF
Thésaurus MeSH (Medical Subject Headings) de la National Library of Medicine (NLM): ~23.000 mots clés (ex:tumeurs du sein, grossesse) organisés
hiérarchiquement (ex: tumeurs du sein est un fils de tumeurs) 84 qualificatifs (ex:diagnostic, thérapeutique …)
265 Types de ressource CISMeF (ex: cours, mammographie, arbres de décision)
Diapo 5
Affiliation de Qualificatifs et de Affiliation de Qualificatifs et de Types de RessourceTypes de Ressource
Qualificatif: précise le mot clé en délimitant la thématique traitée par un texte. eg. tumeurs du sein/diagnostic
pied/radiographie
Type de ressource: précise le mot clé (ou la paire MC/Q) en dénotant le support de l’information eg. tumeurs du sein/diagnostic\image
pied\radiographie
Diapo 6
Indexation Automatique dans CISMeFIndexation Automatique dans CISMeF
Objectifs définis par l’équipe après test de logiciels d’indexation existants:
Augmenter la couverture du catalogueAujourd’hui: ajout manuel de ~55 nouvelles ressources par semaine – 3.000+ ressources en attente
Maintenir une indexation respectant les standards de l’indexation manuelleNotamment, associations Mot Clés/Qualificatifs, et Mot
clé/Qualificatifs\Type de Ressource
Diapo 7
Algorithme d’indexationAlgorithme d’indexation
1. Repérage des éléments textuels 2. Mapping vers les termes MeSH (MC, Q) et CISMeF (TR)3. Utilisation des propriétés de la terminologie
- Hiérarchie
- Associations Mot Clé / Qualificatif
4. Sélection (quasi) systématique des check tags5. Calcul de score (normalisation tf*idf)6. Constitution de l’index à l’aide d’une fonction de
rupture7. Pondération Majeur/Mineur
INTEX
Diapo 8
Construction des dictionnaires : Construction des dictionnaires : PrincipePrincipe
Format ~ DELA:FormeMeSH,MotCléMeSH.InfoFlexionnelleeg: grippe,grippe.N:fs (DELA)
acariose,acarioses.N:fs (*DELA)
Introduction des étiquettes MeSH pour les mots-clés, QMeSH pour les qualificatifs TR pour les types de ressource, MALADIE pour les mot-clés des arborescences C-F03, …
eg: grippe,grippe.N+MeSH+MALADIE:fsdiagnostic,diagnostic.N+QMeSH:ms
Diapo 9
Construction des dictionnaires : Construction des dictionnaires : réalisationréalisation
Utilisation de l’existant: Dictionnaires DELA, Ressources UMLF (corpus Vidal)
Production d’entrées complémentaires: Entrées semi-automatiques (maladies, syndromes,
carences, tumeurs, …) Inclusion des synonymes MeSH et CISMeF (génération des
entrées puis validation des pluriels) Traduction automatique de synonymes MeSH non traduits
(EN/FR) Entrées manuelles
Bilan: ~40.000 entrées (soit 83% du MeSH): en moyenne, 2,1 entrées/MC.
Diapo 10
Apport lexicographiqueApport lexicographique
Concept Code Arbo MeSH
Nb termes
Mot clé MeSH MeSH - 19032
Qualificatif MeSH QMeSH - 84
Type de Ressource CISMeF TR - 8
Maladie MALADIE C, F03 4065
Organe ORGANE A 1311
Composé chimique SUBSTANCE D sauf D05, D12, D13, D25, D27.505
3995
Technique Thérapeutique TECHNIQUE E 1661
Vaccin VACCIN D24.310.894 71
Personne Hum M 231
Lieu Géographique Top Z 353
Diapo 11
Extrait du dictionnaire de mots Extrait du dictionnaire de mots simplessimples
Entrée « triviale »:accidents,accidents.N+MeSH:mp
Dérivation:accidentel,accidents.A+MeSH:ms
Flexions:accident,accidents.N+MeSH:msaccidentelle,accidents.A+MeSH:fsaccidentelles,accidents.A+MeSH:fpaccidentels,accidents.A+MeSH:mp
Diapo 12
Extrait du dictionnaire de mots Extrait du dictionnaire de mots composéscomposés
Entrée « triviale »:diabete insulinodependant,diabete de type I.N+MeSH:ms
Variante orthographique:diabete insulino-dependant,diabete de type I.N+MeSH:ms
Synonymes:diabete juvenile,diabete de type I.N+MeSH:msdiabete insulinodependant,diabete de type I.N+MeSH:ms
Flexion:diabetes de type I,diabete de type I.N+MeSH:mpdiabetes juveniles,diabete insulinodependant.N+MeSH:mp (synonyme)
Dérivation:diabetique de type I,diabete de type I.N+MeSH:ms (synonyme)diabetiques de type I,diabete de type I.N+MeSH:mp (synonyme)
Diapo 13
Construction des transducteurs Construction des transducteurs
Règles: Associations Mot clé/Qualificatifs (Indexation de textes) Associations Mot clé/Qualificatifs\Type de Ressource
(Indexation texte-image)
Priorité aux Qualifs et TR les plus fréquents
Bilan: ~15 transducteurs
Diapo 14
MéthodeMéthode
Entretien avec un expert MeSH: travail sur corpus indexé
Identification de comportements d’indexation récurrents: élaboration des règles
Validation par l’expert
Implémentation
Diapo 15
Associations MC/QAssociations MC/Q
Règle: indication de la technique T -> technique T / UT!! indication de la substance S -> substance S / TU
Diapo 16
Associations MC\TRAssociations MC\TR
Règle: Image I de l’Organe O -> Organe O\Image I
(« Fig. 1: radiographie du pied » ->pied\radiographie)
Image I confirmer Maladie M -> Maladie M\Image I
(« la radiographie met en évidence une fracture de l’humérus » -> humérus, fracture\radiographie)
Diapo 17
Règles non prises en chargeRègles non prises en charge
Si le mot clé <biopsie> est sélectionné, ainsi qu’une MALADIE de l’arborescence C04
→ la paire <MALADIE/anatomie pathologique> doit être utilisée pour l’indexation.
"ArthroScanner de l'épaule " → <épaule\tomodensitométrie> + <épaule\
arthrographie>+ <épaule, fracture\tomodensitométrie> + <épaule, fracture\arthrographie> + …
Diapo 18
Impact sur l’indexationImpact sur l’indexation
Indexation de 82 ressources extraites aléatoirement de CISMeF:
Couverture MeSH des mots clés utilisés par les documentalistes pour indexer le corpus de test: 33% puis 60%
On considère qu’un mot-clé est « couvert » s ’il existe au moins une entrée DELA pour ce MC.
Diapo 19
Résultats: rang Résultats: rang vs.vs. F-measure F-measure
0
5
10
15
20
25
30
35
40
1 2 3 4 5 6 7 8 9 10 20 35 50
MeSH 60%
MeSH 33%
Diapo 20
RemarquesRemarques
Extraction des mots clés: Limite des dictionnaires: aucun bruit, mais silence du:
Ponctuation, typographie Variantes non répertoriées
Mot clés « implicites » (eg. étude comparée)
Combinaison avec une méthode d’indexation statistique (kNN)
Diapo 21
PerspectivesPerspectives
Amélioration du système: Enrichissement des ressources linguistiques Distinction Majeur/Mineur
Mise en production: Automne 2005 Indexation entièrement automatique des ressources
portant sur des thèmes déjà largement couverts Indexation semi-automatique
(automatique+validation) pour les autres ressources Evaluation par les documentalistes (qualitative et quantitative)
Diapo 22
Merci de votre attention!Merci de votre attention!
Contact: aneveol@insa-rouen.fr
Références: [1] Darmoni SJ, Leroy JP, Thirion B, Baudic F, Douyère M and Piot J.
CISMeF: a structured Health resource guide. Meth Inf Med 2000: 39(1): 30-5
[2] Névéol A, Rogozan A, Darmoni SJ. Indexation automatique de ressources de santé à l’aide de paires de descripteurs MeSH (2005) TALN, sous presse.
[3] Douyère M. Soualmia LF., Névéol A., Rogozan A., Dahamna B., Leroy JP., Thirion B., Darmoni SJ. (2004) Enhancing the MeSH thesaurus to retrieve French online health resources in a quality-controlled gateway. Health Info Libr J. 2004 Dec;21(4):253-6.
[4] Florea FI, Rogozan A, Bensrhair A and Darmoni SJ. Medical image retrieval by content and keyword in a on-line health-catalogue context, Proc. Mirage 2005 : 229-36