Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai...

25
Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia Grabar Inès Jilani Marie-Christine Jaulent

Transcript of Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai...

Page 1: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Application de méthodes de fouille de textes pour

l’annotation fonctionnelles de gènes

22 mai 2006

UMR_S 729 Ingénierie des connaissances en

santéNatalia Grabar

Inès Jilani Marie-Christine Jaulent

Page 2: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Sommaire Contexte

Confronter les résultats expérimentaux en biologie à ceux déjà publiés dans la littérature

Thématiques de recherche associées Apport de l’ingénierie des connaissances et du

traitement automatique des langues (TAL) Travaux de recherche

Consortium au sein de la Plateforme « biologie des systèmes » de Paris 5 (C. Néri)

En pratique Premiers résultats Perspectives

Page 3: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Introduction

D’après Stéphane LE CROM (séminaire biopuces, février 2006)Méthodes bioinformatique d'analyse des puces à ADN : analyse de l'image, normalisation et stockage des données

Page 4: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Contexte Validation et interprétation des résultats

expérimentaux Confrontation avec des connaissances antérieures

Ressources La littérature travail manuel fastidieux Gene Ontology (GO) une ressource terminologique Les bases de données nombreuses mais

incomplètes Mises à jour manuellement à partir de la littérature en

utilisant les termes de GO Recherche active (Gene Ontology Annotation

consortium)

Page 5: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Contexte Validation et interprétation des résultats

expérimentaux Confrontation avec des connaissances antérieures

Ressources La littérature travail manuel fastidieux Gene Ontology (GO) une ressource terminologique Les bases de données nombreuses mais

incomplètes Mises à jour manuellement à partir de la littérature en

utilisant les termes de GO Recherche active (Gene Ontology Annotation

consortium) Objectifs

Développer des outils informatiques pour extraire des connaissances de sources textuelles en biologie

Accélérer le processus de validation

Page 6: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Enjeux Recherche d’information sur Internet très coûteuse en temps

(analyse de grands volumes de données)

Analyse des articles pour extraire la connaissance Plusieurs approches mises en concurrence lors de compétitions

internationales

Page 7: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

U729 : Ingénierie des connaissances en santé

Acquérir, modéliser et représenter les connaissances médicales

Connaissance implicite et explicite Extraction de connaissances par des méthodes de

fouille de textes Construire des systèmes à base de connaissances (SBC) qui

s’intègrent dans la pratique médicale (serveurs d’expertise) Codage et partage du dossier médical, détection de signal en

pharmacovigilance, systèmes d’assistance à la décision (alertes), prescription automatique, estimation personnalisée des risques, diffusion des guides de bonnes pratiques, …

Service web : Annotation fonctionnelle de gènes Evaluation

Qualité, acceptabilité, impact Comparer les connaissances extraites des textes

avec celles qui se trouvent déjà dans les bases (précision et rappel)

Page 8: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Travaux de recherche dans le cadre de la plateforme « biologie des systèmes » de l’université Paris 5

Page 9: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Consortium INSERM AVENIR IFR77 – Laboratoire de

biologie génomique Christian Néri, Céline Lefebvre, Edouard Hérion

CNRS UMR 8145 – MAP5 Antoine Chambaz,

CRIP5 – Centre de recherche en Informatique de Paris 5 – équipe IAD Sylvie Després, Valentina Ceausu

INSERM UMR_S 729 IFR 58 – SPIM Natalia Grabar, Inès Jilani, Marie-Christine

Jaulent

Page 10: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Le contexte biologique du projet

Clusters obtenus par la méthode Best-Balanced Constraint Procedure*

A x

A y

Bx

B y

δ seq

δ seq

δ exp δ exp

A : Organisme A

B : Organisme B

A x, A y : gènes de l’organisme A

B x, B y : gènes de l’organisme B

δ seq : mesure de l’homologie de séquences des protéines

δ exp : mesure de la coexpression des gènes

*Lefebvre C, Aude JC, Clément E, and Néri C. Balancing protein similarity and gene co-expression reveals new links between genetic conservation and developmental diversity in invertebrates. Bioinformatics 2005;21(8):1550--8.

Page 11: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Le contexte biologique du projet

Clusters obtenus par la méthode Best-Balanced Constraint Procedure*

F17A9.6cey-2ima-2

wee-1.3

ctyps

Kap-alpha3wee

----

FCM 211:

*Lefebvre C, Aude JC, Clément E, and Néri C. Balancing protein similarity and gene co-expression reveals new links between genetic conservation and developmental diversity in invertebrates. Bioinformatics 2005;21(8):1550--8.

Page 12: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Le système envisagé

Example de requête :est-ce que ces gènes partagent des fonctions communes ?

Annotation fonctionnelle des gènes

Sélectionner les articles pertinents

GO = Gene Ontology

Méthodes de fouille de texte

Page 13: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Les objectifs spécifiques Retrouver automatiquement les documents pertinents

depuis Medline Filtrage automatique à partir des noms des gènes Score de pertinence pour les documents

Créer les ressources lexicales nécessaires Normalisation des termes GO Désambiguïsation des noms de gènes

Implémenter des méthodes d’extraction de connaissances

Couples (gène, fonction) annotation fonctionnelle de gènes

Développer des services pour les biologistes

Page 14: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Les objectifs spécifiques Retrouver automatiquement les documents pertinents

depuis Medline Filtrage automatique à partir des noms des gènes Score de pertinence pour les documents

Créer les ressources lexicales nécessaires Normalisation des termes GO Désambiguïsation des noms de gènes

Implémenter des méthodes d’extraction de connaissances Couples (gène, fonction) annotation fonctionnelle de gènes

Développer des services pour les biologistes

Mais aussi Contribuer à la mise à jour les bases de données Identifier de nouvelles connaissances

Page 15: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Les objectifs spécifiques Retrouver automatiquement les documents pertinents

depuis Medline Filtrage automatique à partir des noms des gènes Score de pertinence pour les documents

Créer les ressources lexicales nécessaires Normalisation des termes GO Désambiguïsation des noms de gènes

Implémenter des méthodes d’extraction de connaissances Couples (gène, fonction) annotation fonctionnelle de gènes

Développer des services pour les biologistes

Mais aussi Contribuer à la mise à jour les bases de données Identifier de nouvelles connaissances

Page 16: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Les méthodes d’extraction de connaissances Patrons lexico-syntaxiques (Jilani et al., 2006)

repérage par rapport aux schémas réccurrents dans la langue

Log-Facteur de vraisemblance (Grabar et al., 2005)

cooccurrences stables => relations sémantiques Règles d’association (Ceausu et al., 2006)

attraction de mots et de termes Approche interne (en cours)

déchiffrage de fonctions encodées dans les noms de gènes

Page 17: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Les méthodes d’extraction de connaissances Patrons lexico-syntaxiques (Jilani et al., 2006)

repérage par rapport aux schémas réccurrents dans la langue

Log-Facteur de vraisemblance (Grabar et al., 2005)

cooccurrences stables => relations sémantiques Règles d’association (Ceausu et al., 2006)

attraction de mots et de termes Approche interne (en cours)

déchiffrage de fonctions encodées dans les noms de gènes

Page 18: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Un exemple de PLS <Nom><Verbe>by the<Nom>

Page 19: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Les PLS pour l’annotation fonctionnelle de gènes

Page 20: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Interface de validation

Page 21: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Qualifier les résultats obtenus avec des scores de confiance

Page 22: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Les expérimentations réalisées 1) Deux espèces : D melanogaster & C

elegans 719 clusters (3851 gènes) 1040 gènes annotés avec llr

2) Deux espèces : H sapiens & C elegans 69 clusters (416 gènes) 158 gènes annotés avec llr & PLS

La validation est en cours

Page 23: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Comparer les méthodes par exemple pour le FCM 197

Termes GO t Cyk-1

(cael)

Ima-2

(cael)

Kpna-2

(hosa)

Man1a1

(hosa)

Snrpn

(hosa)

Zc410.3

(cael)

nuclear chromosome cc llr llr llr

M phase bp pls pls

cytokinesis bp llr, man, pls

larval development bp man man

binding mf man

calcium ion binding mf man

DNA methylation bp llr, pls

cell cycle bp llr pls

embryonic cleavage bp

cell wall biosynthesis bp llr

man (annotation manuelle); pls (patrons lexico-syntaxiques); llr (log-facteur de vraissemblance)

Page 24: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

Perspectives Sélection des articles pertinents

Prendre en compte l’ambiguïté et la synonymie des noms de gènes et des termes :

it, and, wee, ct … Combiner les différentes méthodes

d’extraction de connaissance afin qu’elles contribuent à améliorer les résultats

Prendre en compte les scores de confiance dans la procédure de validation des couples

Rendre le sytème le plus générique possible application à d’autres espèces

Page 25: Application de méthodes de fouille de textes pour l’annotation fonctionnelles de gènes 22 mai 2006 UMR_S 729 Ingénierie des connaissances en santé Natalia.

La méthodologie de validation des couples (gènes fonctions) obtenus

Comparer avec les informations contenues dans des bases de données existantes

L’utilisation des termes Gene Ontology (Gene Ontology Consortium, 2000) facilite cette évaluation puisqu’ils sont utilisés dans ces mêmes bases et par notre méthode.

Compétitions organisées pour l’évaluation d’outils automatiques

Est-ce que la méthode adoptée arrive à extraire les informations recherchées ?

Validation par les biologistes : Comparaison avec les clusters obtenus par la

méthode BBCP