La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours...

23
La recherche d’information en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003

Transcript of La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours...

Page 1: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d’information en bioinformatique

Par Marc Hallé et Éric Paquet

Dans le cadre du cours IFT6255

Mercredi 9 avril 2003

Page 2: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

2

Introduction aux problématiques

• Problème #1: L’information contenue dans les articles de biologie n’est pas stockée sous un format pratique à la recherche et à l’exploitation.

• Solution : Parcourir les banques d’articles pour extraire l’information jugée pertinente tel : les réactions entre les molécules et les informations particulières comme la localisation, les synonymes, la grosseur et la séquence de certaines molécules spécifiques.

Page 3: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

3

…suite des problématiques

• Problème #2 : vu le grand nombre de protéines il serait intéressant de trouver un moyen de les regrouper selon certains critères pouvant nous aider à déterminer leurs fonctions.

• Solution : Nous pouvons utiliser la structure secondaire des protéines comme un mot en recherche d’information et utiliser un algorithme de « clustering ».

Page 4: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

4

…suite des problématiques

• Problème #3 : Il y a beaucoup de nouvelles méthodes dans le domaine, mais il n’existe aucun test pour les comparer.

• Solution : Créer des concours (challenge) pour stimuler l’amélioration des techniques et donner une idée de l’état de l’art.

Page 5: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

5

Introduction à l’extraction d’information

• Reconnaître le nom des molécules dans le texte (2 approches): – Fukuda et al. (1998), extraire des noms de protéines

et de gènes en se basant sur des critères comme les lettres majuscules, les terminaisons spéciales et les caractères numériques

– La création d’un corpus spécifique à la biologie Ohta et al. (2000), l’utilisation des « Hidden Markov Models » Collier et al. (2000) ou des classificateurs Bayesian Wilbur et al. (1999) améliorent les résultats de recherche.

Référence : [1]

Page 6: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

6

…suite introduction à l’extraction d’information

• Reconnaître les interactions entre les molécules: – 2 méthodes principales :

• Utiliser la co-occurrences des molécules– Benoit (2000) co-occurrence des noms de gènes– Ding et al. (2002) analyse par rapport au résumé, à un paragraphe ou à

une phrase(approche par section).

• Utiliser des modèles représentant des structures linguistiques spéciales décrivant les interactions entre les molécules

– Ng et Wong (1999) modèles, résumés– Wong (2001) augmentation du nombre de modèles, résumés– Yakushiji et al. (2001) analyse complète à l’aide d’une grammaire

générale, résumés– Friedman et al. (2001) GENIES, article complet– Putejovsky et Castano (2002) mot ‘inhibit’– Leroy et Chen (2002) GeneScene : prépositions au lieu des verbes.

Supposé être + performant.

Référence : [1]

Page 7: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

7

Description d’une méthode d’extraction d’information

• GENIES :• But : découverte de « pathways »

– Partie de phrase à analyser : « Raf-1 active Mek-1 »1. Résultat de la partie « Tagger » :

<protéine>Raf-1</protéine> active <protéine>Mek-1</protéine>2. Résultat de la partie « Pre-Processor » :

[<protéine>Raf-1</protéine>, active, <protéine>Mek-1</protéine>] liste d’indexes3. Résultat des partie « Parser » et « error recovery » :

[action, active, [protéine, Raf-1], [protéine, Mek-1]]

Référence : [3]

Page 8: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

8

Introduction au « clustering » et à la taxonomie en bioinformatique

• Le but est de trouver une façon de regrouper les protéines à l’aide de certains critères pour arriver à un classement où chacune des catégories représenteraient une famille de protéine.

• SCOP est un système expert utilisé comme outil de référence dans le cadre de cette étude.

Page 9: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

9

Petite base de biologie• Structure primaire : Séquence de lettres représentant des acide

aminés.• Structure secondaire : regroupement de séquence d’acides aminés

(lettres) formant des groupes spécifique appelés hélice alpha, brin bêta et boucle oméga qui sont notés respectivement.

• Structure tertiaire et quaternaire : Repliement et organisation en structure tridimensionnelle, forme finale de la protéine (pour les fins du présent rapport).

• Analogie avec la recherche d’information :

Recherche information Structure des protéines

Lettre Éléments structure primaire (acides aminés)

Mot / Terme Éléments structure secondaire (, ,

Section / Document Structure tertiaire / protéine

Page 10: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

10

Éléments de structures

Référence : [4]

Page 11: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

11

Description des méthodes utilisées

• Même que celles de la recherche d’information :

1. Définition d’un ensemble d’élément à traiter : protéines provenant de la PDB-Select assurant une bonne couverture

2. Calcul de similarité : pattern matching avec wild card

3. Clustering en fonction des similarités calculées : méthode itérative avec matrice de similarité

4. Utilisation d’une métrique pour calculer la performance du système : comparaison avec des systèmes comme VAST et SCOP

Page 12: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

12

Calcul de similarité entre chaque protéine

• La similarité [0,1] est calculée entre chacune “ ss-string ” des protéines de l ’échantillon de la façon suivante:

Soit deux éléments de structure secondaire a,b et L(a), L(b) leurs longueurs respectives.

Similarité entre: Valeura,b type identique min(L(a), L(b))a,b tel que a ou b est une loop 0.5 min(L(a), L(b))a,b type différent (hélice, strand) 0

La valeur est ensuite normalisée en fonction de la longueur moyennes des ss-string.

Page 13: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

13

Clustering

Afin de faire un regroupement (clustering) des protéines , l’on utilise une matrice de similarité contenant la “distance” entres chaque paire de protéine.

- La “distance” d = [1- valeur d'alignement]

- L’arbre est ensuite construit suivant un Algorithme de type WPG (weighted pair group).

Page 14: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

14

Exemple de résultats

Référence : [2]

Page 15: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

15

SCOP comme outils de référence

• Une des principales conclusions de la comparaison avec SCOP est la similitude de “Clustering ” entre notre arbre et le regroupement en famille par SCOP

• Évaluation de performance: « Clustering score function »

Page 16: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

16

Clustering-score function (métrique pour calculer la performance du système)

• td(a,b) = distance topologique entre a et b

Clustering-score {A} = ( 2* td(a, b) ) / (n(n-1) )

a,b

Page 17: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

17

Cluster-scoring function exemple

Pour une famille SCOP A ={ 11,12,13,14 }-Pour chaque feuilles de l’arbre on assigne un poids de 1 et 0 sinon.

-Ensuite on calcul de façon récursive: td(a,b) = (Pa + Pb )/ 2 Exemple :

Score{11,12,13,14} = ((3 * 0) + ( 3 * 1)) / 6 = 0.5

Page 18: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

18

Investigation possible

• Actuellement les caractéristiques de comparaison sont prédéfinies. Il serait intéressant de vérifier s’il est possible d’extraire des caractéristiques de façon automatique (extraction de feature).

Page 19: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

19

Besoin de « challenge » pour évaluer les méthodes

• Nécessite des données pour l’entraînement (données + réponses)

• Nécessite des données secrètes pour le test (données + réponses)

• Nécessite un mode d’évaluation des méthodes

Page 20: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

20

Exemple de « challenge » dans le domaine de l’extraction

d’information• 2 niveaux d’évaluation :

– Niveau du texte lui-même– Niveau de la banque de textes

• Texte + liste de faits devant être extraits• Recall(E) : TP(E)/[TP(E) + FN(E)]• Precision(E) : TP(E)/[TP(E) + FP(E)]• Façon différente de calculer les TP, FN et FP selon le

niveau de l’évaluation• Classification selon une variation de SMC (simple

matching coefficient) n’utilisant pas les TN : SMC*(E) = TP(E)/[TP(E) + FN(E) + FP(E)]

• Définition d’une grammaire de définition des structures à évaluer

Page 21: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

21

Exemple de grammaire

Page 22: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

22

Fin

• Questions?

Page 23: La recherche dinformation en bioinformatique Par Marc Hallé et Éric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003.

La recherche d'information en bioinformatique

23

Références

1) Lynette Hirschman, Jong C. Park, Junichi Tsujii, Limsoon Wong and Cathy H. Wu. Accomplishments and challenges in literature data mining for biology. BIOINFORMATICS REVIEW Vol. 18 no. 12 2002 Pages 1553-1561.

2) Teresa Przytycka, Rajeev Arora and George D.Rose , A protein taxonomy based on secondary structure, NATURE STRUCTURAL BIOLOGY - volume 6 number 7 – july 1999 , Pages 672-682

3) Carol Friedman, Pauline Kra, Hong Yu, Michael Krauthammer and Andrey Rzhetsky. GENIES : a natural language processing system for the extraction of molecular pathways from journal articles. BIOINFORMATICS Vol. 17 Suppl. 1 2002 Pages S74-S82.

4) Donald Voet & Judith G.Voet, Biochimie, BeBoeck-Université page 106.