UNIVERSITÉ DU QUÉBEC À MONTRÉAL ANALYSE … · 4. 2 Neurone biologique ... 4. 3 Neurone formel...

229
UNIVERSITÉ DU QUÉBEC À MONTRÉAL ANALYSE DE MOTIFS PROTÉIQUES PAR MÉTHODE HYBRIDE RÉSEAU DE NEURONES ARTIFICIELS ET MODÈLE DE MARKOV CACHÉ THÈSE PRÉSENTÉE COMME EXIGENCE PARTIELLE DU DOCTORAT EN INFORMATIQUE COGNITIVE PAR GUYLAINE POISSON NOVEMBRE 2004

Transcript of UNIVERSITÉ DU QUÉBEC À MONTRÉAL ANALYSE … · 4. 2 Neurone biologique ... 4. 3 Neurone formel...

UNIVERSITÉ DU QUÉBEC À MONTRÉAL

ANALYSE DE MOTIFS PROTÉIQUES PAR MÉTHODE HYBRIDE RÉSEAU DE

NEURONES ARTIFICIELS ET MODÈLE DE MARKOV CACHÉ

THÈSE

PRÉSENTÉE

COMME EXIGENCE PARTIELLE

DU DOCTORAT EN INFORMATIQUE COGNITIVE

PAR

GUYLAINE POISSON

NOVEMBRE 2004

REMERCIEMENTS

Je voudrais remercier tout particulièrement ma directrice de recherche Dr Anne Bergeron, professeur

au département d’informatique de l’UQAM, pour sa confiance en moi et en notre projet. Son support

moral et scientifique a été indispensable tout au long de cette thèse. Le succès d’un doctorat dépend

énormément de la complicité étudiante-directrice et je dois avouer que j’ai eu la chance de travailler

avec une personne extrêmement compétente mais surtout une personne formidable.

Je tiens aussi à remercier personnellement Dr Cedric Chauve, professeur adjoint au département

d’informatique de l’UQAM, pour sa collaboration précieuse dans le projet. Il est justifié de dire que

sans ses idées, cette thèse ne serait pas ce qu’elle est présentement.

Je tiens à remercier également mon codirecteur de recherche Dr Fathey Sarhan, professeur au

département de sciences biologiques de l’UQAM, ainsi que Dr Ahmed Faik, associé de recherche au

département de sciences biologiques de l’UQAM, pour leur support en biologie. Leurs commentaires

et suggestions ont été une source d’informations essentielles pour cette recherche.

Je voudrais également remercier Dr Mounir Boukadoum, professeur au département d’informatique de

l’UQAM, pour m’avoir initiée aux réseaux de neurones; Dr Pierre Poirier, professeur au département

de philosophie de l’UQAM, qui a eu des commentaires eclairants sur les aspects cognitifs de

mon projet; et Dr Mathieu Blanchette, Assistant Professor de la School of Computer Sciences de

l’université McGill, d’avoir bien voulu faire partie de mon jury de thèse. Je ne voudrais pas oublier

Johanne Gélinas, assistante à la direction du Doctorat en informatique cognitive de l’UQAM, et Dr

Ghyslain Levesque, directeur du Doctorat en Informatique Cognitive, pour leur aide plus que

précieuse.

Finalement, je veux remercier grandement mon fils William Langlois-Poisson, mon conjoint Pascal

Senez ainsi que mes parents, Paul et Paulette Poisson. Je les remercie d’être ce qu’ils sont c’est-à-dire

des gens plus qu’extraordinaires. Une thèse demande beaucoup de sacrifices et ils sont ceux qui en ont

payé le prix. Merci pour l’encouragement continuel et pour votre amour inconditionnel.

TABLE DES MATIÈRES REMERCIEMENTS............................................................................................................................ II LISTE DES FIGURES........................................................................................................................VI LISTE DES TABLEAUX ...................................................................................................................IX LISTE DES ABRÉVIATIONS...........................................................................................................XI RÉSUMÉ...........................................................................................................................................XIII INTRODUCTION ................................................................................................................................. 1 CHAPITRE I BASES BIOLOGIQUES....................................................................................................................... 6

1.1 LES SÉQUENCES..................................................................................................................... 6 1.1.1 ADN et ARN : polymères d’acides nucléiques................................................................. 8

1.1.1.1 L’ADN .......................................................................................................................................... 9 1.1.1.2 L’ARN......................................................................................................................................... 12

1.1.2 Les protéines ...................................................................................................................... 13 1.2 DE L’ADN À LA PROTÉINE........................................................................................................... 17

1.2.1 La transcription................................................................................................................... 17 1.2.2 La traduction....................................................................................................................... 19

CHAPITRE II MODIFICATIONS POST-TRADUCTIONNELLES ET ANCRE GPI......................................... 23

2.1 MODIFICATION POST-TRADUCTIONNELLE.................................................................................... 23 2.2 L’ANCRE GLYCOSYLPHOSPHATIDYLINOSITOL (GPI).................................................................... 24

2.2.1 Biosynthèse ......................................................................................................................... 26 2.2.2 Structure d’une protéine à ancre GPI................................................................................. 28

CHAPITRE III CLASSIFICATION PAR ALIGNEMENT DE SÉQUENCES ....................................................... 31

3.1 LA CLASSIFICATION............................................................................................................. 31 3.2 LA CLASSIFICATION PAR SIMILARITÉ DE SÉQUENCES .................................................................. 35

3.2.1 Alignement de deux séquences ............................................................................................ 36 3.2.2 Classification de protéines à ancre GPI et BLAST ............................................................. 45 3.2.3 Classification de protéines à ancre GPI et alignements multiples...................................... 48

CHAPITRE IV CLASSIFICATION PAR APPRENTISSAGE MACHINE............................................................. 51

4.1 INTRODUCTION ............................................................................................................................ 51 4.2 APPRENTISSAGE NEURONAL ........................................................................................................ 52

4.2.1 Historique ........................................................................................................................... 54 4.2.2 Le modèle biologique .......................................................................................................... 55

iv

4.2.3 Le modèle mathématique..................................................................................................... 57 4.2.4 Structure des connexions..................................................................................................... 59 4.2.5 L’apprentissage................................................................................................................... 61

4.2.5.1 Le modèle du perceptron ............................................................................................................. 62 4.2.5.2 Le modèle du perceptron multicouche ........................................................................................ 64

4.2.6 L’encodage des données ..................................................................................................... 68 4.2.7 Validation............................................................................................................................ 70

4.3 LES MODÈLES DE MARKOV CACHÉS............................................................................................. 71 4.3.1.1 HMM et grammaire..................................................................................................................... 79

4.4 CONCLUSION ............................................................................................................................... 85 CHAPITRE V CLASSIFICATION/PRÉDICTION D’ANCRE GPI PAR RÉSEAU DE NEURONES ARTIFICIELS ..................................................................................................................................... 86

5.1 UN MODÈLE DE RÉSEAU DE NEURONES ARTIFICIELS CLASSIFICATEUR D’ANCRE GPI................... 87 5.2 LE MODÈLE .................................................................................................................................. 87 5.3 RÉSULTATS DES TESTS ET DISCUSSION....................................................................................... 101 5.4 CONCLUSION............................................................................................................................. 104

CHAPITRE VI CLASSIFICATION/PRÉDICTION D’ANCRE GPI PAR MODÈLE DE MARKOV CACHÉ 105

6.1 UN MODÈLE DE MARKOV CACHÉ CLASSIFICATEUR D’ANCRE GPI ............................................. 105 6.2 LE MODÈLE ................................................................................................................................ 106 6.3 RÉSULTATS DES TESTS ET DISCUSSION....................................................................................... 114 6.4 UNE GRAMMAIRE GPI................................................................................................................ 117

6.4.1 La structure du signal ....................................................................................................... 117 6.5 CONCLUSION ............................................................................................................................. 119

CHAPITRE VII CLASSIFICATION/PRÉDICTION D’ANCRE GPI PAR MÉTHODE HYBRIDE RÉSEAU DE NEURONES ARTIFICIELS ET MODÈLE DE MAKKOV CACHÉ.......................................... 121

7.1 MÉTHODE DE CLASSIFICATION/PRÉDICTION HYBRIDE................................................................ 121 7.2 LA MÉTHODE ............................................................................................................................. 123 7.3 RÉSULTATS DES TESTS............................................................................................................... 125

DISCUSSION..................................................................................................................................... 130 CONCLUSION .................................................................................................................................. 134 APPENDICE A SÉQUENCES GPI DE SWISS-PROT............................................................................................. 136 APPENDICE B ALIGNEMENT MULTIPLE ........................................................................................................... 147

SORTIE CLUSTALW ......................................................................................................................... 147 APPENDICE C SÉQUENCES D’ENTRAÎNEMENT DU RÉSEAU DE NEURONES ARTIFICIELS............... 157

v

SÉQUENCES D’ENTRAÎNEMENT ........................................................................................................ 157 APPENDICE D ANALYSE ROC DU RÉSEAU DE NEURONES ARTIFICIELS................................................ 159

ANALYSE ROC................................................................................................................................ 159 APPENDICE E SÉQUENCES D’ENTRAÎNEMENT DU MODÈLE DE MARKOV CACHÉ ............................ 163

SEQUENCES D’ENTRAINEMENT ........................................................................................................ 163 APPENDICE F MODÈLE DE MARKOV CACHÉ DE INITIAL........................................................................... 167

MODELE DE MARKOV CACHE .......................................................................................................... 167 APPENDICE G ANALYSE ROC DU MODÈLE DE MARKOV CACHÉ ............................................................. 177

ANALYSE ROC................................................................................................................................ 177 APPENDICE H GRAMMAIRE STOCHASTIQUE GPI.......................................................................................... 181

PROBABILITÉ D’ÉMISSION................................................................................................................ 181 RÈGLES DE PRODUCTION STOCHASTIQUE......................................................................................... 182

APPENDICE I ANALYSE ROC MÉTHODE HYBRIDE....................................................................................... 184

ANALYSE ROC................................................................................................................................ 184 APPENDICE J PRÉDICTIONS ................................................................................................................................. 192

ARABIDOPSIS THALIANA.................................................................................................................. 192 ORYZA SATIVA ................................................................................................................................ 197

BIBLIOGRAPHIE ............................................................................................................................ 201

LISTE DES FIGURES

Figure Page

1. 1 Alphabets ou codes IUPAC-IUBMB des classes de polymères ADN, ARN et protéine ..................................................................................................................7

1. 2 Un acide nucléique en détail .................................................................................9 1. 3 Double hélice d’ADN..........................................................................................11 1. 4 Séquence d’ADN.................................................................................................11 1. 5 Structure de l’ARN..............................................................................................12 1. 6 Structure d’un acide aminé avec les groupements aminé et carboxyle. ..............14 1. 7 Structure de la protéine........................................................................................15 1. 8 Domaines protéiques. ..........................................................................................16 1. 9 Processus de transcription d’un ADN en ARN messager. ..................................18 1. 10 Traduction d’un ARN messager en protéine.. ...................................................20 2. 1 Glycosylation.......................................................................................................25 2. 2 Différentes associations protéine/membrane.....................................................25 2. 3 Biosynthèse d’une protéine à ancre GPI. ............................................................27 2. 4 Structure de la protéine à ancre GPI....................................................................29 3. 1 Classification .......................................................................................................33 3. 2 Alignement entre trois séquences d’ancre GPI différentes. ...............................34 3. 3 Alignement entre quatre différentes séquences d’ancre GPI ..............................34

vii

3. 4 Diversité du signal GPI ........................................................................................35 3. 5 Alignement entre les mots « voiture » et « toiture ». ..........................................36 3. 6 Alignement entre les mots « voiture » et « véhicule » ........................................37 3. 7 Alignement local et global. .................................................................................39 3. 8 Trois alignements possibles entre deux séquences, avec des scores différents...40 3. 9 Matrice BLOSUM62...........................................................................................41 3. 10 Alignement BLOCK...........................................................................................42 3. 11 Alignement avec espace .....................................................................................43 3. 12 Calcul d'un alignement optimal entre les séquences TCGCA et TCCA. ...........44 3. 13 Sortie du programme BLAST effectuée avec l’algorithme blastp. ...................47 3. 14 Alignement multiple..........................................................................................49 4. 1 Représentation distribuée ....................................................................................53 4. 2 Neurone biologique .............................................................................................57 4. 3 Neurone formel....................................................................................................58 4. 4 Fonctions d’activation .........................................................................................59 4. 5 Structure de connexions de réseaux de neurones artificiels. ...............................60 4. 6 Architecture du perceptron. .................................................................................63 4. 7 Architecture du perceptron multicouche. ............................................................65 4. 8 Minimum local et vrai minimum.........................................................................66 4. 9 Modèle de Markov observable ............................................................................72 4. 10 Modèle de Markov caché ..................................................................................73

viii

4. 11 Un Modèle de Markov caché. ............................................................................75 4. 12 Modèle de Markov caché avec émissions et transitions équiprobables. ............78 4. 13 Modèle de Markov caché après apprentissage. ..................................................79 4. 14 Premiers niveaux d’un arbre de dérivation........................................................82 4. 15 Grammaire dérivée d’un HMM.........................................................................84 5. 1 Séquences de protéines à ancre GPI de différentes longueurs. ............................89 5. 2 Vecteur d’entrée du réseau de neurones avant encodage. ...................................90 5. 3 Exemple de vecteur d’entrée. ..............................................................................93 5. 4 Sélection du jeu d’entrainement ..........................................................................94 5. 5 Architecture du perceptron multicouche construit pour la classification de

protéines à ancre GPI. .........................................................................................97 5. 6 Progression de l’erreur lors de la validation......................................................100 5. 7 Courbe ROC pour le test de validation du réseau de neurones. ........................101 6. 1 Structure de séquences GPI avec annotation du site d’ancrage en rouge..........108 6. 2 Modèle de Markov caché représentant le signal GPI. .......................................109 6. 3 Courbe ROC pour le test de validation du HMM .............................................113 6. 4 Les trois meilleurs chemins de la séquence PRIO_HUMAN ...........................116 7. 1 Méthode d’analyse hybride. ..............................................................................123 7. 2 Résultats de la méthode hybride........................................................................127

LISTE DES TABLEAUX Tableau Page

1. 1 Code Génétique ....................................................................................................19 2. 1 Nature des acides aminés dans la zone d’ancrage ...............................................30 4. 1 Tests de validation................................................................................................71 4. 2 Les 15 chemins différents susceptibles de générer ABAA ..................................76 5. 1 Échelles utilisées pour la conversion numérique des acides aminés...................91 5. 2 Tests de sélection du nombre de neurones de la couche cachée .........................97 5. 3 Tests d’ajustement des paramètres de l’apprentissage RPROP ..........................98 5. 4 Résultats du test de validation du réseau de neurones artificiels. .....................102 5. 5 Résultats des tests supplémentaires. ..................................................................102 5. 6 Résultats du test de prédiction à grande échelle................................................103 6. 1 Pourcentage d’occupation des acides aminés pour la zone d’ancrage. .............110 6. 2 Pourcentage d’occupation des acides aminés pour la zone intermédiaire et la

queue hydrophobe. ............................................................................................111 6. 3 Résultats du test de validation du HMM. ..........................................................115 6. 4 Résultats des jeux de test supplémentaires. .......................................................116 6. 5 Acides aminés pour le site d’ancrage selon notre méthode hybride .................118 7. 1 Annotation hybride. ...........................................................................................124 7. 2 Proportion des prédictions du réseau de neurones selon l’annotation hybride. 125

x

7. 3 Comparaison de la précision du système hybride selon la catégorie probable et du réseau de neurones artificiels seul. ...............................................................126

7. 4 Classification du protéome de Arabidopsis thaliana et Oryza sativa. ..............128 7. 5 Étude comparative de la capacité de prédiction de la méthode hybride vs les

différents prédicteurs de big-...........................................................................132

LISTE DES ABRÉVIATIONS A Adénine

a alanine

ADN Acide désoxyribonucléique

ARN Acide ribonucléique

ARNm Acide ribonucléique messager

ARNr Acide ribonucléique de transfert

ARNsn Acide ribonucléique nucléaire

ARNt Acide ribonucléique de transfert

BLAST Basic Local Alignment Search Tool

BLOSUM Blocks Substitution Matrices

C Cytosine

c cystéine

CFG Context Free Grammar (Grammaire hors contexte)

CLUSTALW Cluster Alignement

COOH Groupement carboxyle

CSG Context Sensitive Grammar (Grammaire sensible au contexte)

d acide aspartique

e acide glutamique

f phénylalanine

G Guanine

g glycine

Ghz Gigahertz

GPI Glycosylphosphatidylinositol

h histidine

HMM Hidden Markov model

i isoleucine

IA Intelligence Artificielle

xii

IUPAC International Union of Pure and Applied Chemistry

IUBMB International Union of Biochemistry and Molecular Biology

k lysine

l leucine

m méthionine

n asparagine

NCBI National Center for Biotechnology Information

NH2 Groupement aminé

p proline

PAM Point Accepted Mutation

q glutamine

r arginine

RG Regular Grammar (grammaire régulière)

ROC Receiver Operating Characteristic

RPROP Resilient Propagation

s sérine

SOM Self Organizing Maps

T Thymine

t thréonine

U Uracile

UnresG Urestricted Grammar (Grammaire sans restriction)

v valine

w tryptophane

XOR Ou exclusif

y tyrosine

RÉSUMÉ

Une ancre glycosylphosphatidylinositol (ancre GPI) est une structure d’ancrage membranaire complexe mais commune chez les protéines eucaryotes extracellulaires. Cette structure a été très bien conservée durant l’évolution de la cellule de la levure jusqu'à celle des mammifères. La fonction précise de ce type d’attachement n’est pas bien définie, mais cette conservation élevée dans l’évolution des cellules eucaryotes laisse facilement présumer un rôle fonctionnel important. Toutefois, quelques caractéristiques sont connues. Par exemple, les ancres GPI sont souvent définies comme des cibles ou des signaux positionnés à la surface des cellules. Les banques de séquences protéiques, telles que Swiss-Prot, proposent peu de séquences ayant cette modification, car leur présence n’est pas connue depuis longtemps et peu d’outils permettent l’annotation automatique des nouvelles séquences. Les différents projets de séquençage de génomes amènent une profusion de nouvelles séquences qu’il faut annoter. De plus, la prédiction de modifications post-traductionnelles des protéines fait partie intégrante d'une étude approfondie permettant la compréhension des fonctions biologiques. Elle se révèle être une étape importante, non seulement pour l’annotation des protéomes, mais aussi pour l’étude des systèmes biologiques à grande échelle. Des outils qui pourront aider à l’annotation des signaux dans les séquences sont donc une nécessité, surtout pour des structures récemment découvertes, comme les ancres GPI. Cette thèse développe une méthode d’analyse qui se base sur l’utilisation d’un réseau de neurones artificiels et d’un modèle de Markov caché (HMM). Le réseau de neurones artificiels sélectionne les séquences protéiques ayant un signal GPI potentiel et le HMM structure le signal. La combinaison des deux techniques d’apprentissage machine révèle un pouvoir prédictif intéressant, car elle exploite les propriétés physicochimiques de la molécule ainsi que la nature séquentielle de sa représentation. La méthode hybride permet de prédire 93% des séquences protéiques annotées comme protéines à ancre GPI, dans la base de données Swiss-Prot. Une caractéristique importante de la méthode d’analyse hybride que nous proposons est qu’elle cible uniquement la partie C-terminale de la protéine. Cette particularité la rend moins sensible aux erreurs si répandues dans les bases de données de séquences. De plus, cette méthode n’est pas spécifique à un seul groupe taxonomique. Elle peut être utilisée pour prédire la présence de protéines à ancre GPI chez tous les eucaryotes (plantes, animaux, champignons, protozoaires, etc.). L’utilisation d’un HMM pour structurer le signal nous permet de définir la grammaire sous-jacente au signal. Cette grammaire peut, par la suite, servir à proposer une structure du signal représentative des séquences connues à ce jour. Finalement, une technique d’annotation selon une échelle de qualité permet de combiner une très grande sensibilité ainsi qu’une annotation informative de chaque prédiction de la méthode hybride.

INTRODUCTION

En 1866, un moine tchèque du nom de Gregor Mendel établissait les premières lois de

l’hérédité grâce à son étude sur l’hybridation des plantes. De ces travaux est née la génétique

classique. Cette découverte ouvrait la porte à l’étude du transfert de l’information dans le

matériel vivant.

L’importance des gènes n’est plus un secret pour personne. De nos jours, des termes tels que

ADN (acide désoxyribonucléique) et protéine ne sont plus des termes techniques connus

seulement des experts. Les séquences biologiques ont maintenant une place capitale dans la

recherche sur le vivant. Ces séquences sont représentées par une suite de lettres provenant

d’un alphabet de 4 lettres, pour les acides nucléiques de l’ADN, et de 20 lettres, pour les

acides aminés des protéines. Depuis 1955, lors de la publication de la première séquence

protéique, l’insuline bovine (Sanger, Thompson et Kitai, 1955), le nombre de séquences

protéiques et nucléiques rendues publiques ne fait qu’augmenter. La première base de

données de séquences biologiques (Dayhoff et al., 1965) et les premiers algorithmes

d’analyse de ces données ont donc vu le jour quelques années plus tard, donnant, par la même

occasion, naissance à un nouveau domaine de recherche : la bioinformatique. Depuis

plusieurs années, des milliers de projets scientifiques, liés de près ou de loin à la découverte

d’un moine tchèque ayant vécu il y a plus de 150 ans se concentrent sur l’analyse de ces

séquences et des mystères qu’elles renferment.

Le nombre de séquences biologiques présentes dans les bases de données publiques

augmente de façon exponentielle. Par exemple, en 1982, la base de données de séquences

d’acides nucléiques du NCBI (National Center for Biotechnology Information) contenait 606

séquences. À peine 10 ans plus tard, elle contenait près de 79 000 séquences et, finalement, la

version 142 (15 juin 2004) contenait plus de 35 000 000 de séquences totalisant près de 40

2

milliards de nucléotides. La nécessité de trouver des moyens d’entreposer et, surtout,

d’analyser toute cette information fut vite un sujet de discussion et de recherche.

À l’aube du troisième millénaire, les problèmes auxquels font face les biologistes et les

informaticiens ne sont plus liés au séquençage mais plutôt à l’annotation des séquences déjà

produites. L’annotation consiste à identifier la structure et la fonction des molécules codées

par les séquences. Traditionnellement, l’annotation se fait grâce à des expériences

systématiques en laboratoire. Toutefois, avec le nombre grandissant de séquences

disponibles, il devient primordial d’automatiser, au moins partiellement, le processus

d’annotation.

Le sujet de cette thèse est le développement d’une technique d’annotation basée sur des

algorithmes de classification. Notre approche est résolument expérimentale. En effet, les

objets avec lesquels nous travaillons sont des suites de lettres qui, théoriquement, encodent

des fonctions biologiques. Un algorithme de classification ou de prédiction pourra, dans le

meilleur des cas, aider le travail des biologistes dans la détermination exacte de la fonction

d’une molécule. C’est ce critère d’utilité biologique qui, ultimement, sera le critère

fondamental pour évaluer nos algorithmes.

La complexité des informations contenues dans les séquences biologiques est un problème en

soi : certaines caractéristiques sont facilement identifiables, comme par exemple

l’hydrophobicité générale, alors que d’autres sont bien cachées, comme la présence de courts

segments ayant une fonction précise, mais ayant subi de nombreuses mutations au cours de

l’évolution. Identifier et classifier correctement ces caractéristiques requièrent souvent des

approches nouvelles, qui viennent appuyer les outils d’analyse standard, tel l’alignement de

séquences. Dans cette thèse, nous nous sommes penchés particulièrement sur le problème de

la prédiction d’une modification post-traductionnelle particulière : l’ancrage

glycosylphosphatidylinositol, auquel nous référerons par la forme abrégée ancre GPI dans la

suite du texte.

3

La structure des protéines provenant de la traduction des gènes n'est pas suffisante pour

indiquer toute la complexité de leurs fonctions. Des modifications post-traductionnelles

peuvent amener, par exemple, des changements d’activités, de localisation cellulaire et

d’interaction avec d’autres protéines (Seo et Lee, 2004). Les modifications post-

traductionnelles, comme l’ancre GPI, ont une grande importance dans le processus de

compréhension des fonctions biologiques. Toutefois, leur étude souffre d'un manque de

méthodes valables permettant l’étude à grande échelle (Mann et Jensen, 2003). La prédiction

de modification post-traductionnelle des protéines fait partie intégrante d'une étude

approfondie permettant la compréhension des fonctions biologiques. Elle se révèle être une

étape importante, non seulement pour l’annotation de protéomes, mais aussi pour l’étude des

systèmes biologiques à grande échelle.

Contribution originale

La contribution originale de ce projet est la conception d’un outil hybride de prédiction d’un

signal protéique, la modification post-traductionnelle de l’ancre GPI, important pour

l’annotation des protéomes et pour l’étude de la fonction des protéines. L’outil est hybride car

il fait appel à la fois aux techniques de réseau de neurones artificiels et à celles des modèles

de Markov cachés. L’utilisation de la méthode d’apprentissage neuronale permet une bonne

fouille préliminaire des données, tandis que l’exploitation de la nature régulière du langage

des séquences biologiques sert à structurer les prédictions et à annoter qualitativement chaque

prédiction. Cette méthode hybride donne donc un outil plus complet que ceux déjà existants

et ouvre les portes à d’autres applications en analyse de signaux protéiques. Nous proposons

enfin une grammaire formelle du signal GPI, ainsi qu’une réévaluation de nos connaissances

sur sa structure. Ces travaux ont fait l’objet de deux présentations dans des rencontres

scientifiques internationales (Poisson et al., 2003; Poisson, Bergeron et Chauve, 2004) d’un

séminaire sur invitation à l’Université de Hawaii à Manoa, au département « Information and

Computer Science ».

4

Structure de la thèse

Cette thèse s’organise en sept chapitres. Le premier chapitre propose les bases biologiques

nécessaires à la compréhension de la méthode d’analyse développée. Nous débutons par une

introduction générale aux séquences biologiques, en partant de l’ADN, jusqu’à la

construction d’une protéine. Par la suite, le chapitre 2 se concentre sur un phénomène bien

précis, celui des modifications post-traductionnelles. Dans ce chapitre, nous verrons la

mécanique derrière une modification post-traductionnelle en particulier : l’ancre GPI. La

nature même de cette modification se voit codée au sein des séquences protéiques. Nous

verrons l’importance de pouvoir classer, ou plutôt prédire, la présence de cette modification

dans les séquences biologiques.

La construction d’un outil d’analyse de cette modification post-traductionnelle demande

l’utilisation de techniques de classification de données. Le chapitre 3 présente le problème de

classification et discute des approches couramment utilisées pour l’analyse de séquences

biologiques, basées sur l’alignement de séquences. Le chapitre 4 présente deux techniques

provenant du domaine de l’apprentissage machine (réseaux de neurones artificiels et modèles

de Markov caché) qui permettront de combler les lacunes des techniques d’alignement dans

le problème qui nous intéresse.

Finalement, les 3 derniers chapitres contiennent la contribution scientifique originale de cette

thèse. Le chapitre 5 présente un modèle de réseau de neurones artificiels efficace pour

effectuer un bon nettoyage des données. Le chapitre 6 aborde la construction d’un modèle de

Markov caché représentant la structure du signal GPI ainsi que la grammaire régulière

stochastique qui en découle. Le chapitre 7 décrit la construction de la méthode hybride ainsi

que l’annotation qualitative basée sur la structuration du signal GPI par le modèle de Markov

caché.

En conclusion, nous verrons que l’utilisation de la méthode d’analyse hybride permet

d’obtenir un taux de prédiction du signal GPI plus que satisfaisant. De plus, nous

démontrerons qu’une grammaire du signal GPI proposant la structure du signal et une

5

annotation qualitative des prédictions augmente grandement la pertinence d’utilisation d’une

méthode hybride dans l’analyse de séquences biologiques.

CHAPITRE I

BASES BIOLOGIQUES Ce chapitre présente les généralités relatives aux acides nucléiques et aux protéines. Nous donnons les bases biologiques nécessaires à la compréhension du problème de la classification des séquences biologiques et, plus particulièrement, de celui lié à la classification des protéines à ancre GPI.

1.1 Les séquences

Il y a plus d’un siècle, Mendel comprit que le gène était une entité distincte. Ceci mit en

évidence un fait maintenant bien accepté : l’information nécessaire à la construction d’un

nouvel organisme se transmet d’une génération à l’autre (Lewin, 1999). Trois grandes classes

de molécules sont impliquées dans ce processus d'entreposage, de conversion et de

transmission d'information :

1. l'acide désoxyribonucléique (ADN), 2. l'acide ribonucléique (ARN) et 3. les protéines.

Ces trois types de molécules constituent les bases génétiques de la machinerie d'encodage et

de transmission de l'information cellulaire.

7

Ces molécules sont des polymères, c'est-à-dire qu'elles sont formées de suites de petites

molécules liées séquentiellement. L'ordre dans lequel ces molécules apparaissent dans un

polymère déterminera les structures, les localisations cellulaires et les fonctions biologiques.

Les molécules qui forment l'ADN et l'ARN sont appelées nucléotides. Celles qui forment les

protéines sont appelées acides aminés. Comme le nombre de ces molécules est relativement

faible, 5 pour les nucléotides et 20 pour les acides aminés, il est possible de représenter

chacune d'entre elles par une lettre de l'alphabet. Les conventions pour l'assignation de ces

lettres sont résumées dans la figure 1.1. On aura, par exemple,

1. une séquence d'ADN : "ACCCGTAGTAAA" ; 2. une séquence d'ARN : "GUACGUUUCAG" ; 3. une protéine : "aillickgrsillwwwy1".

ADN A AdénineC CytosineG Guanine T Thymine

A Adénine C Cytosine G Guanine U Urcile

ARN

PROTÉINE a alanine c cystéined acide aspartiquee acide glutamiquef phénylalanineg glycineh histidine i isoleucinek lysinel leucine

ALPHABET IUPAC-IUBMB COMPLÉMENT

R A ou G PurineY C ou T PyrimidineW A ou T Weak (faible) liaison hydrogèneS C ou G Strong (forte) liaison hydrogèneM A ou C Groupe amino même position K G ou T Groupe ketone même positionB C ou G ou T Tous sauf AD A ou G ou T Tous sauf CH A ou C ou T Tous sauf GV A ou C ou G Tous sauf T ou UN A ou C ou G ou T/U Tous

b acide aspartique ou asparaginex inconnuz acide glutamique ou glutamine. fin

m méthioninen asparaginep proline q glutamine r arginine s sérinet thréoninev valinew tryptophane y tyrosine

ALPHABET IUPAC-IUBMB COMMUN

Figure 1. 1 Alphabets ou codes IUPAC-IUBMB des classes de polymères ADN, ARN et protéine (IUPAC-IUB 1993).

1 Dans ce texte les acides aminés sont notés avec des caractéres minuscules. Toutefois certains logiciels utilisés pour faire les figures, utilisent des caractères majuscules.

8

Les protéines sont les molécules les plus diversifiées des trois. Ceci a biaisé notre

compréhension du mécanisme de la transmission de l’information pendant très longtemps.

On croyait que seules les protéines pouvaient produire une telle diversité. Cette croyance a

pris fin lorsqu’on découvrit que le matériel génétique (acides nucléiques) était le support de

l’information génétique. Les travaux de Griffith (1928) sur le virus responsable de la

pneumonie ont montré qu’une substance chimique était passée de virus morts à des virus

vivants. Cette substance fut isolée, en 1944, par Oswald Avery, Maclyn McCarty et Colin

MacLeod et se révéla être de l’ADN et non une protéine, comme on l’avait cru. Mais, ce

n’est qu’en 1952 qu’Alfred Hershey et Martha Chase démontrèrent, par marquage radioactif,

que l’ADN était le support de l’information génétique.

Dans les sections 1.1.1 et 1.1.2, nous allons décrire plus en détails ces différentes molécules.

La section 1.2 porte une attention particulière sur le processus de traduction des protéines car

nous nous intéressons à la classification/prédiction de ce type de molécules biologiques.

1.1.1 ADN et ARN : polymères d’acides nucléiques

Un acide nucléique est composé de petites molécules appelées nucléotides. Deux types

d’acides nucléiques existent : l’ADN, qui entrepose l’information génétique d’un individu et

l’ARN qui sert le plus souvent de vecteur de l’information. Un nucléotide est constitué d’une

base azotée de type purine (adénine A ou guanine G) ou de type pyrimidine (cytosine C ou

thymine/uracile T/U), d’un sucre déoxyribose (ADN) ou ribose (ARN) et d’un groupe

phosphate. La figure 1.2 montre la structure primaire d’un acide nucléique. Cette structure est

formée par un lien phosphodiester entre le phosphate en position 5’ d’un nucléotide et le

sucre en position 3’ du nucléotide suivant. Une séquence d’acide nucléique se lit en sens

5’ → 3’.

9

A

C

T

G

C

base azotée

sucre

groupe phosphate

5'

3'

nucléotide

sens

de

lect

ure

Figure 1. 2 Un acide nucléique en détail. L’encadré isole un nucléotide. Le sens de lecture est de l’extrémité 5’ de l’acide nucléique vers l’extrémité 3’.

1.1.1.1 L’ADN

Lorsque qu’une base azotée est attachée à un sucre, on la nomme un nucléoside. L’adénine

devient une adénosine, la guanine devient une guanosine, la cytosine devient une cytidine et

la thymine devient une thymidine. Une fois ces nucléosides attachés à un groupe phosphate,

on les nomme des nucléotides. Ces nucléotides forment des acides nucléiques de type ADN.

Les bases azotées formant une chaîne de nucléotides ont des affinités avec, ou une attirance

vers, un autre membre du groupe. Cette affinité les incitent à former des liens hydrogènes

entre elles, lorsque mises en contact. L’adénine A est ainsi dite complémentaire à la thymine

T et la cytosine C est complémentaire à la guanine G.

10

L’ADN typique d’un organisme consiste en une molécule formée de deux chaînes de

nucléotides entrelacées entre elles (fig. 1.3). Des liens hydrogènes les unissent, des liens forts

(trois ponts hydrogènes) entre les nucléotides C et G et des liens plus faibles (deux ponts

hydrogènes) entre A et T. Watson et Crick (1953) ont construit un modèle de la structure de

l’ADN en se basant sur trois notions importantes : 1) Des données de diffraction des rayons

X de Rosalind Franklin montrèrent une forme de double hélice. 2) La densité de l’ADN

suggérait vers la présence de deux chaînes. 3) L’affinité des bases A-T et C-G fut démontrée

par un pourcentage de G et C identique ainsi qu’un pourcentage de A et T identique dans

l’ADN (Lewin, 1999). Ces notions ont vite amené la proposition d’une structure de l’ADN en

double hélice composée de deux chaînes de nucléotides complémentaires.

L’ADN peut être représenté sous trois formes. La molécule d’ADN peut former des liens

phosphodiesters entre le sucre d’un nucléotide et le groupement phosphate du nucléotide

suivant. Cette forme d’attachement donne la structure primaire de la molécule (représentée

sous forme de chaîne de lettres figure 1.3a). Par la suite, des liens hydrogènes peuvent se

former entre les deux chaînes de la molécule, établissant ainsi la structure secondaire (fig.

1.3b). Finalement, des angles particuliers entre les liaisons reliant les nucléotides donnent la

forme en spirale caractéristique à l’ADN, sa structure tertiaire (fig. 1.3c).

La structure de l’ADN n’est pas sa caractéristique la plus importante. Ce qui importe le plus

est la séquence d’acides aminés qu’elle encode. L’ADN est une séquence de nucléotides

représentée sous forme simple ou double (fig.1.4). Comme les deux séquences sont

complémentaires, il suffit de connaître une chaîne pour pouvoir en déduire la seconde. Pour

le traitement informatique de ces séquences, la chaîne simple est normalement utilisée et sa

lecture se fait de gauche à droite, de la position 5’ vers la position 3’ (fig. 1.4).

11

A

C

T

G

C

5'

3'

G

A

C

G

3'

5'

T

ACCTGTGGAC

5'

5'

3'

3'

STRUCTURE PRIMAIRE

STRUCTURE SECONDAIRE

STRUCTURE TERTIAIREa

b

c

Figure 1. 3 Double hélice d’ADN. a : Structure primaire. b : Structure secondaire. c : Structure tertiaire.

5' AAACGCGGGCTGCTGGGCTCGCGCAGA 3'

5' AAACGCGGGCTGCTGGGCTCGCGCAGA 3'3' TTTGCGCCCGACGACCCGAGCGCGTCT 5'

SIMPLE BRIN

DOUBLE BRIN

Figure 1. 4 Séquence d’ADN. Les nucléotides des deux chaînes sont complémentaires.

12

1.1.1.2 L’ARN

L’ARN est, comme l’ADN, une chaîne de nucléotides. Toutefois, dans le cas de l’ARN, la

base thymine T est remplacée par l’uracile U. Le nucléoside composé de la base uracile et

d’un sucre se nomme uridine. Contrairement à L’ADN, l’ARN se retrouve sous la forme d’un

simple brin. Cette particularité fait que l’ARN forme des liens hydrogènes avec ses propres

bases, formant ainsi des structures secondaires et tertiaires très variées (fig. 1.5b et 1.5c). La

longueur de la chaîne de l’ARN est considérablement plus petite que celle de l’ADN (des

milliers au lieu de millions de nucléotides).

Figure 1. 5 Structure de l’ARN. a : Structure primaire. b : Structure secondaire. c : Structure tertiaire de l’ARNm du prion (Barrette et al., 2002).

Il existe principalement trois types d’ARN :

1. L’ARNm (messager) et pré-ARN: Il contient l’information provenant des gènes et servant à produire une protéine.

13

2. L’ARNt (transfert) : Son rôle est complémentaire à l’ARNm. Il existe environ 20 groupes d’ARNt, un pour chaque acide aminé. Sa forme de trèfle très caractéristique est composée de quatre bras. Un de ces bras, l’anticodon, est composé d’une séquence des trois bases complémentaires nécessaires à la production d’un acide aminé particulier, par exemple, le triplet UCA, code pour l’acide aminé sérine.

3. L’ARNr (ribosomal) : Accompagné de différentes protéines, l’ARNr compose les

ribosomes. Sa fonction n’est pas, comme dans le cas de l’ARNm et de l’ARNt, de nature à produire une protéine. Son rôle est plutôt structurel : il sert de charpente aux ribosomes.

Il existe aussi d’autres ARN, tels que les ARNsn (petits ARN nucléaires) ou les ARNsno

(situés dans le nucléole et impliqué dans la maturation des ribosomes).

1.1.2 Les protéines

À la différence de l’ADN et de l’ARN, la protéine est une chaîne simple brin composé

d’acides aminés (fig. 1.1). Un acide aminé se caractérise par un groupement carboxyle

(COOH), un groupement aminé (NH2) et une chaîne latérale (fig. 1.6). La chaîne latérale

différencie les acides aminés les uns des autres. La figure 1.6 montre deux exemples de

chaînes latérales, celle de la tyrosine et celle de la méthionine.

Comme pour l’ADN et l’ARN, on retrouve plusieurs niveaux de structure. La condensation

du groupement carboxyle de la tyrosine de la figure 1.6 et du groupement aminé de la

méthionine donne une liaison peptidique N-H, représentée en pourpre. Ces liaisons donnent

la structure primaire de la protéine.

14

H 2 N HC C

O

OHCH2

OH

H 2 N HC C

O

OHCH2

CHCH3 S

Tyrosine Méthionine

groupement latéralgroupement latéral

groupement aminé groupement aminégroupement carboxylegroupement carboxyle

H 2 N HC C

O

CH2

OH

HC

CO

CH2

CHCH3 S

N H

lien peptidique

Liaison peptidique entre acides aminés

Figure 1. 6 Structure d’un acide aminé avec les groupements aminé et carboxyle.

Comme pour l’ADN et l’ARN, la représentation de la structure primaire se fait sous forme

d’une chaîne de lettres que l’on peut lire de gauche à droite, c’est-à-dire de la partie NH2

(appelée N-terminale) vers la partie COOH (appelée C-terminale) (fig. 1.7a). L’agencement

de la chaîne polypeptidique dans l’espace, selon les interactions existantes (liaisons

hydrogènes) entre les acides aminés, donne la structure secondaire (fig. 1.7b). Dans la

structure secondaire, on retrouve des éléments structuraux simples comme les hélices alpha

et les feuillets béta. L’organisation des éléments de structure secondaire entre eux donne la

structure tertiaire (fig. 1.7c). Finalement, certaines chaînes polypeptidiques ont la capacité de

s’associer entre elles sous forme de dimères (deux chaînes), quadrimères etc. Cet assemblage

donne la structure quaternaire (fig. 1.7d).

15

STRUCTURE TERTIAIRE

STRUCTURE SECONDAIRE

a bSTRUCTURE PRIMAIRE

feuiller beta

hélice alpha

polypeptide

c

STRUCTURE QUATERNAIREd

polypeptide 1 polypeptide 2

polypeptide 3 polypeptide 4

feuillet betahelice alpha

feuillet beta

helice alpha

helice alpha

glggymlgsamsrpmihfgndwedryyrenmyyrypnqvyyrpvdqysnqnnfvhdcvnjtikqhtvttttkgenftetdvkmmervveqmcvtqyqkesqayy

N-terminal

C-terminal

Figure 1. 7 Structure de la protéine. a : Structure primaire de la protéine 1AG2 du prion de la souris. b : Structure secondaire de la protéine 1AG2 du prion de la souris. c : Structure tertiaire de la protéine 1AG2 du prion de la souris. d : Structure quaternaire de protéine deoxyhemoglobin2.

La capacité des protéines de se replier en conformation tridimensionnelle est très importante

au point de vue fonctionnel. Différentes conformations donnent accès à différentes portions

de la chaîne, ce qui donnera la fonction de la molécule. Il existe différents types

d’interactions qui influencent la structure des protéines. Notons particulièrement les fortes

liaisons covalentes telles que les ponts disulfures et les plus faibles liaisons non covalentes

telles que les liaisons hydrogènes, les liaisons ioniques, les interactions hydrophobes et les

forces de Van der Waals (Lewin, 1999).

Dans un exemple d’interaction, les groupements latéraux des acides aminés peuvent, par

exemple, s’avérer très hydrophobes. En présence d’eau, ces parties hydrophobes auront

tendance à se regrouper pour échapper à l’eau. Ces groupements se retrouvent donc souvent

2 Source des images : Protein DataBank www.rcsb.org.

16

au cœur de la structure de la protéine, loin de l’eau. Ces interactions vont fournir beaucoup

d’indices sur la fonction de la protéine.

Comme les protéines sont essentielles à la plupart des processus biologiques, il n’est pas

étonnant de constater qu’il existe plusieurs familles de protéines. Les protéines peuvent être

des enzymes, des transporteurs, des hormones, des régulateurs, des éléments de structure etc.

Une protéine peut aussi être organisée en domaines. Un domaine représente une région de la

protéine qui a une fonction et une structure relativement indépendante. La longueur d’un

domaine varie de 30 à 300 acides aminés (Lewin, 1999). Les domaines protéiques sont une

notion importante car ils constituent des éléments fonctionnels utiles pour la classification

des séquences. Par exemple, la figure 1.8 montre la séquence DAF humaine, une protéine

connue comme étant un facteur d’accélération de la dégradation et qui se compose d’au

moins trois domaines membranaires répertoriés selon la base de données de domaines

protéiques ProDom (version 2004.1, juin 2004). Des séquences comportant des domaines

similaires ont de fortes chances d’avoir une fonction similaire. Un domaine

transmembranaire, un domaine hydrophobe ou un domaine de la fibronectine sont des

exemples de domaines protéiques.

100 200 300 400 5000

domaine facteur sushi

domaine recepteursushi

précurseur sushi

DAF_HUMAIN

Figure 1. 8 Domaines protéiques. Domaines présents dans la protéine à ancre GPI DAF humaine. Swiss-Prot, numéro d’accession: P08174.

17

1.2 De l’ADN à la protéine

Tel que mentionné plus haut, des gènes se retrouvent le long d’une molécule d’ADN. Ces

gènes contiennent les plans nécessaires à la formation de protéines. Le processus de base

permettant le passage du gène à la protéine se décrit schématiquement comme suit :

ADN ARN ProtéineTranscription Traduction

Les sections suivantes vont traiter du processus de transcription ainsi que de la traduction de

l’ARN en protéine. Des modifications peuvent aussi se produire après la traduction. Un

exemple de telle modification sera traité dans le chapitre 2.

1.2.1 La transcription

Lors de la transcription, une chaîne d’ARN est synthétisée à partir d’un des brins de l’ADN :

le brin matrice. Le résultat de cette copie sera complémentaire à cette matrice. Le processus

de transcription est résumé dans la figure 1.9. Une région spécifique, le promoteur, sert de

point de départ à cette transcription. Une enzyme, l’ARN polymérase, se fixe sur le

promoteur et commence à synthétiser l’ARN. À ce moment, les bases thymines sont

remplacées par des uraciles. Cette synthèse se poursuit jusqu’à ce qu’un terminateur (cercle

rouge de la figure 1.9a) soit rencontré le long de la séquence d’ADN. Les gènes des

eucaryotes3 sont composés de segments de régions codantes, les exons, et non codantes, les

introns, intercalés les uns avec les autres (fig. 1.9b). Dans le transcrit primaire, ou préARN,

les introns et les exons sont présents. On note aussi la présence de la coiffe en position 5’ et

une queue polyA (fig. 1.9c). La coiffe empêche la dégradation de l’ARN en augmentant

l’affinité de l’ARN pour des enzymes de traduction, tandis que la queue polyA protège

l’extrémité 3’ de l’ARN. Lors de la maturation de l’ARN messager, le processus d’épissage

coupe les introns pour ne laisser qu’un ARN contenant les portions codantes du gène appelé

3 Les cellules eucaryotes sont caractérisées par la présence d’un noyau contenant le matériel génétique (ADN).

18

un ARN messager mature (fig. 1.9d). Cet ARN messager sera le support qui contient le code

nécessaire à la production d’une protéine précise (fig. 1.9e). Ce processus semble impliquer

un rapport :

un gène → un ARN messager → une protéine.

Toutefois ce rapport n’est pas exact, puisque des processus comme l’épissage alternatif

permettent de produire différents ARN messagers avec un seul et même gène.

exon intron

ADNbrin codant

brin matrice

5'

5'3'

3'

5' 3'préARN

préARNpromoteur terminateur

AAAAAAAAAA

coiffe queue poly A

épissage AAAAAAAAAA

5'

5' 3'

3'

AAAAAAAAAA5' 3'ARNm

préARN

ARN polimérase

Figure 1. 9 Processus de transcription d’un ADN en ARN messager.

19

1.2.2 La traduction

Le processus de transcription s’effectue, chez les eucaryotes, à l’intérieur du noyau de la

cellule. Une fois l’ARN messager à maturité, il traverse la membrane du noyau pour se

retrouver dans le cytoplasme, où s’effectue la synthèse des protéines, appelée traduction. Les

principaux acteurs dans la traduction sont l’ARN messager, les ribosomes, composés de 2

sous-unités, et les ARN de transfert. Un ARN messager est composé d’une séquence de

lettres provenant de l’alphabet des ARN (A, C, G et U). Cette séquence est traduite sous

forme de protéine en utilisant un code : le code génétique. La clé de ce code est la lecture

sous forme de triplets ou codons. Il existe 43 codons ou 64 triplets possibles. De ces 64

codons, 61 sont des acides aminés et 3 entraînent l’arrêt de la traduction (Lewin, 1999)

(tableau 1.1). Comme il n’existe que 20 acides aminés différents, plusieurs codons

représentent le même acide aminé. Par exemple, les codons GUA, GUC, GUG et GUU sont

toutes des combinaisons qui codent l’acide aminé valine.

Tableau 1. 1 Code Génétique

UUU phénylalanine fUUC phénylalanine fUUA leucine lUUG leucine l

UUCU sérine sUCC sérine sUCA sérine sUCG sérine s

UAU tyrosine yUAC tyrosine yUAA stopUAG stop

UGU cystéine cUGC cystéine cUGA stopUGG tryptophane w

U C A G

CUU leucine lCUC leucine lCUA leucine lCUG leucine l

CCCU proline pCCC proline pCCA proline pCCG proline p

CAU histidine hCAC histidine hCAA glutamine qCAG glutamine q

CGU arginine rCGC arginine rCGA arginine rCGG arginine r

AUU isoleucine iAUC isoleucine iAUA isoleucine iAUG méthionine m

AACU thréonine tACC thréonine tACA thréonine tACG thréonine t

AAU asparagine nAAC asparagine nAAA lysine kAAG lysine k

AGU sérine sAGC sérine sAGA arginine rAGG arginine r

GUU valine vGUC valine vGUA valine vGUG valine v

GGCU alanine aGCC alanine aGCA alanine aGCG alanine a

GAU acide aspartique dGAC acide aspartique dGAA acide glutanique eGAG acide glutanique e

GGU glycine gGGC glycine gGGA glycine gGGG glycine g

20

La figure 1.10 résume le processus de traduction d’un ARN messager en protéine.

CAC

a

INITIATION

ÉLONGATION

b

cTERMINAISON

5' 3'ARN messager

ARN de transfert

AUG UGG UCU GUG UGA

ribosome

UAC

mdébut

Asite

Psite

Esite

5' 3'ARN messager

ribosome

AUGUAC

UGG UCU GUG UGA

Asite

mdébut

Esite

5' 3'ARN messager

ribosome

5' 3'ARN messager

ribosome

AUG UGG UCU GUG UGA

wsv

mdébu

t

AGA

protéine

5' 3'

ARN messager

ribosome

AUG

ws

v

mdébut

RFstop

protéine naissante

5' 3'ARN messager

ribosome

ws

v

ACC

mdébut

AUG

CACUGG UCU GUG

AGA UGARF

stop

ACC

w

mdébut

AUG UGG UCU GUG UGA

w

UAC ACC

Esite

AGA CACUGG UCU GUG UGA ACC

Esite P

siteA

site

Figure 1. 10 Traduction d’un ARN messager en protéine. Le processus implique les étapes suivantes : a : l’initiation, b : l’élongation et c : la terminaison (Chemis Interactive Molecular Library, Genetic Engineering Organisation, 1999).

21

Après son passage vers le cytoplasme, l’ARN messager entre en contact avec le ribosome

pour l’initiation de la synthèse (fig. 1.10a). Le ribosome comporte deux sites pour fixer

l’ARN de transfert. Le site « A » est le site accepteur nécessaire à la fixation de l’ARN de

transfert qui vient d’arriver. Le site « P » est occupé par un ARN de transfert portant la

chaîne polypeptidique naissante. Le ribosome comprend aussi le site « E » qui sert à évacuer

les ARN de transfert une fois traités (fig.1.10a).

L’initiation signifie la mise en place des éléments nécessaires à la traduction. C’est à cette

étape que l’ARN messager entre en contact avec le ribosome et le premier ARN de transfert

(l’ARN de transfert correspondant à la méthionine m, dans la fig. 1.10a). Par la suite, l’étape

d’élongation permet la polymérisation, ou l’ajout des acides aminés correspondant à l’ARN

messager (fig. 1.10b). Finalement, la rencontre du site « A » du ribosome avec un codon stop

provoque l’arrêt de l’élongation (fig. 1.10b). Le codon stop n’est pas reconnu par un ARN de

transfert. C’est plutôt une protéine, dite facteur de relâchement, qui reconnaît ce signal

d’arrêt. Après fixation de la protéine facteur de relâchement sur le codon stop, la liaison entre

la protéine et le dernier ARN de transfert est clivée, libérant la protéine. Ce processus

s’accompagne aussi de la dissociation des sous-unités du ribosome (fig. 1.10c).

Certaines protéines devront par la suite subir une translocation, c'est-à-dire qu’elles seront

transportées vers un endroit différent de celui où la traduction a débuté. Il existe deux type de

translocation : la translocation post-traductionnelle et la translocation co-traductionnelle.

1. Translocation post-traductionnelle : Les protéines subissant la translocation post-traductionnelle sont des protéines associées aux mitochondries, aux noyaux et aux chloroplastes. Ces protéines sont synthétisées par des ribosomes libres.

2. Translocation co-traductionnelle : D’autres protéines subissent la translocation durant la traduction. Ces protéines ont un signal en position N-terminale qui dirige la suite de la traduction dans le réticulum endoplasmique. Des ribosomes associés à la membrane du réticulum endoplasmique sont utilisés lors de la synthèse de ces protéines (Lewin, 1999).

22

La traduction n’est pas toujours l’étape finale en vue de l’obtention de la protéine active.

Certaines modifications peuvent se dérouler après cette traduction. Nous parlons alors de

modifications post-traductionnelles. Dans le chapitre suivant nous discuterons d’une

modification post-traductionnelle particulière impliquant la glycosylation.

CHAPITRE II

MODIFICATIONS POST-TRADUCTIONNELLES ET ANCRE GPI Ce chapitre décrit en détails la structure et les propriétés connues d’une modification post-traductionnelle : l’ancre GPI. Cette description est d’une importance fondamentale pour le développement de logiciels de classification.

2.1 Modification post-traductionnelle

Les quelques 30 000 gènes qui composent un organisme tel que l’humain ne sont rien en

comparaison avec les 100 000 ou 200 000 protéines qu’ils encodent (Wright et Semmes,

2003). Toutefois, ces nombres sont modestes si l’on considère le nombre des différentes

modifications et interactions que ces protéines peuvent subir. On calcule que plus d’un

million de protéines différentes pourraient agir dans un organisme tel que l’humain (Wright

et Semmes, 2003).

Un type de modification rencontré est la modification post-traductionnelle. Une grande

variété de ces modifications existe. Notons la phosphorylation, l’acétylation et la

glycolysation. La phosphorylation est une modification très importante car elle joue un rôle

important dans la régulation de la fonction de plusieurs protéines. La phosphorylation est une

façon rapide de réguler une protéine. Plusieurs enzymes sont activées ou désactivées par

l’addition d’un groupe phosphate (PO4) à la protéine. La phosphorilation de l’acide aminé

sérine est la plus commune.

24

Les deux modifications post-traductionnelle les plus communes chez les eucaryotes se

produisent en position N-terminale de la protéine. Ces deux évènements sont dits co-

traductionnels car ils se déroulent après la traduction du N-terminal mais avant la terminaison

du processus. Ce sont le clivage de la méthionine de départ de la protéine naissante et

l’acétylation en N-terminale (Polevoda et Sherman, 2000).

Les modifications en position C-terminale sont moins diversifiées. Une catégorie intéressante

de modification C-terminale implique une glycosylation : l’addition d’une ancre

glycosylphosphatidylinositol (GPI). Les sections suivantes présentent les notions de base

pour la compréhension du processus de modification post-traductionnelle. La section 2.2

décrit l’addition d’une ancre GPI, et la structure particulière des protéines à ancre GPI, en

donnant les principaux éléments qui permettront de les reconnaître ou de les prédire.

2.2 L’ancre glycosylphosphatidylinositol (GPI)

La glycosylation est une modification post-traductionnelle des plus communes (Nalivaeva et

Turner, 2001) et des plus complexe (Spiro, 2002). Ce processus implique l’ajout d’un radical

glycosyl à la molécule. La figure 2.1 montre l’ajout d’un oligosaccharide complexe lié à une

asparagine n. On retrouve principalement trois catégories de glycosylation : Les N-

glycosylations, les O-glycosylations et l’attachement d’un glycolipide (GPI) à la partie C-

terminale d’une protéine. La glycosylation a une grande importance car elle peut affecter la

stabilité, la conformation et la solubilité de la protéine (Nalivaeva et Turner, 2001).

Une ancre GPI est un type d’attachement membranaire assez récemment découvert. Sa

présence dans les cellules eucaryotes fut rendue évidente dans les années 80, grâce aux

travaux de quelques chercheurs : Futerman et al., 1985 ; Roberts et Rosenberry, 1985 ; Tse et

al., 1985 ; Ferguson, Homans et Cross, 1985 ; Ferguson et al., 1988.

Les protéines ont diverses façons de s’attacher à la membrane. Dans la figure 2.2, trois

différents types d’attachement sont illustrés : l’attachement par ancre GPI, l’attachement

transmembranaire et l’attachement par ancre lipidique. L’attachement par ancre GPI est

25

extracellulaire, dans le cas des attachements transmembranaires, les protéines sont intégrées à

la membrane et, enfin, les ancres lipidiques attachent la protéine à la membrane du côté

intracellulaire.

nglucose mannoseN-acetylglucosamine

Figure 2. 1 Glycosylation. Ajout d’un oligosaccharide complexe lié à une asparagine n.

membranedouble couche lipidique

transmembranaire

ancre GPI

ancre lipidique

espace intracellulaire

espace extracellulaire

Figure 2. 2 Différentes associations protéine/membrane. L’ancre GPI, l’attachement trans-membranaire et l’ancre lipidique.

Parmi les protéines à ancre GPI on retrouve des enzymes, des molécules d’adhésion, des

récepteurs, des antigènes d’activation, etc (Chatterjee et Mayor, 2001 ; Hooper, 2001).

Toutefois, la seule caractéristique commune reliant ces protéines est la présence de cette

ancre (Chatterjee et Mayor, 2001). La fonction exacte de cet attachement n’est pas bien

connue (Ikezawa, 2002). Néanmoins, sa conservation parmi une grande variété taxonomique

(levures, protozoaires, plantes, vertébrés et même des archéobactéries) suggère une

26

fonctionnalité importante (Low, 1999). Quelques suggestions sur la fonction de l’ancre GPI

ont été proposées. Comme ces protéines sont attachées à la membrane plasmique, elles sont

probablement une alternative à l’attachement transmembranaire. On pense aussi qu’elles

pourraient jouer un rôle dans le triage (sorting) intracellulaire, c’est-à-dire que l’ancrage

serait un signal indiquant à la cellule la position extracellulaire de la protéine (Nosjean,

Briolay et Roux, 1997), et dans la signalisation transmembranaire (Chatterjee et Mayor,

2001). Il semblerait que l’ancre GPI présent chez la protéine prion serait en cause lors de

conformation déficiente de la protéine (Lehmann et Harris, 1995). Elles seraient aussi de

bonnes cibles pharmaceutiques. Par exemple le protozoaire Plasmodium, responsable de la

malaria, se compose de plusieurs protéines ayant une ancre GPI. Certaines de ces protéines

sont directement impliquées dans l’apparition des symptômes sévères tel que les fortes

fièvres. Ces protéines sont, de la sorte, de bonnes cibles pour l’élaboration de drogues anti-

malaria (Gowda et Davidson, 1999). Les protéines à ancre GPI ont finalement une

particularité très intéressante, à savoir qu’elles sont uniquement extracellulaires. Cette

modification post-traductionnelle donne un gros avantage, lors de l’annotation de nouvelles

séquences, en précisant leur localisation cellulaire.

2.2.1 Biosynthèse

La figure 2.3 résume la biosynthèse d’une protéine à ancre GPI. Une protéine destinée à

recevoir une ancre GPI sera dirigée vers le réticulum endoplasmique lors de sa traduction,

grâce à un signal en position N-terminale. Après avoir traversé la membrane du réticulum

endoplasmique, le signal peptide sera clivé par une peptidase. Par la suite, le signal en

position C-terminale s’attachera à l’intérieur du réticulum endoplasmique pour attendre

l’addition du GPI. Ce processus d’addition implique, entre autres, un complexe transamidase

et l’ancre GPI. Ce signal est nécessaire pour l’interaction avec le complexe transamidase

(Eisenhaber B. et al., 2003).

27

espace extracellulaire

réticulum endoplasmique

golgi

espace intracellulaire

ribosome

signal N-terminal

peptidase transamidase

ancre GPI

protéine à ancrage GPI

vésicule de transfert

vésicule sécrétrice

attachement à la membrane

ARNm

Figure 2. 3 Biosynthèse d’une protéine à ancre GPI.

Cette ancre GPI a préalablement été construite du côté cytoplasmique du réticulum

endoplasmique et est transportée à l’intérieur du réticulum endoplasmique (McConville et

Menon, 2000). Par la suite, le signal C-terminal sera clivé par la transamidase pour permettre

28

l’attachement de l’ancre GPI à la nouvelle queue C-terminale (Ikezawa, 2002). Une fois cette

addition terminée, la protéine voyage par la voie de sécrétion, en passant par le golgi (où elle

subira une maturation de l’ancre), pour être finalement transportée vers son site d’ancrage.

2.2.2 Structure d’une protéine à ancre GPI

La protéine à ancre GPI est caractérisée par deux signaux de séquences (fig. 2.4a).

Premièrement, on retrouve un signal pour la translocation dans le réticulum endoplasmique

en position N-terminale. Le deuxième signal permet la reconnaissance du complexe

transamidase lors du processus d’addition de l’ancre GPI. Le signal en position N-terminale

sera clivé lors du passage dans le réticulum endoplasmique. Pour ce qui est du signal

d’addition de l’ancre GPI, il peut être divisé en quatre éléments importants (fig. 2.4b, 2.4c)

( w représente le site d’ancrage) (Eisenhaber, Bork et Eisenhaber, 1998) :

1. Une région de liaison polaire et flexible d’environ 11 acides aminés ( 11−w … 1−w ) sans structure secondaire intrinsèque ;

2. Une région de résidus de faible poids moléculaire comprenant le site

d’ancrage w : ( w … 2+w ) ;

3. Une région intermédiaire ( 3+w … 9+w ) comportant des résidus modérément polaires ;

4. Une queue commençant avec le résidu 9+w ou 10+w , jusqu'à la fin et ayant

une hydrophobicité suffisante.

L’importance de ces éléments a été démontrée dans plusieurs études. Par exemple, la nature

de l’acide aminé au site w d’ancrage est importante. Des petits acides aminés comme la

sérine, l’asparagine, l’alanine, la glycine et la cystéine sont plus efficaces que les autres

résidus lorsque retrouvés à la position du site d’attachement, probablement dû au fait que

parce que la poche de fixation de la transamidase a une largeur spécifique pour accommoder

ces petits résidus, faisant d’eux un meilleur substrat (Eisenhaber, Bork et Eisenhaber, 1998 ;

Moran et Caras, 1994; Micanovic et al., 1990).

29

} }signal en N-terminale signal en C-terminale

protéine à ancrage GPI

cliva

ge

cliva

ge

a

b

} } }zone intermédiaire queue hydrophobe

signal en C-terminale

clivage

petits aa

w-11.....w-1 w w+1w+2}polaire

w+3................w+9w+9...................................

> DAF_HUMAN 23 SGT amidated serine.ATRSTPVSRTTKHFHETTPNKGSGTTSGTTRLLSGHTCFTLTGLLGTLVTMGLLT

w...w+2 queue hydrophobezone intermédiaire

c

Figure 2. 4 Structure de la protéine à ancre GPI. a : Signaux présents dans la protéine à ancre GPI. b : Structure du signal en C-terminale. c : Structure du peptide signal dans la séquence DAF_HUMAN. Le site d’ancrage est représenté en rouge et la queue hydrophobe en bleue.

Le rôle de la queue hydrophobe est la rétention de la protéine sur la membrane jusqu’à ce que

la modification GPI s’effectue. La longueur minimale de cette zone hydrophobe dépend de la

nature des acides aminés qui la composent. Ikezawa (2002) rapporte que pour la protéine de

foie de bovin 5-nucleotidase, une longueur de 13 résidus hydrophobes semble suffisante.

La région intermédiaire a aussi quelques particularités. Des études suggèrent une zone

hydrophile de 9 à 12 acides aminés (Moran et al., 1991 et Coyen, Crisci et Lublin, 1993).

Toutefois, beaucoup de protéines s’avèrent avoir une région intermédiaire de moins de 9

résidus (Furukawa, Tsukamoto et Ikezawa, 1997). Selon Ikezawa (2002), cette région

intermédiaire, conjointement avec les résidus 1+w et 2+w , jouerait un rôle dans

l’interaction entre le résidu d’attachement et le complexe transamidase GPI. La zone du site

30

d’ancrage se caractérise par la composition des acides aminés qu’elle renferme (tableau 2.1)

(Eisenhaber, Bork et Eisenhaber, 1998). On remarque que, dans la position w , seulement 6

des 20 acides aminés sont représentés et que l’alanine, a et la sérine, s composent 94% des

acides aminés à la position 2+w des protozoaires.

Tableau 2. 1 Nature des acides aminés dans la zone d’ancrage

Position par rapport au site d’ancrage w

Protozoaire % acides aminés

Métazoaire % acides aminés

w s (44%) n, d, a, g s (48%) g, n, d, c 1+w similaire à w g, a, s 2+w s, a (94%) a , g (70%)

Référence : Eisenhaber, B., P. Bork et F. Eisenhaber. 1998. « Sequence Properties of GPI-anchored Proteins Near the Oméga-site : Constraints for Polypeptide Binding Site of the Putative Transamidase ». Protein Engineering, vol. 11, no 12, p. 1155-1161.

La structure du peptide signal GPI semble assez spécifique. Toutefois, un examen de

plusieurs séquences de protéine à ancre GPI ne montre pas une similarité évidente entre les

séquences. Le signal peptide d’ancre GPI est constant mais n’est pas caractérisé par une forte

préférence pour un faible groupe d’acides aminés, sauf pour le site d’ancrage (Eisenhaber,

Bork et Eisenhaber, 1999).

CHAPITRE III

CLASSIFICATION PAR ALIGNEMENT DE SÉQUENCES Dans ce chapitre, on introduit d’abord le problème général de la classification, puis on discute d’une technique de classification couramment utilisée en analyse de séquences biologiques : l’analyse de séquences par similarité d’alignement de paires et alignement multiple. On y verra que ces techniques traditionnelles d’analyse de séquences s’avèrent inefficaces dans le cas de recherche de certains motifs fonctionnels et de certaines caractéristiques particulières retrouvées chez des protéines ayant des fonctions différentes telles que les protéines à ancre GPI.

3.1 La classification

Classer des objets, des idées ou des concepts est une tâche que nous effectuons à tout moment

de la journée, sans même nous en rendre compte. Nos vies seraient difficiles si nous n’avions

pas cette capacité. Pour souligner l’importance de la classification, il suffit de rappeler qu’elle

est à la base de la plupart des activités intellectuelles nous caractérisant (Estes, 1994).

Lorsque nous classifions un nouvel objet, nous effectuons une généralisation d’après des

observations. Ces observations nous permettent d’extraire des caractéristiques communes à

une catégorie d’objets et, ainsi, de structurer la classe représentée. Cette capacité de

généralisation, nous l’avons dès l’enfance. Lorsque notre cerveau est mis en présence d’un

groupe d’objets divers, il tente premièrement de faire ressortir des caractéristiques communes

à ce groupe de données nouvelles. Par exemple, un individu, lorsque mis devant un groupe de

fleurs de différentes couleurs, tailles et parfums, cherchera à faire ressortir des

32

caractéristiques communes au groupe, telles que la présence de feuilles ou de pétales. Un tel

processus de généralisation est souvent imparfait, ce qui est vrai autant pour l’activité

humaine que pour la classification automatisée. La classe « fleur », par exemple, contient des

exemples et des contre-exemples qui remettent en question les clichés conventionnels. C’est

le cas de la monotrope uniflore, plante à fleur de la famille des bleuets, qui peut être

facilement confondue avec un champignon vu l’absence de chlorophylle, ou le cas des

bougainvilliers qui s’ornent de bractées colorées ayant l’apparence des pétales de fleurs.

Il existe plusieurs types de classification selon les domaines scientifiques. En taxonomie, par

exemple, on divise la classification en deux catégories : la classification cladistique et la

classification classique. En mode cladistique, les organismes sont classés selon l’état d’un

caractère (primitif ou évolué), sous forme d’arbre phylogénétique. En classification classique,

le degré de divergence entre les lignées sera utilisé pour faire la classification. En

mathématiques, par contre, on aura une catégorisation différente de la classification. Selon

Gordon (1981), on parle de méthode par partitions, de méthode hiérarchique, de méthode de

groupement ou de méthode géométrique (fig. 3.1). Dans la méthode par partitions, un objet

appartient à un seul groupe (fig. 3.1a). Dans le cas de la méthode hiérarchique, on rencontre

différents niveaux d’appartenance pour un même objet (fig. 3.1b). Pour le groupement, les

groupes peuvent se chevaucher permettant à un objet d’appartenir à plus d’un groupe (fig.

3.1c). Finalement, dans la méthode géométrique, la représentation d’un objet est

multifonctionnelle. Dans ce cas, des objets similaires au sein d’un groupe seront plus près

l’un de l’autre. Cette méthode incorpore plus d’information quant à la similarité entre les

objets. Par exemple, en ajoutant une dimension, on peu utiliser des particularités comme la

grosseur des points pour rendre la classification plus informative (fig. 3.1d).

33

Méthode par partitionsa

b

c

Méthode hiérarchique d

Méthode par groupement

Méthode géométrique

Figure 3. 1 Classification (Gordon, 1981).

Malgré les différentes appellations, descriptions et catégorisations de la classification, le but

demeure assez constant dans tous les domaines : la simplification des données (Gordon,

1981; James, 1985; Schalkoff, 1992). Dans la simplification, on recherche des motifs ou des

caractéristiques particulières qui agissent comme un filtre épurant les données en les

catégorisant, rendant ainsi la recherche et l’organisation des données plus facile.

Classification, catégorisation, groupement ou « clustering » sont tous des termes utilisés pour

parler de la même action. Certains auteurs, tels que Gordon (1981), parlent du « clustering »

comme d’un type de classification, tandis que d’autres, tels que James (1985), insistent sur le

fait que le « clustering » n’est pas de la classification, puisque la classification implique

l’affectation d’un objet à une classe et non la formation d’une classe.

Dans le problème qui nous intéresse, nous devons nous pencher sur les deux problèmes :

décider si oui ou non une séquence de protéine appartient à la classe « ancre GPI », tout en

tentant de mieux comprendre la structure de cette classe. L’exemple suivant permet de mieux

saisir la complexité de la tâche : les trois séquences de la figure 3.2, NTRI_MOUSE,

OPCM_BOVIN et LAMP_HUMAN, sont toutes annotées comme séquences « ancre GPI ».

Les colonnes en gris ombré indiquent leurs caractéristiques communes, dans ce cas des

acides aminés conservés qui ressortent clairement.

34

NTRI_MOUSE -ygnytcvasnklghtnasimlfgpgavsevnngtsrragciwllpllvlhlllkfOPCM_BOVIN -ygnytcvatnklgitnasitlygpgavidgvnsasralaclwlsgtlfahffikfLAMP_HUMAN hygnytcvaanklgvtnaslvlfrpgsvrgi-ngsislavplwllaasllcllskc

Figure 3. 2 Alignement entre trois séquences d’ancre GPI différentes (partie C-terminale) : NTRI_MOUSE, OPCM_BOVIN et LAMP_HUMAN.

Dans la section 3.2 nous verrons quelles sont les techniques classiques pour identifier de

telles caractéristiques communes dans des séquences biologiques. Hélas, la classe « ancre

GPI » échappe à une classification aussi simple. En ajoutant une quatrième séquence annotée

« ancre GPI » aux trois de la figure 3.2 on bouleverse complètement les notions qui se

dégageaient de l’observation des trois premiers exemples (voir fig. 3.3).

NTRI_MOUSE -ygnytcvasnklghtnasimlfgpgavsevnngtsrragciwllpllvlhlllkfOPCM_BOVIN -ygnytcvatnklgitnasitlygpgavidgvnsasralaclwlsgtlfahffikfLAMP_HUMAN hygnytcvaanklgvtnaslvlfrpgsvrgi-ngsislavplwllaasllcllskcPRIO_HUMAN -tetdvkmmervveqmcitqyeresqayyqrgssmvlfssppvillisfliflivg

Figure 3. 3 Alignement entre quatre différentes séquences d’ancre GPI (partie C-terminale): NTRI_MOUSE, OPCM_BOVIN, LAMP_HUMAN et PRIO_HUMAN.

Une analyse plus précise du signal GPI confirme également que la structure connue du signal

n’est pas constante. Comme le montre la figure 3.4, la structure du signal GPI de trois

protéines diffère grandement : une protéine humaine (DAF_HUMAN), une protéine de singe

de nuit (PRIO_AOTTR) et une protéine de raie électrique (5NTD_DISOM). Ces trois

exemples montrent bien la diversité du signal et surtout la flexibilité de la structure du signal.

La protéine 5NTD_DISOM ne montre aucune zone intermédiaire (la zone hydrophobe, en

bleu, chevauche la zone du site d’ancrage, en rouge). Cette séquence serait rejetée, si on

respectait la structure connue des GPI. La séquence PRIO_AOTTR a, elle aussi, une zone

intermédiaire trop petite. La protéine DAF_HUMAN, elle, respecte assez bien la structure

connue du signal, avec une zone intermédiaire hydrophile de 12 acides aminés et une queue

hydrophobe de 17 acides aminés. À la vue de ces trois exemples, il est évident que la

classification des protéines à ancre GPI basé sur l’analyse de leur séquence sera difficile.

35

> 5NTD_DISOM 30 SAT amidated serine

TDISVVSSYIKQMKVVYPAVEGRILFVENSATLPIINLKIGLSLFAFLTWFLHCS

> PRIO_AOTTR 38 SSM amidated serine

TKGENFTETDVKIMERVVEQMCITQYEKESQAYYQRGSSMVLFSSPPVILLISFL

> DAF_HUMAN 23 SGT amidated serine.

ATRSTPVSRTTKHFHETTPNKGSGTTSGTTRLLSGHTCFTLTGLLGTLVTMGLLT

Figure 3. 4 Diversité du signal GPI. Les caractères en bleu représentent la queue hydrophobe. Les caractères en rouge sont la zone d’ancrage.

Le reste de ce chapitre est consacré à la description de techniques de classification basées sur

la détection de motifs communs aux séquences biologiques : l’alignements de séquences.

3.2 La classification par similarité de séquences

En analyse de séquences biologiques, la tâche la plus souvent effectuée est sans contredit la

recherche de similarité entre deux ou plusieurs séquences (Tompa, 2000; May, 2001). Cette

similarité se calcule en comparant les caractères composant deux séquences. L’analyse de

similarité de séquences nous permet de tirer avantage des nombreuses bases de données de

séquences, grâce à des algorithmes permettant de trouver efficacement toutes les séquences

similaires à une séquence donnée. La recherche dans les bases de données de séquences est

probablement l’expérience biologique la plus rapide, la plus puissante et la plus économique

(Krawetz et Womble, 2003).

Lors du séquençage d’un génome, on détermine la séquence d’acides nucléiques des gènes

composant un organisme. La première analyse effectuée sera d’identifier le gène séquencé et

de proposer une hypothèse quant à sa fonction (Tompa, 2000). Le moyen le plus utilisé pour

connaître la fonction d’un gène est la recherche de motifs par similarité. La nature est un

bricoleur, non un inventeur (Jacob, 1977) : les séquences biologiques ne sont pas des

créations, elles sont plutôt des adaptations de séquences ayant déjà existé (Durbin et al.,

1998). La comparaison de séquences inconnues avec des séquences ayant une fonction

36

connue nous permet donc d’inférer une fonction. Un outil important est la présence de motifs

dans les séquences. Un motif conservé au cours de l’évolution est, sans aucun doute,

important au point de vue fonctionnel. Il peut nous donner un indice sur la fonction de cette

séquence. Il peut aussi nous informer sur la relation entretenue entre deux séquences au cours

de l’évolution (Brejova et al., 2000).

3.2.1 Alignement de deux séquences

Lorsque l’on calcule la similarité entre deux séquences, on cherche à voir si deux séquences

se ressemblent suffisamment pour permettre d’inférer une homologie de séquences, donc une

évolution commune, et non simplement à identifier un fort pourcentage de caractères

communs (Baxevanis et Ouellette, 2001). Puisque la représentation des molécules se fait avec

un alphabet, le calcul de la similarité entre deux séquences biologiques peut être ramené à un

calcul de la similarité entre deux séquences de lettres. Un alignement entre deux séquences de

lettres consiste à superposer les deux séquences de manière à mettre en évidence leurs

éventuelles lettres communes aux mêmes positions. La figure 3.5 présente un exemple

d’alignement entre les mots « VOITURE » et « TOITURE ». Dans cette figure, nous avons

indiqué en gris ombré les 6 lettres communes aux deux mots.

V O I T U R E

O I T U R E

T O I T U R E

Figure 3. 5 Alignement entre les mots « voiture » et « toiture ».

On peut voir, dans cet exemple, que les deux séquences de lettres s’alignent presque

parfaitement. Si on regarde la similarité entre les caractères qui les composent, seulement la

première lettre diffère. Toutefois, la similarité dans l’orthographe de ces mots ne permet pas

d’inférer une similarité dans leur signification en langue française. Si on prend, par exemple,

un alignement entre les séquences de lettres « VOITURE » et « VÉHICULE », quelle serait

la valeur de similarité entre ces séquences (fig. 3.6) ? Notons que lorsque les mots sont de

37

longueurs différentes ou même identiques, on utilise le signe «-» pour fragmenter les mots de

manière à augmenter le nombre de caractères communs.

V O I T U R E

V I U E

V É H I C U L E

Figure 3. 6 Alignement entre les mots « voiture » et « véhicule ». Alignement où le signe « » représente un espace ajouté dans une séquence pour faciliter l’alignement des autres caractères.

Dans cet exemple, on retrouve seulement 4 lettres communes. Pourtant, si on s’attarde au

sens, les mots « VOITURE » et « VÉHICULE » ont un sens beaucoup plus proche que

« VOITURE » et « TOITURE ». Le calcul de la similarité par alignement de séquences de

lettres est, dans ces exemples, plausible du point de vue de l’orthographe mais n’a pas

d’intérêt du point de vue de la signification de ces mots.

Dans le cas des séquences biologiques, le calcul de similarité entre deux séquences par

l’alignement de leurs caractères est beaucoup plus justifiable car la structure primaire, la

séquence de lettre, d’une séquence biologique détermine généralement les structures

secondaire et tertiaire qui, elles, déterminent la fonction. Ainsi, une forte similarité dans

l’orthographe de ces séquences implique une similarité de fonction. Cependant, il ne faut pas

penser que l’analyse de séquences biologiques se limite à l’inférence de la structure, donc de

la fonction d’une séquence biologique, selon sa structure primaire et qu’ainsi, une recherche

de similarité entre séquences est la solution à tous les problèmes de classement de séquences

biologiques. Il existe des cas où une faible similarité entre les lettres composant une

séquence biologique ne reflète pas des structures différentes. Par exemple, des protéines

ayant un ancêtre commun peuvent avoir une structure tridimensionnelle similaire, malgré une

structure primaire différente (Lewin, 1999). Au cours de l’évolution, les structures primaires

des séquences peuvent avoir subi des substitutions entre acides aminés ayant des propriétés

communes (Brown, 2000). Dans le cas des protéines, par exemple, les 20 acides aminés qui

composent l’alphabet permettant la représentation textuelle des séquences protéiques peuvent

avoir une structure ou des propriétés physico-chimiques similaires. Cette similarité permet

38

une substitution entre deux acides aminés sans modification de la structure tertiaire, ni de la

fonction de la séquence. Par exemple, la valine et l’isoleucine sont deux acides aminés de

petite taille et hydrophobes. Le remplacement d’une valine par une isoleucine dans une

séquence n’aura pas le même effet que le remplacement d’une valine par une glycine qui,

elle, est beaucoup moins hydrophobe.

De plus, une séquence de protéine peut se replier sous diverses formes et cette structure

dépend d’interactions complexes (Alm et al., 2002). Comme la forme de la molécule

détermine sa fonction, il devient difficile de prédire la fonction d’une protéine uniquement

par l’analyse de sa séquence de lettres. Pour certains types d’analyses de séquences, telles

que pour la prédiction de structure ou pour la recherche de certains signaux ou motifs

complexes, l’alignement de séquences n’est pas toujours la solution. Néanmoins, la

comparaison de séquences par calcul de similarité est utile dans plusieurs cas, par exemple,

pour une analyse en vue de la classification d’une séquence inconnue, en la comparant aux

séquences connues présentes dans une base de données.

Lorsque l’on effectue un alignement de séquences, différentes considérations entrent en jeu :

1. On peut vouloir faire un alignement local ou global.

2. Il faut aussi choisir un système de pointage qui permettra de quantifier nos alignements.

3. Un algorithme fera, par la suite, la recherche de l’alignement optimal.

1. Global ou Local ?

Les premières méthodes d’alignement développées cherchaient à reconnaître la similarité

globale entre deux séquences (Baxevanis et Ouellette, 2001) (fig. 3.7a). Les alignements

globaux, dans le cas des protéines, sont utiles lorsque la protéine est composée d’un seul

domaine ou pour la construction d’arbres d’évolution (Brown, 2000). Cependant, les

protéines sont rarement composées d’une seule région conservée. Elles sont composées le

plus souvent de plusieurs domaines, de façon modulaire (Doolittle et Bork 1993). Il faut donc

permettre, entre les domaines, la présence de zones intermédiaires pouvant être composées

39

d’acides aminés sans aucune similarité entre eux. Un alignement local des séquences répond

alors à cette exigence (fig. 3.7b).

a

b

global

local

séquence 1

séquence 2

séquence 1

séquence 2

Figure 3. 7 Alignement local et global.

2. Un système de pointage

Lorsqu’on aligne deux séquences, il peut exister plusieurs façons de faire (fig. 3.8). Il faut

donc utiliser un système de pointage pour évaluer l’alignement optimal. Un exemple de

système de pointage très simple est de donner un score de +2 pour une lettre commune dans

une colonne et de -1 pour une substitution ou un espace. Le score total d’un alignement sera

alors donné par la somme des scores accordés à chaque colonne de l’alignement. Le fait de

considérer des espaces (insertion ou délétion d’un caractère) à l’intérieur de la séquence a une

signification biologique. Lorsque l’on compare deux séquences, on cherche des indices à

l’effet qu’elles ont un ancêtre commun, donc une similarité possible. Lorsqu’une séquence

protéique, par exemple, se modifie au cours de l’évolution, on verra des substitutions, des

insertions et des délétions apparaître (Durbin et al., 1998).

40

1) a c - g - l l i l y - - p

a c g l i y p

a c c g g l - i - y o o p

+2+2-1+2-1+2-1+2-1+2-1-1+2

score : 8

2) a c g l - l i l y p - -

a c l i y

a c c g g l i - y o o p

+2+2-1-1-1+2+2-1+2-1-1-1

score : 3

3) a c - g l l i l y - p

a c g l i p

a c c g g l i y o o p

+2+2-1+2-1+2+2-1-1-1+2

score : 7

Figure 3. 8 Trois alignements possibles entre deux séquences, avec des scores différents.

Lorsque l’on compare des protéines, il est possible d’augmenter la justesse des alignements

en pondérant de manières différentes les substitutions entre les acides aminés. En effet,

certaines substitutions sont beaucoup plus fréquemment observées que d’autres, et ce fait a

été utilisé pour la construction de matrices de substitution. La figure 3.9 montre un exemple

d’une telle matrice, la matrice BLOSUM62. Chaque entrée de cette matrice contient le score

associé à la substitution de l’acide aminé de la ligne correspondante, par l’acide aminé de la

colonne correspondante.

Par exemple, le score de la substitution de v par g est de -3, alors que celui de la substitution

de v par i est de +1. Cette manière de différencier les substitutions reflète, entre autres, la

similarité qui existe entre les acides aminés v et i. Notons aussi que les valeurs de la

diagonale ne sont pas tout égales : la conservation, par exemple, de l’acide aminé w est

41

récompensée par un score de +11, alors que la conservation de l’acide aminé i ne donne un

gain que de +4.

Comme on peut s’y attendre, la construction de ce type de matrice repose sur l’analyse d’un

grand nombre de séquences. Plusieurs matrices différentes ont été proposées dans les

dernières décennies, la première étant due à Dayhoff et al.. (1978). La matrice de la figure 3.9

fait partie d’une famille de matrices, les matrices BLOSUM, proposé par Henikoff et

Henikoff (1992). Ces matrices ont été calculées à partir de statistiques portant sur 2000

alignements de segments de séquences contenus dans la base de données BLOCKS (Henikoff

et al., 2002)

cstpagndeqhrkmilvfyw

cstpagndeqhrkmilvfyw

9-1 4-1 1 5-3 -1 -1 7 0 1 0 -1 4-3 0 -2 -2 0 6-3 1 0 -2 -2 0 6-3 0 -1 -1 -2 -1 1 6-4 0 -1 -1 -1 -2 0 2 5-3 0 -1 -1 -1 -2 0 0 2 5-3 -1 -2 -2 -2 -2 1 -1 0 0 8-3 -1 -1 -2 -1 -2 0 -2 0 1 0 5-3 0 -1 -1 -1 -2 0 -1 1 1 -1 2 5-1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5-1 -2 -1 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 4-1 -2 -1 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4-1 -2 0 -2 0 -3 -3 -3 -2 -2 -3 -3 -2 1 3 1 4-2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6-2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7-2 -3 -2 -4 -3 -2 -4 -4 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11

c s t p a g n d e q h r k m i l v f y w

c s t p a g n d e q h r k m i l v f y w Figure 3. 9 Matrice BLOSUM62

La figure 3.10 donne un exemple d’un alignement BLOCK. Les segments de séquences

choisis pour construire de tels alignements sont, en général, des segments très conservés au

cours de l’évolution, et ayant un fort pourcentage de similarité. La présence fréquente dans

une même colonne, de deux acides aminés différents est une indication de leur

interchangeabilité.

42

Les matrices BLOSUM30, BLOSUM62 et BLOSUM90 sont les principales utilisées dans la

comparaison de séquences protéiques. La valeur affectée au terme BLOSUM est le

pourcentage d’identité minimum des alignements retenus dans la base de données BLOCK

pour l’estimation des scores de substitution. La matrice BLOSUM62, obtenue à l’aide

d’alignements contenant un minimum de 62% de similarité, est la plus couramment utilisée.

Une matrice BLOSUM90 sera utilisée si l’on veut comparer des séquences fortement

similaires, et une matrice BLOSUM30, pour des séquences faiblement similaires (Wishart,

2003).

D C5METTRFRASE; BLOCK

Q59606 ( 17) KILSLFSGCGGLDLGFH 12Q59797 ( 17) KILSLFSGCGGLYLGFH 28MTBF_BACSU|P17044 ( 102) TFIDLFAGIGGIRLGFE 12MTS2_SHISO|P34879 ( 73) RMIDLFAGIGGTRLGFH 18O08431 ( 73) RMIDLFAGIGGTRLGFH 18P77950 ( 73) RMIDLFAGIGGTRLGFH 18O30868 ( 5) KTIDLFAGIGGIRLGFE 11MTB1_HERAU|P25262 ( 5) RFIDLFAGIGGFRLGLE 11MTE1_HERAU|P25266 ( 5) RFIDLFAGIGGFRLGLE 11MTC2_HERAU|P25264 ( 5) RFIDLFAGIGGFRLGLE 11MTSA_LACLC|P34877 ( 80) KMIDLFAGIGGTRLGFH 18Q59958 ( 2) RFIDLFSGIGGFRLGME 23MTBA_BACAR|P19888 ( 4) KFVDLFAGIGGIRIGFE 14MTC1_HERAU|P25263 ( 3) KFIDLFAGIGGMRLGFE 11MTB1_BREEP|P10283 ( 2) KVLSLFSGCGGMDLGLE 12MTF1_FUSNU|P34906 ( 2) KLLSLFSGAGGLDLGFE 12P94630 ( 6) TIVSTFSGCGGLDLGLQ 27(bloc partiel)

Figure 3. 10 Alignement BLOCK. Dans cet alignement on peut remarquer que dans la première colonne (en rouge) on retrouve fréquemment les acides aminés k et r, et beaucoup plus rarement t. Le score de substitution de k pour r sera plus élevé que celui de k pour t, par exemple.

En plus de l’utilisation des matrices de substitution, le calcul du score d’un alignement

dépend également du nombre et de la taille des espaces. Comme on peut le voir sur la figure

3.11, certains espaces ne couvrent qu’une position, alors que d’autres s’étendent sur plusieurs

positions consécutives. La pénalité associée à un espace est composée, la plupart du temps,

par la somme de deux valeurs :

kvop +=

43

Où o est une constante pour « l’ouverture » d’un espace, v une constante pour « l’extension »

d’un espace et k est le nombre de position consécutive de l’espace. Cette approche permet de

pénaliser moins lourdement les espaces longs, puisqu’ils peuvent résulter d’une seule

mutation, insertion ou délétion, affectant plusieurs acides aminés.

arcciyrrypllvllikmmaccqlllll

a-cciyrryplli---------qlllll

gap extension de gaps

a cciyrrypll* qlllll

séquence 1

séquence 2

Figure 3. 11 Alignement avec espace.Dans cet alignement, les espaces sont indiquées par des traits "-". On remarque deux espaces, l'un de longueur 1, et le second de longueur 9. Les substitutions sont notées par des étoiles "*", et les acides aminés conservés sont marqués en gris ombré. 3. Algorithmes d’alignement.

Trouver un alignement de score optimal n'est pas une tâche simple. En effet, le nombre

d'alignements différents entre deux séquences est exponentiel en fonction de la taille des

séquences, donc il est exclu de faire une recherche exhaustive parmi tous les alignements

possibles, compte tenu que les tailles des séquences biologiques sont de l'ordre de plusieurs

centaines de caractères. Notons aussi qu'il peut exister plusieurs alignements de score optimal

pour deux séquences données.

En 1970, Needleman et Wunsch ont proposé un premier algorithme efficace pour

l'alignement global de deux séquences. Cet algorithme est basé sur la notion de

programmation dynamique qui permet de calculer tous les alignements de score optimal entre

deux séquences, ainsi que la valeur du score optimal. La programmation dynamique permet

d'obtenir les alignements optimaux de deux séquences à partir des alignements optimaux des

préfixes de ces séquences. Si les deux séquences sont de taille m et n respectivement,

l'algorithme de Needleman-Wunsch a une complexité de ( )mnO . En 1981, Smith et

Waterman ont proposé une variante de l'algorithme de Needleman-Wunsch qui permet

44

l'alignement local de séquences. Cet algorithme est également de complexité quadratique en

fonction de la longueur des séquences. Le lecteur intéressé peut trouver une présentation

détaillée de ces deux algorithmes dans Gusfiled (1997), ou dans Setubal et Meidanis (1997).

La figure 3.12 illustre le calcul d'un alignement de score optimal entre les séquences

TCGCA et TCCA, lorsque la pénalité associée à une substitution est de -1, celle associée à

un espace est de -2, et le score associé à un nucléotide conservé est de +1.

T

T C G C A

C

C

A

1

1

2

3

4

2 3 4 5

0

0

0 -2 -4 -8 -10

-2

-4

-6

-8

-6

s[i]

t[i]

1 -1 -3 -5 -7

-1 2 0 -2 -4

-3 0 1 1 -1

-5 -2 -1 0 2 Figure 3. 12 Calcul d'un alignement optimal entre les séquences TCGCA et TCCA.

Dans la figure 3.12, le calcul est effectué au moyen d'une matrice dont l'entrée ( )jia ,

contient le score optimal de l'alignement du préfixe de longueur i de la séquence TCCA, et

du préfixe de longueur j de la séquence TCGCA. L’entrée ( )jia , est calculée grâce à la

formule:

[ ][ ][ ][ ]!

"

!#

$

−−

+−−

−−

=

2,1),(1,1

21,max,

jiajipjia

jiajia ),( jip = 1, si [ ] [ ]jtis = et -1, sinon.

On relie ensuite l'entrée ( )jia , avec un pointeur vers l'entrée (ou les entrées) qui a produit la

valeur maximale dans la formule précédente.

45

Le score d'un alignement optimal est obtenu dans l'entrée en bas à droite de la matrice, et un

alignement optimal particulier peut être obtenu en « remontant » les pointeurs: un pointeur

diagonal signifiant une identité ou une substitution, et un pointeur horizontal ou vertical,

l'insertion d'un espace.

Dans l'exemple illustré à la figure 3.12, l'alignement obtenu est: T C G C A

T C – C A

dont le score est de 2.

Étant donné l'importance du problème d'alignement dans les applications biologiques, de

nombreuses améliorations ont été apportées a ces algorithmes pour tenter d'en réduire la

complexité temporelle et spatiale. Tout un domaine de recherche s'est développé autour de ce

problème, et même des livres entiers y sont consacrés; voir par exemple Navarro et Raffinot

(2002).

L'algorithme approximatif le plus couramment utilisé est sans contredit BLAST (Basic Local

Alignment Search Tool) (Atlschul et al., 1997). Cet algorithme permet d'obtenir

simultanément tous les alignements significatifs d'une séquence comparée à un ensemble de

séquences.

3.2.2 Classification de protéines à ancre GPI et BLAST

Pour identifier des protéines à ancre GPI, une première approche est d'identifier des

protéines ayant une forte similarité avec une protéine connue ayant une ancre GPI.

Typiquement, on propose à BLAST une séquence requête, ainsi qu'une base de donnée dans

laquelle rechercher des séquences similaires.

46

Par exemple, la séquence requête 5NTD_HUMAN de 574 acides aminés suivante :

>sw|P21589|5NTD_HUMAN 5’-nucleotidase precursor (EC 3.1.3.5) (Ecto-5’-nucleotidase) (5’-NT) (CD73 antigen).MCPRAARAPATLLLALGAVLWPAAGAWELTILHTNDVHSRLEQTSEDSSKCVNASRCMGGVARLFTKVQQIRRAEPNVLLLDAGDQYQGTIWFTVYKGAEVAHFMNALRYDAMALGNHEFDNGVEGLIEPLLKEAKFPILSANIKAKGPLASQISGLYLPYKVLPVGDEVVGIVGYTSKETPFLSNPGTNLVFEDEITALQPEVDKLKTLNVNKIIALGHSGFEMDKLIAQKVRGVDVVVGGHSNTFLYTGNPPSKEVPAGKYPFIVTSDDGRKVPVVQAYAFGKYLGYLKIEFDERGNVISSHGNPILLNSSIPEDPSIKADINKWRIKLDNYSTQELGKTIVYLDGSSQSCRFRECNMGNLICDAMINNNLRHTDEMFWNHVSMCILNGGGIRSPIDERNNGTITWENLAAVLPFGGTFDLVQLKGSTLKKAFEHSVHRYGQSTGEFLQVGGIHVVYDLSRKPGDRVVKLDVLCTKCRVPSYDPLKMDEVYKVILPNFLANGGDGFQMIKDELLRHDSGDQDINVVSTYISKMKVIYPAVEGRIKFSTGSHCHGSFSLIFLSLWAVIFVLYQ

a été soumise au programme BLAST du NCBI, et la base de donnée identifiée est l'ensemble

de toutes les séquences protéiques disponibles au NCBI. Notons ici qu'en date du

12 septembre 2004, le nombre de séquences disponibles atteignait l'impressionnant total de

1 144 638 séquences de protéines.

En sortie, BLAST propose un ensemble de séquences ayant une similarité statistiquement

significative avec la séquence requête. Lorsque BLAST propose un alignement avec un score

de similarité S, il donne aussi le nombre d'alignements que l'on pourrait obtenir par hasard

avec un score d'au moins S. Ce nombre est appelé e-value . Plus la e-value est petite, plus

l'alignement est significatif, une e-value supérieure à 1 signifie qu'au moins un alignement de

score S ou plus aurait pu être trouvé par hasard dans la base de donnée.

La figure 3.13 donne les 15 premières séquences trouvées par BLAST avec la séquence

requête 5NTD_HUMAN. Par exemple, la seconde séquence trouvée (NP_776554, en vert)

obtient un score de 1018 et une e-value de 0.0, c'est à dire la meilleure e-value possible.

L'alignement proposé de notre requête avec la séquence NP_776554 est un alignement local

qui s'étend de la position 28 à la position 574 de notre requête. Dans cas de NP_776554, il

s'agit bien d'une protéine à ancre GPI. Il s’agit de la protéine 5NTD_BOVIN.

47

Par contre, la neuvième séquence trouvée (NP104218.1, en rouge) obtient un score de 343 et

une e-value de 3e-93. Cette valeur correspond à 9310/3 et n'est pas loin de zero, ce qui

constitue une excellente e-value. BLAST propose un alignement de la position 29 à la

position 546 entre la séquence requête et NP104218.1. Malheureusement, cette séquence n'est

pas une protéine à ancre GPI car elle provient de la bactérie Mesorhizobium loti, un

procaryote, et les ancres GPI ne se retrouve que chez les eucaryotes et quelques

archéobactéries. Il est intéressant de noter que d’autres séquences ayant une ancre GPI, telles

que la protéine prion, n’apparaissent pas dans les séquences similaires. On voit donc que les

alignements, même s'ils permettent d'identifier certaines protéines ancre GPI, ne peuvent

servir à l'identification à grande échelle de protéines à ancre GPI.

e-valuecandidatssélectionnésdans la base de données

détail del'alignement

de la séquence requête avec un candidat

gi|4505467|ref|NP_002517.1| 5’ nucleotidase, ecto; Purine 5... 1110 0.0 gi|27806507|ref|NP_776554.1| 5’-nucleotidase, ecto (CD73) [... 1018 0.0 gi|11024643|ref|NP_067587.1| 5 nucleotidase; 5 nucleotidase... 1003 0.0 gi|6754900|ref|NP_035981.1| 5’ nucleotidase, ecto; ecto-5’-... 996 0.0 gi|41055552|ref|NP_957226.1| 5’ nucleotidase ecto; zgc:6378... 744 0.0 gi|24654424|ref|NP_725681.1| CG30104-PB [Drosophila melanog... 397 e-109 gi|19922444|ref|NP_611217.1| CG4827-PA [Drosophila melanoga... 386 e-106 gi|28573524|ref|NP_725682.2| CG30103-PA [Drosophila melanog... 366 e-100 gi|13472651|ref|NP_104218.1| 5’-nucleotidase (EC 3.1.3.5) [... 343 3e-93 gi|15966555|ref|NP_386908.1| PROBABLE 5’-NUCLEOTIDASE PRECU... 334 2e-90 gi|46199266|ref|YP_004933.1| 5’-nucleotidase [Thermus therm... 328 7e-89 gi|17937475|ref|NP_534264.1| 5’-nucleotidase [Agrobacterium... 326 5e-88

>gi|27806507|ref|NP_776554.1| 5’-nucleotidase, ecto (CD73) [Bos taurus] Length = 574

Score = 1018 bits (2631), Expect = 0.0Identities = 493/547 (90%), Positives = 527/547 (96%)

Query: 28 ELTILHTNDVHSRLEQTSEDSSKCVNASRCMGGVARLFTKVQQIRRAEPNVLLLDAGDQY 87 ELTILHTNDVHSRLEQTSEDSSKCVNASRC+GGVARL TKV QIRRAEP+VLLLDAGDQYSbjct: 28 ELTILHTNDVHSRLEQTSEDSSKCVNASRCVGGVARLATKVHQIRRAEPHVLLLDAGDQY 87...Query: 568 VIFVLYQ 574 VI +LYQSbjct: 568 VIIILYQ 574

>gi|13472651|ref|NP_104218.1| 5’-nucleotidase (EC 3.1.3.5) [Mesorhizobium loti MAFF303099] Length = 706

Score = 343 bits (880), Expect = 3e-93Identities = 202/526 (38%), Positives = 300/526 (57%), Gaps = 29/526 (5%)

Query: 29 LTILHTNDVHSRLEQTSEDSSKCV----NASRCMGGVARLFTKVQQIRRA--EPNVLLLD 82 L ILH ND HSR+E ++ S C C+GG RL T + Q R+ NVLLL+Sbjct: 28 LNILHFNDWHSRIEGNNKYESTCSADEETKGECIGGAGRLITAIAQERKKLEGQNVLLLN 87...Query: 502 ANGGDGFQMIKDELLR-HDSGDQDINVVSTYISKMKVIYPAVEGRI 546 GGDG+++ + +D G VV+ Y+ + P ++GRISbjct: 487 RQGGDGYKVFAERAKNAYDYGPGLEQVVADYLGAHRPYTPKLDGRI 532

Figure 3. 13 Sortie du programme BLAST effectuée avec l’algorithme blastp.

48

3.2.3 Classification de protéines à ancre GPI et alignements multiples

Théoriquement, il est possible de définir la notion d'alignement simultané de plusieurs

séquences, appelés alignements multiples, et de leur associer un score. Un alignement

multiple permet de mettre en évidence des régions ayant une importance fonctionnelle

(Baxevanis et Ouellette 2001), ainsi que de construire des arbres phylogénétiques.

Le problème de trouver un alignement multiple de score optimal n'est toutefois pas, encore,

résolu de manière efficace. Par exemple, l'alignement de huit séquences de longueur

moyenne, c'est à dire quelques centaines de caractères dans les applications biologiques, est

un problème pratiquement irréalisable avec les algorithmes disponibles (Thompson, Higgins

et Gibson, 1994). On se tourne donc systématiquement vers des heuristiques, qui ne

garantiront pas de trouver un alignement optimal. CLUSTALW (Higgins et Sharp, 1988 ;

Thompson, Higgins et Gibson, 1994) est l'un des algorithmes les plus utilisé. Il est basé sur

les constructions suivantes:

1. On aligne d'abord, de manière optimale, toutes les paires possibles de séquences à l'aide d'un algorithme conventionnel d'alignement. Les scores obtenus permettent de construire une matrice de distance entre les paires de séquences.

2. À partir de la matrice de distances, on construit un arbre qui permettra de « guider » l'alignement multiple. Cet arbre est calculé par des méthodes de type « neigbour-joining » (Saitou et Nei, 1987), qui regroupent progressivement les séquences qui sont les plus rapprochées.

3. Les séquences sont ensuite alignées progressivement selon l'ordre d'embranchement de l'arbre guide.

La figure 3.14 montre le processus d'alignement de 8 séquences de protéines à ancre GPI. Le

résultat de cet alignement (fig. 3.14 b) montre, une fois de plus, qu'il est bien difficile de

construire et structurer une classe pour les protéines à ancre GPI à partir de leur similarité.

Le groupe de six séquences de type 5NTD est bien structuré, comme le montre l'arbre

phylogénétique associé à l'alignement (fig. 3.14c). D'autre part, autant dans l'alignement

49

multiple que dans l'arbre, les deux séquences PRIO BOVIN et PPBT RAT se détachent du

groupe formé par les séquences 5NTD.

>5NTD_BOOMI VMKYMNSTSPITTALDGRVTFLKTNQASDACLNLASPFLVLLVLVVFYHL>5NTD_BOVIN INVVSGYISKMKVLYPAVEGRIQFSAGSHCCGSFSLIFLSVLAVIIILYQ>5NTD_DISOM VSSYIKQMKVVYPAVEGRILFVENSATLPIINLKIGLSLFAFLTWFLHCS>5NTD_HUMAN INVVSTYISKMKVIYPAVEGRIKFSTGSHCHGSFSLIFLSLWAVIFVLYQ>5NTD_MOUSE ISVVSEYISKMKVVYPAVEGRIKFSAASHYQGSFPLVILSFWAMILILYQ>5NTD_RAT ISVVSEYISKMKVIYPAVEGRIKFSAASHYQGSFPLIILSFWAVILVLYQ>Prio_BOVIN KMMERVVEQMCITQYQRESQAYYQRGASVILFSSPPVILLISFLIFLIVG>PPBT_RAT HEQNYIPHVMAYASCIGANLDHCAWASSASSPSPGALLLPLALFPLRTLF

CLUSTAL W (1.83) multiple sequence alignmentscore 1521

5NTD_BOVIN INVVSGYISKMKVLYPAVEG---RIQFSAGSHCCG-SFSLIF-LSVLAVIIILYQ--5NTD_HUMAN INVVSTYISKMKVIYPAVEG---RIKFSTGSHCHG-SFSLIF-LSLWAVIFVLYQ--5NTD_MOUSE ISVVSEYISKMKVVYPAVEG---RIKFSAASHYQG-SFPLVI-LSFWAMILILYQ--5NTD_RAT ISVVSEYISKMKVIYPAVEG---RIKFSAASHYQG-SFPLII-LSFWAVILVLYQ--5NTD_DISOM ---VSSYIKQMKVVYPAVEG---RILFVENSATLP-IINLKIGLSLFAFLTWFLHCS5NTD_BOOMI ---VMKYMNSTSPITTALDG---RVTFLKTNQASDACLNLASPFLVLLVLVVFYHL-PRIO_BOVIN -KMMERVVEQMCITQYQRES---QAYYQRGASVIL--FSSPPVILLISFLIFLIVG-PPBT_RAT --HEQNYIPHVMAYASCIGANLDHCAWASSASSPS-PGALLLPLALFPLRTLF----

PRIO BOVIN

PPBT RAT

5NTD BOOMI

5NTD DISOM

5NTD BOVIN

5NTD HUMAN

5NTD MOUSE

5NTD RAT

séquences de protéines à ancrage GPIa

alignement multiple b

arbre phylogénétiquec

Figure 3. 14 Alignement multiple. Alignement de 8 séquences de protéines à ancre GPI à l’aide du logiciel CLUSTALW.

50

L’alignement multiple permet, entre autres, la découverte de motifs communs à un groupe de

séquences ayant la même fonction. Mais, la valeur biologique de l’alignement proposé n’est

pas toujours justifiée. Il faut toujours examiner un alignement et faire des ajustements selon

la biologie sous-jacente. On ne peut pas assumer directement la présence d’un motif dans une

séquence et inférer une fonction. Car si notre alignement est incorrect, notre inférence l’est

aussi. Un alignement de séquences est sensible à l’ordre de traitement des séquences et à des

différences de longueur. Il faut donc le considérer davantage comme une information de

départ qui doit être raffinée manuellement (Thomson, 2003). De plus, dans le cas où les

séquences à aligner ont une similarité locale présente mais faible et une faible homologie

(comme les protéines à ancre GPI), l’alignement de séquences multiple ne pourra aider à

classifier les protéines appartenant à ce groupe.

CHAPITRE IV

CLASSIFICATION PAR APPRENTISSAGE MACHINE Ce chapitre introduit deux techniques d’apprentissage machine pertinents pour une recherche de motifs fonctionnels de protéines : le réseau de neurones artificiels et le modèle de Markov caché.

4.1 Introduction

Lorsque deux séquences de protéines ont une grande similarité au niveau de leur structure

primaire (un pourcentage élevé de correspondance dans la composition des lettres), il y a une

forte probabilité que ces deux protéines aient la même fonction. Un simple alignement de ces

séquences sert alors à les classifier. Toutefois deux protéines peuvent être très différentes au

niveau de la structure primaire, tout en ayant une structure tertiaire similaire (Baldi et

Brunak, 2001, Gan et al., 2001). Dans ce cas un alignement des séquences ne peut aider à les

classer. L’alignement de séquences comporte donc des lacunes pour certaines classifications.

Pour ces cas, une alternative existe : la classification de séquences biologiques par

apprentissage machine. Les outils d’apprentissage machine sont intéressants car ils peuvent

cibler des motifs cachés ou bruités qui échappent aux algorithmes d’alignement par

similarité.

52

4.2 Apprentissage neuronal

Un réseau de neurones artificiels est un formalisme de représentation de la connaissance.

Cette connaissance réfère, en général, à de l’information emmagasinée ou à des modèles

utilisés dans le but d’effectuer des tâches d’interprétation et de prédiction pour répondre au

monde extérieur de façon appropriée (Haykin, 1999).

Les réseaux de neurones artificiels sont inspirés des réseaux de neurones biologiques. Au

cours de l’évolution, la nature a sûrement optimisé ses modèles de traitement de

l’information. Il est donc logique de mimer les structures biologiques du raisonnement pour

obtenir des machines « intelligentes » (Morris, 1988). Les réseaux de neurones biologiques

sont fondamentalement des structures parallèles, distribuées. L’information y est

emmagasinée, traitée et communiquée de façon globale, c’est-à-dire qu’elle ne se retrouve

pas dans des sites spécifiques mais bien à la grandeur du réseau. La connaissance est

majoritairement emmagasinée dans les connexions entre les neurones, plutôt que dans les

neurones eux-mêmes (Leon, Gâlea et Zbancioc, 2002). Le concept de connaissance distribuée

y est facilement incorporé. Un réseau de neurones artificiels est ainsi caractérisé par des

interconnexions entre des unités de traitement simples (neurones) agissant en parallèle.

Chaque connexion a un poids qui lui est affecté et qui indique l’influence réciproque entre les

deux neurones. La modification de ces poids permet l’adaptation et l’apprentissage (Renders,

1995).

Pour bien illustrer ce concept, voyons comment implanter la reconnaissance du mot « DOG »

de façon distribuée (Magoulas, 2001). Dans l’IA classique, l’information indiquant comment

prononcer le mot « DOG » est emmagasinée dans un endroit précis, différent de celui où est

emmagasiné le mot « CAT ». Un lexique indiquera la position du mot ainsi que les règles à

suivre pour le prononcer et prononcer de nouveaux mots. Dans une représentation distribuée

du même problème, on aura plutôt une architecture de réseaux de neurones composée de

plusieurs couches d’unités de neurones : une couche de neurones d’entrée qui pourraient être

représentées par les lettres composant le mot « DOG », une couche cachée pour le traitement

53

intermédiaire et une couche de sortie (fig. 4.1). Ces couches sont interconnectées par des

liens auxquels sont rattachés des poids.

D

O

G

DOG

CAT+

-

Figure 4. 1 Représentation distribuée. Représentation du mot «DOG» dans un réseau de neurones artificiels. La couleur indique l’importance des connexions et l’activation des neurones dans le processus de traitement de l’information.

Dans un réseau de neurones artificiels, les lettres du mot « DOG » présentés à l’entrée

exciteront les neurones et les connexions du réseau entier (fig. 4.1). L’apprentissage se fera

en modifiant les poids rattachés à ces connexions. La connaissance du mot « DOG » sera

ainsi distribuée dans plusieurs connexions et neurones du réseau. La somme de tous ces

évènements, et non seulement un évènement ou une cascade d’évènements précis et

dépendants, est la source de la reconnaissance du mot « DOG » (Magoulas, 2001). La perte

d’une connexion n’est aucunement fatale, ce qui implique une plasticité, une capacité de

généralisation, et une tolérance au bruit remarquables.

L’idée de construire un « cerveau artificiel », c’est-à-dire une machine permettant d’imiter le

fonctionnement du cerveau humain, a connu de nombreuses incarnations, ainsi que quelques

déboires, au cours du vingtième siècle. Nous poursuivrons cette section par un bref historique

de la modélisation du cerveau, suivi d’une description de la forme et des interactions des

neurones biologiques, pour enfin donner une description détaillée de quelques algorithmes à

la base de la classification par réseau de neurones artificiels pertinents pour notre recherche.

54

4.2.1 Historique

-1943 : J. McCulloch et W. Pitts (1943) modélisent un neurone biologique en un modèle

mathématique simple. Ils démontrent que le modèle mathématique (neurone formel) peut

effectuer des opérations logiques et arithmétiques. Le modèle de neurone artificiel proposé

par McCulluch et Pitts lança la recherche sur les réseaux de neurones artificiels.

-1949 : D. Hebb (1949) propose une règle d’apprentissage basée sur des études du

comportement animal. Quand le neurone A est suffisamment excité, conjointement avec le

neurone B, le lien qui les unit se voit renforcé. Les réseaux de neurones tel que les réseaux de

Hpofield utilisent cette règle. Ces modèles sont plus proches de la réalité du cerveau.

-1957 : F. Rosenblatt (Rosenblatt 1957 ; 1958) développe le modèle du perceptron, au

laboratoire aéronautique de Cornell, dans une tentative de comprendre les processus cognitifs

humains tels que la mémoire et l’apprentissage. Le perceptron est constitué de 2 couches de

traitement. La couche d’entrée et la couche de sortie. Cette sortie ne peut avoir que des

valeurs binaires 1 ou 0 par exemple. Le perceptron ne peut résoudre que des problèmes

linéairement séparables.

-1960 : F. Rosenblatt construit le Mark I Perceptron, la première machine pouvant

« apprendre » à reconnaître des motifs optiques. Sa tâche consistait à reconnaître différentes

lettres.

-1960 : B. Windrow (Windrow et Hoff 1960) propose le modèle de Adaline (adaptive linear

neuron), un système adaptatif de classification de motifs. Le modèle de l’Adaline est

similaire au perceptron dans son architecture, mais l’apprentissage est plus proche de la

retropropagation de l’erreur (Touzet, 1992).

-1969 : M. Minsky et S. Papert publient Perceptrons, un ouvrage où ils démontrent les

limites théoriques du perceptron. Ils démontrent l’incapacité du perceptron à traiter des

55

problèmes non linéaires tels que la fonction XOR (disjonction exclusive). Ils proposent

l’hypothèse que cette limitation vaut pour les perceptrons multiples. C’est alors qu’a débuté

la période noire des réseaux de neurones artificiels, laquelle se termina en 1982. La recherche

continua, mais à moins grande échelle.

-1982 : J. J. Hopfield, un célèbre physicien, relance l’intérêt pour les réseaux de neurones

artificiels avec sa proposition d’un réseau de neurones entièrement connectés utilisant la règle

d’apprentissage de Hebb.

-1983 : La machine de Boltzmann fait son apparition et dépasse les limites du perceptron.

Son architecture inclut des neurones complètement interconnectés comme le réseau de

Hopfield. Toutefois dans la machine de Boltzmann on retrouve des neurones cachés.

L’apprentissage est inspiré de la règle de Hebb et utilise des règles d’adaptation probabilistes.

-1986 : Rumelhart et d’autres chercheurs (Rumelhart et McClelland, 1986 ; Rumelhart,

Hinton et Williams, 1986 ; LeCun 1985 ; Parker 1985) proposèrent le perceptron multicouche

et son algorithme de rétropropagation de l’erreur. Le perceptron multicouche introduit

l’utilisation de couches cachées. Avec la rétropropagation et la présence d’une fonction

d’activation sigmoïde pouvant, contrairement à la fonction de seuil, prendre des valeurs dans

un intervalle [0,1], on peut maintenant réaliser une fonction non linéaire.

4.2.2 Le modèle biologique

Le cerveau est l’inspiration biologique des réseaux de neurones artificiels. Les travaux d’un

histologiste espagnol, Santiago Ramón y Cajal (1911), sont à la source de la recherche

portant sur les neurones. Nous savons maintenant que le cerveau a une architecture

complexe : il est composé de plusieurs milliards de neurones et de trillions de connexions

entre eux (Haykin, 1999; Shepherd et Koch, 1990). Ces neurones communiquent entre eux

par des signaux électriques.

56

Le neurone biologique est composé (fig. 4.2) :

1. D’un corps cellulaire (soma) : Le soma contient le noyau de la cellule neuronale. Il est le centre où s’effectue la synthèse des constituants nécessaires à la structure et aux fonctions du neurone.

2. De dendrites : Les dendrites sont des prolongements du corps cellulaire qui acheminent l’information à l’intérieur du soma.

3. D’un axone : Une fois l’information traitée dans le corps cellulaire, elle

est entraînée le long de l’axone.

4. Des ramifications terminales de l’axone : Ces ramifications sont responsables de la transmission des signaux vers les autres neurones.

Les neurones sont connectés entre eux via des synapses qui sont les zones de contacts entre

les neurones, qui transmettent l’influx nerveux.

Il existe deux types de synapses : les synapses électriques et les synapses chimiques. Pour les

synapses chimiques, l’activité est transmise par une substance chimique : le

neurotransmetteur. Les synapses électriques, elles, transmettent directement le signal

électrique d’un neurone à l’autre. Un neurone présynaptique est un neurone conduisant

l’information vers une synapse, tandis qu’un neurone qui conduit le signal à partir d’une

synapse est un neurone postsynaptique (Vander et al., 1989). Ces synapses sont soit

excitatrices, soit inhibitrices. Une cellule neuronale a une différence de potentiel entre sa

membrane interne et sa membrane externe. Au repos, cette différence est de -60mV

(milivolt), environ. Si la différence de potentiel de la membrane s’approche d’un certain

seuil, la synapse est excitatrice. Si la différence de potentiel s’éloigne du seuil, elle est

inhibitrice. L’information passe par l’axone et un potentiel d’action (une brève inversion de

la polarité du potentiel de la membrane) sera créé. Ce potentiel d’action passe par une

synapse pour influencer l’activité d’un autre neurone qui à son tour produit un potentiel

d’action en sommant tous les signaux reçus des autres neurones. (Vander et al., 1999). Cette

notion de sommation est importante, car le modèle artificiel se basera sur cette sommation

pour effectuer le traitement à l’intérieur du neurone artificiel.

57

soma

axonedendrites

synapse

ramifications

neurone postsynaptique

neurone présynaptique

neurone présynaptique

Neurone

Figure 4. 2 Neurone biologique. Connexions entre deux neurones présynaptiques (vert) et un neurone postsynaptique (rouge).

4.2.3 Le modèle mathématique

Le modèle du neurone mathématique, ou neurone formel, proposé par McCulloch et Pitts

(1943), se veut un modèle simplifié du neurone biologique. La figure 4.3 montre un neurone

formel. Comme pour le neurone biologique, on retrouve l’équivalent des dendrites, d’un

axone et d’un corps cellulaire où le traitement de l’information s’effectue.

58

...

...

......

w1j

wij

wnj

1

ai

n

j

neurone j

θ j

y

a

a

a

Figure 4. 3 Neurone formel.

Le symbole ja représente la valeur d’activation, ou de sortie, du neurone .j La connexion du

neurone i au neurone j a un poids désigné par ijw S’il n’y a pas de connexion entre deux

neurones, on pose 0=ijw . Le seuil est noté jθ . Le calcul de ja dépend de l’entrée nette,

jnet , vers le neurone :j

....2211 njnjjj wawawanet +++=

Les deux façons les plus classiques (fig. 4.4) de calculer ja sont l’utilisation d’une fonction de

seuil :

( ) ,

si 1

si0

!"

!#$

<=

jj

jjj net

netnetSeuil

θ

θ

ou une fonction sigmoïde :

( )jnetj e

netSig+

=1

1 ,

La sortie sera donc ( )jj netSeuila = ou ( )jj netSiga = .

59

1

0

1

0

a bseuil sigmoïde

Figure 4. 4 Fonctions d’activation. a : Fonction se seuil. b : Fonction sigmoïde.

Un neurone avec une fonction d’activation de seuil n’est pas très flexible, car sa sortie est

binaire. D’autre part, la fonction sigmoïde peut prendre toutes les valeurs réelles dans

l’intervalle [0,1]. Elle offre donc beaucoup de souplesse.

Le traitement de l’information semble simple lorsque décrit dans un seul neurone. Toutefois,

comme nous le verrons dans les prochaines sections, il n’est pas évident de décrire la

propagation des calculs lorsque les neurones sont en réseaux c’est-à-dire quand plusieurs

neurones sont connectés entre-eux.

4.2.4 Structure des connexions

Il existe deux types de structures de connexions. Dans les structures récurrentes (fig 4.5), on

admet des cycles dans l’architecture du réseau, alors que dans les structures non-récurrentes

(fig 4.5b), de tels cycles sont interdits. Nous allons nous intéresser à ces derniers, qui sont

pertinents pour notre recherche, et qui sont les plus couramment utilisés en biologie

moléculaire (Wu et McLarty, 2000; Baldi et Brunak, 2001).

60

a récurrent b non récurrent

Figure 4. 5 Structure de connexions de réseaux de neurones artificiels.

Les neurones non-récurrents s’organisent naturellement en couches successives. On distingue

trois types :

1. La couche d’entrée, formée par les neurones qui n’ont pas de connexions entrantes. Un neurone j sera un neurone d’entrée si 0=ijw pour chaque

valeur de .i Dans ce cas ja est donné.

2. La couche de sortie, formée par les neurones qui n’ont pas de connexions sortantes. Un neurone j sera un neurone de sortie si 0=jiw pour chaque

valeur de .i Dans ce cas ja est calculé, et constitue la « réponse » du réseau.

3. Les couches intermédiaires ou cachées, formés de neurones qui ont des

connexions entrantes et sortantes.

Lorsque les valeurs des neurones d’entrée sont connues, ainsi que les poids de toutes les

connexions, il est possible de calculer successivement toutes les valeurs ja des neurones du

réseau en utilisant les équations de la section précédente.

Une étape cruciale dans la construction d’un réseau de neurones sera la détermination des

poids des connexions, c’est l’étape d’apprentissage qui fait l’objet de la section suivante.

61

4.2.5 L’apprentissage

Avant de pouvoir servir de classificateur, un réseau de neurones doit être entraîné.

L’apprentissage, dans un réseau de neurones artificiels, est la modification des poids des

connexions. On peut diviser les réseaux de neurones selon le type d’apprentissage : les

réseaux à apprentissage supervisé et à apprentissage non supervisé. Nous nous intéresserons

principalement à l’apprentissage supervisé car il est le type d’apprentissage pertinent pour

notre recherche. Dans un tel type d’apprentissage, on présente au réseau un ensemble

d’exemples :

( ) ( ) ( ). , ,..., , , , 2211 kk DEDEDE

Où chaque iE est un ensemble de valeurs données aux neurones d’entrée, et chaque

iD correspondant représente les valeurs désirées pour les neurones de sortie. Dans un

problème de classification en deux classes (GPI ou non-GPI) comme celui qui nous intéresse,

les sorties désirées seront des valeurs binaires.

Lorsqu’un exemple iE est présenté au réseau, ce dernier calcule une « réponse » .iS L’erreur

faite par le réseau sur cet exemple est donnée par:

( )2ii SD − .

Cette quantité doit idéalement être nulle dans le cas d’un réseau parfait. En pratique, on se

contentera de ramener l’erreur sous un seuil acceptable. Le processus de minimisation de

l’erreur peut se faire un exemple à la fois, on parle alors d’apprentissage en ligne, ou encore

en soumettant tous les exemples au réseau et en calculant l’erreur globale :

( ) .1

2!=

−=k

iii SDE

62

On parle alors d’apprentissage en lots. L’apprentissage en ligne a plusieurs avantages dont la

possibilité de traiter de grandes quantités de données, d’effectuer un apprentissage plus

rapide, lorsque les données sont redondantes, et de permettre l’entrée de nouvelles données

lors de l’apprentissage (Orr et Cummins, 1999). L’apprentissage en lots est moins rapide

mais, on obtient une meilleure représentation de l’erreur globale E.

La principale technique de minimisation de l’erreur est appelée descente de gradient. Il s’agit

d’augmenter ou de diminuer chaque poids ijw d’une quantité proportionnelle à la dérivé (taux

de changement) de l’erreur par rapport à .ijw Dans les sections suivantes, nous allons

présenter plus en détails certains algorithmes utilisés dans les réseaux de neurones de types

perceptron et perceptron multicouche.

4.2.5.1 Le modèle du perceptron

Le perceptron est un réseau de neurones artificiels ayant deux couches de neurones : une

couche d’entrée et une couche de sortie (fig. 4.6). La fonction d’activation des neurones de la

couche de sortie est la fonction Seuil. Cette fonction, comme spécifié plus haut, est une

fonction ne permettant qu’une sortie binaire (0,1). Si une tâche est résoluble par un

perceptron, l’apprentissage supervisé du perceptron convergera nécessairement vers cette

solution dans un nombre fini d’itérations (Wu et McLarty, 2000).

Ce type de réseau peut être utilisé pour classifier des données en deux classes. En analyse de

séquences biologiques, le perceptron est utilisé pour classifier des sites d’attachement au

ribosome de séquences d’ARN messagers (Stormo et al., 1982). On retrouve aussi des

exemples où le perceptron a été utilisé pour la recherche de site de clivage dans les séquences

protéiques (Schneider, Rohlk et Wrede, 1993).

63

1

2

3

n

w1

w2

w3

wn

Θ

a

a

a

a

a

Figure 4. 6 Architecture du perceptron.

Grâce à son architecture simple les paramètres associés au perceptron peuvent être décrits par

n neurones d’entrée, de valeurs naa ..., ,1 , un neurone de sortie dont la valeur sera noté a ,

une valeur de seuil ,θ et les poids des connexions nwww ..., , , 21 (fig 4.7).

Au cours de l’apprentissage, les quantités ,θ et nwww ..., , , 21 vont être modifiées. On note

la variable qui indique l’étape de calcul par la lettre ,t et les valeurs correspondantes

par ( )tθ et ( ) ( ). , ... , 1 twtw n

L’apprentissage du perceptron selon l’algorithme de Windrow-Hoff (Widrow et Hoff,

1960) se déroule ainsi:

0. 0←t

1. On initialise les paramètres ( )tθ et ( ) ( ) , ... , 1 twtw n au hasard.

2. On présente un exemple au réseau ( )nxxE ... 1= dont la sortie désirée est .d

64

3. On calcule la sortie : ( ) ( )!!"

#$$%

&'==

n

itixtiwa

1 , Seuil θ

4. Si da = on passe à l’étape 5.

Si da < où da > , on modifie les poids avec l’équation ( ) [ ] ii xadtw −=+ η1 .

5. 1+← tt et on recommence à l’étape 2 avec le prochain exemple.

Le paramètre η est un nombre inférieur à 1. Il contrôle la « vitesse d’apprentissage » et est

déterminé de manière heuristique.

4.2.5.2 Le modèle du perceptron multicouche

Le perceptron multicouche est une architecture très utilisée dans le domaine de la

bioinformatique. L’architecture du perceptron se compose d’au moins trois couches de

neurones. Chaque neurone de la première couche est relié à la suivante par une connectivité

totale et ce, jusqu’à la couche de sortie (fig. 4.7). La première couche est celle d’entrée. La

dernière est la couche de sortie, tandis que les couches intermédiaires sont des couches

cachées. Typiquement, tous les neurones d’une couche sont connectés à la couche suivante et

le flot d’information passe de la couche d’entrée vers la couche de sortie. La fonction

d’activation des neurones des couches cachées et des neurones de la couche de sortie est la

fonction sigmoïde. Cette différence par rapport au perceptron, est essentielle à l’entraînement

du perceptron multicouche et permet le traitement de problèmes non linéaires.

65

entréecachée

sortie

Figure 4. 7 Architecture du perceptron multicouche.

Le nombre de neurones dans la couche d’entrée dépend de l’encodage des données. Le

nombre de neurones de la couche de sortie dépend du nombre de classes nécessaire pour la

classification des données. Il n’y a pas de convention pour décider du nombre de neurones

des couches cachées et du nombre de couches cachées. Toutefois, un réseau ayant une seule

couche cachée peut représenter la plupart des transformations entrée-sortie, s’il a un nombre

approprié de neurones et une fonction sigmoïde (Hornik, Stinchcombe et White, 1989). Le

fonctionnement du perceptron multicouche est simple : chaque neurone de la couche d’entrée

génère un signal qui sera envoyé vers les neurones de la (ou des) couche(s) cachée(s). Ces

derniers neurones génèrent un signal qui sera reçu par les neurones de la couche de sortie qui,

eux, engendrent le résultat de la classification. Contrairement au perceptron, il n’est pas

garanti que le perceptron multicouche convergera vers une solution, ce qui peut produire des

entraînements difficiles et longs dans certains cas (Wu et McLarty, 2000).

En analyse de séquences biologiques, le perceptron multicouche est une architecture très

utilisée. Comme on est en présence d’exemples en grande quantité et que la tâche à accomplir

est souvent une classification selon des classes connues, cette popularité n’est pas étonnante.

Plusieurs travaux se basent sur son utilisation. Notons, entre autres, les travaux de Quian et

Sejnowski (1988) qui ont étudié la prédiction de la structure secondaire de protéines à l’aide

d’un algorithme de rétropropagation. D’autres travaux effectués dans le domaine de l’analyse

66

de séquences protéiques sont ceux de Nakata (1995) sur l’utilisation du perceptron

multicouche et de la rétropropagation pour prédire les sites d’attachements à l’ADN de

certaines protéines. Plus récemment, Ahmad, Gromiha et Sarai (2004) ont utilisé le

perceptron multicouche pour prédire des protéines se liant à l’ADN.

L’apprentissage d’un réseau multicouche est nécessairement plus complexe que celui d’un

perceptron. Comme les neurones d’une couche cachée n’ont pas de sortie désirée, l’erreur

correspondante à ces neurones ne peut être calculée directement. Elle est plutôt calculée grâce

aux erreurs de la couche suivante. Comme l’erreur de la couche de sortie est calculable, on

peut calculer successivement l’erreur des couches antérieures, cette technique s’appelle la

rétropropagation de l’erreur (Rumelhart et McClelland, 1986; Rumelhart, Hinton et

Williams, 1986).

Dans le cas des perceptron multicouche, il n’y a pas de garantie de convergence de la

procédure de descente de gradient. L’apprentissage peut donc se retrouver piégé dans un

minimum local (fig. 4.8), ce qui peut produire des entraînements longs et difficiles.

minimum local

vrai minimum

erreur

Figure 4. 8 Minimum local et vrai minimum. En cherchant à minimiser l’erreur par descente de gradient on peut se retrouver dans un minimum local.

67

Nous allons décrire ici l’algorithme RPROP pour « Resilient Backpropagation ». La

particularité du RPROP est que seulement le signe de la dérivée est pris en compte pour

permettre l’ajustement des poids. Cet algorithme permet une convergence plus rapide,

comparativement à la rétropropagation classique. (Riedmiller et Braun, 1992; 1993). Son

fonctionnement peut se définir ainsi : il commence par une petite valeur d’ajustement et,

ensuite, il augmente cette valeur si le gradient présent a la même direction (signe) que le

gradient précédent. Toutefois, si la direction est opposée, il diminue la valeur. Cette mise à

jour est ajoutée au poids, si le gradient est positif, et soustraite du poids, s’il est négatif. Une

autre caractéristique du RPROP est que l’apprentissage est fait en lots.

L’apprentissage du perceptron multicouche selon l’algorithme RPROP (Riedmiller et Braun,

1992; 1993) se déroule ainsi :

1. Les poids ijw sont initialisés de manière aléatoire.

2. L’ensemble des exemples est soumis au système.

3. La valeur de l’erreur est calculée et les paramètres ijw sont modifiés :

( )( ) ( )( ) ( )!"

!#$

Δ+

Δ−=+

sinon.

positive.est àrapport par erreur l' de dérivée la si

1

ttwwttw

twijij

ijijijij

où ijΔ est la valeur d’incrément des poids.

4. Les incréments ijΔ sont recalculés.

( )( )( )!"

!#$

Δ

Δ=Δ +

sinon.

s.précédente itérations 2 des coursau signe de changé pas an' dérivé la si

2

11

tctc

tij

ijij

En pratique on doit avoir 12 10 cc <<< .

68

Finalement lors de l’apprentissage il est important de s’assurer d’une capacité de

généralisation la plus élevée possible. Une technique utilisée pour améliorer la généralisation

est d’ajouter à la fonction d’erreur une pénalité aux poids trop élevés.

La fonction d’erreur :

( )!=

−=k

iii sDE

1

2

devient donc,

( ) α101

2 !! +−==

ijk

iii

wsDE .

Où α représente une constante correspondant au taux de déclin. En ajustant la valeur de α ,

on améliore grandement le pouvoir de généralisation ( Krogh, 1992).

4.2.6 L’encodage des données

Pour tout type d’architecture de réseau de neurones, un élément important pour avoir un

classificateur optimal est l’encodage des données. Comme les séquences biologiques sont

représentées sous forme de chaîne de lettres, elles doivent être encodées en vecteurs pour être

présentées aux réseaux de neurones. Un encodage idéal devrait extraire le maximum

d’informations possibles et respecter la consigne que des séquences similaires ont des

vecteurs similaires (Wu et McLarty, 2000). Nous discuterons ici de deux formalismes

d’encodage couramment utilisés en analyse de séquences biologiques : l’encodage direct et

indirect.

L’encodage indirect offre une vue globale de la séquence. Il offre l’avantage de pouvoir

inclure des séquences de différentes longueurs, mais le prix à payer est celui de la perte de

l’information du positionnement des résidus.

69

La méthode de hachage N-gram est un bon exemple. Ce type d’encodage calcule la

fréquence des facteurs de N résidus dans une séquence (Wu, Whitson et McLarty, 1992).

Par exemple considérons la séquence d’acide aminés : « lllvtpfenlllvtpgdenami ». Si on

décide d’utiliser l’hydrophobicité comme propriété, on peut diviser les 20 acides aminés

selon trois groupes :

1. Hydrophile {d e n q r k} = A ; 2. Hydrophobe { a m i l v f w} = B ; 3. Intermédiaire {c s t p g h y} = C.

La séquence « lllvtpfenlllvtpgdenami » devient BBBBCCBAABBBBCCCAAABBB. Pour

N=2, les N-grams de cette séquence sont les facteurs de longueur 2 présents dans la séquence.

BB BB BB BC CC CB BA AA AB BB BB BB BC CC CC CA AA AA AB BB BB

Le nombre de facteur différents de longueur 2 avec l’alphabet {A, B, C} est 9. On peut donc

calculer la fréquence d’apparition de chacune de ces 9 paires possibles :

AA = 3 AB = 2

AC = 0 BB = 8

BA = 1 BC = 2

CC = 3 CA = 1

CB = 1,

et on obtient un vecteur de taille 9, indépendant de la longueur de la séquence:

(3, 2, 0, 8, 1, 2, 3, 1, 1).

L’encodage direct, par contre, implique la conversion des acides aminés d’une séquence

protéique sous forme d’un vecteur. Cette méthode offre l’avantage de préserver l’information

70

positionnelle présente dans la séquence. Toutefois, elle impose l’usage de fenêtres de

longueur fixe.

Les quatre bases d’acide nucléique {A, C, G, T} peuvent, par exemple, être codées par des

nombres : A = 1, C = 2, G = 3, T = 4. Par exemple, la séquence « ACCGGCTGGT »

correspondrait au vecteur d’entrée (1, 2, 2, 3, 3, 2, 4, 3, 3, 4).

Une autre façon de représenter directement les caractères d’une séquence est d’affecter des

valeurs de propriétés physico-chimiques, telle que l’hydrophobicité, à chaque acide aminé.

Dans le cas de notre modèle nous avons privilégié l’encodage direct pour préserver

l’information positionnelle.

Une étape finale de l’encodage des données est leur normalisation. Pour éviter que des

valeurs trop extrêmes dominent et limitent l’influence de valeurs moindres, il est important

de normaliser les données d’entrées d’un réseau de neurones. La normalisation des vecteurs

d’entrées donne normalement des valeurs entre [0,1] ou [-1,1].

4.2.7 Validation

La validation du modèle s’effectue en utilisant un ensemble de données test. Une méthode

d'évaluation de la performance de généralisation d’un classificateur consiste à effectuer une

mesure de qualité des prédictions. Pour un classificateur à deux classes (0 et 1), la

performance peut être évaluée en calculant les paramètres suivants : (Wu et McLarty, 2000)

(tableau 4.1) la sensibilité est la proportion de tous les vrais positifs correctement identifiés.

La spécificité est la proportion de tous les vrais négatifs correctement identifiés. La valeur de

prédiction positive est, quant à elle, la proportion qu’un vrai positif soit effectivement un vrai

positif. Pour la valeur de prédiction négative elle est la probabilité qu’un vrai négatif soit en

fait un vrai négatif. La précision du modèle est la probabilité de prédictions correctes au total.

Et finalement, le coefficient de corrélation nous donne une idée de la qualité du prédicteur.

71

Une valeur de 1 correspond à un prédicteur parfait tandis qu’une valeur de -1 correspond à un

prédicteur qui à toujours tort (Wu et McLarty, 2000).

Un autre test d'évaluation de l'efficacité de plus en plus utilisé en apprentissage machine est

l'analyse de la courbe ROC (Receiver Operating Characteristic) (Maloof, 2002). Ce type

d'analyse permet de connaître le taux de vrais positifs, ainsi que le taux de faux positifs, à

différents seuils de confiance. Pour connaître la performance des prédictions, une

approximation de l'aire sous la courbe est calculée en utilisant la règle du trapèze. Plus l'aire

sous la courbe tend vers 1, plus la performance du modèle est élevée.

Tableau 4. 1 Tests de validation

TN = Vrai négatif, TP = Vrai positif, FP = Faux positif, FN = Faux négatif Précision

du testEnsembleTNTP +

Sensibilité FNTP

TP+

Spécificité FPTN

TN+

Valeur de prédiction positive FPTP

TP+

Valeur de prédiction négativeFNTN

TN+

Coefficient de corrélation ( )( ) ( ) ( ) ( )TPFNFNTNTNFPFPTP

FNFPTNTP+×+×+×+

×−×

4.3 Les modèles de Markov cachés

Les modèles de Markov cachés sont des automates probabilistes à état finis. Un automate

probabiliste est une structure composée d'états, de transitions et d'un ensemble de probabilités

associées aux états et aux transitions. Pour bien décrire le modèle de Markov caché, il faut

tout d’abord décrire un modèle de Markov plus simple, le modèle de Markov observable.

Les modèles de Markov observables se basent sur l’hypothèse de Markov : « Le futur ne

dépend que du présent et non du passé ». Un modèle de Markov observable est un graphe

d’états dotés de transitions probabilistes et dans lequel à chaque état est associé un

72

évènement. Un chemin dans un modèle de Markov observable, à partir d’un état donné,

consiste à se déplacer d’état en état dans le graphe selon les probabilités de transitions. À un

chemin correspond donc une unique suite d’états (les états visités par ce chemin) ou de

manière équivalente, une suite d’évènements, la suite des évènements observés. La figure 4.9

représente un exemple d’un modèle de Markov observable pour un modèle de prédiction

météorologique. Ici, la question est : « En se basant sur la température d’aujourd’hui, quelle

sera la température de demain ? ». Comme on peut voir dans l’exemple, si la journée est

ensoleillée, nous avons une probabilité de transition vers une autre journée ensoleillée de 0.8,

avec seulement une probabilité de 0.1 d’avoir une journée de pluie. Dans un modèle de

Markov observable, comme chaque évènement observable est associé à un unique état du

modèle, on en déduit de manière non ambiguë un chemin dans le modèle. Dans ce cas, nous

avons une séquence d’états (soleil, pluie ou brume), car à chaque état correspond un seul

évènement observable. Cependant, pour des raisons de modélisation, il est parfois nécessaire

d’associer un même évènement à plusieurs états et vice-versa. On utilise alors les modèles de

Markov cachés.

étatbrume

étatsoleil

étatpluie

0.80.1

0.10.1

0.7

0.2 0.3

0.5

0.2

Figure 4. 9 Modèle de Markov observable. Les états sont : soleil, brume et pluie.

Un modèle de Markov caché est un modèle de Markov où les états ne sont pas des

évènements observables, mais sont munis de probabilités d’émissions des évènements

observables : chaque évènement a une probabilité, possiblement nulle, d’être émis par chaque

73

état. On se retrouve donc dans un processus stochastique double, puisque nous avons la

probabilité de transition entre les états et la probabilité d’émission d’évènements provenant

de ces états. La figure 4.10 montre un modèle de prévision météorologique doublement

stochastique. Toutefois, dans un tel modèle, à une séquence d’évènements observés donnée,

on peut possiblement associer plusieurs chemins ayant pu produire cette séquence, du fait de

la possibilité pour un évènement d’être émis par plusieurs états différents. C’est pourquoi on

parle de modèles de Markov cachés : le chemin (suite d’états) ayant produit une séquence

d’évènements observés est caché à l’observateur, seuls la séquence d’évènements est

disponible.

étatvariable

étatbon

étatmauvais

soleil 0.70brume 0.20pluie 0.10

soleil 0.20brume 0.60pluie 0.20

soleil 0.10brume 0.20pluie 0.70

Figure 4. 10 Modèle de Markov caché. Les états sont : bon, variable et mauvais. Les évènements soleil, brume et pluie sont émis par les états.

Un point important avec les modèles de Markov réside dans la possibilité d’utiliser ces outils

pour modéliser des familles de séquences (linguistiques, biologiques, …). En effet, si l’on

considère un alphabet comme un ensemble d’évènements possibles, un mot sur cet alphabet

n’est rien d’autre qu’une séquence d’évènements. On peut alors considérer que les paramètres

d’un modèle de Markov caché (nombre d’états, probabilités de transitions et probabilités

d’émissions) peuvent être calculés de sorte à capturer les propriétés statistiques d’une famille

74

donnée de séquences. Lorsqu’on a un modèle de Markov caché correspondant à un ensemble

de séquences, on distingue alors trois principaux problèmes d’intérêts.

Le problème d’évaluation : Étant donnés les paramètres d’un HMM particulier et une

séquence d’évènements observés, quelle est la probabilité que cette séquence ait été générée

par ce modèle. La probabilité qu’une séquence s provienne d’un HMM )(wM , notée

( )wsP | , où w représente les paramètres du HMM, se calcule en considérant tous les

chemins pouvant produire cette séquence. Il est nécessaire de considérer tous les chemins

car, comme nous l’avons déjà mentionné, plusieurs chemins peuvent produire une même

séquence d’évènements. À chaque chemin, on associe naturellement la probabilité que ce

chemin ait produit la séquence d’évènements considérée, en multipliant les probabilités de

transitions et d’émissions utilisées par chemin. ( )wsP | est alors la somme, sur tous les

chemins possibles, de la probabilité associée à chaque chemin. Toutefois, il est inconcevable

d’énumérer tous les chemins possibles, car leur nombre croît exponentiellement (Baldi et

Brunak, 2001). On peut cependant passer outre ce problème combinatoire en utilisant la

technique de la programmation dynamique, avec l’algorithme « Forward ». Cet algorithme

calcule un tableau [ ]jtf , bidimensionnel, dans lequel la case [ ]jtf , contient la somme des

probabilités associés aux chemins se terminant en l’état j et produisant la séquence des t

premiers évènements de la séquence s . Ce tableau peut être calculé efficacement par

programmation dynamique (Baldi et Brunak, 2001). ( )wsP | est alors obtenue en sommant

toutes les cases de la dernière colonne du tableau , c’est-à-dire les cases [ ]jtf , pour tout j et

t=n, où n est la taille de s .

Le but de l’algorithme d’évaluation d’une séquence s vis-à-vis d’un modèle de Markov

caché donné représentant une famille particulière de séquence F est de décider, en se basant

sur ( )wsP | , si la séquence s possède des caractéristiques similaires aux séquences de la

famille F et devrait être classifiée comme appartenant à cette famille. Il faut donc pouvoir

interpréter ( )wsP | dans ce but. Or de par son principe multiplicatif le long d’un chemin,

l’algorithme Forward induit une corrélation entre la longueur de la séquence s et ( )wsP | .

75

Pour remédier à ce défaut on utilisera plutôt le log-odd de ( )wsP | , une transformation

mathématique qui a un effet normalisateur par rapport à la longueur de la séquence (Baldi et

Brunak, 2001). Pour classifier s , on compare alors ce score log-odd à un seuil (Barrett,

Hughey et Karplus, 1997) déterminé de manière théorique ou expérimentale dépendant de la

connaissance de la famille F de séquences (Francke et Weynans, 2002). Le score log-odd est

le logarithme du score de la séquence divisé par la probabilité d’un modèle nul. Le modèle

nul est un modèle qui considère une séquence comme une chaîne de caractères aléatoires.

Pour mieux comprendre la difficulté du problème d’évaluation, considérons le HMM illustré

à la figure 4.11.

0 1

2

3

4p(A)= 1

2p(B)= 1

2

p(A)= 34

p(B)= 14

p(A)= 14

p(B)= 34

13

13

13

13

13

13

13

13

13

1

Figure 4. 11 Un Modèle de Markov caché.

Dans cette figure, les transitions sortant d’un état sont toutes équiprobables, et la probabilité

d’émission de la lettre A ou B est celle indiquée à coté de l’état. Par exemple, la séquence

ABAA peut être générée en parcourant la suite d’états 0, 1, 3, 3, 2, et 4. La probabilité de

générer cette suite en parcourant ce chemin est donnée par :

76

12

13

14

34

1 * *******13

13

13

14

p(A) p(B) p(A)p(A)vers état 1

vers état 4

vers état 3

vers état 3

vers état 2

= 32 * 37 4

Cette probabilité est faible, mais il existe 14 autres chemins possibles qui sont susceptibles de

générer la même séquence. L’énumération de ces chemins, donnée dans le tableau 4.2,

illustre bien l’exponentialité du nombre des chemins en fonction du nombre d’états.

Tableau 4. 2 Les 15 chemins différents susceptibles de générer ABAA

Chemins 0 1 1 1 2 4 0 1 1 1 3 4 0 1 1 2 2 4 0 1 1 2 3 4 0 1 1 3 2 4 0 1 1 3 3 4 0 1 2 2 2 4 0 1 2 2 3 4 0 1 2 3 2 4 0 1 2 3 3 4 0 1 3 2 2 4 0 1 3 2 3 4 0 1 3 3 2 4 0 1 3 3 3 4

La probabilité de générer la séquence ABAA est obtenue en additionnant les probabilités

d’obtenir ABAA pour chacun des 15 chemins possibles. C’est ce que l’algorithme

« Forward » permet de faire efficacement.

Le problème de décodage : Étant donné les paramètres d’un HMM particulier et une

séquence d’évènements, quel est le chemin dans ce modèle plus susceptible de générer cette

séquence? Ce problème est résolu par l’algorithme de Viterbi (Forney, 1973). L’algorithme

de Viterbi est une variante de l’algorithme Forward qui considère chaque chemin possible.

Cependant, au lieu de prendre la somme, il prend le chemin donnant le score maximum et

donne la séquence d’états parcourus. Il s’agit d’une technique classique dans le cadre de la

programmation dynamique.

77

Pour illustrer le problème de décodage reprenons le HMM de la figure 4.11. Étant donné la

séquence ABAA, on se pose la question d’identifier le chemin le plus probable parmi les 15

chemins de la table 4.2.

Dans cet exemple très simple, il est assez facile de se convaincre que le chemin donné par la

suite 0, 1, 2, 3, 3 et 4 est le plus probable. En effet, l’état 2 a une forte probabilité d’émettre

un B, alors que l’état 3 a une forte probabilité d’émettre un A. L’algorithme de Viterbi

permet de résoudre ce problème efficacement

Le problème d’apprentissage : Étant donnés les paramètres d’un HMM particulier et une

séquence d’évènements, quel ajustement devons-nous faire aux probabilités d’émissions

d’évènements et de transitions d’états pour que le modèle corresponde le plus possible à la

dite séquence d’évènements ? Ce problème est résolu par l’algorithme Baum-Welch. L’idée

derrière l’apprentissage Baum-Welch est d’estimer de façon itérative les paramètres d’un

modèle, en tentant de maximiser la vraisemblance du modèle selon les séquences

d’évènements ou observations.

Le problème d’apprentissage est beaucoup plus complexe que les deux précédents. En effet,

il s’agit ici de modifier les probabilités d’émission et de transition de manière à « favoriser »

certaines séquences. Considérons, par exemple, le HMM de la figure 4.12 où toutes les

émissions et transitions sont équiprobables.

78

0 1

2

3

4p(A)= 1

2p(B)= 1

2

p(A)= 12

p(B)= 12

p(A)= 12

p(B)= 12

13

13

13

13

13

13

13

13

13

1

Figure 4. 12 Modèle de Markov caché avec émissions et transitions équiprobables.

Ce HMM génère toutes les séquences possibles d’une longueur donnée ( 3≥ ), avec la même

probabilité. Supposons que nous voulions détecter des séquences répondant aux critères

suivants :

a. Le début de la séquence importe peu.

b. Au milieu, on retrouve une forte proportion de B.

c. À la fin, on retrouve une forte proportion de A.

Si les « fortes » proportions des exigences b. et c. sont connues d’avance, il est facile de

construire un HMM ayant les bonnes propriétés. Si, au contraire, les caractéristiques des

séquences recherchées nous sont inconnues à priori, mais qu’on dispose d’un ensemble

d’exemples, on peut alors, d’une manière itérative, modifier les probabilités d’émission et de

transition pour augmenter la possibilité de générer les séquences de notre ensemble. Un

ensemble d’exemples tel que :

ABABBBABBBAAAAAA AABBBBABAAABAAA AABAABBBABBBBBABAAAAAAA etc.

79

pourrait donner, suite à l’apprentissage, un HMM tel que celui de la figure 4.13 qui, à partir

de l’état 1 où les probabilités d’émissions sont équiprobables, mène, avec une forte

probabilité, à l’état 2 où la probabilité d’émission d’un B est forte, puis à l’état 3 où celle

d’émission d’un A est forte.

0 1

2

3

4p(A)= 1

2p(B)= 1

2

p(A)= 56

p(B)= 16

p(A)= 16

p(B)= 56

110

710

210

110

410

410

110

510

510

1

Figure 4. 13 Modèle de Markov caché après apprentissage.

Le problème d’apprentissage est difficile, au sens informatique du terme, et n’est

actuellement attaqué que par des heuristiques qui donnent des solutions approximatives.

4.3.1.1 HMM et grammaire

En 1953, la communauté scientifique assistait à la naissance d’une nouvelle ère, celle de

l’élucidation de la structure de l’ADN par Watson et Crick. Cette découverte ouvrait la porte

à l’étude du transfert de l’information dans le matériel vivant. De leurs travaux sur la

structure de l’ADN naissait la fameuse double hélice et la biologie moléculaire connaissait

son apothéose.

80

À la même époque, un autre évènement bouleversait un domaine complètement différent. Par

ses travaux, Noam Chomsky (Chomsky, 1957) révolutionnait le domaine de la linguistique. Il

a proposé une représentation formelle des règles syntaxiques du langage. Il a, pour ainsi dire,

décodé la « structure profonde » sous-tendant les langages. Ses observations sur la variété

infinie des langages ont donné naissance à la grammaire générative. Née dans le domaine de

la linguistique, la grammaire générative fut, par la suite, intégrée dans la théorie du calcul, et

notamment l’informatique théorique et la sémantique des langages de programmation. Ces

deux groupes de recherches ont donc, à la même époque, permis une poussée énorme dans

leurs domaines respectifs (Searls, 1993; 2001).

Mais, qu’ont donc en commun la linguistique et la biologie moléculaire ? Dès le début, les

séquences biologiques composant le génome ont suscité plusieurs comparaisons avec la

linguistique. En effet, l’utilisation d’un alphabet précis et la présence d’une représentation

textuelle des séquences biologiques ouvrent grandes les portes à une métaphore linguistique.

Le langage des séquences biologiques se prête donc bien à l’utilisation des méthodes

d’analyse du langage naturel.

Les grammaires

Comme le définit bien Searls, dans son article de 1993, « Formally, a language is simply a

set of strings of characters drawn from some alphabet… », le langage est, d’un point de vue

formel, un simple groupement de chaînes de symboles appartenant à un alphabet. Les travaux

de Chomsky ont eu pour effet de fournir des méthodes formelles de définition de langages

ou, plus simplement, de donner une théorie du modelage des chaînes de symboles présentes

dans un langage. Le but de la représentation formelle des langages est l’économie

d’expression, c’est-à-dire, la levée de l’obligation d’énumérer exhaustivement toutes les

chaînes possibles dans un langage. La puissance octroyée par cette représentation

« économique » est bien réelle. Un autre avantage est de pouvoir généraliser l’information

structurelle d’un système linguistique (Searls et Dong, 1993). Si on transpose cette définition

du langage à l’ADN, l’alphabet sera composé de quatre symboles que sont les nucléotides. La

molécule d’ADN sera ainsi représentée par une chaîne de symboles. Toutes les différentes

81

compositions de chaînes formeront un langage. Il n’est donc pas faux de dire que l’ADN est

en fait le langage du « livre de la vie » (Searls, 2002).

La hiérarchie de Chomsky

Chomsky a spécifié quatre types de grammaires basées sur les restrictions des règles de

production. Plus on monte dans la hiérarchie, plus on a la possibilité de proposer des règles

générales. Pour bien comprendre les niveaux hiérarchiques de Chomsky, il faut d’abord

définir quelques principes de notation. Il y a deux types de symboles : les variables abstraites

non-terminales (représentées par des lettres majuscules) et les symboles concrets terminaux

(représentées par des lettres minuscules). Les règles de production du langage seront notées

A a, où la partie de gauche contient au moins un symbole non-terminal qui sera

transformé, dans la partie de droite, en une chaîne terminale (composée uniquement de

symboles terminaux) ou non-terminale (comportant des symboles non-terminaux).

Une grammaire génère les chaînes composant son langage en prenant un symbole de départ

(A) et en le réécrivant. Cette réécriture se fait en recherchant, itérativement, une règle ayant

un côté gauche correspondant à un symbole non-terminal de la chaîne courante et en y

substituant le côté droit de la règle, tout ceci, jusqu’à ce que la chaîne ne contienne que des

symboles terminaux.

Pour commencer, voici un exemple de grammaire régulière. La grammaire G = (N, E, P, S)

S = Symbole initial : {A}

E = Symboles terminaux : {a, b}

N = Symboles non terminaux : {A, B}

P = Règles : {Aa, AaB, Bb, BbB}

À partir de cette grammaire, on peut dériver toutes les chaînes qui composeront le langage en

partant du symbole non terminal A.

82

Appliquons la première règle. On obtient la suite de mots [a]. On ne peut aller plus loin.

Appliquons la seconde règle. On obtient la suite [aB].

Appliquons la troisième règle à [aB]. On obtient la suite [ab]. On ne peut aller plus loin.

Appliquons la quatrième règle à [aB]. On obtient la suite [abB].

Appliquons la quatrième règle à [abB]. On obtient [abbB].

Appliquons la troisième règle à [abbB]. On obtient [abbb]. On a une suite de constantes. On

ne peut aller plus loin. On peut représenter cet exemple de grammaire grâce à un arbre de

dérivation (fig. 4.14).

A

A a A aB

B b B bB

B bB

a aB

ab abB

abbB

Figure 4. 14 Premiers niveaux d’un arbre de dérivation. Arbre relié à la grammaire décrite ci-dessus (Habrias, 2002).

Les 4 types de grammaires introduits par Chomsky :

1. La grammaire régulière (RG) : Seulement les règles de production de type Aa où A aB sont permises. Le membre gauche de toute règle contient exactement, et uniquement, un symbole non-terminal, et le membre droit en contient au plus un, sans restriction sur le nombre de symboles terminaux. Les chaînes ne peuvent donc grandir que dans une seule direction. Exemple : Voir ci-dessus.

2. La grammaire hors contexte (CFG) : Toute règle de production de type A est acceptée où représente n’importe quelle chaîne terminale ou non-terminale, excluant la chaîne vide. Exemple : avec les règles P = {A aAa, AbAb, Aaa, Abb}, une des dérivations obtenues est AaAaaaAaaaabAbaaaabaabaa.

83

3. La grammaire sensible au contexte (CSG) : Les CSG répondent au problème des copies en autorisant plus d’un symbole du côté gauche de la règle. Le côté droit de la règle est au moins aussi long que le côté gauche. Il y aura, par exemple, présence de règles de réorganisation de symboles non terminaux et de génération de symboles terminaux. Aucun algorithme fonctionnant en temps polynomial n’existe pour décider si une chaîne donnée peut être obtenue par une CSG donnée: ce problème est NP-complet. Les CSG sont donc, en pratique, non considérées.

4. La grammaire sans restriction (UnresG) : Dans une UnresG, n’importe quel symbole peut se retrouver des deux côtés de la règle. C’est la grammaire la plus générale. Aucun algorithme ne peut garantir qu’une chaîne est une dérivation valable de la grammaire dans un temps fini.

L’analogie entre la linguistique et la biologie moléculaire est plus qu’une simple métaphore.

La grande similitude entre le langage humain et celui de la cellule offre de grandes

possibilités comme, par exemple, l’utilisation des méthodes d’analyse linguistique afin de

mieux comprendre et décomposer le langage cellulaire. Plusieurs techniques

bioinformatiques puisent leurs racines de la linguistique, même si leur développement a été

indépendant. L’approche « mathématique » de la linguistique a permis une avancée

importante dans le développement de la théorie du langage formel qui sera, par la suite, un

des piliers de la recherche de motifs et de structures dans les séquences biologiques.

La plus importante utilisation des grammaires de Chomsky, en bioinformatique, est la

recherche de motifs dans les séquences biologiques via les grammaires régulières simples et

stochastiques (Betel et Hogues, 2002 ; Xuan, McCombie et Zhang, 2002 ; Baldi et Chauvin

1994; Nielsen et Krogh, 1998; DiFrancesco, Garnier et Munson, 1997; Sonnhammer, Eddy et

Durbin, 1997). Les grammaires régulières sont aussi très utilisées pour la recherche de motifs

dans les bases de données protéiques et nucléiques (Gattiker, Gasteiger et Bairoch, 2002) et

pour la prédiction de gènes dans les séquences génomiques (Burge et Karlin, 1997; Kulp et

al., 1996). La plupart des algorithmes de recherche sont donc des modèles se situant au

niveau de base de la hiérarchie de Chomsky (Durbin et al., 1998).

84

Grammaire régulière stochastique

Une grammaire stochastique est essentiellement une grammaire dans laquelle on associe une

probabilité à chaque règle de production. Dans un HMM, on retrouve des états cachés, des

matrices de transitions, des matrices d’émissions et des probabilités. Lorsque l’on veut

comparer un HMM à une grammaire, les états cachés deviennent les symboles non

terminaux, les matrices de transitions deviennent les règles de production, les matrices

d’émissions deviennent les symboles terminaux et, finalement, les probabilités restent les

probabilités. La figure 4.15 montre un exemple de grammaire stochastique dérivée d’un

modèle de HMM.

a = 0.1c = 0.9

a = 0.8c = 0.2

1 1 11 2

émissions:

état S: départétat 1: a|cétat 2: a|cétat F: fin

règles de production:

S 11 a2|c22 aF|cF

S F

règles de production stochastiques:

P(S 1) = 1P(1 a2) = 1 * 0.1 = 0.1P(1 c2) = 1 * 0.9 = 0.9P(2 aF) = 1 * 0.8 = 0.8P(2 cF) = 1 * 0.2 = 0.2

La séquence " ca " aurait une probabilité de 0.9 * 0.8 = 0.72La séquence " cc " aurait une probabilité de 0.9 * 0.2 = 0.18La séquence " ac " aurait une probabilité de 0.1 * 0.2 = 0.02La séquence " aa " aurait une probabilité de 0.1 * 0.8 = 0.08

Appartenance des séquences au HMM

4 combinaisons de séquences possiblesac aacc ca

HMM

Figure 4. 15 Grammaire dérivée d’un HMM.

Dans cet exemple, nous n’avons que deux états possibles (états 1 et 2). Les états S et F sont

les états de départ et de fin. Ils ne génèrent aucune émission de caractères. Ce HMM est

linéaire, c’est-à-dire qu’un seul chemin est possible (S 1 2 F). Ceci est dû au fait

85

que les probabilités de transition entre les états sont de 1. Chaque état émet l’un des deux

caractères, a ou c. Une probabilité est affectée à l’émission de ces caractères. Les règles de

production de cette grammaire sont donc plutôt simples. On passe de l’état initial S vers l’état

1 avec une probabilité de 1. Ensuite, on émet un c ou un a et on passe à l’état 2 avec une

probabilité de 1. On émet un a ou un c dans l’état 2 et, finalement, on passe à la sortie avec

une probabilité de 100%, une fois de plus. Les séquences générées par ce HMM sont donc

« aa », « ac », « ca » et « cc ». La séquence la plus probable est « ca » avec une probabilité

de 0.72.

4.4 Conclusion

En résumé, plusieurs choix s’offrent à nous lors d’une tâche de classification de séquences

biologiques. La nature de nos séquences, le type de classification (clustering, prédiction etc.)

ainsi que la teneur de nos connaissances, déterminent la méthode à utiliser. Il devient donc

important de bien analyser nos données avant de choisir une méthode et d’évaluer la teneur

de nos connaissances permettant une utilisation optimale de cette méthode de classification.

CHAPITRE V

CLASSIFICATION/PRÉDICTION D’ANCRE GPI PAR RÉSEAU DE NEURONES ARTIFICIELS

Les trois chapitres suivants proposent la description de la méthode de classification/prédiction hybride d’ancre GPI chez les séquences protéiques. Nous proposons une approche en trois volets. Le premier volet implique la conception d’un réseau de neurones artificiels pour le nettoyage des données. Le deuxième volet se concentre sur la structuration du signal grâce au HMM et finalement le dernier volet propose l’hybridation des deux modèles. Lorsque l’on parle de séquence protéique, la nature des acides aminés qui la compose est très importante. On constate que des propriétés physiques, chimiques et ioniques existent et influencent grandement la fonction des protéines. Des propriétés physico-chimiques intéressantes pour la classification sont les interactions de la molécule avec son environnement Par exemple l’hydropathie des acides aminés composant une protéine influence la structure que celle-ci adoptera dans un environnement. Cette structure influencera à son tour la fonction de la protéine. Il devient évident de tirer avantage de ces caractéristiques lors d’une tâche de classification. L’hydropathie et le poids moléculaire ayant été identifié expérimentalement comme des caractéristiques importantes pour le signal GPI, nous avons choisi de les utiliser dans la première étape de notre modèle. L’utilisation des réseaux de neurones artificiels et de leur grande capacité de traitement des données brouillées est proposée dans ce présent chapitre comme premier volet de classification. Toutefois l’ordre des acides aminés dans une protéine est également très important pour la biologie. L’agencement de certains acides aminés forme des signaux précis. Dans le signal GPI, la structure grammaticale est tout aussi importante que les propriétés physico-chimiques. Le HMM est une approche bien connue dans le traitement de données séquentielles tel que les séquences biologiques. L’utilisation d’un HMM pour structurer le signal GPI est présentée dans un deuxième volet (Chapitre VI). Finalement nous verrons que l’identification du signal GPI doit faire appel è la fois aux propriétés physico-chimiques et à la structure du signal. Le volet final présenté au Chapitre VII propose une approche hybridant l’utilisation de ces caractères particuliers des séquences protéiques.

87

5.1 Un modèle de réseau de neurones artificiels classificateur d’ancre GPI

Lorsqu’on a un motif complexe que l’on veut utiliser pour la classification ou l’annotation,

on se retrouve devant une quantité très importante de données et d’informations. Une

première étape, dans cette classification, est de bien résoudre le problème de nettoyage de nos

données. Les bases de données contenant les séquences biologiques, ainsi que les séquences

elles-mêmes, sont souvent incomplètes ou bruitées. Même si ces séquences sont déterminées

expérimentalement, avec une grande précision, elles subissent plusieurs manipulations avant

d’être accessibles pour fins d’analyse. Le taux d’erreur devient donc beaucoup plus important

que l’erreur initiale retrouvée normalement durant le processus expérimental (Brunak,

Engelbrecht et Knudsen, 1990). Les réseaux de neurones sont de bons « nettoyeurs » de bases

de données. En biologie moléculaire, leur utilisation a déjà servi à démontrer leur efficacité

en détectant, par exemple, de mauvaises assignations de sites d’épissage dans les ARN

messagers (Brunak, Engelbrecht et Knudsen, 1990). Les réseaux de neurones artificiels sont

un choix de modèle intéressant pour ce problème, vu leur forte capacité de généralisation et

leur performance face à des problèmes de classification impliquant une grande quantité

d’exemples ayant de l’information « cachée » ou ayant des motifs irréguliers.

Dans notre projet, le modèle de réseau de neurones artificiels est construit pour effectuer une

tâche préliminaire de classification. Un réseau de neurones artificiels permet de réduire le

nombre de séquences devant subir une classification plus pointue, donc plus demandante en

temps de calcul.

5.2 Le modèle

L’architecture de notre modèle est le perceptron multicouche présenté au chapitre 4. Le choix

de cette architecture est basé sur l’efficacité déjà prouvée du perceptron multicouche dans des

problèmes de classification et de prédiction de motifs de séquences protéiques. Un exemple

récent est donné par les travaux de Martelli, Fariselli et Casadio (2004) qui utilisent un

88

réseau de neurones artificiels pour prédire la probabilité que certains résidus cystéine puissent

être impliqués dans des ponts disulfure, pour le processus de repliement des protéines.

Nous avons utilisé un simulateur de réseaux de neurones, JavaNNS (Zell, 2002), pour

modéliser notre réseau de neurones. Pour cette architecture, l’algorithme d’apprentissage et

ses paramètres ainsi que le nombre de neurones de la couche d’entrée (vecteur d’entrée), le

nombre de couches cachées et le nombre de neurones qui les composent, ainsi que le nombre

de neurones de la couche de sortie, doivent être déterminés.

Le vecteur d’entrée

La structure connue des protéines à ancre GPI est l’instrument de base nécessaire à la

conception d’un classificateur. Comme il a été spécifié au chapitre 2, une séquence de

protéines à ancre GPI contient deux signaux: un signal en position N-terminale pour la

translocation dans le réticulum endoplasmique et un signal en position C-terminale pour

l’attachement GPI. La découverte de séquences GPI n’ayant pas de signal en N-terminale,

tels que la P137 (Ellis et Lazio, 1995), ainsi que la capacité de biosynthèse de la protéine sans

ce signal (Howell et al., 1994) nous ont incité à ne pas considérer le signal en N-terminale

dans la conception de notre classificateur.

La première étape de conception du modèle est la prise de décision quant à la zone à cibler.

Notre méthode ne cible donc que la partie C-terminale de la protéine, en vue de reconnaître le

signal d’attachement GPI. Pour la construction du modèle de réseau de neurones nous avons

porté notre attention sur deux zones importantes du signal GPI : une zone composée de trois

acides aminés de faible poids moléculaire, et une zone fortement hydrophobe.

La seconde étape implique la décision de la longueur du vecteur d’entrée et à son type

d’encodage. Une première analyse des séquences de protéines GPI présentes dans la base de

données Swiss-Prot montre que les séquences GPI peuvent avoir des longueurs très variables

(fig. 5.1).

89

>C59A_MOUSEmraqrglillllllavfcstavsltcyhcfqpvvsscnmnstcspdqdsclyavagmqvyqrcwkqsdchgeiimdqleetklkfrccqfnlcnksdgslgktpllgtsvlvailnlcflshl>CADD_CHICKmqhktqltlsfllsqvlllacaedlectpgfqqkvfyieqpfeftedqpilnlvfddckgnnklnfevsnpdfkvehdgslvalknvseagralfvharsehaedmaeilivgadekhdalkeifkiegnlgiprqkrailatpilipenqrppfprsvgkvirsegtegakfrlsgkgvdqdpkgifrineisgdvsvtrpldreaianyelevevtdlsgkiidgpvrldisvidqndnrpmfkegpyvghvmegsptgttvmrmtafdaddpstdnallrynilkqtptkpspnmfyidpekgdivtvvspvlldretmetpkyelvieakdmgghdvgltgtatatiliddkndhppeftkkefqatvkegvtgvivnltvgdrddpatgawravytiingnpgqsfeihtnpqtnegmlsvvkpldyeisafhtllikvenedplipdiaygpsstatvqitvedvnegpvfhpnpmtvtkqenipigsivltvnatdpdtlqhqtirysvykdpaswleinptngtvattavldresphvqdnkytalflaidsgnppatgtgtlhitledvndnvpslyptlakvcddakdlrvvvlgasdkdlhpntdpfkfelskqsgpeklwrinklnnthaqvvllqnlkkanynipisvtdsgkppltnntelklqvcsckksrmdcsasdalhismtlillslfslfcl

Figure 5. 1 Séquences de protéines à ancre GPI de différentes longueurs.

Dans cet exemple, la protéine C59A_MOUSE ne contient que 123 acides aminés, tandis que

la séquence CADD_CHICK en contient plus de 700. Cette différence de longueur est due à la

fonction de la protéine, qui peut être très différente, et, aussi, à la présence de séquences

incomplètes dans les bases de données. Cette longueur hautement variable, et la position du

signal GPI en position C-terminale, ont influencé notre décision de ne cibler qu’une portion

fixe de la partie C-terminale de la protéine. De cette façon, nous n’avons pas été limité par

des protéines fragmentaires ayant la partie N-terminale tronquée.

La détermination de la longueur fixe conservée pour notre modèle est basée sur une analyse

de la longueur maximale du signal retrouvé dans les séquences de protéines à ancre GPI de

Swiss-Prot (Appendice A). Cette analyse montre que la longueur maximale de ce signal est

de 45 acides aminés. Pour laisser une certaine flexibilité à toute nouvelle protéine GPI, nous

avons sélectionné les 50 derniers acides aminés des protéines comme étant vecteurs d’entrée

de notre modèle de réseau de neurones. La figure 5.2 montre des exemples des sections de

50 acides aminés sélectionnés pour le vecteur d’entrée. Cette partie des séquences sera, par la

suite, soumise à un encodage.

90

> 5NTD_RAT isvvseyiskmkviypavegrikfsaashyqgsfpliilsfwavilvlyq> ACES_TORCA lrvqmcvfwnqflpkllnatacdgelsssgtssskgiifyvlfsilylif> ACES_TORMA rvqmcvfwnqflpkllnatacdgelsssgtssskgiifyvlfsilylify> AMPM_HELVI tsttaapttvtqptitepstptlpeltdsamtsfaslfiislgailhlil

Figure 5. 2 Vecteur d’entrée du réseau de neurones avant encodage.

L’encodage des données

La longueur fixe de nos séquences permet un encodage direct. L’encodage direct a également

été choisi pour sa capacité de préserver l’information positionnelle de la séquence. La

présence de trois zones distinctes ayant des acides aminés spécifiques est une information

particulière que l’encodage direct pourra conserver.

Le choix d’encodage requiert aussi une transformation numérique des acides aminés. Pour

avoir un prédicteur performant, il faut mettre le plus d’informations possibles dans notre

encodage. Deux caractéristiques importantes ressortent de toute analyse des séquences de

protéines à ancre GPI : l’hydrophobicité élevée de la queue terminale et le site d’ancrage

composé d’acides aminés de faible poids moléculaire. Nous avons donc sélectionné ces deux

propriétés comme base de transformation. Chaque acide aminé sera ainsi représenté par deux

valeurs numériques : son hydropathie et son poids moléculaire. Le tableau 5.1 montre les

valeurs attribuées à chaque acide aminé.

Il existe différentes échelles d’hydrophobicité (Eisenberg et al., 1982 ; Kyte et Doolitle,

1982; Engelman, Steitz et Goldman, 1986 ; White et Wimley, 1999). Nous avons choisi

l’échelle de Kyte et Doolitle pour sa grande popularité en analyse de séquences protéiques

(Tableau 5.1).

91

Tableau 5. 1 Échelles utilisées pour la conversion numérique des acides aminés.

Acide aminé échelle d’hydrophathie Kyte et Doolitle

poids moléculaire

a 1.8 89.09 d -3.5 133.10 e -3.5 147.13 g -0.4 75.07 f 2.8 165.19 l 3.8 131.18 s -0.8 105.09 y -1.3 181.19 c 2.5 121.16 w -0.9 204.23 p -1.6 115.13 h -3.2 155.16 q -3.5 146.15 r -4.5 174.20 i 4.5 131.18 m 1.9 149.21 t -0.7 119.12 n -3.5 132.12 k -3.9 146.19 v 4.2 117.15

b (d ou n) -3.5 132.61 z (e ou q) -3.5 146.64

x -0.84 136.90

En raison de la présence, dans les bases de données publiques, de trois caractères

supplémentaires x, b et z, nous les avons ajoutés à la liste des substitutions. Le caractère

x signifie que le résidu n’a pas été identifié. Dans ce cas nous attribuons les valeurs

moyennes d’hydropathie et de poids moléculaire à l’acide aminé x (dernière ligne du tableau

5.1). Le caractère b signifie que le résidu peut être une asparagine ou un acide aspartique.

Pour l’acide aminé b nous avons calculé la moyenne des valeurs d’hydropathie et de poids

moléculaire des deux acides aminé possible c’est-à-dire d et n. Le caractère z signifie que le

résidu peut être un acide aminé e ou g. Comme dans le cas de l’acide aminé b nous avons pris

la moyenne des valeurs correspondant aux deux acides aminés possibles (e et g). Quoique ces

caractères ne soient présents que dans les cas de séquençages moins précis ou incomplets,

nous avons voulu les représenter dans l’encodage pour éviter un rejet des séquences, lors de

la transformation numérique des données. L’affectation de deux valeurs à chaque acide aminé

nous donne un vecteur d’entrée de 100 neurones.

92

Finalement la dernière étape implique la normalisation des vecteurs d’entrés. Nous avons

appliqué une simple normalisation min-max.

( )( )

( ) min'min'max'*minmax

min' +−−

−=

vv

Où 'v représente la valeur normalisée de la donnée v , min' et max' représentent la valeur

minimale et maximale de l’intervalle désiré, et min et max sont la valeur minimale et

maximale de nos données réelles ( [75.07, 204.23] pour l’hydropathie et [-4.5, 4.5] pour le

poids moléculaire).

Nous avons testé le modèle de réseau de neurones avec des données normalisées et des

données brutes. L’apprentissage ainsi que la capacité de généralisation ont été évalués. La

courbe de progression de l’erreur des deux modèles est similaire dans les deux cas et les

résultats des tests de validation du modèle et des tests supplémentaires donnent une même

valeur de sensibilité et de spécificité. Une analyse plus précise des séquences sélectionnées

par les deux modèles comme étant GPI et non-GPI dans le test de validation du modèle,

montre que les mêmes séquences sont sélectionnées avec des valeurs très proches. Comme la

normalisation n’apporte pas d’amélioration nous avons décidé d’utiliser les données brutes

dans le modèle.

La figure 5.3 montre un exemple de vecteur d’entrée avant normalisation. Dans cet exemple,

on peut voir que la méthionine m, est remplacée par la valeur correspondante à son

hydrophobicité en bleu (1.9) et à son poids moléculaire en vert (149.21). Nous avons donc la

structure de notre vecteur d’entrée de 100 neurones.

93

SØquence> 5NTD_BOOMIvmkymnstspittaldgrvtflktnqasdaclnlaspflvllvlvvfyhl

Vecteur correspondant> 5NTD_BOOMI4.2 117.15 1.9 149.21 -3.9 146.19 -1.3 181.19 1.9 149.21-3.5 132.12 -0.8 105.09 -0.7 119.12 -0.8 105.09 -1.6 115.134.5 131.18 -0.7 119.12 -0.7 119.12 1.8 89.09 3.8 131.19-3.5 133.10 -0.4 75.07 -4.5 174.20 4.2 117.15 -0.7 119.122.8 165.19 3.8 131.19 -3.9 146.19 -0.7 119.12 -3.5 132.12-3.5 146.15 1.8 89.09 -0.8 105.09 -3.5 133.10 1.8 89.092.5 121.16 3.8 131.19 -3.5 132.12 3.8 131.19 1.8 89.09-0.8 105.09 -1.6 115.13 2.8 165.19 3.8 131.19 4.2 117.153.8 131.19 3.8 131.19 4.2 117.15 3.8 131.19 4.2 117.154.2 117.15 2.8 165.19 -1.3 181.19 -3.2 155.16 3.8 131.19

Figure 5. 3 Exemple de vecteur d’entrée. Vecteur avec les valeurs d’hydropathie et de poids moléculaire correspondant à chaque acide aminé.

Les jeux de données d’entraînement et de test

La conception d’un réseau de neurones artificiels requiert la sélection d’un ensemble de

séquences devant servir à l’apprentissage. Comme pour toute technique d’apprentissage

machine nous devons rassembler le plus d’exemples possibles de ces séquences. Plus la

diversité de ces séquences est grande, plus nos modèles auront une bonne capacité de

généralisation.

En date de janvier 2004, la base de donnée Swiss-Prot contenait au moins 468 séquences

protéiques ayant une annotation claire d’ancre GPI (voir Appendice A). Ces séquences

proviennent de quatre grands groupes taxonomiques d’eucaryotes. Ces groupes sont les

métazoaires, soit des animaux pluricellulaires, les plantes, les protozoaires, à savoir des

eucaryotes unicellulaires et les champignons.

Comme séquences d’entraînement et de test pour le réseau de neurones artificiels, nous avons

sélectionné les séquences GPI clairement annotées dans la base de donnée Swiss-Prot.

Plusieurs jeux de données ont été construits à partir de ces séquences:

94

Le jeu de données d’entraînement : Un alignement de séquences des 50 derniers résidus des

séquences GPI effectué à l’aide du logiciel CLUSTALW (voir Appendice B), nous a aidé à

cibler des séquences non redondantes pour éliminer le risque de biais envers un type de

séquence trop abondamment représentées (fig 5.4a). Nous avons retenu 79 des 468

séquences de protéines annotées comme ayant un ancre GPI, de la base de données Swiss-

Prot (voir Appendice C). Quelques ajustements ont été apportés au jeu d’entraînement

lorsqu’une catégorie de séquences particulière n’était pas reconnue. Par exemple, les

protéines PARA_TRYBB, PARB_TRYBB et PARC_TRYBB sont très similaires (fig. 5.4b).

Lors d’une première sélection, un seul représentant avait été choisi : PARA_TRYBB.

Comme le modèle de réseau de neurones avait de la difficulté à reconnaître les autres

membres, nous avons ajouté PARB_TRYBB au jeu d’entraînement (fig 5.4b). Cet ajout a

permis d’augmenter la capacité de prédiction du réseau pour ce type de protéine. Pour que le

modèle puisse faire une bonne discrimination, nous avons aussi construit un jeu de 79

séquences ayant une très faible probabilité d’être à ancre GPI (c’est le cas des protéines

cytoplasmiques, nucléaires, transmembranaires ou des séquences aléatoires). La combinaison

de ces deux jeux de données compose notre jeu de données d’entraînement.

prio_mansp kgenftetdvkmmervveqmcitqyekes---qayyq-----rgss-mvlfssppvillisfli------------prio_atepa -------tetdvkmmervveqmcitqyeres----qayyq-----rgss-mvlfssppvillisfliflivg-------prio_cebap -------tetdvkmmervveqmcitqyeres----qayyq-----rgss-mvlfssppvillisfliflivg-------prio_gorgo -------tetdvkmmervveqmcitqyeres----qayyq-----rgss-mvlfssppvillisfliflivg-------prio_human -------tetdvkmmervveqmcitqyeres----qayyq-----rgss-mvlfssppvillisfliflivg-------prio_pantr -------tetdvkmmervveqmcitqyeres----qayyq-----rgss-mvlfssppvillisfliflivg-------prio_ponpy -------tetdvkmmervveqmcitqyeres----qayyq-----rgss-mvlfssppvillisfliflivg-------

parb_trybb epepepepepepepepep---epepepe----pepe-----pepgaatlksvalpfaiaavglvaaf----parc_trybb epepepepepepepepep---epepepe----pepe-----pepgaatlksvalpfaiaaaalvaaf----para_trybb -----tgpeetgpeetgpe-etgp---eetgpee---tepe-----pepgaatlksvalpfavaaaalvaaf----

a

b

Figure 5. 4 Sélection du jeu d’entrainement. a : La séquence en rouge a été sélectionnée parmi un groupe de séquences très similaires. b : Les séquences en rouges ont été sélectionné malgrès leur similarité pour augmenter la capacité de reconnaître ce type particulier de signal GPI.

95

Le jeu de données de validation de l’entraînement du réseau de neurones : La généralisation

est un des plus grands avantages des réseaux de neurones. Un réseau à rétropropagation

extrapole un résultat avec des entrées qu'il n'a jamais vues. Le réseau doit voir un certain

nombre de fois les exemples proposés avant de pouvoir extrapoler un nouveau résultat.

Toutefois, il y a certains problèmes reliés à un trop grand nombre de cycles d’apprentissage.

Un problème commun est la mémorisation des entrées. Alors, comment empêcher le

surentraînement du réseau? Une méthode simple et efficace est l’utilisation d’un groupe de

données de validation. Après chaque cycle d’apprentissage effectué sur le groupe

d’entraînement, le groupe de validation est présenté au réseau et l’erreur de sortie est

calculée. L’apprentissage est arrêté lorsque l’erreur du groupe de validation est à son

minimum. Si l’apprentissage continue, l’erreur commencera à augmenter et le potentiel de

généralisation du modèle de réseau diminuera. Le réseau aura, dès lors, commencé à

mémoriser. Notre jeu de données de validation comporte 5 séquences GPI et 5 séquences

non-GPI ne se retrouvant pas dans le jeu d’entraînement.

Le jeu de données pour la validation du modèle : Pour la validation du modèle, nous avons

utilisé un jeu de données comprenant 134 séquences GPI. Nous avons effectué une sélection

comportant peu de séquences redondantes et aucune séquence du jeu d’entraînement. Nous

avons aussi sélectionné 134 séquences ayant une faible probabilité d’être à ancre GPI, pour

servir de discriminants.

Les jeux de test supplémentaires : Les bases de données comportent un grand nombre de

séquences. Une validation avec seulement 268 séquences n’est pas très précise. Nous avons

donc construit des jeux de données comportant les 468 séquences GPI de Swiss-Prot. Pour les

jeux de test supplémentaires non-GPI, nous avons sélectionné dans la base de données Swiss-

Prot :

1. Des séquences ayant une très faible probabilité d’être à ancre GPI. : Comme les protéines à ancre GPI sont exclusivement extracellulaires, les protéines cytoplasmiques et nucléaires ont une faible probabilité d’être à ancre GPI (111 séquences).

96

2. Des séquences ayant une structure ou des propriétés physico-chimiques proches des protéines à ancre GPI et étant de potentiel faux positif: L’hydrophobicité des protéines GPI est grande; des protéines ayant aussi cette particularité sont de bonnes candidates pour tester la capacité de discrimination de notre classificateur (182 séquences transmembranaires et 83 séquences de protéines de transport).

3. Des séquences générées aléatoirement : Ces séquences vont mesurer la

probabilité de classifier une séquence dans la classe GPI par simple effet du hasard (2445 séquences).

Ces tests nous donnerons une meilleure précision quant à l’évaluation de la capacité de

généralisation du modèle.

Architecture

Le seul paramètre des neurones de la couche d’entrée est leur nombre, car aucun traitement

n’y est effectué. La couche de sortie est composée d’un seul neurone, car la tâche de

classification est binaire : GPI ou non-GPI. Ce neurone a une fonction d’activation sigmoïde.

Cette fonction s’avère un choix excellent dans les cas de réseau à sortie binaire (0/1), selon

Jordan (1995). Comme les valeurs de sorties sont des nombres réels dans l’intervalle [0,1] il

faut décider d’un seuil d’acceptation de la classification. Si le seuil se retrouve plus près de 1,

notre classification sera moins sensible et plus spécifique à la classe. Si le seuil est plus près

de 0.5, la classification sera beaucoup plus sensible ou permissive ce qui entraîne une plus

forte chance d’accepter des données n’ayant pas toutes les caractéristiques recherchées.

Une seule couche cachée compose notre modèle. Le nombre de neurones composant la

couche caché a été déterminé par essai/erreur. Nous avons construit six architectures

différentes composées de 100 neurones d’entrée, d’un neurone de sortie et d’un nombre varié

de neurones dans la couche cachée (tableau 5.2). Le test de précision comportant 134

séquences GPI et 134 séquences non-GPI a été présenté à chaque modèle. Toutefois, les

résultats démontrent que le nombre de neurones de cette couche ne change pas grandement

les résultats des tests.

97

Tableau 5. 2 Tests de sélection du nombre de neurones de la couche cachée. x est la valeur du neurone de sortie

Nombre de

neurones

GPI prédits 90.0>x

non-GPI prédits 90.0<x

25 90.2% 96.2% 50 89.5% 96.2% 100 89.5% 96.2% 150 89.5% 97.0% 200 89.5% 97.0% 250 89.5% 97.0%

La structure de la couche cachée sélectionnée est celle composée de 150 neurones. Cette

structure a été préférée à celle composée de seulement 25 neurones, car plusieurs essais des

deux modèles montraient une plus grande stabilité pour le modèle ayant une couche cachée

de 150 neurones. Comme pour le neurone de la couche de sortie, la fonction d’activation de

ces neurones est une sigmoïde. L’architecture finale est donc une couche d’entrée de 100

neurones, une couche cachée de 150 neurones et une couche de sortie de 1 neurone (fig. 5.5).

entrée 100cachée 150

sortie 1

a

f

k

89.09

165.19

0.616

0.283

Figure 5. 5 Architecture du perceptron multicouche construit pour la classification de protéines à ancre GPI.

98

L’apprentissage

L’apprentissage du modèle est de type RPROP (Resilient Back Propagation). Le processus

d’apprentissage consiste à ajuster graduellement le poids des connexions, en vue d’atteindre

un score optimal pour les séquences d’entraînement ayant une ancre GPI. De nombreux

paramètres sont nécessaires pour l’apprentissage du modèle. Pour déterminer les paramètres

optimaux, des tests furent effectués en utilisant JavaNNS (tableau 5.3).

Tableau 5. 3 Tests d’ajustement des paramètres de l’apprentissage RPROP. Le symbol ijΔ représente la valeur de mise à jour des poids des connexions, maxΔ représente la valeur de mise à jour maximale,α représente la valeur de déclin des poids et x est la valeur du neurone de sortie.

ijΔ / maxΔ /α GPI

prédits 90.0>x

non-GPI prédits

90.0<x 0.1 / 50 / 5.0 89.5% 97.0% 1.0/ 50 / 5.0 89.5% 97.0% 2.0 / 50 / 5.0 88.8% 97.0%

1.0 / 10 / 5.0 88.8% 97.0% 1.0 / 50 / 5.0 89.5% 97.0%

1.0 / 100 / 5.0 88.8% 97.7%

1.0 / 50 / 0.1 66.4% 99.2% 1.0 / 50 / 1.0 84.3% 98.5% 1.0 / 50 / 5.0 89.5% 97.0%

1.0 / 50 / 10.0 89.5% 97.0% 1.0/50/50.0 100.0% 0.0%

Les paramètres de l’algorithme d’apprentissage RPROP :

1. ijΔ est la valeur d’incrément du poids ijw . Cette mise à jour sera négative ou positive selon le sens de la dérivée de l’erreur. La valeur initiale de ce paramètre n’influence pas vraiment l’apprentissage, car il s’adapte durant le processus d’apprentissage.

2. maxΔ est la valeur maximale atteignable par les valeurs de mise à jour.

Cette limite est importante pour empêcher les valeurs de mise à jour d’atteindre de trop fortes valeurs.

99

3. α est la constante correspondant au taux de déclin de la pénalité ajoutée à l’erreur. Elle correspond à l’influence de la taille des poids sur la fonction d’erreur.

Pour nous assurer que les valeurs initiales de ijΔ n’influençait pas l’apprentissage, nous

avons effectué trois tests avec des valeurs de 0.1, 1.0 et 2.0. Comme prévu, une modification

de cette valeur n’est pas critique. Nous l’avons donc mise à une valeur intermédiaire de 1.0.

La valeur maximale atteignable pour la mise à jour maxΔ n’influence pas beaucoup la

généralisation du modèle. Nous l’avons donc mise à la valeur de défaut dans javaNNS, c’est-

à-dire à 50.

Pour la valeur deα , des tests de 0.1, 1.0, 5.0, 10.0 et 50 ont été effectués. Le résultat de ces

tests démontre qu’une valeur de α près de 0 diminue, tel que prévu, le pouvoir de

généralisation du modèle en diminuant l’effet de pénalisation des poids trop grands. Le

tableau 5.3 montre que, pour une valeur α de 0.1, seulement 66.4% séquences GPI ont été

reconnues, comparativement à 89.5% pour une valeur plus élevée, telle que 5.0 ou 10.0. Nous

l’avons donc mise à 5.0. Il est intéressant de noter que pour des valeurs extrème, tel

que 50=α , l’influence de cette pénalisation des poids devient néfaste au modèle.

Les paramètres optimaux pour notre modèle sont donc :

1. Algorithme d’apprentissage : RPROP : = 1.0. max = 50.0. = 5.0

2. La fonction d’initialisation des poids est de type aléatoire, dans l’intervalle de [–1, 1] (Randomize-Weight, dans javaNNS)

3. La fonction de mise à jour de l’activation des neurones est déterminée selon un ordre

topologique, c’est-à-dire qu’elle suit la topologie du réseau (la première couche de neurones traitée est la couche d’entrée, la seconde est celle cachée, tandis que la dernière est la couche de sortie).

100

Pour empêcher la mémorisation qui diminue la capacité de généralisation nous avons utilisé

un jeu de données de validation. Grâce au graphe d’erreur nous avons pu estimer le nombre

de tour maximum permettant une capacité de généralisation optimale. Comme on peut le voir

dans la figure 5.6, après 300 cycles d’entraînement l’erreur obtenue sur les séquences de

validation augmente ce qui indique un début de mémorisation.

80

75

70

65

60

55

50

54.5

4

3.5

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

0.05

0.055

25050 200100 150 400300 350 450 500

entraînementvalidation

erreu

r2

nombre cycle d'entraînement

Figure 5. 6 Progression de l’erreur lors de la validation. La courbe rouge représente l’erreur obtenue pour le groupe de séquences de validation. La courbe verte représente l’erreur obtenue dans le groupe d’apprentissage.

Le seuil d’acceptation d’une prédiction

L’Appendice D montre une analyse ROC effectuée sur les résultats du test de validation du

réseau. Une analyse ROC permet de choisir le seuil d’acceptation d’un classement/prédiction

ou, plus spécifiquement, le meilleur ratio spécificité (capacité de discrimination de séquences

non-GPI) vs sensibilité (capacité de reconnaître le signal GPI). Comme une augmentation de

la sensibilité va toujours de pair avec une diminution de la spécificité, il est important de bien

choisir le ratio qui maximisera le pouvoir prédictif de notre modèle. Dans notre cas, un seuil

101

de 0.90 a été jugé optimal. Dans la recherche de nouvelles protéines à ancre GPI, toute

protéine qui aura une valeur de sortie du réseau égale ou supérieure à 0.90 sera prise en

considération comme étant potentiellement une protéine à ancre GPI. Dans la figure 5.7, on

peut voir un graphique représentant l’analyse ROC. L’aire sous la courbe permet de qualifier

la capacité de prédiction du modèle. Dans le cas de notre réseau, l’aire est de 0.958, ce qui est

satisfaisant.

Figure 5. 7 Courbe ROC pour le test de validation du réseau de neurones.

5.3 Résultats des tests et discussion

Un test de validation a été effectué avec le jeu de données test de 134 séquences GPI et de

134 séquences non-GPI (tableau 5.4). Ce test montre que, pour un seuil de 0.90, le modèle a

une précision de 0.93 et un bon coefficient de corrélation (0.875), ce qui implique que les

prédictions de ce modèle sont précises. Ces résultats, en plus des résultats du calcul de l’aire

sous la courbe ROC, sont de bons indices que notre modèle a une précision acceptable et une

capacité de généraliser intéressante. Toutefois, comme spécifié en section 5.2.1,

paragraphe « jeux de données », ce test de validation est peu représentatif de la diversité des

0.0 0.2 0.4 0.6 0.8 1.0

1 - spécificité

0.0

0.2

0.4

0.6

0.8

1.0

Sens

bilit

é

Courbe ROC

102

séquences présentes dans les bases de données publiques. Nous avons donc effectué des tests

supplémentaires (tableau 5.5). Ces tests montrent que le modèle a une spécificité moyenne de

0.9525, ce qui signifie que 4.75% des prédictions sont de faux positifs.

Tableau 5. 4 Résultats du test de validation du réseau de neurones artificiels.

Test de validation Précision

TotalTNTP +

= 0.93

Sensibilité

FNTPTP+

= 0.90

Spécificité

FPTNTN+

= 0.97

Valeur de prédiction positive FPTP

TP+

= 0.97

Valeur de prédiction négative FNTN

TN+

= 0.90

Coefficient de corrélation ( )( ) ( ) ( ) ( )TPFNFNTNTNFPFPTP

FNFPTNTP+×+×+×+

×−× = 0.87

Tableau 5. 5 Résultats des tests supplémentaires.

Test de spécificité : Séquences non-GPI

Cytoplasmique et nucléaire 0.98

Transmembrane 0.94

Transport 0.93

Aléatoire 0.96

Test de sensibilité : Séquences GPI

Séquences GPI Swiss-Prot 0.93

Pour la sensibilité, ou la capacité de reconnaître de vraies protéines à ancre GPI, le modèle

offre un pouvoir prédictif de 0.925, ce qui signifie que seulement 7.5% des séquences GPI

103

présentes dans Swiss-Prot ne peuvent être détectées par le modèle. Il faut noter que, vu le

faible nombre de séquences de protéines à ancre GPI présentes dans les bases de données,

nous avons utilisé toutes les séquences GPI de Swiss-Prot, sans éliminer les redondances

possibles. Il faut donc considérer la sensibilité comme étant celle du modèle de réseau de

neurones pour détecter les séquences GPI de la base de données Swiss-Prot et non comme

une sensibilité réelle. Cette sensibilité réelle se situe possiblement plus proche du 0.90 obtenu

dans notre test de validation effectué avec les séquences GPI non redondantes. Il est

important de noter que, de ces 7.5% de séquences GPI rejetées, 7% avaient une queue

C-terminale tronquée, d’où un signal GPI incomplet. Cette particularité amène un biais dans

la prédiction. De plus, 23% de ces 7.5% des séquences GPI rejetées proviennent toutes de la

même protéine, LIPL, une lipoprotéine lipase. Le modèle attribue à ces lipoprotéines lipases

un score très faible (en moyenne 0.00003). Cette observation nous porte à penser que ces

séquences sont possiblement incorrectement annotées comme séquences à ancre GPI.

Analyse à grande échelle

Nous avons effectué une analyse à grande échelle des protéines présentement séquencées

pour deux génomes, Arabidopsis thaliana (28 860 séquences) (The Arabidopsis Genome

Initiative, 2000) et Oryza sativa (28 519 séquences) (GRAMENE, 2004). Le tableau 5.6

donne les résultats obtenus pour ces deux bases de données.

Tableau 5. 6 Résultats du test de prédiction à grande échelle.

Arabidopsis thaliana Chromosome 1 à 5

Nombre total de séquences 28 860

Séquences potentiellement GPI 1 779

Pourcentage du protéome 6.2%

Oryza sativa

Nombre total de séquences 28 519

Séquences potentiellement GPI 1 575

Pourcentage du protéome 5.5%

104

Comme le montre le tableau 5.6, le pourcentage du protéome de ces deux plantes occupé par

des protéines à ancre GPI est de 6.2% et de 5.5%. Comme le réseau de neurones a un taux de

prédiction fausse d’environ 4.75%, on peut en déduire qu’une grande partie de ces

prédictions sont des faux positifs. Toutefois, notre analyse offre un bon moyen de nettoyer les

bases de données en réduisant le nombre de séquences à investiguer de près de 95%, ce qui

diminue considérablement l’espace de recherche pour une analyse en laboratoire.

Temps de traitement

La vitesse de traitement des réseaux de neurones présente un grand avantage pour la fouille

de grandes quantités de séquences biologiques. Notre modèle a effectivement bien performé

du point de vue temps de calcul. Par exemple, pour le traitement de 15 733 séquences

protéiques, il a fallu seulement 8 secondes à un Pentium 4 cadencé à 2.8 Ghz de mémoire.

5.4 Conclusion

Le modèle de réseau de neurones que nous avons construit offre une très bonne capacité de

classification/prédiction des séquences à ancre GPI, avec plus de 90% de bonnes

classifications et avec un faible temps de traitement. Toutefois, le taux de faux positifs reste

un peu élevé, avec 4.75% de fausse prédiction. Le test effectué sur des séquences aléatoires

montre effectivement 4% de prédiction au hasard. L’analyse à grande échelle de deux

protéomes montre entre 5% et 6% de séquences potentiellement GPI. Ce taux est très élevé

reflétant encore le pourcentage de faux positif trop élevé. De plus, une faiblesse du modèle

est qu’il ne donne aucune indication sur la structure du signal.

Il devient donc intéressant de se tourner vers les modèles de Markov cachés et leur capacité

d’analyse structurée des séquences. La section 4.3 détaille un modèle de Markov caché

construit pour la tâche de classification/prédiction du signal GPI.

CHAPITRE VI

CLASSIFICATION/PRÉDICTION D’ANCRE GPI PAR MODÈLE DE MARKOV CACHÉ

Ce chapitre présente le deuxième volet de la méthode hybride. On y propose un modèle de HMM pour faire la classification/prédiction du signal GPI, chez les séquences protéiques. La conception du modèle de HMM a été faite en collaboration avec Cedric Chauve et Anne Bergeron. L’implantation du modèle a été faite par Cedric Chauve. Cette section montre la puissance du HMM pour structurer le signal GPI, mais montre une moins bonne capacité de reconnaissance du signal. Cette section propose également une grammaire associée au signal.

6.1 Un modèle de Markov caché classificateur d’ancre GPI

Le signal GPI peut être vu tel une suite de mots caractéristiques dans une séquence de lettres.

Cette définition permet de dire qu’une structure linguistique existe. Cette « nature »

linguistique suggère l’utilisation des grammaires, telles que les grammaires régulières

stochastiques (HMM). Les HMM permettent l’extraction des connaissances que les

séquences contiennent sous forme de motifs ou signaux. Grâce à un « langage cellulaire »,

ces mots nous renseignent sur le rôle joué par ces séquences dans le fonctionnement de la

cellule. La définition d’une grammaire représentant le signal pourra sûrement aider à

l’établissement d’un langage cellulaire global plus précis qui, dans l’avenir, servira à mieux

comprendre le fonctionnement de tout être vivant.

La construction d’un modèle de Markov caché représentant le signal GPI offre la possibilité

de structurer ce signal. La section suivante décrit le modèle de Markov rattaché au signal GPI

ainsi que la grammaire régulière stochastique qui en découle. Le modèle est basé sur la

106

connaissance existante de la structure du signal. Cette structuration est remise en cause car,

dans l’étude de la grammaire GPI, on verra, qu’après entraînement, le modèle propose une

plus grande flexibilité dans la structure de son signal.

6.2 Le modèle

Les jeux de données

Plusieurs jeux de données ont été construits à partir des séquences de protéines de la base de

données Swiss-Prot :

Le jeu de données d’entraînement : Le groupe de séquences d’entraînement de notre modèle

de HMM est composé de 87 séquences GPI de la base de données Swiss-Prot, sélectionnées

pour la qualité de leur annotation (Appendice E). Une attention particulière a été portée à

l’annotation du site d’ancrage, car le HMM doit pouvoir prédire correctement cet

emplacement. Comme pour le réseau de neurones artificiels nous n’avons pas sélectionné des

séquences ayant une forte similarité entre elles pour empêcher un biais en leur faveur.

Le jeu de données pour la validation du modèle : Le jeu de séquences construit pour la

validation du modèle est différent de celui du réseau de neurones, car les séquences

sélectionnées pour l’entraînement sont différentes et la présence du site d’encrage doit

apparaître dans l’annotation. Ce jeu de test est composé de 66 séquences GPI (ayant un site

d’ancrage annoté) ne se retrouvant pas dans le jeu d’entraînement et non redondantes, et de

66 non-GPI.

Les jeux de test supplémentaires : Pour les mêmes raisons que pour le réseau de neurones

artificiels, nous avons utilisé des jeux de tests supplémentaires pour augmenter la qualité de

la validation du modèle. Les jeux de test supplmentaires construits pour le réseau de neurones

artificiels ont été utilisés (voir sect. 5.2.1)

107

Architecture

Pour la construction du modèle initial, nous avons utilisé une analyse des 210 séquences GPI

ayant un site d’ancrage annoté dans la base de données Swiss-Prot (fig. 6.1) ainsi que la

connaissance déjà documentée sur la structure du signal. Pour chaque séquence GPI de la

base de données Swiss-Prot, le signal GPI a été pris en note et utilisé dans la construction du

modèle. L’utilisation de cette connaissance permet l’initialisation de l’apprentissage du

modèle près de l’optimal. De la sorte, l’apprentissage se voit plus rapide et une meilleure

solution est envisageable (Baldi et Brunak, 2000).

Notre méthodologie se base sur des travaux similaires effectués en analyse de séquences

biologiques (Nielsen et Krogh, 1998). Il est à noter que la structure de départ du HMM avant

apprentissage n'est pas aléatoire, elle représente une approximation des connaissances

actuelles de la structure des séquences à ancre GPI. En d'autres termes, cette structure de

HMM peut être vue comme un résultat d'apprentissage effectué à partir d’un HMM neutre

ayant un très grand jeu de données composé d’ancres GPI aléatoires, dans un modèle

combinatoire correspondant à nos connaissances actuelles des ancres GPI. Ceci permet

d'expliquer, et justifier une phase d'apprentissage n'utilisant qu'un nombre très réduit de

séquences par rapport à la taille du modèle. Cette phase d'apprentissage doit être vue comme

une phase de raffinement du modèle d’ancres GPI aléatoires (le modèle avant apprentissage).

Cet apprentissage permettra la prise en compte des caractéristiques des séquences ayant

échappées à la modélisation combinatoire des séquences d’ancres GPI ayant servi de base à

la construction du modèle initial. Il est important de noter que le processus stochastique

générant les séquences biologiques n’est pas connu, on ne peut donc faire de justification

théorique de la méthodologie utilisée.

108

> 5NTD_BOOMI 25 nqa vmkymnstspittaldgrvtflktnqasdaclnlaspflvllvlvvfyhl

> CD24_RAT 27 ggg nqtsvapfpgnqnisaspnpsnattrgggsslqstagllalslsllhlyc

> CONT_CHICK 24 sga geyvvevrahseggdgevaqikisgatagvptlllglvlpalgvlaysgf

> NTRI_HUMAN 27 ngtcvasnklghtnasimlfgpgavsevsngtsrragcvwllpllvlhlllkf

> VSAC_TRYBB 27 dss ttdkckdktkdeckspnckwegetckdssilvtkkfalslvsaafasllf

Figure 6. 1 Structure de séquences GPI avec annotation du site d’ancrage en rouge.

Comme spécifié dans la section 2.2.2, la structure du signal GPI documentée dans la

littérature se résume ainsi ( w représente la position du site d’ancrage) (Eisenhaber, Bork et

Eisenhaber, 1998) :

1. Une région de liaison polaire et flexible d’environ 11 acides aminés ( 11−w … 1−w ) n’ayant pas de structuration secondaire intrinsèque.

2. Une région de résidus de faible poids moléculaire comprenant le site d’ancrage w : ( w … 2+w ).

3. Une région intermédiaire ( 3+w … 9+w ) comportant des résidus

modérément polaires.

4. Une queue commençant avec le résidu 9+w ou 10+w jusqu'à la fin et ayant une hydrophobicité suffisante.

Selon la littérature, le signal débuterait en position 11−w . Toutefois, notre modèle débute à la

position du site d’ancrage w car une trop grande variabilité survenant dans la région

précédente diminue la capacité de classification (fig. 6.2).

109

Début

Fin

afpghlllin....k

1 23

zone intermédiaire

queue hydrophobe

4 13i 1211 14 1516

17j41 40 39 38 37 36 35

site d'ancrage

Figure 6. 2 Modèle de Markov caché représentant le signal GPI.

Le modèle de Markov caché se résume ainsi :

1. Les trois premiers états correspondent aux petits résidus débutant par le site d’ancrage w , 1+w , 2+w .

2. Par la suite, une transition vers les 10 prochains états est possible (4 à 13). Cette section correspond au début de la partie intermédiaire. Chaque état situé dans cette partie a une probabilité de transition vers les autres états. L’état 13 représente le début d’une zone linéaire de transition composée de 3 états (14 à 16). Cette zone ferme la partie intermédiaire du signal et peut ainsi être composée de 4 à 13 acides aminés.

3. Finalement, à partir de l’état 16, des transitions sont possibles pour 20 états (17 à 36) représentant le début de la partie hydrophobe du signal. Chacun de ces 20 états a une probabilité de transition vers les autres états. L’état 36 correspond au début d’une autre zone linéaire de 5 états (37 à 41) composant la fin de la zone hydrophobe. Cette zone hydrophobe peut donc être composée de 6 à 35 acides aminés.

4. L’état final est un état particulier qui n’émet pas de signal d’acide aminé. Cet état

émet le caractère de sortie « $ » avec une probabilité de 100%.

Chaque séquence a un caractère « $ » ajouté à la fin. Pour pouvoir terminer, chaque séquence

doit passer par l’état final qui émet ce caractère de sortie. De cette façon, la longueur de la

séquence est prise en compte dans le processus d’affectation du score, ce qui permet de ne

pas biaiser les résultats en faveur des séquences courtes.

110

Les probabilités d’émission de caractères

Les probabilités d’émission des caractères pour chaque état ont été calculées à partir de

l’analyse effectuée sur les séquences de protéines GPI. Le tableau 6.1 montre les probabilités

d’émission de chaque acide aminé pour les trois premiers états.

Tableau 6. 1 Pourcentage d’occupation des acides aminés pour la zone d’ancrage. w =représente le site d’ancrage.

Acide aminé w 1+w 2+w a 0.0523 0.2618 0.3855 c 0.0285 0.0047 0.0047 d 0.0618 0.0237 0.0047 e 3.96637e-05 0.0142 0.0047 f 3.96637e-05 0.0095 0.0095 g 0.1626 0.2903 0.2284 h 3.96637e-05 0.0190 0.0095 i 3.96637e-05 0.0190 0.0190 k 3.96637e-05 0.0047 0.0047 l 3.96637e-05 0.0047 0.0428 m 3.96637e-05 0.0047 0.0095 n 0.2141 0.0047 0.0001 p 3.96637e-05 0.0285 0.0047 q 3.96637e-05 0.0142 0.0142 r 3.96637e-05 0.0237 0.0237 s 0.4666 0.2191 0.1523 t 3.96637e-05 0.0285 0.0713 v 3.96637e-05 0.0237 0.0095 w 3.96637e-05 0.0002 0.0001 y 3.96637e-05 0.0002 0.0001 $ 0 0 0

Une fois ces probabilités calculées, on remarque que, pour certains états, certains acides

aminés ont une probabilité d’émission nulle, ce qui peut être trop discriminant. Ceci n’est pas

étonnant étant donné la possibilité de retrouver peu de séquences dans les groupes

d’entraînements de problèmes biologiques. On remédie à ce problème en utilisant des

pseudo-counts (Baldi et Brunak 2001) dont le principe est le suivant: chaque probabilité

d’émission nulle, pour un acide aminé X en un état Y, est remplacée par une probabilité très

faible calculée en effectuant une moyenne des probabilités d’émission de X sur un ensemble

111

d’états fixés du HMM. Cette modification implique aussi une normalisation des probabilités

d’émission des autres acides aminés en Y, de sorte que la somme des probabilités d’émission

en Y vaut 1.

Pour la zone intermédiaire, la moyenne des probabilités d’émission est calculée sur la zone

complète (états 4 à 16). Le principe est le même pour la zone hydrophobe (voir tableau 6.2).

Par contre, pour la zone initiale, il n’était pas adapté de procéder de même du fait de la très

grande différence entre les trois états (voir tableau 6.1).

Tableau 6. 2 Pourcentage d’occupation des acides aminés pour la zone intermédiaire et la queue hydrophobe.

Acide aminé Zone intermédiaire

Queue hydrophobe

État final

a 0.1095 0.1024 0 c 0.0210 0.0195 0 d 0.0136 0.0037 0 e 0.0136 0.0056 0 f 0.0299 0.0647 0 g 0.0809 0.0436 0 h 0.0387 0.0148 0 i 0.0482 0.0606 0 k 0.0244 0.0079 0 l 0.1217 0.3252 0 m 0.0183 0.0233 0 n 0.0238 0.0056 0 p 0.0891 0.0363 0 q 0.0278 0.0145 0 r 0.0544 0.0183 0 s 0.1299 0.0891 0 t 0.0551 0.0521 0 v 0.0680 0.0790 0 w 0.0197 0.0205 0 y 0.0115 0.0123 0 $ 0 0 1

112

Pour calculer les pseudo-counts, on a donc procédé colonne par colonne, et pour chacune des

trois colonnes, on a, avant de normaliser, asigné à chacun des k acides aminés émis avec

probabilité 0 une probabilité d’émission égale à

( )wk21/1

où w est un poids déterminé axpérimentalement. Le facteur 21 vient du fait qu’il y a 21

émissions possibles, les 20 acides aminés et $.

Probabilités de transition

Les probabilités affectées aux transitions sont inversement proportionnelles au nombre de

transitions pouvant sortir de chaque état. Par exemple, l’état 1 a une seule transition possible,

soit vers l’état 2. La probabilité de cette transition sera de 1. Pour l’état 3, on a 10 transitions

possibles, soit vers les états 4 à 13. La probabilité de ces 10 transitions sera de 0.1 pour

chaque transition. Le modèle de départ avec les probabilités de transition et d’émission se

retrouve dans l’Appendice F.

L’apprentissage

Pour l’apprentissage, un ensemble de séquences d’entraînement composé de 87 séquences

annotées comme ayant une ancre GPI a été constitué. Le processus d’apprentissage a

nécessité 100 itérations de l’algorithme de Baum-Welch.

La validation

Pour valider notre modèle, nous avons effectué 500 expériences de bootstrap non

paramétrique (rééchantillonnage) sur notre ensemble de données d’apprentissage. Pour

chacune des 500 expériences, les 87 séquences du jeu d’entraînement (répétitions permises)

ont servi à construire 500 groupes d’apprentissage. Le HMM a ensuite été entraîné avec ces

nouveaux groupes de données selon la même démarche que pour le modèle initial. Chaque

« nouveau » HMM a par la suite été testé à l’aide du test de validation de 66 séquences.

113

Le seuil d’acceptation d’une prédiction

Le seuil d’acceptation d’un classement/prédiction a été effectué à l’aide d’une analyse ROC

(Appendice G). La figure 6.3 montre une courbe ROC effectuée sur les résultats du test de

validation du HMM. Pour le choix du seuil, nous avons sélectionné 4.06 comme seuil

optimal. Ce seuil nous donne une sensibilité de 0.86 et une spécificité de 0.99.

Pour l’affectation des scores, les sections d’une séquence débutant par au moins trois acides

aminés de faible poids moléculaire et ayant au minimum quinze acides aminés de longueur

ont été présentées au modèle et évaluées selon l’algorithme Forward et le principe du « log-

odd ». Le meilleur score obtenu est gardé comme le score du segment. Par la suite,

l’algorithme Viterbi a été utilisé pour trouver le chemin le plus probable et, ainsi, nous

donner la structure du signal (site d’ancrage). Pour la prédiction du site d’ancrage, les trois

meilleurs scores obtenus pour chaque séquence représentent les sites d’ancrage potentiels.

Figure 6. 3 Courbe ROC pour le test de validation du HMM

0.0 0.2 0.4 0.6 0.8 1.0

1 - Spécificité

0.0

0.2

0.6

0.8

1.0

Sens

ibili

Courbe ROC

114

6.3 Résultats des tests et discussion

Un test de validation a été effectué avec le jeu de données de 66 séquences GPI et de 66

séquences non-GPI (tableau 6.3).

Ce test montre que, pour un seuil de 4.06, le modèle a une précision de 0.92 et un bon

coefficient de corrélation (0.82), ce qui implique que les prédictions de ce modèle sont

précises. Le calcul de l’aire sous la courbe ROC donne une aire de 0.959, ce qui est

satisfaisant. Comme pour le réseau de neurones, ces résultats, en plus des résultats du test de

validation, sont de bons indices que notre modèle a une précision acceptable et une capacité

de généraliser intéressante.

Comme le test de validation du HMM ne comporte que 132 (66 GPI et 66 non GPI)

séquences au total, comparativement à 268 (134 GPI et 134 non GPI) séquences pour le

réseau de neurones, nous avons présenté le test de validation du réseau de neurones au HMM.

Toutefois, le résultat de ce test doit être pris avec quelques réserves, puisque certaines

séquences du jeu d’entraînement se retrouvent dans ce test. Selon ce test, la sensibilité du

modèle, à un seuil de 4.06, ne serait que de 0.77 et la spécificité serait de 0.99. Ces deux tests

de validation nous indiquent donc que la sensibilité du HMM se situe entre 0.77 et 0.86 et

que la spécificité reste près de 0.99, comparativement à 0.90 de sensibilité et à 0.97 de

spécificité pour le réseau de neurones.

115

Tableau 6. 3 Résultats du test de validation du HMM.

Test de validation Précision

du testEnsembleTNTP + = 0.92

Sensibilité

FNTPTP+

= 0.86

Spécificité

FPTNTN+

= 0.99

Valeur de prédiction positive FPTP

TP+

= 0.98

Valeur de prédiction négative FNTN

TN+

= 0.87

Coefficient de corrélation ( )( ) ( ) ( ) ( )TPFNFNTNTNFPFPTP

FNFPTNTP+×+×+×+

×−× = 0.82

À la lumière de ces résultats, il devient important de présenter nos jeux de test

supplémentaires au HMM. Le tableau 6.4 montre la sensibilité de notre modèle envers les

séquences GPI et sa spécificité envers des séquences non GPI.

Ces tests supplémentaires montrent que la sensibilité du HMM est d’environ 0.80 et la

spécificité, elle, se situe à 0.99. Si on compare ces résultats avec le réseau de neurones

artificiels, le HMM est moins sensible que le réseau de neurones, mais sa spécificité est

supérieure, avoisinant le 0.99. Comme pour le réseau de neurones artificiels, le HMM a

rejeté les protéines LIPL avec des valeurs ayant une moyenne de -18.00, ce qui est largement

en dessous du seuil d’acceptation du HMM. Nous ne pouvons que réaffirmer que, d’après nos

modèles, la protéine LIPL est probablement mal annotée comme étant une protéine à ancre

GPI.

116

Tableau 6. 4 Résultats des jeux de test supplémentaires.

Test de spécificité : Séquences non-GPI

Cytoplasmique et nucléaire 1.00

Trasnsmembrane 0.98

Transport 0.98

Aléatoire 1.00

Test de sensibilité : Séquences GPI

Séquences GPI Swiss-Prot 0.80

Temps de traitement

Les HMM sont efficaces pour la fouille de bases de données biologiques. Toutefois, dans

notre étude, le temps de traitement est beaucoup plus grand que celle du réseau de neurones

artificiels. Notre modèle a effectivement pris un temps de traitement 10 fois supérieur à celle

du réseau de neurones. Par exemple, pour le traitement de 1 575 séquences protéiques, il a

fallu 63 secondes à un Pentium 4, 2.8 Ghz.

La prédiction du site d’ancrage

Grâce à l’algorithme Viterbi, nous avons pu proposer des prédictions structurées. Pour

chaque prédiction, nous gardons les trois meilleurs chemins retracés par l’algorithme Viterbi

(fig. 6.4).

> PRIO_HUMAN12.2049 *** 27 | [ssm] vlfssppvillisfliflivg> PRIO_HUMAN11.7437 *** 26 | [gss] mvlfssppvillisfliflivg> PRIO_HUMAN 9.1819 *** 28 | [smv] lfssppvillisfliflivg

Figure 6. 4 Les trois meilleurs chemins de la séquence PRIO_HUMAN. Le site d’ancrage et les deux acides aminés suivant ( w , 1−w et 2+w ) sont représentés entre crochets. Le score obtenu pour chacun de ces chemins est représenté en gras.

117

Pour un groupe de séquences de la base de données Swiss-Prot ayant une annotation du site

d’ancrage (300 séquences), nous avons pu prédire correctement 78% des sites d’ancrages. Ce

résultat semble possiblement faible. Toutefois, 58% des sites d’ancrage manqués étaient à

moins de trois acides aminés du site annoté dans Swiss-Prot. Il faut aussi noter que beaucoup

des séquences annotées dans Swiss-Prot proviennent de prédictions. Les sites d’ancrage de

ces prédictions ne sont pas démontrés en laboratoire, donc possiblement erronés. Cette

mesure de la précision du site d’ancrage reste donc une estimation minimale de la capacité de

prédiction du HMM.

6.4 Une grammaire GPI

La construction d’un HMM représentant le signal présent chez les protéines à ancre GPI nous

offre une opportunité très intéressante : la définition d’une grammaire stochastique du signal.

Cette grammaire pourra, par la suite, servir comme source d’information sur la structure du

signal, en définissant les caractéristiques propres au signal GPI. La grammaire présentée en

Appendice H nous permet de définir une structure du signal un peu différente de la structure

proposée dans la littérature jusqu’à présent.

6.4.1 La structure du signal

La zone du site d’ancrage

Selon Eisenhaber, Bork et Eisenhaber (1998), la composition en acides aminés de la position

du site d’ancrage w serait majoritairement des s (46% en moyenne). Cette position

comporterait également les acides aminés n, d, a, g et c. Notre grammaire stochastique

représentant le signal GPI va dans le même sens. Le tableau 6.5 montre la composition en

acides aminés pour la position du site d’ancragew .

118

Tableau 6. 5 Acides aminés pour le site d’ancrage selon notre méthode hybride

acide aminé %

s 40 n 25 g 16 a 6 c 3 b 1

Pour la position 1+w , Eisenhaber la considère similaire à la position w . Dans notre cas, nous

voyons une certaine similitude mais la dominance des acides aminés s, n, d, a, g, et c n’est

pas aussi évidente. On voit que l’acide aminé g est le plus représenté avec 31% d’occurrence.

Les acides aminés s et a suivent avec respectivement 22% et 20%. Les seuls absents sont c, k,

r, w, et y. Les autres acides aminés sont faiblement représentés mais ont une probabilité

d’être émis dans certains cas.

Pour la position 2+w , Eisenhaber note une dominance de s, a et g dans la grande majorité

des cas (94% pour les protozoaires et 70% pour les métazoaires). Selon notre modèle, ces

acides aminés dominent aussi avec un total de 60% de probabilité d’émission pour les trois

acides aminés. Cependant ce plus faible pourcentage laisse la place à d’autres acides aminés

tels que l et t qui sont représentés avec une probabilité de 10%. Les seuls acides aminés

absents sont d, e, f, h, p, w et y.

Comme il a été spécifié dans le chapitre 2 section 2.2.2, la zone d’ancrage est caractérisée par

des acides aminés de faible poids moléculaire. La dominance des acides aminés de faible

poids a, s et g et l’absence ou la très faible probabilité d’occurrence des acides aminés de fort

poids moléculaire w, r, y et k prouve que le poids moléculaire est une caractéristique très

importante dans cette partie du signal GPI.

La zone hydrophile

Dans cette zone nous allons nous concentrer sur la longueur. Les chemins les plus probables

dans cette zone ont entre 7 et 12 acides aminés. La structure proposée par Eisenhaber (1998)

119

parle d’une zone de 7 acides aminés. Toutefois, on retrouve dans certains cas des chemins

ayant 6 acides aminés ou 13 acides aminés. Cette zone est principalement composée d’acides

aminés hydrophiles tel s, r, g, v et p.

La zone hydrophobe

Comme pour la région hydrophile nous avons porté notre attention sur la longueur de cette

zone et sur l’hydropathie des acides aminés qui la composent. Les chemins les plus probables

couvrent entre 19 et 25 acides aminés. Un fait intéressant est la présence d’une probabilité

faible, mais significative, de chemins n’ayant que 11 acides aminés. La nature des acides

aminés composant un chemin n’ayant que 11 acides aminés révèle la présence d’acides

aminés ayant une très forte hydropathie l et i.

Dans des travaux futurs, il serait intéressant de proposer les grammaires représentant

différents signaux protéiques. La construction d’une banque de ces grammaires pourrait

servir dans différentes analyses grammaticales telles que la recherche de motif dans les bases

de données de séquences et comme base de compréhension du langage cellulaire. L’étude des

grammaires de signaux ainsi que leurs comparaisons pourrait révéler de nouvelles

connaissances relatives aux signaux protéiques.

6.5 Conclusion

Notre modèle de HMM est plus spécifique que le modèle de réseau de neurones avec 0.99 de

spécificité, comparativement à 0.97 pour le réseau de neurones. De plus, le HMM nous offre

un grand avantage par rapport au réseau de neurones, soit celui de prédire un site d’ancrage

potentiel. Toutefois, le réseau de neurones offre une plus grande sensibilité, ou capacité de

détecter le signal GPI, que le HMM, avec un résultat de 0.90 par rapport à 0.80. Finalement

le HMM permet de définir une grammaire du signal qui nous offre beaucoup d’information

quant à la composition en acides aminés et la structure du signal GPI.

120

La grande sensibilité du réseau de neurones couplée avec une vitesse d’exécution 10 fois

supérieure au HMM suggère l’utilisation du réseau de neurones dans la tâche de nettoyage

priliminaire des données. La section suivante propose une méthode hybride utilisant le réseau

de neurones pour sélectionner les candidats potentiels à une ancre GPI et le HMM pour la

structuration du signal. Nous allons aussi introduire une annotation qualitative des résultats

de classification du réseau de neurones en utilisant une échelle de qualité basée sur les

résultats du HMM.

CHAPITRE VII

CLASSIFICATION/PRÉDICTION D’ANCRE GPI PAR MÉTHODE HYBRIDE RÉSEAU DE NEURONES ARTIFICIELS ET MODÈLE DE

MAKKOV CACHÉ Ce chapitre propose le volet final de la description de la méthode hybride Dans cette section, l’emphase est mise sur l’utilisation du HMM comme outil d’annotation des résultats de classification du réseau de neurones. Nous verrons que la méthode hybride est plus performante que les deux modèles utilisés indépendamment et que l’information obtenue est beaucoup plus complète.

7.1 Méthode de classification/prédiction hybride

Comme notre solution potentielle au problème de classification de signaux protéiques

implique deux méthodes d’apprentissage, il est intéressant de voir les différentes applications

de leur hybridation. Depuis plus de 10 ans, les hybrides réseau de neurones/HMM sont assez

communs dans la littérature scientifique. Ils sont surtout présents dans des domaines comme

la reconnaissance de l’écriture manuscrite (Bengio et al., 1995 ; Morita et al., 2003) et dans

celui de la reconnaissance de la parole (Rigoll et Willett, 1998). Cette hybridation n’est pas

étonnante, car, dans plusieurs cas, il est intéressant de pouvoir combiner le pouvoir

discriminant des réseaux de neurones avec la capacité de modéliser des séquences des HMM

122

L’hybridation est utilisée pour différentes raisons et sous différentes formes. Dans quelques

architectures hybrides, les deux modèles sont inséparables. Dans ces cas, le réseau de

neurones est utilisé pour paramétrer et moduler le HMM. Dans ces architectures,

l’apprentissage des deux modèles est unifié (Baldi et Chauvin, 1996). Un autre exemple

d’unification est l’utilisation du réseau de neurones pour l’estimation des probabilités à priori

des transitions d’états du HMM (Boulard, 1995). En bioinformatique, des travaux comme

ceux de Martelli et ses collaborateurs (Martelli et al., 2002) utilisent ce type de combinaison.

Dans d’autres architectures, les deux modèles sont entraînés séparément. Par exemple, le

réseau de neurones peut être utilisé en aval des HMM pour classifier les patrons de

probabilités d’une séquence d’évènements produits par plusieurs HMM (Cho et Kim, 1995).

Dans d’autres cas, le réseau de neurones se retrouve en amont et sert, par exemple, à calculer

les probabilités à posteriori d’appartenance à une classe. Ces cas sont des architectures

hybrides de réseaux de neurones artificiels et de HMM où le réseau de neurones est, soit en

amont, soit en aval, ou encore incorporé au HMM. Toutefois, on peut également voir

l’hybridation au point de vue de la méthode d’analyse.

L’hybridation est souvent associée à l’utilisation des réseaux de neurones artificiels ou à des

HMM pour faciliter la construction ou l’apprentissage de l’autre méthode. Cependant, cette

hybridation peut également être vue comme une combinaison des deux méthodes en tirant

avantage des forces de chacune. Le réseau de neurones et sa capacité d’avoir une vue

générale de la séquence peut servir comme prétraitement d’une séquence, tandis que le HMM

et sa capacité de structuration locale de l’information permet de raffiner la prédiction. On

pourrait ici parler plutôt de méthode hybride ou d’hybridation de méthodes, au lieu

d’architecture hybride, car l’hybridation est dans la cascade d’analyse des données, c’est-à-

dire dans l’utilisation combinée de méthodes différentes. Des travaux, tels que ceux de

Nielsen et Krogh (1998), sont un bon exemple d’utilisation combinée des HMM et des

réseaux de neurones artificiels. Ces chercheurs montrent que la classification/prédiction de

signal en partie N-terminale de protéines à l’aide d’un réseau de neurones artificiels est

raffinée par l’ajout d’un HMM permettant la discrimination entre un signal clivé et un signal

d’ancre non clivé.

123

Pour notre projet, nous avons opté pour l’hybridation de méthodes, et non pour une

architecture hybride. Un réseau de neurones artificiels débute la cascade d’analyse qui se

termine par un traitement effectué avec un HMM.

7.2 La méthode

Tel que vu dans le chapitre 5, notre modèle de réseau de neurones artificiels possède une

grande capacité de reconnaissance du signal GPI dans son ensemble. Il est utile pour faire un

premier tri en éliminant les séquences ayant une très faible probabilité d’être des protéines à

ancre GPI. De plus, sa grande vitesse de traitement suggère également son utilisation pour

diminuer l’espace de recherche. Par la suite, les candidats sélectionnés seront présentés au

HMM préalablement entraîné à reconnaître le signal GPI. Les scores octroyés par le HMM

serviront ensuite à qualifier la classification et à structurer le signal en identifiant la zone

d’ancrage potentielle. La figure 7.1 schématise la méthode d’analyse hybride. Comme on

peut le remarquer, l’analyse se fait en deux étapes distinctes : le nettoyage et le raffinage.

>sØquence:aacavafatyilopw

EncodageNettoyage: RØseau de

neurones artificiel

sØquences potentiellement

classe "ancre GPI"

Structure :ModŁle de Markov cachØ

>0.90

<0.90

SØquencesRejetØes

PrØdictionsstructurØes

Figure 7. 1 Méthode d’analyse hybride.

124

Le score HMM obtenu pour chaque candidat sert à qualifier la prédiction selon une échelle de

probabilité. Cette échelle s’échelonne de la classe hautement probable jusqu’à la classe

potentielle fausse positive (tableau 7.1). Les classes sont définies à l’aide d’une analyse ROC

portant sur un jeu de tests de 268 séquences (Appendice I). Ce test a été sélectionné car il

contient plusieurs exemples de séquences, ce qui nous donnera une meilleure évaluation des

classes d’annotation.

Tableau 7. 1 Annotation hybride.

Catégorie Classe Score HMM

hautement probable (classe 1)

score > 5.4

très probable (classe 2)

2.2 < score < 5.39

PROBABLE

faiblement probable (classe 3)

0.2 < score < 2.19

POTENTIELLE fausse positive potentielle (classe 4)

score < 0.19

Dans ce tableau, les classes hautement probable, très probable et faiblement probable

peuvent être regroupées sous la catégorie « probable », tandis que la classe fausse positive

potentielle peut être isolée sous la catégorie « potentielle ».

Ce type d’annotation nous permet de garder la forte sensibilité obtenue grâce au réseau de

neurones artificiels et de profiter de la structuration et de la spécificité du HMM. La

particularité de ce type d’annotation donne une grande flexibilité, laissant à l’utilisateur la

décision de privilégier la spécificité du HMM ou la sensibilité du réseau de neurones

artificiels.

125

7.3 Résultats des tests

Les résultats de la méthode hybride sont, en fait, les résultats obtenus par le réseau de

neurones artificiels sur lesquels nous effectuons une annotation. Les jeux de test

supplémentaires construits pour la validation du réseau de neurones ont été présentés au

HMM et soumis à l’annotation hybride. Le tableau 7.2 montre la proportion des prédictions

du réseau de neurones appartenant à chaque classe.

Tableau 7. 2 Proportion des prédictions du réseau de neurones selon l’annotation hybride. Résultats des tests supplémentaires.

Organisme hautement probable (classe1)

très probable (classe 2)

faiblement probable (classe 3)

fausse positive potentielle (classe 4)

GPI Métazoaire 0.83 0.10 0.03 0.04 Protozoaire 0.60 0.25 0.05 0.10 Champignon 0.67 0.19 0.07 0.07 Plante 0.77 0.13 0.05 0.05

Non-GPI Cytoplas.-nucléaire 0.00 0.00 0.00 1.00 Transmembrane 0.18 0.09 0.18 0.55 Transport 0.17 0.00 0.00 0.83 Aléatoire 0.01 0.02 0.08 0.89

Il y a donc, par exemple, 83% des prédictions métazoaires du réseau de neurones qui

appartiennent à la classe hautement probable et seulement 4% qui pourraient être considérées

comme des fausses positives potentielles. Pour les séquences non-GPI, les prédictions

sélectionnées par le réseau de neurones, dans le jeu de données de séquences cytoplasmiques

et nucléaires, se retrouvent toutes dans la classe des faux positifs. Donc, une annotation ne

considérant pas la classe fausse positive potentielle nous donnerait une spécificité de 100%

avec les séquences cytoplasmiques et nucléaires.

Le tableau 7.3 montre la précision de la méthode selon les différentes classes. Si le but est de

trouver des séquences hautement probables, seulement les prédictions de la classe supérieure

126

seront acceptées. Un seuil d’acceptation des prédictions selon une classe inférieure entraîne

une sélection de séquences GPI moins conforme à la structure de base. Cette augmentation de

la sensibilité entraîne toutefois un plus haut taux de faux positifs. Ce tableau montre la

classification des tests selon la catégorie probable comprenant les prédictions de la classe 1, 2

et 3.

Tableau 7. 3 Comparaison de la précision du système hybride selon la catégorie probable et du réseau de neurones artificiels seul.

Organisme Réseau de

neurones

Catégorie Probable

(classe 1, 2 et 3)

GPI Métazoaire 0.917 0.883 Protozoaire 0.945 0.849 Champignon 0.964 0.893 Plante 0.928 0.881

non-GPI Cytoplasmique-nucléaire

0.02 0.00

Transmembrane 0.06 0.02 Transport 0.07 0.01 Aléatoire 0.04 0.01

Le tableau 7.3 montre également qu’en éliminant la classe fausse positive potentielle (classe

4) nous perdons un peu de sensibilité. En ne conservant que les trois premières classes

(catégorie probable) on se retrouve avec une sensibilité plus basse dans tous les organismes.

Par exemple, pour les métazoaires si on garde toutes les classes (1 à 4), la sensibilité de notre

méthode hybride est identique à celle du réseau de neurone c’est-à-dire de 0.917. Si on

élimine la classe 4 on obtient une sensibilité de 0.883 chez les métazoaires. Toutefois la

spécificité de notre méthode hybride se voit avantagée par l’élimination de la classe 4. Pour

les métazoaires on passe d’une spécificité de 0.04 pour l’ensemble des classes, à une

spécificité de 0.01 pour la catégorie probable.

127

La méthode hybride offre donc une grande flexibilité. Comme le modèle de Markov caché à

été construit en se basant sur la structure typique d’un signal GPI, la classe hautement

probable rassemble les séquences ayant une structure de signal plus conventionnel. Par

contre, des séquences ayant un signal moins précis se voient classifiées dans les classes

inférieures. La présentation des résultats est très informative, laissant à l’utilisateur la

possibilité de choisir le niveau de sensibilité selon le besoin (fig. 4.13). Si, par exemple,

l’intérêt de l’étude est de trouver de nouvelles séquences à ancre GPI ayant un signal moins

conventionnel, les classes inférieures auront une forte chance de contenir ces séquences.

aNEURAL NET#7 : gb|AAC75303.1|Score: 0.0008REJECT

bNEURAL NET#267 : PSCA_HUMANScore: 0.99994ACCEPT

HYBRIDE#267 : PSCA_HUMANScore 1: 20.9146 Class 1Structure :[sga] halqpaaailallpalglllwgpgqlScore 2: 14.9032 Class 1 Structure :[aha] lqpaaailallpalglllwgpgqlScore 3: 4.9965 Class 2Structure :[nas] gahalqpaaailallpalglllwgpgql

cNEURAL NET#39 : GS28_CRIGRScore: 0.99999ACCEPT

HYBRIDE#39 : GS28_CRIGRScore 1: -1.03186 Class 4Structure :[sli] lggvigicctillllyafh

Figure 7. 2 Résultats de la méthode hybride. a : Séquence rejetée par le système. b : Séquence GPI hautement probable. c : Séquence potentiellement fausse positive.

La figure 7.2a montre un exemple de rejet de la séquence, dès la phase de nettoyage, par le

réseau de neurones artificiels. Le traitement de ces séquences se termine à cette phase. La

128

figure 7.2b montre un exemple de sortie obtenu pour une séquence ayant une forte probabilité

d’avoir un signal GPI en position C-terminale. Ici, le score du réseau de neurones artificiels

débute l’annotation. Par la suite, le score du HMM suit accompagné d’un maximum de trois

propositions de structure du signal. La partie entre crochets représente la zone du site

d’ancrage potentiel. Comme on peut voir avec l’exemple de la figure 7.2c, une prédiction

dans la classe fausse positive potentielle a normalement moins de sites d’ancrage possibles

(une seule proposition dans le cas de GS28_CRIGR) qu’une séquence de la classe hautement

probable.

Annotation à grande échelle du protéome connu de Arabidopsis et Oryza

L’analyse à grande échelle étant notre premier objectif, les séquences connues de deux

protéomes, Arabidopsis thaliana contenant 28860 séquences (The Arabidopsis Genome

Initiative, 2000) et Oryza sativa contenant 28519 séquences (GRAMENE, 2004) ont été

soumises à la méthode hybride pour annotation. Le tableau 7.4 donne les résultats obtenus

pour ces deux bases de données.

Tableau 7. 4 Classification du protéome de Arabidopsis thaliana et Oryza sativa.

Arabidopsis thaliana Chromosome 1 à 5

Nombre total de séquences 28860

Séquences potentiellement GPI sélectionnées par le réseau de neurones

1779

Annotation hybride

classe 1 2 3 4 fraction des prédictions 0.12 0.08 0.07 0.73 fraction du protéome 0.007 0.005 0.004 0.04

Oryza sativa

Nombre total de séquences 28519

Séquences potentiellement GPI 1575

Annotation hybride

classe 1 2 3 4 fraction des prédictions 0.12 0.07 0.07 0.74 fraction du protéome 0.006 0.004 0.004 0.04

129

Selon la classification choisie, la proportion occupée par les séquences GPI serait entre 0.6 %

et 1 % du protéome de Oryza sativa et entre 0.7% et 1% pour Arabidopsis thaliana (les

prédictions de la classe hautement probable pour les deux protéomes sont présentées dans

l’Appendice J)

.

DISCUSSION

Comme nous l’avons constaté dans le chapitre V, les résultats obtenus avec le modèle de

réseau de neurones artificiels sont très intéressants mais le réseau de neurones artificiels

n’offre pas une classification complète. L’utilisation des propriétés physico-chimiques des

acides aminés permet de faire un premier nettoyage des données en éliminant, entre autres,

les séquences n’ayant pas un hydrophathie compatible avec le signal GPI. La complexité du

signal demande une classification plus fine qui prend en compte d’autres critères

représentatifs du signal GPI, dont sa structure. L’introduction d’un HMM dans la méthode

d’analyse permet de prendre en compte cette structure particulière du signal GPI.

Une méthode de classification utilisant un des deux modèles (réseau de neurones artificiels

ou HMM) est envisageable, mais comme les deux systèmes s’attaquent à deux aspects

différents du signal, une hybridation des deux approches est beaucoup plus avantageuse.

Comme on peut le constater dans l’analyse des résultats de la méthode hybride, les résultats

des tests de performance sont améliorés. De plus, l’analyse à grande échelle de deux génomes

de plantes donne des résultats plus qu’intéressants. Avec une proportion entre 0.6% et 1% du

génome nous confirmons les résultats d’une étude effectuée par Eisenhaber et al. (2003) qui

estimaient la proportion du protéome de Oryza sativa occupée par les protéines à ancre GPI à

0.94% et, à 0.75% pour Arabidopsis thaliana. Nos estimations sont supérieures à l’estimation

faite par la même auteure, dans une étude antérieure sur l’analyse de la proportion occupée

par les ancres GPI dans différents protéomes (Eisenhaber, Bork et Eisenhaber 2001). Dans

cette étude, la proportion du protéome occupée par les ancres GPI était estimée à 0.5% pour

tous les eucaryotes. Cette sous-estimation peut être due au fait que le prédicteur big- de GPI

de plantes, développé par le groupe de Eisenhaber, est beaucoup plus sensible au signal GPI

(sensibilité de plus de 0.95) que les prédicteurs big- développés pour les autres eucaryotes.

Ceci nous amène à discuter de l’outil de prédiction effectuant la classification des protéines à

131

ancre GPI développé par le groupe du Dr Eisenhaber du Research Institute of Molecular

Pathology de Vienne en Autriche.

L’outil de prédiction d’ancre GPI big- , est disponible publiquement. Les bases, ainsi que la

structure de cet outil, diffèrent significativement de notre méthode hybride. À l’origine, big-

se composait de deux prédicteurs : un prédicteur spécifique aux métazoaires et un spécifique

aux protozoaires (Eisenhaber, Bork et Eisenhaber 1999). Plus récemment, le groupe de

Eisenhaber a développé un prédicteur spécifique aux plantes et un pour les champignons

(Eisenhaber et al., 2003). Notre méthode hybride, par contre, n’est pas spécifique à un

groupe taxonomique. Comme pour notre méthode hybride, la partie ciblée est la queue C-

terminale. Toutefois, dans le cas de big-, on recommande que chaque séquence soit soumise

préalablement à un outil de prédiction du signal peptide en position N-terminale. Cette

recommandation implique qu’une prédiction d’ancre GPI nécessite la présence d’un signal en

N-terminale. Ceci représente une contrainte supplémentaire qui n’est pas présente dans notre

méthode hybride.

Le principe sous-jacent à big- est une description du motif GPI basée, entre autres, sur les

propriétés physiques du signal (hydrophobicité, longueur des différentes zones composant le

signal) (Eisenhaber, Bork et Eisenhaber 2003). À partir d’une analyse des séquences GPI

connues, le logiciel big- propose une segmentation du signal en quatre zones distinctes.

Cette segmentation représente la structure du signal discutée dans le chapitre 2 (Eisenhaber et

al., 1998).

Grâce à une analyse d’un groupe de séquences d’entraînement, un score est affecté aux

séquences soumises à big- en se basant sur un alignement ainsi que sur différents calculs

effectués dans chaque zone. Cette méthode d’évaluation s’avère très spécifique au groupe

taxonomique concerné. Cette forte spécificité entraîne, toutefois, une sensibilité plus faible

pour certains groupes ayant un signal GPI moins typique tels que les protozoaires (tableau

7.5). Comme on peut le constater dans la comparaison présentée dans le tableau 7.5, la

méthode hybride est plus sensible au signal GPI que big-. On remarque une exception, dans

le cas des plantes, où big- offre une meilleure capacité de prédiction des protéines à ancre

132

GPI. Cette meilleure performance du prédicteur big- de plantes, comparativement aux autres

prédicteurs big- et à la méthode hybride, s’explique possiblement par la présence d’une

grande quantité de séquences GPI provenant de collaborateurs de Eisenhaber, Paul Dupree et

Georg Borner de l’université de Cambridge en Grande-Bretagne. Pour ce qui est de la

performance de notre méthode hybride, une plus faible sensibilité s’explique probablement

par la présence, dans la base de données Swiss-Prot, de plusieurs protéines annotées avec des

prédictions de big- (Farriol-Mathis et al., 2004). La présence de ces prédictions dans les

tests donne un avantage certain à big- dans une étude comparative.

Tableau 7. 5 Étude comparative de la capacité de prédiction de la méthode hybride vs les différents prédicteurs de big-.

Organisme Méthode hybride catégorie probable

big- prédicteur

GPI Métazoaire 0.883 0.719 Protozoaire 0.849 0.643 Champignon 0.893 0.857 Plante 0.881 0.952

non-GPI Cytoplas.-nucléaire

0.00 0.00

Transmembrane

0.02 0.00

Transport 0.01 0.00 Aléatoire 0.004 0.001

Pour le test de spécificité, on peut constater, dans le tableau 7.5, que big- est très spécifique

dans toutes les catégories, ne donnant ainsi que très peu de faux positifs. Toutefois, la

spécificité de la méthode hybride est comparable, malgré la présence d’une possibilité de

faux positifs dans la classe des protéines transmembranaires et dans celle des protéines de

transport. Cette comparaison montre donc une sensibilité supérieure de la méthode hybride

dans la plupart des groupes taxonomiques, tout en offrant une spécificité raisonnable.

Finalement notre méthode d’analyse propose une nouvelle définition de la grammaire GPI.

Cette nouvelle structuration du signal ne peut, à cette étape de la recherche, qu’être une base

133

de questionnement pour les biologistes. Il faudrait des études en laboratoire qui permettraient

de vérifier cette nouvelle structure avant de pouvoir renverser des années d’études

expérimentales ayant amené la structure du signal présentement acceptée.

CONCLUSION

L’annotation des séquences biologiques est un projet à très long terme qui va monopoliser les

efforts conjugués de biologistes, d’informaticiens et de bioinformaticiens pour plusieurs

années encore. Dans cette thèse, nous avons abordé le problème de l’annotation sous l’angle

de la classification, et nous avons montré que l’identification des signaux biologiques

nécessitait le recours à plusieurs outils de l’informatique cognitive.

L’alignement de séquences permet, dans un premier temps, d’identifier des caractéristiques

communes des séquences, comme la présence d’un groupe de nucléotides ou d’acides aminés

à une certaine position. D’autre part, certains aspects de la fonctionnalité des protéines

échappent à un traitement aussi simple, car les motifs qui leur sont associés ne dépendent pas

nécessairement de l’ordre ou de la nature des acides aminés des séquences correspondantes.

Nous avons ensuite exploré les réseaux de neurones artificiels, principalement à cause de la

vision globale des séquences que ce modèle permet d’intégrer. Notre réseau de neurones a

permis de confirmer l’importance de l’hydropathie dans la détection de protéines à ancre GPI

et même de suggérer qu’une hydropathie particulière aux GPI existe, étant donné la bonne

performance du réseau dans la tâche de classification. Malheureusement, un réseau de

neurones fonctionne souvent comme une « boîte noire », et le résultat de son apprentissage ne

fournit pas une représentation analysable des connaissances.

L’utilisation de grammaires régulières stochastiques, tels les HMM, nous a permis d’exploiter

la nature séquentielle de la structure primaire des protéines. En partant des modèles connus

du signal GPI, nous avons construit un HMM qui, après apprentissage, a raffiné nos

connaissances sur la structure de la zone d’ancrage et de la queue hydrophobe.

135

C’est toutefois l’hybridation de ces deux méthodes d’apprentissage machine qui a produit les

résultats les plus probants. En combinant la sensibilité du réseau de neurones, qui permet un

« nettoyage » des données, à la capacité du HMM de structurer le signal, nous avons construit

un classificateur à la fois spécifique et souple. Ses prédictions qualifiées de « hautement

probable » se comparent avantageusement aux outils les plus stricts, alors que ses prédictions

dans les catégories inférieures permettent d’identifier des candidats qui sortent un peu des

limites de la structure du HMM, laissant place à la découverte de protéines à ancrage GPI

ayant un signal moins spécifique.

Dans le futur il serait intéressant de tester les prédictions de notre méthode hybride de façon

expérimentale en laboratoire. La confirmation ou l’infirmation des prédictions permettrait

d’améliorer les modèles de réseau de neurones et HMM. Il serait aussi intéressant de faire

une classification de nos prédictions selon la fonction biologique des séquences sélectionnées

ayant une annotation fonctionnelle. De la sorte nous pourrions associé la présence du signal à

certaines fonctions biologiques et ainsi pouvoir aider la compréhension du rôle joué par ce

type d’attachement menbranaire. De plus l’efficacité de notre méthode hybride pour la

reconnaissance du signal GPI suggère son utilisation pour d’autres signaux protéiques.

APPENDICE A

SÉQUENCES GPI DE SWISS-PROT Cet appendice présente les 50 derniers acides aminés (signal GPI en position C-terminale) des 468 séquences de protéines à ancre GPI de la base de données Swiss-Prot version janvier 2004.

Séquences GPI > 5NTD_BOOMI 30NQA (POTENTIAL).VMKYMNSTSPITTALDGRVTFLKTNQASDACLNLASPFLVLLVLVVFYHL> 5NTD_BOVIN 30 SAG (BY SIMILARITY).INVVSGYISKMKVLYPAVEGRIQFSAGSHCCGSFSLIFLSVLAVIIILYQ> 5NTD_DISOM 30 SAT (BY SIMILARITY).VSSYIKQMKVVYPAVEGRILFVENSATLPIINLKIGLSLFAFLTWFLHCS> 5NTD_HUMAN 30 STGINVVSTYISKMKVIYPAVEGRIKFSTGSHCHGSFSLIFLSLWAVIFVLYQ> 5NTD_MOUSE 30 SAA (BY SIMILARITY).ISVVSEYISKMKVVYPAVEGRIKFSAASHYQGSFPLVILSFWAMILILYQ> 5NTD_RAT 30 SAAISVVSEYISKMKVIYPAVEGRIKFSAASHYQGSFPLIILSFWAVILVLYQ> ACES_TORCA 33 SSGLRVQMCVFWNQFLPKLLNATACDGELSSSGTSSSKGIIFYVLFSILYLIF> ACES_TORMA 32 SSGRVQMCVFWNQFLPKLLNATACDGELSSSGTSSSKGIIFYVLFSILYLIFY> AMPM_HELVI 33 DSA (POTENTIAL).TSTTAAPTTVTQPTITEPSTPTLPELTDSAMTSFASLFIISLGAILHLIL> AMPM_MANSE 33 GSG (POTENTIAL).TVAPPAETTVTPSTFPPTVAPATTPAPGSGNIAALSVVSLLVTLAINMVA> APH4_DROME 29 NGA (POTENTIAL).DDSCEDHKDGQKDRPLDKPNPKRNGATVVGASLIPILTAATAAILRGRGL> AXO1_HUMAN 27 NMA (POTENTIAL).GDGIPAEVHIVRNGGTSMMVENMAVRPAPHPGTVISHSVAMLILIGSLEL> BM86_BOOMI 32 SAA (BY SIMILARITY).KEKSEATTAATTTTKAKDKDPDPGKSSAAAVSATGLLLLLAATSVTAASL

137

> BST1_HUMAN 30 APS (POTENTIAL).LQCVDHSTHPDCALKSAAAATQRKAPSLYTEQRAGLIIPLFLVLASRTQL> BST1_MOUSE 21 SAS (POTENTIAL).LMCVDHSTHPDCIMNSASASMRRESASLHAIGDASLLISLLVALASSSQA> BST1_RAT 30 SPA (POTENTIAL).LMCVDHSTHPDCAMNSASASMWRESPALHAIGDISLIISLLVALASSSQA> BY55_HUMAN 33 SSG (BY SIMILARITY).FTETGNYTVTGLKQRQHLEFSHNEGTLSSGFLQEKVWVMLVTSLVALQAL> BY55_MOUSE 30 SSG (BY SIMILARITY).TGNHTEIRQRQRSHPDFSHINGTLSSGFLQVKAWGMLVTSLVALQALYTL> C59A_MOUSE 28 SDG (BY SIMILARITY).IMDQLEETKLKFRCCQFNLCNKSDGSLGKTPLLGTSVLVAILNLCFLSHL> C59B_MOUSE 30 NAE (POTENTIAL).AGIQSKCCQWGLCNKNLDGLEEPNNAETSSLRKTALLGTSVLVAILKFCF> CADD_CHICK 36 DAL (POTENTIAL).DSGKPPLTNNTELKLQVCSCKKSRMDCSASDALHISMTLILLSLFSLFCL> CADD_HUMAN 35 GAL (POTENTIAL).SGKPPMTNITDLRVQVCSCRNSKVDCNAAGALRFSLPSVLLLSLFSLACL> CADD_MOUSE 34 GAL (POTENTIAL).GKPPMTNITDLKVQVCSCKNSKVDCNGAGALHLSLSLLLLFSLLSLLSGL> CAH4_HUMAN 27 SGATVSMKDNVRPLQQLGQRTVIKSGAPGRPLPWALPALLGPMLACLLAGFLR> CAH4_MOUSE 27 SHA (BY SIMILARITY).KLNMKDNVRPLQPLGKRQVFKSHAPGQLLSLPLPTLLVPTLTCLVANFLQ> CD14_HUMAN 25 NSG (POTENTIAL).LDGNPFLVPGTALPHEGSMNSGVVPACARSTLSVGVSGTLVLLQGARGFA> CD14_MOUSE 25 NSG (POTENTIAL).NLSLKGNPFLDSESHSEKFNSGVVTAGAPSSQAVALSGTLALLLGDRLFV> CD14_RAT 25 NSG (POTENTIAL).SLSLTGNPFLHSESQSEAYNSGVVIATALSPGSAGLSGTLALLLGHRLFV> CD24_HUMAN 34 GGA (POTENTIAL).TGTSSNSSQSTSNSGLAPNPTNATTKAAGGALQSTASLFVVSLSLLHLYS> CD24_MOUSE 32 GGG (POTENTIAL).NQTSVAPFPGNQNISASPNPSNATTRGGGSSLQSTAGLLALSLSLLHLYC> CD24_RAT 35 SSL (POTENTIAL).NQTSVAPFSGNQSISAAPNPTNATTRSGCSSLQSTAGLLALSLSLLHLYC> CD48_HUMAN 32 SFGYTCQVSNSVSSKNGTVCLSPPCTLARSFGVEWIASWLVVTVPTILGLLLT> CD48_MOUSE 32 SSGYTCQVSNPVSSKNDTVYFTLPCDLARSSGVCWTATWLVVTTLIIHRILLT> CD48_RAT 32 SSGYTCQVSNPVSSENDTLYFIPPCTLARSSGVHWIAAWLVVTLSIIPSILLA> CD52_CANFA 33 SSL (POTENTIAL).QIQTGVLGNSTTPRMTTKKVKSATPALSSLGGGSVLLFLANTLIQLFYLS> CD52_HUMAN 30 SAS (POTENTIAL).SLLVMVQIQTGLSGQNDTSQTSSPSASSNISGGIFLFFVANAIIHLFCFS> CD52_MACFA 30 SAS (POTENTIAL).ISLLVMVQIQTGVTSQNATSQSSPSASSNLSGGGFLFFVANAIIHLFYFS> CD52_MOUSE 28 SGA (POTENTIAL).QATTAASGTNKNSTSTKKTPLKSGASSIIDAGACSFLFFANTLMCLFYLS> CD52_RAT 29 GAS (POTENTIAL).AAATTATKTTTAVRKTPGKPPKAGASSITDVGACTFLFFANTLMCLFYLS> CD59_AOTTR 29 NGG (BY SIMILARITY).LSENELKYYCCKKNLCNFNEALKNGGTTLSKKTVLLLVIPFLVAAWSLHP

138

> CD59_CALSQ 29 NGG (BY SIMILARITY).LSENELKYHCCRENLCNFNGILENGGTTLSKKTVLLLVTPFLAAAWSLHP> CD59_CERAE 29 NGG (BY SIMILARITY).LKESELQYFCCKKDLCNFNEQLENGGTSLSEKTVVLLVTLLLAAAWCLHP> CD59_HSVSA 30 NIK (POTENTIAL).QLSETQLKYHCCKKNLCNVNKGIENIKRTISDKALLLLALFLVTAWNFPL> CD59_HUMAN 29 NGGLRENELTYYCCKKDLCNFNEQLENGGTSLSEKTVLLLVTPFLAAAWSLHP> CD59_PAPSP 29 NGG (BY SIMILARITY).TLLKESELQYFCCKEDLCNEQLENGGTSLSEKTVLLLVTPLLAAAWCLHP> CD59_PIG 30 SDADFISRNLAEKKLKYNCCRKDLCNKSDATISSGKTALLVILLLVATWHFCL> CD59_RABIT 32 GTA (BY SIMILARITY).ISNRLEENSLKYNCCRKDLCNGPEDDGTALTGRTVLLVAPLLAAARNLCL> CD59_RAT 30 NGA (BY SIMILARITY).EIANVQYRCCQADLCNKSFEDKPNNGAISLLGKTALLVTSVLAAILKPCF> CD59_SAISC 29 NGG (BY SIMILARITY).LSETQLKYHCCKKNLCNVKEVLENGGTTLSKKTILLLVTPFLAAAWSRHP> CEA6_HUMAN 31 GSA (BY SIMILARITY).GSYMCQAHNSATGLNRTTVTMITVSGSAPVLSAVATVGITIGVLARVALI> CEA8_HUMAN 26 DALHTTNSATGRNRTTVRMITVSDALVQGSSPGLSARATVSIMIGVLARVALI> CEPU_CHICK 32 SGA (POTENTIAL).ASMILYEETTTALTPWKGPGAVHDGNSGAWRRGSCAWLLALPLAQLARQF> CNTR_CHICK 27 DKG (POTENTIAL).ITETTSTSTSSFMPPPTTKICDKGAGVGSGAVAVCWTAGLVLAAYGVLFI> CNTR_HUMAN 25 SGG (POTENTIAL).TSSLAPPPTTKICDPGELGSGGGPSAPFLVSVPITLALAAAAATASSLLI> CNTR_RAT 25 SGG (POTENTIAL).TSSLAPPPTTKICDPGELSSGGGPSIPFLTSVPVTLVLAAAAATANNLLI> CONN_DROME 31 AGA (POTENTIAL).SDPTELPLSRDLMDVRSNVGQDMSTAGANSLAQGMTIIVSLQVALMISRG> CONT_HUMAN 30 SGA (POTENTIAL).DGEYVVEVRAHSDGGDGVVSQVKISGAPTLSPSLLGLLLPAFGILVYLEF> CONT_MOUSE 36 SSS (POTENTIAL).DGEYVVEVRAHSDGGDGVVSQVKISGVSTLSSSLLSLLLPSLGFLVYSEF> CONT_RAT 35 SSG (POTENTIAL).GEYVVEVRAHSDGGDGVVSQVKISGVSTLSSGLLSLLLPSLGFLVFYSEF> CSA_DICDI 33 SSA (POTENTIAL).PSPTPTETATPSPTPKPTSTPEETEAPSSATTLISPLSLIVIFISFVLLI> CW12_YEAST 34 GAA (POTENTIAL).STAAPVTSTEAPKNTTSAAPTHSVTSYTGAAAKALPAAGALLAGAAALLL> CW14_YEAST 37 NVL (POTENTIAL).SAASSTVSQETVSSALPTSTAVISTFSEGSGNVLEAGKSVFIAAVAAMLI> CWP1_YEAST 33 NAG (POTENTIAL).SSPTASVISQITDGQIQAPNTVYEQTENAGAKAAVGMGAGALAVAAAYLL> CWP2_YEAST 34 NGA (POTENTIAL).EATTTAAPSSTVETVSPSSTETISQQTENGAAKAAVGMGAGALAAAAMLL> DAF1_MOUSE 27 GGD (POTENTIAL).VTKTTVRHPIRTSTDKGEPNTGGDRYIYGHTCLITLTVLHVMLSLIGYLT> DAF_CAVPO 0 ASG (IN ISOFORM 3) (POTENTIAL).KTHVYKVDSFACGASNHWLADIAKEDLRRDFSNAQNISSLLQVLGAAQTQ> DAF_HUMAN 23 SGTPVSRTTKHFHETTPNKGSGTTSGTTRLLSGHTCFTLTGLLGTLVTMGLLT> DAF_PONPY 23 SGT (BY SIMILARITY).PVSRTTKHFHETTPNKGSGTTSGTTSLLSGHKCFTLTGLLGTLVTMGLLT> DAN1_YEAST 39 NGV (POTENTIAL).KPVSSKAQSTATSVTSSASRVIDVTTNGANKFNNGVFGAAAIAGAAALLL

139

> DAN4_YEAST 40 NIF (POTENTIAL).SPIPKASSATSIAHSSASYTVSINTNGAYNFDKDNIFGTAIVAVVALLLL> EFA4_HUMAN 24 SGT (POTENTIAL).CCKERKSESAHPVGSPGESGTSGWRGGDTPSPLCLLLLLLLLILRLLRIL> FC3B_HUMAN 22 SSF (POTENTIAL).ETVNITITQGLAVSTISSFSPPGYQVSFCLVMVLLFAVDTGLYFSVKTNI> FOL1_HUMAN 32 SGARCIQMWFDPAQGNPNEEVARFYAAAMSGAGPWAAWPFLLSLALMLLWLLS> FOL1_MOUSE 32 SGA (BY SIMILARITY).RCIQMWFDPAQGNPNEEVARFYAEAMSGAGLHGTWPLLCSLSLVLLWVIS> FOL2_HUMAN 30 NAGMWFDSAQGNPNEEVARFYAAAMHVNAGEMLHGTGGLLLSLALMLQLWLLG> FOL2_MOUSE 31 SGT (POTENTIAL).IQMWFDSTQGNPNEDVVKFYASFMTSGTVPHAAVLLVPSLAPVLSLWLPG> G13A_DICDI 33 STS (POTENTIAL).PTPSTTPSTTPSTTPSSTPTQSPDDDGSTSSTLSTSFYLITLLFLIQQFI> G13B_DICDI 29 GDD (POTENTIAL).TTPSTTPSTTPSTTPSSTPTQSPGDDGSTSSTLSISFYLITLLLLTQQFI> GAS1_CAEEL 32 DSSLKNTPGVTLSPSDNSITDAPGGNDLADSSVGHGFNILSAISVYLLTVLVF> GAS1_HUMAN 13 SGG (POTENTIAL).PGSGAAASGGRGDLPYGPGRRSSGGGGRLAPRGAWTPLASILLLLLGPLF> GAS1_MOUSE 27 SGG (POTENTIAL).AAAGGRGDLPHGPGRRSSSSGSGGHWANRSAWTPFACLLLLLLLLLGSHL> GAS1_YEAST 24 NAASSSSSSSSSASSSSSSKKNAATNVKANLAQVVFTSIISLSIAAGVGFALV> GFR1_CHICK 16 SHI (POTENTIAL).GKDNTPGVSTSHISSENSFALPTSFYPSTPLILMTIALSLFLFLSSSVVL> GFR1_HUMAN 19 SHI (POTENTIAL).SNGNYEKEGLGASSHITTKSMAAPPSCGLSPLLVLVVTALSTLLSLTETS> GFR1_MOUSE 17 SHI (POTENTIAL).DYGKDGLAGASSHITTKSMAAPPSCGLSSLPVMVFTALAALLSVSLAETS> GFR1_RAT 17 SHI (POTENTIAL).DFGKDGLAGASSHITTKSMAAPPSCSLSSLPVLMLTALAALLSVSLAETS> GFR2_CHICK 35 SRH (POTENTIAL).EQSLCYSETQLTTDTMPDQKTFVDQKAAGSRHRAARILPAVPIVLLKLLL> GFR2_HUMAN 35 SRA (POTENTIAL).SKELSMCFTELTTNIIPGSNKVIKPNSGPSRARPSAALTVLSVLMLKQAL> GFR2_MOUSE 35 SCR (POTENTIAL).NSKELSMCFTELTTNISPGSKKVIKLYSGSCRARLSTALTALPLLMVTLA> GFR3_HUMAN 29 NPA (POTENTIAL).FHSQLFSQDWPHPTFAVMAHQNENPAVRPQPWVPSLFSCTLPLILLLSLW> GFR4_CHICK 27 SPA (POTENTIAL).TKVAGEERLLRGSTRLSSETSSPAAPCHQAASLLQLWLPPTLAVLSHFMM> GFR4_HUMAN 34 GRA (POTENTIAL).ASGWPPVLLDQLNPQGDPEHSLLQVSSTGRALERRSLLSILPVLALPALL> GFR4_MOUSE 32 TAG (POTENTIAL).LFTRNPCLDGAIQAFDSLQPSVLQDQTAGCCFPRVSWLYALTALALQALL> GFR4_RAT 32 NAG (POTENTIAL).PCLDGAIQAFDSSQPSVLQDQWNPYQNAGCCFLWVSSMSILTALALQALL> GP42_RAT 28 GTA (POTENTIAL).CQAENKVSRDISEPKKFPLVVSGTASMKSTTVVIWLPVSCLVGWPWLLRF> GP46_LEIAM 31 CPA (POTENTIAL).RCGARPSPCASVCVSWPRERRTECACPALFDGARLRCCALVVCAGAAPAG> GP63_LEICH 30 NAA (BY SIMILARITY).GGYITCPPYVEVCQGNVQAAKDGGNAAAGRRGPRAAATALLVAALLAVAL> GP63_LEIDO 30 NAA (BY SIMILARITY).GGYITCPPYVEVCQGNVQAAKDGGNAAAGRRGPRAAATALLVAALLAVAL

140

> GP63_LEIGU 10 DAA (BY SIMILARITY).DFEGDAADTAAMRRWRERMTALATVTAALLGIVLAAMAILVVWLLLITIP> GP63_LEIMA 30 NTAGGYITCPPYVEVCQGNVQAAKDGGNTAAGRRGPRAAATALLVAALLAVAL> GP85_TRYCR 32 ANA (POTENTIAL).IPKRGPGSQVEGGTERRHIPRIEGVRANAPVGSGLLPLLLLLGLWVFAAL> GPC1_HUMAN 27 SAA (POTENTIAL).SSRTPLTHALPGLSEQEGQKTSAASCPQPPTFLLPLLLFLALTVARPRWR> GPC1_RAT 27 SAA (POTENTIAL).SSRTPLIHALPGLSEQEGQKTSAATRPEPHYFFLLFLFTLVLAAARPRWR> GPC4_HUMAN 28 SAG (POTENTIAL).CPSEFDYNATDHAGKSANEKADSAGVRPGAQAYLLTVFCILFLVMQREWR> GPC4_MOUSE 27 SAG (POTENTIAL).PSEFEYNATDHSGKSANEKADSAGGAHAEAKPYLLAALCILFLAVQGEWR> HYA2_HUMAN 30 GAS (POTENTIAL).HFRCQCYLGWSGEQCQWDHRQAAGGASEAWAGSHLTSLLALAALAFTWTL> HYA2_MOUSE 30 NAS (POTENTIAL).HFRCQCYLGWGGEQCQRNYKGAAGNASRAWAGSHLTSLLGLVAVALTWTL> HYA2_RAT 30 DAS (POTENTIAL).HFRCHCYLGWGGEQCQWNHKRAAGDASRAWAGAHLASLLGLVAMTLTWTL> HYAP_CAVPO 18 SIS (POTENTIAL).PPITDDTSQNQDSISDITSSAPPSSHILPKDLSWCLFLLSIFSQHWKYLL> HYAP_HUMAN 36 SAT (POTENTIAL).ADGVCIDAFLKPPMETEEPQIFYNASPSTLSATMFIVSILFLIISSVASL> HYAP_MACFA 36 STT (POTENTIAL).DGVCIDASLKPPVETEGSPPIFYNTSSSTVSTTMFIVNILFLIISSVASL> HYR1_CANAL 31 NGS (POTENTIAL).IPVPHSMPSNTTDSSSSVPTIDTNENGSSIVTGGKSILFGLIVSMVVLFM> LACH_DROME 32 AGA (POTENTIAL).GEAEARVNLFETIIPVCPPACGQAYIAGAEDVSATSFALVGISARLLFAR> LACH_SCHAM 38 GDA (POTENTIAL).KAANKLGEAREEVELFETIIPVCPPACGQAYGGDAAEISTSMALILISTI> LAMP_HUMAN 32 NGS (POTENTIAL).TCVAANKLGVTNASLVLFRPGSVRGINGSISLAVPLWLLAASLLCLLSKC> LAMP_RAT 32 NGS (POTENTIAL).TCVAANKLGVTNASLVLFRPGSVRGINGSISLAVPLWLLAASLFCLLSKC> LY6A_MOUSE 33 GST (POTENTIAL).MEILGTKVNVKTSCCQEDLCNVAVPNGGSTWTMAGVLLFSLSSVLLQTLL> LY6C_MOUSE 33 GST (POTENTIAL).VPIKDPNIRERTSCCSEDLCNAAVPTAGSTWTMAGVLLFSLSSVILQTLL> LY6D_HUMAN 25 NAA (POTENTIAL).SGTSSTQCCQEDLCNEKLHNAAPTRTALAHSALSLGLALSLLAVILAPSL> LY6D_MOUSE 26 SAA (POTENTIAL).SSGSEVTQCCQTDLCNERLVSAAPGHALLSSVTLGLATSLSLLTVMALCL> LY6E_CHICK 27 SGS (POTENTIAL).GINLGIAAASVYCCDSFLCNISGSSSVKASYAVLALGILVSFVYVLRARE> LY6E_HUMAN 25 SAA (POTENTIAL).NVGVASMGISCCQSFLCNFSAADGGLRASVTLLGAGLLLSLLPALLRFGP> LY6E_MOUSE 27 AAG (POTENTIAL).LNLGVASVNSYCCQSSFCNFSAAGLGLRASIPLLGLGLLLSLLALLQLSP> LY6F_MOUSE 33 GST (POTENTIAL).MEILGTTVNVNTSCCKEDLCNAPFSTGGSTWTMTRVLLLNLGSVFLQTLL> LY6G_MOUSE 40 GVL (POTENTIAL).TEITGNAVNVKTYCCKEDLCNAAVPTGGSSWTMAGVLLFSLVSVLLQTFL> LY6H_HUMAN 30 GAG (POTENTIAL).GFINSGILKVDVDCCEKDLCNGAAGAGHSPWALAGGLLLSLGPALLWAGP> LY6H_MOUSE 26 NGA (POTENTIAL).GFINSGILKVDVDCCEKDLCNGASVAGRSPWALAGGLLLSLGPALLWAGP

141

> LY6I_MOUSE 33 GSS (POTENTIAL).KFILDPNTKMNISCCQEDLCNAAVPTGGSSWTTAGVLLFSLGSVLLQTLM> LYNX_MOUSE 32 GAG (POTENTIAL).SCFETVYDGYSKHASATSCCQYYLCNGAGFATPVTLALVPALLATFWSLL> MDP1_HUMAN 29 SGAAPEEEPIPLDQLGGSCRTHYGYSSGASSLHRHWGLLLASLAPLVLCLSLL> MDP1_MOUSE 29 SQA (BY SIMILARITY).QSPEEVPITLKELDGSCRTYYGYSQAHSIHLQTGALVASLASLLFRLHLL> MDP1_PIG 30 SAA (BY SIMILARITY).AQVPGEEPIPLGQLEASCRTNYGYSAAPSLHLPPGSLLASLVPLLLLSLP> MDP1_RABIT 29 SEA (BY SIMILARITY).QVPEEEPISLEQLGGSCRTQYGYSEAPSLHRRPGALLASLSLLLLSLGLL> MDP1_RAT 29 SRA (BY SIMILARITY).QVPEEETIPVEKLDGSCRTFYGHSRAPSIHLQIGALLASLASLVFSLHPL> MDP1_SHEEP 29 SGT (BY SIMILARITY).QAPGEEPIPLGQLEASCRTKYGYSGTPSLHLQPGSLLASLVTLLLSLCLL> MKC7_YEAST 34 NGG (POTENTIAL).ALSISKSTSSTSSTGMLSPTSSSSPRKENGGHNLNPPFFARFITAIFHHI> MM17_HUMAN 17 SGA (POTENTIAL).SEDGYEVCSCTSGASSPPGAPGPLVAATMLLLLPPLSPGALWTAAQALTL> MM17_MOUSE 35 SDA (POTENTIAL).EPLADAEDVGPGPQGRSGAQDGLAVCSCTSDAHRLALPSLLLLTPLLWGL> MM19_MOUSE 40 DSA (POTENTIAL).TNSSTGDVTPSTTDTVLGTTPSTMGSTLDIPSATDSASLSFSANVTLLGA> MM25_HUMAN 32 AAG (POTENTIAL).SGPRAPRPPKATPVSETCDCQCELNQAAGRWPAPIPLLLLPLLVGGVASR> MSA1_SARMU 31 AGS (POTENTIAL).CYLCEPDPTKKGHNDKNCAVLIAVGAGSRPTARSVFGVAAPCILALLHFT> MSLN_HUMAN 13 GGI (POTENTIAL).TLGLGLQGGIPNGYLVLDLSVQETLSGTPCLLGPGPVLTVLALLLASTLA> NAR3_HUMAN 28 SSG (BY SIMILARITY).GNINNPTPGPVPVPGPKSHPSASSGKLLLPQFGMVIILISVSAINLFVAL> NAR3_MOUSE 16 SGS (BY SIMILARITY).LILFFIKSSRSGSRSEIPSLCILWQYAPSISHGIHHFTRCFCCKLHRAIA> NAR4_HUMAN 26 ASS (POTENTIAL).NWLQLRSTGNLSTYNCQLLKASSKKCIPDPIAIASLSFLTSVIIFSKSRV> NAR4_PANTR 26 ASS (POTENTIAL).NWLQLRSTGNLSTYNCQLLKASSKKCIPDPIAIASLSFLTSVIIFSKSRV> NARA_MOUSE 26 SSL (BY SIMILARITY).KRKKSNFNCFYSGSTQAANVSSLGSRESCVSLFLVVLLGLLVQQLTLAEP> NARA_RAT 26 SSA (BY SIMILARITY).YNEIFLDSPKRKKSNYNCLYSSAGTRESCVSLFLVVLTSLLVQLLCLAEP> NARB_MOUSE 26 SIS (BY SIMILARITY).KKSNFNCFYNGSAQTVNIDFSISGSRESCVSLFLVVLLGLLVQQLTLAEP> NARB_RAT 26 SSA (BY SIMILARITY).YNEIFLDSPKRKKSNYNCLYSSAGARESCVSLFLVVLPSLLVQLLCLAEP> NTRI_HUMAN 32 NGT (POTENTIAL).CVASNKLGHTNASIMLFGPGAVSEVSNGTSRRAGCVWLLPLLVLHLLLKF> NTRI_MOUSE 32 NGT (POTENTIAL).CVASNKLGHTNASIMLFGPGAVSEVNNGTSRRAGCIWLLPLLVLHLLLKF> NTRI_RAT 32 NGT (POTENTIAL).CVASNKLGHTNASIMLFGPGAVSEVNNGTSRRAGCIWLLPLLVLHLLLKF> OPCM_BOVIN 32 NSA (POTENTIAL).YGNYTCVATNKLGITNASITLYGPGAVIDGVNSASRALACLWLSGTLFAHFFIKF> OPCM_HUMAN 32 NSA (POTENTIAL).CVATNKLGNTNASITLYGPGAVIDGVNSASRALACLWLSGTLLAHFFIKF> OPCM_RAT 32 NSA (POTENTIAL).CVATNKLGNTNASITLYGPGAVIDGVNSASRALACLWLSGTFFAHFFIKF

142

> PAG1_TRYBB 41 ADS (POTENTIAL).VVDEDSGKSFVVLGNRETVQEEKLLEEMAICGVGRADSLRRTLALLFLLF> PARA_TRYBB 33 GAATGPEETGPEETGPEETGPEETEPEPEPGAATLKSVALPFAVAAAALVAAF> PARB_TRYBB 33 GAAPEPEPEPEPEPEPEPEPEPEPEPEPEPGAATLKSVALPFAIAAVGLVAAF> PARC_TRYBB 33 GAA (BY SIMILARITY).PEPEPEPEPEPEPEPEPEPEPEPEPEPGAATLKSVALPFAIAAAALVAAF> PL13_ARATH 28 SDA (POTENTIAL).GTTRGSSSSSGDDSNVFQMIFGSDAPSRPRLTLLFSLLMISVLSLSTLLL> PONA_DICDI 30 SSS (POTENTIAL).KIPTTSYIVSCNSTPSSNSTTDSDSSSGSTVMIGLASSLLFAFATLLALF> PPB1_HUMAN 26 DAAFAACLEPYTACDLAPPAGTTDAAHPGRSVVPALLPLLAGTLLLLETATAP> PPB2_HUMAN 26 DAA (BY SIMILARITY).FAACLEPYTACDLAPPAGTTDAAHPGRSVVPALLPLLAGTLLLLETATAP> PPB3_HUMAN 26 DAA (BY SIMILARITY).FAACLEPYTACDLAPPAGTTDAAHPGRSVVPALLPLLAGTLLLLETATAP> PPBE_MOUSE 28 SAV (BY SIMILARITY).MAFAACLEPYTDCGLASPAGQSSAVSPGYMSTLLCLLAGKMLMLMAAAEP> PPBI_BOVIN 28 DAA (BY SIMILARITY).AGCVEPYTDCNLPAPTTATSIPDAAHLAASPPPLALLAGAMLLLLAPTLY> PPBI_HUMAN 30 DAA (BY SIMILARITY).HVMAFAACLEPYTACDLAPPACTTDAAHPVAASLPLLAGTLLLLGASAAP> PPBI_RAT 26 NSA (POTENTIAL).YTDCGLAPPADENRPTTPVQNSAITMNNVLLSLQLLVSMLLLVGTALVVS> PPBJ_RAT 35 NSA (POTENTIAL).RPTTPVQNSTTTTTTTTTTTTTTTTTRVQNSASSLGPATAPLAWHYWPRR> PPB_BOMMO 21 GPG (POTENTIAL).EQTHVPHRMAWAACMGPGRHVCVSAATVPTAALLSLLLAAFITLRHQCFL> PRIO_ATEGE 37 SSM (BY SIMILARITY).TETDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPVILLISFLI> PRIO_ATEPA 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_CALJA 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYEKESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_CEBAP 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_CERAE 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYEKESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_CERAT 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYEKESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_CERMO 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYEKESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_CERPA 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYEKESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_CERTO 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYEKESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_COLGU 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYEKESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_CRIGR 32 SSAMMERVVEQMCVTQYQKESQAYYDGRRSSAVLFSSPPVILLISFLIFLIVG> PRIO_CRIMI 32 SSAMMERVVEQMCVTQYQKESQAYYDGRRSSAVLFSSPPVILLISFLIFLIVG> PRIO_GORGO 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_HUMAN 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG

143

> PRIO_MACFA 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYEKESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_MANSP 37 SSM (BY SIMILARITY).TETDVKMMERVVEQMCITQYEKESQAYYQRGSSMVLFSSPPVILLISFLI> PRIO_MESAU 32 SSAIMERVVEQMCTTQYQKESQAYYDGRRSSAVLFSSPPVILLISFLIFLMVG> PRIO_MOUSE 31 SSS (BY SIMILARITY).MERVVEQMCVTQYQKESQAYYDGRRSSSTVLFSSPPVILLISFLIFLIVG> PRIO_PANTR 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_PONPY 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPVILLISFLIFLIVG> PRIO_PREFR 32 SSM (BY SIMILARITY).KMMERVVEQMCITQYEKESQAYYQRGSSMVFFSSPPVILLISFLIFLIVG> PRIO_RAT 32 SSA (BY SIMILARITY).MMERVVEQMCVTQYQKESQAYYDGRRSSAVLFSSPPVILLISFLIFLIVG> PRND_BOVIN 31 GAG (POTENTIAL).LYQRVLWQLIRELCSTKHCDFWLERGAGLRVTLDQPMMLCLLVFIWFIVK> PRND_HUMAN 31 GAG (POTENTIAL).LHQQVLWRLVQELCSLKHCEFWLERGAGLRVTMHQPVLLCLLALIWLMVK> PRND_MOUSE 31 GAA (POTENTIAL).LHQRVLWRLIKEICSAKHCDFWLERGAALRVAVDQPAMVCLLGFVWFIVK> PRND_SHEEP 31 GAG (POTENTIAL).LYQRVLWQLIRELCSIKHCDFWLERGAGLQVTLDQPMMLCLLVFIWFIVK> PSA_DICDI 34 GSA (POTENTIAL).VTPTVTPTVTPTPTNTPNPTPSQTSTTTGSASTVVASLSLIIFSMILSLC> PSCA_HUMAN 27 SGA (POTENTIAL).SQDYYVGKKNITCCDTDLCNASGAHALQPAAAILALLPALGLLLWGPGQL> PSCA_MOUSE 27 NGA (BY SIMILARITY).SENYYLGKKNITCCYSDLCNVNGAHTLKPPTTLGLLTVLCSLLLWGSSRL> RECK_HUMAN 26 SAG (POTENTIAL).SHVPLSALIISQVQVSSSVPSAGVRARPSCHSLLLPLSLGLALHLLWTYN> RECK_MOUSE 26 SSA (POTENTIAL).SHVHLSALIISQVQVSSSLPSSAVVGRPLFHSLLLLLSWGLTVHLLWTRP> RT4R_HUMAN 29 SGA (POTENTIAL).RTRSHCRLGQAGSGGGGTGDSEGSGALPSLTCSLTPLGLALVLWTVLGPC> RT4R_MACFA 29 SGA (POTENTIAL).RTRSHCRLGQAGSGGGGTGDSEGSGALPSLACSLAPLGLALVLWTVLGPC> RT4R_MOUSE 18 SGA (POTENTIAL).RTRSHCRLGQAGSGASGTGDAEGSGALPALACSLAPLGLALVLWTVLGPC> RT4R_RAT 29 SGA (POTENTIAL).RTRSHCRLGQAGSGSSGTGDAEGSGALPALACSLAPLGLALVLWTVLGPC> SAG1_YEAST 22 STS (POTENTIAL).SSASGSQLSGIQQNFTSTSLMISTYEGKASIFFSAELGSIIFLLLSYLLF> SM7A_HUMAN 37 AAS (POTENTIAL).EGSYFREAQHWQLLPEDGIMAEHLLGHACALAASLWLGVLPTLTLGLLVH> SM7A_MOUSE 37 AAS (POTENTIAL).EGSYLREAQHWELLPEDRALAEQLMGHARALAASFWLGVLPTLILGLLVH> SP63_STRPU 31 GSQ (POTENTIAL).RINSWDPRMNWDLSMNLDATEEPESGSQRHLPVCGVLSLVVTTLLALMLH> T10C_HUMAN 32 ASS (POTENTIAL).EETMTTSPGTPAPAAEETMTTSPGTPASSHYLSCTIVGIIVLIVLLIVFV> TEST_HUMAN 29 SGM (POTENTIAL).PNRPGVYTNISHHFEWIQKLMAQSGMSQPDPSWPLLFFPLLWALPLLGPV> TEST_MOUSE 29 NGL (POTENTIAL).PNRPGVYTNISHHYNWIQSTMIRNGLLRPDPVPLLLFLTLAWASSLLRPA> THY1_CHICK 24 CVR (BY SIMILARITY).YTGNQIKNITVIKDKLEKCVRLSLLIQNTSWLLLLLLSLPLLQAVDFVSL

144

> THY1_HUMAN 24 CEGSPPISSQNVTVLRDKLVKCEGISLLAQNTSWLLLLLLSLSLLQATDFMSL> THY1_MACMU 24 CEGSPPISSQNVTVLRDKLVKCEGISLLAQNTSWLXLLLLSLSLLQATDFMSL> THY1_MOUSE 24 CGGNPMSSNKSISVYRDKLVKCGGISLLVQNTSWMLLLLLSLSLLQALDFISL> THY1_RAT 24 CGGNPTSSNKTINVIRDKLVKCGGISLLVQNTSWLLLLLLSLSFLQATDFISL> TIP1_YEAST 33 GQR (POTENTIAL).SSKAVSSSVAPTTSSVSTSTVETASNAGQRVNAGAASFGAVVAGAAALLL> TIR1_YEAST 34 NGA (POTENTIAL).STGAKTSAISQITDGQIQATKAVSEQTENGAAKAFVGMGAGVVAAAAMLL> TR23_MOUSE 34 CSS (POTENTIAL).FPESCRPCTKCPQGIPVLQECNSTANTVCSSSVSNPRNWLFLLMLIVFCI> TREA_HUMAN 28 SGA (POTENTIAL).EGFGWDEGVVLMLLDRYGDRLTSGAKLAFLEPHCLAATLLPSLLLSLLPW> TREA_MOUSE 32 SGT (POTENTIAL).YEVQEGFGWTNGLALMLLDRYGDQLTSGTQLASLGPHCLVAALLLSLLLQ> TREA_RABIT 32 SGT (POTENTIAL).YEVQEGFGWTNGVALMLLDRYGDRLSSGTQLALLEPHCLAAALLLSFLTR> UPAR_BOVIN 25 GGA (POTENTIAL).SCCTGSGCNHPARDDQPGKGGAPKTSPAHLSFFVSLLLTARLWGATLLCT> UPAR_HUMAN 25 GAA (POTENTIAL).SCCTKSGCNHPDLDVQYRSGAAPQPGPAHLSLTITLLMTARLWGGTLLWT> UPAR_MOUSE 26 GGA (POTENTIAL).PTHLNVSVSCCHGSGCNSPTGGAPRPGPAQLSLIASLLLTLGLWGVLLWT> UPAR_RAT 26 GGA (POTENTIAL).QTHVNLSISCCNGSGCNRPTGGAPGPGPAHLILIASLLLTLRLWGIPLWT> VNL1_DROME 29 GSP (POTENTIAL).YYDNECTFGVGTEEEQLACGYRSGSPGLRILGGWLAMPLIILAIARTMSS> VNL2_DROME 44 EQL (POTENTIAL).HQVRFALRKSLEVKHLLTFGIYGNYYNNECTFGVGTAEEQLECGYKNPKI> VNL3_DROME 30 NGG (POTENTIAL).MELRQPHSQLMTFAIYGNYFDEYANGGAGRLGTLLFLLITPLIMMHLFRE> VNN1_CANFA 33 DPR (POTENTIAL).KPLSGPLLTVTLFGRIYEKDQTLKASSDPRSQVPGVMLLVIIPIVCSLSW> VNN1_HUMAN 33 GLT (POTENTIAL).KPTSGPVLTVTLFGRLYEKDWASNASSGLTAQARIIMLIVIAPIVCSLSW> VNN1_MOUSE 31 NAS (POTENTIAL).SLKPTSGPVLTIGLFGRLYGKDWASNASSDFIAHSLIIMLIVTPIIHYLC> VNN2_HUMAN 28 CGT (POTENTIAL).SGPILTVSLFGRWYTKDSLYSSCGTSNSAITYLLIFILLMIIALQNIVML> VNN3_HUMAN 24 SGA (POTENTIAL).LAPERHYEISRDGRLRSRSGAPLPVLVMALYGRVFEKDPPRLGQGSGKFQ> VNN3_MOUSE 24 GGA (POTENTIAL).LALERYYEVSRDGRLRSRGGAPLPILVMALYGRVFERDPPRLGQGPGKLQ> VSA1_TRYBB 32 DSSTPAEKCTGKKKDDCKDGCKWEAETCKDSSILLTKNFALSVVSAALVALLF> VSA8_TRYBB 32 DSSTDKCKGKLEDTCKKESNCKWEGETCKDSSILVNKQLALSVVSAAFAALLF> VSAC_TRYBB 32 DSSTTDKCKDKTKDECKSPNCKWEGETCKDSSILVTKKFALSLVSAAFASLLF> VSE2_TRYBR 38 NNS (BY SIMILARITY).RPNYRECEMRDGECNAKVAKTAEPDSKTNTTGNNSFAIKTSTLLLAVLLF> VSG2_TRYEQ 38 SNSKDGCELVEGVCKPVKQGEGENKEKTGTTNTTGSNSFVIKKAPLWLAFLLF> VSG4_TRYBR 36 DSSADKKEEKCKGKLEPECTKAPECKWEGETCKDSSILVNKQFTLSMISAAFM

145

> VSG7_TRYBR 32 DSSTECEGVKGTPPTGKAKVCGWIEGKCQDSSFLLSKQFALSVVSAAFAALLF> VSI1_TRYBB 38 SDS (BY SIMILARITY).KNECRPKKGTETTATGPGERTTPADGKANNTVSDSLLIKTSPLWLAFLLF> VSI2_TRYBB 38 NNS (BY SIMILARITY).CRTADECEMRDGECNAKVAKTAEPDSKTNTTGNNSFAIKTSTLLLAVLLF> VSI3_TRYBB 34 SFL (BY SIMILARITY).KGKTTPVCGWRKGKEGESDQDKEMCRNGSFLAKKKFALSVVSAAFTALLF> VSI4_TRYBB 32 DSS (BY SIMILARITY).TAEKCKGKGEKDCKSPDCKWEGGTCKDSSILANKQFALSVASAAFVALLF> VSI5_TRYBB 32 DSS (BY SIMILARITY).AKKCSDKKKEEECKSPNCKWDGKECKDSSILANKQFALSVASAAFVALLF> VSI6_TRYBB 32 DSSTTDKCKDKKKDDCKSPDCKWEGETCKDSSFILNKQFALSVVSAAFAALLF> VSIB_TRYBB 38 SNSKLDKEEAKRVAEQAATNQETEGKDGKTTNTTGSNSFLINKAPVLLAFLLL> VSM0_TRYBB 33 DGSGKTGDKHNCAFRKGKDGKEEPEKEKCCDGSFLVNKKFALMVYDFVSLLAF> VSM1_TRYBB 38 SNS (BY SIMILARITY).SNKCELKKDVKEKLEKESKETEGKDEKANTTGSNSFLIHKAPLLLAFLLF> VSM2_TRYBB 38 SNSNKKCTLDKEEAKKVADETAKDGKTGNTNTTGSSNSFVISKTPLWLAVLLF> VSM4_TRYBB 32 DSSTDKCKGKLEDTCKKESNCKWENNACKDSSILVTKKFALTVVSAAFVALLF> VSM5_TRYBB 32 NGS (BY SIMILARITY).PGQSAVCGFRKGKDGETDEPDKEKCRNGSFLTSKQFAFSVVSAAFMALLF> VSM5_TRYBR 33 DSS (BY SIMILARITY).TTTDKCKDKKKDDCKSPDCKWEGETCKDSSILLNKQFALMVSAAFVALLF> VSM6_TRYBB 32 DSS (BY SIMILARITY).PEKCKGKDAKTCGTTQGCKWEGETCKDSSILVTKKFALTVVSAAFVALLF> VSWA_TRYBR 38 SNS (BY SIMILARITY).DEKKRCKLSEEGKQAEKENQEGKDGKANTTGSSNSFVIKTSPLLLAVLLL> VSWB_TRYBR 38 SNS (BY SIMILARITY).GKCEAKPKAGTEAATTGPGERDAGATANTTGSSNSFVIKTSPLLFAFLLF> VSY1_TRYCO 36 SGSSSRPPSTDANTSQKGPLQRPEKSGESSHLPSGSSHGTKAIRSILHVALLM> VSY3_TRYCO 21 NSS (POTENTIAL).LGGKDMVPASEVTVPNSSNPTSRQNSVVQEPTTVSAAAITPLILPWTLLI> XPP2_HUMAN 30 AAR (BY SIMILARITY).VGPELQRRQLLEEFEWLQQHTEPLAARAPDTASWASVLVVSTLAILGWSV> XPP2_PIG 31 ARAVGPELQRRGLLEELSWLQRHTEPLSARAAPTTSLGSLMTVSALAILGWSV> YAP3_YEAST 34 NVG (POTENTIAL).TVNSSQTASFSGNLTTSTASATSTSSKRNVGDHIVPSLPLTLISLLFAFI> BCB1_ARATH 33 NAA (PROBABLE).STGGTTPPTAGGTTTPSGSSGTTTPAGNAASSLGGATFLVAFVSAVVALF> BCB2_ARATH 31 SGA (PROBABLE).SGGSPTPTTPTPGAGSTSPPPPPKASGASKGVMSYVLVGVSMVLGYGLWM> CBL1_ARATH 35 SVG (POTENTIAL).PRRIYFNGDNCVMPPPDSYPWLPNTGSHKSVGSLFAAMALLLIVFLHGNL> CBL2_ARATH 31 NAS (POTENTIAL).AFPRRIYFNGDNCVMPPPDSYPWLPNASPNIATSPFVILLITFLSVLILM> CBL4_ARATH 38 NFA (POTENTIAL).GWAFPRKVYFNGDECMLPPPDSYPFLPNSAQGNFASFSLTILLLLFISIW> CBL6_ARATH 29 SSS (POTENTIAL).LFNGDECVMPSPDDFPRLPKSAHSSSSSSAVISSVSVVFCFLLHHLLLLV> CBL7_ARATH 31 SSQ (PROBABLE).GGDGFPSKVFFNGEECSLPTILPMRSSQHRKHISVFLLALPVLALLILRA

146

> CBL8_ARATH 31 NSH (POTENTIAL).SKDGFPTKVLFNGQECSLPSVLPTSNSHRKHVSTFLLILTPFLALLFLRI> CBL9_ARATH 30 SGG (POTENTIAL).RDGFPAKVIFNGEECLLPDLLPMASGGRRNGAITVLSFITFYVAAFMVLL> CBLA_ARATH 29 SSG (POTENTIAL).DGFPTKLFFNGEECALPKHFPKKSSGHRRGISVSMSFVFATIAAFALMMD> CBLB_ARATH 23 SSG (POTENTIAL).VFFNGEECELPKYFPKKSSGMRLSGIRFLPSILLAITTFHAITDRLLTGV> COBR_ARATH 30 NGG (POTENTIAL).FPRRIYFNGDNCVMPPPDSYPFLPNGGSRSQFSFVAAVLLPLLVFFFFSA> ENL1_ARATH 33 SGS (PROBABLE).SPRHSVISPAPSPVEFEDGPALAPAPISGSVRLGGCYVVLGLVLGLCAWF> ENL2_ARATH 31 SSA (PROBABLE).MGPSGDGPSAAGDISTPAGAPGQKKSSANGMTVMSITTVLSLVLTIFLSA> ENL3_ARATH 32 GSA (PROBABLE).FFTGSSPSPAPSPALLGAPTVAPASGGSASSLTRQVGVLGFVGLLAIVLL> GLQ1_ARATH 24 STG (PROBABLE).PPLPPVSARAPTTTPGPQSTGEKSPNGQTRVALSLLLSAFATVFASLLLL> GLQ2_ARATH 26 NAQ (PROBABLE).PPLPPVTAKAPTSSPGTPSTNAQAPSGQTRITLSLLLSVFAMVLASLLLL> HIL1_ARATH 26 SSC (PROBABLE).KENSTARRNPGTSSSPSSSSSSCYKHINGFHGSLVVLFVSLSLILLGLLN> HIL2_ARATH 31 SSA (PROBABLE).CSKENTTASAGKQNPAGSAPPQPLPSSARKLCFSVFLLLSLLMMFLTLLD> PL13_ARATH 28 SDA (POTENTIAL).GTTRGSSSSSGDDSNVFQMIFGSDAPSRPRLTLLFSLLMISVLSLSTLLL> UGP1_ARATH 30 SGA (PROBABLE).DIWVVVILTTNTPEGGYSLLTTTNSGAYAFGVNGLVSSSFLFLLFCFFMF> UGP2_ARATH 25 SGA (POTENTIAL).GIWLVTVLTTNTPGGSYSNSGAFAFGVNGLVSSSLMFLHVLSHNSLSLFS> UGP3_ARATH 30 SGA (PROBABLE).SDDNWIVVVLTTSTPEGSYSPASNSGAFAFGVNGLVSSSLMFLLFCFFMF> UGP4_ARATH 29 SNG (POTENTIAL).IVVVLTTNTPEGSYSTATPTKQESNGFTFGIGLVSYLVIFMYSSFCFFLF

APPENDICE B

ALIGNEMENT MULTIPLE Cet appendice présente un alignement multiple effectué à partir des 468 séquences annoté comme ayant une ancre GPI dans la base de données Swiss-Prot, version Janvier 2004. L’alignement est effectué avec le logiciel ClustalW 1.83.

Sortie ClustalW

cd48_mouse -----------------nkstfytc-qvsnpvsskndtvyftl----pcd-------larcd48_rat -----------------nkstfytc-qvsnpvssendtlyfip----pct-------larcd48_human -----------------nysrcytc-qvsnsvsskngtvclsp----pct-------larlamp_human ------------------hygnytc-vaanklgvtnaslvlfr----pgs------vrgilamp_rat ------------------hygnytc-vaanklgvtnaslvlfr----pgs------vrgintri_mouse -------------------ygnytc-vasnklghtnasimlfg----pga------vsevntri_rat -------------------ygnytc-vasnklghtnasimlfg----pga------vsevntri_human -------------------ygnytc-vasnklghtnasimlfg----pga------vsevopcm_bovin -------------------ygnytc-vatnklgitnasitlyg----pga------vidgopcm_rat -------------------ygnytc-vatnklgntnasitlyg----pga------vidgopcm_human -------------------ygnytc-vatnklgntnasitlyg----pga------vidgcepu_chick -------------------lgntna-smilyeetttaltpwkg----pga------vhdggfr2_human ------------------lkannsk-elsmcf--telttnii-----pgsnk----vikpgfr2_mouse -----------------glkannsk-elsmcf--telttnis-----pgskk----viklgfr2_chick --------------------lnksk-eqslcysetqlttdtm-----pdqkt----fvdqcea6_human ---------------tvnnsgsymcqahnsatglnrttvtmit----vs-----------cea8_human --------------------gsyachttnsatgrnrttvrmit----vsda-----lvq-lach_drome --------------------------atn-rfgeaearvnlfe----tiip-----vcpplach_scham --------------------gkyqckaan-klgeareevelfe----tiip-----vcppc59b_mouse -----------------------srldvagiqskccqwglcn-----knldgle---epncd59_rat ---------------------ilsrleianvqyrccqadlcn-----ksfe--d---kpnc59a_mouse ----------------chgeiimdqleetklkfrccqfnlcn-----ksdg---------cd59_aottr --------------------rvsnqlsenelkyycckknlcn-----fnea------lkncd59_calsq --------------------qlsnqlsenelkyhccrenlcn-----fngi------lencd59_saisc --------------------risnqlsetqlkyhcckknlcn-----vkev------lencd59_cerae --------------------distllkeselqyfcckkdlcn-----fneq------lencd59_papsp ------------------fndistllkeselqyfcckedlc-------neq------lencd59_human --------------------dvttrlreneltyycckkdlcn-----fneq------l

148

cd59_hsvsa -------------------krisnqlsetqlkyhcckknlcn-----vnkg------iencd59_pig --------------decnfdfisrnlaekklkynccrkdlcn----------------kscd59_rabit ----------------cnfefisnrleenslkynccrkdlcn-----g---------pedly6a_mouse ----------------pniesmeilgtkvnvktsccqedlcn-----vavpng-----gsly6g_mouse ----------------ttldnteitgnavnvktycckedlcn-----aavptg-----gsly6f_mouse ----------------anlenmeilgttvnvntscckedlcn-----apfstg-----gsly6c_mouse ----------------fcpagvpikdpnirertsccsedlcn-----aavpta-----gsly6i_mouse ----------------deiekkfildpntkmnisccqedlcn-----aavptg-----gsly6h_human ----------------sdylmgfinsgilkvdvdccekdlcn-----gaagag-----hsly6h_mouse ----------------sdylmgfinsgilkvdvdccekdlcn-----gasvag-----rsly6e_human -----------------ipegvn--vgvasmgisccqsflcn-----fsaadgg---lraly6e_mouse ------------------senvnlnlgvasvnsyccqssfcn-----fsaaglg---lraly6e_chick ---------------vcpsagin--lgiaaasvyccdsflcn-----isgsss----vkapsca_human ---------------ncvddsqd--yyvgkknitccdtdlcn-----asgaha----lqppsca_mouse ---------------qceddsen--yylgkknitccysdlcn-----vngaht----lkply6d_human ------------------qgqvs----sgtsstqccqedlcnek--lhnaaptr---tally6d_mouse -----------------qqghvs----sgsevtqccqtdlcner--lvsaapgh---alltest_human --------------------vgcgrpnrpgvytnishhfewi----qklmaq-------stest_mouse --------------------igcgrpnrpgvytnishhynwi----qstmir-------nupar_bovin --------------------------thvn--vscctgsgcn----hparddqp---gkgupar_human --------------------------nhid--vscctksgcn----hpdldvqy---rsgupar_mouse --------------------vadsfpthlnvsvscchgsgcn----spt----------gupar_rat --------------------vadsfqthvnlsisccngsgcn----rpt----------gvnn1_canfa --------------------rlfsmkplsgplltvtlfgriy-----ekdqtlk---assvnn1_human --------------------rlfslkptsgpvltvtlfgrly-----ekdwasn---assvnn1_mouse ------------------dgrlvslkptsgpvltiglfgrly-----gkdwasn---assvnn3_human ---------------------lsgsqlaperhyeisrdgrlr-----srs--ga---plpvnn3_mouse ---------------------lsgsqlaleryyevsrdgrlr-----srg--ga---plpgas1_human ------------phpprpgsgaaasggrgdlpygpgrrss-------ggggr-----lapgas1_mouse -----------------pgggaaaaggrgdlphgpgrrssss-----gsggh-----wan5ntd_bovin ------------------sgdqdinvvsgyiskmkvlypaveg-----riqfs----ags5ntd_human ------------------sgdqdinvvstyiskmkviypaveg-----rikfs----tgs5ntd_mouse ------------------sgdqdisvvseyiskmkvvypaveg-----rikfs----aas5ntd_rat ------------------sgdqdisvvseyiskmkviypaveg-----rikfs----aas5ntd_disom ---------------------tdisvvssyikqmkvvypaveg-----rilfv----enscont_mouse ---------------------vpiprdgeyvvevrahsdggdgv--vsqvkis----gvscont_rat ----------------------piprdgeyvvevrahsdggdgv--vsqvkis----gvscont_human ---------------------vpiprdgeyvvevrahsdggdgv--vsqvkis----gapcadd_human -----------------imvtdsgkppmtnitdlrvqvcscrn----skvdcn----aagcadd_mouse ------------------mvtdsgkppmtnitdlkvqvcsckn----skvdcn----gagcadd_chick ----------------pisvtdsgkppltnntelklqvcsckk----srmdcs----asdthy1_human -----------------hhsghsppissqnvtvlrdklvkceg----isllaq----ntsthy1_macmu -----------------hhsghsppissqnvtvlrdklvkceg----isllaq----ntsthy1_mouse -----------------qvsganpmssnksisvyrdklvkcgg----isllvq----ntsthy1_rat -----------------rvsgqnptssnktinvirdklvkcgg----isllvq----ntsthy1_chick -----------------katndytgnqiknitvikdklekcvr----lslliq----ntsprio_atege --------------kgenftetdvkmmervveqmcitqyeres----qayyq-----rgsprio_mansp --------------kgenftetdvkmmervveqmcitqyekes----qayyq-----rgsprio_atepa -------------------tetdvkmmervveqmcitqyeres----qayyq-----rgsprio_cebap -------------------tetdvkmmervveqmcitqyeres----qayyq-----rgsprio_gorgo -------------------tetdvkmmervveqmcitqyeres----qayyq-----rgsprio_human -------------------tetdvkmmervveqmcitqyeres----qayyq-----rgsprio_pantr -------------------tetdvkmmervveqmcitqyeres----qayyq-----rgsprio_ponpy -------------------tetdvkmmervveqmcitqyeres----qayyq-----rgsprio_calja -------------------tetdvkmmervveqmcitqyekes----qayyq-----rgsprio_cerae -------------------tetdvkmmervveqmcitqyekes----qayyq-----rgsprio_cerat -------------------tetdvkmmervveqmcitqyekes----qayyq-----rgsprio_cermo -------------------tetdvkmmervveqmcitqyekes----qayyq-----rgsprio_cerpa -------------------tetdvkmmervveqmcitqyekes----qayyq-----rgsprio_certo -------------------tetdvkmmervveqmcitqyekes----qayyq-----rgsprio_colgu -------------------tetdvkmmervveqmcitqyekes----qayyq-----rgsprio_macfa -------------------tetdvkmmervveqmcitqyekes----qayyq-----rgsprio_prefr -------------------tetdvkmmervveqmcitqyekes----qayyq-----rgsprio_crigr --------------------etdvkmmervveqmcvtqyqkes----qayydg----rrsprio_crimi --------------------etdvkmmervveqmcvtqyqkes----qayydg----rrs

149

prio_rat --------------------etdvkmmervveqmcvtqyqkes----qayydg----rrsprio_mouse ---------------------tdvkmmervveqmcvtqyqkes----qayydg----rrsprio_mesau --------------------etdikimervveqmcttqyqkes----qayydg----rrsprnd_bovin --------------------kqdnklyqrvlwqlirelcstkh----cdfwle----rgaprnd_sheep --------------------kqdnklyqrvlwqlirelcsikh----cdfwle----rgaprnd_mouse --------------------kqdsklhqrvlwrlikeicsakh----cdfwle----rgaprnd_human --------------------kpdnklhqqvlwrlvqelcslkh----cefwle----rgaaces_torca -------------------kvhqrlrvqmcvfwnqflpkllna---tacdge----lsssaces_torma --------------------vhqrlrvqmcvfwnqflpkllna---tacdge----lsssbst1_mouse --------------------rpvkfl--mcvdhsthpdcimns---asasmr----resabst1_rat --------------------ppvkfl--mcvdhsthpdcamns---asasmw----respbst1_human --------------------rpvkll--qcvdhsthpdcalks---aaaatq----rkaphyap_human --------------------vdvciadgvcidaflkppmete----epqify----nasphyap_macfa ---------------------dvciadgvcidaslkppveteg---sppify----ntsscah4_human ------------------ydkeqtvsmkdnvr--plqqlgqrt---viksg-------apcah4_mouse ------------------ydedqklnmkdnvr--plqplgkrq---vfksh-------apppb1_human ---------------------ahvmafaacle--pytacdlap---pagtt----daahpppb2_human ---------------------ahvmafaacle--pytacdlap---pagtt----daahpppb3_human ---------------------ahvmafaacle--pytacdlap---pagtt----daahpppbi_human -----------------qsfvahvmafaacle--pytacdlap---pactt----daahpppbe_mouse -------------------yiahvmafaacle--pytdcglas---pagqs----savspppbi_bovin ----------------------himafagcve--pytdcnlpa---pttats-ipdaahlgfr4_mouse -----------------eafrklft-rnpcldg-aiqafdslq---psvlqd-----qtagfr4_rat ----------------------lft-rnpcldg-aiqafdssq---psvlqdqwnpyqnagfr4_human ------------------aiqafasgwppvlld-qlnpqgdpe---hsllqv-----sstcbl1_arath --------------------kgwafprriyfng---dncvmpp---pdsypw----lpntcobr_arath -------------------ekgwafprriyfng---dncvmpp---pdsypf----lpngcbl2_arath ------------------fekgwafprriyfng---dncvmpp---pdsypw----lpnacbl4_arath ----------------ftfkqgwafprkvyfng---decmlpp---pdsypf----lpnscbl6_arath ------------------------fprrilfng---decvmps---pddfpr----lpkscbl7_arath ---------------ginvpggdgfpskvffng---eecslp-----tilp-----mrsscbl8_arath ---------------gikvgskdgfptkvlfng---qecslp-----svlp-----tsnscbl9_arath ----------------invaerdgfpakvifng---eecllp-----dllp-----masgcbla_arath -----------------nipegdgfptklffng---eecalp-----khfp-----kksscblb_arath -----------------------gfpkrvffng---eecelp-----kyfp-----kkssgfr1_mouse -------------------clsdndygkdglag---asshitt----ksma----appscgfr1_rat -------------------clsdsdfgkdglag---asshitt----ksma----appscgfr1_human ----------------thlcisngnyekeglg----asshitt----ksma----appsccd52_human -----------------llltisllvmvqiqtg---lsgqndt----sqt------sspscd52_macfa ----------------fllltisllvmvqiqtg---vtsqnat----sq-------sspscd52_canfa -----------------------llvmiqiqtg---vlgnstt----prmttkkvksatpcd52_mouse ----------------tgslgqattaasgtnkn---ststkkt----plk------sgascd52_rat ----------------aattkaaattatkttta---vrktpgk----ppk------agascsa_dicdi ----------------tdt-atpsptptetatp---sptpkpt----stpe-----eteat10c_human ----------------pap-aaeetmttspgtp---apaaeet----mtts-----pgtpppbj_rat ----------------padenrpttpvqnsttt---ttttttt----tttt-----tttrbcb1_arath ----------------pg--stpstggttppta---ggtttps----gssg-----tttpg13a_dicdi ---------------eggetptpsttpsttps-----ttpsst----ptqs-----pdddg13b_dicdi ---------------tptpsttpsttpsttps-----ttpsst----ptqs-----pgddpsa_dicdi ---------------tvtptvtptvtptvtptp---tntpnpt----psqt-----stttcntr_human ----------------tttsttsslapp--ptt---kicdpge----lgsg-----ggpscntr_rat ----------------tttsttsslapp--ptt---kicdpge----lssg-----ggpsparb_trybb ---------------epepepepepepepepep---epepepe----pepe-----pepgparc_trybb ---------------epepepepepepepepep---epepepe----pepe-----pepgpara_trybb --------------tgpeetgpeetgpe-etgp---eetgpee----tepe-----pepgglq1_arath -----------------advtepplppvsarap---tttpgpq----stge-----kspnglq2_arath -----------------advtepplppvtakap---tsspgtp----stna-----qapscd14_mouse -----------------lpqvgnlslkgnpfld---seshsek----fnsg----vvtagcd14_rat -----------------lpevgslsltgnpflh---sesqsea----ynsg----vviatcd14_human --------------------vdnltldgnpflvpgtalphegs----mnsg----vvpaccw12_yeast ----------------pkngtstaapvtsteap---knttsaa----pths----vtsyttip1_yeast -----------------ssaessskavsssvap---ttssvst----stve----tasnacwp1_yeast ------------------etssassptasvisq---itdgqiq----apnt----vyeqttir1_yeast -----------------saapsstgaktsaisq---itdgqiq----atka----vseqtcwp2_yeast -----------------ttatteatttaapsst---vetvsps----stet----isqqt

150

dan1_yeast ----------------cstvtkpvsskaqstat---svtssas----rvid----vttn-dan4_yeast ----------------tskvispip-kassats---iahssas----ytvs----intn-by55_human ----------------ffsilftetgnytvtglkqrqhlefsh----negt-----lssgby55_mouse -----------------lsvlv--tgnhteirqrqrshpdfsh----ingt-----lssgvsi4_trybb ----------------agadttaekckgkg-ekdck-spdckw----eggt-----ckdsvsi5_trybb -----------------asdteakkcsdkkkeeeck-spnckw----dgke-----ckdsvsi6_trybb ----------------ggtqtttdkckdkk-kddck-spdckw----eget-----ckdsvsm5_trybr ---------------egaagtttdkckdkk-kddck-spdckw----eget-----ckdsvsa1_trybb ---------------tsrsetpaekctgkk-kddck-dg-ckw----eaet-----ckdsvsa8_trybb -----------------gteattdkckgkl-edtckkesnckw----eget-----ckdsvsm4_trybb -----------------gteattdkckgkl-edtckkesnckw----enna-----ckdsvsac_trybb ----------------tgteattdkckdkt-kdeck-spnckw----eget-----ckdsvsm6_trybb -----------------eteatpekckgkd-aktcgttqgckw----eget-----ckdsvsg4_trybr -------------agegaadkkeekckgkl-epectkapeckw----eget-----ckdsvsi3_trybb -----------------ceeenkgkttpvcgwrkgkegesdq-----dkem-----crngvsm5_trybb ------------------ekentpgqsavcgfrkgkdgetdep----dkek-----crngvsg7_trybr ------------------tiqnqtecegvkgtpptgkakvcgw----iegk-----cqdsugp1_arath -------------gigsgdiwvvvilttntpeggysllttt------nsga-----yafgugp3_arath -----------gigigsddnwivvvlttstpegsys--pas------nsga-----fafgugp2_arath -------------gidsdgiwlvtvlttntpggsys-----------nsga-----fafgugp4_arath ----------------keddwivvvlttntpegsystatptkq----esng-----ftfgnar4_human ------------------yhprgnwlqlrstgnlstyncqllk---------------asnar4_pantr ------------------yhprgnwlqlrstgnlstyncqllk---------------asvse2_trybr --------------kntgrrpnyrecemrdgecnakvaktaep------ds-------ktvsi2_trybb --------------ktqddcrtadecemrdgecnakvaktaep------ds-------ktvsg2_tryeq -----------------kedeckdgcelvegvckpvkqgegen---kektg-------ttvsm1_trybb ----------------vfntesnk-celkkdvkeklekesket---egkde-------kavsib_trybb ---------------------gkkkckldkeeakrvaeqaatnqetegkdgk------ttvsm2_trybb -----------------hndaenkkctldkeeakkvadetak----dgktg-------ntvswa_trybr ---------------dkeekdekkrckls-eegkq-aekenq----egkdg-------kavsi1_trybb -----------------eydseknecrpkkgtettatgpgertt----padg------kavswb_trybr ----------------teetigkceakpkagteaattgpgerd------aga------tacd24_mouse -----------------tqiycnqtsvapfpgnqnisaspnps----nattr-----gggcd24_rat -----------------tqiycnqtsvapfsgnqsisaapnpt----nattr-----sgccd24_human -----------------ssetttgtssnssqstsnsglapnpt----nattk-----aagfol1_human ---------------srgsgrciqmwfdpaqgnpneevarfya----aam--------sgfol1_mouse ---------------srgsgrciqmwfdpaqgnpneevarfya----eam--------sgfol2_human -------------------grciqmwfdsaqgnpneevarfya----aamhv-----nagfol2_mouse -----------------gsgrciqmwfdstqgnpnedvvkfya----sfmt-------sggp63_leich ----------------safeeggyitcppyvev-cqgnv-qaa----kdggn-----aaagp63_leido ----------------safeeggyitcppyvev-cqgnv-qaa----kdggn-----aaagp63_leima ----------------nafegggyitcppyvev-cqgnv-qaa----kdggn-----taagpc4_human ---------------------ceyqqcpsefdynatdha-gks----aneka-----dsagpc4_mouse ----------------------eyqqcpsefeynatdhs-gks----aneka-----dsahya2_mouse ------------------nylqkhfrcqcylgwggeqcqrnyk----gaagn-----asrhya2_rat ------------------sylqmhfrchcylgwggeqcqwnhk----raagd-----asrhya2_human ------------------dhlqthfrcqcylgwsgeqcqwdhr----qaagg-----asert4r_human ------------------csrknrtrshcrlgqagsggg-gtg----dsegs-----galrt4r_macfa ------------------csrknrtrshcrlgqagsggg-gtg----dsegs-----galrt4r_mouse ------------------csrknrtrshcrlgqagsgas-gtg----daegs-----galrt4r_rat ------------------csrknrtrshcrlgqagsgss-gtg----daegs-----galdaf_human -----------------atrstpvsrttkhfhettpnkgsgtt----sgttr-----llsdaf_ponpy -----------------atrstpvsrttkhfhettpnkgsgtt----sgtts-----llshil1_arath ------------------nltcskensta---rrnpgtsssps----sssss-----cykhil2_arath ----------------rcnlacskenttasagkqnpagsappq----plpss-----arkxpp2_human -----------------tirekvgpelqrrqlleefewlqqht----eplaa-----rapxpp2_pig -----------------airekvgpelqrrglleelswlqrht----eplsa-----raamdp1_human ------------------snltqape-eepipldqlggscrth----ygyss-----gasmdp1_rabit -----------------vsnqaqvpe-eepisleqlggscrtq----ygys------eapmdp1_pig ----------------qasnhaqvpg-eepiplgqleascrtn----ygys------aapmdp1_sheep -----------------asdhkqapg-eepiplgqleascrtk----ygys------gtpmdp1_mouse -----------------vssnmqspe-evpitlkeldgscrty----ygys------qahmdp1_rat -----------------vsnimqvpe-eetipvekldgscrtf----yghs------rapsm7a_human -----------------fceaqegsyfreaqhwqllpedgima----ehll------ghasm7a_mouse -----------------rceaqegsylreaqhwellpedrala----eqlm------gha

151

trea_mouse -------------ggggeyevqegfgwtnglalmlldr---yg----dqlts-----gtqtrea_rabit -------------ggggeyevqegfgwtngvalmlldr---yg----drlss-----gtqtrea_human -----------------eyevqegfgwdegvvlmlldr---yg----drlts-----gakgpc1_human -----------------srkssssrtplthalpglseqegqkt----saasc-----pqpgpc1_rat -----------------skkssssrtplihalpglseqegqkt----saatr-----pepreck_human ------------------sptlashvplsaliisqvqvsssvp----sagvr-----arpreck_mouse ------------------sptleshvhlsaliisqvqvssslp----ssavv-----grpnara_mouse ----------------sldspkrkksnfncfysgstq-aanv------sslg-----srenarb_mouse ------------------dsperkksnfncfyngsaq-tvnid----fsisg-----srenara_rat -------vrtqgyneifldspkrkksnyncly----------------ssag-----trenarb_rat -------vrtqgyneifldspkrkksnyncly----------------ssag-----arevnl1_drome ------------------------giygnyydnectfgvgtee----eqlacg----yrsvnl2_drome iseeshqvrfalrkslevkhlltfgiygnyynnectfgvgtae----eqlecg----ykncntr_chick ------------------ttevqitettststssfmpppttki----cdkg------agvvnn2_human -----------------nkngssgpiltvslfgrwytkdslys-----scg------tsnvsm0_trybb ------------------arqgtgktgdkhncafrkgkdgkee----peke------kccppbi_rat --------------------gclepytdcglappadenrpttp----vqnsa-----itmgfr1_chick ------------------nenaigkdntpgvstshissensfa----lpts------fyphyr1_canal ------------------ttvdvipvphsmpsnttdssssvpt----idtne-----ngsvnl3_drome ------------------vtrikmelrqphsqlmtfaiygnyf----deya-------ngefa4_human -------------------lqvsvcckerksesahpvgspges----gtsg------wrglynx_mouse -------------------kscvpscfetvydgyskhasatsc----cqyy-------lccw14_yeast -------------------eahsssaasstvsqetvssalpts----tavis----tfse5ntd_boomi ---------------------qdaeivmkymnstspittaldg---rvtflkt----nqagp85_trycr --------------------kdripipkrgpgsqveggterrh---iprieg-----vradaf1_mouse --------------------tqhvpvtkttvrhpirtstdkge----pntg------gdrgfr4_chick --------------------ehlqptkvageerllrgstrlss----etss------paagp42_rat -------------------gknyscqaenkvsrdisepkkfp-----lvvs-------gtsp63_strpu -----------------iygtprinswdprmnwdlsmnldate----epes-------gsyap3_yeast ----------------ggniftvnssqtasfsgnlttstasat----stss------krnpag1_trybb ------------------nkstvvvdedsgksfvvlgnretvq----eekll-----eemppb_bommo --------------------fsglyeqthvphrmawaacmgpg----rhvc-------vsgp63_leigu -------------------ikgvidfegdaadtaamrrwrerm----talat-----vtasag1_yeast ------------------liaypssasgsqlsgiqqnftstsl----mist------yegvsy1_tryco -------------------qiawessrppstdantsqkgplqr----peks------gesbcb2_arath -------------------pesppsggsptpttptpgagstsp----pppp------kasenl3_arath -------------------ghtggfftgsspspapspallgap----tvapa-----sggenl1_arath -------------------slvvisprhsvispapspvefedg----palap------apnar3_human ------------------edksqgninnptpgpvpvpgpkshp-----sas-------sgampm_helvi ----------------pststtsttaapttvtqptitepstpt----lpel-------tdpl13_arath -------------------mdvmggttrgsssssgddsnvfq-----mifgs-----dapampm_manse ----------------pseattvappaettvtpstfpptvap-----attp-------apbm86_boomi -----------------gkavckekseattaattttkakdkd-----pdpg------kssaph4_drome ------------------pakdfddscedhkdgqkdrpldkpn----pkrn------gatmm17_mouse -----------------wlvcgepladaedvgpgpqgrsgaqd-----glav-----cscmm17_human --------------------hdqsrsedgyevcsctsgasspp----gapgp----lvaamm25_human ----------------cpapssgpraprppkatpvsetcdcqc-----eln--------qconn_drome ------------------chdelsdptelplsrdlmdvrsnvg----qdms-------tagas1_yeast -------------------sgssgsssssssssasssssskkn----aatn-----vkanmkc7_yeast -----------------qtstaalsiskstsstsstgmlspts----ssspr-----kenhyap_cavpo -------------------ddddeppitddtsqnqdsisdits----sapp-------ssmsa1_sarmu ------------------sktthcylcepdptkkghndkncav-----lia------vgatr23_mouse -----------------yydpkfpescrpctkcpqgipvlqec----nstan------tvenl2_arath ----------------psgsamgpsgdgpsaagdistpagapg----qkks------sangas1_caeel -----------------llgvclkntpgvtlspsdnsitdapg-----gnd------ladpona_dicdi -------------------caanqkipttsyivscnstpssns----ttds------dssfc3b_human ------------------knvssetvnititqglavstissfs----ppgy-------qvvsy3_tryco -------------------eanislggkdmvpasevtvpnssn----ptsr------qnsaxo1_human ----------------ttgpggdgipaevhivrnggtsmmven----mavrp-----aphgfr3_human ----------------aakmrfhsqlfsqdwphptfavmahqn-----enp-------avmsln_human --------------------qddldtlglglqggipngylvld----lsvqet----lsgdaf_cavpo -------------------sdklkkthvykvdsfacgasnhwl----adia------kedmm19_mouse ------------------sqtpdtnsstgdvtpsttdtvlgtt----pstmg-----stlgp46_leiam -----------------rlgqrrcgarpspcasvcvswprerr--------------tecnar3_mouse -------------------yktvklilffikssrsgsrseips----lcilwq----yap

152

Suite de l’alignement cd48_mouse ssgvcwtatwlvvttliihrillt-------cd48_rat ssgvhwiaawlvvtlsiipsilla-------cd48_human sfgvewiaswlvvtvptilglllt-------lamp_human ngsislavp-lwllaasllcllskc------lamp_rat ngsislavp-lwllaaslfcllskc------ntri_mouse nngtsrragciwllpllvlhlllkf------ntri_rat nngtsrragciwllpllvlhlllkf------ntri_human sngtsrragcvwllpllvlhlllkf------opcm_bovin vnsasralaclwlsgtlfahffikf------opcm_rat vnsasralaclwlsgtffahffikf------opcm_human vnsasralaclwlsgtllahffikf------cepu_chick nsgawrrgscawllalplaqlarqf------gfr2_human nsgpsrarpsaaltvlsvlmlkqal------gfr2_mouse ysgscrarlstaltalpllmvtla-------gfr2_chick kaagsrhraarilpavpivllklll------cea6_human --gsapvlsavatvgitigvlarvali----cea8_human --gsspglsaratvsimigvlarvali----lach_drome acgqayiagaedvsatsfalvgisarllfarlach_scham acgqayggdaaeis-tsmalilisti-----c59b_mouse naetsslrktallgtsvlvailkfcf-----cd59_rat ngaisllgktallvtsvlaailkpcf-----c59a_mouse -----slgktpllgtsvlvailnlcflshl-cd59_aottr ggttlskktvlllvipflvaawslhp-----cd59_calsq ggttlskktvlllvtpflaaawslhp-----cd59_saisc ggttlskktilllvtpflaaawsrhp-----cd59_cerae ggtslsektvvllvtlllaaawclhp-----cd59_papsp ggtslsektvlllvtpllaaawclhp-----cd59_human ggtslsektvlllvtpflaaawslhp-----cd59_hsvsa ikrtisdk-allllalflvtawnfpl-----cd59_pig datissgk-tallvilllvatwhfcl-----cd59_rabit dgtaltgr-tvllvapllaaarnlcl-----ly6a_mouse twtmagv-llfslssvllqtll---------ly6g_mouse swtmagv-llfslvsvllqtfl---------ly6f_mouse twtmtrv-lllnlgsvflqtll---------ly6c_mouse twtmagv-llfslssvilqtll---------ly6i_mouse swttagv-llfslgsvllqtlm---------ly6h_human pwalagg-lllslgpallwagp---------ly6h_mouse pwalagg-lllslgpallwagp---------ly6e_human svtllgaglllsllpallrfgp---------ly6e_mouse sipllglglllsll-allqlsp---------ly6e_chick syavlalgilvsfv-yvlrare---------psca_human aaailal---lpalg-lllwgpgql------psca_mouse p-ttlgl---ltvlcslllwgssrl------ly6d_human ahsalslglalsllavilapsl---------ly6d_mouse ssvtlglatslsllt-vmalcl---------test_human gmsqpdpswpllffpllwalpllgpv-----test_mouse gllrpdpvplllfltlawassllrpa-----upar_bovin gapktspahlsffvsllltarlwgatllct-upar_human aapqpgpahlsltitllmtarlwggtllwt-upar_mouse gaprpgpaqlsliasllltlglwg-vllwt-upar_rat gapgpgpahliliasllltlrlwg-iplwt-vnn1_canfa dprsqvpgvmllviipivcs----lsw----vnn1_human gltaqariimliviapivcs----lsw----vnn1_mouse dfiahsliimlivt-piihy----lc-----vnn3_human vlvmalygrvfekdpprlgqgsgkfq-----vnn3_mouse ilvmalygrvferdpprlgqgpgklq-----gas1_human rgawtplas---illlllgplf---------gas1_mouse rsawtpfaclllllllllgshl---------5ntd_bovin hccgsfslif-lsvlaviiilyq--------5ntd_human hchgsfslif-lslwavifvlyq--------5ntd_mouse hyqgsfplvi-lsfwamililyq--------

153

5ntd_rat hyqgsfplii-lsfwavilvlyq--------5ntd_disom atlpiinlkiglslfafltwflhcs------cont_mouse tlsssllsll-lpslgflv-ysef-------cont_rat tlssgllsll-lpslgflvfysef-------cont_human tlspsllgll-lpafgilv-ylef-------cadd_human alrfslpsvlllslfslac-l----------cadd_mouse alhlslsllllfsllsllsgl----------cadd_chick alhismt-lillslfslfc-l----------thy1_human wllllllslsllqatdfms-l----------thy1_macmu wlxllllslsllqatdfms-l----------thy1_mouse wmlllllslsllqaldfis-l----------thy1_rat wllllllslsflqatdfis-l----------thy1_chick wllllllslpllqavdfvs-l----------prio_atege s-mvlfssppvillisfli------------prio_mansp s-mvlfssppvillisfli------------prio_atepa s-mvlfssppvillisfliflivg-------prio_cebap s-mvlfssppvillisfliflivg-------prio_gorgo s-mvlfssppvillisfliflivg-------prio_human s-mvlfssppvillisfliflivg-------prio_pantr s-mvlfssppvillisfliflivg-------prio_ponpy s-mvlfssppvillisfliflivg-------prio_calja s-mvlfssppvillisfliflivg-------prio_cerae s-mvlfssppvillisfliflivg-------prio_cerat s-mvlfssppvillisfliflivg-------prio_cermo s-mvlfssppvillisfliflivg-------prio_cerpa s-mvlfssppvillisfliflivg-------prio_certo s-mvlfssppvillisfliflivg-------prio_colgu s-mvlfssppvillisfliflivg-------prio_macfa s-mvlfssppvillisfliflivg-------prio_prefr s-mvffssppvillisfliflivg-------prio_crigr s-avlfssppvillisfliflivg-------prio_crimi s-avlfssppvillisfliflivg-------prio_rat s-avlfssppvillisfliflivg-------prio_mouse sstvlfssppvillisfliflivg-------prio_mesau s-avlfssppvillisfliflmvg-------prnd_bovin glrvtldqpmmlcllvfiwfivk--------prnd_sheep glqvtldqpmmlcllvfiwfivk--------prnd_mouse alrvavdqpamvcllgfvwfivk--------prnd_human glrvtmhqpvllcllaliwlmvk--------aces_torca g---tssskg-iifyvlfsilylif------aces_torma g---tssskg-iifyvlfsilylify-----bst1_mouse sl-haigdas-llisllvalasssqa-----bst1_rat al-haigdis-liisllvalasssqa-----bst1_human sl-yteqrag-liiplflvlasrtql-----hyap_human s---tlsatm-fivsilfliissvasl----hyap_macfa s---tvsttm-fivnilfliissvasl----cah4_human gr-plpwalpallgpmlacllagflr-----cah4_mouse gq-llslplptllvptltclvanflq-----ppb1_human grsvvpallp-llagtlllletatap-----ppb2_human grsvvpallp-llagtlllletatap-----ppb3_human grsvvpallp-llagtlllletatap-----ppbi_human ----vaaslp-llagtllllgasaap-----ppbe_mouse g--ymstllc-llagkmlmlmaaaep-----ppbi_bovin a--aspppla-llagamllllaptly-----gfr4_mouse g--ccfprvs--wlyaltalalqall-----gfr4_rat g--ccflwvs--smsiltalalqall-----gfr4_human g--ralerrs--llsilpvlalpall-----cbl1_arath gshksvgslfaamalllivflhgnl------cobr_arath gs-rsqfsfvaavllpllvffffsa------cbl2_arath spniatspfvillitflsvlilm--------cbl4_arath aq-gnfasfsltillllfisiw---------cbl6_arath ahssssssavissvsvvfcfllhhllllv--cbl7_arath qhrkhisvfllal-pvlallilra-------cbl8_arath -hrkhvstflliltpflallflri-------cbl9_arath grrngaitvlsfitfyvaafmvll-------

154

cbla_arath ghrrgisvsmsfvfatiaafalmmd------cblb_arath gmrlsgirflpsillaittfhaitdrlltgvgfr1_mouse glsslpvmvftalaallsvslaets------gfr1_rat slsslpvlmltalaallsvslaets------gfr1_human glspllvlvvtalstll--sltets------cd52_human assnisggiflffvanaiihlfcfs------cd52_macfa assnlsgggflffvanaiihlfyfs------cd52_canfa alsslgggsvllflantliqlfyls------cd52_mouse siidagacsflff-antlmclfyls------cd52_rat sitdvgactflff-antlmclfyls------csa_dicdi pssattlisplslivifisfvlli-------t10c_human asshylsctivgiivlivllivfv-------ppbj_rat vqnsasslgpataplawhywprr--------bcb1_arath agnaasslggatflvafvsavvalf------g13a_dicdi gstsstlstsfylitllfliqqfi-------g13b_dicdi gstsstlsisfylitlllltqqfi-------psa_dicdi g-sastvvaslsliifsmilslc--------cntr_human apflvsvpitlalaaaaatasslli------cntr_rat ipfltsvpvtlvlaaaaatannlli------parb_trybb aatlksvalpfaiaavglvaaf---------parc_trybb aatlksvalpfaiaaaalvaaf---------para_trybb aatlksvalpfavaaaalvaaf---------glq1_arath gqtrvalslllsafatvfasllll-------glq2_arath gqtritlslllsvfamvlasllll-------cd14_mouse apssqavals-gtlalllgdrlfv-------cd14_rat alspgsagls-gtlalllghrlfv-------cd14_human arstlsvgvs-gtlvllqgargfa-------cw12_yeast gaaakalpaa-gallagaaalll--------tip1_yeast gqrvnagaasfgavvagaaalll--------cwp1_yeast enagakaavgmgagalavaaayll-------tir1_yeast engaakafvgmgagvvaaaamll--------cwp2_yeast engaakaavgmgagalaaaamll--------dan1_yeast gankfn-ngvfgaaaiagaaalll-------dan4_yeast gaynfdkdnifgtaivavvallll-------by55_human --flqekvwvmlvtslvalqal---------by55_mouse --flqvkawgmlvtslvalqalytl------vsi4_trybb s-ilankqfalsvasaafvallf--------vsi5_trybb s-ilankqfalsvasaafvallf--------vsi6_trybb s-filnkqfalsvvsaafaallf--------vsm5_trybr s-illnkqfal-mvsaafvallf--------vsa1_trybb s-illtknfalsvvsaalvallf--------vsa8_trybb s-ilvnkqlalsvvsaafaallf--------vsm4_trybb s-ilvtkkfaltvvsaafvallf--------vsac_trybb s-ilvtkkfalslvsaafasllf--------vsm6_trybb s-ilvtkkfaltvvsaafvallf--------vsg4_trybr s-ilvnkqftlsmisaafm------------vsi3_trybb 3 s-flakkkfalsvvsaaftallf--------vsm5_trybb s-fltskqfafsvvsaafmallf--------vsg7_trybr s-fllskqfalsvvsaafaallf--------ugp1_arath vnglvsssflfllfc----ffmf--------ugp3_arath vnglvssslmfllfc----ffmf--------ugp2_arath vnglvssslmflhvlshnslslfs-------ugp4_arath i-glvsylvifmyss--fcfflf--------nar4_human skkcipdpiaiaslsfltsviifsksrv---nar4_pantr skkcipdpiaiaslsfltsviifsksrv---vse2_trybr nttgn-nsfaiktstlllavllf--------vsi2_trybb nttgn-nsfaiktstlllavllf--------vsg2_tryeq nttgs-nsfvikkaplwlafllf--------vsm1_trybb nttgs-nsflihkaplllafllf--------vsib_trybb nttgs-nsflinkapvllaflll--------vsm2_trybb nttgssnsfvisktplwlavllf--------vswa_trybr nttgssnsfviktsplllavlll--------vsi1_trybb nnt-vsdslliktsplwlafllf--------vswb_trybr nttgssnsfviktspllfafllf--------cd24_mouse sslqstagllalslsllhlyc----------

155

cd24_rat sslqstagllalslsllhlyc----------cd24_human galqstaslfvvslsllhlys----------fol1_human agpwaawpfllslalml-lwlls--------fol1_mouse aglhgtwpllcslslvl-lwvis--------fol2_human emlhgtgglllslalmlqlwllg--------fol2_mouse tvphaavllvpslapvlslwlpg--------gp63_leich grrgpraaa-tallvaallaval--------gp63_leido grrgpraaa-tallvaallaval--------gp63_leima grrgpraaa-tallvaallaval--------gpc4_human g-vrpgaqa-ylltvfcilflvmqrewr---gpc4_mouse ggahaeakp-yllaalcilflavqgewr---hya2_mouse awagshltsllglvavaltwtl---------hya2_rat awagahlasllglvamtltwtl---------hya2_human awagshltsllalaalaftwtl---------rt4r_human psltcsltp-lglalv--lwtvlgpc-----rt4r_macfa pslacslap-lglalv--lwtvlgpc-----rt4r_mouse palacslap-lglalv--lwtvlgpc-----rt4r_rat palacslap-lglalv--lwtvlgpc-----daf_human ghtcft---ltgllg-tlvtmgllt------daf_ponpy ghkcft---ltgllg-tlvtmgllt------hil1_arath hingfhgslvvlfvslslillglln------hil2_arath lc--fs---vflllsllmmfltlld------xpp2_human dta-swasvlvvstlailgwsv---------xpp2_pig ptt-slgslmtvsalailgwsv---------mdp1_human slhrhwglllaslaplvlclsll--------mdp1_rabit slhrrpgallaslsllllslgll--------mdp1_pig slhlppgsllaslvplll-lslp--------mdp1_sheep slhlqpgsllaslvtlllslcll--------mdp1_mouse sihlqtgalvaslasllfrlhll--------mdp1_rat sihlqigallaslaslvfslhpl--------sm7a_human calaas-lwlgvlptltlgllvh--------sm7a_mouse ralaas-fwlgvlptlilgllvh--------trea_mouse laslgp-hcl--vaalllslllq--------trea_rabit lallep-hcl--aaalllsfltr--------trea_human laflep-hcl--aatllpslllsllpw----gpc1_human ptfllplllflaltvarprwr----------gpc1_rat hyffllflftlvlaaarprwr----------reck_human schslllplslglalh-llwtyn--------reck_mouse lfhslllllswgltvh-llwtrp--------nara_mouse scvslflvvllgllvqqltlaep--------narb_mouse scvslflvvllgllvqqltlaep--------nara_rat scvslflvvltsllvqllclaep--------narb_rat scvslflvvlpsllvqllclaep--------vnl1_drome gspglrilggwlampliilaiartmss----vnl2_drome --------------pki--------------cntr_chick gsgavavcwtaglvlaaygvlfi--------vnn2_human saityllifillmiialqnivml--------vsm0_trybb dgsflvnkkfalmvydfvsllaf--------ppbi_rat nnvllslqllvsmlllvgtalvvs-------gfr1_chick stplilmtialslflflsssvvl--------hyr1_canal sivtggksilfglivsmvvlfm---------vnl3_drome gagrlgtllfllitplimmhlfre-------efa4_human gdtpsplcllllllllilrllril-------lynx_mouse ngagfatpvtlalvpallatfwsll------cw14_yeast gsgnvleagksvfiaavaamli---------5ntd_boomi sdaclnlaspflvllvlvvfyhl--------gp85_trycr napvgsgllplllllglwvfaal--------daf1_mouse yiyghtclitltvlhvmlsligylt------gfr4_chick pchqaasllqlwlpptlavlshfmm------gp42_rat asmksttvviwlpvsclvgwpwllrf-----sp63_strpu qrhlpvcgvlslvvttllalmlh--------yap3_yeast vgdhivpslpltlisllfafi----------pag1_trybb aicgvgradslrrtlallfllf---------ppb_bommo aatvptaallslllaafitlrhqcfl-----gp63_leigu allgivlaamailvvwlllitip--------

156

sag1_yeast kasiffsaelgsiiflllsyllf--------vsy1_tryco shlpsgsshgtkairsilhvallm-------bcb2_arath gaskgvmsyvlvgvsmvlgyglwm-------enl3_arath sassltrqvgvlgfvgllaivll--------enl1_arath isgsvrlggcyvvlglvlglcawf-------nar3_human klllpqfgmviilisvsainlfval------ampm_helvi samtsfaslfiislgailhlil---------pl13_arath srprltllfsllmisvlslstlll-------ampm_manse gsgniaalsvvsllvtlainmva--------bm86_boomi aaavsatglllllaatsvtaasl--------aph4_drome vvgaslipiltaataailrgrgl--------mm17_mouse tsdahrlalpslllltpllwgl---------mm17_human tmllllpplspgalwtaaqaltl--------mm25_human aagrwpapipllllpllvggvasr-------conn_drome ganslaqgmtiivslqvalmisrg-------gas1_yeast laqvvftsiislsiaagvgfalv--------mkc7_yeast gghnlnppffarfitaifhhi----------hyap_cavpo hilpkdlswclfllsifsqhwkyll------msa1_sarmu gsrptarsvfgvaapcilallhft-------tr23_mouse csssvsnprnwlfllmlivfci---------enl2_arath gmtvmsittvlslvltiflsa----------gas1_caeel ssvghgfnilsaisvylltvlvf--------pona_dicdi sgstvmiglassllfafatllalf-------fc3b_human sfclvmvllfavdtglyfsvktni-------vsy3_tryco vvqepttvsaaaitplilpwtlli-------axo1_human pgtvishsvamliligslel-----------gfr3_human rpqpwvpslfsctlplilllslw--------msln_human tpcllgpgpvltvlalllastla--------daf_cavpo lrrdfsnaqnissllqvlgaaqtq-------mm19_mouse dipsatdsaslsfsanvtllga---------gp46_leiam acpalfdgarlrccalvvcagaapag-----nar3_mouse sishgihhftrcfccklhraia---------

APPENDICE C

SÉQUENCES D’ENTRAÎNEMENT DU RÉSEAU DE NEURONES ARTIFICIELS

Cet appendice présente les séquences du groupe d’entraînement du réseau de neurones artificiels. Le tableau contient les 79 séquences GPI retenues comme étant représentatives du signal GPI. Il contient également 79 séquences ayant une très faible probabilité d’être à ancre GPI et qui sont utilisées comme séquences discriminantes

Séquences d’entraînement

GPI entraînement non GPI entraînement #1 : GLQ2_ARATH #2 : ENL1_ARATH #3 : CBL6_ARATH #4 : BCB1_ARATH #5 : YAP3_YEAST #6 : XPP2_HUMAN #7 : VSM0_TRYBB #8 : VSG7_TRYBR #9 : VSA1_TRYBB #10 : UPAR_BOVIN #11 : TREA_HUMAN #12 : TR23_MOUSE #13 : TIR1_YEAST #14 : THY1_CHICK #15 : TEST_HUMAN #16 : T10C_HUMAN #17 : SM7A_HUMAN #18 : SAG1_YEAST #19 : RECK_HUMAN #20 : PSCA_HUMAN #21 : PSA_DICDI #22 : PRND_HUMAN #23 : PRIO_ATEPA #24 : PPBI_BOVIN #25 : PONA_DICDI #26 : PL13_ARATH

#1 : 1-143E_HUMAN #2 : 2-7B2_HUMAN #3 : 4-TERA_HUMAN #4 : 5-PEX1_HUMAN #5 : sw:AF31_HUMAN #6 : sw:PGN_HUMAN #7 : sw:PRSX_HUMAN #8 : sw:SPAS_HUMAN #9 : sw:BAT1_HUMAN #10 : sw:ACPM_HUMAN #11 : sw:ACTA_HUMAN #12 : sw:THEA_HUMAN #13 : sw:A2A1_HUMAN #14 : sw:ILVE_HELPJ #15 : sw:BCAT_HUMAN #16 : sw:ISCS_HELPJ #17 : sw:NFS1_HUMAN #18 : sw:CSD_CHLTR #19 : sw:KYNU_HUMAN #20 : sw:BIN1_HUMAN #21 : sw:AAKG_HUMAN #22 : sw:AMY1_HUMAN #23 : sw:ANR5_HUMAN #24 : sw:ASB2_HUMAN #25 : sw:BCL3_HUMAN #26 : sw:GABB_HUMAN

158

GPI entraînement non GPI entraînement #27 : PARB_TRYBB #28 : PARA_TRYBB #29 : PAG1_TRYBB #30 : OPCM_BOVIN #31 : NTRI_HUMAN #32 : NAR3_HUMAN #33 : MSLN_HUMAN #34 : MSA1_SARMU #35 : MM25_HUMAN #36 : MM17_HUMAN #37 : MKC7_YEAST #38 : MDP1_HUMAN #39 : LYNX_MOUSE #40 : LY6I_MOUSE #41 : LY6A_MOUSE #42 : LAMP_RAT #43 : LACH_DROME #44 : HYR1_CANAL #45 : HYA2_HUMAN #46 : GPC1_RAT #47 : GP85_TRYCR #48 : GP42_RAT #49 : GFR3_HUMAN #50 : GFR2_MOUSE #51 : GAS1_CAEEL #52 : G13B_DICDI #53 : FOL1_HUMAN #54 : FC3B_HUMAN #55 : EFA4_HUMAN #56 : DAN4_YEAST #57 : DAN1_YEAST #58 : DAF1_MOUSE #59 : CW12_YEAST #60 : CSA_DICDI #61 : CONN_DROME #62 : CNTR_CHICK #63 : CEPU_CHICK #64 : CEA6_HUMAN #65 : CD59_CALSQ #66 : CD52_CANFA #67 : CD48_HUMAN #68 : CD24_HUMAN #69 : CD14_HUMAN #70 : CAH4_HUMAN #71 : CADD_HUMAN #72 : C59A_MOUSE #73 : BY55_HUMAN #74 : BST1_HUMAN #75 : BM86_BOOMI #76 : AXO1_HUMAN #77 : AMPM_MANSE #78 : ACES_TORMA #79 : 5NTD_BOVIN

#27 : sw:RN5A_MOUSE #28 : sw:P532_HUMAN #29 : sw:SYNP_HUMAN #30 : sw:V031_FOWPV #31 : sw:Y379_HUMAN #32 : sw:YB23_HUMAN #33 : sw:APL1_HUMAN #34 : sw:CG1C_HUMAN #35 : sw:CYCH_HUMAN #36 : sw:CYTB_HUMAN #37 : sw:IR01_HCMVA #38 : sw:J1L_HCMVA #39 : sw:TRS1_HCMVA #40 : sw:US04_HCMVA #41 : sw:CLPP_HUMAN #42 : sw:NBPX_HUMAN #43 : sw:COE3_HUMAN #44 : sw:DBPA_HUMAN #45 : sw:YB1_HUMAN #46 : sw:CA12_BOVIN #47 : sw:CO5A_PIG #48 : sw:HEM6_HUMAN #49 : sw:CORC_HUMAN #50 : sw:CKS2_HUMAN #51 : sw:CISY_HELPJ #52 : sw:CKS1_HUMAN #53 : sw:CIT2_HUMAN #54 : sw:CI30_HUMAN #55 : sw:DFFB_HUMAN #56 : sw:CIDA_HUMAN #57 : sw:FS27_HUMAN #58 : sw:CIT1_HUMAN #59 : sw:DCTD_HUMAN #60 : sw:RIBD_CHLTR #61 : sw:DSRA_HUMAN #62 : sw:RED1_HUMAN #63 : sw:CD5R_HUMAN #64 : sw:KVB1_HUMAN #65 : sw:CH10_HUMAN #66 : sw:EKI1_HUMAN #67 : sw:CBX2_HUMAN #68 : sw:I1BC_MOUSE #69 : sw:ICE2_HUMAN #70 : sw:CATA_HUMAN #71 : sw:CBFC_HUMAN #72 : sw:MK21_YEAST #73 : sw:MPI3_HUMAN #74 : sw:CAH2_HUMAN #75 : sw:CYNT_HELPJ #76 : sw:CAR8_HUMAN #77 : sw:TESC_HUMAN #78 : sw:A60D_DROME #79 : sw:EFER_HUMAN

APPENDICE D

ANALYSE ROC DU RÉSEAU DE NEURONES ARTIFICIELS Cet appendice présente l’analyse ROC effectué sur le jeu de séquences du test de validation du réseau de neurones artificiels. Cette analyse a permis la détermination du seuil d’acceptation des prédictions (0.90)

Analyse ROC

Positif si ≥ Sensibilité 1 - Spécificité-1.00000 1.000 1.000

.00001 1.000 .888

.00002 .985 .769

.00003 .978 .679

.00004 .963 .642

.00005 .963 .604

.00006 .955 .567

.00006 .955 .545

.00008 .955 .530

.00009 .955 .515

.00011 .955 .500

.00012 .955 .493

.00013 .955 .485

.00014 .955 .478

.00016 .955 .463

.00018 .955 .455

.00021 .955 .448

.00023 .955 .433

.00026 .955 .425

160

Positif si ≥ Sensibilité 1 - Spécificité

.00039 .955 .403

.00043 .955 .396

.00051 .955 .388

.00056 .955 .381

.00071 .955 .373

.00087 .955 .366

.00089 .955 .358

.00096 .955 .351

.00108 .955 .343

.00119 .955 .336

.00140 .955 .328

.00159 .955 .321

.00164 .955 .313

.00173 .955 .306

.00215 .955 .299

.00254 .955 .291

.00263 .955 .284

.00269 .955 .276

.00277 .948 .276

.00303 .948 .269

.00326 .948 .261

.00347 .948 .254

.00388 .948 .246

.00452 .948 .239

.00499 .948 .231

.00509 .948 .224

.00563 .948 .216

.00670 .948 .209

.00788 .948 .201

.00912 .948 .194

.00998 .948 .187

.01046 .948 .179

.01185 .948 .172

.01312 .948 .164

.01356 .940 .164

.01386 .940 .157

.01414 .940 .149

.01533 .940 .142

.01637 .940 .134

.01694 .940 .127

161

Positif si ≥ Sensibilité 1 - Spécificité

.01694 .940 .127

.01792 .940 .119

.02127 .940 .112

.03034 .940 .104

.04442 .933 .104

.05710 .933 .097

.06247 .933 .090

.09170 .933 .082

.13811 .925 .082

.16051 .925 .075

.16901 .925 .067

.21070 .918 .067

.38235 .918 .060

.60521 .910 .060

.71156 .903 .060

.73189 .903 .052

.74027 .903 .045

.81220 .896 .045

.88600 .896 .037

.89993 .896 .030

.92121 .896 .022

.93895 .888 .022

.94674 .881 .022

.96438 .881 .015

.97781 .873 .015

.98500 .866 .015

.99180 .858 .015

.99221 .851 .015

.99317 .843 .015

.99400 .836 .015

.99515 .828 .015

.99695 .821 .015

.99786 .813 .015

.99818 .799 .015

.99857 .791 .015

.99869 .784 .015

.99873 .776 .015

.99891 .761 .015

.99909 .754 .015

.99919 .746 .015

162

Positif si ≥ Sensibilité 1 - Spécificité.99919 .746 .015.99927 .746 .007.99927 .739 .007.99932 .731 .007.99937 .724 .007.99939 .716 .007.99943 .709 .007.99953 .701 .007.99961 .679 .007.99962 .672 .007.99966 .657 .007.99971 .649 .007.99975 .642 .007.99976 .634 .007.99978 .627 .007.99980 .619 .007.99981 .612 .007.99982 .604 .007.99983 .597 .007.99984 .582 .007.99985 .575 .007.99986 .567 .007.99988 .560 .007.99988 .530 .007.99990 .500 .000.99991 .478 .000.99992 .463 .000.99993 .440 .000.99994 .410 .000.99995 .388 .000.99996 .373 .000.99997 .358 .000.99998 .299 .000.99999 .231 .000

1.00000 .067 .0002.00000 .000 .000

APPENDICE E

SÉQUENCES D’ENTRAÎNEMENT DU MODÈLE DE MARKOV CACHÉ Cet appendice présente les séquences du groupe d’entraînement du modèle de Markov caché. L’appendice contient les 87 séquences GPI, ayant une annotation de la position du site d’ancrage retenues comme étant représentatives du signal GPI.

Séquences d’entraînement

> 5NTD_HUMAN 25 STGSTGSHCHGSFSLIFLSLWAVIFVLYQ> ACES_TORMA 27 SSGSSGTSSSKGIIFYVLFSILYLIFY> AMPM_HELVI 28 DSADSAMTSFASLFIISLGAILHLIL> APH4_DROME 24 NGANGATVVGASLIPILTAATAAILRGRGL> AXO1_HUMAN 22 NMANMAVRPAPHPGTVISHSVAMLILIGSLEL> BM86_BOOMI 27 SAASAAAVSATGLLLLLAATSVTAASL> BST1_HUMAN 25 APSAPSLYTEQRAGLIIPLFLVLASRTQL> BY55_HUMAN 28 SSGSSGFLQEKVWVMLVTSLVALQAL> C59A_MOUSE 23 SDGSDGSLGKTPLLGTSVLVAILNLCFLSHL> CADD_CHICK 31 DALDALHISMTLILLSLFSLFCL> CAH4_HUMAN 22 SGASGAPGRPLPWALPALLGPMLACLLAGFLR> CD14_HUMAN 20 NSGNSGVVPACARSTLSVGVSGTLVLLQGARGFA> CD24_HUMAN 29 GGAGGALQSTASLFVVSLSLLHLYS

164

> CD48_HUMAN 27 SFGSFGVEWIASWLVVTVPTILGLLLT> CD52_HUMAN 25 SASSASSNISGGIFLFFVANAIIHLFCFS> CD59_HUMAN 24 NGGNGGTSLSEKTVLLLVTPFLAAAWSLHP> CEA6_HUMAN 26 GSAGSAPVLSAVATVGITIGVLARVALI> CEA8_HUMAN 21 DALDALVQGSSPGLSARATVSIMIGVLARVALI> CEPU_CHICK 27 SGASGAWRRGSCAWLLALPLAQLARQF> CNTR_HUMAN 20 SGGSGGGPSAPFLVSVPITLALAAAAATASSLLI> CONT_MOUSE 31 SSSSSSLLSLLLPSLGFLVYSEF> CONN_DROME 2 AGAAGANSLAQGMTIIVSLQVALMISRG> DAF_HUMAN 18 SGTSGTTSGTTRLLSGHTCFTLTGLLGTLVTMGLLT> EFA4_HUMAN 19 SGTSGTSGWRGGDTPSPLCLLLLLLLLILRLLRIL> FOL1_HUMAN 27 SGASGAGPWAAWPFLLSLALMLLWLLS> FOL2_HUMAN 25 NAGNAGEMLHGTGGLLLSLALMLQLWLLG> GAS1_CAEEL 27 DSSDSSVGHGFNILSAISVYLLTVLVF> GFR1_CHICK 11 SHISHISSENSFALPTSFYPSTPLILMTIALSLFLFLSSSVVL> GFR3_HUMAN 24 NPANPAVRPQPWVPSLFSCTLPLILLLSLW> GFR4_RAT 27 NAGNAGCCFLWVSSMSILTALALQALL> GP42_RAT 23 GTAGTASMKSTTVVIWLPVSCLVGWPWLLRF> GPC1_HUMAN 22 SAASAASCPQPPTFLLPLLLFLALTVARPRWR> HYA2_HUMAN 25 GASGASEAWAGSHLTSLLALAALAFTWTL> LACH_SCHAM 33 GDAGDAAEISTSMALILISTI> LAMP_HUMAN 27 NGSNGSISLAVPLWLLAASLLCLLSKC> LY6G_MOUSE 35 GVLGVLLFSLVSVLLQTFL> MDP1_HUMAN 24 SGASGASSLHRHWGLLLASLAPLVLCLSLL> MM17_MOUSE 30 SDASDAHRLALPSLLLLTPLLWGL> MM19_MOUSE 35 DSADSASLSFSANVTLLGA> MM25_HUMAN 27 AAGAAGRWPAPIPLLLLPLLVGGVASR> MSLN_HUMAN 8 GGIGGIPNGYLVLDLSVQETLSGTPCLLGPGPVLTVLALLLASTLA> NAR3_HUMAN 23 SSGSSGKLLLPQFGMVIILISVSAINLFVA

165

> NTRI_RAT 27 NGTNGTSRRAGCIWLLPLLVLHLLLKF> OPCM_RAT 27 NSANSASRALACLWLSGTFFAHFFIKF> PPB1_HUMAN 21 DAADAAHPGRSVVPALLPLLAGTLLLLETATAP> PPB_BOMMO 16 GPGGPGRHVCVSAATVPTAALLSLLLAAFITLRHQCFL> PPBE_MOUSE 23 SAVSAVSPGYMSTLLCLLAGKMLMLMAAAEP> PPBI_HUMAN 25 DAADAAHPVAASLPLLAGTLLLLGASAAP> PPBJ_RAT 30 NSANSASSLGPATAPLAWHYWPRR> PRIO_CRIGR 27 SSASSAVLFSSPPVILLISFLIFLIVG> PRND_BOVIN 26 GAGGAGLRVTLDQPMMLCLLVFIWFIVK> PSCA_MOUSE 22 NGANGAHTLKPPTTLGLLTVLCSLLLWGSSRL> RECK_MOUSE 21 SSASSAVVGRPLFHSLLLLLSWGLTVHLLWTRP> RT4R_HUMAN 24 SGASGALPSLTCSLTPLGLALVLWTVLGPC> SM7A_MOUSE 32 AASAASFWLGVLPTLILGLLVH> SP63_STRPU 26 GSQGSQRHLPVCGVLSLVVTTLLALML> T10C_HUMAN 27 ASSASSHYLSCTIVGIIVLIVLLIVFV> TEST_HUMAN 24 SGMSGMSQPDPSWPLLFFPLLWALPLLGPV> TEST_MOUSE 24 NGLNGLLRPDPVPLLLFLTLAWASSLLRPA> THY1_HUMAN 19 CEGCEGISLLAQNTSWLLLLLLSLSLLQATDFMSL> TR23_MOUSE 29 CSSCSSSVSNPRNWLFLLMLIVFCI> TREA_HUMAN 23 SGASGAKLAFLEPHCLAATLLPSLLLSLLPW> UPAR_MOUSE 21 GGAGGAPRPGPAQLSLIASLLLTLGLWGVLLWT> VNN1_HUMAN 28 GLTGLTAQARIIMLIVIAPIVCSLSW> VNN2_HUMAN 23 CGTCGTSNSAITYLLIFILLMIIALQNIVML> VNN3_MOUSE 19 GGAGGAPLPILVMALYGRVFERDPPRLGQGPGKLQ> XPP2_HUMAN 25 AARAARAPDTASWASVLVVSTLAILGWSV> BCB1_ARATH 28 NAANAASSLGGATFLVAFVSAVVALF> CBL1_ARATH 30 SVGSVGSLFAAMALLLIVFLHGNL> CBL2_ARATH 26 NASNASPNIATSPFVILLITFLSVLILM> CBL7_ARATH 26 SSQSSQHRKHISVFLLALPVLALLILRA

166

> CBLA_ARATH 24 SSGSSGHRRGISVSMSFVFATIAAFALMMD> COBR_ARATH 25 NGGNGGSRSQFSFVAAVLLPLLVFFFFSA> ENL1_ARATH 28 SGSSGSVRLGGCYVVLGLVLGLCAWF> GLQ1_ARATH 19 STGSTGEKSPNGQTRVALSLLLSAFATVFASLLLL> HIL1_ARATH 21 SSCSSCYKHINGFHGSLVVLFVSLSLILLGLLN> UGP1_ARATH 25 SGASGAYAFGVNGLVSSSFLFLLFCFFMF> PL13_ARATH 23 SDASDAPSRPRLTLLFSLLMISVLSLSTLLL> CW12_YEAST 29 GAAGAAAKALPAAGALLAGAAALLL> CW14_YEAST 32 NVLNVLEAGKSVFIAAVAAMLI> DAN1_YEAST 34 NGVNGVFGAAAIAGAAALLL> HYR1_CANAL 26 NGSNGSSIVTGGKSILFGLIVSMVVLFM> MKC7_YEAST 29 NGGNGGHNLNPPFFARFITAIFHHI> SAG1_YEAST 17 STSSTSLMISTYEGKASIFFSAELGSIIFLLLSYLLF> TIP1_YEAST 28 GQRGQRVNAGAASFGAVVAGAAALLL> YAP3_YEAST 29 NVGNVGDHIVPSLPLTLISLLFAFI> CD59_HSVSA 25 NIKNIKRTISDKALLLLALFLVTAWNFPL

APPENDICE F

MODÈLE DE MARKOV CACHÉ DE Initial Cet appendice présente le modèle de Markov caché conçu à partir des connaissances de la structure GPI proposée dans la littérature.

Modèle de Markov caché

Probabilité de transition entre états -------------------------------------------------------- [ (0:1) ] -------------------------------------------------------- 0:[ (1:1) ] 1:[ (2:1) ] 2:[ (3:0.1) (4:0.1) (5:0.1) (6:0.1) (7:0.1) (8:0.1) (9:0.1) (10:0.1) (11:0.1) (12:0.1) ] 3:[ (4:0.111111) (5:0.111111) (6:0.111111) (7:0.111111) (8:0.111111) (9:0.111111) (10:0.111111) (11:0.111111) (12:0.111111) ] 4:[ (5:0.125) (6:0.125) (7:0.125) (8:0.125) (9:0.125) (10:0.125) (11:0.125) (12:0.125) ] 5:[ (6:0.142857) (7:0.142857) (8:0.142857) (9:0.142857) (10:0.142857) (11:0.142857) (12:0.142857) ] 6:[ (7:0.166667) (8:0.166667) (9:0.166667) (10:0.166667) (11:0.166667) (12:0.166667) ]

168

7:[ (8:0.2) (9:0.2) (10:0.2) (11:0.2) (12:0.2) ] 8:[ (9:0.25) (10:0.25) (11:0.25) (12:0.25) ] 9:[ (10:0.333333) (11:0.333333) (12:0.333333) ] 10:[ (11:0.5) (12:0.5) ] 11:[ (12:1) ] 12:[ (13:1) ] 13:[ (14:1) ] 14:[ (15:1) ] 15:[ (16:0.05) (17:0.05) (18:0.05) (19:0.05) (20:0.05) (21:0.05) (22:0.05) (23:0.05) (24:0.05) (25:0.05) (26:0.05) (27:0.05) (28:0.05) (29:0.05) (30:0.05) (31:0.05) (32:0.05) (33:0.05) (34:0.05) (35:0.05) ] 16:[ (17:0.0526316) (18:0.0526316) (19:0.0526316) (20:0.0526316) (21:0.0526316) (22:0.0526316) (23:0.0526316) (24:0.0526316) (25:0.0526316) (26:0.0526316) (27:0.0526316) (28:0.0526316) (29:0.0526316) (30:0.0526316) (31:0.0526316) (32:0.0526316) (33:0.0526316) (34:0.0526316) (35:0.0526316) ] 17:[ (18:0.0555556) (19:0.0555556) (20:0.0555556) (21:0.0555556) (22:0.0555556) (23:0.0555556) (24:0.0555556) (25:0.0555556) (26:0.0555556) (27:0.0555556) (28:0.0555556) (29:0.0555556) (30:0.0555556) (31:0.0555556) (32:0.0555556) (33:0.0555556) (34:0.0555556) (35:0.0555556) ] 18:[ (19:0.0588235) (20:0.0588235) (21:0.0588235) (22:0.0588235) (23:0.0588235) (24:0.0588235) (25:0.0588235) (26:0.0588235) (27:0.0588235) (28:0.0588235) (29:0.0588235) (30:0.0588235) (31:0.0588235) (32:0.0588235) (33:0.0588235) (34:0.0588235) (35:0.0588235) ] 19:[ (20:0.0625) (21:0.0625) (22:0.0625) (23:0.0625) (24:0.0625) (25:0.0625) (26:0.0625) (27:0.0625) (28:0.0625) (29:0.0625) (30:0.0625) (31:0.0625) (32:0.0625) (33:0.0625) (34:0.0625) (35:0.0625) ] 20:[ (21:0.0666667) (22:0.0666667) (23:0.0666667) (24:0.0666667) (25:0.0666667) (26:0.0666667) (27:0.0666667) (28:0.0666667) (29:0.0666667) (30:0.0666667) (31:0.0666667) (32:0.0666667) (33:0.0666667) (34:0.0666667) (35:0.0666667) ] 21:[ (22:0.0714286) (23:0.0714286) (24:0.0714286) (25:0.0714286) (26:0.0714286) (27:0.0714286) (28:0.0714286) (29:0.0714286) (30:0.0714286) (31:0.0714286) (32:0.0714286) (33:0.0714286) (34:0.0714286) (35:0.0714286) ]

169

22:[ (23:0.0769231) (24:0.0769231) (25:0.0769231) (26:0.0769231) (27:0.0769231) (28:0.0769231) (29:0.0769231) (30:0.0769231) (31:0.0769231) (32:0.0769231) (33:0.0769231) (34:0.0769231) (35:0.0769231) ] 23:[ (24:0.0833333) (25:0.0833333) (26:0.0833333) (27:0.0833333) (28:0.0833333) (29:0.0833333) (30:0.0833333) (31:0.0833333) (32:0.0833333) (33:0.0833333) (34:0.0833333) (35:0.0833333) ] 24:[ (25:0.0909091) (26:0.0909091) (27:0.0909091) (28:0.0909091) (29:0.0909091) (30:0.0909091) (31:0.0909091) (32:0.0909091) (33:0.0909091) (34:0.0909091) (35:0.0909091) ] 25:[ (26:0.1) (27:0.1) (28:0.1) (29:0.1) (30:0.1) (31:0.1) (32:0.1) (33:0.1) (34:0.1) (35:0.1) ] 26:[ (27:0.111111) (28:0.111111) (29:0.111111) (30:0.111111) (31:0.111111) (32:0.111111) (33:0.111111) (34:0.111111) (35:0.111111) ] 27:[ (28:0.125) (29:0.125) (30:0.125) (31:0.125) (32:0.125) (33:0.125) (34:0.125) (35:0.125) ] 28:[ (29:0.142857) (30:0.142857) (31:0.142857) (32:0.142857) (33:0.142857) (34:0.142857) (35:0.142857) ] 29:[ (30:0.166667) (31:0.166667) (32:0.166667) (33:0.166667) (34:0.166667) (35:0.166667) ] 30:[ (31:0.2) (32:0.2) (33:0.2) (34:0.2) (35:0.2) ] 31:[ (32:0.25) (33:0.25) (34:0.25) (35:0.25) ] 32:[ (33:0.333333) (34:0.333333) (35:0.333333) ] 33:[ (34:0.5) (35:0.5) ] 34:[ (35:1) ] 35:[ (36:1) ] 36:[ (37:1) ] 37:[ (38:1) ] 38:[ (39:1) ] 39:[ (40:1) ]

170

40:[ (41:1) ] 41:[ ] Probabilité d’émission des états Les numéros correspondent aux acides aminés 0 = a 10 = m 1 = c 11 = n 2 = d 12 = p 3 = e 13 = q 4 = f 14 = r 5 = g 15 = s 6 = h 16 = t 7 = I 17 = v 8 = k 18 = w 9 = l 19 = y 20 = $ -------------------------------------------------------- 0:[ (0:0.052356) (1:0.0285578) (2:0.0618753) (3:3.96637e-05) (4:3.96637e-05) ] 0:[ (5:0.166587) (6:3.96637e-05) (7:3.96637e-05) (8:3.96637e-05) (9:3.96637e-05) ] 0:[ (10:3.96637e-05) (11:0.214184) (12:0.00475964) (13:3.96637e-05) (14:3.96637e-05) ] 0:[ (15:0.466445) (16:0.00475964) (17:3.96637e-05) (18:3.96637e-05) (19:3.96637e-05) ] 0:[ (20:0) ] 1:[ (0:0.26178) (1:0.00475964) (2:0.0237982) (3:0.0142789) (4:0.00951928) ] 1:[ (5:0.290338) (6:0.0190386) (7:0.0190386) (8:0.00475964) (9:0.00951928) ] 1:[ (10:0.00475964) (11:0.00475964) (12:0.0285578) (13:0.0142789) (14:0.0237982) ] 1:[ (15:0.214184) (16:0.0285578) (17:0.0237982) (18:0.000237982) (19:0.000237982) ] 1:[ (20:0) ] 2:[ (0:0.385531) (1:0.00475964) (2:0.00475964) (3:0.00475964) (4:0.00951928) ] 2:[ (5:0.228463) (6:0.00951928) (7:0.0190386) (8:0.00475964) (9:0.0428367) ] 2:[ (10:0.00951928) (11:0.000158655) (12:0.00475964) (13:0.0142789) (14:0.0237982) ] 2:[ (15:0.152308) (16:0.0713946) (17:0.00951928) (18:0.000158655) (19:0.000158655) ] 2:[ (20:0) ] 3:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 3:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 3:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 3:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 3:[ (20:0) ]

171

4:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 4:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 4:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 4:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 4:[ (20:0) ] 5:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 5:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 5:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 5:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 5:[ (20:0) ] 6:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 6:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 6:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 6:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 6:[ (20:0) ] 7:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 7:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 7:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 7:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 7:[ (20:0) ] 8:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 8:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 8:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 8:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 8:[ (20:0) ] 9:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 9:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 9:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 9:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 9:[ (20:0) ] 10:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 10:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 10:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 10:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 10:[ (20:0) ] 11:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 11:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ]

172

11:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 11:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 11:[ (20:0) ] 12:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 12:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 12:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 12:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 12:[ (20:0) ] 13:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 13:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 13:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 13:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 13:[ (20:0) ] 14:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 14:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 14:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 14:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 14:[ (20:0) ] 15:[ (0:0.109524) (1:0.0210884) (2:0.0136054) (3:0.0136054) (4:0.029932) ] 15:[ (5:0.0809524) (6:0.0387755) (7:0.0482993) (8:0.0244898) (9:0.121769) ] 15:[ (10:0.0183673) (11:0.0238095) (12:0.0891156) (13:0.0278912) (14:0.0544218) ] 15:[ (15:0.129932) (16:0.055102) (17:0.0680272) (18:0.0197279) (19:0.0115646) ] 15:[ (20:0) ] 16:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 16:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 16:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 16:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 16:[ (20:0) ] 17:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 17:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 17:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 17:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 17:[ (20:0) ] 18:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 18:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 18:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 18:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ]

173

18:[ (20:0) ] 19:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 19:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 19:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 19:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 19:[ (20:0) ] 20:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 20:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 20:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 20:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 20:[ (20:0) ] 21:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 21:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 21:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 21:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 21:[ (20:0) ] 22:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 22:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 22:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 22:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 22:[ (20:0) ] 23:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 23:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 23:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 23:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 23:[ (20:0) ] 24:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 24:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 24:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 24:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 24:[ (20:0) ] 25:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 25:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 25:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 25:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 25:[ (20:0) ]

174

26:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 26:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 26:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 26:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 26:[ (20:0) ] 27:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 27:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 27:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 27:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 27:[ (20:0) ] 28:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 28:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 28:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 28:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 28:[ (20:0) ] 29:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 29:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 29:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 29:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 29:[ (20:0) ] 30:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 30:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 30:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 30:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 30:[ (20:0) ] 31:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 31:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 31:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 31:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 31:[ (20:0) ] 32:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 32:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 32:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 32:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 32:[ (20:0) ] 33:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 33:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ]

175

33:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 33:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 33:[ (20:0) ] 34:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 34:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 34:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 34:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 34:[ (20:0) ] 35:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 35:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 35:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 35:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 35:[ (20:0) ] 36:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 36:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 36:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 36:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 36:[ (20:0) ] 37:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 37:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 37:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 37:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 37:[ (20:0) ] 38:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 38:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 38:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 38:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 38:[ (20:0) ] 39:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 39:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 39:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 39:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ] 39:[ (20:0) ] 40:[ (0:0.102402) (1:0.0195954) (2:0.00379267) (3:0.005689) (4:0.0647914) ] 40:[ (5:0.0436157) (6:0.0148546) (7:0.0606827) (8:0.00790139) (9:0.325221) ] 40:[ (10:0.0233881) (11:0.005689) (12:0.0363464) (13:0.0145386) (14:0.0183312) ] 40:[ (15:0.0891277) (16:0.0521492) (17:0.0790139) (18:0.0205436) (19:0.0123262) ]

176

40:[ (20:0) ] 41:[ (0:0) (1:0) (2:0) (3:0) (4:0) ] 41:[ (5:0) (6:0) (7:0) (8:0) (9:0) ] 41:[ (10:0) (11:0) (12:0) (13:0) (14:0) ] 41:[ (15:0) (16:0) (17:0) (18:0) (19:0) ] 41:[ (20:1) ]

APPENDICE G

ANALYSE ROC DU MODÈLE DE MARKOV CACHÉ Cet appendice présente l’analyse ROC effectué sur le jeu de séquences du test de validation du modèle de Markov caché. Cette analyse a permis la détermination du seuil d’acceptation des prédictions (4.06).

Analyse ROC

Positif si ≥ Sensibilité 1 - Spécificité-130.9740 1.000 1.000-100.3043 1.000 .985

-70.0919 1.000 .970-64.6060 .985 .970-55.4391 .985 .955-50.1545 .985 .939-47.4981 .985 .924-42.9586 .985 .909-39.6593 .985 .894-39.1454 .985 .879-38.3041 .985 .864-37.1962 .985 .848-35.0567 .985 .833-32.8017 .985 .818-32.2445 .985 .803-31.5099 .985 .788-30.5648 .985 .773-30.3170 .985 .758-29.2388 .985 .742

178

Positif si ≥ Sensibilité 1 - Spécificité

-28.1578 .985 .727-27.9751 .985 .712-27.0816 .985 .697-25.9900 .985 .682-25.2441 .985 .667-24.7227 .985 .652-24.5436 .985 .636-23.9543 .970 .636-22.6563 .970 .621-21.8518 .970 .606-21.6638 .970 .591-21.0570 .970 .576-20.1328 .970 .561-19.6065 .970 .545-19.5209 .970 .530-19.3858 .970 .515-19.2032 .970 .500-19.0145 .970 .485-18.7405 .970 .470-18.3186 .970 .455-17.9946 .970 .439-17.2377 .970 .424-16.3429 .970 .409-16.0575 .970 .394-15.8336 .970 .379-15.6831 .970 .364-15.6013 .970 .348-14.9256 .970 .333-14.0684 .970 .318-13.6879 .970 .303-13.3658 .970 .288-12.8991 .970 .273-12.5839 .970 .258-12.5476 .970 .242-12.5282 .955 .242-12.4082 .955 .227-12.0672 .955 .212-11.6922 .939 .212-11.4169 .939 .197-11.2216 .939 .182-11.1037 .939 .167

179

Positif si ≥ Sensibilité 1 - Spécificité

-10.7137 .939 .152-9.7289 .939 .136-8.5161 .939 .121-7.7638 .939 .106-7.2049 .924 .106-6.0013 .924 .091-4.6696 .924 .076-2.7353 .924 .061-1.2497 .909 .061-.7189 .894 .061.0006 .879 .061.4212 .879 .045

1.6873 .864 .0453.1218 .864 .0304.0603 .864 .0154.7855 .848 .0155.6475 .833 .0156.4128 .818 .0157.2031 .803 .0158.5886 .788 .0159.3235 .773 .0159.5479 .758 .0159.6811 .742 .015

10.0141 .727 .01510.9471 .712 .01511.8113 .697 .01512.1591 .682 .01512.6793 .667 .01513.6032 .652 .01514.1753 .636 .01514.2842 .621 .01514.4655 .606 .01514.6496 .591 .01514.7155 .576 .01514.7702 .561 .01514.9972 .545 .01515.3026 .530 .01515.6030 .515 .01515.9688 .515 .00016.5249 .500 .00016.9249 .485 .000

180

Positif si ≥ Sensibilité 1 - Spécificité

16.9901 .470 .00017.2923 .455 .00017.6959 .439 .00017.9814 .424 .00018.6005 .409 .00019.4418 .394 .00020.0143 .379 .00021.0939 .364 .00022.0600 .348 .00022.5085 .333 .00022.8683 .318 .00022.9592 .303 .00023.0787 .288 .00023.2409 .273 .00023.4228 .258 .00023.5270 .242 .00023.6071 .227 .00023.7527 .212 .00023.9069 .197 .00024.4451 .182 .00025.6716 .167 .00026.5989 .152 .00026.8402 .136 .00027.0458 .121 .00027.2307 .106 .00027.4733 .091 .00027.8510 .076 .00028.4029 .061 .00029.5027 .045 .00031.8686 .030 .00034.1874 .015 .00035.8590 .000 .000

-130.9740 1.000 1.000-100.3043 1.000 .985

APPENDICE H

GRAMMAIRE STOCHASTIQUE GPI Cet appendice présente la première partie de la grammaire stochastique GPI dérivé du modèle de Markov caché entraîné. Cette grammaire est décrite en énumérant les probabilitéd’émission des états ainsi que les règles de production stochastiques. La grammaire complète est accessible sur le disque annexé.

Probabilité d’émission

Chaque état a la possibilité d’émettre les caractères représentant les 20 acides aminés ainsi

que le symbole z.

État S : départ

État 1-41 : a|c|d|e|f|g|h|i|k|l|m|n|p|q|r|s|t|v|w|y|z

État F : fin

La section suivante contient les règles de production stochastique de la grammaire du signal

GPI.

182

Règles de production stochastique

P(S1)= 1.0000 P(1a2)= 1.0 0.0697 0.0697P(1c2)= 1.0 0.0341 0.0341P(1d2)= 1.0 0.0111 0.0111P(1e2)= 1.0 0.0000 0.0000P(1f2)= 1.0 0.0000 0.0000P(1g2)= 1.0 0.1627 0.1627P(1h2)= 1.0 0.0000 0.0000P(1i2)= 1.0 0.0000 0.0000P(1k2)= 1.0 0.0000 0.0000P(1l2)= 1.0 0.0000 0.0000P(1m2)= 1.0 0.0000 0.0000P(1n2)= 1.0 0.2551 0.2551P(1p2)= 1.0 0.0000 0.0000P(1q2)= 1.0 0.0000 0.0000P(1r2)= 1.0 0.0000 0.0000P(1s2)= 1.0 0.3953 0.3953P(1t2)= 1.0 0.0000 0.0000P(1v2)= 1.0 0.0000 0.0000P(1w2)= 1.0 0.0000 0.0000P(1y2)= 1.0 0.0000 0.0000P(1z2)= 1.0 0.0000 0.0000

P(2a3)= 1.0 0.2093 0.2093 P(3a4)= 0.5351 0.3720 0.1991c 1.0 0.0000 0.0000 c 0.5351 0.0116 0.0062d 1.0 0.0465 0.0465 d 0.5351 0.0000 0.0000e 1.0 0.0116 0.0116 e 0.5351 0.0000 0.0000f 1.0 0.0116 0.0116 f 0.5351 0.0000 0.0000g 1.0 0.3139 0.3139 g 0.5351 0.2441 0.1306h 1.0 0.0116 0.0116 h 0.5351 0.0000 0.0000i 1.0 0.0116 0.0116 i 0.5351 0.0116 0.0062k 1.0 0.0000 0.0000 k 0.5351 0.0116 0.0062l 1.0 0.0116 0.0116 l 0.5351 0.0511 0.0273m 1.0 0.0116 0.0116 m 0.5351 0.0116 0.0062n 1.0 0.0000 0.0000 n 0.5351 0.0000 0.0000p 1.0 0.0341 0.0341 p 0.5351 0.0000 0.0000q 1.0 0.0116 0.0116 q 0.5351 0.0232 0.0124r 1.0 0.0000 0.0000 r 0.5351 0.0232 0.0124s 1.0 0.2209 0.2209 s 0.5351 0.1511 0.0809t 1.0 0.0465 0.0465 t 0.5351 0.0511 0.0273v 1.0 0.0465 0.0465 v 0.5351 0.0232 0.0124w 1.0 0.0000 0.0000 w 0.5351 0.0000 0.0000y 1.0 0.0000 0.0000 y 0.5351 0.0000 0.0000z 1.0 0.0000 0.0000 z 0.5351 0.0000 0.0000

183

P(3a5)= 0.1612 0.3720 0.0600 P(3a6)= 0.0312 0.3720 0.0116c 0.1612 0.0116 0.0019 c 0.0312 0.0116 0.0004d 0.1612 0.0000 0.0000 d 0.0312 0.0000 0.0000e 0.1612 0.0000 0.0000 e 0.0312 0.0000 0.0000f 0.1612 0.0000 0.0000 f 0.0312 0.0000 0.0000g 0.1612 0.2441 0.0393 g 0.0312 0.2441 0.0076h 0.1612 0.0000 0.0000 h 0.0312 0.0000 0.0000i 0.1612 0.0116 0.0019 i 0.0312 0.0116 0.0004k 0.1612 0.0116 0.0019 k 0.0312 0.0116 0.0004l 0.1612 0.0511 0.0082 l 0.0312 0.0511 0.0016m 0.1612 0.0116 0.0019 m 0.0312 0.0116 0.0004n 0.1612 0.0000 0.0000 n 0.0312 0.0000 0.0000p 0.1612 0.0000 0.0000 p 0.0312 0.0000 0.0000q 0.1612 0.0232 0.0037 q 0.0312 0.0232 0.0007r 0.1612 0.0232 0.0037 r 0.0312 0.0232 0.0007s 0.1612 0.1511 0.0244 s 0.0312 0.1511 0.0047t 0.1612 0.0511 0.0082 t 0.0312 0.0511 0.0016v 0.1612 0.0232 0.0037 v 0.0312 0.0232 0.0007w 0.1612 0.0000 0.0000 w 0.0312 0.0000 0.0000y 0.1612 0.0000 0.0000 y 0.0312 0.0000 0.0000z 0.1612 0.0000 0.0000 z 0.0312 0.0000 0.0000

P(3a7)= 0.1000 0.3720 0.0372 P(3a8)= 1.1E-50 0.3720 4.1E-51c 0.1000 0.0116 0.0012 c 1.1E-50 0.0116 0.0000d 0.1000 0.0000 0.0000 d 1.1E-50 0.0000 0.0000e 0.1000 0.0000 0.0000 e 1.1E-50 0.0000 0.0000f 0.1000 0.0000 0.0000 f 1.1E-50 0.0000 0.0000g 0.1000 0.2441 0.0244 g 1.1E-50 0.2441 2.7E-51h 0.1000 0.0000 0.0000 h 1.1E-50 0.0000 0.0000i 0.1000 0.0116 0.0012 i 1.1E-50 0.0116 1.3E-52k 0.1000 0.0116 0.0012 k 1.1E-50 0.0116 1.3E-52l 0.1000 0.0511 0.0051 l 1.1E-50 0.0511 5.6E-52m 0.1000 0.0116 0.0012 m 1.1E-50 0.0116 1.3E-52n 0.1000 0.0000 0.0000 n 1.1E-50 0.0000 0.0000p 0.1000 0.0000 0.0000 p 1.1E-50 0.0000 0.0000q 0.1000 0.0232 0.0000 q 1.1E-50 0.0232 0.0E+01r 0.1000 0.0232 0.0000 r 1.1E-50 0.0232 2.4E-31s 0.1000 0.1511 0.0000 s 1.1E-50 0.1511 7.5E-33t 0.1000 0.0511 0.0000 t 1.1E-50 0.0511 0.0E+01v 0.1000 0.0232 0.0000 v 1.1E-50 0.0232 0.0E+01w 0.1000 0.0000 0.0000 w 1.1E-50 0.0000 0.0000y 0.1000 0.0000 0.0000 y 1.1E-50 0.0000 0.0000z 0.1000 0.0000 0.0000 z 1.1E-50 0.0000 0.0000

APPENDICE I

ANALYSE ROC MÉTHODE HYBRIDE Cet appendice présente l’analyse ROC effectué sur le jeu de test de 268 séquences du modèle de Markov caché. Cette analyse a permis la détermination des classes d’annotation de la méthode hybride.

Analyse ROC

Positif si ≥ Sensibilité 1 - Spécificité

-149.1590 1.000 1.000-139.0665 1.000 .992-120.5420 1.000 .985

-95.4965 1.000 .977-75.2588 1.000 .970-69.0401 1.000 .962-64.1685 1.000 .955-60.2771 .992 .955-55.4391 .992 .947-50.1545 .992 .939-48.9063 .992 .932-48.2542 .992 .924-46.8460 .992 .917-44.8863 .992 .909-43.7255 .992 .902-43.4780 .992 .894-42.8571 .992 .886-41.1769 .992 .879

185

Positif si ≥ Sensibilité 1 - Spécificité

-39.6593 .992 .871-39.1454 .992 .864-38.7321 .992 .856-38.0491 .992 .848-37.5882 .992 .841-37.1633 .992 .833-36.5289 .992 .826-35.7036 .992 .818-34.2315 .992 .811-33.2132 .992 .803-32.8051 .992 .795-32.4702 .992 .788-32.3379 .992 .780-32.2445 .992 .773-31.2828 .992 .765-30.3170 .992 .758-30.0910 .992 .750-29.0566 .992 .742-28.2043 .992 .735-28.1578 .992 .727-28.1247 .992 .720-27.9656 .992 .712-27.7961 .992 .705-27.6668 .992 .697-27.3148 .992 .689-26.8498 .992 .682-26.5762 .992 .674-26.4361 .992 .667-26.3012 .992 .659-26.0912 .985 .659-25.7800 .985 .652-25.3674 .985 .644-24.9787 .985 .636-24.7680 .985 .629-24.6352 .985 .621-24.3977 .985 .614-24.0967 .977 .614

186

Positif si ≥ Sensibilité 1 - Spécificité-23.9226 .977 .606-23.8427 .977 .598-23.7963 .977 .591-23.5880 .970 .591-23.3999 .970 .583-23.3421 .970 .576-22.8239 .970 .568-22.3395 .970 .561-22.1719 .970 .553-21.9673 .970 .545-21.9096 .970 .538-21.8518 .970 .530-21.7227 .970 .523-21.5840 .970 .515-21.3892 .970 .508-21.1682 .970 .500-20.8360 .962 .500-20.5565 .962 .492-20.2924 .962 .485-19.8687 .962 .477-19.6124 .962 .470-19.5423 .962 .462-19.5209 .962 .455-19.3858 .962 .447-19.2032 .962 .439-19.0145 .962 .432-18.7793 .962 .424-18.6308 .962 .417-18.3676 .962 .409-18.0943 .962 .402-17.9946 .962 .394-17.8162 .962 .386-17.6628 .962 .379-17.0843 .962 .371-16.3429 .962 .364-16.0575 .962 .356-15.8495 .962 .348-15.7226 .962 .341-15.6831 .962 .333

187

Positif si ≥ Sensibilité 1 - Spécificité-15.6013 .962 .326-15.4294 .962 .318-15.0756 .962 .311-14.6045 .962 .303-14.3408 .962 .295-14.2901 .962 .288-14.0504 .962 .280-13.7635 .962 .273-13.6227 .962 .265-13.3658 .962 .258-13.1187 .962 .250-13.0481 .962 .242-13.0321 .955 .242-12.8174 .955 .235-12.5839 .955 .227-12.5346 .955 .220-12.4082 .955 .212-12.2872 .955 .205-12.0305 .955 .197-11.6695 .955 .189-11.4169 .955 .182-11.2216 .955 .174-11.1037 .955 .167-10.7914 .955 .159-10.4935 .955 .152-10.4157 .955 .144-10.3746 .955 .136-10.2625 .955 .129-10.0398 .955 .121

-9.5001 .955 .114-8.9035 .955 .106-8.6099 .955 .098-8.3676 .947 .098-8.1001 .939 .098-7.7517 .939 .091-7.3831 .939 .083-7.0276 .939 .076-6.7789 .939 .068-5.9429 .932 .068

188

Positif si ≥ Sensibilité 1 - Spécificité-4.8204 .932 .061-4.3248 .924 .061-4.0552 .924 .053-3.9347 .917 .053-3.9310 .909 .053-3.4169 .902 .053-2.9026 .894 .053-2.8808 .886 .053-2.8176 .886 .045-1.7405 .879 .045-.3742 .871 .045.0659 .864 .045.2047 .856 .045.3536 .856 .038.7014 .848 .038

1.0631 .841 .0381.2957 .833 .0381.5018 .826 .0381.9023 .818 .0382.2270 .811 .0382.5122 .811 .0302.7943 .811 .0233.0308 .803 .0233.3319 .795 .0233.4491 .788 .0233.6869 .788 .0153.9041 .780 .0154.1595 .773 .0154.4278 .765 .0154.4561 .758 .0154.4892 .750 .0154.5142 .742 .0154.5561 .735 .0154.6860 .727 .0154.9102 .720 .0155.1420 .712 .0155.3125 .705 .0155.4329 .705 .0085.5831 .697 .008

189

Positif si ≥ Sensibilité 1 - Spécificité5.7056 .689 .0085.7980 .682 .0085.9076 .674 .0085.9637 .667 .0086.0086 .659 .0086.0345 .652 .0086.1123 .644 .0086.1930 .636 .0086.4783 .629 .0086.8092 .621 .0087.0622 .614 .0087.3135 .606 .0087.3725 .598 .0087.4152 .591 .0087.4628 .583 .0087.5511 .576 .0087.8710 .568 .0088.2431 .561 .0088.4395 .553 .0088.5753 .545 .0088.7223 .538 .0088.8324 .530 .0088.8798 .523 .0089.0528 .515 .0089.3465 .508 .0089.4963 .500 .0089.6461 .492 .0089.8029 .485 .0089.8389 .477 .0089.9983 .470 .008

10.2279 .462 .00810.3969 .455 .00810.5383 .447 .00810.8780 .439 .00811.3087 .432 .00811.4911 .424 .00811.5251 .417 .00811.6443 .409 .00811.9294 .402 .008

190

Positif si ≥ Sensibilité 1 - Spécificité12.1545 .394 .00812.2288 .386 .00812.2565 .379 .00812.2854 .371 .00812.4245 .364 .00812.5453 .356 .00812.5648 .348 .00812.5991 .341 .00812.7906 .333 .00812.9809 .326 .00813.0398 .318 .00813.0941 .311 .00813.3471 .303 .00813.5944 .295 .00813.8587 .288 .00814.2910 .273 .00814.5835 .265 .00814.8801 .258 .00815.0913 .250 .00815.1755 .242 .00815.2316 .235 .00815.3605 .227 .00815.5056 .220 .00815.6650 .212 .00815.8319 .212 .00015.8737 .205 .00015.9173 .197 .00016.1773 .189 .00016.4091 .182 .00016.4843 .174 .00016.8106 .167 .00017.1644 .159 .00017.6090 .152 .00018.0949 .144 .00018.2732 .136 .00018.4715 .129 .00018.6909 .121 .00019.2483 .114 .00019.8773 .106 .000

191

Positif si ≥ Sensibilité 1 - Spécificité20.2556 .098 .00020.9832 .091 .00022.0110 .083 .00022.9911 .076 .00023.8019 .068 .00024.2022 .061 .00024.3708 .053 .00024.5720 .045 .00025.1009 .038 .00025.5955 .030 .00025.8423 .023 .00027.2914 .015 .00030.4184 .008 .00033.3254 .000 .000

APPENDICE J

PRÉDICTIONS Cet appendice présente les prédictions de protéines à ancre GPI obtenues avec la méthode hybride réseau de neurones artificiels/HMM pour deux protéomes : Arabidopsis thaliana et Oryza sativa.

Arabidopsis thaliana

>gi|15237661|ref|NP_201236.1| arabinogalactan-protein (AGP1) [Arabidopsis thaliana] >gi|15233661|ref|NP_192642.1| arabinogalactan-protein (AGP10) [Arabidopsis thaliana] >gi|18400046|ref|NP_566458.1| arabinogalactan-protein (AGP12) [Arabidopsis thaliana] >gi|15236175|ref|NP_194362.1| arabinogalactan-protein (AGP13) [Arabidopsis thaliana] >gi|15239156|ref|NP_196735.1| arabinogalactan-protein (AGP15) [Arabidopsis thaliana] >gi|15227783|ref|NP_179894.1| arabinogalactan-protein (AGP17) [Arabidopsis thaliana] >gi|18420042|ref|NP_568027.1| arabinogalactan-protein (AGP18) [Arabidopsis thaliana] >gi|18399983|ref|NP_565537.1| arabinogalactan-protein (AGP2) [Arabidopsis thaliana] >gi|18405329|ref|NP_564686.1| arabinogalactan-protein (AGP21) [Arabidopsis thaliana] >gi|15237479|ref|NP_198889.1| arabinogalactan-protein (AGP24) [Arabidopsis thaliana] >gi|15238164|ref|NP_196605.1| arabinogalactan-protein (AGP4) [Arabidopsis thaliana] >gi|18399572|ref|NP_564455.1| arabinogalactan-protein (AGP5) [Arabidopsis thaliana] >gi|18424945|ref|NP_569011.1| arabinogalactan-protein (AGP7) [Arabidopsis thaliana] >gi|15226024|ref|NP_179095.1| arabinogalactan-protein (AGP9) [Arabidopsis thaliana] >gi|30683885|ref|NP_193431.2| arabinogalactan-protein family [Arabidopsis thaliana] >gi|18402781|ref|NP_566668.1| "arabinogalactan-protein, putative (AGP) [Arabidopsis thaliana]" >gi|15230372|ref|NP_191328.1| "arabinogalactan-protein, putative (AGP23) [Arabidopsis thaliana]" >gi|18390579|ref|NP_563751.1| aspartyl protease family protein [Arabidopsis thaliana] >gi|18390865|ref|NP_563808.1| aspartyl protease family protein [Arabidopsis thaliana] >gi|15217887|ref|NP_176703.1| aspartyl protease family protein [Arabidopsis thaliana] >gi|30680102|ref|NP_849967.1| aspartyl protease family protein [Arabidopsis thaliana] >gi|42571079|ref|NP_973613.1| aspartyl protease family protein [Arabidopsis thaliana] >gi|42569679|ref|NP_181205.2| aspartyl protease family protein [Arabidopsis thaliana] >gi|15232960|ref|NP_186923.1| aspartyl protease family protein [Arabidopsis thaliana] >gi|18409320|ref|NP_566948.1| aspartyl protease family protein [Arabidopsis thaliana] >gi|15230458|ref|NP_190702.1| aspartyl protease family protein [Arabidopsis thaliana] >gi|42565826|ref|NP_190703.2| aspartyl protease family protein [Arabidopsis thaliana] >gi|42565828|ref|NP_190704.2| aspartyl protease family protein [Arabidopsis thaliana>gi|15238055|ref|NP_196570.1| aspartyl protease family protein [Arabidopsis thaliana]

193

>gi|30692930|ref|NP_198475.2| aspartyl protease family protein [Arabidopsis thaliana] >gi|18398448|ref|NP_565417.1| auxin efflux carrier family protein [Arabidopsis thaliana] >gi|30680004|ref|NP_849964.1| auxin efflux carrier family protein [Arabidopsis thaliana] >gi|42570811|ref|NP_973479.1| auxin efflux carrier family protein [Arabidopsis thaliana] >gi|15219501|ref|NP_177500.1| "auxin efflux carrier protein, putative (PIN1) [Arabidopsis thaliana]" >gi|18423936|ref|NP_568848.1| auxin transport protein (EIR1) [Arabidopsis thaliana] >gi|30680258|ref|NP_566306.3| auxin-responsive protein / auxin-induced protein (AIR12) [Arabidopsis >gi|15222715|ref|NP_173968.1| "beta-1,3-glucanase-related [Arabidopsis thaliana]" >gi|18409239|ref|NP_564957.1| "beta-1,3-glucanase-related [Arabidopsis thaliana]" >gi|15230957|ref|NP_188617.1| C2 domain-containing protein [Arabidopsis thaliana] >gi|42561764|ref|NP_172167.2| "carotenoid isomerase, putative [Arabidopsis thaliana]" >gi|18400266|ref|NP_566474.1| "cation exchanger, putative (CAX9) [Arabidopsis thaliana]" >gi|30684018|ref|NP_850125.1| chloroplast membrane protein (ALBINO3) [Arabidopsis thaliana] >gi|15226654|ref|NP_179196.1| "cold-acclimation protein, putative (FL3-5A3) [Arabidopsis thaliana]" >gi|18407678|ref|NP_566867.1| "cysteine proteinase, putative [Arabidopsis thaliana]" >gi|15222529|ref|NP_176562.1| "disease resistance protein (TIR-NBS-LRR class), putative [Arabidopsis >gi|22327482|ref|NP_198908.2| "disease resistance protein (TIR-NBS-LRR class), putative [Arabidopsis >gi|15232554|ref|NP_191023.1| DJ-1 family protein [Arabidopsis thaliana] >gi|15217871|ref|NP_174142.1| "DNAJ heat shock protein, putative [Arabidopsis thaliana]" >gi|15240721|ref|NP_196336.1| "embryo-specific protein 3, putative [Arabidopsis thaliana]" >gi|15241727|ref|NP_201026.1| embryo-specific protein-related [Arabidopsis thaliana] >gi|15241758|ref|NP_201027.1| embryo-specific protein-related [Arabidopsis thaliana] >gi|15222430|ref|NP_172230.1| expressed protein [Arabidopsis thaliana] >gi|30688103|ref|NP_683323.2| expressed protein [Arabidopsis thaliana] >gi|18397308|ref|NP_564344.1| expressed protein [Arabidopsis thaliana] >gi|42571695|ref|NP_973938.1| expressed protein [Arabidopsis thaliana] >gi|15221503|ref|NP_174366.1| expressed protein [Arabidopsis thaliana] >gi|42571839|ref|NP_974010.1| expressed protein [Arabidopsis thaliana] >gi|42571863|ref|NP_974022.1| Expressed protein [Arabidopsis thaliana] >gi|15223515|ref|NP_176028.1| expressed protein [Arabidopsis thaliana] >gi|30696637|ref|NP_176382.2| expressed protein [Arabidopsis thaliana] >gi|15217441|ref|NP_177292.1| expressed protein [Arabidopsis thaliana] >gi|30699045|ref|NP_177617.2| expressed protein [Arabidopsis thaliana] >gi|15226225|ref|NP_178239.1| expressed protein [Arabidopsis thaliana] >gi|30681101|ref|NP_179662.2| expressed protein [Arabidopsis thaliana] >gi|18401732|ref|NP_029428.1| expressed protein [Arabidopsis thaliana] >gi|15224615|ref|NP_180670.1| expressed protein [Arabidopsis thaliana] >gi|15226760|ref|NP_180998.1| expressed protein [Arabidopsis thaliana] >gi|42571177|ref|NP_973662.1| expressed protein [Arabidopsis thaliana] >gi|30689207|ref|NP_850380.1| expressed protein [Arabidopsis thaliana] >gi|18395926|ref|NP_566149.1| expressed protein [Arabidopsis thaliana] >gi|15232235|ref|NP_186844.1| expressed protein [Arabidopsis thaliana] >gi|18399392|ref|NP_566403.1| expressed protein [Arabidopsis thaliana] >gi|42564121|ref|NP_187950.2| expressed protein [Arabidopsis thaliana] >gi|30686969|ref|NP_188961.2| expressed protein [Arabidopsis thaliana] >gi|18404806|ref|NP_566790.1| expressed protein [Arabidopsis thaliana] >gi|15232161|ref|NP_189377.1| expressed protein [Arabidopsis thaliana] >gi|18405875|ref|NP_566839.1| expressed protein [Arabidopsis thaliana] >gi|15231584|ref|NP_191443.1| expressed protein [Arabidopsis thaliana] >gi|15229411|ref|NP_191890.1| expressed protein [Arabidopsis thaliana] >gi|15236106|ref|NP_194336.1| expressed protein [Arabidopsis thaliana] >gi|18417123|ref|NP_567796.1| expressed protein [Arabidopsis thaliana] >gi|18417127|ref|NP_567797.1| expressed protein [Arabidopsis thaliana] >gi|15235244|ref|NP_194557.1| expressed protein [Arabidopsis thaliana] >gi|18417453|ref|NP_567832.1| expressed protein [Arabidopsis thaliana] >gi|18417640|ref|NP_567850.1| expressed protein [Arabidopsis thaliana] >gi|15236618|ref|NP_194926.1| expressed protein [Arabidopsis thaliana]

194

>gi|15241549|ref|NP_196438.1| expressed protein [Arabidopsis thaliana] >gi|18416852|ref|NP_568272.1| expressed protein [Arabidopsis thaliana] >gi|15241320|ref|NP_196919.1| expressed protein [Arabidopsis thaliana] >gi|15239685|ref|NP_197424.1| expressed protein [Arabidopsis thaliana] >gi|15239687|ref|NP_197426.1| expressed protein [Arabidopsis thaliana] >gi|15237525|ref|NP_198912.1| expressed protein [Arabidopsis thaliana] >gi|18423137|ref|NP_568726.1| expressed protein [Arabidopsis thaliana] >gi|15239670|ref|NP_200265.1| expressed protein [Arabidopsis thaliana] >gi|15241141|ref|NP_200428.1| expressed protein [Arabidopsis thaliana] >gi|15241964|ref|NP_200496.1| expressed protein [Arabidopsis thaliana] >gi|18423932|ref|NP_568847.1| expressed protein [Arabidopsis thaliana] >gi|15241901|ref|NP_201069.1| expressed protein [Arabidopsis thaliana] >gi|15242790|ref|NP_201155.1| expressed protein [Arabidopsis thaliana] >gi|18425155|ref|NP_569045.1| expressed protein [Arabidopsis thaliana] >gi|15224141|ref|NP_180021.1| fasciclin-like arabinogalactan family protein [Arabidopsis thaliana] >gi|15235923|ref|NP_194865.1| fasciclin-like arabinogalactan family protein [Arabidopsis thaliana] >gi|15240570|ref|NP_200384.1| fasciclin-like arabinogalactan-protein (FLA1) [Arabidopsis thaliana] >gi|15232973|ref|NP_191649.1| fasciclin-like arabinogalactan-protein (FLA10) [Arabidopsis thaliana] >gi|15242651|ref|NP_195937.1| fasciclin-like arabinogalactan-protein (FLA11) [Arabidopsis thaliana] >gi|18399381|ref|NP_565475.1| fasciclin-like arabinogalactan-protein (FLA6) [Arabidopsis thaliana] >gi|18395849|ref|NP_565313.1| fasciclin-like arabinogalactan-protein (FLA7) [Arabidopsis thaliana] >gi|30678131|ref|NP_849935.1| fasciclin-like arabinogalactan-protein (FLA7) [Arabidopsis thaliana] >gi|18406799|ref|NP_566043.1| fasciclin-like arabinogalactan-protein (FLA8) [Arabidopsis thaliana] >gi|18379157|ref|NP_563692.1| fasciclin-like arabinogalactan-protein (FLA9) [Arabidopsis thaliana] >gi|15241423|ref|NP_199226.1| "fasciclin-like arabinogalactan-protein, putative [Arabidopsis thaliana]" >gi|15234046|ref|NP_195030.1| glutaredoxin family protein [Arabidopsis thaliana] >gi|15239821|ref|NP_196754.1| glutaredoxin protein family [Arabidopsis thaliana] >gi|30697435|ref|NP_176869.2| glycerophosphoryl diester phosphodiesterase family protein [Arabidopsis >gi|18416801|ref|NP_567755.1| glycerophosphoryl diester phosphodiesterase family protein [Arabidopsis >gi|15240520|ref|NP_200359.1| glycerophosphoryl diester phosphodiesterase family protein [Arabidopsis >gi|22327932|ref|NP_200613.2| glycerophosphoryl diester phosphodiesterase family protein [Arabidopsis >gi|15242971|ref|NP_200625.1| glycerophosphoryl diester phosphodiesterase family protein [Arabidopsis >gi|18396963|ref|NP_566234.1| glycine-rich protein [Arabidopsis thaliana] >gi|22327060|ref|NP_680220.1| glycine-rich protein [Arabidopsis thaliana] >gi|30692765|ref|NP_174563.2| glycosyl hydrolase family 17 protein [Arabidopsis thaliana] >gi|15224778|ref|NP_179534.1| glycosyl hydrolase family 17 protein [Arabidopsis thaliana] >gi|15232696|ref|NP_188201.1| glycosyl hydrolase family 17 protein [Arabidopsis thaliana] >gi|15230097|ref|NP_189076.1| glycosyl hydrolase family 17 protein [Arabidopsis thaliana] >gi|30697080|ref|NP_200656.2| glycosyl hydrolase family 17 protein [Arabidopsis thaliana] >gi|15238256|ref|NP_201284.1| glycosyl hydrolase family 17 protein [Arabidopsis thaliana] >gi|15224906|ref|NP_181984.1| glycosyl hydrolase family 9 protein [Arabidopsis thaliana] >gi|15224908|ref|NP_181985.1| glycosyl hydrolase family 9 protein [Arabidopsis thaliana] >gi|22325443|ref|NP_671770.1| glycosyl hydrolase family protein 17 [Arabidopsis thaliana] >gi|22328593|ref|NP_193096.2| glycosyl hydrolase family protein 17 [Arabidopsis thaliana] >gi|30697478|ref|NP_200921.2| glycosyl hydrolase family protein 17 [Arabidopsis thaliana] >gi|15236826|ref|NP_193561.1| glycosyl transferase family 4 protein [Arabidopsis thaliana] >gi|18401331|ref|NP_565638.1| heat shock family protein [Arabidopsis thaliana] >gi|18409730|ref|NP_565006.1| hydroxyproline-rich glycoprotein family protein [Arabidopsis thaliana] >gi|18407486|ref|NP_566114.1| hydroxyproline-rich glycoprotein family protein [Arabidopsis thaliana] >gi|18397707|ref|NP_566291.1| hydroxyproline-rich glycoprotein family protein [Arabidopsis thaliana] >gi|15241392|ref|NP_196942.1| hydroxyproline-rich glycoprotein family protein [Arabidopsis thaliana] >gi|15239533|ref|NP_197370.1| hydroxyproline-rich glycoprotein family protein [Arabidopsis thaliana] >gi|18423010|ref|NP_568708.1| hydroxyproline-rich glycoprotein family protein [Arabidopsis thaliana] >gi|15218547|ref|NP_175053.1| hypothetical protein [Arabidopsis thaliana] >gi|15220363|ref|NP_176886.1| hypothetical protein [Arabidopsis thaliana] >gi|15225575|ref|NP_178700.1| hypothetical protein [Arabidopsis thaliana] >gi|42571123|ref|NP_973635.1| hypothetical protein [Arabidopsis thaliana]

195

>gi|15235531|ref|NP_193031.1| hypothetical protein [Arabidopsis thaliana] >gi|15234407|ref|NP_194546.1| hypothetical protein [Arabidopsis thaliana] >gi|15239004|ref|NP_196690.1| hypothetical protein [Arabidopsis thaliana] >gi|15241310|ref|NP_196915.1| hypothetical protein [Arabidopsis thaliana] >gi|22327405|ref|NP_198484.2| hypothetical protein [Arabidopsis thaliana] >gi|18421573|ref|NP_568541.1| hypothetical protein [Arabidopsis thaliana] >gi|15237459|ref|NP_198878.1| hypothetical protein [Arabidopsis thaliana] >gi|18408943|ref|NP_564921.1| "IAA-alanine resistance protein 1, putative [Arabidopsis thaliana]" >gi|15225873|ref|NP_180305.1| integral membrane family protein [Arabidopsis thaliana] >gi|15227576|ref|NP_181154.1| integral membrane family protein [Arabidopsis thaliana] >gi|15230708|ref|NP_187290.1| integral membrane family protein [Arabidopsis thaliana] >gi|15229791|ref|NP_187762.1| integral membrane family protein [Arabidopsis thaliana] >gi|15228175|ref|NP_188251.1| integral membrane family protein [Arabidopsis thaliana] >gi|18414489|ref|NP_567472.1| integral membrane family protein [Arabidopsis thaliana] >gi|15234654|ref|NP_193297.1| integral membrane family protein [Arabidopsis thaliana] >gi|18414493|ref|NP_567473.1| integral membrane family protein [Arabidopsis thaliana] >gi|15234870|ref|NP_194234.1| integral membrane family protein [Arabidopsis thaliana] >gi|15239955|ref|NP_196238.1| integral membrane family protein [Arabidopsis thaliana] >gi|15242268|ref|NP_197033.1| integral membrane family protein [Arabidopsis thaliana] >gi|18420075|ref|NP_568386.1| integral membrane family protein [Arabidopsis thaliana] >gi|22330130|ref|NP_683414.1| "integral membrane protein, putative [Arabidopsis thaliana]" >gi|18390691|ref|NP_563772.1| lipase class 3 family protein [Arabidopsis thaliana] >gi|15217777|ref|NP_174116.1| lipid transfer protein-related [Arabidopsis thaliana] >gi|15218963|ref|NP_176205.1| matrixin family protein [Arabidopsis thaliana] >gi|15223067|ref|NP_177174.1| matrixin family protein [Arabidopsis thaliana] >gi|15241723|ref|NP_201022.1| "metal transporter, putative (ZIP12) [Arabidopsis thaliana]" >gi|30682009|ref|NP_172566.2| "metal transporter, putative (ZIP4) [Arabidopsis thaliana]" >gi|15220470|ref|NP_172022.1| "metal transporter, putative (ZIP5) [Arabidopsis thaliana]" >gi|15227702|ref|NP_180569.1| "metal transporter, putative (ZIP6) [Arabidopsis thaliana]" >gi|22327584|ref|NP_680394.1| "metal transporter, putative (ZIP8) [Arabidopsis thaliana]" >gi|22328918|ref|NP_194254.2| multi-copper oxidase type I family protein [Arabidopsis thaliana] >gi|15221511|ref|NP_172140.1| myosin heavy chain-related [Arabidopsis thaliana] >gi|22331796|ref|NP_191052.2| "pectate lyase, putative / powdery mildew susceptibility protein (PMR6) >gi|42566989|ref|NP_193764.2| peptidase M50 family protein / sterol-regulatory element binding protein >gi|18395044|ref|NP_564153.1| peptidoglycan-binding LysM domain-containing protein [Arabidopsis >gi|30699276|ref|NP_177886.2| peptidoglycan-binding LysM domain-containing protein [Arabidopsis >gi|18398317|ref|NP_565406.1| peptidoglycan-binding LysM domain-containing protein [Arabidopsis >gi|15237702|ref|NP_200664.1| phosphatidate cytidylyltransferase family protein [Arabidopsis thaliana] >gi|18406342|ref|NP_566851.1| phytochelatin synthetase family protein / COBRA cell expansion protein COBL2 >gi|15232863|ref|NP_186870.1| phytochelatin synthetase family protein / COBRA cell expansion protein COBL3 >gi|30685446|ref|NP_197067.2| phytochelatin synthetase family protein / COBRA cell expansion protein COBL4 >gi|18424412|ref|NP_568930.1| "phytochelatin synthetase, putative / COBRA cell expansion protein COB, >gi|30681356|ref|NP_172450.2| phytochelatin synthetase-related [Arabidopsis thaliana] >gi|15228897|ref|NP_188311.1| phytochelatin synthetase-related [Arabidopsis thaliana] >gi|30685851|ref|NP_188694.2| phytochelatin synthetase-related [Arabidopsis thaliana] >gi|18414592|ref|NP_567484.1| phytochelatin synthetase-related [Arabidopsis thaliana] >gi|15239841|ref|NP_199738.1| phytochelatin synthetase-related [Arabidopsis thaliana] >gi|15222012|ref|NP_175324.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|42562941|ref|NP_176645.3| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|15219998|ref|NP_178098.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|15224081|ref|NP_179977.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|42570899|ref|NP_973523.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|42569299|ref|NP_180078.2| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|15224605|ref|NP_180663.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|15229676|ref|NP_188489.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|18402674|ref|NP_566665.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|15234164|ref|NP_194482.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana]

196

>gi|18417181|ref|NP_567806.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|15234789|ref|NP_194788.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|15236544|ref|NP_194912.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|30689408|ref|NP_194975.2| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|15241298|ref|NP_197523.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|15238698|ref|NP_197891.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|15238868|ref|NP_200198.1| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|30696966|ref|NP_200600.2| plastocyanin-like domain-containing protein [Arabidopsis thaliana] >gi|15229328|ref|NP_187119.1| pre-mRNA cleavage complex family protein [Arabidopsis thaliana] >gi|42572251|ref|NP_974220.1| pre-mRNA cleavage complex family protein [Arabidopsis thaliana] >gi|15226664|ref|NP_181569.1| prenylated rab acceptor (PRA1) family protein [Arabidopsis thaliana] >gi|15241022|ref|NP_195784.1| prenylated rab acceptor (PRA1) family protein [Arabidopsis thaliana] >gi|15239833|ref|NP_196760.1| proline-rich family protein [Arabidopsis thaliana] >gi|42571317|ref|NP_973749.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein >gi|15221052|ref|NP_173264.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein >gi|15220327|ref|NP_174848.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein >gi|18410388|ref|NP_565067.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein >gi|15219578|ref|NP_177530.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein >gi|15225509|ref|NP_179002.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein >gi|18401329|ref|NP_565637.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein >gi|18407536|ref|NP_566127.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein >gi|18403457|ref|NP_566713.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein >gi|15234524|ref|NP_192973.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein >gi|30682659|ref|NP_850800.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein] >gi|18424785|ref|NP_568984.1| protease inhibitor/seed storage/lipid transfer protein (LTP) family protein >gi|42571345|ref|NP_973763.1| protease inhibitor/seed storage/lipid transfer protein (LTP)-related [Arabidopsis >gi|42563378|ref|NP_178179.2| protein kinase family protein [Arabidopsis thaliana] >gi|18401926|ref|NP_565679.1| Rab5-interacting family protein [Arabidopsis thaliana] >gi|18409989|ref|NP_565035.1| radical SAM domain-containing protein / TRAM domain-containing protein >gi|42569151|ref|NP_179539.2| recA family protein [Arabidopsis thaliana] >gi|15237620|ref|NP_198945.1| receptor-like protein kinase-related [Arabidopsis thaliana] >gi|15221475|ref|NP_172126.1| ribosomal protein-related [Arabidopsis thaliana] >gi|15221842|ref|NP_175852.1| rubredoxin family protein [Arabidopsis thaliana] >gi|18412211|ref|NP_567123.1| "serine protease inhibitor, Kazal-type family protein [Arabidopsis thaliana]" >gi|42569434|ref|NP_180480.2| "short-chain dehydrogenase/reductase (SDR) family protein / tropinone reductase, >gi|15229045|ref|NP_190459.1| "single-strand DNA endonuclease, putative [Arabidopsis thaliana]" >gi|42565922|ref|NP_567000.2| SKP1 interacting partner 5 (SKIP5) [Arabidopsis thaliana] >gi|18397074|ref|NP_564327.1| "stress-responsive protein, putative [Arabidopsis thaliana]" >gi|42571691|ref|NP_973936.1| "stress-responsive protein, putative [Arabidopsis thaliana]" >gi|18397077|ref|NP_564328.1| "stress-responsive protein, putative [Arabidopsis thaliana]" >gi|15237418|ref|NP_197185.1| syntaxin 21 (SYP21) / PEP12 homolog [Arabidopsis thaliana] >gi|18422725|ref|NP_568671.1| syntaxin 22 (SYP22) (VAM3) [Arabidopsis thaliana] >gi|18412435|ref|NP_565213.1| syntaxin 52 (SYP52) [Arabidopsis thaliana] >gi|18396813|ref|NP_564310.1| syntaxin 61 (SYP61) / osmotic stess-sensitive mutant 1 (OSM1) [Arabidopsis >gi|18420282|ref|NP_568046.1| "thaumatin, putative [Arabidopsis thaliana]" >gi|30690730|ref|NP_849509.1| "U2 snRNP auxiliary factor large subunit, putative [Arabidopsis thaliana]" >gi|18411240|ref|NP_567153.1| vesicle-associated membrane family protein / VAMP family protein [Arabidopsis >gi|42571533|ref|NP_973857.1| zinc finger (C3HC4-type RING finger) family protein [Arabidopsis thaliana] >gi|42569335|ref|NP_180182.2| zinc finger (C3HC4-type RING finger) family protein [Arabidopsis thaliana] >gi|42563995|ref|NP_187692.2| zinc finger (C3HC4-type RING finger) family protein [Arabidopsis thaliana] >gi|15240409|ref|NP_198045.1| zinc finger (GATA type) family protein [Arabidopsis thaliana] >gi|15230588|ref|NP_187881.1| zinc transporter (ZIP1) [Arabidopsis thaliana] >gi|15225219|ref|NP_180786.1| zinc transporter (ZIP3) [Arabidopsis thaliana]

197

Oryza sativa

>O81215 O81215 Auxin transport protein REH1. >Q8S9S5 Q8S9S5 B1064G04.26 protein. >Q941V9 Q941V9 B1088C09.19 protein (P0446G04.2 protein). >Q8RZ98 Q8RZ98 B1147A04.28 protein. >Q7XI50 Q7XI50 Beta-1,3-glucanase-like protein. >Q8GS85 Q8GS85 Blue copper-binding protein-like. >Q9ST91 Q9ST91 CAA30376.1 protein. >Q8H3Y9 Q8H3Y9 Cell wall protein-like. >Q944E4 Q944E4 Cellulose synthase-like protein OsCslE1. >Q9FUW4 Q7Y0E3 Q9FUW4 Cold acclimation protein WCOR413-like protein. >Q9FUW4 Q7Y0E3 Q9FUW4 Cold acclimation protein WCOR413-like protein. >Q8W1N2 Q8W1N2 CSLE1 (Fragment). >Q8GVK1 Q8GVK1 Cytochrome P450-like protein. >Q8GS08 Q8GS08 Disease resistance response protein-like. >Q9LGM5 Q9LGM5 EST D25138(R3286) corresponds to a region of the predicted gene. >Q9LX04 Q9LX04 ESTs AU082304(C61278). >Q9S7H0 Q9S7H0 ESTs C97742(C62458). >Q852K7 Q852K7 Expressed protein. >Q852L4 Q852L4 Expressed protein. >Q8GRJ3 Q8GRJ3 Glycosyl hydrolase family 17-like protein. >Q8S3N7 Q8S3N7 Hypothetical protein 24K23.20. >Q8GS86 Q8GS86 Hypothetical protein OJ1080_F08.117 (Hypothetical protein OJ1779_B07.144) >Q8GRQ4 Q8GRQ4 Hypothetical protein OJ1351_C05.107 (Hypothetical protein OJ1417_E01.133). >Q8LI99 Q8LI99 Hypothetical protein OJ1458_B07.124. >Q8GVY7 Q8GVY7 Hypothetical protein OJ1612_A04.104. >Q8H579 Q8H579 Hypothetical protein OJ1656_E11.118. >Q8H578 Q8H578 Hypothetical protein OJ1656_E11.119. >Q8H568 Q8H568 Hypothetical protein OJ1656_E11.136 (Hypothetical protein P0534H07.1). >Q8LMR5 Q8LMR5 Hypothetical protein OJ1705B08.8. >Q8H4N9 Q8H4N9 Hypothetical protein OJ1779_B07.112. >Q8LLY9 Q8LLY9 Hypothetical protein OSJNAa0049K09.8. >Q9AV42 Q9AV42 Hypothetical protein OSJNBa0001O14.1. >Q8SB75 Q8SB75 Hypothetical protein OSJNBa0004E08.6. >Q8S7I0 Q8S7I0 Hypothetical protein OSJNBa0010I09.13. >Q9AUZ4 Q7XDE5 Q9AUZ4 Hypothetical protein OSJNBa0026O12.14. >Q84MQ2 Q84MQ2 Hypothetical protein OSJNBa0030J19.19. >Q8LN30 Q8LN30 Hypothetical protein OSJNBa0053C23.26. >Q9FW10 Q7XCX3 Q9FW10 Hypothetical protein OSJNBa0055O03.4. >Q8H2N1 Q8H2N1 Hypothetical protein OSJNBa0066H10.109. >Q8LNL1 Q8LNL1 Hypothetical protein OSJNBa0071I20.7. >Q8L3Z2 Q8L3Z2 Hypothetical protein OSJNBa0079H13.4 (Hypothetical protein OSJNBb0038H12.2). >Q8GZW4 Q8GZW4 Hypothetical protein OSJNBa0090O10.20. >Q8RUK7 Q8RUK7 Hypothetical protein OSJNBa0091J06.2 (Hypothetical protein OJ1341F06.13) (Hypothetical >Q9AY83 Q9AY83 Hypothetical protein OSJNBa0091J19.29. >Q8LNJ0 Q8LNJ0 Hypothetical protein OSJNBb0028C01.41. >Q84MP4 Q84MP4 Hypothetical protein OSJNBb0036F07.5. >Q8S6G4 Q8S6G4 Hypothetical protein OSJNBb0075K12.23 (Hypothetical protein OSJNAb0075K12.7). >Q8W2T6 Q7XFB0 Q8W2T6 Hypothetical protein OSJNBb0089F16.16. >Q94GI2 Q94GI2 Hypothetical protein OSJNBb0093E13.10. >Q8H4C3 Q8H4C3 Hypothetical protein P0048D08.120. >Q7XI18 Q7XI18 Hypothetical protein P0506C07.15. >Q84NL9 Q84NL9 Hypothetical protein P0640E12.135. >Q8GVN2 Q8GVN2 Hypothetical protein P0681F05.138. >Q9SDK7 Q9SDK7 Hypothetical protein.

198

>Q7XCJ7 Q7XCJ7 Hypothetical protein. >Q8SBD0 Q8SBD0 Iron regulated metal transporter. >Q7XJ42 Q7XJ42 Iron transporter Fe2. >Q7XJ41 Q7XJ41 Iron transporter Fe3. >Q84P74 Q84P74 Isp-4-like protein (Fragment). >Q8H527 Q8H527 Nodulin-like protein. >Q8LJ05 Q8LJ05 OJ1116_H09.21 protein. >Q8S0T1 Q8S0T1 OJ1414_E05.10 protein. >Q8S0T6 Q8S0T6 OJ1414_E05.5 protein. >Q7XVX6 Q7XVX6 OSJNBa0004L19.8 protein. >Q7XV58 Q7XV58 OSJNBa0006B20.13 protein. >Q7XRA9 Q7XRA9 OSJNBa0006B20.16 protein. >Q7XQ77 Q7XQ77 OSJNBa0011J08.12 protein. >Q7XR90 Q7XR90 OSJNBa0011L07.11 protein. >Q84RZ2 Q84RZ2 OSJNBa0011P19.6 protein. >Q7XQA3 Q7XQA3 OSJNBa0018M05.5 protein (OSJNBb0004A17.16 protein). >Q7XTY1 Q7XTY1 OSJNBa0019K04.16 protein. >Q7XUH3 Q7XUH3 OSJNBa0020J04.9 protein. >Q94IY6 Q94IY6 OSJNBa0025P13.10 protein. >Q7X8A2 Q7X8A2 OSJNBa0035I04.2 protein (OSJNBb0088C09.12 protein). >Q9FTP2 Q9FTP2 OSJNBa0036E02.28 protein (B1085F09.24 protein). >Q7XST6 Q7XST6 OSJNBa0039K24.20 protein. >Q7XLY0 Q7XLY0 OSJNBa0042I15.10 protein. >Q7XX38 Q7XX38 OSJNBa0060B20.15 protein. >Q7XLD4 Q7XJB8 Q7XLD4 OSJNBa0070C17.15 protein (Putative ZIP-like protein) (Zinc transporter ZIP3). >Q7XLD3 Q7XLD3 OSJNBa0070C17.16 protein. >Q7XUV6 Q7XUV6 OSJNBa0072F16.10 protein. >Q7XVG8 Q7XVG8 OSJNBa0073L04.8 protein. >Q7X881 Q7X881 OSJNBa0076N16.24 protein (OJ990528_30.3 protein). >Q7X7J3 Q7X7J3 OSJNBa0079A21.6 protein. >Q7X8Z7 Q7X8Z7 OSJNBa0085I10.19 protein (OSJNBa0070C17.5 protein). >Q7XV47 Q7XV47 OSJNBa0086B14.8 protein. >Q7XPU9 Q7XPU9 OSJNBa0088H09.7 protein. >Q7XN69 Q7XN69 OSJNBa0089N06.13 protein. >Q8S2M1 Q8S2M1 OSJNBa0090K04.11 protein (P0704D04.19 protein). >Q7XWR8 Q7XWR8 OSJNBa0091C12.14 protein (OSJNBa0061A09.3 protein). >Q7XR26 Q7XR26 OSJNBb0022F23.4 protein. >Q7XTR0 Q7XTR0 OSJNBb0085C12.11 protein. >Q7X6S3 Q7X6S3 OSJNBb0085C12.16 protein (OSJNBa0053K19.5 protein). >Q7XL90 Q7XRF5 Q7XL90 OSJNBb0115I09.22 protein (OSJNBb0067G11.1 protein). >Q94EC2 Q94EC2 P0002B05.17 protein. >Q94E05 Q94E05 P0010B10.2 protein. >Q84SF6 Q84SF6 P0020E09.8 protein. >Q9ARM9 Q9ARM9 P0024G09.31 protein. >Q8S1E3 Q8S1E3 P0035F12.1 protein. >Q7X5X6 Q7X5X6 P0076O17.5 protein (OSJNBa0064D20.5 protein). >Q94DW9 Q94DW9 P0403C05.19 protein. >Q8S140 Q8S140 P0415A04.1 protein (B1070A12.20 protein). >Q9AX58 Q9AX58 P0416D03.8 protein. >Q8RV99 Q8RV99 P0425G02.8 protein (P0468B07.28 protein). >Q8RZK6 Q8RZK6 P0432B10.23 protein. >Q9ASI5 Q9ASI5 P0439B06.27 protein (OSJNBb0032H19.6 protein). >Q8LR59 Q8LR59 P0451D05.3 protein. >Q94CS3 Q84SF9 Q94CS3 P0459B04.23 protein (P0020E09.5 protein). >Q8S088 Q8S088 P0470A12.31 protein. >Q8W0N7 Q8W0N7 P0482C06.23 protein. >Q8W0N3 Q8W0N3 P0482C06.27 protein.

199

>Q8S0Z1 Q8S0Z1 P0485B12.26 protein. >Q9LGR8 Q9LGR8 P0489A01.23 protein. >Q9LGT7 Q9LGT7 P0489A01.3 protein. >Q9AWJ5 Q9AWJ5 P0489A05.2 protein (B1015E06.24 protein). >Q8S1U3 Q8S1U3 P0504E02.17 protein. >Q94E94 Q94E94 P0507H06.18 protein. >Q8L3X4 Q8L3X4 P0551A11.3 protein (OJ1116_C07.3 protein). >Q8LR31 Q8LR31 P0671D01.20 protein. >Q8S1M0 Q8S1M0 P0683B11.12 protein. >Q9ASG5 Q9ASG5 P0686E09.16 protein. >Q8S1H4 Q8S1H4 P0699H05.11 protein. >Q8S1H0 Q8S1H0 P0699H05.15 protein. >Q8S1H6 Q8S1H6 P0699H05.9 protein. >Q8LQS6 Q8LQS6 P0702H08.18 protein. >Q94D45 Q94D45 P0712E02.10 protein (OSJNBb0024F06.20 protein). >Q8H574 Q8H574 Protease inhibitor-like protein. >Q84MU5 Q84MU5 Putative 1,3-beta-glucanase. >Q84Z02 Q84Z02 Putative AP2/EREBP transcription factor. >Q84QW4 Q84QW4 Putative auxin-induced protein. >Q852K4 Q852K4 Putative beta-1,3 glucanase. >Q8H822 Q8H822 Putative beta-1,3-glucanase. >Q94ED2 Q94ED2 Putative beta-glucosidase. >Q8H3F0 Q8H3F0 Putative BLE2 protein. >Q852J1 Q852J1 Putative blue copper-binding protein. >Q9AUW1 Q9AUW1 Putative blue copper-binding protein. >Q8SB26 Q8SB26 Putative blue copper-binding protein. >Q8SB30 Q8SB30 Putative chloroplast nucleoid DNA-binding protein. >Q8H3X4 Q8H3X4 Putative disease resistance response protein-related/ dirigent protein-related.PNATTI >Q8S5V0 Q8S5V0 Putative endosperm specific protein. >Q8H3S1 Q8H3S1 Putative fasciclin-like arabinogalactan-protein. >Q8GTK3 Q8GTK3 Putative glucan endo-1,3-beta-glucosidase. >Q7Y157 Q7Y157 Putative glucanase. >Q9AX79 Q9AX79 Putative H+-transporting ATPase. >Q8LH82 Q8LH82 Putative hexokinase. >Q851L1 Q851L1 Putative LRR receptor-like protein kinase. >Q94LV0 Q7XCG2 Q94LV0 Putative membrane protein. >Q94LV0 Q7XCG2 Q94LV0 Putative membrane protein. >Q94LQ4 Q7XC94 Q94LQ4 Putative metalloproteinase. >Q94LQ4 Q7XC94 Q94LQ4 Putative metalloproteinase. >Q84S07 Q84S07 Putative nodulin. >Q84Z90 Q84Z90 Putative pathogenesis-related protein. >Q8L3W2 Q8L3W2 Putative peroxidase 1. >Q8H4P7 Q8H4P7 Putative photosystem II 10 kD polypeptide. >Q84M48 Q84M48 Putative phytocyanin. >Q8L3Q4 Q8L3Q4 Putative pollen specific protein (Putative ascorbate oxidase). >Q852L3 Q852L3 Putative protease inhibitor. >Q94GN3 Q94GN3 Putative receptor-associated protein. >Q8RYT6 Q8RYT6 Putative RNA helicase, DRH1. >Q94LG3 Q94LG3 Putative selenium-binding protein-like. >Q94DL9 Q94DL9 Putative syntaxin. >Q94HS1 Q94HS1 Putative thaumatin-like protein. >Q94HS3 Q94HS3 Putative thaumatin-like protein. >Q7XGU7 Q7XGU7 Putative thaumatin-like protein. >Q7XGV0 Q7XGV0 Putative thaumatin-like protein. >Q949F3 Q949F3 Putative vesicle-associated membrane protein (VAMP). >Q8LN94 Q8LN94 Putative vesicle-associated membrane protein. >Q7Y247 Q7Y247 Putative zinc transporter OsZIP2.

200

>Q8H385 Q8H385 Putative zinc transporter protein ZIP1. >Q7XJ47 Q7XJ47 Putative zinc transporter. >Q84L19 Q84L19 Putative ZIP-like zinc transporter. >Q9LDK7 Q9LDK7 Similar to Arabidopsis thaliana mRNA for MYB-related protein. >Q9LIY5 Q9LIY5 Similar to mavicyanin. >Q94FP2 Q94FP2 Succinate dehydrogenase subunit 3. >Q949E8 Q949E8 Uclacyanin 3-like protein. >Q8L555 Q8L555 Uclacyanin 3-like protein-like protein. >Q8H0B6 Q7X8J9 Q8H0B6 UDP-galactose 4-epimerase-like protein (OSJNBa0058K23.4 protein)

BIBLIOGRAPHIE Ahmad, S., M.M. Gromiha et A. Sarai. 2004. « Analysis and Prediction of DNA-binding Proteins and their Binding Residues Based on Composition, Sequence and Structural Information ». Bioinformatics, vol. 20, no 4, p. 477-86.

Alm, E., A.V. Morozov, T. Kortemme et D. Baker. 2002. « Simple Physical Models Connect Theory and Experiment in Protein Folding Kinetics ». Journal of Molecular Biology, vol. 322, no 2, p. 463 –76.

Altschul S.F., T.L. Madden, A.A. Schaefer, J. Zhang, Z. Zhang, W. Miller et D. J. Lipman DJ. 1997. « Gapped BLAST and PSI-BLAST:a New Generation of Protein Database Search Programs ». Nucleic Acids Research, vol. 25, no 17, p. 3389 –402.

Altschul, S.F., et B. W. Erickson. 1986. « Locally Subalignments Using Nonlinear Similarity Functions ». Bulletin of Mathematical Biology, vol. 48, no 5/6, p. 633-660.

Anderson, J., A. Pellionisz et E. Rosenfeld. 1990. Neurocomputing 2 : Directions for Research, Cambridge (MA) : MIT Press.

Avery, O.T., C.M. Macleod et M. McCarty. 1944. « Studies on the Chemical Nature of the Substance Inducing Transformation of Pneumococcal Types : Induction of Transformation by a Desoxyribonucleic Acid Fraction Isolated from Pneumococcus Type III ». Journal of Experimental Medecine, vol. 79, p. 137-159.

Baldi, P. et S. Brunak. 2001. Bioinformatics : The Machine Learning Approach. Cambridge (MA) : MIT Press.

Baldi, P., et Y. Chauvin. 1996. « Hybrid modeling, HMM/NN architectures, and protein applications ». Neural Computation, vol. 8, p.1541-1565.

Baldi, P. et Y. Chauvin. 1994. « Hidden Markov Models of the G-protein-coupled receptor family ». Journal of Computational Biology, vol. 1, no 4, p. 311-335.

202

Barrett C., R. Hughey et K. Karplus 1997. « Scoring Hidden Markov Models ». Computer Applications in the Biosciences, vol. 13, no 2, p. 191-199.

Barrette, I., G. Poisson, P. Gendron et F. Major. 2001. « Pseudoknots in Prion Protein mRNAs Confirmed by Comparative Sequence Analysis and Pattern Searching ». Nucleic Acids Research, vol. 29, no 3, p. 753-758.

Baxevanis, A.D. et B.F.F. Ouellette 2001. Bioinformatics : A Practical Guide to the Analysis of Genes and Proteins. Second Edition, Wiley-Interscience. Bengio, Y., Y.LeCun, C.Nohl et C. Burges. 1995. « LeRec : a NN/HMM Hybrid for On-line Handwriting Recognition. Neural Computation, vol. 7, no 5, p. 1289-1303.

Betel, D. et C.W. Hogues. 2002. « Kangaroo – A Pattern-Matching Program for Biological Sequences ». BMC Bioinformatcs. vol. 3, no 1, p. 20.

Boeckmann, B., A. Bairoch, R. Apweiler, M-C. Blatter, A. Estreicher, E. Gasteiger, M.J. Martin, K. Michoud, C. O’Donovan, I. Phan, S. Pilbout et M. Schneider. 2003. « The SWISS-PROT Protein Knowledgebase and its Supplement TrEMBL in 2003 ». Nucleic Acids Research, vol. 31, no 1, p. 365-370.

Bork, P., C. Ouzounis, C. Sander, M. Scharf, R. Schneider et E. Sonnhammer. 1992. « Comprehensive Sequence Analysis of the 182 Predicted Open Reading Frames of Yeast Chromosone III ». Protein Science, vol. 1, no 12, p.1677-1690.

Bourlard, H. et S. Bengio. 2002. « Hidden Markov Models and Other Finite State Automata for Sequence Processing ». chap. in The Handbook of Brain Theory and Neural Networks, 2e Édition. Cambridge (MA) : The MIT Press.

Bourlard H. 1995. « REMAP: Recursive Estimation and Maximization of a Posteriori Probabilities in Connectionist Speech Recognition ». Proceedings of Eurospeech-95, Madrid. p. 1663-1666.

Brejova, B., C. DiMarco, T. Vinar, S.R. Hidalgo, C. Holguin et C. Patten. 2000. Finding Patterns in Biological Sequences. Project Report for CS798g. University of Waterloo.

203

Brown, S.M. 2000. Bioinformatics: A Biologist’s Guide to Biocomputing and the Internet. Natick (MA) : Eaton Publishing.

Brunak, S., J. Engelbrecht et S. Knudsen. 1990. « Neural Network Detecs Errors in the Assignment of pre-mRNA Splice Site ». Nucleic acids Research, vol. 18, no 16, p. 4797-4801.

Brunak, S., J. Engelbrecht et S. Knudsen. 1991. « Prediction of Human mRNA Donor and Acceptor Sites from DNA Sequences ». Journal of Moecular Biology, vol. 220, no 1, p. 49-65.

Burge, C. et S. Karlin. 1997. « Prediction of Complete Gene Structures in Human Genomic DNA ». Journal of Molecular Biology, vol. 268, no 1, p. 78-94.

Chatterjee, S. et S. Mayor. 2001. « The GPI-anchor and Protein Sorting ». Cellular and Molecular Life Sciences, vol. 58, no 14, p. 1969-1987.

Cho, S.-B. et J.H. Kim. 1995. « An HMM/MLP Architecture for Sequence Recognition ». Neural Computation, vol. 7. p. 358-369.

Chomsky, N. 1957. Syntactic Structures. The Hague : Mouton.

Comet, J-P. 1998. Programmation dynamique et alignement de séquences biologiques. Thèse de Doctorat, Université de technologie de Compiègne.

Coyen, K.E., A. Crisci et D.M. Lublin. 1993. « Construction of Synthetic Signals for Glycosyl-phosphatidylinositol Anchor Attachment. Analysis of Amino Acid Sequence Requirements for anchoring ». Journal of Biological Chemistry, vol. 268, no 9, p. 6689-6693.

Dayhoff, M.O., R.M. Schwartz et B. Orcutt. 1978. « A Model of Evolutionary Change in Proteins ». Chap. In Atlas of Protein Sequence and Structure, p.345-352. Washington : M. O. Dayhoff éd. Dayhoff, M.O., R.V. Eck, M.A. Chang et M.R. Sochard. 1965. « Atlas of Protein Sequence and Structure » vol. 1. Silver Spring (MD): National Biomedical Research Foundation.

204

DiFrancesco, V., J. Garnier et P.J. Munson. 1997. « Protein Topology Recognition from Secondary Structure Sequences Applications of the Hidden Markov Models to Alpha Class Proteins ». Journal of Molecular Biology, vol. 267, no 2, p. 446-463.

Doolittle, R. J. et P. Bork. 1993. « Evolutionarily Mobile Modules in Proteins ». Scientific American, vol. 269, no 4, p. 50-56.

Duda, R.O., P.E. Hart et D.G. Stork. 2001. Pattern Classification 2e ed. NewYork (NY) : John Wiley & Sons.

Durbin, R., S. Eddy, A. Krogh et G. Mitchison. 1998. « Biological Sequences Analysis- Probabilistic Models of Proteins and Nucleic Acids ». Cambridge (MA) : University Press.

Eddy, S.R. 1995. « Multiple Alignment Using Hidden Markov Models ». chap. in Proceedings of the Third International Conference on Intelligent System for Molecular Biology. Menlo park (CA) : IAAA press.

Eddy, S. R. 1996. « Hidden Markov Models ». Current Opinion in Structural Biology, vol. 6, p. 361-365.

Eisenberg, D., R.M. Weiss, T.C. Terwilliger et W. Wilcox. 1982. « Hydrophobic Moments and Protein Structure ». Faraday Symposia of the Chemical Society, vol. 17, p. 109-120.

Eisenhaber, B., M. Wildpaner, A.J. Schultz, G.H H. Borner, P. Dupree et F. Eisenhaber. 2003. « Glycosylphosphatidylinositol Lipid Anchoring of Plant Proteins. Sensitive Prediction from Sequence- and Genome-wide Studies for Arabidopsis and Rice ». Plant physiology, vol. 133, no 4, p. 1691-1701.

Eisenhaber, B., P. Brok et F. Eisenhaber. 2001. « Post-translational GPI Lipid Anchor Modification of Proteins in Kingdoms of Life: Analysis of Protein Sequence Data from Complete Genomes ». Protein Engeeniring, vol. 14, no 1, p. 17-25.

Eisenhaber, B., P. Brok, et F. Eisenhaber. 1999. « Prediction of Potential GPI-modification Sites in Proprotein Sequences ». Journal of Molecular Biology, vol. 292, no 3, p. 741-758.

205

Eisenhaber, B., P. Bork et F. Eisenhaber. 1998. « Sequence Properties of GPI-anchored Proteins Near the Oméga-site : Constraints for Polypeptide Binding Site of the Putative Transamidase ». Protein Engineering, vol. 11, no 12, p. 1155-1161.

Ellis J.A. et J.P. Lazio. 1995. «Identification and Caracterization of a Novel Protein (p137) which Transcytoses Bidirectionally in Caco-2 Cells ». Journal of Biological Chemistry, vol. 270, no 35, p. 20717-20723.

Engelman, D.M., T.A. Steitz et A. Goldman. 1986. « Identifying Nonpolar Transbilayer Helices in Amino Acid Sequences of Membrane Proteins. Annual Review of Biophysics and Biophysical Chemistry, vol.15, p. 321-353.

Estes, W.K. 1994. Classification and Cognition. Oxford (NY) : Oxford University Press.

Farriol-Mathis, N., J.S. Garavelli, B. Boeckmann, S. Duvaud, E. Gasteiger, A. Gateau, A-L. Veuthey et A. Bairoch. 2004. “Annotation of Post-translational Modifications in the Swiss-Prot Knowledge base”. Proteomics, vol. 4, p. 1537-1550.

Feng, D.F. et R.F. Doolitle. 1987. « Progressive Sequence Alignment As a Prerequisite to Correct Phylogenetic Trees ». Journal of Molecular Evolution, vol. 25, no 4, p. 351-360.

Ferguson, M.A., S.W. Homans, R.A. Dwek et T.W. Rademacher. 1988. « Glycosyl-phosphatidylinositol Moiety that Anchor Trypanosoma brucei Variant Surface Glycoprotein to the Membrane ». Science, vol. 239. no 4841 pt1, p. 753-759.

Ferguson, M.A., K. Haldar et G. A. Cross. 1985. « Trypanosoma brucei Variant Surface Glycoprotein has a sn-1,2-dimyristyl Glycerol Membrane Anchor at its COOH Terminus ». Journal of Biological Chemistry, vol. 260, no 8, p. 4963-4968.

Forney, G.D.Jr. 1973. « The Viterbi Algorithm ». Proceedings of the IEEE, vol. 61, no 3, p. 268-278.

Francke, S. et L. Weynans. 2002. Étude sur les Modèles de Markov cachés et les applications à la bioinformatique. Rapport de stage, École Nationale Supérieure de Techniques Avancées (ENSTA).

206

Furukawa, Y., K. Tsukamoto et H. Ikezawa. 1997. « Mutational Analysis of the C-terminal Signal Peptide of Bovine Liver 5-nucleotidase for GPI Anchoring: a Study on the Significance of the Hydrophilic Spacer Region ». Biochimica et Biophysica Acta, vol. 1328, no 2, p. 185-196.

Futerman, A.H., M.G. Low, K.E. Ackermann, W. R.Sherman, et I. Silam. 1985. « Identification of Covalently Bound Inositol in the Hydrophobic-anchoring Domain of Torpedo Acelylcholinesterase ». Biochemical and Biophysical Research Communications, vol. 129, no 1, p. 312-317.

Gan, H.H., R. A. Perlow, S. Roy, J. Ko, M. Wu, J. Huang, S. Yan, A. Nicoletta, J. Vafai, D. Sun, L. Wang, J.E. Noah, S. Pasquali et T. Schlick. « Analysis of Protein Sequence/Structure Similarity Relationships ». Biophysical Journal, vol. 83, p. 2781-2791.

Gattiker, A., E. Gasteiger et A. Bairoch. 2002. « ScanProsite: a Reference Implementation of a PROSITE Scanning Tool ». Applied Bioinformatics, vol. 1, no 2, p.107-108.

Gautheret, D., F. Major, R. Cedergren. 1990. « Pattern searching/alignment with RNA Primary and Secondary Structure: an Effective Descriptor for tRNA ». Computer Applications in the Biosciences, vol. 6, no 4, p. 325-331.

Gordon A.D. 1981. Classification Methods for the Exploratory Analysis of Multivariate Data. London (UK) : Chapman and Hall.

Gosselin, B. 2000. Traitement de l’information—Classification et Reconnaissance Statistique de Formes. Notes de cours. Faculté Polytechnique de Mons.

Gowda, D. C. et E. A. Davidson. 1999. « Protein Glycosylationin the Malari parasite ». Parasitology Today, vol. 15, no 4, p. 147-152. GRAMENE, 2004. A Comparative Mapping Resource. for Grains. http://www.gramene.org/ Griffith, F. 1928. « The Significance of Pneumococcal Types ». Journal of Hygiene, vol. 27, p. 113-159

Gusfield, D. 1997. Algorithms on Strings, Trees, and sequences. Cambridge(MA) : Cambridge University Press.

207

Habrias, H. 2002. Génie logiciel Module de spécification 2. Instituts Universitaires de technologie (IUT). Université Nantes.

Haykin, S. 1999. Neural Networks, A Comprehensive Foundation: second edition. New York (NY) : MacMillan College Publishing,

Hebb, D.O. 1949. The Organization of Behavior. New York: Wiley.

Henikoff, J.G., E.A. Greene, S. Pietrokovski et S. Henikoff, « Increased Coverage of Protein Families with the BLOCKS Database Servers », Nucleic Acids Research, vol. 28, p. 228-230. (2000).

Henikoff, S. et J.G. Henikoff. 1992. « Amino Acid Substitution Matrices from Protein Blocks ». Proceedings of the Natural Academy of Sciences of the United States of America, vol. 89, no 22, p.10915-10919.

Heyshey, A.D. et M. Chase. 1952. « Independent Functions of Viral Protein and Nucleic Acid in Growth of Bacteria ». Journal of General Physiology, vol. 36, no. 1, p. 39-56.

Higgins, D.G. et P.M. Sharp. 1988. « CLUSTAL: a Package for Performing Multiple Sequence Alignment on a Microcomputer ». Gene, vol. 73, no 1, p. 237-244.

Holmström, L., P. Koistinen, J. Laaksonen et E. Oja. 1996. Comparison of Neural and Statistical Classifiers: Theory and Practice. Rolf Nevanlinna Institute Research Reports A13, Helsinki.

Hooper, N.M. 2001. « Determination of Glycosyl-phosphatidylinositol Membrane Protein Anchorage ». Proteomics, vol. 1, no 6, p. 718-755.

Hopfield, J.J. 1982. « Neural Networks and Physical Systems with Emergent Collective Computational Abilities ». Proceedings of the Natural Academy of Sciences of the United States of America, vol. 79, no 8, p. 2554-2558.

Hornik, K., M. Stinchcombe et H. White.1989. « Multilayer Feedforward Networks are Universal Approximators ». Neural Networks, vol. 2, no 5, p. 359-366.

208

Howell, S., C. Lanctot, G. Boileau et P. Crine. 1994. «A Cleavage N-terminal Signal Peptide is not a Prerequiste for the Biosynthesis of Glycosylphosphatidylinositol-anchored Proteins ». Journal of Biological Chemistry, vol. 269, no 25, p. 16993-16996.

Ikezawa, H. 2002. « Glycosylphophatidylinositol (GPI)-anchored proteins ». Biological and Pharmaceutical Bulletin, vol. 25, no 4, p. 409-417.

IUPAC-IUB 1993, « Joint Commission on Biochemical Nomenclature (JCBN). Nomenclature and Symbolism for Amino Acids and Peptides: Corrections to Recommendations 1983 ». European Journal of Biochemistry, vol. 213, no 1, p.1-3.

Jacob, F. 1977. « Evolution and Tinkering ». Science, vol. 196, no 4295, p. 1161-1166.

James, M. Classification Algorithms. New York (NY) : John Wiley & Son.

Jordan, M.I. 1995. Why the logistic Function? A Tutorial Discussion on Probabilities and Neural Network. Computational Cognitive Science Report 9503. Cambridge (MA) : MIT press.

Kulp, D., D. Haussler, M.G. Reese et F.H. Eeckman. 1996. « A Generalized Hidden Markov Model for the Recognition of Human Genes in DNA ». Proceedings of the International Conference on Intelligent Systems Molecular Biology, vol. 4, p.134-42 Krawetz, S.A. et D.D. Womble. 2003. Introduction to Bioinformatics : A Theoretical and Practical Approach . Totowa (N-J): Humana Press.

Krogh, A. et J.A. Hertz. 1992. A simple weight decay can improve generalization. dans J.E. Moody, S.J. Hanson, and R.P. Lippmann, editors, Advances in Neural Information Processing Systems 4, p. 450—957. Kyte, J. et R.F. Doolittle. 1982. « A Simple Method for Displaying the Hydropathic Character of a Protein ». Journal of Molecular Biology, vol. 157, no 1, p. 105-132.

LeCun, Y. 1985. « A Learning Scheme for Asymmetric Threshold Networks ». Proceedings of Cognitiva 85, p.599-604. Paris, France.

209

Lehmann, S. et D.A. Harris. 1995. « A Mutant Prion Protein Displays an Aberrant Membrane Association When Expressed in Cultured Cells ». Journal of Biological Chemistry, vol. 270, no 41, p. 24589-24597

Leon, F., D. Gâlea, et M. Zbancioc 2002. « Knowledge Representation Through Interactive Networks ». Proceedings of the European Conference on Intelligent Systems, Iasi.

Lewin, B. 1999. Gènes VI 6e éd, traduction de l’anglais par Chrystelle Sanlaville. Bruxelles : DeBoeck Université.

Low, M. 1999. « GPI-anchored Biomolecules- an Overview ». chap. In GPI-anchored Membrane Proteins and Carbohydrates, p.1-14, Austin (TX) : Landes.

Magoulas, G. 2001. Neural and Genetic Computing. Brunel University, Uxbridge, United Kingdom.

Mann, M. et O. Jensen. 2003. « Proteomic Analysis of Post-translational Modifications ». Nature Biotechnology, vol. 21, no 3, p. 255-261.

Martelli P. L., P. Fariselli et R. Casadio. 2004. « Prediction of Disulfide-bonded Cysteines in Proteomes with a Hidden Neural Network ». Proteomics, vol. 4, no 6, p. 1665-1671.

Martelli, PL, P. Fariselli, L. Malaguti et R. Casadio 2002. « Prediction of the Disulfide Bonding State of Cysteines in Proteins with Hidden Neural Networks ». Protein Engeeniring, vol. 15, no 12, p. 951-953.

May, A.C.W. 2001. « Optimal Classification of Protein Sequences and Selection of Representative Sets From Multiple Alignments: Application to Homologous Families and Lessons for Structural Genomics ». Protein Engineering, vol. 14, no 4, p 209-217.

McConville, M.J. et Menon A.K. 2000. « Recent Developments in the Cell Biology and Biochemistry of Glycosylphosphatidylinositol Lipids ». Molecular and Membrane Biology, vol. 17, no 1, p. 1-16

McCulloch, W.S. et W.H. Pitts. 1943. « A logical Calculus of the Ideas Immanent in Nervous Activity ». Bulletin of Mathematical Biophysics, vol. 5, p. 115-133.

210

Micanovic, R., L.D. Gerber, J. Berger, K. Kodukula et S. Udenfriend. 1990. « Selectivity of the Cleavage/Attachment Site of Phosphatidylinositol-glycan-anchored Membrane Proteins Determined by Site-specific Mutagenesis at Asp-484 of Placental Alkaline Phosphatase ». Proceedings of the National Academy of Sciences of the United States of America, vol. 87,no 1, p. 157-161.

Minsky, M. et S. Papert. 1969. Perceptrons. Cambridge (MA) : MIT Press.

Moran, P., H. Raab, W.J. Kohr et I.W. Caras. 1991. « Glycophospholipid Membrane Anchor Attachment Molecular Analysis of the Cleavage/Attachment Site ». Journal of Biological Chemistry, vol. 266, no 2, p. 1250-1257.

Moran, P., I.W. Caras. 1994. « Requirements for Glycosylphosphatidylinositol Attachment Are Similar but Not Identical in Mammalian Cells and Parasitic Protozoa ». Journal of Cell Biology, vol. 125, no 2, p. 333-343.

Morita, M., R. Sabourin, F. Bortolozzi et C.Y. Suen. 2003. « Segmentation and Recognition of Handwritten date : an HMM/MLP Hybrid Approach ». International Journal on Document Analysis and Recognition, vol. 6, p. 248-262.

Morris, W.F. 1988. Artificial Intelligence: a Knowledge-based Approach. Boston (MA) : Boyd and Fraser éditeur.

Nakata, K. 1995. « Prediction of Zinc Finger DNA Binding Protein ». Computer Applications in the Biosciences, vol. 11, p. 125-131. Nalivaeva, N.N. et A.J. Turner. 2001. « Post-translational Modifications of Proteins : Acetylcholinesterase as a Model System ». Proteomics, vol. 1, no 6, p. 735-747.

Natt, NK., H. Kaur, G.P. Raghava. 2004. « Prediction of Transmembrane Regions of Beta-barrel Proteins Using ANN- and SVM-based Methods ». Proteins, vol. 56, no 1, p.11-8.

Navarro, G et M. Raffinot. 2002. Flexible Pattern Matching in Strings. Cambridge (MA) : Cambridge University Press.

211

Needleman , S.B., C. Wunssch. 1970. « A General Method Applicable to the Search for Similarities in the Amino Acid Sequence of Two Proteins ». Journal of Molecular Biology, vol. 48, no 3, p. 443-453.

Nielsen, H. et A. Krogh. 1998. « Prediction of Signal Peptides and Signal Anchors by a Hidden Markov Model ». Proceedings of the International Conference on Intelligent Systems Molecular Biology, vol. 6, p.122-130.

Niles, L.T. et H.F. Silverman. 1990. « Combining Hidden Markov Models and Neural Network Classifiers »., Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, p. 417-420.

Nosjean, O., A. Briolay et B. Roux. 1997. « Mammalian GPI Proteins : Sorting, Membrane Residence and Functions. Biochimica et Biophysica Acta, vol. 1331, p. 153-186.

Orr, G. et F. Cummins. 1999. Neural Network : Lecture Notes. Willamate University Oregon.

Parker, D.B. 1985. Learning Logic. Tech Report TR 47 Center for Computational Research in Economics and Management Science. Cambridge (MA) : MIT press.

Poisson G., A. Bergeron, C. Chauve et B. 2003. « Prediction of Post-translational GPI-Anchor Modification by Machine Learning ». Human Proteome Organisation, HUPO Molecular and Cellular Biology, Special, vol. 2, no 9, p.826. Poisson, G., A. Bergeron et C. Chauve. 2004. Artificial Neural Network and Hidden Markov Model for GPI-Anchored Protein Predictions. 12th International Conference on Intelligent System for Molecular Biology, Glascow (GB).

Polevoda, B. et F. Sherman. 2000. « N-terminal Acetylation of Eukaryotic Proteins ». Journal of Biological Chemistry, vol. 275, no 47, p. 36479-36482.

Quian, N. et T.J. Sejnowski. 1988. « Predicting the Secondary Structure of Globular Proteins Using Neural Network Models ». Journal of Molecular Biology, vol. 202, no 4, p. 865-884. Ramón y Cajal, S. 1911. Histologie du système nerveau de l’homme et des vertébrés, Paris : Maloine.

212

Renders, J-M. 1995. Algorithmes génétiques et réseaux de neurones. Paris : Hermès Science éditeur.

Riedmiller, M. et H. Braun. 1992. « RPROP A Fast Adaptive Learning Algorithm ». Proceedings of the 1992 International Symposium on Computer and Information Sciences, Antalya, Turquie. p. 279-285.

Riedmiller, M. et H. Braun. 1993. « A Direct Adaptive Method for Faster Backpropagation Learning: The RPROP Algorithm ». Proceedings of the IEEE International Conference on Neural Networks, p. 586-591.

Rigoll, G. et D. Willett. 1998. « A NN/HMM Hybrid for Continuous Speech Recognition with a Discriminant Nonlinear Feature Extraction ». Proceedings of the IEEE-ICASSP, p. 9-12.

Ripley, B.D. 1993. Statistical Aspects of Neural Networks—Networks on Chaos: Statistical and probabilities Aspects. U. Bornndorff-Nielsen, J. Jensen, and W. Kendal, eds., Chapman and Hall

Ripley, B.D. 1996. Pattern Recognition and Neural Networks. Cambridge (MA) : University Press.

Roberts, W.L. et T.L. Rosenberry. 1985. « Identification of Covalently Attached Fatty Acids in the Hydrophobic Membrane-binding Domain of Human Erythrocyte Acetylcholinesterase ». Biochemical and Biophysical Research Communications, vol. 133, no 2, p. 621-627.

Rosenblatt, F. 1957. The Perceptron: A Perceiving and Recognizing Automaton (Project PARA). Technical Report 85-460-1, Cornell Aeronautical Laboratory.

Rosenblatt, F. 1958. « The Perceptron: a Probabilistic Model for Information Storage and Organization in the Brain ». Psychological Review, vol. 65, no 6, p. 386-408.

Rumelhart, D.E., G.E. Hinton et R.J. Williams. 1986. « Learning Representations by Back-propagating Errors ». Nature, vol. 323, no 9, p. 533-536.

213

Rumelhart, D.E. et J.L. McClelland. 1986. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge (MA) : The MIT Press.

Saitou, N. et M. Nei. 1987. « The Neighbor-joining Method: a New Method for Reconstructing Phylogenetic Trees ». Molecular Biology and Evolution, vol. 4, no 4, p. 406-425.

Sanger, F., E.O.P. Thompson, et R. Kitai. 1955. « The Amine Groups of Insulin ». Biochemistry Journal, vol. 59, p. 509-514.

Sarle, W.S. 1994. « Neural Networks and Statistical Models ». Proceedings of the Nineteenth Annual SAS Users Group International Conference, Cary, NC, SAS Institute, p. 1538-1550. Schalkoff, R. 1992. Pattern Recognition: Statistical, Structural and Neural Approaches. New York (NY) : John Wiley & Sons éditeur.

Scheinder, G., S. Rohlk et P. Wrede. 1993. « Analyse of Cleavage-site Pattern in Protein Precursor Sequences with Perceptron-type Neural Network ». Biochemical and Biophysical Research Communications, vol. 194, p. 951-959.

Searls, D.B. et S. Dong. 1993. « A Syntactic Pattern Recognition System for DNA Sequences ». Proceedings of the Second International Conference on Bioinformatics, Supercomputing, and Complex Genome Analysis. p. 89-101.

Searls, D.B. 1993. « The Computational Linguistics of Biological Sequences » chap 2. in Artificial Intelligence and Molecular Biology, p. 47-120 Cambridge (MA) : AAAI Press.

Searls, D.B. 2001. « Reading the Book of Life ». Bioinformatics, vol. 17, no 7, p. 579-580.

Searls, D.B. 2002. « The Language of Genes ». Nature, vol 420, no 6912, p. 211-217.

Senior, A. 1994. « Off–Line Cursive Handwriting Recognition using Recurrent Neural Networks ». Thèse de Doctorat, University of Cambridge.

214

Seo, J. et K-J Lee. 2004. « Post-translational Modifications and Their Biological Functions: Proteomic Analysis and Systematic Approaches ». Journal of Biochemistry and Molecular Biology, vol. 37, no 1, p. 35-44. Setubal, J. et J. Meidanis. 1997. Introduction to Computational Molecular Biology Boston (MA): PWS Publishing Co.

Shepherd, G.M. et C. Koch. 1990. « Introduction to Synaptic Circuits », dans The Synaptic Organization of the Brain, p.3-31. NewYork: Oxford University Press.

Smith, T.F. et M.S. Waterman. 1981. « Identification of Common Molecular Subsequences ». Journal of Molecular Biology, vol. 47, no 1, p. 195-197.

SNNS, 1998. Stuttgart Neural Network Simulator (SNNS) version 4.2. Breitwiesenstrasse (Allemagne) : University of Stuttgart.

Sonnhammer, E.L.L., S.R. Eddy et R. Durbin. 1997. « Pfam a Comprehensive Database of Protein Domain Families Based on Seed Alignments ». Proteins, vol. 28, no 3, p. 405-420.

Spiro, R.G. 2002. « Protein Glycosylation : Nature, Distribution, Enzymatic Formation, and Disease Implication of Glycopeptide Bounds ». Glycobiology, vol. 12, no 4, p. 43R-56R.

Stormo, G.D., T.D. Schneider, L. Gold et A. Ehrenfeucht. 1982. « Use of the Perceptron Algorithm to Distinguish Translational Initiation Site in E.coli ». Nucleic Acids Research, vol. 10, no 9, p. 2997-3011.

The Arabidopsis Genome Initiative. 2000. « Analysis of the Genome Sequence of the Flowering Plant Arabidopsis thaliana ». Nature, vol. 408, no 6814, p. 796-815.

Thomson, S.M. 2003. « An Introduction to Multiple Sequence Alignment and Analysis » chap. in Introduction to Bioinformatics : A Theoretical and Practical Approach, Totowa (NJ) : Humana Press.

Thompson, J.D., D.G. Higgins et T.J. Gibson. 1994. « CLUSTALW: Improving the Sensibility of Progressive Multiple Sequence Alignment through Sequence Weighting, Positions-specific Gap Penalities and Weight Matrix Choice ». Nucleic Acids Research, vol. 22, no 22, p. 4673-4680.

215

Tompa, M. 2000. Lectures Notes on Biological Sequences Analysis. Technical report Department and Computer Science and Engineering. Seattle (WA) : University of Washington.

Touzet, C. 1992. Les réseaux de neurons artificiels : Introduction au connexionnisme. http://saturn.epm.ornl.gov/~touzetc/

Tse, A.G., A.N. Barclay, A. Watts et A.F. Williams. 1985. « A Glycophospholipid Tail at the Carboxyl Terminus of the Thy-1 Glycoprotein of Neurons and Thymocytes ». Science, vol. 230, no 4729. p. 1003-1008.

Vander A.J., J.H. Sherman, D. S. Luciano et J. R. Gontier. 1989. Physiologie Humaine 2e éd. McGraw Hill.

Waterman, M.S. et M. Eggert. 1987. « A New Algorithm for Best Subsequence Alignments with Applications to tRNA-rRNA Comparisons ». Journal of Molecular Biology, vol. 197, no 4, p. 723-728.

Watson, J. et F. Crick. 1953. « Molecular Structure of Nucleic Acids: A structure for Deoxyribose Nucleic Acid ». Nature, vol 171, p. 737. White, S.H. et W.C. Wimley. 1999. « Membrane Protein Folding and Stability: Physical Principles ». Annual Review of Biophysics and Biomolecular. Structure, vol. 28, p. 319-365. Widrow, B. et M.E. Hoff. 1960. « Adaptive Switching Circuits ». 1960 IRE WESCON Convention Record New-York, p. 96-104.

Wishart, D.S. 2003. « Sequence Similarity and Database Searching ». Introduction to Bioinformatics : A theoretical and practical approach, Totowa (NJ) : Humana Press.

Wright, G.L.jr et O. J. Semmes. 2003. « Proteomics Health and Disease ». Journal of Biomedecine and Biotechnology, vol. 4, p. 215-216.

Wu, C. G., Whitson, J. McLarty, A. Ermongkonchai et T. Chang. 1992. « Protein Classification Artificial Neural System ». Protein Science, vol. 1, p. 667-677.

216

Wu, C. et J.W. McLarty. 2000. Neural Networks and Genome Informatics Methods in Computational Biology and Biochemistry 1, NewYork (NY) : Elsevier publishing.

Xuan, Z., W.R. McCombie, et M. Q. Zhang. 2002. « GFScan: A Gene Family Search Tool at Genomic DNA Level ». Genome Research, vol. 12, no 7, p. 1142-1149.

Zell, A. 2002. JavaNNS 2002, Stuttgart Neural Networks Simulator (SNNS). Breitwiesenstrasse (Allemagne) : University of Stuttgart.http://www-ra.informatik.uni-tuebingen.de/