Algorithme d'optimisation par colonie de fourmis

Faculté des SciencesDépartement d’Informatique

Algorithme d’optimisation par coloniede fourmis : développement et

application à la prédiction ab initio dela structure native des protéines

Fabian TEHEUX

Mémoire présenté sous la direction du Prof. Marianne ROOMANet du Prof. Esteban ZIMANYI

en vue de l’obtention du grade de Licencié en InformatiqueAnnée académique 2005–2006

Table des matières

Préface 7

1 Introduction 91.1 Les protéines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.1.1 Structure primaire . . . . . . . . . . . . . . . . . . . . . . . 101.1.2 Structure secondaire . . . . . . . . . . . . . . . . . . . . . . 111.1.3 Structure tertiaire . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2 Le repliement des protéines . . . . . . . . . . . . . . . . . . . . . . 131.3 La prédiction de la structure native des protéines . . . . . . . . . . 17

1.3.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3.2 Aperçu général des méthodes de prédiction . . . . . . . . 181.3.3 Les impératifs de la prédiction de structures natives . . . . 19

2 Présentation des outils et méthodes existants 202.1 Les modèles utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1.1 Modélisation de la protéine . . . . . . . . . . . . . . . . . . 202.1.2 Discrétisation de l’espace conformationnel . . . . . . . . . 23

2.2 L’exploration de l’espace conformationnel . . . . . . . . . . . . . . 252.2.1 Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2.2 Le Recuit Simulé . . . . . . . . . . . . . . . . . . . . . . . . 262.2.3 Recherche Tabou . . . . . . . . . . . . . . . . . . . . . . . . 272.2.4 Algorithmes évolutionnaires . . . . . . . . . . . . . . . . . 282.2.5 Colonies de fourmis . . . . . . . . . . . . . . . . . . . . . . 322.2.6 Méthodes hybrides . . . . . . . . . . . . . . . . . . . . . . . 39

2.3 Les fonctions énergétiques . . . . . . . . . . . . . . . . . . . . . . . 392.4 L’évaluation des résultats d’une prédiction . . . . . . . . . . . . . 402.5 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2

TABLE DES MATIÈRES 3

3 Nos outils et méthodes 423.1 Modélisation de nos protéines . . . . . . . . . . . . . . . . . . . . . 433.2 Discrétisation de notre espace de recherche . . . . . . . . . . . . . 453.3 Exploration de l’espace conformationnel . . . . . . . . . . . . . . . 463.4 Fonction énergétique utilisée . . . . . . . . . . . . . . . . . . . . . 48

3.4.1 Les potentiels de torsion . . . . . . . . . . . . . . . . . . . . 483.4.2 Les potentiels de distance . . . . . . . . . . . . . . . . . . . 493.4.3 Utilisation combinée des potentiels . . . . . . . . . . . . . 50

3.5 Evaluation de nos solutions . . . . . . . . . . . . . . . . . . . . . . 513.6 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4 Notre algorithme : AC-ProPre 524.1 L’espace conformationnel . . . . . . . . . . . . . . . . . . . . . . . 524.2 Les potentiels énergétiques . . . . . . . . . . . . . . . . . . . . . . 534.3 La structure et les calculs effectués sur les protéines . . . . . . . . 54

4.3.1 La structure protéique tridimensionnelle . . . . . . . . . . 554.3.2 Les méthodes de calcul . . . . . . . . . . . . . . . . . . . . 56

4.4 La colonie de fourmis . . . . . . . . . . . . . . . . . . . . . . . . . . 594.5 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5 Tests et résultats 625.1 Les configurations d’exécution de notre algorithme . . . . . . . . 625.2 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.2.1 Evaluation énergétique de notre algorithme . . . . . . . . 635.2.2 Calcul du RMSD . . . . . . . . . . . . . . . . . . . . . . . . 645.2.3 RMSD Vs énergie libre . . . . . . . . . . . . . . . . . . . . . 69

5.3 Notre meilleure prédiction : une RMSD de 3,5222Å . . . . . . . . 72

Conclusion 76

Bibliographie 78

Table des figures

1.1 Représentation atomique d’un acide aminé. . . . . . . . . . . . . . 101.2 Représentation simplifiée d’un acide aminé. . . . . . . . . . . . . . 111.3 Illustration des angles de torsion φ et ψ dûs aux liaisons chimiques. 121.4 Exemples de structures secondaires : (a)hélice-α, (b)feuillet-β. . . 121.5 Exemples de structure tertiaire : l’ubiquitine. . . . . . . . . . . . . 131.6 Représentation tridimensionnelle du paysage énergétique d’une

protéine : (a) un paysage énergétique idéal, (b) un paysage éner-gétique réel, (c) deux chemins de repliement différents, (d) leparadoxe de Levinthal. [source : Gilquin Bernard : Explorationdes méchanismes de repliement des protéines par dynamiquemoléculaire] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1 Résultats d’une prédiction bidimensionelle basée sur le modèleHP pour une protéine de séquence ’HHHPPHPHPHPPHPHPHP-PH’ (le début de la séquence est symbolisée par ’1’ et les résidus’H’ sont en noir). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2 Illustration de l’angleω. La molécule entourée est un résidu quel-conque venu s’attacher au résidu que nous étudions. . . . . . . . 22

2.3 Exemple de modification conformationnelle locale : (a) l’état avantla modification conformationnelle, (b) l’état après la modificationconformationnelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.4 Fonctionnement d’un algorithme évolutionnaire ordinaire. . . . . 302.5 Evolution du comportement des fourmis en fonction d’une mo-

dification de l’environnement : (a) situation initiale, (b) un ostacles’interpose et les fourmis choisissent d’aller d’un côté ou de l’autreavec la même probabilité, (c) l’axe BCD étant plus court, les four-mis arrivent plus vite de l’autre côté de l’obstacle, (d) le nombrecroissant de phéromones fait émerger le chemin BCD. . . . . . . . 33

4

TABLE DES FIGURES 5

3.1 Représentation simplifiée d’un acide aminé, attention le cas parti-culier de la Glycine verra ses atomes Cβ et Cµ se trouver au mêmeendroit que l’atome Cα. . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.2 Exemple d’angle de valence : en pointillé, l’angle de valence as-socié à l’atome O. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.1 AC-ProPre : déroulement schématique. . . . . . . . . . . . . . . . 61

5.1 Graphiques de l’énergie moyenne des prédictions effectuées avecune configuration de (α = 1, β = 1, ρ = 0.8, ds0 et ds1 ne sont paspris en compte). Les graphique allignés se passent à un nombred’itérations équivalent et les graphiques en colonne ont le mêmefacteur d’élitisme. Les quatres courbes représentent chacune unnombre de fourmis d’élite différent. . . . . . . . . . . . . . . . . . 65

5.2 Graphiques de l’énergie moyenne des prédictions effectuées avecune configuration de (α = 1, β = 1, ρ = 0.6, ds0 et ds1 ne sont paspris en compte). Dans ce cas-ci, les diverses courbe montrent uncomportement tout à fait disparate. . . . . . . . . . . . . . . . . . . 66

5.3 Graphiques de l’énergie moyenne des prédictions effectuées avecune configuration de (α = 1, β = 2, ρ = 0.8, ds0 et ds1 sontpris en compte). Les graphique allignés se passent à un nombred’itérations équivalent et les graphiques en colonne ont le mêmefacteur d’élitisme. Les quatres courbes représentent chacune unnombre de fourmis d’élite différent. . . . . . . . . . . . . . . . . . 67

5.4 Graphiques de l’énergie moyenne des prédictions effectuées avecune configuration de (α = 1, β = 1, ρ = 0.6, ds0 et ds1 sontpris en compte). Dans ce cas-ci, les diverses courbe montrent uncomportement tout à fait disparate. . . . . . . . . . . . . . . . . . . 68

5.5 Graphiques du RMSD moyen des prédictions effectuées avec uneconfiguration de (α = 1, β = 5, ρ = 0.8, ds0 et ds1 sont pris encompte). L’allure de ces courbes n’évoque rien de particulier. . . . 70

5.6 Graphiques de comparaison entre le RMSD et l’énergie libre d’uneconformation prédite : (a) prise en compte de toute les prédictionseffectuées sans considération des potentiels de distance, (b) limi-tation aux prédictions présentant un RMSD inférieur à 7Å. . . . . 71

5.7 Représentation de la structure tertiaire de la prédiction effectuéepar AC-ProPre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.8 Représentation de la structure tertiaire de l’ubiquitine (résidu 1-35). 74

TABLE DES FIGURES 6

5.9 Supperposition de la conformation simulée par AC-ProPre avecla conformation native connue. . . . . . . . . . . . . . . . . . . . . 75

Préface

Depuis ses origines, l’informatique a apporté des solutions dans des do-maines aussi variés que complexes. Aujourd’hui, la science y fait une fois deplus appel afin de prédire la structure tridimentionelle des protéines.

Dans la vie de tous les jours, les protéines jouent des rôles importants surnotre Terre. Il est donc très intéressant de comprendre comment elles fonc-tionnent. Malheureusement, il nous faut pour ce faire déterminer la structuretridimentionnelle qu’une protéine adoptera afin de jouer son rôle biologique.Cela n’est évidemment pas aisé !

Les scientifiques se sont donc rués sur des méthodes expérimentales ayantfait leurs preuves, mais ces méthodes sont d’une lenteur que le plus patientdes curieux ne saurait supporter. Ainsi, de nombreux chercheurs utilisent au-jourd’hui les moyens informatiques afin de prédire ce que l’expérience pourradémontrer.

Lorsqu’un jour des méthodes de prédictions seront parfaitement au point, ilsera alors possible de créer les médicaments les plus adaptés aux défaillancesdiverses de l’organisme, d’utiliser au mieux les diverses caractéristiques de cesprotéines afin d’embellir notre environnement, etc. Un jour peut-être sera-t-ilmême possible de créer une protéine en fonction de besoins du moment !

Nous voicis donc devant une frontière scientifique que l’exploration ne feraque repousser... En ce qui nous concerne, nous ferons un premier pas dansl’implémentation d’une méthode de prédiction (basée sur la métaheuristiqued’optimisation par colonie de fourmis) appliquée à un espace discret mais prochede celui dans lequel évoluent les protéines réelles. En effet, la littérature actuellepropose quelques articles implémentant ce type de méthode mais elle n’a encorejamais été utilisée avec des modèles de représentations proche de la réalité.

Nous découvrirons donc pas à pas toutes les informations nécessaires àla bonne compréhension du fonctionement de cette méthode pour ensuite endécouvrir les particularités.

7

« Z , , . »

(« U , ̀ ́ ́ ’. »)

Gerhard MULDER

Chapitre 1

Introduction

1.1 Les protéines

Nous sommes en 1835. Un chimiste hollandais, Gerhard Mulder, effectue uneanalyse chimique sur le blanc d’œuf et déclare que c’est une substance constituéed’une base de carbone (symbole chimique C), hydrogène (H), oxygène (O) etazote (N), auxquels s’ajoutent un peu de phosphore et de souffre. Il montreégalement que des substances d’une composition identique sont présentes dansdes tissus animaux et végétaux. Les protéines venaient d’être découvertes.

Le mot protéine vient du grec prôtos qui signifie premier, essentiel. En effet,les protéines interviennent dans la grande majorité des processus qui régissentle fonctionnement de tout être vivant [1]. Leurs rôles sont aussi variés quecomplexes :

– l’insuline, par exemple, joue un rôle hormonal et transmet des messagesau travers de l’organisme ;

– l’hémoglobine, protéine cinématographiquement célèbre, s’occupe du trans-port du dioxygène dans notre corps ;

– d’autre protéines de transport existent et agissent dans des processus telsque la photosynthèse ;

– certaines protéines jouent un rôle majeur dans la conversion d’énergiechimique en énergie mécanique, dans les muscles par exemple ;

– les anticorps dont nous avons tous entendu parlé et qui jouent un rôleprédominant dans le système immunitaire sont encore des protéines. Ilssavent faire la différence entre les corps connus et les corps intrus tels queles virus et autres bactéries.

9

CHAPITRE 1. INTRODUCTION 10

Une autre éthymologie, moins probable mais quelque peu plus séduisante,voudrait que le mot protéine fasse référence au dieu grec Protée, dieu qui possé-dait un pouvoir de polymorphisme infini sur son corps. Un fois de plus, forceest de constater que s’il existe des corps naturels présentant une multitude deformes différentes, ce sont bien les protéines !

1.1.1 Structure primaire

Toutes les protéines ont un point commun : ce sont des polymères linéairesconstruits à partir de différentes combinaisons des 20 acides aminés de base.

On peut représenter un acide aminé comme à la figure 1.1. L’atome cen-tral est appelé carbone α (Cα). Trois structures chimiques s’y connectent : legroupement amine (−NH2), le groupement carboxyle (−COOH) et une chaînelatérale (habituellement symbolisée par R). Chaque acide aminé diffère par cettechaîne latérale. De plus, cette dernière confère à l’acide aminé ses propriétésparticulières.

F. 1.1 – Représentation atomique d’un acide aminé.

Dans la suite de ce mémoire, nous simplifierons les acides aminés par lareprésentation suivante (cfr. figue 1.2) où N, Cα, C et O sont les atomes réels dela chaîne principle de l’acide aminé, Cβ est le premier atome de la chaîne latéraleet Cµ est un atome fictif utilisé pour simuler la chaine latérale.

Le Cµ correspond à la moyenne géométrique de tous les atomes de lachaîne latérale de l’acide aminé (à l’exception des atomes d’hydrogène H). Cettemoyenne est calculée à partir d’une base de donnée des structures protéiquesconnues dont on a extrait les informations de l’acide aminé concerné [2].

Cette représentation simplifiée a (évidemment) une exception : l’acide aminénommé glycine. En effet, cet acide aminé ne possède qu’un simple atome d’hy-


F. 1.2 – Représentation simplifiée d’un acide aminé.

drogène en guise de chaîne latérale. Il est donc commun d’établir une corres-pondance des atomes Cβ et Cµ avec l’atome Cα.

Lors de la formation d’une protéine, la liaison entre deux acides aminés sefait au moyen d’une réaction de condensation. Ainsi, il est commun de parler derésidus au lieu d’acides aminés. Le nombre de résidus constituant une protéinevarie d’une cinquantaine à plusieurs milliers.

On appelle séquence d’une protéine la suite des résidus qui la compose. C’estcette séquence qui constitue la structure primaire de la protéine. Il est remar-quable de constater que la séquence contient toutes les informations nécessairesà l’adoption d’une structure spécifique et à l’éxcution de la fonction biologiquede la protéine.

1.1.2 Structure secondaire

Les atomes sont liés entre eux par un lien chimique et le lien qui lie l’atomeC d’un résidu à l’atome N d’un autre résidu est appelé lien peptidique. De parleurs natures, ces liaisons offrent une certaine liberté de rotation aux atomes liés.Toutefois, le lien peptidique entre deux résidus est particulier : il a un caractèrepartiel de double liaison qui a pour conséquence de contraindre dans un mêmeplan les atomes Cα de deux résidus voisins et les atomes intermédiaires C, O, N.

Cela dit, comme nous le montre la figure 1.3, il existe toujours des libertés derotation autour des liens N − Cα (appelé angle de torsion φ) et Cα − C (angle ψ).De plus, dans le cas d’une représentation de résidus plus détaillée, les chaineslatérales jouissent également d’une certaine liberté de rotation. Il en résulte que lenombre de conformations potentiellement accessibles pour une protéine d’une


certaine longueur est astronomiquement grand. Et pourtant, certains motifsstructuraux réguliers sont observés de manière récurente dans les protéines.

Ce sont ces arrangements que l’on appelle structure secondaire. Parmi eux,deux catgories se distinguent : les hélices-α (figure 1.4(a)) et les feuillets-β (figure1.4(b)). Le squelette (backbone) de ces structures est composé de la suite desatomes Cα de chaque acide aminé constituant la protéine.

F. 1.3 – Illustration des angles de torsion φ et ψ dûs aux liaisons chimiques.

F. 1.4 – Exemples de structures secondaires : (a)hélice-α, (b)feuillet-β.

1.1.3 Structure tertiaire

Chaque protéine a la particularité de posséder des caractéristiques physiqueset chimiques qui lui sont propres. Toutefois, ces caractéristiques sont spécifiquesà la conformation spatiale adoptée par la protéine. La majorité des protéines sereplient donc pour adopter une conformation tridimensionnelle unique appelée


structure tertiaire dont la particularité est d’utiliser des interactions entre résidusproches dans l’espace mais distants dans la séquence. Cette structure tertiaire,également appellée état natif, est stable grâce aux nombreuses interactions favo-rables qui s’établissent en son sein. Notons que l’on appelle interacions nativesune interaction présente dans la structure native. La figure 1.5 nous montre enexemple la structure tertiaire de l’ubiquitine. Les diverses structures secondairessont reliées par ce que l’on appelle des coudes.

F. 1.5 – Exemples de structure tertiaire : l’ubiquitine.

C’est grâce à l’adoption de cette structure tridimensionnelle particulièreque les protéines peuvent réaliser leur fonction biologique. L’hémoglobine, parexemple, transporte le dioxygène dans une cavité enfouie au sein de sa structuretertiaire.

1.2 Le repliement des protéines

Une protéine peut adopter différentes conformations, celles de l’état dénaturéétant généralement les moins stables. A l’image d’un ressort trop tendu, uneprotéine en état instable cherche à atteindre son état le plus stable caractérisépar une énergie libre minimale. Une hypothèse largement admise est que lastructure native d’une protéine correspond généralement à sa conformationd’énergie libre minimale.

Le repliement d’une protéine est un processus extrêmement spécifique etparticulièrement efficace. En effet, la rapidité avec laquelle une protéine trouve saconformation de plus basse énergie est remarquable. Par exemple, une protéine


de 100 résidus peut adopter 2100 (≈ 1030) structures tridimensionnelles différentesen supposant que seulement 2 conformations soient accessibles à chaque résidu,ce qui est loin de la réalité. En admettant que le passage d’une conformationà une autre se fait en 10−13 secondes (ce qui correspond au temps necessairepour une rotation autour d’une liaison peptidique), il faudrait 1017 secondes soitenviron trois milliard d’années, pour tester toutes les conformations possibles.Très clairement, la totalité des conformations accessibles à une véritable protéine,sans aucune simplification, dépasse de loin le degré d’abstraction humain.

Pourtant, les protéines arrivent à retrouver leur structure native en un tempsallant de quelques millisecondes à quelques secondes ! Levinthal en 1969 [3], futle premier à relever cette incompatibilité que l’on nomme aujourd’hui paradoxede Levinthal. Il ajoutait que, de toute évidence, les protéines n’explorent pas latotalité de leur espace conformationnel. Actuellement, seuls des modèles théo-riques viennent expliquer la rapidité de ce processus. En effet, les mécanismesqui permettent à une séquence d’acides aminés de se replier en une structuretridiensionelle unique sont actuellement mal connus.

Le modèle de diffusion-collision propose un mécanisme de repliement hié-rarchique qui permet de réduire drastiquement l’espace conformationnel. Lathéorie soutient qu’il y aurait, dans un premier temps, un repliement des sous-domaines de la protéines, ces sous-domaines étant d’une taille très limitée. Parla suite, des interaction entre sous-domaines se créeraient, formant ainsi desdomaines plus important. Cela durerait jusqu’à la formation complète de lastructure native de la protéine.

Le modèle de l’effondrement hydrophobe quant à lui s’appuie sur la tendancedes résidus hydrophobes à se regrouper dans les premiers instants du proces-sus afin d’éviter tout contact avec l’eau. Ce regroupement aurait lieu avant laformation de structures secondaires et aurait une influence prépondérante pourla suite du repliement. En effet, le noyau hydrophobe temporairement forméréduirait considérablement l’espace conformationnel accessible à la protéine.

Enfin, le modèle de nucléation-condensation met en avant l’importance desinteractions tertiaires (c’est-à-dire entre résidus distants dans la séquence). Afinque ces interactions aient lieu, la formation d’un noyau de repliement est re-quise. Les fragments de protéine non repliés entrant en contact avec le noyauadopteraient ensuite leur structure native.

D’autre modèles théoriques existent et le lecteur intéressé trouvera une brèveprésentation de la majorité d’entre-eux dans [4].

Durant les années 90, un nouveau modèle de repliement protéique a été


développé [5] et fut revisité en 1998 [6]. Sa caractéristique principale est dereprésenter le paysage énergétique d’une protéine. Il s’agit en fait d’une représen-tation multi-dimensionnelle de l’énergie libre d’une conformation de la protéineen fonction de sa similarité avec la structure native.

Une interprétation tridimensionnelle du paysage énergétique produit unentonnoir communément appelé entonnoir de repliement. L’axe vertical de cetentonnoir représente l’énergie libre d’une conformation et les axes horizontauxreprésentent les conformations de la protéine accessibles à un certain niveaud’énergie. A la base de cet entonnoir, on trouve la structure native qui est doncd’une énergie libre minimale. Plus on monte dans l’entonnoir, plus le nombre deconformations possibles à un même niveau d’énergie augmente. Le repliementserait donc un processus progressif de modifications conformationnelles entraî-nant la création d’interactions natives favorables et débouchant sur la structurenative (cfr. figure 1.6).

Dans une situation idéale, l’entonnoir serait parfait et chaque modificationconformationnelle en direction de l’état natif stabiliserait la protéine (figure1.6(a)). Malheureusement, l’expérience montre que des modifications confor-mationnelles nécessaires à la création d’interactions natives peuvent être défa-vorables d’un point de vue énergétique ! Cela introduit des variations dans lepaysage énergétique et laisse apparaitre un concept bien connu dans le domainede l’informatique : le problème des minima locaux (figure 1.6(b)). Un paysageénergétique peut donc s’avérer plus ou moins complexe, ce qui induit qu’il existedifférents chemins de repliement entre une conformation d’état dénaturé et uneconformation d’état stable (figure 1.6(c)).

Il est intéressant de comparer le paradoxe de Levinthal à un paysage éner-gétique plat [7]. L’idée à l’époque était qu’il existait une conformation nativeunique et que toute autre conformation était inintéressante. On se rend alorscompte que le problème d’origine est mal posé : en effet, il est mathématique-ment improbable de tomber dans le trou de l’entonnoir à partir d’un paysageplat en un temps raisonnable (figure 1.6(d)).

Ce modèle de paysage énergétique ne remet pas en question tous les modèlesprécédents, au contraire. Il permet d’expliquer plusieurs phénomènes observéstels que l’existence de chemins de repliement préférés. Cela appuierait certainesthéories comme par exemple celles de la création d’un noyau hydrophobe oud’intermédiaires de repliement. Concrètement, le paysage énergétique procureun cadre général dans lequel les cas particuliers peuvent être interprétés.


F. 1.6 – Représentation tridimensionnelle du paysage énergétique d’une pro-téine : (a) un paysage énergétique idéal, (b) un paysage énergétique réel, (c)deux chemins de repliement différents, (d) le paradoxe de Levinthal. [source :Gilquin Bernard : Exploration des méchanismes de repliement des protéines pardynamique moléculaire]


1.3 La prédiction de la structure native des protéines

1.3.1 Objectif

La structure native d’une protéine est une richesse en soi. Elle est l’incon-nue nécessaire à la résolution d’une foule de questions, dont la principale est :« Comment ça marche ? ». En effet, pour comprendre le fonctionnement d’uneprotéine il faut impérativement en connaître la structure native. Par exemple,les sites actifs des protéines ne sont généralement fonctionnels qu’une fois laprotéine complètement repliée.

Outre cet aspect primordial, de multiples possibilités s’offrent à nous :– l’étude des interactions possibles entre une protéine et diverses molécules

permet par exemple la création de médicaments qui agiront précisémentlà où c’est nécessaire ;

– certaines protéines subissent des mutations pour diverses raisons et lacompréhension fine de l’effet de ces mutations passe par la connaissancede la structure native ;

– la conception de protéines dont la séquence est modifiée permettrait d’ob-tenir de nouvelles propriétés comme par exemple une augmentation de lastabilité de la protéine ou encore l’amélioration de réactions enzymatiquesdans le milieu industriel ;

– la compréhension des mécanismes de stabilisation de l’état d’une protéinepourrait conduire, dans un futur plus ou moins proche, à la création denouvelle protéines avec un rôle bien précis et défini à l’avance. Le besoinsera alors à l’origine de la protéine...

Il existe une base de données accessible à tous, la Protein Data Bank (PDB)[8], qui répertorie toutes les connaissances actuelles concernant les structuresdes protéines. On y retrouve de nombreuses structures natives établies expéri-mentalement par cristallographie aux rayons X ou par résonance magnétiquenucléaire. Pour plus d’information dans ce domaine, le lecteur intéressé se diri-gera vers [9, 10].

Malheureusement, ces méthodes, en plus d’être lentes, sont plutôt coûteuses.De plus, le nombre de séquences protéiques connues est bien plus grand que lenombre de structures natives établies et l’écart entre les deux ne cesse d’augmen-ter. Ces divers arguments ont poussé les chercheurs à se tourner vers d’autresméthodes.

L’expérience ayant montré que la plupart des protéines adoptent des confor-


mations spécifiques, l’étude in silico des protéines va bon train. De nombreuxprojets tels que l’étude théorique du repliement des protéines ou la simula-tion des interactions protéine-protéine ont vu le jour. Parmi eux, on retrouve laprédiction de la structure native des protéines.

1.3.2 Aperçu général des méthodes de prédiction

Avant de découvrir ce qu’est la prédiction, une question se pose : pourquoine pas simuler intégralement un repliement protéique ? Après tout, les connais-sances actuelles permettent d’envisager une simulation complète, picomètrespar picomètres, des mouvements atomiques d’une protéine...

Actuellement, ce genre de technique existe mais il est calculatoirement im-possible d’effectuer une simulation longue de plus de quelques nanosecondes(au mieux une microseconde). Or, nous le découvrions tout à l’heure, un replie-ment protéique nécessite quelques millisecondes (au pire secondes). L’échelle detemps n’est donc tout simplement pas accessible et par ailleurs, l’informatique ace défaut de toujours procéder par approximation de valeurs, ce qui peut entrai-ner sur le long terme une dégradation fortement prononcée des résultats. Il enva d’ailleurs de même pour les évaluations énergétiques qui sont certainementimparfaites [11].

L’intérêt de la prédiction est donc évident : gagner du temps ! Deux grandescatégories de prédictions existent : celle basée sur les connaissances actuelles etl’autre, plus pure, se basant uniquement sur la structure primaire de la protéine,c’est-à-dire sa séquence.

La première catégorie repose sur l’utilisation de bases de données de struc-tures protéiques. Il faudra donc qu’il existe un certain degré de similitude deséquence ou de structure entre la protéine étudiée et une ou plusieurs protéinesde la base de donnée. La modélisation par homologie, par exemple, compare lesséquences de la PDB avec la séquence protéique cible [12]. Si un degré d’homo-logie suffisant est dégagé, alors on produit une structure dérivée des structureshomologues de la PDB. Ce procédé donne de bons résultats car les protéines deséquence similaire ont généralement des structures très semblables.

Un autre exemple est la reconnaissance structurale [13, 14]. On l’utilise géné-ralement quand la modélisation par homologie a échoué. En effet, un tel échecest clairement dû à un manque de similitude entre la protéine cible et les pro-téines de la PDB. Cette méthode propose donc d’utiliser un squelette issu desconformations structurales connues afin d’y enfiler la séquence d’acides aminés


de la protéine cible. A nouveau, il existe des bases de données structurales. Parexemple, la Fold Classification based on Structure-Structure alignement of Proteins(FSSP) [15] regroupe les structures représentatives de la PDB. L’intérêt d’unetelle banque provient du fait que la PDB contient des structures redondantes.Dans le cadre de la reconnaissance structurale, l’utilisation de structures repré-sentatives est un atout significatif.

L’autre catégorie de prédiction se fait ab initio, c’est-à-dire sur base de laseule séquence de la protéine. Cette catégorie est beaucoup plus générale maisest bien évidemment plus ardue à mettre en œuvre. L’hypothèse de base estcelle selon laquelle la structure native correspond au minimum global d’énergielibre. Le but d’une prédiction ab initio est donc évident : trouver une structuretridimensionnelle d’énergie libre minimale.

1.3.3 Les impératifs de la prédiction de structures natives

Afin de réaliser au mieux une prédiction, certains outils sont nécessaires :

1. une modélisation de la protéine étudiée ;

2. une méthode de discrétisation de l’espace dans lequel elle évolue ;

3. une méthode de recherche qui permet l’exporation de l’espace conforma-tionnel ;

4. une fonction énergétique permettant l’évaluation d’une structure par rap-port à sa séquence ;

5. dans certains cas, il sera intéressant de posséder d’un moyen d’évaluationdes prédictions obtenues.

Le chapitre suivant propose donc un tour d’horizon de ces divers impératifs.Nous y découvrirons plusieurs outils et méthodes permettant de procéder à uneprédiction digne de ce nom.

Chapitre 2

Présentation des outils et méthodesexistants

Ce chapitre propose au lecteur un aperçu des quelques techniques utiliséesdans le domaine de la prédiction de structures natives. Il permettra en outre demieux se rendre compte des divers problèmes rencontrés dans ce domaine et dedécouvrir les solutions qui y sont apportées.

2.1 Les modèles utilisés

Une difficulté récurrente en informatique est celle de la modélisation desproblèmes étudiés. Dans ce cas-ci comme dans beaucoup d’autres, il faut trouverun juste compromis entre simplification du problème et qualité des résultats.Dans le cadre des prédictions de la structure native des protéines, il y a deuxentités à modéliser : la protéine elle même et l’espace de recherche.

2.1.1 Modélisation de la protéine

La modélisation d’une protéine peut se faire par une représentation com-plète au niveau atomique des acides aminés la composant. Evidemment, untel modèle entraînerait un coût de calcul non négligeable. D’un autre côté, unereprésentation trop simpliste de la protéine entraînera une dégradation de laqualité des résultats. Il faut donc trouver un compromis dont on pourra tirer lemeilleur parti dans les deux cas.

20

CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 21

Le modèle HP

Le modèle HP [16] est simple : il propose de réduire les vingt acides aminésà seulement deux groupes : les acides aminés hydrophiles (nommé P) et lesacides aminés hydrophobes (nommé H). Dès lors, une protéine, plutôt qued’être représentée par une séquence composée de 20 acides aminés différents,sera simplement représentée par une suite d’acides aminé H ou P, ce qui simplifievraiment les choses ! De plus, un résidu est réduit à un seul point dans l’espace,on ne tient donc absolument pas compte du détail atomique.

Ce modèle étant basé sur la théorie de la création d’un noyau hydrophobe,il faudra, pour satisfaire aux conditions de repliement des protéines, minimiserl’interaction des résidus H avec l’environnement extérieur (généralement l’eau).Le résultat d’une prédiction effectuée à partir d’un modèle de ce genre se trouveen figure 2.1.

F. 2.1 – Résultats d’une prédiction bidimensionelle basée sur le modèle HPpour une protéine de séquence ’HHHPPHPHPHPPHPHPHPPH’ (le début dela séquence est symbolisée par ’1’ et les résidus ’H’ sont en noir).

Malheureusement, une représentation aussi simpliste fourni peu de résul-tats intéressants dans le cadre de la prédiction de structure native de pro-téine. En effet, réduire les propriétés des acides àminés à un simple caractèred’hydrophobie-hydrophilie est assez limitatif. Par contre, au niveau des étudesthéoriques, elle permet de mieux comprendre certaines étapes du repliementdes protéines.

Le modèle (φ, ψ, ω)

Comme nous l’avons vu dans l’introduction, les résidus peuvent adopterdiverses conformations en fonction des angles de torsion adoptés autour deleurs liaisons chimiques. Bien que l’angle ω puisse sembler nouveau au lecteur,


il s’agit en fait du nom donné à celui de la liaison inter-résidu C−N. Pour rappel,ce lien à un caractère partiel de double liaison, ce qui limite à deux les valeursprises par l’angle ω : 0◦ et 180◦.

F. 2.2 – Illustration de l’angleω. La molécule entourée est un résidu quelconquevenu s’attacher au résidu que nous étudions.

Ainsi, la conformation d’un résidu est donnée par un triplet (φ, ψ, ω) etle squelette d’une protéine peut être modélisé par une suite de triplets, detaille équivalente au nombre de résidus de la protéine. Finalement, la structuretridimensionnelle d’une protéine sera calculée à partir des conformations (φ, ψ,ω) successives adoptées pas les résidus la composant.

Les modèles intermédiaires

On entends par modèle intermédiaire un modèle offrant une description dela protéine plus détaillée que dans le modèle HP, mais moins détaillée qu’unmodèle complet. Ainsi, il arrive de regrouper les acides aminés en plusieursclasses afin de permettre un niveau de détail plus élevé. Une fois cette classifi-cation effectuée, on peut encore se contenter de représenter le résidu par un seulpoint dans l’espace ou bien par quelques atomes.

A ce sujet, il est important de se souvenir d’une simplification que nousavons effectuée lors de l’introduction : le remplacement de la chaîne latérale par


un atome fictif, le Cµ. Dans le cas ou la chaîne latérale serait prise en comptedans le modèle, une représentation encore plus fine de la protéine aurait lieu.En effet, cette chaîne latérale possède également des libertés de rotation autourde certaines liaisons chimiques et il serait tout à fait envisageable de les prendreen compte.

2.1.2 Discrétisation de l’espace conformationnel

Nous l’avons déjà dit, l’espace conformationnel est immensément grand.Diverses techniques de discrétisation existent donc afin de permettre une dimi-nution substanciellment importante des conformations possibles. Bien entendu,il s’agit à nouveau de trouver un bon compromis entre degré de simplificationet qualité de résultat. Deux grands types de discrétisation existent :

1. le modèle réseau propose une restriction de l’espace conformationnel enmaille fixe ;

2. le modèle hors réseau propose une restriction de l’espace conformationnel enlimitant par exemple les rotations autour des liaisons chimiques à certainesvaleurs angulaire bien définies, ce qui a pour conséquence de créer unmodèle réseau dynamique.

Les modèles réseau

Les premiers modèles réseaux étaient basiques et consistaient en une simplegrille bidimensionnelle fixe. Le lecteur comprendra aisément qu’une telle re-présentation protéique est bien loin de la réalité. Grâce à l’amélioration destechniques de recherche dans l’espace conformationnel, des modèles réseauxplus fins commencèrent à être utilisés. L’utilisation de grille tridimensionnelleà maille étroite offre une nette amélioration de représentation mais le caractèrestatique de ces modèles représente un facteur limitatif important au niveau dela qualité des solutions obtenues.

En effet, dans un modèle réseau, on travaille avec des coordonnées fixesdéfinies par la maille utilisée. Ainsi, dans le cas d’une représentation atomiquede la protéine, les distances inter-atomiques seront fixes et les possibilités derotation angulaire seront également définies (par exemple, dans un modèlebidimensionnel carré où la maille représente la distance inter-atomique, cesrotations seront toujours multiples de 90◦).


Toutefois, certains avantages existent de par la rigidité du modèle. Parexemple, il est tout à fait possible qu’un résidu passe d’une conformation àune autre sans que cela nous oblige à recalculer la position de tous les autresrésidus (cfr. figure 2.3). C’est là l’avantage de travailler avec des coordonnéesexternes au modèle de protéine utilisé.

F. 2.3 – Exemple de modification conformationnelle locale : (a) l’état avant lamodification conformationnelle, (b) l’état après la modification conformation-nelle.

Les modèles hors réseau

Les modèles hors réseau sont généralement basés sur la limitation des confor-mations accessibles pour un résidus, c’est-à-dire sur la limitation des valeursprises par les angles de rotation autour de leurs liaisons chimiques. Par exemple,la liaison N−Cα sera limitée à un ensemble de quelques angles φ accessibles. Parailleurs, la distance des liaisons inter-atomiques peut être définie pour chaquepaire d’atome [17], ce qui accentue encore le réalisme de ce modèle.

La discrétisation du modèle dépendra donc du nombre de valeurs dispo-nibles pour chaque résidu. Ce système simple est facilement transposable dansle cas où la chaine latérale des protéines est prise en compte.

Son avantage est évident : il est basé sur la nature même des protéines etutilise donc un système de coordonnée internes pour la représentation de celles-ci. De plus, il permet de travailler dans un espace conformationnel accessible àla prédiction tout en préservant une certaine qualité de résultat.

Cependant, pour un même niveau de discrétisation, le modèle hors réseaudemande généralement plus de calculs que le modèle réseau. Pour reprendrel’exemple du modèle réseau, si nous modifions la conformation d’un seul résidude la protéine dans le cadre du modèle hors réseau, il nous faudra recalculer


toutes les coordonnées tridimensionnelles de la protéine à partir des triplets (φ,ψ, ω) de chaque résidu. Il s’agit en fait d’effectuer la traduction des coordonnéesinternes en coordonnées réelles.

2.2 L’exploration de l’espace conformationnel

De par son paysage énergétique, une protéine ne peut parfois atteindreson minimum global d’énergie libre qu’en procédant à certaines modificationsconformationnelles défavorables. Autrement dit, il arrive parfois que pour pas-ser d’une état X à un état Y plus stable, la protéine se retrouve dans un étatintermédiaire de stabilité moindre que son état d’origine X.

C’est là le grand problème des minima locaux. Précisément, le problème estde détecter que la protéine se trouve dans une conformation d’énergie libreminimale locale qui n’est pas native. Le problème sous-jacent est évidemmentde trouver un moyen de sortir de ce minimum local, c’est-à-dire d’accepter unemodification conformationnelle défavorable.

Diverses solutions ont été apportées à ce problème, mais aucune d’entre-ellesn’est optimale. On parle donc couramment d’heuristiques et de métaheuristiques.Une heuristique est une méthode de production de solution adaptée à un pro-blème particulier alors qu’une métaheuristique constiste en une stratégie dechoix pouvant piloter une heuristique.

En résumé, un bon compromis entre l’exploration de l’espace conformation-nel et l’intensification de la recherce d’une solution minimale doit être trouvé.Si la priorité est donnée à l’exploration, il est fort probable qu’on ne convergejamais vers une solution minimale (même locale) alors que si l’on privilégie l’in-tensification d’une solution, on aura de grandes chances de rester bloqué dansun minimum local.

2.2.1 Monte Carlo

Monte Carlo est une méthode de prédiction probabiliste basée sur la modi-fication aléatoire de la conformation de certains résidus de la protéine étudiée[18]. A chaque itération de la méthode, une nouvelle structure protéique peutdonc être évaluée par la fonction énergétique. La suite de l’algorithme dépendrade l’énergie calculée. Dans les première versions de Monte Carlo, le choix étaitsimple :


– si l’énergie calculée est inférieure à l’énergie de la conformation précédente,alors c’est que la nouvelle conformation offre à la protéine un état plusstable. On conservera donc cette conformation qui servira de base à laprochaine itération ;

– dans l’autre cas, on procède simplement au rejet de la nouvelle conforma-tion.

Ce genre de rejet automatique entraîne fatalement la découverte de solutionslocale, ce qui n’est pas vraiment l’objectif recherché. Ainsi, certains critères d’ac-ceptation ont été développés. Le concept est commun : permettre l’acceptationde modifications conformationnelles défavorables afin de diminuer les chancesde tomber dans un minimum local.

Un critère régulièrement utilisé est celui dit de Metropolis [19] où ∆E re-présente la différence d’énergie entre la conformation évaluée et la dernièreconformation acceptée :

ε ≤ e−(∆E)(kT)

Le facteur kT représente la multiplication entre la constante de Boltzman etla température à laquelle s’effectue la prédiction et ε est un nombre aléatoirecompris entre 0 et 1 [19].

Ainsi, si le critère de Métropolis est vérifié, alors une modification conforma-tionnelle défavorable sera acceptée et servira de base à la prochaine itération.On constate donc qu’une première approche d’exploration de l’espace confor-mationnel passe simplement par la considération d’un critère d’acceptation sto-chastique.

En effet, plus la modification conformationnelle est défavorable, plus ∆E estgrand, ce qui implique que l’exponentielle est plus petite que 1 et donc que leschances d’acceptations sont réduites. Par contre, dans le cas d’une modificationconformationnelle favorable,∆E sera négatif et l’exponentielle sera toujours plusgrande que 1. La conformation sera donc toujours acceptée.

2.2.2 Le Recuit Simulé

La méthode de Monte Carlo incluant un critère de Métropolis est attrayantemais peut encore être améliorée. En effet, il y a un paramètre intéressant surlequel nous pouvons jouer : la température. C’est donc en 1983 qu’apparaîtle Recuit Simulé. Il propose simplement de commencer la prédiction à hautetempérature et de la faire baisser progressivement [20]. Dans la vie courrante,on constate par exemple que la qualité d’un rail de chemin de fer est fortement


dépendante de son refroidissement lors de sa confection. S’il est refroidi tropvite, la structure métallique sera imparfaite et le rail présentera des défauts.Il faut donc prendre le temps, ce qui rend généralement cette méthode moinsrapide que les autres.

L’introduction d’une variation progressive de la température lors d’une pré-diction de structure native introduit donc un facteur dynamique intéressantdans le critère d’acceptation. Celui-ci permettra un degré d’acceptation de mo-dification conformationnelle défavorable plus élevé au début de la prédictionet plus faible à la fin. Il favorise donc une phase d’exploration dans un premiertemps pour permettre ensuite une intensification de la recherche.

Il arrive parfois d’effectuer un Recuit Simulé sur une protéine déjà partielle-ment repliée. Il est donc important de remarquer que le choix de la températureinitiale est un facteur très important : si une température trop élevée est choisie,on pourrait assister à un dépliement de la protéine, ce qui n’est pas du tout lebut recherché !

Enfin, signalons que sous certaines conditions (dont par exemple un schémade décroissance particulier), des preuves de convergence asymptotique existentpour le Recuit Simulé. Ceci constitue un avantage mathématique inexistantdans le cas des méthodes heuristique [21, 22]. Malheureusement, il est trèsdifficile d’appliquer au mieux la théorie sans consacrer beaucoup de temps auparamétrage de l’algorithme.

2.2.3 Recherche Tabou

En 1986, Fred Glover propose une nouvelle méthode concernant le problèmedes minima locaux : l’utilisation d’une liste taboue simulant en fait le principede mémoire [23]. L’application de cette méthode donne une heuristique en cesens qu’elle ne converge pas spécialement vers le minimum global. Elle est parcontre un excellent guide !

L’idée de la recherche Tabou est de permettre la poursuite d’une recherchemême quand un minimum local est trouvé. La mémoire sera utilisée pour éviterles retours en arrière et donc les cycles. Il est important de signaler qu’unemémoire élevée deviendra trop restrictive tout comme une mémoire trop petitesera probablement inutile. L’intérêt typique de cette mémoire est de forcer larecherche à explorer une autre zone que celle dans laquelle se trouve la solutionla plus récente.

Formellement, définissons s comme étant la solution actuelle, sG comme étant


la solution golbale et V(s) comme étant l’espace de solutions voisines à s. Une foisqu’une solution s est trouvée, elle est mise en mémoire (dans la liste Tabou) pourun nombre d’itération i. Il sera dés lors impossible de revenir à cette solution tantque le nombre i d’itération ne sera pas dépassé. Toutefois, une exception existe :lorsqu’un mouvement tabou permet d’améliorer la solution s, il sera autorisé.C’est ce que l’on appelle le critère d’aspiration.

Le grand avantage de la recherche Tabou est que lorsqu’elle devra choisirun voisin dans V(s), elle choisira toujours le meilleur alors que pour le RecuitSimulé, on assistait à une modification aléatoire de la solution. On découvreainsi une autre approche de résolution du problème des minima locaux : plutôtque de les éviter, on les utilise

Enfin, notons qu’il existe diverses variantes de la recherche Tabou utilisantdes modification sur la fonction d’évaluation des voisins. L’idée générale estd’ajouter des pénalités ou des avantages sur base de certains critères remplispar le voisin évalué. Une autre variante de la recherche Tabou alterne volontai-rement les phases d’intensification de la recherche avec les phases d’explorationde l’espace en changeant dynamiquement le nombre de mouvements tabousstockés en mémoire.

2.2.4 Algorithmes évolutionnaires

Les diverses méthodes que nous venons d’explorer ont toutes un point com-mun : leurs itérations reposent sur l’amélioration d’une solution unique. En effet,on travaillera toujours à partir d’une solution initiale en essayant de l’améliorerau maximum en fonction des contraintes du problème étudié. Les méthodes quenous allons explorer à partir de maintenant sont des méthodes à population desolutions.

Le therme algorithme évolutionnaire regroupe en fait une multitude de méta-heuristique différentes. Cependant, toutes ont un point commun : elles utilisentle concept d’algorithme génétique, c’est-à-dire l’application informatique sim-plifiée de la théorie de l’évolution de Darwin. L’actuel succès des algorithmesgénétiques est évidemment dû aux ouvrages de David Goldberg [24] mais leurdate de naissance réelle provient de la publication en 1975 du livre de JohnHolland intitulé Adaptation in Natural and Artificial System.

Les algorithmes évolutionnaires sont de par leur nature de métaheuristiqueextrèmement flexibles. Ils peuvent donc être appliqués à de nombreux pro-blèmes. Toutefois, leur utilisation en tant que « magic box »est à proscrire ! En


effet, certains mécanismes internes nécessitent un coût calculatoire importantet les performances d’une implémentation irréfléchie de ce genre de méthodeseraient plus que médiocres.

De manière générale, il est important de spécialiser l’algorithme en fonctiondu problème étudié. En effet, l’inclusion de connaissance au processus de re-cherche ne fera qu’améliorer la qualité des résultats obtenus. Toutefois une choseest certaine, un algorithme évolutionnaire ne fournira jamais de meilleures per-formances qu’une méthode de recherche exacte (si elle existe).

Avant d’examiner le fonctionnement de ce type de méthode, définissons-enle vocabulaire. L’espace de recherche sera appelé l’environnement et les solutionsseront les individus regroupés en population.

Le but de l’algorithme est d’évaluer la capacité d’une population à s’adapterà son environnement. Pour mesurer la qualité des individus, l’algorithme utiliseune fonction d’évaluation appellée fonction de fitness. Le but devient donc larecherche d’un individu maximisant la fonction de fitness.

Pour représenter un individu, les algorithmes génétiques utilisent des chro-mosomes. On dira que le génotype d’un individu représente son codage quand sonphénotype sera l’expression du code génétique dans l’environnement. Les diffé-rent types d’algorithmes évolutionnaires sont en fait caractérisés par le moyende codage des individus utilisé.

Maintenant que ce vocabulaire est acquis, penchons-nous sur le fonctionne-ment de l’algorithme avant d’approfondir les méthodes d’exploration de l’es-pace et d’intensification des solutions. Comme le montre la figure 2.4, toutcommence au départ d’une population initiale. L’idée des algorithmes évolu-tionnaires est de fonctionner par génération de population. Il faut donc créer denouveaux individus sur base de la population courante.

Pour ce faire, une partie de la population sera sélectionnée pour donnernaissance à de nouveaux individus. Ces individus enfants seront créés par croi-sement et/ou mutation afin former la nouvelle population. Par ailleurs, afin deconserver une certaine mémoire des individus visités, un facteur d’élitisme serautilisé pour inclure certains parents dans la nouvelle génération d’individus. Onrépetera ces opérations jusqu’à ce qu’un critère de terminaison soit atteint.

Bien entendu, s’il existe de multiples algorithmes évolutionnaires, c’est nonseulement parce que le codage des individus diffère de méthode en méthodemais également parce que les opérations de sélection, de croisement et demutations connaissent beaucoup de variantes. Une foule de possibilités existemais nous ne les explorerons pas ici. Le lecteur intéressé en trouvera quelques


F. 2.4 – Fonctionnement d’un algorithme évolutionnaire ordinaire.


exemples particulièrements intéressants dans [25].C’est par contre le moment de pointer du doigt les mécanismes qui nous

intéressent ! En effet, ce sont ces trois opérateurs (sélection, croisement et muta-tion) qui constituent la base du compromis entre exploration et intensificationque le présent ouvrage s’attèle à déterminer ! Par ailleurs, la méthode de repro-duction ainsi que le remplacement de la population sont deux autres facteursintéressants.

On peut dire que l’opérateur de sélection a une influence sur la convergencede l’algorithme. Ainsi, afin de garder un dergé d’exploration suffisant, une cer-taine diversité doit être conservée parmis les individus. Il faudra donc que lapopulation de parents sélectionnés ne soit pas trop restreinte. L’opérateur decroisement quant à lui est le principal outil mettant en œuvre le compromisentre exploration et intensification. Cet opérateur plus que n’importe quel autredoit être spécifique au problère étudié ainsi qu’au codage utilisé dans la repré-sentation des individus. En ce qui concerne l’opérateur de mutation, on peutdire qu’il garanti une certaine exploration aléatoire de l’espace. Il faudra doncveiller à ne pas trop l’utiliser afin de ne pas entrer dans un état de stagnation dûà l’éparpillement constant des individus.

Vient ensuite la méthode de reproduction. On entend par là le nombred’enfants généré par un couple d’individus parents. De multiples possibilitésexistent, qui influe généralement sur la rapidité de concentration de la popula-tion autour des bons individus.

Pour finir, il reste le facteur de remplacement de la population. Si une popu-lation est entièrement renouvelée à chaque itération, les chances de convergencese verront réduites. Il faut adopter un certain niveau d’élitisme qui permet deconserver une mémoire des bons individus rencontrés.

Comme le montrent les trois pararaphes précédents, le nombre de choixparamétriques à faire est assez important. C’est là le grand problème des al-gorithmes évolutionnaires : il faut du temps pour dégager une configurationparamétrique intéressante.

On constate donc que la famille des algorithmes évolutionnaires disposede plusieurs outils intéressants jouant directement sur les individus de la po-pulation. Remarquons que la qualité de la population initiale n’est pas sansimportance ! En effet, elle est un facteur déterminant pour le déroulement et laconvergence de l’algorithme. Il est d’ailleurs fréquent d’utiliser comme popula-tion initiale les résultats de diverses recherches locales effectuée préalablement.Cela donne naissance à des algorithmes hybrides que nous aurons l’occasion de


découvrir plus loin.Pour terminer cette section sur les algorithmes évolutionnaires, notons qu’ils

offrent facilement la possibilité d’effectuer une exécution parallèle sur un clusterde machines ou sur une machine multi-processeur. En effet, dès lors que chaqueindividu doit être évalué individuellement, une évaluation simultanée de plu-sieurs individus est tout à fait envisageable ! Une autre possibilité facilementexploitable serait de conserver la population d’origine et de procéder par sélec-tion inverse : un individu fils viendrait remplacer le plus mauvais individu dela population.

2.2.5 Colonies de fourmis

Les fourmis dans la nature

Tout comme les algorithmes évolutionnaires, la méthode des colonies defourmis est basée sur une observation naturelle : le comportement des fourmisdans leur cohabitation en colonies. En 1983, des chercheurs découvrent que lesfourmis ont la capacité de toujours trouver le chemin le plus court entre leur nidet une source de nourriture (par exemple) [26], ce qui est assez surprenant car lagrande majorité des fourmis est aveugle. Par ailleurs, les fourmis sont égalementaptes à réagir aux modifications de l’environnement. Ainsi, lorsqu’un ancienchemin est obstrué par un obstacle quelconque, les fourmis trouveront un autrechemin, toujours plus court que tous les autres possibles.

Ces particularités surprenantes ont donc fait l’objet de nombreuses rechercheset finalement, un moyen de communication chimique entre les fourmis fut dé-couvert : la phéromone. Concrètement, les fourmis déposent régulièrement unecertaine quantité de phéromone sur le chemin qu’elles parcourent. Lorsqu’ellesarrivent à un point où plusieurs chemins s’offrent à elles, elles font un choixprobabiliste sur base de la quantité de phéromone présente sur chaque che-min. Ainsi, lorsque plusieurs fourmis sillonnent le même espace, on assiste àl’émergence du meilleur chemin entre le nid et la source de nourriture.

Pour mieux comprendre cette particularité, examinons ce qu’il se passe dansle cas d’une modification environnementale. Initialement, les fourmis utilisentun chemin donné (cfr. figure 2.5(a)) entre le nid (A) et la source de nourriture(E). Subitement, une bûche bloque le chemin d’origine. Les foumis sont donccontraintes de trouver un autre chemin.

Dans le sens A vers E, les premières fourmis à devoir faire ce choix auront


la même probabilité de se diriger à gauche ou à droite de l’obstacle car aucuneautre fourmi ne sera passée avant elles. Il n’y a donc aucune trace phéromonale(cfr. figure 2.5(b)). Toutefois, une fourmi ayant choisi d’aller à droite (cheminBCD) arrivera en D bien avant une fourmi ayant choisi la gauche. De plus lasituation est identique en ce qui concerne le sens E vers A (cfr. figure 2.5(c)).

Finalement, la quantité de fourmis utilisant l’axe BCD est plus élevée quepour l’axe BHD ce qui entraîne une quantité de phéromone croissante sur l’axeBCD. Après un certain laps de temps, toutes les fourmis devraient (statistique-ment) utiliser l’axe BCD (cfr. figure 2.5(c)). C’est ce phénomène que l’on appellela stigmergie.

F. 2.5 – Evolution du comportement des fourmis en fonction d’une modifi-cation de l’environnement : (a) situation initiale, (b) un ostacle s’interpose etles fourmis choisissent d’aller d’un côté ou de l’autre avec la même probabilité,(c) l’axe BCD étant plus court, les fourmis arrivent plus vite de l’autre côté del’obstacle, (d) le nombre croissant de phéromones fait émerger le chemin BCD.


La transposition informatique des fourmis

Comme nous venons de le voir, les fourmis possèdent naturellement unoutil leur permettant de communiquer de façon générale afin de faire ressortirun comportement global de la colonie. Les premières publications de cette idéedatent de 1991 [27, 28] et la première application fut faite sur le problème duvoyageur de commerce. Cette transposition était évidente vu que l’objectif dece problème est de trouver un chemin minimal répondant à certains critères. Ilest toutefois possible d’utiliser un système de fourmis pour résoudre d’autresproblèmes.

Les méthodes de recherche par colonie de fourmis on une particularité :la recherche de solutions s’effectue sur base de la totalité de la population etnon plus a partir de quelques meilleurs individus (comme c’est le cas dansles algorithmes évolutionnaires). Cette particularité non négligeable a donnénaissance la création de nombreux types d’algorithme de recherche, nous endécouvrirons ici les grandes lignes.

Le concept général est de simuler le comportement de plusieurs agents col-laborants dans la recherche d’une meilleure solution en utilisant un moyen decommunication simple : la phéromone. Dans le cadre de la métaheuristiqued’optimisation par colonie de fourmi, les agents sont ... des fourmis. Bien en-tendu, il y aura quelques différences entre les fourmis naturelles et celles utiliséedans le domaine informatique que nous nommerons désormais fourmis artifi-cielles. Ainsi, une fourmi artificielle :

1. n’est pas totalement aveugle et peut donc voir un peu plus loin que sonentourage direct ;

2. évolue dans un univers ou le temps est discret ;

3. dispose d’une certaine mémoire lui permettant de retenir la solution qu’ellea construit ;

4. gère la quantité de phéromone déposée en fonction de la qualité de lasolution et peut procéder à différents types de dépôts phéromonaux.

Ces quelques améliorations ne sont pas sans conséquences, nous allons le dé-couvrir ci-dessous..

Pour commencer, découvrons l’impact engendré par l’acuité visuelle de nosfourmis artificielles. Très clairement, cela permet à la fourmi de se guider autre-ment que par son seul environnement direct. Ce guide est en fait une valeur quenous appellerons valeur heuristique, c’est-à-dire une valeur pouvant influencer le


choix fait par notre fourmi. Par exemple, dans le cadre de la recherche d’un pluscourt chemin, lorsqu’une fourmi devra faire un choix sur le chemin à suivre,une valeur heuristique pouvant lui simplifier la tâche serait, par exemple, lalongueur des chemins accessibles.

Cette valeur heuristique est donc une donnée propre au problème qui permetde spécialiser la métaheuristique. Il s’agit là d’un atout important car, nousl’avons déjà vu, utiliser une métaheuristique comme méthode de rechercheuniverselle n’est pas une bonne idée et conduirait certainement à de médiocresrésultats. C’est par l’inclusion de connaissances propres au problème étudié quela méthode de recherche fournira les meilleurs résultats.

Revenons en donc à nos fourmis. Chacune tente de trouver une solutionminimisant la fonction d’évaluation utilisée. Cette solution est donc construitepas-à-pas en fonction de divers paramètres parmis lesquels nous retrouvonsla valeur heuristique. Bien évidemment, les phéromones sont toujours de lapartie. Pratiquement, le choix fait par une fourmi artificielle dépends de cesdeux données.

De manière plus formelle, on dit qu’à chaque point nécessitant un choix, unetable de décision, résultat d’une opération mathématique particulière, produitles règles probabilistes sur lesquelles sont basés les mouvements des fourmis.Afin de découvrir cette opération mathématique, notons par τi j la quantité dephéromone présente sur un chemine reliant i à j et par ηi j la valeur heuristiqueassociée à ce même chemin. En considérant que la fourmi se trouve sur un pointi, la probabilité pi j qu’elle se dirige vers le point j sera donnée par :

pi j =[τi j]α · [ηi j]β

∑

k∈V(i)[τik]α · [ηik]β

où V(i) représente le voisinage de i, c’est-à-dire tous les points accessibles àpartir de i et où α et β sont des paramètres permettant de contrôler l’importancerelative donnée aux phéromones et aux valeurs heuristiques. Pour être complet,rappelons nous que nos fourmis artificielles évoluent dans un univers ou letemps est discret. La formule devient donc :

pi j =[τi j(t)]α · [ηi j(t)]β

∑

k∈V(i)[τik(t)]α · [ηik(t)]β

De ces formules, nous retirons q’une fourmi procède à la construction d’unesolution étape par étape en effectuant un choix stochastique en fonction desphéromones et des valeurs heuristiques présentes sur son chemin. Nous venons


donc de mettre le doigt sur deux des paramètres les plus fondamentaux de laméthode des colonies de fourmis : α et β. En effet, ces paramètres ont un degréd’influence important par rapport à l’exploration de l’espace conformationnel età l’intensification des solutions. Nous aurons l’occasion d’y revenir au chapitresuivant lorsque nous décrirons la manière dont nous avons adapté la méthodedes colonies de fourmis au problème de la prédiction de structures natives.

Maintenant que nous savons comment s’orientent les fourmis, nous allonsdécouvrir comment se gère le dépôt de phéromones. En effet, c’est en déposantdes phéromones qu’une fourmi augmente la probabilité de fréquentation duchemin qu’elle utilise. Pour en revenir à notre petite énumération des différencesentre fourmi réelle et fourmi artificielle, nous allons découvrir simultanémentl’intéret de la mémoire de la fourmi artificielle ainsi que les diverses façons dontelle dépose ses phéromones.

Grâce à sa mémoire, une fourmi peut construire une solution valable ré-pondant à certains critères dépendant du problème étudié. De plus, une fois lasolution élaborée, elle peut l’évaluer dans sa totalité ! C’est grâce à ces capacitésde souvenir et d’évaluation qu’une fourmi peut procéder à différents types dedépôts de phéromones :

– lorsqu’une fourmi dépose des phéromones tout au long de l’élaborationde sa solution, on parlera de dépôt en ligne, pas-à-pas (online step by step) ;

– par contre, si une fourmi procède à un dépôt phéromonal à la fin de laconstruction de sa solution, on parlera de dépôt en ligne, retardé (onlinedelayed).

De plus, la quantité de phéromone déposée sera directement proportionnelleà la qualité de la solution (partielle) élaborée. Si cette solution est intéressante,la fourmi déposera une grande quantité de phéromone afin de maximiser leschances de passage par les autres fourmis.

Nous venons donc de découvrir que l’intensification d’une solution se faitsuite à la quantité phéromonale présente sur un chemin. Bien entendu, la va-leur donnée à α reste prépondérante. Dans le cas ou celle-ci serait de 0, lesphéromones ne seraient tout simplement pas pirses en compte.

Il est par ailleurs intéressant de constater qu’une réduction néfaste de l’es-pace de recherche aura lieu si la quantité phéromonale déposée est mal gérée.Dans ce cas, on pourrait assister à l’émergence rapide d’un chemin minimalqui engendrerait un état de stagnation de la recherche. En effet, ce chemin étantutilisé par un nombre croissant de fourmis, la quantité phéromonale ne cesseraitd’augmenter et plus aucune exploration de l’espace n’aurait lieu.


Heureusement, une phéromone n’est pas éternelle ! En effet, dans la naturetout comme dans la transposition informatique, les phéromones s’évaporent.Nous introduisons donc un facteur de persistance qui sera appliqué à toutdépôt phéromonal. En nottant par ρ le facteur de persistance, nous pouvonsdire que (1 − ρ) correspond à l’évaporation. Ainsi, un moyen de contrôle de laconvergence de l’algorithme nous est donné. Ce facteur de persistance évoqued’une certaine manière la mémoire de la colonie. Pour faire la comparaison avecles algorithmes génétiques, la persistance est à la phéromone ce que l’élitismeétait à la population.

Attention toute fois à ne pas se méprendre, l’exemple d’émergence rapided’un chemin minimal sera toujours possible ! La métaheuristique des coloniesde fourmis, comme bien d’autres, demande un temps considérable dans larecherche d’une paramétrisation satisfaisante. Une solution intéressante à ceproblème consiste à modifier le paramètre α pour quelques tours, afin de relan-cer l’exploration de l’espace. Un autre problème potentiel résolu par le facteurde persistance est ce que l’on appelle en anglais le phénomène d’attrition. Ceproblème provient de l’accumulation de phéromones due à un tronçon partielcommun dans plusieurs solutions différentes. Toutefois, il faut remarquer quece phénomène se produit plus facilement dans un espace bidimentionnel forte-ment discrétisé que dans un espace tridimentionel tel que ceux dont nous avonsparlé ci-dessus.

Les cinq derniers paragraphes nous ont donc appris que chaque fourmi faitun dépot de phéromone en fonction de la solution qu’elle a calculé et qu’un fac-teur de persistance ρ permet de gérer l’évaporation des dépots de phéromones.Il est donc intéressant de formaliser cela. Ainsi, en notant par ∆τk

i j(t, t + n) laquantité de phéromone déposée par la fourmi k sur le chemin i j dans l’interallede temps (t, t + n) nous obtenons que :

τi j(t + n) = ρτi j(t) +m∑

k=1

∆τki j(t, t + n)

où m représente le nombre total de fourmis, n est l’intervalle unitaire de tempsdiscret et τi j(t) est toujours la quantité de phéromone présente sur le cheminreliant i à j. On peut traduire cette formule en disant que la quantité de phéro-mones présentes sur le chemin i j à l’instant (t + n) est égale à la persistance dela quantité de phéromone présente à l’instant précédent (t) à laquelle on ajouteles nouveaux dépots de toute les fourmis ayant parcouru le chemin i j depuisl’instant précédent (t).


Enfin, pour clôturer cette section, notons que lorsqu’une fourmi a procédéà l’élaboration d’une solution ainsi qu’à la mise à jour phéromonale correspon-dante, elle meurt. Cela nous permet de bien nous rendre compte de l’indépen-dance des fourmis par rapport à la colonie. En effet, tout au long de sa vie,la fourmi n’aura utilisé que les informations locales qui se trouvaient sur sonchemin, sans oublier la valeur heuristique.

Les particularités offertes par la colonie artificielle

Les avantages présentés par la métaheuristique des colonies de fourmis nes’arrêtent pas là ! En effet, en plus des améliorations effectuées sur les fourmis, ilest possible d’effectuer des actions centralisées qu’une fourmi réelle serait inca-pable de réaliser. Par exemple, il est possible de procéder à un dépot phéromonalsupplémentaire pour certaines solutions jugées particulièrement intéressantes.On parlera alors de dépôt hors-ligne (offline), ce qui correspond à une certaineforme d’élitisme anticipatif.

Nous pouvons donc récapituler le fonctionnement d’une colonie de fourmipar le pseudocode suivant :

while ( c r i t e r e de terminaison non a t t e i n t ) {p l a n i f i c a t i o n {

fourmis_en_act ion ( ) ;evaporation_des_pheromones ( ) ;a c t i o n s _ g e n e r a l e s ( ) ;

}}

Il est important de remarquer que les opérations de planification ne sont pasdéfinies, ce qui permet une multitude d’implémentation de cette méthode [29].De plus, la métaheuristique, de par son fonctionnement, permet des implémen-tations faciles pour des systèmes informatiques en cluster [30, 29].

Enfin, notons que d’autres méthodes heuristiques basées sur des observa-tions naturelles existent (comme par exemple les réseaux de neurones). Le lec-teur intéressé sera certainement comblé par [22] qui propose un excellent tourd’horison en la matière.


2.2.6 Méthodes hybrides

Il arrive fréquemment que des solutions hybrides soient apportées au pro-blème d’exploration de l’espace. L’idée est de combiner deux méthodes com-plémentaires : une de recherche globale et une de recherche locale. En effet, leseffets combinés obtenus par ce genre d’hybridation sont souvent encourageants.

A titre d’exemple, examinons l’hybridation d’un algoritme évolutionnaire[31] avec, comme méthode de recherche locale la méthode Tabou (mais nousaurions pu choisir n’importe quelle autre autre). Typiquement, la phase d’initia-lisation de l’algorithme évolutionnaire sera modifiée en ce sens qu’une recherchelocale sera effectuée sur chaque individu de départ. Ensuite commencera seule-ment la reherche proprement dite. De plus, plutôt que de procéder simplementà un croisement lors du renouvellement de la population, une intensificationlocale sera à nouveau effectuée sur les individus résultant du croisement.

Ces modifications permettent de concentrer la recherche globale autour desolutions à priori locales. Bien entendu, tout autre mélange est possible. Il fau-dra toutefois procéder à l’hybridation de manière intelligente afin de ne pasengendrer de surcoût de calcul ni de dégradation de compromis entre explora-tion et intensification. D’autres exemples d’hybridation existent en masse, [32]propose par exemple l’hybridation d’un réseau de neurone (métaheuristiquenon explorée dans le cadre de cet ouvrage) avec la recherche Tabou.

2.3 Les fonctions énergétiques

Quelle que soit la recherche effectuée in silico, un besoin commun est la fonc-tion énergétique capable d’évaluer la correspondance qualitative et quantitativeentre une séquence d’acides aminés et une conformation spatiale donnée. Eneffet, la performance atteinte par le matériel et la qualité des algorithmes utilisésne servent à rien sans une fonction d’évaluation pertinente.

Les fonctions énergétiques fournissent des résultats sur base de potentiels quisont représentatifs des interactions présentes au sein d’une structure tridimen-sionnelle. Lorsqu’une interaction interne est native, son potentiel énergétiquesera faible. Bien entendu, le nombre de types d’interactions dans une protéineest élevé, ce qui engendre une multitude de potentiels calculables.

A titre d’exemple, le potentiel d’hydrophobicité est calculé sur base des dif-férences entre résidus hydrophobes et résidus hydrophiles et est totalementindépendant de la conformation locale adoptée par la protéine. Son utilisation


influencera la prédiction vers un arrangement spécifique des résidus hydro-phobes. Autre exemple, le potentiel de distance qui est calculé sur base de lapropension d’un couple de résidus distants dans la séquence, à être séparés dansl’espace par une certaine distance.

Nous aurons l’occasion de revenir sur ces potentiels lors de l’explicationdétaillée du calcul de l’énergie libre de nos prédictions.

2.4 L’évaluation des résultats d’une prédiction

Afin de développer des algorithmes toujours plus performant, de nombreuxtests sont effectués. Afin de procéder à ces mesures, il est fréquent de fairede la prédiction de structure native sur des protéines dont on connaît déjà laconformation d’énergie libre minimale. Pour procéder à l’évaluation, on effectuegénéralement un calcul du RMSD (Root Mean square Deviation) entre la conforma-tion native et celle obtenue par prédiction. Cette opération mesure simplementles différences de position entre les atomes de Cα représentatifs du squelette desstructures comparées. Bien entendu, il serait tout à fait envisageable d’effectuerun calcul RMSD sur chaque atome constituant la protéine. Notons égalementqu’un calcul RMSD retourne le plus petit résultat possible. En effet, le calculs’effectue sur le meilleur alignement des deux structures comparées, ce qui apour effet d’en minimiser le résultat.

En notant par (xin, yi

n, zin) les coordonnées de l’atome Cα du résidu i de la

structure native et par (xip, yi

p, zip) les coordonnées de l’atome Cα du résidu n de

la structure prédite, le calcul du RMSD s’effectue en calculant :

min

√

√

1r

r∑

i=1

(

(xin − xi

p)2 + (yin − yi

p)2 + (zin − zi

p)2)

où r est le nombres de résidus de la protéine.Une seconde méthode d’évaluation serait de comparer les résultats énergé-

tiques obtenus entre diverses méthodes de prédiction. Malheureusement, l’im-perfection des multiples fonctions énergétiques existantes nous oblige à regarderces résultats avec circonspection. Il n’est pas rare que l’évaluation énergétiqued’une structure native connue offre un score supérieur à celle d’une prédiction !

D’autres comparaisons peuvent avoir lieu entre la protéine à l’état natif et laprotéine prédite. Citons par exemple l’étude du pourcentage de contacts natifs,


c’est-à-dire de contact inter-résidus semblables entre la structure native connueet la structure prédite.

Un autre facteur fréquemment évalué est celui du temps requis par uneprédiction. Au vu de la grande diversité de machines et de méthodes utiliséesdans ce domaine, il va de soi qu’une unité d’évaluation temporelle simple seraitun non sens. Il est donc fréquent d’utiliser comme source de prédiction une basede données contenant des protéines-type présentant des propriétés particulières(benchmarks). Ainsi, en spécifiant les caractéristiques de la machine utilisée, onpeut se faire une idée de la qualité de la méthode de prédiction utilisée.

2.5 Récapitulatif

La prédiction de la structure native d’une protéine a un intérêt scientifiqueimportant. Outre le gain de temps et d’argent que procurent les méthodes insilico, une multitude d’applications dérivées sont accessibles dès lors que lastruture native d’une protéine est connue. Pour effectuer une prédiction de lastructure native d’une protéine, certains outils sont indispensables, nous venonsd’en faire le tour.

Il est important de remarquer que quelles que soient les méthodes utilisées,la situation initiale de la recherche a une grande importance. De plus, la qualitédes résultats obtenus est souvent suffisante pour des problèmes basiques maisce n’est pas toujours le cas lors de l’étude de problèmes plus importants. Larecherche du minimum global est un problème difficile pour lequel il n’existeactuellement aucun algorithme efficace garantissant un résultat optimal.

Dans le chapitre suivant, nous présenterons la totalité des choix effectuéspour le développement de notre logiciel de prédiction de structure native deprotéine. Cela fait, nous nous lancerons dans la découverte de son fonctionne-ment pour ensuite en révéler les résultats.

Chapitre 3

Nos outils et méthodes

Le problème de prédiction de la structure native d’une protéine est en fait unproblème d’optimisation combinatoire particulier. En effet, il existe de nombreuxproblèmes de ce type. Chacun peut être défini par une paire (S, f ) où S représentel’ensemble fini de toutes les solutions existantes et f est une fonction de typef : S → R permettant d’évaluer la qualité d’une solution i particulière [22]. Lavaleur optimale de f est :

f0 = min{ f (i) : i ∈ S}

et l’ensemble des solutions optimales est :

S0 = {i ∈ S : f (i) = f0}

La résolution du problème se fait donc en trouvant certaine(s) solution(s) i0 ∈ S0.Afin de bien comprendre tout cela, transposons ces données mathématiques

au cas qui nous intéresse. Pour cela, rappelons que nous nous basons sur l’hy-pothèse largement admise selon laquelle la structure native d’une protéine cor-respond à son minimum d’énergie libre. Dans notre cas, S est l’espace conforma-tionnel accessible et f sera la fonction énergétique utilisée. Si nous appliquonsces formules à une protéine dont nous connaissons déjà la structure native (quenous noterons n) on aura que f (n) = f0. D’autre part, on sait que n ∈ S et doncque n ∈ S0 car l’équation de S0 est bien vérifiée.

Ces problèmes d’optimisation combinatoire sont difficiles à résoudre carpour la plupart, une exploration exhaustive des solutions possibles sera requiseafin de déterminer la ou les meilleures solutions. Pour les problèmes de grandetaille, une telle exploration n’est actuellement pas réalisable en un temps rai-sonnable. Il n’existe donc pas de méthode déterministe garantissant un résultat

42

CHAPITRE 3. NOS OUTILS ET MÉTHODES 43

optimum. Ainsi, des métaheuristiques proposent des stratégies générales d’ex-ploration de l’espace qui peuvent être appliquées à un problème particulier.

Dans notre cas, nous avons choisi de concevoir un algorithme de prédictionde la structure native de protéines à partir de la métaheuristique des coloniesde fourmis que nous avons explorée dans le chapitre précédent. Ce chapitre-cipropose donc de découvrir les divers choix que nous avons effectués quant auxdiverses exigences requises par la prédiction de structure native.

3.1 Modélisation de nos protéines

Nous avons opté pour une représentation atomique simplifiée des acidesaminés (cfr. figure 3.1). Ainsi, comme nous le voyions dans l’introduction, nousne prenons pas en compte la totalité de la chaîne latérale. Celle-ci sera simplifiéeau moyen des atomes Cβ et Cµ. Cette représentation offre l’avantage d’être assezréaliste tout en ne demandant pas une quantité de calcul trop importante.

F. 3.1 – Représentation simplifiée d’un acide aminé, attention le cas particulierde la Glycine verra ses atomes Cβ et Cµ se trouver au même endroit que l’atomeCα.

Une protéine sera donc représentée par sa chaîne principale (son squelette),ainsi que par les atomes Cbeta et Cµ de chaque résidu. Par ailleurs, nos protéinesévolueront dans l’espace (φ, ψ, ω), c’est-à-dire que les angles de rotation autourdes liaisons chimiques N − Cα et Cα − C ainsi que la liaison C − N entre unrésidu et son voisin, prendront respectivement les valeurs φ, ψ et ω. Rappelons-nous également que l’angle ω résulte d’un lien peptidique particulier ayant uncaractère de double liaison, ce qui limite ses valeurs à 0◦ ou 180◦. Le lecteur se


posant des questions sur les valeurs initiales des angles φ et ψ vera sa curiositéassouvie en page 55.

Il nous faut encore préciser que les distances de liaison inter-atomique aurontdes valeurs fixes variant en fonction des atomes liés. Cela n’entraîne aucunesurcharge de calcul mais nous permet d’approcher encore un peu mieux laréalité. Enfin, dans notre cas de représentation simplifiée des acides aminés, lesangles de valences (cfr. figure 3.2 ) seront également fixés pour chaque atome.

F. 3.2 – Exemple d’angle de valence : en pointillé, l’angle de valence associé àl’atome O.

On dira qu’une prédiction de protéine sera valable si elle ne contient pas declash stériques. Cette appellation dénote en fait une collision entre deux atomes.En effet, il est tout a fait possible de prédire des protéines présentant une struc-ture tridimensionnelle irréalisable dans la nature. Il devra donc être possibled’évaluer la présence de telles collisions.

Dans notre modèle, nous veillerons à l’absence de collisions entre chaîneslatérales et donc uniquement entre les atomes Cµ. Pour effectuer ces vérifications,un rayon atomique est fixé pour l’atome Cµ de chaque résidu, on l’appelle lerayon de van der Waals [17]. En notant par rVDW(Cµ) le rayon de Vanderwaalsde l’atome Cµ, on dira qu’il y a collision si

rVDW(C1µ) + rVDW(C2

µ)

2· a > distanceSpatiale((C1

µ), (C2µ))

où distanceSpatiale calcule la distance réelle séparant deux atomes et a représenteun facteur d’aération permettant donc d’éviter des prédictions trop compactes.

Il faudra donc évaluer l’absence de collision entre tous les atomes Cµ de laprotéine prédite afin que celle-ci soit réalisable et puisse participer à la recherche


de la structure native.

3.2 Discrétisation de notre espace de recherche

Comme notre protéine évolue dans l’espace (φ, ψ, ω), il va de soi que la dis-crétisation de l’espace conformationnel passera par une limitation des valeursaccessibles par chaque triplet angulaire. Au sein d’une protéine réelle, certainesvaleurs de (φ,ψ,ω) ne sont pas accessibles aux résidus car elles correspondraientà des collisions atomiques. Il a été observé que l’ensemble des conformationspossibles pour chaque résidu peut être réduit à sept domaines dans l’espacedes triplets (φ, ψ, ω) [33] : A, C, B, P, G, E et O. La discrétisation de l’espaceconformationnel s’opère donc en dégageant un certain nombre de représen-tants par domaine, calculés à partir de conformations natives réelles observéesexpérimentalement.

Ces représentants peuvent être calculés par résidu car la conformation dechacun d’entre eux est sensiblement différente dans la réalité. Néanmois, nousavons initialement décidé d’utiliser des représentants généraux pouvant être ap-pliqués sur n’importe quel résidu, cela facilitant les opérations à effectuer (nousverrons plus loins que finalement, il eut été aisé de prendre des représentantsparticuliers pour chaque résidu).

Dans le cas ou seulement un représentant est disponible, il n’y aura aucunchoix stochastique à effectuer. Par contre, dès que plusieurs représentants sontaccessibles, il faut permettre une sélection proche de la réalité. C’est pourquoien plus des trois données angulaires nécessaires, un représentant contient unequatrième donnée : son nombre d’occurences. En effet, diverses conformationssont observées dans la nature et certaines d’entre-elles sont plus fréquentes qued’autres. Recherchant un maximum de réalité lors de la conception de notremodèle, il nous a paru évident d’opérer un choix stochastique dépendant dunombre d’occurence de chaque représentant.

Cela se fait simplement en associant à chaque triplet angulaire de chaquedomaine une probabilité d’apparition. Cette probabilité intra-domaine se cal-cule simplement en divisant le nombre d’occurences du représentant considérépar la somme du nombre d’occurences de chaque représentant. En effectuantce calcul sur chaque domaine, on obtient donc une discrétisation de l’espaceconformationnel accessible.

Il est important de remarquer que cette discrétisation s’opère par un système


de coordonnées interne à la protéine. Ainsi, la représentation tridimensionnelled’une prédiction s’obtiendra en traduisant les coordonnées (φ, ψ, ω) en coor-données (x, y, z). Pour effectuer cette traduction, les données propres de chaqueatome seront nécessaires (angle de valence et distance inter-atomique).

3.3 Exploration de l’espace conformationnel

Comme nous l’écrivions en début de chapitre, nous avons opté pour uneméthode de recherche dérivée de la métaheuristique des colonies de fourmis.Le chapitre précédent nous proposait un aperçu général du fonctionnement deces colonies, examinons donc ensemble les spécificités de fonctionnement denotre colonie.

L’univers d’évolution de nos fourmis artificielles correspond concrètementà l’espace conformationnel accessible par la protéine, celui-ci étant discrétiséen sept domaines. La tâche de nos fourmis consistera donc à trouver une suitede domaines offrant une structure tridimensionnelle minimisant la fonctionénergétique que nous découvrirons plus loin.

Afin de réaliser au mieux sa tâche, une fourmi opérera une suite de choixprobabilistes basés sur la quantité locale de phéromone τ ainsi que sur les valeursheuristiques disponibles η. Une question se pose ici : à quoi faire correspondrecette valeur η ? L’idée est de trouver un indicateur permettant d’aider la fourmidans son choix. Il faudrait donc disposer d’une valeur indiquant un domaine deconformation à priori favorable pour un résidu donné.

Heureusement, depuis quelques années, il existe à l’ULB certains projetsde recherche et de prédiction correspondant exactement à nos besoins. Cesprojets se nomment Prelude et Fugue [14, 34]. Ainsi, il est possible d’obtenir, pourune séquence donnée, une séquence correspondante de domaines favorablesainsi qu’un facteur exprimant la valeur de cette correspondance. Ce facteurprend des valeurs entières comprises entre 0 et 9 et lorsqu’il vaut 0, c’est qu’iln’y a pas de prédiction pour le résidu concerné (voir exemple ci-dessous). Ilest important de signaler que ces prédictions se basent exclusivement sur lesinteractions locales le long de la séquence et ne prennent pas en compte lesinteractions tertiaires ! La séquence de domaines fournie par ces programmesne constitue donc généralement pas une solution convenable pour la structuretertiaire complète de la protéine mais elle est utile car elle permet de connaîtreles préférences individuelles de petites portions de la séquence.


Séquence: QQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGG

Domaine favorable: CPBBBBGGBPPBACPBAAxCGPBPGPBBBBBBAxxxx

Facteur de correspondance: 1145789996211222220467776412333320000

Grâce à ces projets, nous disposons donc d’un biais inter-domaines en plusdu biais intra-domaine (dû à la probabilité d’apparition de chaque représentantd’un domaine). Fort de cet avantage, nous avons donc décidé d’utiliser commevaleur heuristique pour un domaine, le facteur proposé par Prelude et Fugue,quand il existe. Cela nous permet de procéder au calcul que nous proposaitl’équation du chapitre précédent :

pi j =[τi j(t)]α · [ηi j(t)]β

∑

k∈V(i)[τik(t)]α · [ηik(t)]β

où pi j représente donc la probabilité d’associer le domaine j au résidu i. Il seradonc très important de paramétrer au mieux les facteurs α et β.

Maintenant que nous avons une stratégie de décision, il nous faut fixer lescaractéristiques du dépôt phéromonal de nos fourmis. Cela signifie qu’il nousfaut décider quand déposer des phéromones et en quelle quantité.

Avant d’expliquer nos choix, quelques définitions sont nécessaires. Appelonsitération une recherche complète effectuée par une fourmi, c’est-à-dire qu’aprèsune itération, une fourmi aura construit et évalué une prédiction complète etmourra. De plus, nommons cycle un nombre m d’itérations où m représente lenombre total de fourmis de la colonie. Ainsi, après un cycle, toutes les fourmisauront procédé à l’élaboration et l’évaluation d’une prédiction complète. Lenombre de cycles sera une variable à définir lors de l’exécution de l’algorithme.Enfin, en se souvenant que nous travaillons dans un univers où le temps estdiscrétisé, nous pouvons également dire qu’un cycle se passera en une unitéde temps. Cela signifie qu’un cycle commençant en (t) se terminera en (t + 1).Revenons maintenant au dépôt de phéromones.

Nous avons décidé d’effectuer un dépôt offline dans le but de permettre àchaque fourmi de disposer de la même base phéromonale lors d’un cycle derecherche. En effet, le dépôt offline s’effectue après un cycle entier, ce qui permetde ne pas modifier la situation initiale du cycle de recherche. Nous utilisonsdonc les propriétés de la discrétisation du temps, nous permettant d’effectuerune simulation d’activité simultanée de la colonie sans aucune interférenceinter-fourmi. Bien entendu, certaines structures de données seront nécessairesà l’application de ce choix, nous aurons l’occasion de les découvrir au chapitresuivant.


Outre ce dépôt phéromonal offline, nous avons également pensé à exécuter undépôt phéromonal élitiste, c’est-à-dire de déposer des phéromones supplémen-taires pour les x meilleures conformations protéiques. Une fois de plus, x seraun paramètre à définir, de même que le facteur d’élitisme spécifiant la quantitéde phéromone additionelle à déposer. Formellement, nous obtenons donc que :

τi j(t + 1) = ρτi j(t) +m∑

k=1

∆τki j(t, t + 1) +

e∑

l=1

∆τli j(t, t + 1)

où e est le nombre de fourmis élitistes et m le nombre total de fourmis. Nousn’en avions pas encore parlé mais il est évident qu’un taux de persistance ρ serautilisé afin de permettre le renouvellement phéromonal et donc l’exporation del’espace conformationnel.

En résumé, notre prédiction se fera au moyen d’une colonie de fourmiscontenant un certain pourcentage de fourmis élitistes et procédant d’une part àun dépôt phéromonal offline et d’autre part à un dépôt phéromonal élitiste. Lesparticularités d’implémentations seront explorées au prochain chapitre.

3.4 Fonction énergétique utilisée

Dans le cadre de ce mémoire, nous utiliserons une classe de fonctions éner-gétiques appelée potentiels statistiques. Ces potentiels sont dérivés de bases dedonnées de protéines dont les structures natives sont connues [35]. Dans notreétude, nous avons décidé d’utiliser deux types de potentiels : les potentiels detorsion entre petits éléments de structure et les potentiels de distance entre petitséléments de séquence.

3.4.1 Les potentiels de torsion

Les potentiels de torsion décrivent exclusivement les interactions localesle long de la chaîne principale et sont donc lié à la prédiction de structuressecondaires telles que des hélices-α. Chaque potentiel porte un nom différent oùs signifie résidu de la séquence et t signifie domaine de torsion. Ces potentielsmesurent l’adéquation des données qui leurs sont fournies. Si cette adéquationest bonne, l’énergie correspondante sera basse.

Par exemple, le potentiel st0 mesure l’adéquation entre la nature d’un résidudonné et le domaine prédit pour ce résidu ou pour un résidu voisin. Prenons le


cas de l’acide aminé nommé alanine. S’il se trouve en position 5 dans la séquenceet qu’en position 7, le domaine prédit est P, alors l’énergie fournie par le potentielst0 vaudra 0.114887. Par contre si le domaine prédit avait été A, l’énergie auraitété de -0.111486.

Il faudra donc effectuer ces calculs le long de toute la séquence de la protéine.Toutefois, au vu du caractère local des potentiels de torsion, la fenêtre d’explo-ration autour du résidu de base sera de 8 résidus dans la séquence. Dans le casdu potentiel st0, on évaluera donc l’adéquation entre un résidu en position ide la séquence et une prédiction de domaine en position j de la séquence, avec−8 ≤ ( j − i) ≤ 8.

Les potentiels de torsion que nous utiliserons sont les suivants :– st0, qui mesure l’adéquation entre le résidu positionné en i et le domaine

prédit en position j ;– stt1, qui mesure l’adéquation entre le résidu positionné en i, le domaine

prédit en position j et le domaine prédit en position k ;– tss1, qui mesure l’adéquation entre le domaine prédit en position i, le

résidu positionné en j et le résidu positionné en k ;– tt0, qui mesure l’adéquation entre les domaines prédits en position i et j ;– ttt1, qui mesure l’adéquation entre les domaines prédits en position i, j et

k.Le lecteur attentif aura remarqué une redondance de calcul dans les potentiels tt0et ttt1. En effet, pour le potentiel tt0 (mais cela est transposable pour le potentielttt1), qu’on aie les domaines P et B respectivement en position 2 et 4 ou l’inverserevient exactement au même calcul ! Ainsi, pour ces deux potentiels, le calcul nes’effectuera que sur une fenêtre positive, c’est-à-dire pour les 8 résidus voisinsde droite dans le sens de lecture de la séquence de la protéine. Il sera encoretemps de répartir ce potentiel énergétique intelligemment, nous y reviendronsau chapitre suivant .

3.4.2 Les potentiels de distance

Nous le découvrions dans l’introduction, la création de la structure tertiaired’une protéine est principalement due aux interactions entre résidus distantsdans la séquence mais proches dans l’espace. Les potentiels de distance sontdonc un moyen de mesurer la contribution de telles interactions.

Dans ce cas-ci, il est tout à fait possible que des résidus espacés par plus de8 autres résidus dans la séquence se retrouvent rapprochés dans l’espace. Nous


effectuerons donc ce calcul pour chaque résidu par rapport à toute la séquence àl’exception de ses deux voisins directs dans la séquence, qui lui seront forcémenttrès proche dans l’espace. Par contre, si les résidus considérés sont distants dansl’espace de plus de 8Å, on considèrera qu’il n’y a tout simplement aucuneinteraction.

L’énergie calculée dépend donc de la nature des deux résidus ainsi que deleur distance spatiale, mais aussi de leurs positions relatives dans la séquence.Par exemple, si nous avons une alanine en position 5 et une proline en position 8,l’énergie ne sera pas la même que pour une alanine en position 5 et une prolineen position 9 présentant la même distance spatiale.

Remarquons tout de même que lorsque les deux résidus considérés sontéloignés de plus de 8 résidus dans la séquence, le potentiel calculera une valeurénergétique dépendant uniquement du type de résidu considéré et de la distancespatiale. La distance dans la séquence ne sera donc plus prise en compte. Parexemple, admettons que le résidus 5 soit toujours une alanine et que les résidus 24et 65 soient des leucine. Si l’on considère les résidus 8 et 24 spatialement distantsde 3Å et les résidus 8 et 65 également distants de 3Å, le potentiel énergétiquecalculé sera le même.

Nous utiliserons deux potentiels de distance : ds0 et ds1. Le potentiel ds0mesure l’adéquation entre la présence d’un résidu particulier en position i de laséquence et un résidu quelconque en position j présentant une certaine distancespatiale avec le résidu i. D’un autre côté, le potentiel ds1 effectue le même calculmais avec un résidu défini en position j.

Par exemple, prenons le cas où le résidu 5 est une alanine et le résidu 8 uneproline, ces deux résidus étant séparé par 4Å. Le potentiel ds1 calculerait unevaleur énergétique de 0.031414 et le potentiel ds0 une valeur énergétique de0.397226. Si par contre le résidu 8 était une valine, la valeur prise par le potentields1 serait différente, mais pas celle prise par le potentiel ds0.

A nouveau, comme pour les potentiels tt0 et ttt1 remarquons que le potentields1 offre un certain niveau de redondance, ce qui permet de réduire les calculs.

3.4.3 Utilisation combinée des potentiels

Notre espoir est que l’utilisation combinée de ces deux types de potentielspermette la prédiction de structures secondaires tout en prenant en compte lesinteractions tertiaires. Ainsi, la protéine prédite devrait avoir un degré de simi-litude plus important avec la structure tidimensionnelle réelle d’une protéine


que dans le cas ou seuls les potentiels de torsion seraient pris en compte.

3.5 Evaluation de nos solutions

Afin d’évaluer nos solutions, nous procéderons au calcul du RMSD (RootMean Square Deviation) sur les atomes Cα de nos protéines prédites. Pour rappel,ce calcul permet de mesurer les différences de position entre deux structuresdonnées. Nous procèderons donc à un jeu de test sur un fragment de protéinedont la structure native est déjà connue.

Nous découvrirons également dans quelle mesure notre algorithme trouvedes conformations d’énergie libre minimale et profiterons de l’occasion pourfaire une comparaison entre les énergies obtenues et les RMSD correspondants.

3.6 Récapitulatif

Nous venons de découvrir l’ensemble des outils que nous utiliserons pourprocéder à la prédiction de la structure native de protéines. Dans le chapitresuivant, nous allons découvrir les spécificités de l’algorithme que nous avonsdéveloppé avant d’en découvrir les tests et les résultats. Ce chapitre présenterales diverses particularités d’implémentation des outils utilisés.

Chapitre 4

Notre algorithme : AC-ProPre

Dans ce chapitre, nous allons passer en revue les spécificités d’implémenta-tion des outils découverts au chapitre précédent. Notre algorithme, AC-ProPre(Ant Colony for Protein Prediction), ayant été réalisé en C++, nous structureronsce chapitre à l’image du code source, c’est-à-dire classe par classe. Nous com-mencerons donc par explorer l’implémentation de la discrétisation de l’espaceconformationnel pour ensuite découvrir la manière dont les potentiels énergé-tiques sont codés et utilisés. Enfin, nous nous pencherons sur la représentationdes protéines ainsi que sur les divers calculs nécessaires à l’élaboration de laprédiction. Pour finir nous découvrirons évidemment la manière de fonctionnerde nos fourmis artificielles.

4.1 L’espace conformationnel

Le code source de cette section se trouve dans les fichiers domaine.h et do-maine.cc. Comme nous l’avons maintes fois signalé, nous travaillons dans l’es-pace (φ, ψ, ω) pouvant être représenté en sept domaines : A, C, B, P, G, E et O. Ily aura donc une instance de la classe domaine pour chaque domaine utilisé.

Un domaine contient des représentants. Comme nous l’expliquions au cha-pitre précédent, nous avons choisi de travailler avec des représentants communs,c’est-à-dire appliquables à chaque résidu. Néanmoins, une amélioration relati-vement simple à implémenter serait de considérer des représentants propres àla nature du résidu, cela pourra être fait dans une version ultérieure de notrealgorithme.

Les représentants proviennent de fichiers source nommés cah_rama_141_x

52

CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 53

où x représente le nombre de représentants effectifs par domaine. Il est doncpossible de travailler avec un nombre de représentants variable. Il est évidentqu’un nombre de représentants élevé permettra une prédiction plus proche dela réalité.

Chaque représentant est caractérisé par un triplet angulaire et un nombred’occurences. C’est au moyen de ce nombre d’occurence que nous calculons laprobabilité de sélection d’un représentant particulier. Pour calculer cette proba-bilité, il nous suffit de diviser le nombre d’occurences de chaque représentantpar le nombre d’occurences totale d’un domaine. Ainsi, nous obtenons un mo-dèle probabiliste cohérent où la somme des probabilités d’apparition de chaquereprésentant vaut 1.

Afin de permettre un choix aléatoire rapide pour la sélection de représen-tants, nous construisons un vecteur d’intervalle de probabilité proportionnel àla probabilité d’apparition de chaque représentant. Ainsi, à chaque fois qu’unreprésentant devra être sélectionné, il suffira de tirer aléatoirement un nombreentre 0 et 1 et de choisir le représentant dont l’intervalle contient ce nombrealéatoire.

Nous voilà donc avec un espace conformationnel discrétisé. Pour obtenir unreprésentant, il nous suffira d’appeler la fonction getRepresentant().

4.2 Les potentiels énergétiques

Chaque potentiel énergétique utilisé est fourni sur fichier texte. Sachant qu’ilexiste vingt types d’acides aminés et sept domaines, ce n’est pas une surprised’apprendre que le fichier potentiel le plus lourd (tss1) fait 6,1 Mo. Au vu dunombre d’accès nécessaires au calcul de l’énergie libre d’une conformation, ilest évident qu’il faut trouver un moyen de stockage en mémoire vive pour cesdonnées vitales.

Malheureusement, les potentiels sont tels qu’un gaspillage significatif de lamémoire vive aurait lieu si nous utilisions simplement des matrices multidi-mensionnelles pour le stockage de leurs données. De plus, chaque potentiel ades caractéristiques propres qui empêchent la création d’une méthode généraleautomatique de stockage et d’accès. Toutefois, un concept commun peut-être dé-gagé : l’idée est de stocker les valeurs énergétiques d’un potentiel dans un simplevecteur de données et de développer parallèllement une méthode d’accès à cevecteur basée sur les paramètres nécessaires au calcul du potentiel énergétique.


Nous avons donc développé, pour chaque potentiel, un calcul de l’espace né-cessaire pour le stockage des énergies ainsi que la méthode d’accès à cet espace.Le problème était simple : trouver l’index dans le vecteur correspondant auxparamètres de calcul du potentiel afin de retourner la bonne valeur énergétique.Il était donc nécessaire d’attribuer à chaque domaine ainsi qu’à chaque acideaminé un numéro d’identification unique.

Ainsi, afin d’éviter toute erreur de manipulation ou de conversion, les fonc-tions communes ddTOint() et aaTOint() sont un point de passage obligé conver-tissant un domaine (respectivement un acide aminé) en nombre entier. Il estévident que ces nombres sont une suite croissante commencant à 0. Dans le casdes potentiels de distances, une fonction similaire a été prévue afin de convertirla distances spatiale entre deux résidus.

Par ailleurs, afin de généraliser l’utilisation de notre algorithme, nous avonstenu compte de l’éventuelle modification de la taille de la fenêtre. Pour rappel,cette fenêtre délimite l’espace possible entre deux positions de la séquence pourle calcul d’un potentiel. Dans notre cas, comme présenté au chapitre précédent,cette fenêtre vaut 8.

Finalement, nous avons obtenu des vecteurs de taille optimale par rapportaux spécificités des fonctions potentiels et ce pour un coût de calcul supplémen-taire négligeable. En effet, si nous avions travaillé avec des matrices multidi-mensionnelles, le calcul d’index automatique aurait été comparable, mais nousaurions gaspillé beaucoup d’espace mémoire.

Nous pouvons donc conclure en nous réjouissant de disposer de fonctions decalcul de potentiel simples. Par exemple, un simple appel à la fonction getDs0()avec les paramètres nécessaires nous retournera le potentiel énergétique associé.Bien entendu, cet exemple se transpose à chaque potentiel utilisé.

4.3 La structure et les calculs effectués sur les pro-téines

Maintenant que nous savons comment obtenir un représentant de domaineainsi qu’un potentiel énergétique, nous pouvons nous attaquer à la structure dela protéine proprement dite.


4.3.1 La structure protéique tridimensionnelle

Avant toute chose, il est important de faire une petite précision en ce quiconcerne les angles de torsion φ, ψ et ω. Comme nous le savons, ce sont eux quidétermineront la conformation d’un résidu. Plus précisément, la conformationdu résidu sera calculée sur base de ces trois angles ! En effet, au repos, ces anglesde torsion ne sont pas nuls. C’est pourquoi nous avons besoin des donnéesprimaires sur ces angles afin d’en calculer la valeur réelle.

Par exemple, considérons l’angle φ. La valeur prise par cet angle influedirectement sur la position des atomes C, Cβ et Cµ. Mais concrètement, l’angle φproposé par les représentants nous donne la valeur de l’angle de rotation pourl’atome C. Il nous faudra donc ensuite mettre à jour les donnée des atomes Cβ etCµ. Cela se fait assez facilement grâce aux formules suivantes où T0

X représentel’angle de torsion initial de l’atome X du résidu et TX représente son angle réel :

TC − T0C = TCβ − T0

Cβ

et donc :(TC − T0

C) + T0Cβ = TCβ

A partir de l’angle φ, qui n’est autre que l’angle de torsion réel de C, nousobtenons donc un écart qu’il nous suffira d’ajouter à l’angle de torsion initial deCβ afin d’obtenir son angle de torsion réel .

En ce qui concerne l’atome Cµ, le calcul est comparable à cette différenceprès que de par son statut particulier, le Cµ possède un angle de torsion différentpour chaque résidu. C’est d’ailleurs le moment de rappeler l’exception du résiduglycine qui n’a pas de chaîne latérale conséquente et pour lequel l’angle derotation du Cµ vaut forcément 0 !

En conclusion, certaines données extérieures seront nécessaires au calcul dela structure tridimensionnelle de la protéine :

– les angles de valence et de torsion de tous les atomes de la chaîne princi-pale ;

– les distances inter-atomiques de chaque atome de la caîne principale ;– les données particulières concernant l’atome Cµ de chaque résidu.

Nous aurons également besoin du fameux rayon de van der Waals des atomesCµ afin de détecter la présence de collisions dans nos prédictions. Ces donnéesse trouvent dans les fichiers levitt.in pour le Cµ et dans donneeAtome.h pour lesautres atomes.


Maintenant que ces subtilités sont acquises, nous pouvons examiner la re-présentation de la structure d’une protéine utilisée par notre programme. Notreidée générale était de permettre un accès direct et rapide aux divers éléments né-cessaires à l’obtention d’une structure protéique particulière. Nous avons doncstocké toutes ces informations dans des vecteurs similaires, basés sur le nombrede résidus composant la protéine. Ainsi, avec un numéro d’index unique parrésidu, nous avons la possiblité d’accèder directement à l’information nous in-téressant dans chaque structure de données concernant ce résidu.

Ces vecteurs nous permettent donc de retrouver instantanément et pourchaque résidu, la nature du résidu, le domaine de conformation dans lequel il setrouve, le représentant choisis dans ce domaine et les angles φ, ψ et ω proposépar ce représentant. De plus, lorsque les calculs énergétiques et tridimensionnelsauront eu lieu, nous pourrons accéder à la valeur énergétique de la protéineprédite ainsi qu’à sa structure tridimensionelle en coordonnées x, y et z. Lasection suivante donnes quelques explications à propos de ces calculs.

4.3.2 Les méthodes de calcul

Afin de pouvoir procéder à la comparaison des diverses prédictions réaliséespar nos fourmis artificielles, il sera nécessaire de connaître la structure tridimen-sionnelle prédite pour la protéine et l’énergie libre qui lui est associée. Il y auradonc principalement deux calculs à effectuer :

1. la construction de la structure tridimensionnelle prédite pour la protéine ;

2. le calcul de l’énergie libre de cette conformation.

D’autres calculs tels que la distance spatiale séparant deux points ou la présencede collisions inter-atomiques dans la séquence seront à effectuer mais de parleur simplicité, nous ne nous y étendrons pas.

La construction de la structure tridimensionnelle

Le but du calcul est très simple : construire la structure tridimensionnelle dela protéine à partir des angles φ, ψ et ω de chacun de ses résidus. Ce calcul s’ef-fectue au moyen de matrices de rotation permettant de calculer les coordonnéesspatiales d’un point en fonction :

– des coordonnées du point le précédant ;– de la distance séparant ces deux points ;


– de deux angles caractérisant les mouvements à effectuer (dans notre cas,il s’agit des angles de torsion et de valence de l’atome considéré que nousavons défini respectivement aux pages 11 et 44).

Dans notre cas, nous fixerons toujours les coordonnées spatiales du premieratome du premier résidu à (0,0,0). De plus, nous supposerons que la structureévolue sur l’axe des x pour le calcul du second point. Cette situation initialeétant définie, la suite des calculs pourra se passer itérativement.

Il est intéressant de remarquer qu’une fois les calculs effectués pour unatome, il est possible de dégager une matrice contenant toutes les informationsgéométriques nécessaires concernant cet atome. En sauvegardant cette matrice,il sera donc possible de recommencer le calcul à partir d’un certain point de lastructure, ce qui évitera de devoir recalculer toutes les coordonnées de tous lesatomes dans le cas où un résidu viendrait à changer de conformation.

Nous effectuerons donc une sauvegarde de cette matrice exclusivement pourles atomes C de chaque résidu. En effet, lorsqu’un résidu change de conforma-tion, c’est chacun de ses angles de torsion qui prend une nouvelle valeur. Il estdonc inutile de conserver les matrices internes d’un résidu.

Nous avons donc ajouté un vecteur supplémentaire dans la représentationde nos protéines, permettant de recommencer une construction de structuretridimentionnelle au départ d’un point particulier.

Cela sera particulièrement intéressant dans le cas où une collision inte-ratomique sera découverte. En effet, lorsqu’une nouvelle conformation réalistesera trouvée pour ce résidu, la reconstruction tridimentionnelle pourra recom-mencer non pas au début mais bien sur le résidu précédant directement celuinouvellement modifié ! Le gain de temps sera donc significatif, d’autant plusque l’espace mémoire supplémentaire requis par cette opération est minime !

Le calcul de l’énergie libre d’une conformation prédite

Ce calcul s’effectue sur base des valeurs retournées par les potentiels éner-gétiques. Il nous faudra donc faire appel aux bonnes fonctions avec les bonsparamètres, ce qui est aisé vu la structure de stockage des données utilisée. Parcontre, un calcul mons évident est celui de la répartition des énergies. En effet,lors du chapitre précédent, nous avons soulevé le point de la répartition desénergies potentielles calculées lorsqu’un potentiel présente des redondances.Pour reprendre l’exemple de la page 49 dans le cas du potentiel tt0 (mais cela esttransposable pour le potentiel ttt1), qu’on aie les domaines P et B respectivement


en position 2 et 4 ou l’inverse revient exactement au même calcul !Dés lors, il suffira en fait de reporter ce potentiel sur chaque résidus concerné,

dans notre exemple les résius 2 et 4. Ce type de redondance se présente concrè-tement pour les potentiels tt0, ttt1 et ds1. Toutefois, un autre type de répartition,quelque peu plus subtil, doit également être effectué ! Pour bien comprendre cenouveau problème, quelques précisions sont nécessaires.

Lors de la prédiction de structure native de protéine, la séquence source estbien évidemment une donnée immuable. Par contre, la prédiction de la confor-mation adoptée par chaque résidu changera tout au long de la recherche. Deplus, pour définir si une conformation est intéressante ou non, nous procédonsà l’évaluation de celle-ci au travers des potentiels de torsion, entre-autres. Cespotentiels expriment dans quelle mesure il est intéressant d’avoir une prédictionde domaine particulière pour un résidu particulier.

Ainsi, lorsque nous procédons par exemple au calcul du potentiel st0 quimesure l’adéquation entre le résidu positionné en i et le domaine prédit pourun résidu en position j, une question se pose : à quel résidu attribuer l’énergiecalculée ? C’est de cette question que provient le nouveau type de répartitionque nous venons de soulever. Toujours dans le cas du potentiel st0, l’énergiesera attribuée au résidu de position j car c’est bien le domaine prédit qui doitêtre évalué et non la nature du résidu en position i de la séquence, qui de toutefaçon ne changera jamais. Le même raisonnement est applicable dans le cas despotentiels stt1 et tss1.

Pour rappel, le potentiel stt1 mesure l’adéquation entre le résidu positionnéen i, le domaine prédit en position j et le domaine prédit en position k. L’énergiecalculée sera répartie sur les deux résidus j et k qui présente une prédictionparticulière. En ce qui concerne le potentiel tss1, qui mesure l’adéquation entrele domaine prédit en position i, le résidu positionné en j et le résidu positionnéen k, l’entièreté de l’énergie calculée sera reportée sur le résidu positionné en idans la séquence.

Une dernière remarque concerne la valeur des énergies retournées par lesdifférents potentiels. En effet, certains retourneront facilement des valeurs for-tement négative lors même que d’autres seront plus difficiles à minimiser. Nousavons donc décidé de sous pondérer les valeurs retournées par les potentielstt0 et ttt1. En effet, ces derniers sont facilement minimisables et la valeur éner-gétique qu’ils calculent pourrait être telle que l’impact des autres calculs depotentiels pourrait être négligeable. Nous nous retrouverions donc dans le casd’une prédiction où seules les interactions locales seraient prise en compte, ce


que nous souhaitons éviter.

4.4 La colonie de fourmis

Nous voici arrivé à la classe maîtresse de notre algorithme : la colonie defourmis. C’est en effet ici que les différentes pièces du puzzle s’assemblent afinde permettre la prédiction de la structure native de la protéine étudiée. Pourcommencer, examinons les paramètres requis par la colonie :

– le nombre d’itération maximale, critère de terminaison principal ;– le nombre de fourmis qui participeront à la recherche ;– le nombre de fourmis d’élite et le facteur d’élitisme indiquant le degré

d’élitisme souhaité ;– les paramètres de calcul probabilistes fondamentaux α, β et ρ ;– enfin, le nombre maximum d’itérations acceptées sans modification sub-

stancielle de la meilleure solution et une valeur quantitative représentantcette amélioration minimale. Ces deux paramètres constituent un critèrede terminaison anticipée.

Le lecteur s’en sera certainement rendu compte, le nombre de paramètres at-tendu est assez important. Par ailleurs, la question se pose de savoir quelle valeurdonner à chacun de ces paramètres. Nous voici donc confronté au problème de laparamétrisation dont nous parlions au chapitre deux. Concrètement, il n’existeaucune configuration prédéfine générale, il faut donc procéder à une multitudesde tests pour espérer dégager un comportement particulier de l’algorithme enfonction du problème à solutionner. Nous reviendrons sur ces tests au chapitresuivant.

Examinons maintenant les structures de données internes. La mémoire dela colonie, c’est à dire l’ensemble des phéromones déposées par toutes les four-mis de la colonie, se trouve stockée sous forme de matrice tridimensionnelle quenous appellerons matrice phéromonale globale. Ainsi, la mise à jour et l’évaporationphéromonale peuvent s’effectuer assez simplement. Par ailleurs, l’intégralité del’espace matriciel est potentiellement utilisé : chaque résidu peut adopter uneconformation propre à un des 7 domaines et chaque domaine aura le mêmenombre fixe de représentant. Nous obtenons donc une matrice de r ∗ 7 ∗ R où rreprésente le nombre de résidus de la séquence et R donne le nombre de repré-sentant par domaine. Parallèlement à cette matrice, nous avons stocké les valeursheuristiques dans un vecteur. Pour rappel, ces valeurs heuristiques permettront


aux fourmis de s’orienter préférablement vers un domaine en particulier.Dès lors, au départ de ces deux sources de données, il nous est possible

de calculer la matrice de probabilité générale qui sera utilisée par les fourmi.En effet, nous effectuerons ce calcul à chaque début de cycle (pour rappel, uncycle est constitué de m itérations où m représente le nombre total de fourmide la colonie et où une itération consiste en la prédiction et l’évaluation d’uneconformation complète par une fourmi).

De plus, comme nous le disions précédament, nous avons décidé de procéderà une mise à jour phéromonale offline. Nous auront donc besoin d’une matricede stockage temporaire afin de simuler la simultanéité de recherche des fourmis.Ainsi, à la fin d’un cycle, nous disposerons d’une matrice contenant la totalitédes phéromones déposées pas nos fourmis.

Par ailleurs, afin de procéder à la mise à jour phéromonale élitiste, lesmeilleurs solutions seront conservées jusqu’à la fin d’un cycle. Il sera ensuitetemps d’effectuer un dépôt phéromonal additionnel dans la matrice phéromo-nale globale. Par la suite, seule la meilleure conformation prédite depuis lagenèse de la colonie sera conservée. Il y aura donc de nouvelles conformationsd’élite différentes à chaque fin de cycle.

A la fin de l’algorithme, la colonie renverra tout simplement la meilleureconformation protéique prédite. Généralement, cette conformation sera aussiécrite sur fichier PDB [8] afin de pouvoir procéder ensuite à une visualisationde la protéine prédite. On pourra également, dans le cas où la structure nativede la protéine est connue, procéder à un calcul RMSD de la prédiction avec lastructure native réelle.

Les différentes étapes de notre algorithme sont schématisées à la figure 4.1.

4.5 Récapitulatif

Ce chapitre nous a permis de passer en revue les diverses spécificités denotre algorithme. Ainsi, au fil des différents chapitres de cet ouvrage, nousavons découvert toujours plus en profondeur l’application et le développementde la métaheuristique des colonies de fourmis au problème de la prédiction abinitio de la structure native d’une protéine.

Le chapitre suivant propose donc de découvrir quelques réultats obtenuspar AC-ProPre. Nous pourons ensuite tirer les conclusions de notre travail etdévelopper quelques perspectives de développement futur.


F. 4.1 – AC-ProPre : déroulement schématique.

Chapitre 5

Tests et résultats

Afin d’évaluer les performances de notre algorithme, nous avons effectuéune batterie de tests sur les fragment 1 à 35 de la protéine 1UBQ, l’ubiquitine. Lastructure native de cette protéine étant connue, il nous est possible de calculerle RMSD entre notre prédiction et la conformation réelle des fragments 1 à 35de l’ubiquitine.

Afin d’obtenir un maximum d’informations intéressantes, nous avons évi-demment exécuté notre algorithme dans de multiples configurations paramé-triques. Nous allons donc dans un premier temps découvrir ces configurationspour ensuite en étudier les résultats.

5.1 Les configurations d’exécution de notre algorithme

Nous avons découvert au chapitre précédent que notre algorithme possèdebeaucoup de paramètres pouvant chacun prendre de nombreuses valeurs dif-férentes. Il a donc été nécessaire de faire quelques choix afin de procéder à nostests. Ainsi, nous avons décidé de dégager une douzaine de configurations para-métriques statiques permettant de tester dynamiquement d’autres paramètres.

Le premier paramètre statique est α, indicateur de l’importance relative ac-cordée aux phéromones locales lors de la prise de décision d’une fourmi. Al’instar de quelques études paramétriques réalisées dans le cadre de l’applica-tion de la métaheuristique de type colonie de fourmis (comme par exemple dans[28]), ce paramètre sera toujours fixé à 1. Par contre, β, qui donne l’importancerelative de la valeur heuristique, variera entre 1, 2 et 5. D’un autre côté, nousavons le facteur de persistance phéromonal, ρ, dont la valeur sera de 0,6 ou 0,8.

62

CHAPITRE 5. TESTS ET RÉSULTATS 63

Enfin, dans le but de tester l’impact des potentiels de distances sur la prédiction,nous avons décidé de tantôt utiliser les potentiels ds0 et ds1, tantôt de ne pas lefaire.

Pratiquement, nous avons donc créé 12 fichiers exécutables différents pro-posant une première configuration paramétrique statique définie. En effet, lesparamètres α, β et ρ seront invariable tout au long de l’exécution d’un des fi-chiers exécutables, de même que les potentiels ds0 et ds1 seront ou non pris encompte.

En ce qui concerne les autres paramètres, nous les avons fait varier dynami-quement et de la même manière dans chaque exécutable. Ainsi :

– le nombre de fourmis varie de 50 à 500 par intervalle de 50 ;– le nombre de fourmis d’élite prends les valeurs de 0.00%, 0.01%, 0.10% et

0.50% du nombre de fourmis de la colonie ;– le facteur d’élitisme prends les valeurs de 2, 5 et 10 ;– et le nombre d’itération est de 100, 200 ou 500.

De plus, nous avons fixé le nombre autorisé d’itérations sans modifications à10% du nombre d’itérations total et à 0.10 l’amélioration énergétique minimale.

Au final, nous obtenons donc 360 configurations dynamiques différentes.Dès lors, comme il y a 12 configurations statiques d’exécution, nous effectuerons4320 prédictions. De plus, afin d’avoir un minimum d’aspect statistique pournos résultats, nous avons exécuté chaque configuration 5 fois. En résumé, nousavons effectués 21600 exécutions de notre algorithme. Cela dit, découvrons-enles résultats.

5.2 Résultats obtenus

5.2.1 Evaluation énergétique de notre algorithme

Le but à atteindre par notre algorithme est, rappelons le, la minimisation dela fonction énergétique utlisée. Cela signifie donc que si la configuration préditeprésente une énergie libre minimale, l’objectif primaire sera atteint.

Nous avons donc établi des graphiques reprennant l’énergie libre moyennecalculée dans une configurations algorithmique bien définie. En ne considérantdans un premier temps que les configurations ne prenant pas en compte les po-tentiels de distance, les graphiques de la figure 5.1 nous montrent très clairementque l’énergie minimale est généralement trouvée avec un nombre important de


fourmis. Malheureusement, aucun de ces graphiques ne fait ressortir de confi-guration préférentielle. Notons toutefois que le nombre d’itérations influe demanière générale sur la qualité des conformations prédites. En effet, il apparaîtvisiblement que pour tout autre paramètre équivalent, la moyenne d’énergie estplus basse quand le nombre d’itération est à 500.

Ces observations sont valables pour toutes les configurations algorithmiquesne prenant pas en compte les potentiel de distance à l’exception toutefois de laconfiguration (α = 1, β = 1, ρ = 0.6) (cfr. figure 5.2). En effet, dans ce cas-ci,les courbes sont plutôt anarchiques et ne présentent aucune pente particulière.Cela pourrait s’expliquer par un comportement exploratoire trop poussé. Eneffet, dans cette configuration-ci, la valeur heuristique n’est pas mise en avant(β = 1) et la persistence phéromonale est faible.

En ce qui concerne les prédictions effectuées avec la prise en compte despotentiels de distance, un comportement similaire se dégage avec néanmoinsquelques nuances (cfr. figur 5.3). Premièrement, il est flagrant que l’énergie libreglobale moyenne des prédictions effectuées dans ce cas-ci sont toutes suppé-rieures à celle calculée sans la prise en compte des potentiels de distance. Celas’explique simplement par le fait que les potentiels de distance prennent encompte les distances spatiales et sont donc difficiles à minimiser.

A nouveau, certaines configurations (celles avec β = 1) présentent descourbes plutôt anarchique (cfr. figure 5.4). A nouveau, cela s’explique par uncomportement probablement trop exploratoire.

5.2.2 Calcul du RMSD

En ce qui concerne l’évaluation par RMSD de nos prédictions, les résultatsont fort probablement souffert suite au calcul de la moyenne des résultats d’uneconfiguration équivalente. En effet, lors des cinq exécutions à configurationidentique, l’écart entre le RMSD le plus petit et le RMSD le plus élevé étaitgénéralement élevé. Ainsi, aucune moyenne intéressante ne ressort de notreanalyse. Par exemple, nous constatons que la figure 5.5 offre des RMSD moyencompris entre 8Å et 16Å, ce qui est assez élevé.

Par ailleurs, on aurait pu s’attendre à ce que la prise en compte des potentielsde distance améliore sensiblement le résultat du calcul RMSD. En effet, il seraitlogique que de par la prise en compte des interactions spatiales, une structureprédite présente plus de similitudes avec la structure réelle de la protéine étu-diée. Malheureusement ce n’est pas du tout le cas, les courbes RMSD de toutes


F. 5.1 – Graphiques de l’énergie moyenne des prédictions effectuées avec uneconfiguration de (α = 1, β = 1, ρ = 0.8, ds0 et ds1 ne sont pas pris en compte).Les graphique allignés se passent à un nombre d’itérations équivalent et lesgraphiques en colonne ont le même facteur d’élitisme. Les quatres courbesreprésentent chacune un nombre de fourmis d’élite différent.


F. 5.2 – Graphiques de l’énergie moyenne des prédictions effectuées avec uneconfiguration de (α = 1,β = 1,ρ = 0.6, ds0 et ds1 ne sont pas pris en compte). Dansce cas-ci, les diverses courbe montrent un comportement tout à fait disparate.


F. 5.3 – Graphiques de l’énergie moyenne des prédictions effectuées avecune configuration de (α = 1, β = 2, ρ = 0.8, ds0 et ds1 sont pris en compte).Les graphique allignés se passent à un nombre d’itérations équivalent et lesgraphiques en colonne ont le même facteur d’élitisme. Les quatres courbesreprésentent chacune un nombre de fourmis d’élite différent.


F. 5.4 – Graphiques de l’énergie moyenne des prédictions effectuées avec uneconfiguration de (α = 1, β = 1, ρ = 0.6, ds0 et ds1 sont pris en compte). Dans cecas-ci, les diverses courbe montrent un comportement tout à fait disparate.


les configurations utilisées présentent la même allure que celle montrée en figure5.5.

Par contre, l’observation des résultats obtenus individuellement montre que59% des RMSD inférieurs à 6Å sont obtenus lors de la prise en considération despotentiels de distance. Dès lors, au vu des résultats de cette section et de la sectionprécédente, il est légitime de se demander dans quelle mesure il ne faudrait pasaccorder un poids prépondérant aux potentiels de distance. En effet, il se pourraitque dans notre algorithme, les valeurs énergétiques calculées par les potentielsde distance n’aient qu’une toute petite influence sur l’énergie libre globale de laprotéine. Rappelons nous d’ailleurs que l’impact des potentiels de tortions tt0et ttt1 est volontairement déiminué dans notre algorithme, afin justement de nepas favoriser les interactions locales au détriment des interactions spatiales !

Pour conclure cette section, il est tout de même important de relever lemeilleur RMSD calculé sur une de nos prédiction. En effet, nous avons obtenusune conformation protéique présentant un RMSD de 3,52Å avec la structurenative correspondante, ce qui est assez encourageant ! A titre comparatif, [18]obtient, pour le même fragment de protéine, un RMSD minimal de 3,1Å. Bienentendus, les outlis et méthodes utilisés sont différents mais le résultat est là.

5.2.3 RMSD Vs énergie libre

Une question intéressante serait de se demander quelle est la correspondanceentre les meilleurs RMSD et les meilleurs énergies libre. Cette question permeten fait d’évaluer la qualité des fonctions énergétiques utilisées. En effet, dansle cas ou ces fonctions sont parfaites, obtenir une structure d’énergie minimalegarantirait un RMSD faible.

Les schémas ci-dessous (cfr. figure 5.6) nous montrent ce que donne unetelle comparaison. Le premier reprend l’intégralité des résultats obtenus pourles 10800 exécutions ne prenant pas en compte les potentiels de distance. Néan-moins, le schéma correspondant dans le cas où ces potentiels serait actifs et toutà fait semblable.

Afin d’y voir plus clair, nous avons isolé les RMSD inférieurs à 7Å ce quidonne le schéma de la figure 5.6(b). Nous constatons donc que pour une mêmeénergie libre, les RMSD peuvent être différent ! Cela montre clairement l’imper-fection des fonctions énergétiques utilisées ainsi que l’impact de la limitation denotre algorithme à 8 potentiels de deux types différents. En effet, d’autres typesde potentiels existent et pourraient peut-être améliorer ces résultats.


F. 5.5 – Graphiques du RMSD moyen des prédictions effectuées avec uneconfiguration de (α = 1, β = 5, ρ = 0.8, ds0 et ds1 sont pris en compte). L’allurede ces courbes n’évoque rien de particulier.


Les observations effectuées ci-dessus nous permettent par contre de mieuxcomprendre la diversité des résultats RMSD et donc les valeurs moyennes éle-vées obtenue pour ces résultats. A nouveau, la question d’une pondérationparticulière accordée à certains potentiel peut être soulevée.

F. 5.6 – Graphiques de comparaison entre le RMSD et l’énergie libre d’uneconformation prédite : (a) prise en compte de toute les prédictions effectuéessans considération des potentiels de distance, (b) limitation aux prédictionsprésentant un RMSD inférieur à 7Å.

A titre quantitatif, voici les cinq meilleurs scores énergétiques et leurs RMSDassocié dans le cas où les potentiels de torsions ne sont pas pris en compte :

Energie libre RMSD-34,8138 11,5475-34,5582 15,9341-34,3296 15,2262-33,8029 10,0224-33,6585 15,58

et le meilleur RMSD (3,9989Å) possède un score énergétique de -20,5775 !En considérant les potentiels de distances nous obtenons le tableau suivant :


Energie libre RMSD-26,0189 9,9723-25,5462 9,6658-24,7493 14,4044-24,0495 14,8154-23,8619 13,8676

et le meilleur RMSD (3,5222Å) possède un score énergétique de -10,6868 !

5.3 Notre meilleure prédiction : une RMSD de 3,5222Å

Pour terminer en beauté, découvrons les étapes intermédiaires de notremeilleure prédiction. Le tableaux ci-dessous reprends l’évolution de notre pré-diction en ce qui concerne les RMSD et le score énergétique. Notons que nousavons pu procéder à la réexécution de cette simulation grâce à la sauvegarde dunuméro aléatoire généré par une fonction interne au angage C++. La prédictiona donc fourni les résultats suivants :

Cycle Energie libre RMSD1 29,182 9,51864

11 7,71167 10,520821 3,49845 9,1843131 3,49845 9,1843141 -9,41256 10,472851 -9,41256 10,472861 -9,41256 10,472871 -9,41256 10,472881 -9,41256 10,472891 -10,6507 5,55853

101 -10,6507 5,55853111 -10,6507 5,55853121 -10,6507 5,55853131 -10,6868 3,52219140 -10,6868 3,52219

Pour remettre cette prédiction dans son contexte, signalons qu’elle a été obtenuepar une colonie de 100 fourmis dont la moité étaient des fourmis d’élite. Lefacteur d’élitisme était de 5, ce qui implique une sérieuse prise en compte des


meilleurs résultat de chaque cycle ! En ce qui concerne les autres paramètre, αet β étaient à 1, ρ à 0,6. Enfin, le nombre d’itération maximal était fixé à 500.

En image, la figure 5.7 nous montre la prédiction effectuée par AC-ProPreet la figure 5.8 la structure native réelle de l’ubiquitine (résidu 1-35). Enfin, lafigure 5.9 nous montre ce que donne la meilleure superposition de ces deuxconformations tridimentionnelles.

F. 5.7 – Représentation de la structure tertiaire de la prédiction effectuée parAC-ProPre.


F. 5.8 – Représentation de la structure tertiaire de l’ubiquitine (résidu 1-35).


F. 5.9 – Supperposition de la conformation simulée par AC-ProPre avec laconformation native connue.

Conclusion

De nombreuses méthodes de prédiction de la structure native d’une protéineexistent à ce jour. Parmi elles, la métaheuristique d’optimisation par colonie defourmis propose un moyen particulier pour résoudre ce problème. Basé sur lacommunication indirecte entre les agents de recheche (les fourmis artificielles),cette méthode a déjà connu diverses implémentations, les plus fréquentes ayantété réalisées sur un modèle réseau utilisant comme représentation de la protéinele modèle HP [16, 36].

Cet ouvrage a présenté une nouvelle implémentation de cette métaheuris-tique faisant usage d’un modèle hors réseaux et d’une représentation détailléede la protéines et des acides aminés la composant. Le but recherché était d’ap-pliquer une méthode de recherche performante sur une modélisation fine duproblème.

Malgrés ses nombreux avantages, la métaheuristique d’optimisation par co-lonie de fourmi nécessite un temps considérable en tests afin d’en déterminer laconfiguration paramétrique. Nous avons donc effectué quelques choix afin deprocéder à des test qui nous semblaient intéressants. Les résultats de ces testssont extrèmement encourageant pour un premier essai. En effet, des prédictionstout à fait valables ont eu lieu.

Malheureusement, nous n’imaginions pas l’étendue des tests faisables ainsique l’influence des méthodes statistiques sur les résultats obtenus. Ainsi, denomreux essais et expériences sont encore à faire. Une perspective intéressanteserait de permettre l’autoadaptativité de nos paramètres. Cette méthode proposede faire de la configuration paramétrique une série de variable directementmodifiable par l’algorithme en cours, en fonction des résultats obtenus.

Une autre idée serait de procéder à la paramétrisation de l’algorithme surbase des résultats fournis par le calcul RMSD. Bien entendu, cela ne sera faisableque dans le cas d’une protéine dont la structure native est connue. Une foisque des paramètres satisfaisants auront été dégagé, les performances atteintes

76

Conclusion 77

pour une protéine du même ordre de grandeur que celle ayant servi à la pa-ramétrisation seraient probablement élevées. Il sera ainsi intéressant d’étudierle comportement de AC-ProPre dans le cas de protéines plus importantes ouprésentant des caractéristiques particulières.

Il serait également possible de modifier le fonctionement de notre algorithmeen faisant des choix stratégiques différents. En effet, il est certain que le compor-tement des fourmis sera modifié en fonction de la stratégie de dépôt phéromonalutilisée. De plus, le calcul de la valeur heuristique pourrait se baser sur d’autresdonnées permettant ainsi une exploration différente de l’espace conformation-nel.

Un dernier point intéressant serait d’utiliser ce genre de méthode pour dé-terminer la robustesse des fonctions énergétiques. En effet, comme nous le dé-couvrions dans le chapitre précédent, une fonction énergétique idéale devraitpermettre d’obtenir, en fonction de sa minimisation, un RMSD également mini-mal.

Notre travail constite donc une première étape fortement intéressante dansl’implémentation de métaheuristiques de recherche utilisant une représentationdétaille de la protéine ainsi que de l’espace conformationnel dans lequel elleévolue.

Bibliographie

[1] T.E. Creighton. Proteins : structure and molecular properties. W.H. Freemanand Company, New York, 1993.

[2] J-PA. Kocher, MJ. Rooman, and SJ. Wodack. Factors influencing the ability ofknowledge-based potentials to identify native sequence-structure matches.J. Mol. Biol., 234 :1598–1613, 1994.

[3] C. Levinthal. Mossbauer spectroscopy in biological systems. In How to foldgraciously, pages 22–24. Debrunner, P. and Tsibris J. and Munk, E. editors,1969.

[4] Nora Benhabilès, Annick Thomas, and Robert Brasseur. Les méchanismesde repliements des protéines solubles. Biotechnol. Agron. Soc. Environ.,4(2) :71–81, March 2000.

[5] J.N. Onuchic, H. Nymeyer, A.E. Garcia, J. Chahine, and N.D. Socci. Theenergy landscape theory of protein folding : insights into folding mecha-nisms and scenarios. Advances in protein Chemistry, 53 :87–152, 2000.

[6] HS. Chan and KA. Dill. Protein folding in the landscape perspective :chevron plots and non-arrhenius kinetics. Proteins : Struct. Funct. Genet.,30 :2–33, 1998.

[7] HS. Chan and KA. Dill. From levinthal to pathways to tunnels. Nat. Stru.Biol., 4 :1O–19, 1997.

[8] H.M. Berman, J. Westbrook, Z. Freng, G Gililand, H. Bhat, T.N. ans Weissig,I.N. Shindyalov, and P.E. Bourne. The protein data bank. Nucleic AcidsResearch, 28 :235–242, 2000.

[9] G. Wagner, S.G. Hyberts, and T.F. Havel. Nmr structure determination insolution :a critique and comparison with x-ray crystallography. AnnualReview of Biophysics and Biomolecular Structure, 21 :167–198, 1992.

78

BIBLIOGRAPHIE 79

[10] G. Wider. Structure determination of biological macromolecules in solutionusing nuclear magnetic resonance spectroscopy. Biotechniques, 29 :1278–1290, 2000.

[11] J. Kubelka, J. Hofrichter, and WA. Easton. The protein folding speed limit.Current Opinion in Structural Biology, 14 :76–88, 2004.

[12] AC. May and TL. Blundell. Automated comparative modelling of proteinstructures. Current Opinion in Biotechnology, 5 :355–360, 1994.

[13] A. Godzik. Fold recognition methods. Methods in Biochemical Analysis,44 :525–546, 2003.

[14] MJ. Rooman, J-PA. Kocher, and SJ. Wodak. Prediction of protein back-bone conformation based on 7 structure assignments : influence of localinteraction. J. Mol. Biol., 221 :961–979, 1991.

[15] L. Holm and C. Sander. Dali/fssp classification of three-dimensional proteinfolds. Nucleic Acids Res., 25(1) :231–234, 1997.

[16] KA. Dill, S. Bornberg, K. Yue, Y. Fiebig, D. Yee, P. Thomas, and H. Chan.Principles of protein folding - a perspective from simple exact models.Protein Science, 4 :561–602, 1995.

[17] M. Levitt. A simplified representation of protein conformation for rapidsimulation of protein folding. J MOL Biol, 104 :59–107, 1976.

[18] D. Gilis and M. Rooman. Identification and ab initio simlations of earlyfolding units in protins. Proteins : Struct. Funct. Genet., 42 :164–176, 2001.

[19] N. Metropolis, AW. Rosenbluth, MN. Rosenbluth, and AH. Teller. Equationof state calculation by fast computing machines. J. Chem. Phys., 21 :21087–1092, 1953.

[20] S. Kirkpatrick, CD. Jr Gelatt, and MP. Vecchi. Optimization by simulatedannealing. Science, 220 :671–680, 1983.

[21] V. Granville, M. Krivanek, and J.P. Rasson. Simlated annealing : A proof ofconvergence. IEEE Transactions on Pattern Analysis and Machine Intelligence,16(6) :652–656, 1994.

[22] A. Colorni, M. Dorigo, F. Maffioli, V. Maniezzo, G. Righini, and M. Trubian.Heuristics from nature for hard combinatorial optimization problems. In-ternational Transaction in Operational Research, 3(2) :1–21, 1996.

[23] Glover F. Tabu search : a tutorial. Special Issue on the practice of MathematicalProgramming - Interfaces, 20(1) :74–94, 1990.

BIBLIOGRAPHIE 80

[24] DE. Goldberg. Genetic Algorithms in Search, Optimization, and Machine Lear-ning. Addison Wesley, 1989.

[25] S. Ben Hamida. Algorithmes évolutionnaires : prise en compte des contraintes etapplications réelles. Paris-Sud XI, 2001.

[26] JL. Deneubourg, JM. Pasteels, and Verhaeghe JC. Probabilistic behaviour inants : a strategy of errors ? Journal of Theoretical Biology, 105 :259–271, 1983.

[27] A. Colorni, M. Dorigo, and V. Maniezzo. Distributed optimization by antcolonies. In Proceedings of European Conference on Artificial Life, pages 134–142, 1991.

[28] A. Colorni, M. Dorigo, and V. Maniezzo. An investigation of some proper-ties of an ant algorithm. In Proceedings of the Parallel Problem Solving fromNature Conference, pages 509–520, 1992.

[29] M. Dorigo, G. Di Caro, and LM. Gambardella. Ant algorithms for discreteoptimization. Artificial Life, 5(3) :137–172, 1999.

[30] M. Dorigo. Parallel ant system : An experimental study. Unpublished ma-nuscript, 1993.

[31] MG. Norman and P. Moscato. A competitive-cooperative approach to com-plex combinatorial search. In Proceedings of the 20th Joint Conference onInformation and O.R., pages 315–329, 1991.

[32] D. Beyer and R. Ogier. Tabu learning : a neural network search method forsolving nonconvex optimization problem. In Proceedings of the InternationalJoint Conference on Neural Network, 1991.

[33] G. Ramachandran and V. Sasilekharan. Conformation of peptides andproteins. Adv. Protein Chem., 23 :283–438, 1968.

[34] MJ. Rooman, J-PA. Kocher, and SJ. Wodak. Extracting information on fol-ding from the amino acid sequence : accurate prediction for protein regionswith preferred conformation in the abscence of tertiary interactions. Bio-chemistry, 31 :10226–10238, 1992.

[35] Y. Dehouck, D. Gilis, and M. Rooman. A new generation of statisticalpotentials for proteins. Biophys J., 90(11) :4010–4017, June 2006.

[36] A. Shmygelska and HH. Hoos. An ant colony optimisation algorithme forthe 2d and 3d hydrophobic polar protein folding problem. BMC Bioinfor-matics, 6 :30–51, 2005.

[37] K. Braden. A simple approach to protein structure prediction using geneticalgorithms. Stanford University, CS 426 :36–44, 2002.

Algorithme d'optimisation par colonie de fourmis

Documents

Transcript of Algorithme d'optimisation par colonie de fourmis