modélisation et analyse des propriétés mécaniques des protéines

1

THÈSE DE DOCTORAT DE L’UNIVERSITÉ PARIS 6

PIERRE & MARIE CURIE

Ecole doctorale CHIMIE PHYSIQUE ET CHIMIE ANALYTIQUE DE PARIS CENTRE

Spécialité :

CHIMIE (Matière Condensée)

Présentée par :

Isabelle SOURY-LAVERGNE NAVIZET

Pour obtenir le grade de DOCTEUR de l’UNIVERSITÉ PARIS 6

MODÉLISATION ET ANALYSE DES PROPRIÉTÉS

MÉCANIQUES DES PROTÉINES

Soutenue le 5 mars 2004

devant le jury composé de :

Richard LAVERY ……………..Directeur de thèse

Monique GENEST……………..Rapporteur

David PERAHIA……………….Rapporteur

Christian AMATORE…………..Président

Anne HOUDUSSE……………..Examinateur

Jean-Marc VICTOR…………….Examinateur

AVERTISSEMENT

La version de cette thèse n’est pas la version complète de la thèse soutenue le 5 mars 2004. J’y ai enlevé l’article du chapitre 7 qui n’a pas encore été publié.

3

À Damien et Léonard.

5

REMERCIEMENTS Le présent travail a été réalisé au Laboratory of Experimental and Computational Biology, au National Cancer Institute des NIH de Bethesda aux États-Unis et au Laboratoire de Biochimie Théorique à l’Institut de Biologie Physico-Chimique à Paris. Je souhaite remercier tout particulièrement Richard Lavery qui a accepté de diriger cette thèse et m’a permis de partir un an travailler avec Robert Jernigan. Je tiens à lui témoigner ici toute ma reconnaissance pour m’avoir acceuillie dans son laboratoire et pour m’avoir accordé sa confiance dans la réalisation de ce travail. Je le remercie sincèrement d’avoir inspiré cette thèse avec enthousiasme. I would like to thank Robert Jernigan for accepting to have me as his first PhD student and for his kindness. Je voudrais exprimer ma profonde reconnaissance à Christian Amatore pour le soutient qu’il m’a témoigné tout au long de cette thèse et pour l’honneur qu’il me fait de présider le jury de thèse. Je remercie Monique Genest et David Perahia d’avoir aimablement accepté d’être les rapporteurs de cette thèse. Merci également à Anne Houdusse et Jean-Marc Victor, qui ont bien voulu examiner mon travail. Un merci tout particulier à Fabien Cailliez qui a su reprendre si vite la relève et à Chantal Prévost pour les longues discussions et les conseils en programmation. J’adresse également mes plus vifs remerciements à Marc Baaden, Philippe Derreumaux, Brigitte Hartmann, Anne Lebrun, Thérèse Malliavin, Alexey Mazur, Sophie Sacquin-Mora, Youri Timsit, Peter Varnai et Krystyna Zakrzewska, pour leur disponibilité, leurs conseils et les nombreuses discussions qui m’ont aidé tout au long de ces années. Merci à Daniel Piazzola pour sa bonne humeur et son assistance technologique qui ont contribué à la réussite de ce travail. Merci à Isabelle Lépine pour sa gentillesse et sa disponibilité en toutes circonstances. Merci à tous les étudiants en thèse rencontrés au Laboratoire de Biochimie théorique : Guillaume, Raphael, Ingrid, Emmanuel, Dragana, Guillaume, Cyril, Karine, Cyril et Fabien pour leur amitié et les pauses déjeuner. I am also grateful to all other scientists at the National Cancer Institute for their help and interesting discussions: particularly Pemra Doruker, Peter Greif, Ozlem Keskin, Ruth Nussinov, Yinon Shafrir, Michael Tolstorukov and Victor Zhurkin. Merci à Alain, Damien et Fabien pour la relecture de ce manuscrit. Merci aussi à vous que je ne cite pas ici mais qui avez contribué à cette thèse par vos conseils ou votre amitié. Enfin, je tiens à remercier ma famille et tout particulièrement mon tendre époux pour avoir toujours été à mes côtés pendant ces années, pour avoir partagé mes doutes et mes espoirs, pour m’avoir encouragée et soutenue lorsque je ne croyais plus en mon travail et pour avoir fêté avec moi mes petites victoires. Merci aussi à Léonard, qui a certes retardé un peu la réalisation de ce manuscrit mais qui m’a permis de l’écrire dans les meilleures conditions qu’il soit en faisant ses nuits.

7

TABLE DES MATIÈRES Chapitre 1 Introduction.................................................................................... 11

Chapitre 2 Les protéines................................................................................... 15

I Structure des protéines .............................................................................................. 16

I.1 Structure générale ........................................................................................................ 16 I.2 Les acides aminés ........................................................................................................ 16

I.2.1 Le carbone chiral ............................................................................................. 16 I.2.2 Propriétés acido-basiques................................................................................ 17 I.2.3 Classification suivant la nature des chaînes latérales ..................................... 17

I.3 La liaison peptidique ................................................................................................... 19 I.3.1 Une liaison plane ............................................................................................. 19 I.3.2 Les angles de la chaîne peptidique .................................................................. 21 I.3.3 Diagramme de Ramachandran ........................................................................ 22

I.4 La hiérarchie dans la description d’une structure protéique ........................................ 24 I.4.1 La structure primaire ....................................................................................... 24 I.4.2 La structure secondaire ................................................................................... 24 I.4.3 La structure tertiaire........................................................................................ 24 I.4.4 La structure quaternaire .................................................................................. 25

II Les structures secondaires......................................................................................... 26

II.1 Les hélices............................................................................................................... 26

II.1.1 L’hélice α........................................................................................................ 26 II.1.2 Les autres structures hélicoïdales .................................................................. 28

II.2 Le feuillet β............................................................................................................. 29 II.3 Coudes et boucles ................................................................................................... 30

Chapitre 3 Repliement, dynamique et stabilité des protéines....................... 31

III Stabilité des protéines ............................................................................................... 32

III.1 Une stabilité marginale ........................................................................................... 32 III.2 Les différents effets influençant la stabilité de la structure native.......................... 32

III.2.1 Interactions électrostatiques ......................................................................... 33 III.2.2 Effets hydrophobes et solvatation.................................................................. 34 III.2.3 Ponts disulfure............................................................................................... 35

III.3 Cœur hydrophobe.................................................................................................... 35

IV Le repliement des protéines ...................................................................................... 36

IV.1 Contrôle thermodynamique ou cinétique ? ............................................................. 36 IV.2 Les différents modèles de repliement proposés ...................................................... 38

8

IV.3 Le repliement in vivo .............................................................................................. 39 IV.4 Modèles théoriques pour étudier le repliement....................................................... 40

V Dépliement des protéines .......................................................................................... 42

V.1 Provoquer un dépliement in vitro ........................................................................... 42 V.1.1 Contraintes globales ....................................................................................... 42 V.1.2 Nanomanipulations ......................................................................................... 45

V.2 Études théoriques .................................................................................................... 48 V.2.1 Exemple d’une étude par dynamique moléculaire et données expérimentales48 V.2.2 Études théoriques du dépliement .................................................................... 49

VI Rigidité et flexibilité des protéines ........................................................................... 51

VI.1 Dynamique des protéines........................................................................................ 51 VI.2 Facteurs de température .......................................................................................... 52

Chapitre 4 Méthodologie .................................................................................. 53

VII Champ de force................................................................................................. 54

VIII Minimisation..................................................................................................... 59

VIII.1 Gradient simple et conjugué ............................................................................... 59 VIII.2 Quasi-Newton..................................................................................................... 61

IX Dynamique moléculaire ............................................................................................ 63

IX.1 Résolution de l’équation du mouvement ................................................................ 63 IX.2 Ensemble NPT ........................................................................................................ 65 IX.3 Conditions périodiques ........................................................................................... 66 IX.4 Troncature LJ .......................................................................................................... 67 IX.5 Protocole de dynamique moléculaire...................................................................... 68

X Représentation du solvant ......................................................................................... 70

X.1 Solvant explicite ..................................................................................................... 70 X.2 Solvant implicite : modèle de Born généralisé ....................................................... 70

XI Coordonnées internes ................................................................................................ 73

XI.1 Le système des coordonnées internes ..................................................................... 73 XI.2 Système d’axe : le pivot.......................................................................................... 74 XI.3 Minimisation ........................................................................................................... 75 XI.4 Champ de force et représentation du solvant .......................................................... 75 XI.5 Préparation des données : le programme PCHEM.................................................. 75 XI.6 Les différentes utilisations de LIGAND ................................................................. 76 XI.7 Limitation par la taille des protéines....................................................................... 76

XII Modèle granulaire............................................................................................. 77

XII.1 L’origine du modèle granulaire .............................................................................. 77

9

XII.2 Le modèle granulaire appliqué aux protéines ......................................................... 77 XII.3 GNM : Gaussian Network Model ........................................................................... 80 XII.4 ANM : Anisotropic Network Model....................................................................... 81 XII.5 Applications ............................................................................................................ 83

XII.5.1 Facteurs de température .............................................................................. 83 XII.5.2 Étude des modes normaux, graphes de corrélation ..................................... 84 XII.5.3 Description des ouvertures et des fermetures des sites enzymatiques ......... 88

XII.6 Modification des modèles granulaires .................................................................... 89 XII.7 Minimisation avec une représentation granulaire ................................................... 90

Chapitre 5 Des outils originaux pour comprendre les propriétés mécaniques

des protéines....................................................................................................... 91

XIII Les contraintes mécaniques appliquées sur les protéines ................................. 92

XIII.1 Introduction ........................................................................................................ 92 XIII.1.1 Contraintes locales et globales ................................................................... 92 XIII.1.2 Principe d’application ................................................................................ 92

XIII.2 Contraintes globales : expériences de dépliement partiel ................................... 93 XIII.2.1 Contrainte RMS de distance ....................................................................... 93

XIII.2.2 Variante ne prenant en compte que les carbones α.................................... 94 XIII.2.3 Avantage de la contrainte ........................................................................... 94 XIII.2.4 Expériences de dépliement partiel en dynamique moléculaire................... 95

XIII.3 Contraintes locales............................................................................................ 100 XIII.3.1 Contrainte sur la valeur moyenne des distances ...................................... 100 XIII.3.2 Pourquoi cette contrainte ? ...................................................................... 101 XIII.3.3 Calcul des constantes de force de déplacement par résidu ...................... 101

XIV Domaines structuraux et mécaniques ............................................................. 104

XIV.1 Classification automatique ............................................................................... 105 XIV.1.1 Indice de dissimilarité ............................................................................... 106 XIV.1.2 Constitution des groupes........................................................................... 106

XIV.2 Comparer deux structures................................................................................. 108 XIV.2.1 Comparaison de deux structures............................................................... 108 XIV.2.2 Classification des protéines par comparaison .......................................... 109

XIV.3 Identifier des domaines rigides à partir de deux structures distinctes .............. 111 XIV.3.1 Utilisation de superposition entre structures ............................................ 112 XIV.3.2 Utilisation de matrice de distances ........................................................... 112 XIV.3.3 Exemple d’algorithme utilisant la comparaison de matrices de distances114 XIV.3.4 Le problème du bruit................................................................................. 114

10

XIV.4 Définition des blocs structuraux ....................................................................... 114 XIV.5 Identification de domaines sans comparaison .................................................. 116 XIV.6 Domaines mécaniques ...................................................................................... 117

Chapitre 6 Article : Flexibilité de la myosine : domaines structuraux et

vibrations collectives. ...................................................................................... 121

XV Introduction .................................................................................................... 122

XV.1 La myosine : une protéine moteur......................................................................... 122 XV.1.1 Différents types de myosines ...................................................................... 122 XV.1.2 Cycles actine-myosine ................................................................................ 128

XV.2 Blocs structuraux et étude des modes normaux .................................................... 134

XVI Myosin Flexibility : Structural Domains and Collective Vibrations.............. 135

XVII Conclusion ...................................................................................................... 154

Chapitre 7 Article : Propriétés mécaniques des protéines à l’échelle du

résidu et leur utilisation pour définir des structurations en domaines...... 157

XVIII Introduction .................................................................................................... 158

XIX Probing protein mechanics: Residue-level properties and their use in defining

domain structures.............................................................................................................. 159

XX Conclusion ...................................................................................................... 182

Chapitre 8 Conclusion générale ..................................................................... 183

BIBLIOGRAPHIE .......................................................................................... 187

ANNEXE 1 : Contraintes mécaniques .......................................................... 199

I Contraintes globales ......................................................................................................... 199 II Contraintes locales .......................................................................................................... 201

ANNEXE 2 : Important Fluctuation Dynamics of Large Protein Structures

are Preserved upon Coarse-Grained Renormalization ............................... 205

Introduction......................................................................................................................... 205 Article : ............................................................................................................................... 207

11

Chapitre 1 Introduction

L’essor actuel de la biologie moléculaire serait impossible sans l’obtention des structures des

biopolymères par cristallographie ou par spectrocopie RMN. Néanmoins, malgré la croissance

exponentielle du nombre de structures résolues, ces informations sont généralement

insuffisantes pour comprendre le fonctionnement des macromolécules. Les biopolymères

comportent souvent des milliers de monomères (acides aminés ou nucléotides), mais ils ne

sont que marginalement stables. Leurs structures sont maintenues par un ensemble

d’interactions faibles (van der Waals, liaisons hydrogène, effet hydrophobe,…) qui autorisent

des mouvements sur des échelles de temps allant de la femtoseconde aux millisecondes et

ayant des amplitudes allant de quelques dixièmes d’angströms à plusieurs dizaines

d’angströms. Il est ainsi évident que les propriétés mécaniques et dynamiques des

biopolymères sont un élément fondamental de leur fonctionnement.

Malheureusement, il existe aujourd’hui peu de données sur ces propriétés mécaniques. Des

techniques spectroscopiques peuvent apporter des informations importantes mais elles sont

difficilement interprétables quand elles impliquent des mouvements globaux de grandes

molécules. D’un autre côté, la cristallographie peut fournir différentes conformations d’une

même macromolécule (par exemple, avec ou sans substrat), mais ne donne pas beaucoup

d’information sur la flexibilité des éléments qui composent ces conformations. Cependant, de

nombreux progrès ont été réalisés au niveau des expériences de manipulation de molécules

12

uniques au cours de la dernière décennie. Ces expériences consistent en l'application de forces

sur une macromolécule biologique afin d'observer ses propriétés mécaniques et d'en tirer des

conséquences au niveau de sa fonction biologique [Bensimon; 1996, Lavery, et al.; 2002b].

Les premières molécules à bénéficier de ce traitement ont été les brins d'ADN pour des

raisons techniques (disponibilité des molécules, techniques de fixation à différents supports

préexistantes,…). Ces expériences ont permis de mesurer les forces nécessaires pour

l'étirement [Cluzel, et al.; 1996], la torsion [Allemand, et al.; 1998] et la séparation des brins

d'ADN [Essevaz-Roulet, et al.; 1997]. Plus récemment, ce type d'étude a été étendu aux

protéines [Smith, et al.; 2003].

Parallèlement à cette approche expérimentale, la simulation numérique de ces manipulations

s'est développée afin de relier les forces appliquées aux changements structuraux impliqués au

niveau moléculaire. À cette fin, différentes méthodes ont été développées. Etant donnée la

difficulté de mise en oeuvre de simulations classiques de dynamique moléculaire en solvant

explicite (incompatibilité des échelles de temps notamment), une approche originale a été

développée au sein du laboratoire de Biochimie Théorique de l’IBPC basée sur la

représentation des macromolécules à l'aide de coordonnées internes. Cette modélisation a

permis de réduire de manière significative le nombre de variables et de faciliter ainsi les

calculs de minimisation d'énergie. Dans cette approche, les forces appliquées à la molécule

sont modélisées par des contraintes géométriques [Lebrun & Lavery; 1998]. Cette

méthodologie développée afin de simuler les expériences impliquant l'ADN a obtenu des

résultats très satisfaisants. Elle a notamment permis l'identification de nouvelles

conformations de la double hélice d'ADN, et d'établir un lien entre les propriétés mécaniques

de l'ADN et ses interactions avec des protéines comme la TBP (TATA box Binding Protein)

[Lebrun & Lavery; 1999, Lebrun, et al.; 1997]. Ce succès a tout naturellement débouché sur

l’idée d’adapter cette technique à l'étude des protéines.

Les protéines représentent plus de la moitié de la masse d’une cellule à l’exclusion de l’eau.

Ces macromolécules jouent donc un rôle primordial dans le fonctionnement des organismes

vivants, en réalisant des fonctions diverses. La connaissance des propriétés mécaniques des

protéines est donc importante pour comprendre leur rôle au sein du vivant. En effet, plusieurs

protéines subissent ou réagissent à des sollicitations mécaniques lors de leur fonctionnement.

Dans cette catégorie, nous pouvons citer les protéines des fibres musculaires, les protéines

moteurs et les protéines constituant des canaux transmembranaires mécanosensibles.

13

Ainsi, alors que la résolution de plusieurs structures cristallographiques des domaines moteurs

de la myosine (qui se déplace sur un microfilament d’actine) et de la kinésine (qui se déplace

sur un microtubule) n'a pas pu apporter de réponse définitive quant aux mécanismes de ces

moteurs, l’analyse des propriétés mécaniques de ces domaines devraient fournir de nouvelles

informations sur ces mécanismes.

En fait, les propriétés mécaniques de toutes les protéines sont intéressantes d’une façon

générale. Les sites catalytiques et les surfaces d’interaction des protéines sont des parties très

importantes pour la fonction des protéines et présentent certainement des propriétés

mécaniques tout à fait particulières nécessaires à la réalisation de cette fonction. De même, la

relation entre la flexibilité d’une protéine et sa thermostabilité est une question pour l’instant

non résolue.

Un autre enjeu de l’étude des propriétés mécaniques des protéines est la compréhension du

repliement de celles-ci. L'étude du repliement et du dépliement des protéines revêt un intérêt

tout particulier de par son importance dans le phénomène d'agrégation de protéines (formation

de fibres amyloïdes). Bien que le processus de repliement se fait in vivo dans un milieu

complexe, en présence des ribosomes et de molécules chaperonnes, quelques études ont été

menées au niveau théorique et expérimental dans un milieu simplifié sur la dénaturation des

protéines induite chimiquement, thermiquement et aussi mécaniquement,. Elles ont apporté

des données intéressantes mais les propriétés mécaniques mesurées par étirement du brin

polypeptidique dépendent de la position des points d’attache et de la direction d’étirement

[Brockwell, et al.; 2003, Carrion-Vazquez, et al.; 2003].

Afin de palier la difficulté de la mise en place des expériences, l’utilisation de techniques de

modélisation est donc à l’heure actuelle nécessaire afin d’obtenir des informations sur un

grand nombre de protéines.

Le premier travail présenté dans cette thèse a consisté à étudier des propriétés mécaniques de

la myosine par l’analyse des modes normaux d’un modèle granulaire, qui représente une

protéine par un ensemble de ressorts reliant les paires d’atomes Cα séparés par moins qu’une

distance seuil, et par la comparaison de différentes structures cristallographiques.

Pour aborder une étude plus fine des liens entre structure et mécanique, nous avons ensuite

utilisé une représentation des protéines en coordonnées internes permettant l'utilisation des

outils développés pour la modélisation des acides nucléiques. Nous avons développé de

14

nouvelles contraintes afin de pouvoir étudier à la fois les propriétés mécaniques globales et

locales (afin de définir un indice permettant de caractériser l’élasticité d’un brin

polypeptidique résidu par résidu) des protéines. L'adaptation de ces contraintes à une

représentation granulaire et de certaines contraintes à des simulations de dynamique

moléculaire permet de faire des comparaisons entre les différents modèles.

Après avoir fait un rappel du vocabulaire relatif aux protéines (chapitre 2), nous présenterons

les connaissances actuelles sur le repliement, la dynamique et la stabilité des protéines

(chapitre 3). Le chapitre 4 présente la méthodologie et les programmes utilisés pour l’étude

des propriétés mécaniques des protéines et le chapitre 5 les approches originales que nous

avons mises au point afin d’étudier ces propriétés. Enfin, les chapitres 6 et 7 présentent les

résultats publiés ou soumis à publication.

15

Chapitre 2 Les protéines

16

I Structure des protéines

I.1 Structure générale

Une protéine est un polymère dont les unités monomériques (appelés aussi résidus) sont les

acides aminés unis par des liaisons peptidiques (figure 1). La conformation (c’est-à-dire le

repliement) qu’adopte une protéine au sein de la cellule est appelée conformation native.

C’est cette conformation unique qui lui assure ses propriétés spécifiques : fonctions

enzymatiques et mécaniques, stabilité thermique...

figure 1 : Formule développée d’une protéine de n acides aminés. Les Ri désignent les

différentes chaînes latérales des résidus.

I.2 Les acides aminés

I.2.1 Le carbone chiral

Un acide aminé est un composé organique contenant un groupement amine et un groupement

acide carboxylique. Le type (α, β, δ,..) d’acide aminé est relié à la position de l’amine sur la

chaîne carbonée. Les acides aminés qui composent les protéines sont les acides α-aminés. En

effet, la fonction amine est en position α de la fonction acide. Le carbone où se rattache la

fonction amine est appelé carbone α et sera noté par la suite Cα. Comme ce carbone est relié à

quatre groupes différents (COOH, NH2, H et R), il est chiral (sauf pour la glycine où R est un

hydrogène). Pour les acides aminés naturels, la configuration stéréochimique de ce centre

17

chiral est en général L (dans la nomenclature de Fischer). Les formes D des acides aminés

sont extrêmement rares.

I.2.2 Propriétés acido-basiques

Les acides carboxyliques (-COOH) ne peuvent pas coexister avec des bases faibles comme les

amines (-NH2). En milieu aqueux, le groupement acide carboxylique des acides aminés donne

son proton au groupement amine. Les acides aminés possèdent donc une structure

zwitterionique (un atome porte une charge positive : -NH3+ et un autre porte une charge

négative –COO-) (figure 2).

figure 2 : Structure des acides L-α-aminés. A gauche, forme neutre, à droite, forme

zwitterionique. Cette dernière est présente aux valeurs de pH physiologiques. R correspond

aux différentes chaînes latérales.

I.2.3 Classification suivant la nature des chaînes latérales

Il existe 20 acides aminés naturels (20 chaînes latérales R différentes) qui composent les

protéines. Un code de trois lettres et un code d’une lettre permettent de les nommer de façon

synthétique (figure 3).

18

figure 3 : Les acides aminés : A chaque acide aminé est associé un code de trois lettres et un

code d’une lettre.

On peut les répertorier en trois groupes selon leur réactivité chimique : polaires, chargés, hydrophobes.

Les acides aminés hydrophobes ont des chaînes latérales non chargées et non

polaires. Ce sont la glycine, l’alanine, la valine, la leucine, l’isoleucine, la proline, la

19

phénylalanine, le tryptophane et la méthionine. Parmi ces acides aminés, la proline a la

particularité d’avoir une fonction amine secondaire et un cycle qui impose des contraintes de

conformation à la chaîne principale. Les chaînes latérales de la phénylalanine et de la tyrosine

possèdent des groupements aromatiques dont l’encombrement stérique est important.

Les acides aminés polaires mais non chargés sont la sérine, la thréonine, la

cystéine, la tyrosine, l’asparagine et la glutamine. Leurs chaînes latérales possèdent un

groupement hydroxyle, phénol, amide ou thiol. Le groupement thiol de la cystéine forme

souvent un pont disulfure avec un autre résidu cystéine après oxydation (figure 4). Les ponts

disulfure jouent un rôle important dans la structure des protéines en créant une liaison

covalente entre deux régions distinctes de la chaîne ou entre deux chaînes protéiques

différentes.

figure 4 : pont disulfure

Les acides aminés chargés sont l’acide aspartique, l’acide glutamique, la

lysine, l’arginine et dans certains cas l’histidine. L’arginine et la lysine sont chargées

positivement alors que l’acide aspartique et la glutamique sont chargés négativement à pH

physiologiques. La charge positive de l’histidine dépend de son environnement (le pKa de

l’acide conjugué de l’histidine, dont le cycle imidazole est protoné, vaut 6,1).

I.3 La liaison peptidique

I.3.1 Une liaison plane

La liaison de polymérisation entre deux acides aminés est appelée liaison peptidique. Les ions

carboxylate et ammonium réagissent pour former une liaison plane. La panéité de cette liaison

a été observée expériementalement par des études cristallographiques sur les acides aminés et

des peptides [Corey & Pauling; 1953, Marsh & Donohue; 1967, Pauling & Corey; 1953]. Ces

résultats sont interprétables avec des calculs quantiques expliquant le recouvrement des

orbitales pz des atomes C, O et N. Une étude de Milner-White propose que le recouvrement

20

des orbitales π de la liaison CN est responsable de la géométrie du lien peptidique [Milner-

White; 1997]. Parallèlement, une délocalisation des électrons des orbitales σ compense la

perte du nuage électronique de l’azote. De plus, des forces coulombiennes entre l’azote et le

carbone raccourcissent la liaison (figure 5).

figure 5 : Caractère plan de la liaison peptidique. Cette représentation ne donne pas une bonne

image des charges partielles sur l’azote car elle ne prend pas en compte la polarisation de la

liaison σ de CN qui est opposée à celle de la liaison π.

Cette planéité de la liaison peptidique réduit la géométrie autour de la liaison à deux

conformères : trans et cis (la barrière de potentielle entre les conformères étant de l’ordre de

20 kcal.mol-1). En général, les groupes peptidiques sont dans la conformation trans (figure 6) :

les carbones Cα sont de part et d’autre de la liaison dans le plan peptidique. La conformation

cis est en effet très défavorisée par l’encombrement stérique des chaînes latérales. Seules les

liaisons suivies par un résidu proline présentent 10% de conformation cis.

figure 6 : Conformation trans et cis d'une liaison peptidique. Le plan de la liaison peptidique

est coloré. L’encombrement stérique de la conformation cis est représenté par des cercles

rouges.

21

I.3.2 Les angles de la chaîne peptidique

On définit en général deux types d’angles dans les chaînes peptidiques. Les angles de valence

sont les angles d’ouverture entre deux liaisons consécutives. Les angles dièdres ou angles de

torsion sont les angles entre deux plans autours d’une liaison. L’angle entre les deux plans

ABC et BCD de la figure 7 est un angle de torsion qu’on notera par une flèche autour de la

liaison centrale.

figure 7 : Définition des angles de valence et dièdres.

Comme nous venons de le voir dans le paragraphe précédent, la liaison peptidique peut être

considérée comme plane. L’angle dièdre ω autour de la liaison peptidique est en général très

proche de 180°. Une étude statistique sur les angles dièdres ω de la banque de données

Protein Data Bank, PDB (http://www.rcsb.org/pdb/) [Berman, et al.; 2000], montre ainsi que

l’angle ω vaut 179,5° ± 3,8° [Karplus; 1996]. Les deux autres angles dièdres de la chaîne

peptidique principale sont les angles φ pour l’angle autour de la liaison N-Cα et ψ pour l’angle

autour de la liaison Cα-C (figure 8). Par convention, les valeurs des angles φ et ψ sont égales à

180° lorsque le peptide est dans sa forme étendue. Dans une représentation de Newman, on

peut visualiser ces angles dièdres (figure 9). En regardant la liaison Cα-N avec l’azote à

l’avant-plan, l’angle φ est l’angle entre les deux carbones C des groupes carboxyliques. De

même, l’angle ψ est l’angle entre les deux azotes lorsqu’on regarde la liaison Cα-C avec le

carbone Cα en premier plan.

figure 8 : Définitions des angles dièdres de la chaîne principale.

A

B C

D A

B

C

angle de valence angle dièdre

22

figure 9 : Trois exemples de valeur d’angles dièdres dans la représentation de Newman. Les

atomes situés derrière sont en caractères plus petits.

I.3.3 Diagramme de Ramachandran

Lorsqu’on porte sur un graphe les deux angles dièdres φ et ψ, on construit un espace à deux

dimensions appelé carte de Ramachandran, chercheur ayant beaucoup travaillé sur les

peptides [Ramakrishnan; 2001].

Ramachandran a eu l’idée de construire un modèle réduit de peptide où il pouvait faire pivoter

les angles φ et ψ de 360° [Ramachandran & Ramakrishnan; 1963]. Il a alors démontré que la

plupart des zones de la carte étaient interdites à cause de l’encombrement stérique des chaînes

latérales (figure 10). Des statistiques effectuées sur les protéines issues de la Protein Data

Bank [Berman, et al.; 2000] ont permis plus tard de confirmer que seules certaines parties de

la carte étaient représentées et que la proline et la glycine avaient des cartes différentes des

autres acides aminés [Ramachandran & Sasisekharan; 1968]. La glycine est en effet le seul

résidu sans carbone β. L’hydrogène étant beaucoup moins encombrant qu’une chaîne latérale

carbonée, la carte de Ramachandran pour le résidu glycine montre plus de conformations

accessibles que pour les résidus plus gros (figure 11). De plus, la non chiralité de ce résidu

rend la carte symétrique par rapport à l’origine. Dans le cas des prolines, les variations de φ

sont limitées par les tension du cycle.

Ciα

+ --

Ni Ni+1

Ciα Ni

C’i-1 C’i Cα

i+1

C’i

ψi φi ωi

C’i Ciα

Ni+1

23

figure 10 : Carte de Ramachandran d’une dialanine. En bleu sont les conformations les plus

stables, en vert les conformations possibles et en blanc les conformations non atteintes. Les

structures secondaires (hélice α droite (α) et gauche (αL) , feuillets β parallèles (↑↑) et

antiparallèles (↑↓)) sont indiquées.

figure 11 : Carte de Ramachandran des glycines.

24

I.4 La hiérarchie dans la description d’une structure protéique

I.4.1 La structure primaire

La structure primaire est l’ordre d’enchaînement des acides aminés de la chaîne protéique. On

nomme la liste des résidus en commençant par la terminaison amine (ou ammonium) et en

terminant par le résidu portant la fonction acide carboxylique (ou carboxylate). Le premier

résidu est alors nommé N-terminal et le dernier C-terminal. Le code à une lettre des acides

aminés est alors très pratique pour décrire les protéines (voir l’exemple figure 12).

I.4.2 La structure secondaire

La structure secondaire d’un polymère correspond à la conformation locale de son squelette.

C’est le premier niveau d’agencement dans l’espace tenant compte des liaisons hydrogène.

Dans le cas des protéines, elle consiste à définir les repliements réguliers et répétitifs : hélices,

feuillets, coudes,…Nous les décrirons plus en détail dans la partie suivante.

I.4.3 La structure tertiaire

La structure tertiaire d’une protéine est sa disposition tridimensionnelle : c’est la donnée de

l’agencement des structures secondaires et de l’organisation spatiale des chaînes latérales.

Un certain nombre d’interactions stabilisent les structures tertiaires :

Les liaisons disulfure entre deux cystéines forment un lien covalent entre deux

parties d’une chaîne qui sont espacées dans la structure primaire.

Les liaisons hydrogène, qui stabilisent aussi les structures secondaires,

contribuent à la stabilisation des structures tertiaires. Ces liaisons impliquent les squelettes

polypeptidiques (chaînes principales) et les chaînes latérales.

Les ponts salins se forment entre deux acides aminés ionisés. L’attraction

coulombienne entre les ions positifs et les ions négatifs stabilisent leur rapprochement.

Les interactions hydrophobes sont formées entre groupements non polaires. En

solution aqueuse, les groupements polaires sont tournés en général vers l’extérieur des

protéines globulaires alors que les groupements non polaires sont confinés à l’intérieur pour

interagir préférablement entre eux plutôt qu’avec les molécules d’eau. Ces interactions sont

25

plus faibles que les liaisons hydrogène et les ponts salins mais elles sont en général

suffisamment nombreuses dans les régions au cœur des protéines pour permettre la

stabilisation de la structure.

I.4.4 La structure quaternaire

La structure quaternaire est le niveau le plus élevé d’organisation des protéines. Elle concerne

les protéines constitués de plusieurs chaînes polypeptidiques et détermine l’arrangement

spatial des différentes sous-unités entre elles.

Les zones de contact entre sous-unités sont très semblables à celles à l’intérieur d’une

protéine à une seule sous-unité. Elles contiennent des chaînes latérales non polaires

regroupées, des liaisons hydrogène et dans certain cas des ponts disulfure intercaténaires.

Les différents niveaux de description d’une protéine sont résumés dans la figure 12. Il faut

noter qu’en général, la donnée de la structure primaire détermine la structure tertiaire des

protéines.

figure 12 : Différents niveaux de description d'une protéine : primaire (1), secondaire (2)

(exemple d’une hélice α), tertiaire (3) et quaternaire (4).

26

II Les structures secondaires

Au niveau de toutes les structures secondaires, les liaisons hydrogène sont formées entre les

groupements C=O et H-N. Les deux structures secondaires les plus fréquentes sont les hélices

α et le feuillets β.

II.1 Les hélices

L’hélice est une structure secondaire en forme de ressort. On peut la caractériser par son pas p

(distance entre deux tours de vis) et le nombre n d’unités peptidiques par tour d’hélice.

II.1.1 L’hélice α

La terminologie hélice "α" n'est basée que sur une classification ancienne, antérieure à la

détermination de la structure. L'hélice α est quasiment toujours une hélice droite. Elle

s’éloigne en tournant dans le sens des aiguilles d'une montre quand on regarde dans l’axe de

la chaîne principale (figure 13).

figure 13 : Hélice droite : elle s'éloigne en tournant dans le sens des aiguilles d'une montre. A

gauche : représentation tout atome, à droite : représentation en tube. Les résidus en avant du

plan sont en bleu, les plus éloignés sont en rouge.

27

L’hélice α contient 3,6 résidus par tour et son pas est de 5,41 Å. Les atomes sont bien

compactés, ce qui est favorable aux interactions de van der Waals. L’atome d'oxygène d’un

groupe carbonyle participe à une liaison hydrogène avec le NH appartenant à un acide aminé

situé 4 positions plus loin dans la chaîne (figure 14). Les trois atomes O, H et N sont alors

quasiment alignés et la distance N-O est de 2.86 Å de long. Tous les résidus forment de telles

liaisons tout le long de la chaîne ce qui renforce la stabilité de l'ensemble .

figure 14 : Liaisons hydrogène dans une hélice α. Les liaisons H sont représentées en bleu.

Les chaînes latérales sont tournées vers l'extérieur de l'hélice. L' hélice α pourrait être gauche

(tourner dans le sens opposé aux aiguilles d’une montre) mais les chaînes latérales des acides

aminés de la série L recouvrent de façon trop importante la chaîne principale. Cette structure

gauche est alors beaucoup moins stable et donc elle est très peu observée.

Théoriquement, les angles de torsions des acide aminés constituant une hélice α sont égaux à

–57° pour φ et –47° pour ψ.

Dans les protéines, l'hélice α n'est pas toujours exactement celle qui vient d'être décrite. Les

angles sont souvent de –62° et -41° respectivement ce qui permet à l'oxygène du carbonyle de

s'écarter de l'axe de l'hélice. La liaison hydrogène est alors moins linéaire donnant à l'oxygène

la possibilité de former des liaisons hydrogène simultanément avec le NH du résidu en

position i+4 et avec l'eau ou d'autres donneurs.

28

La nature des chaînes latérales réparties régulièrement autour de l’hélice peut induire un

caractère hydrophobe si la majorité des chaînes sont hydrophobes ou amphiphile (d’un côté

hydrophobe et d’un autre hydrophile) si les résidus d’une face sont hydrophobes et ceux de

l’autre face hydrophiles. Cette dernière propriété permet l’assemblage des structures

secondaires pour donner la structure tertiaire.

II.1.2 Les autres structures hélicoïdales

D’autres structures hélicoïdales existent. Le ruban 2,27, les hélices 310 et Π (4,46) en sont des

exemples. La notation 2,27, 310 et 4,46 indiquent comment les liaisons hydrogène sont placées

le long de l’hélice. Le nombre décimal donne le nombre de résidus par tour d’hélice et l’entier

en indice le nombre d’atomes dans l’anneau fermé par la liaison hydrogène (figure 15). Avec

ces notations, l’hélice α est une hélice 3,613.

figure 15 : Formation des liaisons hydrogène pour différentes hélices polypeptidiques. Les

traits bleu représentent les liens formés par les liaisons hydrogène.

Les hélices autres que α se rencontrent beaucoup moins souvent au sein des protéines.

D’autres structures (quaternaires) hélicoïdales existent en particulier chez les protéines

fibreuses comme par exemple la kératine et le collagène, qui sont des fibres d’hélices. Le

collagène est constitué de 3 hélices torsadées les unes sur les autres et la kératine est

constituée de dimères (deux hélices imbriquées hélicoïdalement l’une dans l’autre de manière

à ce que les axes des hélices forment aussi une hélice (Coiled coil rod)).

hélice α ruban 2,27

hélice 310 hélice π

29

II.2 Le feuillet β

Dans le feuillet β, les liaisons hydrogène intermoléculaires stabilisent l’alignement ordonné

des chaînes peptidiques. Les chaînes polypeptidiques (ou brins) voisines sont alors dites

parallèles si leurs bouts N-terminaux sont tous du même côté et antiparallèles dans le cas

contraire (figure 16).

figure 16 : Feuillets β, parallèles et antiparallèles. Les liaisons hydrogène sont dessinées en

rouge.

Comme pour les hélices α, les résidus constituant les feuillets β sont des structures

secondaires dans lesquelles les points de la carte de Ramachandran sont dans des régions

spécifiques.

30

II.3 Coudes et boucles

Les coudes β sont des segments polypeptidiques qui relient deux structures secondaires

répétitives (hélices ou feuillets). Ils se trouvent presque toujours à la surface des protéines. On

parle souvent d’épingles à cheveux β (β hairpin) car les deux extrémitées sont parallèles entre

elles (voir figure 17).

Les boucles Ω peuvent contenir plusieurs coudes β et ont la forme de la lettre grecque

majuscule. Elles sont compactes car leur chaînes latérales ont tendance à remplir l’intérieur de

leurs cavités.

figure 17 : Différents types de coudes β. À gauche : type I (φ2=-60°, ψ2=-30°, φ3=-90°,

ψ3=0°) ; à droite : type II (φ2=-60°, ψ2=120°, φ3=+90°, ψ3=0°)

Type I Type II

31

Chapitre 3 Repliement, dynamique et stabilité

des protéines

Dans ce chapitre, nous allons discuter des connaissances actuelles sur le repliement des

protéines, des interactions stabilisant les structures repliées des protéines et des études

expérimentales et théoriques qui ont été précédemment menées pour comprendre les

processus de repliement et dépliement ainsi que la stabilité des protéines.

32

III Stabilité des protéines

III.1 Une stabilité marginale

La stabilité des protéines est intimement liée à leur repliement. Les protéines ont besoin d’être

dans leur état natif pour être stables. La variation d’enthalpie libre de repliement d’un état

dénaturé à l’état natif s’écrit comme la contribution de l’enthalpie et de l’entropie.

U N avec U : état déplié, N : état natif

∆G = ∆H – T ∆S

Bien que les variations d’enthalpie et d’entropie soient grandes, la variation d’enthalpie libre

de l’état dénaturé à l’état natif est souvent faible (-5 à –15 kcal.mol-1). Cette énergie est

comparable à celle de quelques liaisons hydrogène. La diminution d’enthalpie favorable lors

du repliement est compensée par une perte d’entropie due au passage de la chaîne étendue à

une structure compacte. Le terme enthalpique stabilisant la structure comprend les effets

hydrophobes, les interactions de van der Waals et électrostatiques (en particulier les liaisons

hydrogène et les ponts salins) ainsi que la formation de liaisons covalentes (les liaisons

disulfure). Il est diminué par la perte des interactions qui existaient entre la structure

dénaturée et le solvant (effet de désolvatation).

III.2 Les différents effets influençant la stabilité de la structure native

La stabilité des protéines est influencée par un certain nombre de forces déjà décrites dans le

chapitre I.4.

Les interactions qui stabilisent la structure tridimensionnelle des protéines sont

principalement des interactions faibles, non covalentes : interactions électrostatiques et de van

der Waals et effets hydrophobes. Des liaisons covalentes sont également mises en jeu par

l’intermédiaire des ponts disulfure.

33

III.2.1 Interactions électrostatiques

Lors du repliement, les interactions électrostatiques attractives entre charges opposées ou

entre dipôles sont formées et cassées. Leur contribution enthalpique au repliement dépend de

la balance entre les interactions crées et celles qui ont été détruites.

• Interactions de van der Waals

Les interactions entre les nuages électroniques de deux atomes adjacents conduisent à la

présence d’une force attractive pour des distances de 3-4 Å. L’énergie de liaison est d’environ

1 kcal.mol-1, ce qui est à peine supérieur à l’énergie thermique moyenne des molécules à

température ambiante (0,6 kcal.mol-1). Cependant, de par leur grand nombre, ces interactions

jouent un rôle important dans la stabilisation de la structure des protéines et favorisent le

compactage.

• Ponts salins

Lorsqu’on regarde ces interactions dans le cas de résidus chargés (négativement pour les

aspartates, glutamates et l’extrémité C-terminale, et positivement pour les lysines, arginines,

certaines histidines et l’extrémité N-terminale) on parle de ponts salins.

Le fait que la formation de ponts salins soit un effet stabilisateur n’est pas évident. En effet,

Phelan et al. ont étudié par RMN et par des expériences de thermodynamique le cas d’une

protéine en fermeture éclair de 31 résidus et ont montré que la formation de ponts salins a un

effet déstabilisateur. La désolvatation des chaînes latérales chargées est en effet très

défavorable du point de vue énergétique et n’est pas compensée par le gain des attractions

coulombiennes [Phelan, et al.; 2002].

• Liaisons hydrogène

Les liaisons hydrogène sont le résultat des interactions électrostatiques (70%) et de van der

Waals (30%) entre un atome électronégatif (généralement un atome d’oxygène ou d’azote) et

un atome d’hydrogène, porté par un atome électronégatif. Les deux atomes électronégatifs

sont distants d’environ 3 Å. L’énergie des liaisons hydrogène de l’ordre de 3 kcal.mol-1. Les

acides aminés polaires peuvent ainsi former des liaisons hydrogène entre eux ou avec des

molécules d’eau. Ils se dissolvent donc facilement dans l’eau : ils sont hydrophiles. On trouve

ces liaisons notamment dans les hélices et les feuillets, stabilisant ces structures secondaires.

Elles permettent également de lier les sous-unités d’un oligomère. Les liaisons hydrogène

34

contribuent peu directement à l’énergie de stabilité mais permettent des contraintes favorisant

l’état replié des chaînes polypeptidiques [Honig; 1999].

III.2.2 Effets hydrophobes et solvatation

Le fait que les composés hydrophobes (c’est-à-dire apolaires) sont peu solubles dans l’eau

induit un effet dit hydrophobe. L’optimisation des liaisons hydrogène au voisinage des

groupements apolaires conduit à la formation d’une enveloppe de molécules d’eau ordonnées

autour de ceux-ci. Cette organisation est défavorable du point de vue entropique car elle

diminue le nombre de configurations accessibles ; les groupements apolaires ont alors

tendance à se rapprocher les uns des autres afin de limiter la surface de contact avec l’eau. Ce

phénomène entropique explique pourquoi les résidus hydrophobes des protéines solubles sont

regroupés au « cœur » de celles-ci alors que la « surface » est au contraire principalement

composée d’acides aminés hydrophiles.

Il n’existe donc pas à proprement parler de “liaison hydrophobe”. Pour quantifier cet effet, on

le définit comme l’énergie associée au transfert d’une surface hydrophobe de l’intérieur de la

protéine vers un milieu aqueux [Murphy; 2001]. Cela inclut donc les variations d’énergie due

aux changements des interactions de van der Waals subies par les groupements hydrophobes

mais aussi les variations d’enthalpie libre (variations d’enthapie et surtout d’entropie)

associées à la restructuration de l’eau.

Les effets hydrophobes et les liaisons de van der Waals sont responsables de l’agencement

(compactage) très dense des atomes au milieu des protéines. Ainsi le repliement est dirigé par

les effets hydrophobes et la stabilisation enthalpique par le compactage . L’enthalpie libre de

désolvatation, l’énergie de transfert pour un résidu apolaire pour passer du milieu aqueux au

sein de la protéine, est de l’ordre de -25 cal.mol-1.Å-2.

La différence d'enthalpie libre de solvatation entre protéine dénaturée et protéine repliée

fournit une évaluation empirique de l'effet hydrophobe, considéré comme la principale force

responsable du repliement des protéines. L’enthalpie libre de solvatation peut être calculée

approximativement à partir des surfaces atomiques accessibles au solvant et des paramètres de

solvatations atomistiques déterminés à partir des énergies libres de transfert [Chothia; 1976,

Eisenberg & McLachlan; 1986].

35

III.2.3 Ponts disulfure

Le rapprochement des chaînes latérales de deux cystéines et leur oxydation conduit à la

formation d’une liaison covalente S-S appelée pont disulfure. La majorité des protéines

possédant des ponts disulfure sont des protéines extracellulaires, se repliant dans le reticulum

endoplasmique (qui est un milieu oxydant) avant d’être secrétées dans le milieu

extracellulaire plus oxydant que le cytoplasme et dont le pH et la température sont moins bien

contrôlés. L’énergie de liaison correspondant étant d’environ 60 kcal.mol-1, un pont disulfure

impose une forte contrainte topologique à la chaîne polypeptidique. Cependant, cette énergie

ne correspond pas à l’énergie de formation d’une liaison disulfure à partir de deux cystéines

protonées. Cette dernière dépend de l’environnement des deux cystéines concernées. Ainsi le

rôle stabilisateur des ponts disulfure est controversé. En effet, si certaines études sur le rôle

des liaisons hydrogène et des liaisons disulfure dans la stabilité thermique [Chakravarty &

Varadarajan; 2002] montrent que celle-ci est favorisée par une plus grande rigidité, d’autres

études arrivent à une conclusion opposée [Grottesi, et al.; 2002].

III.3 Cœur hydrophobe

Les interactions hydrophobes sont des facteurs importants dans le repliement et la stabilité des

structures protéiques. Bien que les biologistes fassent souvent référence à l’appartenance de

tel ou tel résidu au cœur hydrophobe d’une protéine pour expliquer les propriétés de ce résidu,

il n’existe pas de définition unanime du cœur hydrophobe. Certaines définitions prennent en

compte la conservation au cours de l’évolution des résidus hydrophobes « enfouis » tandis

que d’autres ne s’appuient pas sur une analyse séquentielle [Hirakawa, et al.; 1999].

Quelques algorithmes ont ainsi été mis en place pour définir le cœur hydrophobe des

protéines de manière systématique. Parmi eux, un algorithme proposé par Swindells décrit le

cœur hydrophobe comme la collection des résidus possédant une accessibilité faible au

solvant, appartenant à des régions de structures secondaires régulières et dont les chaînes

latérales non polaires interagissent en partie entre elles [Swindells; 1995]. En général, ces

trois propriétés sont en effet utilisées par les expérimentateurs pour définir le cœur

hydrophobe de façon empirique.

Les résidus appartenant au cœur hydrophobe d’une protéine sont donc des résidus conservés

dans les familles structurales et jouant un rôle important pour la stabilité de la protéine tant au

moment de son repliement que dans sa structure native.

36

IV Le repliement des protéines

La compréhension du mécanisme de repliement des protéines est importante. Le bon

repliement de protéines est un processus essentiel à la vie parce que c’est ce repliement qui

assure les fonctions des protéines dans l’organisme. Ainsi, les défauts de repliement de

protéines causent des maladies graves telles que la fibrose kystique, l'emphysème juvénile,

certains types d'hémophilie, la maladie d'Alzheimer, la maladie de Kreutzfeld-Jakob et la

maladie de Parkinson. D’autre part, la connaissance du mécanisme de repliement (c’est-à-dire

les différents étapes qui le définissent) permet de prédire la structure tridimensionnelle d’une

protéine à partir de sa séquence primaire.

Pour l’instant, bien que les facteurs physico-chimiques entrant en jeu soient clairs, les règles

qui permettent à une séquence d’acides aminés de se replier en une structure tridimensionnelle

sont inconnues. Les phénomènes de repliement se déroulent à l’échelle de temps de la

milliseconde mais certains peuvent se produire en quelques microsecondes [Baldwin; 1996],

voire en moins d’une microseconde pour des protéines qui se replient de façon ultra-rapide

[Mayor, et al.; 2003]. Leur étude expérimentale est difficile et nécessite un grand nombre

d’approches par des techniques de biophysique pour récolter suffisamment d’indices sur les

mécanismes de repliement [Plaxco & Dobson; 1996, Radford; 2000].

Le repliement des protéines est depuis longtemps un sujet d’intérêt étudié aussi bien du point

de vue théorique qu’expérimental. Il donne lieu tous les deux ans à la compétition CASP

(Critical Assessment of Structure Prediction) qui teste les méthodes de prédiction de structure.

IV.1 Contrôle thermodynamique ou cinétique ?

En 1968, Levinthal a montré que le repliement des protéines ne pouvait pas être le résultat

d’une recherche aléatoire de la structure native parmi toutes les structures possibles. En effet,

cette recherche aléatoire prendrait un temps énorme (‘Longer than the lifetime of the

universe’) [Levinthal; 1968] qui n’est pas compatible avec la rapidité mesurée du repliement

des protéines (entre 10-4 et 100 secondes). Ceci est connu sous le nom du paradoxe de

Levinthal. Levinthal suggère alors un contrôle cinétique du repliement accéléré par la

formation simultanée de petits noyaux structurés, la forme native de la protéine n’étant pas

forcément la structure thermodynamiquement la plus stable.

37

D’autre part, en 1975, Anfinsen suggère lui un contrôle thermodynamique où la forme native

est celle d’enthalpie libre la plus basse [Anfinsen & Scheraga; 1975].

Il semble qu’un compromis entre les deux points de vue donne une bonne explication des faits

expérimentaux et théoriques observés. Le repliement des protéines est à la fois sous contrôle

thermodynamique (la structure native serait la structure la plus stable) et sous contrôle

cinétique puisque l’état natif est atteint grâce à la formation d’intermédiaires partiellement

structurés dont la formation est sous contrôle cinétique.

On peut résumer le comportement de repliement des protéines dans un diagramme en

entonnoir (« folding funnel ») proposé par Wolynes et al. [Wolynes, et al.; 1995] [Socci, et

al.; 1998] et repris par Chan et Dill [Chan & Dill; 1998]. La largeur de l’entonnoir rend

compte de l’entropie et la profondeur de l’énergie (

figure 18). Ainsi, plusieurs chemins de repliement sont possibles suivant les conditions

expérimentales. L’entonnoir décrit alors une diminution progressive de la dimensionnalité de

l’espace accessible, en passant de plusieurs degrés de liberté pour la chaîne dénaturée à une

absence complète pour l’état natif. La présence de bosses correspond à des conformations de

haute énergie (états de transition) et celle des creux (minima locaux) à des configurations

localement stabilisées (états intermédiaires métastables). La cinétique est reliée à la pente de

la courbe : plus elle est grande, plus le repliement est rapide. Le repliement se fait en deux

temps : il est tout d’abord sous contrôle cinétique pour donner un globule fondu. Le globule

fondu (« Molten Globule ») est une structure dont la majorité des structures secondaires

natives sont formées mais dont la structure tertiaire n’est pas atteinte. Dans la seconde partie

du repliement, la cinétique est plus lente. L’état natif atteint est celui de plus grande stabilité.

La différence de stabilité est cependant marginale entre l’état natif et les états intermédiaires

proches (5-10 kcal.mol-1). Ceci permet le bon fonctionnement de la protéine qui peut passer

d’un sous-état à un autre facilement sous l’effet de l’agitation thermique.

Le modèle de l’entonnoir résout le paradoxe de Levinthal par le fait qu’il y a effectivement un

grand nombre de voies de repliement mais le principe d’Anfinsen est respecté puisque la

structure native est la plus stable.

38

figure 18 : Diagramme en entonnoir du repliement d'une protéine. La largeur de l'entonnoir

représente l'entropie et la profondeur l'énergie.

IV.2 Les différents modèles de repliement proposés

Un grand nombre de modèles de repliement protéique sont proposés suivant les différentes

approches d’étude utilisées.

Le modèle de la charpente (framework model) postule que les structures secondaires sont

formées avant la structure tertiaire [Ptitsyn; 1991]. Ce modèle laisse supposer qu’il n’existe

qu’un seul chemin menant de la chaîne polypeptidique à la protéine native.

Le modèle d’effondrement hydrophobe (hydrophobic collapse) proposé par Dill [Dill; 1990]

suggère que la chaîne polypeptidique subit un effondrement, en regroupant des acides aminés

hydrophobes, formant le cœur de la protéine, suivi de la formation des structures secondaires

et tertiaires. Une variante, le modèle de la fermeture éclair hydrophobe [Dill, et al.; 1993]

suggère que la formation des structures secondaires et l’effondrement sont simultanés.

Etat du globule fondu

Intermédiaires de repliement

Début de la formation de l’hélice et du collapsus

Structure native

Entropie

Energie

39

Le modèle de diffusion-collision présenté par Karplus et Weater en 1994 [Karplus & Weaver;

1994] postule la formation de microdomaines de repliement qui entrent en collision par un

processus de diffusion pour former des domaines de tailles supérieures, jusqu’à la structure

native.

Le modèle de nucléation-condensation tient compte de la coopérativité du repliement. C’est

un modèle intermédiaire entre le modèle de la charpente et le modèle d’effondrement

hydrophobe [Daggett & Fersht; 2003b].

Le modèle du puzzle (Jigsaw Puzzle model) [Harrison & Durbin; 1985] introduit la notion de

repliement ne passant pas par un chemin unique. Puisque le nombre de conformations des

protéines dénaturées est grand, il existe plusieurs chemins pour arriver à la conformation

native unique. Le repliement est alors considéré comme l’assemblage en puzzle de ces

différents chemins.

Suivant les résultats expérimentaux ou théoriques obtenus, on choisit l’un ou l’autre modèle

pour décrire le repliement de la protéine étudiée. Les informations obtenues pour éclairer le

problème du repliement des protéines peuvent porter sur l’état natif, les états intermédiaires,

le globule fondu (ou état partiellement replié) ou l’état dénaturé.

IV.3 Le repliement in vivo

Les différents modèles proposés dans le paragraphe précédent sont des modèles de repliement

qui ne prennent pas en compte les conditions in vivo, c’est-à-dire les conditions dans le milieu

cellulaire riche en molécules et en ions. Trois types de protéines auxiliaires peuvent aider les

polypeptides à se replier pour prendre leurs conformations natives.

Les protéines disulfure isomérases catalysent les réactions d’échange entre les liaisons

disulfure. Les peptidyl prolyl cis-trans isomérases permettent à certaines prolines en

conformation trans de passer en conformation cis, accélérant ainsi le repliement des

polypeptides contenant des résidus proline. Les protéines chaperonnes empêchent les

protéines dans leur état dénaturé de former des agrégats intra ou intermoléculaires. Elles se

lient aux nombreuses surfaces hydrophobes dans les structures dénaturées exposées au solvant

puis se détachent de façon à faciliter le repliement.

40

IV.4 Modèles théoriques pour étudier le repliement

La compréhension théorique du repliement des protéines est basée sur trois types d’approche

différents : les modèles de réseaux simples, les modèles discrets hors réseau et les dynamiques

moléculaires tenant compte de la description de tous les atomes (voir la revue de Pande et al.

[Pande, et al.; 1998]).

Les modèles de simples chaînes soumises à des potentiels très simplifiés dans un réseau

décrivent les propriétés physiques générales du problème mais ne donnent pas d’information

au niveau atomique. Ainsi, on peut obtenir tous les états énergétiques et décrire toute la

surface énergétique. Les réseaux cubiques, dans lesquels les protéines sont représentées par

des chaînes dont seules les interactions entre paires en contact sur le réseau sont prisent en

compte, permettent de donner des indices sur la sélection des minima globaux.

Les modèles atomistiques traitent plus souvent la dénaturation que le repliement des protéines

[Fersht & Daggett; 2002].

En effet, mis à part pour les protéines qui se replient très vite comme la protéine En-HD

étudiée par Mayor et al. [Mayor, et al.; 2000] [Mayor, et al.; 2003], les temps de repliement

protéique de l’ordre de la milliseconde sont incompatibles avec les simulations de dynamique

moléculaire, restreintes à l’échelle de la microseconde [Daggett; 2000], alors que la

dénaturation des protéines à hautes températures (à 225°C) peut avoir lieu en moins d’une

nanoseconde.

Par ailleurs, la structure initiale lors des études de dépliement est la structure native qui est la

structure très bien caractérisée, contrairement à une structure dépliée.

Ces deux processus (dépliement et repliement) réversibles se complètent mais il convient de

rester prudent quant à l’interprétation du dépliement sous de fortes contraintes, comme une

température élevée, qui ne correspondent pas aux conditions de repliement physiologique

[Finkelstein; 1997]. Cependant, la dynamique moléculaire où une contrainte impose le

dépliement de la chaîne protéique, couplée avec les données expérimentales de RMN, permet

de caractériser les états partiellement dépliés [Daggett & Fersht; 2003a] comme par exemple,

celui de l’ubiquitine dans 60% de méthanol [Alonso & Daggett; 1995] ou celui de la barnase

thermiquement dépliée [Bond, et al.; 1997].

41

L’étude du repliement par dynamique moléculaire se développe. Les exemples du repliement

d’un peptide de 36 résidus [Duan & Kollman; 1998] et celui d’une petite protéine de 61

résidus [Mayor, et al.; 2003] montrent que la dynamique moléculaire permet d’obtenir des

informations au niveau atomique non accessibles expérimentalement. Toutefois, le coût en

temps de calcul reste grand et seuls des petits systèmes peuvent être abordés.

42

V Dépliement des protéines

Le dépliement des protéines est l’approche inverse du repliement des protéines. L’étude du

mécanisme de dénaturation des protéines peut donner des informations sur le mécanisme de

repliement, ses dernières étapes et ses états intermédiaires. De plus, le début du dépliement est

caractéristique de la structure tridimensionnelle des états natifs des protéines, de leur stabilité

et de leur dynamique. Il donne aussi des informations sur les états intermédiaires et les

dernières étapes du repliement.

V.1 Provoquer un dépliement in vitro

Un grand nombre d’expériences ont été mises en œuvres pour comprendre le dépliement des

protéines. La dénaturation des protéines se fait alors soit par l’action de produits chimiques

(urée, hydrochloride de guanidine, solvants organiques, corps salins ou détergents comme le

dodecylsulfate de sodium), soit par un changement des propriétés physiques du milieu

extérieur (température, pression, pH…) ou encore en exerçant une force externe sur la

protéine (nanomanipulations).

V.1.1 Contraintes globales

• Les détergents

Les détergents sont des molécules amphiphiles dont la tête polaire reste en contact avec l’eau

et la queue apolaire interagit avec les chaînes protéiques. L’ajout de détergents dans le milieu

dénature les protéines en supprimant la stabilisation due aux effets hydrophobes au sein de la

protéine.

Les solvants organiques solubles dans l’eau comme l’éthanol ou l’acétone font en général

précipiter les protéines de par les effets hydrophobes.

• Les dénaturants

La dénaturation avec l’urée ou l’hydrochloride de guanidine (figure 19) se fait par la création

de liaisons hydrogène entre le dénaturant et la protéine. Ces liaisons pouvant être plus

nombreuses dans l’état dénaturé, celui-ci est stabilisé par rapport à l’état natif. La protéine

reste en général soluble mais dépliée.

43

figure 19 : Dénaturants.

• La température

Il suffit en général d’un petit écart de température pour dénaturer les protéines car la

différence d’enthalpie libre entre la structure native et les structures dénaturées est facilement

accessible.

L’expression de l’enthalpie libre de dépliement (N <=> U) en fonction de la température est la

suivante :

))ln()((refTT

refprefref TTTCSTHG −−∆+∆−∆=∆

avec ∆Href et ∆Sref les valeurs respectives de l’enthalpie et de l’entropie du dépliement à la

température de référence Tref. ∆Cp est la variation de la capacité calorifique entre l’état natif et

l’état dénaturé. On suppose que cette dernière ne varie pas avec la température dans les

gammes que nous allons discuter.

La figure 20 représente des courbes de variation d’enthalpie libre entre l’état natif et l’état

dénaturé en fonction de la température. Lorsque ∆G est positif, la structure stable est celle de

l’état natif. Les températures Tm correspondant à ∆G = 0 kcal.mol-1 sont appelées

température de demi-transition de dénaturation, elles correspondent aux températures où sont

en équilibre autant de molécules sous la forme native que de molécules sous la forme dépliée.

La courbe ∆G(T) de la protéine B en solution aqueuse coupe une seule fois l’axe ∆G=0, la

protéine B se déplie si on augmente la température. Quant à la protéine A en solution aqueuse,

la courbe coupe deux fois l’axe des abscisses, elle se déplie si on augmente la température

mais aussi si on abaisse la température. En général, le maximum de la courbe (correspondant

à ∆S=0) se trouve pour des températures avoisinant la température physiologique. Même si la

protéine A a une température de demi-transition de dénaturation (TmA) plus grande que celle

de la protéine B (TmB), la protéine B est plus stable à 25°C. Ceci montre que la stabilité des

44

protéines à température ambiante ne détermine pas la valeur de la température de transition

Tm.

figure 20 : Énergie libre en fonction de la température pour deux protéines hypothétiques A et

B. Pour la protéine A (en pointillés), on a pris ∆H = 100 kcal.mol-1 à 80°C,

∆S = 0,3 kcal.mol-1.K-1 à 80°C et ∆Cp = 2 kcal.mol-1.K-1. Pour la protéine B (en plein), on a

pris ∆H = 100 kcal.mol-1 à 60°C, ∆S = 0,28 à 60°C, ∆Cp = 2,8 kcal.mol-1.K-1. TmA et TmB

sont les températures de demi-transition de dénaturation. Le graphe a été construit d’après

[Freire; 2001].

Nous venons de voir que les protéines se déplient si on augmente la température et que

certaines protéines se dénaturent aussi à basse température. Ainsi, les protéines ne sont stables

et fonctionnelles que dans une petite fourchette de température (en général de quelques

dizaines de degrés d’amplitude).

°

45

• Le pH

Le dépliement des protéines peut se faire en augmentant ou diminuant le pH du milieu. En

effet le pH influence la protonation et les charges des groupements chimiques. Souvent, le

changement de pH augmente les forces électrostatiques répulsives.

• La pression

Le dépliement sous pression hydrostatique est une méthode réversible de dénaturation qui

peut être combinée avec l’ajout d’un dénaturant [Perrett & Zhou; 2002]. Une pression élevée

induit le dépliement des protéines car le système protéine-solvant de l’état dénaturé occupe un

plus petit volume que celui de la forme native. Cette approche a permis une compréhension

sur l’origine du changement de volume observé lors de la dénaturation (qui est de l’ordre de

1%). Ainsi l’étude des cavités de la nucléase du staphylocoque montre que les effets de

volumes exclus dans les protéines sont la raison déterminante du changement de volume lors

du dépliement [Frye & Royer; 1998].

V.1.2 Nanomanipulations

Depuis une dizaine d’années, le développement des expériences sur molécules uniques a

permis de déterminer quelques caractéristiques mécaniques de ces molécules. Ces expériences

consistent à attacher des molécules uniques sur des surfaces, des fibres en verre, des

microbilles ou d’autres supports pour pouvoir y appliquer une force. De telles approches

expérimentales se sont portées sur des ADN [Bryant, et al.; 2003] [Smith, et al.; 1996]

[Cluzel, et al.; 1996] [Bustamante, et al.; 2003], des ARN [Liphardt, et al.; 2001], des

complexes ADN-protéines [Dohoney & Gelles; 2001], des complexes protéine-ligand [Florin,

et al.; 1994], des brins de polysaccharides [Rief, et al.; 1997b] ou des protéines comme par

exemple la titine, la tenascine, la spectrine et la fibronectine (voir la revue de Smith et al.

[Smith, et al.; 2003]).

La première protéine à avoir été étirée mécaniquement est la titine, une protéine géante du

muscle comportant environ 300 domaines immunoglobuline (Ig) et fibronectine type III

connectés par des régions PEVK [Rief, et al.; 1997a, Tskhovrebova, et al.; 1997]. Les

différents domaines de la titine peuvent se déplier de manière importante si une force critique

est appliquée. Pour s’affranchir de la complexité des protéines multidomaines naturelles, un

certain nombre de polyprotéines synthétiques contenant un nombre restreint de domaines ont

été étudiées [Brockwell, et al.; 2002, Fisher, et al.; 2000]. Par exemple, le dépliement d’un

46

polymère du domaine Ig de la titine a été étudié en tirant entre les deux extrémités [Rief, et

al.; 1997a]. Une des extrémité est attachée à une plaque d’or fixe et l’autre à la pointe d’un

appareil AFM (Atomic Force Microscopy). On obtient alors des graphes force-extension en

dents de scie comme ceux du gauche de la figure 21. Chaque pic est provoqué par le

dépliement d’un domaine Ig. Le schéma de droite de la figure 21 explicite la correspondance

entre les pics et la structure du polymère. La force augmente jusqu’à atteindre une valeur

maximum (150-300 pN) correspondant à la force nécessaire pour qu’un domaine se déplie

(point 1). Le dépliement provoque une diminution brutale de la force à cause d’une

augmentation de la longueur du polymère (point 2). Puis le déplacement de la pointe de

l’AFM continue jusqu’à obtenir une force permettant de déplier un nouveau domaine (point

3). Sur la figure de gauche, le modèle WLC (Worm-Like Chain model) permet de modéliser

les portions montantes de la courbe et la distance entre deux sommets permet de prédire que

chaque domaine mesure 28-29 nm de long lorsqu’il est étendu.(L’étude de la forme globale de

la courbe a été effectué par Evans et Ritchie [Evans & Ritchie; 1997] et celle des états

intermédiaire par des études de dynamique moléculaire [Gao, et al.; 2001, Gao, et al.; 2002]).

figure 21 : Graphe de l'étude sur molécule unique d'un poly-Ig de la titine tiré de l’article de

Rief et al. [Rief, et al.; 1997a]. À gauche, graphe force/extension en dent de scie d’un hexa-

Igdomain avec les courbes du modèle WLC pour l’analyse des pics. À droite, schéma

correspondant corrélant les pics aux différentes étapes du dépliement du polymère.

47

La valeur de la force de dépliement, maximum des courbes, dépend de la vitesse à laquelle le

domaine est étiré. La courbe de la force de dépliement en fonction de la vitesse est une droite

dont la pente permet de déterminer la constante de vitesse de dépliement des molécules

étudiées. L’analyse de ces courbes pour différents mutants permet d’obtenir des informations

sur les intermédiaires de repliement. Ainsi, l’étude de mutants du domaine immunoglobuline

de la titine a permis de mettre en évidence un intermédiaire de dépliement ainsi que des états

de transition [Williams, et al.; 2003 ]. Les auteurs ont pu montrer que, sous une faible vitesse,

la barrière principale à franchir est celle caractérisée dans les études de dépliement sous l’effet

de dénaturants. Au contraire, sous des contraintes plus fortes, l’état intermédiaire est plus

peuplé et résistant au dépliement et qu’il faut donc des forces plus grandes pour que le

dépliement se produise.

Il a été montré que les constantes de force de dépliement obtenues par dépliement mécanique

et celles obtenues par dénaturation chimique sont du même ordre et que les chemins de

dépliement sont similaires [Carrion-Vazquez, et al.; 1999]. Mais ces résultats sont critiquables

car on peut difficilement comparer le dépliement d’un monomère sous l’action des agents

chimiques avec celui d’un polymère sous une contrainte physique [Smith, et al.; 2003]. En

effet, les coordonnées de réaction ne sont pas comparables : c’est en général la surface

accessible au solvant pour les expériences de dénaturation chimique [Myers, et al.; 1995] et la

distance entre les deux points d’attache dans les expériences de nanomanipulation.

Même si les expériences sur molécules uniques donnent des renseignements intéressants sur

la résistance au dépliement, les domaines de la protéine résistant le mieux aux contraintes,

l’existence et la caractérisation d’intermédiaires de dépliement et sur l’effet des mutations

[Williams, et al.; 2003 ], elles s’avèrent difficiles à mettre en œuvre pour une étude

systématique des protéines et n’offrent pas une connaissance de ce qui se déroule au niveau

atomique. La modélisation moléculaire et la dynamique moléculaire peuvent permettre de

pallier ces carences par la représentation atomique des molécules et la possibilité d’étudier

tout type de protéine.

48

V.2 Études théoriques

V.2.1 Exemple d’une étude par dynamique moléculaire et données

expérimentales

La combinaison des études expérimentales et des simulations de dynamique moléculaire

permet de caractériser l’état natif, de transition et déplié. Les simulations permettent de

connecter ces états à une description du chemin de repliement. Nous allons prendre le cas de

l’inhibiteur 2 de la chymotrypsine (CI2) traité par Daggett [Daggett; 2001]. CI2 est une petite

protéine de 64 acides aminés qui se replie suivant le schéma à deux états (l’état déplié est en

équilibre avec l’état natif sans passer par des intermédiaires). L’état de transition

correspondant à la structure la plus haute en énergie dans le chemin de repliement est donc

une donnée importante pour comprendre ce chemin.

En dynamique moléculaire, la première étape est de bien caractériser l’état natif pour pouvoir

ensuite le comparer aux états obtenus sous contrainte. Les auteurs ont traité une simulation de

plusieurs nanosecondes (5,3 et 35 ns) de l’état natif dans les conditions natives. Ils ont montré

que la simulation reproduisait la majorité des mesures de couplages NOE observées par RMN

et des comportements d’échange d’hydrogène des amides et que la chaîne principale restait

proche de celles de la structure cristallographique et de la RMN.

L’état de transition a été étudié avec un grand nombre de techniques expérimentales. En

particulier, plus d’une centaine de mutations ont été étudiées tout au long de la protéine

[Itzhaki, et al.; 1995a, Itzhaki, et al.; 1995b]. De plus, le repliement et le dépliement ont été

observés montrant que l’état de transition était le même dans les deux phénomènes. L’état de

transition a une surface accessible au solvant 40% plus grande que celle de l’état natif ;

environ 50% des résidus hydrophobes restent enterrés et environ 30% des interactions des

chaînes latérales restent intactes. Les expériences d’échange de proton montrent que le

dépliement se fait de manière globale ce qui est en corrélation avec les résultats de repliement

observés par RMN où tous les pics apparaissent en même temps.

Quatre simulations de dépliement ont été réalisées à partir d’états natifs tirés des structures

RMN ou cristallographiques. Les quatre états de transition identifiés se ressemblent et seuls

les chemins après le passage de l’état de transition divergent. L’état de transition est assez

proche de l’état natif et on retrouve des propriétés similaires entre ces états issus de la

dynamique moléculaire et ceux étudiés expérimentalement. Ainsi les indices structuraux

49

locaux, produits des pourcentages locaux des structures tertiaires et secondaires dans les

structures de l’état de transition par rapport à la structure native [Daggett, et al.; 1996],

corrèlent avec un coefficient de 0,9. On peut aussi faire l’étude de mutants en dynamique

moléculaire et retrouver des résultats obtenus expérimentalement. Certaines mutations

permettent ainsi d’accélérer le repliement en stabilisant l’état de transition et l’étude atomique

de l’état par dynamique moléculaire permet de prédire ces mutations qui peuvent ensuite être

testées expérimentalement.

D’après les études RMN, l’état dénaturé de CI2 est largement non structuré, à part quelques

domaines restés faiblement structurés. On peut également retrouver ces informations dans les

études de dépliement de dynamiques moléculaires menées jusqu’à l’état dénaturé.

En conclusion, les méthodes expérimentales et théoriques donnent en général des résultats

similaires et montrent qu’il existe une seule famille d’états de transition, excluant les

hypothèses de chemins parallèles. CI2 se replie par un mécanisme de nucléation-

condensation/collapse. En outre, la dynamique moléculaire permet de proposer des mutations

pouvant accélérer le repliement et donne des détails sur les différents états. Par contre,

contrairement à l’expérience où tous les cas sont échantillonnés, la dynamique moléculaire ne

donne qu’un exemple de chemin de repliement. C’est une combinaison des deux approches

théorique et expérimentale qui permet d’élucider les mécanismes de repliement/dépliement.

V.2.2 Études théoriques du dépliement

Les nombreuses études théoriques qui ont été menées lors de la dernière décennie afin de

reproduire les résultats expérimentaux de nanomanipulation et d’obtenir de nouvelles

informations structurales au cours du dépliement de la molécule sont basées sur des méthodes

de minimisation d’énergie en coordonnées internes [Lavery & Lebrun; 1999] [Rohs, et al.;

1999] ou de dynamique moléculaire [Lu & Schulten; 2000] [Izrailev, et al.; 1997] [Paci &

Karplus; 1999] [Bryant, et al.; 2000] dans lesquelles les forces appliquées à la biomolécule

sont représentées par l’introduction de contraintes supplémentaires intégrées au champ de

force. Dans la plupart des cas, les simulations (comme les études expérimentales auxquelles

elles sont liées) ont consisté à étirer la protéine selon une direction privilégiée (souvent

déterminée par les résidus C-terminaux et N-terminaux). Elles correspondent de fait à la

réponse à une sollicitation donnée de la molécule et ne fournissent donc que des informations

partielles sur ses propriétés mécaniques. Or des études récentes, où le choix des points

d’attachement des protéines étirées était contrôlé, ont montré que la résistance au dépliement

50

mécanique dépend de la direction de la force appliquée [Brockwell, et al.; 2003, Carrion-

Vazquez, et al.; 2003, Matouschek & Bustamante; 2003].

Il est donc nécessaire d'imaginer des contraintes permettant un dépliement de la protéine sans

pour autant imprimer une direction particulière à cette déformation. Différentes approches ont

été mises au point utilisant des contraintes environnementales comme la température

[Kazmirski & Daggett; 1998], le rayon de giration [Paci, et al.; 2001], la pression

[Hunenberger, et al.; 1995] ou des contraintes géométriques. Une contrainte de ce type a été

utilisée par Gilquin et collaborateurs [Gilquin, et al.; 2000] afin d'étudier le chemin de

dépliement du lysozyme de l'œuf à l'aide d'une expérience de dynamique moléculaire. Elle

correspond à augmenter graduellement le RMSD entre la structure et une structure de

référence.

Une partie du travail présenté ici a été de développer des contraintes similaires dans le

programme LIGAND, programme de minimisation d’énergie en coordonnées internes.

51

VI Rigidité et flexibilité des protéines

Des conditions environnementales (température, pH, salinité…) peuvent influencer la

flexibilité des protéines et leur stabilité. Une rigidité structurelle suffisante préserve la forme

native unique et spécifique de la protéine. Quant à la flexibilité interne, elle permet son bon

fonctionnement (comme l’activité enzymatique des enzymes). Il est donc très important que

les protéines gardent une certaine flexibilité pour conserver leur activité biologique. Une

protéine est donc stable si les conditions extérieures lui permettent de ne pas se déplier mais

aussi d’être toujours active.

VI.1 Dynamique des protéines

L’étude par diffraction des rayons X ne fournit que des structures statiques des protéines.

Pourtant les protéines sont flexibles et leur activité biologique dépend de cette flexibilité. La

dynamique a lieu sur un large domaine temporel dont les différents mouvements sont cités

dans le tableau ci-dessous.

Mouvements Amplitude (Å) Log10 du temps

caractéristique (s)

Vibrations atomiques 0,01 à 1 -14 à –13

Vibrations élastiques de régions globulaires 0,05 à 0,5 -12 à –11

Rotations des chaînes latérales exposées 5 à 10 -11 à –10

Rotations des chaînes latérales enfouies 5 -4 à 0

Transitions allostériques 1 à 5 -5 à 0

Dénaturation locale 5 à 10 -5 à 1

52

Les mouvements qui contribuent à la dynamique des protéines sont dus à divers mécanismes :

mouvements de type vibratoire, mouvements d’ensemble de domaines, mouvements de

diffusion. Les vibrations atomiques sont des mouvements très rapides de l’ordre de la

picoseconde ou moins. Les mouvements entre domaines sont attendus dans les protéines dans

lesquelles des parties de la structure peuvent bouger les unes par rapport aux autres sur

plusieurs angströms. Les régions entre les domaines constituent des charnières en référence

aux charnières des portes liant deux parties bougeant l’une par rapport à l’autre.

VI.2 Facteurs de température

Une manière de mesurer la flexibilité des domaines d’une protéine est de regarder les facteurs

de température. Si la résolution de structure de la protéine obtenue par rayons X est

suffisamment bonne, les facteurs de température de chacun de ses atomes sont disponibles

dans les fichiers diffusés sur la banque de données Protein Data Bank [Berman, et al.; 2000].

Le facteur de température est un facteur correctif qui rend compte du fait que les noyaux des

atomes n’ont une position fixe que s’ils sont à la température du zéro absolu. À la température

de l’expérience, les noyaux oscillent autour de leur position d’équilibre.

La relation mathématique entre le facteur de température Bj et la valeur moyenne du

déplacement de l’atome j ( )2jRr

∆ est la suivante [van Meerssche & Feneau-Dupont; 1984] :

( )22

38

jj RBr

∆Π=

Cette équation montre que les facteurs de température sont positifs et leur dimension est celle

d’une surface. Plus le facteur de température d’un atome est grand, plus son noyau oscille

autour de sa position d’équilibre, plus cet atome fluctue.

Les facteurs de température sont des grandeurs expérimentales qui peuvent être calculées de

manière théorique avec la donnée des fluctuations moyennes des atomes.

53

Chapitre 4 Méthodologie

Nous allons décrire dans cette partie les différentes approches théoriques que nous avons

utilisées pour étudier les propriétés mécaniques des protéines. Suivant la taille des protéines et

les informations que l’on veut obtenir on choisit une description plus ou moins fine du

système (la protéine étudiée et son environnement). La description du système peut se faire

dans l’espace des coordonnées cartésiennes où chaque atome est décrit par la donnée des trois

coordonnées x, y, z dans un repère orthonormé. Le programme AMBER (Assisted Model

Building with Energy Refinement) [Pearlman, et al.; 1995] est un programme de mécanique

moléculaire (minimisation et calculs de modes normaux) et de dynamique moléculaire qui

travaille dans cet espace. Les coordonnées internes, où chaque atome est défini par rapport

aux autres atomes du système avec la donnée de distances et d’angles basée sur la structure

chimique, représentent une alternative utilisée dans le programme LIGAND [Lavery, et al.;

1986a, Lavery, et al.; 1995b], programme de minimisation d’énergie. On peut aussi décrire le

système sans tenir compte de tous les atomes. GNM (Gaussian Network Model), ANM

(Anisotropic Network Model) et GNMlig sont des programmes utilisant une description

granulaire du système pour faire des études de modes normaux et de la mécanique

moléculaire.

54

VII Champ de force

Compte tenu de la taille des systèmes étudiés en biologie, l'utilisation de la mécanique

quantique n'est pas possible. Les macromolécules sont représentées comme un ensemble

d’atomes ponctuels dont les interactions sont décrites par un potentiel semi-empirique ou

champ de force. On appelle champ de force le modèle mathématique représentant l'énergie

potentielle d'une molécule en mécanique moléculaire. Sous ce terme sont en fait regroupés

deux éléments : d'une part l'expression des différentes fonctions contribuant au calcul

énergétique et d'autre part les valeurs des différentes constantes paramétrant ces fonctions.

Ce potentiel empirique dans le programme AMBER est constitué de deux parties représentant

les interactions entre atomes non liés (électrostatique et Lennard-Jones) et les interactions

entre atomes liés (représentation harmonique des déformations des liaisons, des angles de

valence et des barrières énergétiques des angles de torsion propres et impropres). Il faut noter

que le nom « AMBER » est donné au programme mais aussi au champ de force utilisé dans le

programme. Les paramètres que nous avons utilisés sont les paramètres parm99 [Wang, et al.;

2000].

L’expression du champ de force AMBER est de la forme suivante [Cornell, et al.; 1995,

Cornell, et al.; 1996] :

LJélecimpropredièdresanglesliaisonsAmber EEEEEEE +++++=

avec :

( )∑ −=l

lliaisons llkE 20

( )∑ −=θ

θ θθ2

0kEangles

( )[ ]∑ ++=φ

γφφ nCosVE ndièdres 12,

55

( )[ ]∑ ++=impropres

impropresnimpropreimpropres nCosVE

φγφφ 12

,

∑<

⎟⎟⎠

⎞⎜⎜⎝

⎛=

ji ij

jielijélec

rqqfE

ε

∑< ⎟

⎟⎠

⎞⎜⎜⎝

⎛⎟⎠⎞

⎜⎝⎛−⎟

⎠⎞

⎜⎝⎛=

ji ijij

ijij

ijlj

ijLJ rr

rrefE

6*

12*

* 2

Le premier terme Eliaisons correspond à l’énergie potentielle de déformation des liaisons

covalentes. Cette énergie est représentée par un potentiel harmonique (approximation justifiée

par le fait qu’à température ambiante les longueurs de liaison fluctuent faiblement autour de

leur position d’équilibre). kl représente la constante de force associée à la liaison, l est la

longueur de la liaison à l’instant calculé et l0 est sa longueur de référence.

Le deuxième terme Eangles constitue l’énergie de déformation des angles de valence. Ce terme

prend également une forme quadratique, θ0 représentant la valeur de référence de l’angle θ et

kθ la constante de force qui lui est associée.

Le troisième terme Edièdres est l’énergie représentant la déformation des angles dièdres.

L’expression de la contribution de chaque angle dièdre est un (ou plusieurs) terme(s) d’une

fonction développée en série de Fourier. L’entier n est l’ordre de la série de Fourier pris en

compte pour l’angle dièdre φ considéré, le réel Vn,φ est la constante de torsion associée et γ

est la phase associée. Edièdres prend déjà en compte une partie des interactions entre atomes

non liés puisqu’il fait intervenir quatre atomes. Ces interactions devront donc être pondérées

dans l’expressions des termes énergétiques entre atomes non liés. Le choix de n dépend du

type de liaison dièdre qu’il décrit. Le premier ordre de la série de Fourier agit sur la

stabilisation des formes de conformation cis ou trans, le deuxième ordre sur la stabilisation

planaire des doubles liaisons entre atomes de type sp2 et le troisième ordre sur la stabilisation

des formes de conformation décalée ou éclipsée (figure 22). Une combinaison des différents

ordres permet de rendre compte de l’effet anomère (ou gauche) qui a lieu par exemple dans

les sucres.

56

figure 22 : Ordres n pour les différents types d'angles.

Le terme énergétique de torsions impropres Eimpropres donne la contribution énergétique des

déformations des torsions impropres formées par trois liaisons. Une torsion impropre est par

exemple l’angle formé par les plans IJK et JKL définis par la figure 23 . Les torsions

impropres sont appelées ainsi car les quatre atomes impliqués ne sont pas linéairement liés.

Ce terme sert à maintenir la planéité de certains groupements tels que le groupement

carbonyle, la valeur de l’ordre n est alors égale à 2. Il permet aussi de maintenir la chiralité

d’un carbone chiral possédant un hydrogène implicite (n est alors égal à 3). La phase γ des

torsions impropres est toujours égale à 180 degrés [Case, et al.; 2002].

figure 23 : Liaisons définissant un angle de torsion impropre IJKL.

Le paramétrage des termes énergétiques que nous venons de présenter est basée en général sur

les données expérimentales obtenues pour de petites molécules. Les valeurs de référence sont

souvent déterminées par des analyses de structures cristallographiques et les constantes de

force par des études de spectroscopie (infrarouge, Raman) ou à l’aide de calculs quantiques.

K

L I

J

57

De même, les valeurs des paramètres n, γ et Vn,φ peuvent être obtenues à l’aide de données

cristallographiques, RMN ou de résultats provenant de mesures de spectroscopie micro-onde.

Les deux derniers termes énergétiques représentent l'interaction à distance entre atomes non

liés, c’est-à-dire séparés par plus de deux liaisons. La somme se fait sur tous les couples

d’atomes i et j non liés. On parle par exemple d'interactions 1-4 (atomes séparés par 3

liaisons), 1-5 (atomes séparés par 4 liaisons)... Ces termes définissent respectivement la

contribution d’énergie électrostatique Eélec et un terme ELJ de type Lennard-Jones pour les

interactions de type van der Waals (vdW) et de répulsion d’échange.

L’expression de l’énergie électrostatique est représentée par un potentiel coulombien où ε est

la constante diélectrique et qi est la charge partielle de l’atome i. La répartition globale des

charges sur une molécule est simplifiée à des charges partielles localisées sur les atomes et

dont la valeur dépend de leur électronégativité. Ces charges partielles sont déterminées par

des calculs sur des petites molécules en utilisant des méthodes quantiques semi-empiriques

ou, plus souvent aujourd’hui, ab initio. Les monopoles atomiques sont ensuite optimisés pour

reproduire au mieux la distribution de potentiel électrostatique autour des molécules en

question.

Le terme de Lennard-Jones est représenté par la somme des énergies résultant des interactions

attractives et répulsives. L’expression de cette énergie est sous la forme d’un potentiel dit

6-12. Le terme en puissance 12 correspond aux paramètres du terme répulsif à courte distance

(reflet de la répulsion des nuages électroniques correspondant aux règles d’exclusion de Pauli)

et le terme en puissance 6 est le terme attractif à une distance moyenne (forces de dispersion

de London, Keeson et Debye résultant de l’induction et de l’attraction de dipôles instantanés).

Les paramètres eij*

et rij* sont respectivement la profondeur du puits de potentiel et la valeur

de la séparation correspondant au minimum énergétique (figure 24). Ces paramètres sont

calculés à partir de mesures thermodynamiques (chaleur de vaporisation).

Afin de diminuer la contribution des interactions de type 1-4 (j=i+3) qui sont déjà prises en

partie dans le terme Ediédres, des facteurs d’échelle égaux à fijel = 1/1,2 et fij

lj = 1/2, sont

appliqués respectivement aux termes d’interactions électrostatiques et Lennard-Jones. Ces

facteurs sont égaux à 1 pour les autres paires d’atomes.

58

figure 24 : Potentiel de Lennard-Jones. Définition des paramètres eij* et rij

*.

0 rij*

eij*

Energie

séparation rij

59

VIII Minimisation

Les programmes AMBER, LIGAND et GNMlig peuvent tous les trois minimiser la fonction

d’énergie du système.

Le rôle de la minimisation dans les programmes de dynamique moléculaire est

essentiellement de relaxer la structure initiale et d’éliminer les mauvais contacts

interatomiques. Ceci permet notamment d’éviter les changements de conformation trop

brusques dès le début d’une dynamique. Les structures « minimisées » correspondent

généralement au minimum local le plus proche de la structure de départ plutôt qu’au

minimum global d’énergie. La minimisation correspond donc à la première étape d’un

protocole de dynamique moléculaire, elle peut être aussi utilisée en alternance avec les phases

d’équilibration (phases de dynamique sous contrainte) de façon à relaxer le solvant et à

accélérer son équilibration autour du soluté.

De même, la minimisation dans les programmes de mécanique moléculaire comme LIGAND

et GNMlig permet de trouver le minimum d’énergie potentielle dans le champ de force étudié

et sous les contraintes imposées. Ces méthodes autorisent généralement des changements de

conformation plus importants grâce à la réduction du nombre et de la nature des variables ou

la simplification du champ de force.

Les méthodes de minimisation sont basées sur le calcul des dérivées de la fonction d’énergie

et utilisent des processus itératifs : à partir de l’énergie potentielle et du gradient, calculés

pour un jeu de coordonnées, ces algorithmes génèrent un nouveau jeu de coordonnées

correspondant à une énergie potentielle plus basse.

Nous allons décrire les deux types de minimisations utilisées d’une part dans le programme

AMBER et d’autre part dans LIGAND et GNMlig.

VIII.1 Gradient simple et conjugué

Les algorithmes de minimisation utilisés dans le programme AMBER sont les méthodes du

gradient simple (« steepest descent ») et du gradient conjugué (« conjugated gradients »).

60

Pour chaque pas de minimisation on détermine le nouveau jeu de positions des atomes

)1( +krr de l’itération suivante (k+1) à partir des positions initiales des atomes )(krr , de la

direction de recherche )(ksr et de la valeur du déplacement α(k) en utilisant la relation :

( ) ( ) ( ) ( )kkkk srr rrr α+=+1

Les deux méthodes diffèrent dans le choix du vecteur direction sr et dans leur vitesse de

convergence. La méthode du gradient simple utilise une direction de recherche correspondant

à l’opposé de la valeur du gradient de l’itération.

)()()(

kgkgks r

rr −=

La recherche se fait donc en suivant la direction où la fonction d’énergie potentielle décroît le

plus. L’incrément donné α(k) est ajusté de façon à suivre l’évolution de l’énergie (si l’énergie

diminue lors d’une itération, la taille du pas est augmentée à l’étape suivante, si elle se met à

augmenter, le pas est alors diminué, faisant l’hypothèse que l’algorithme est en train

d’explorer « le versant opposé d’une vallée énergétique »). Cette méthode est particulièrement

efficace lorsqu’on se trouve loin du minimum, par contre elle adopte généralement un

comportement oscillatoire une fois le fond du puits de potentiel atteint et ne converge alors

que très lentement. On l’utilise donc comme première étape du processus de minimisation, en

effectuant quelques centaines de cycles, pour éliminer les contacts stériques les plus

importants.

La seconde méthode dite du gradient conjugué converge rapidement lorsqu’on se rapproche

du minimum. À la première itération la direction de recherche est choisie comme

précédemment, opposée au plus grand gradient. Par la suite, la direction de recherche s’écrit

comme une combinaison linéaire des directions du gradient de l’étape k et de la direction de

recherche de l’étape précédente (k-1).

( ) ( ) ( ) ( )1−+−= kkkk sbgs rrr avec ( )

( ) ( )( ) ( )11 −− ⋅

⋅=kk

kkk gg

ggb rrrr

(Fletcher-Reeves)

L’incrément α(k) est choisi de façon à minimiser la fonction potentiel le long de la

direction sr .

61

( ) ( ) ( ) ( )kkkk srr rrr α+=+1

L’itération se termine lorsqu’un critère de convergence est atteint. Ce critère peut être

considéré comme atteint lorsque la moyenne quadratique des forces atomiques est plus petite

qu’une valeur choisie par l’utilisateur, typiquement égale à 10-4 kcal.mol-1.Å-1, dans le cas du

programme AMBER, ou lorsque la différence d’énergie estimée pour le pas k+1 est plus

petite qu’une valeur seuil (typiquement de 10-4 kcal.mol-1), dans le cas du minimiseur VA13A

utilisé dans le programme LIGAND.

VIII.2 Quasi-Newton

LIGAND est un programme qui minimise l’énergie conformationnelle du système étudié

avec un algorithme de minimisation de type gradient conjugué quasi-Newtonien (Harwell

VA13A) déjà utilisé dans le programme JUMNA pour les études sur l’ADN [Cluzel, et al.;

1996, Lavery, et al.; 1995b, Lebrun & Lavery; 1996].

Alors que la procédure du gradient n’utilise comme information que la pente, la méthode de

Newton utilise la pente et la courbure (c’est-à-dire la dérivée seconde de l’énergie). Cette

procédure est par conséquent optimale pour minimiser des fonctions quadratiques puisque

celles-ci sont uniquement définies par ces deux quantités.

Les nouvelles coordonnées sont alors données par l’équation suivante :

( ) ( ) ( ) ( )kkkk srr rrr α−=+1

avec α(k) le pas d’adaptation et sr la direction donnée par :

( ) ( )kkk gHs rr 1)(

−=

où H-1 est l’inverse de la matrice hessienne H du potentiel V avec

[ ]ji

ij xxkVkH

∂∂∂= )()(

62

Le hessien fait tourner le vecteur gradient de sorte que sr pointe vers la direction du minimum.

La matrice hessienne n’est pas calculée de façon analytique mais estimée en cours

d’algorithme.

Les algorithmes de minimisation nécessitent un calcul analytique des dérivées premières de

l’énergie de conformation par rapport à toutes les variables indépendantes définissant le

système étudié. On obtient ces dérivées en exprimant de façon analytique les forces atomiques

(obtenues par dérivation de l’énergie par rapport aux déplacements atomiques) et des

moments des forces agissant sur chaque atome. Pour les programmes en coordonnées internes

comme LIGAND, les dérivées par rapport aux coordonnées internes sont alors obtenues en

combinant les forces sur les atomes contribuant à ces variables [Lavery, et al.; 1986a]. Sous

l’action de l’ensemble des forces atomiques, les différentes parties de la molécule se

déplacent les unes par rapport aux autres par translation et rotation.

63

IX Dynamique moléculaire

Les simulations de dynamique moléculaire donnent la possibilité d’observer le comportement

d’un système en fonction du temps. Elles permettent aussi d’échantillonner un espace

conformationnel important, inaccessible aux expériences de minimisation d’énergie. En effet,

l’énergie totale du système se décompose en énergie potentielle décrite par le champ de force

et en énergie cinétique liée à la température du système. L’apport d’énergie cinétique sous

forme de température permet d’exciter le système et de lui faire quitter le minimum local

atteint au cours de la minimisation. Le système ayant accumulé suffisamment d’énergie peut

alors explorer l’espace conformationnel et effectuer des transitions de conformations par sauts

de barrières énergétiques successives. Nous avons donc utilisé les expériences de dynamique

moléculaire afin d’obtenir des structures stables et de basses énergies. Nous avons pour cela

utilisé la version 7.0 [Case, et al.; 2002] du programme de dynamique moléculaire AMBER.

IX.1 Résolution de l’équation du mouvement

En dynamique moléculaire, les configurations successives du système étudié sont générées

grâce à la résolution des équations du mouvement de Newton. Il en résulte la trajectoire qui

spécifie les positions (coordonnées cartésiennes) et les vitesses des atomes qui décrivent le

système au cours du temps.

La force iFr

s’appliquant sur l’atome i est calculée en dérivant la fonction d’énergie

potentielle Ep par rapport aux coordonnées cartésiennes de cet atome : i

pi r

EF rr

∂∂−= .

Pour chaque atome i de masse mi, la force iFr

exercée par l’ensemble du système sur cet

atome vérifie l’équation du mouvement de Newton :

2

2

dt

rdmF i

ii

rr

=

L’équation ci-dessus est un système d’équations différentielles du deuxième ordre dont une

solution discrétisée peut être obtenue à l’aide d’un développement de Taylor. A partir de la

64

connaissance des positions et de toutes leurs dérivées à l’instant t, les positions à l’instant

(t±∆t), où ∆t représente le pas d’intégration, sont données par :

( ) ( ) ( ) ( ) ( ))(62

43

33

2

22tO

ttrt

ttrt

ttrttrttr iii

ii ∆+∂

∂∆±

∂∂∆

+∂∂∆±=∆±

rrrrr

Dans le cas du programme AMBER l’algorithme choisi est l’algorithme de Verlet [Verlet;

1967]. En additionnant les deux expressions (+∆t et -∆t), on obtient la valeur des coordonnées

à l’instant t+∆t en fonction de celles à l’instant t-∆t et de celles à l’instant t :

( ) ( ) ( ) ( ) )(2 42 tOtattrttrttr iiii ∆+×∆++∆−−=∆+rrrr

Et en soustrayant les deux expressions (+∆t et -∆t), on obtient la vitesse à l’instant t :

( ) ( ) ( ) )(22tOt

ttrttrtv iii ∆+⎥⎦

⎤⎢⎣⎡

∆∆−−∆+=

rrr

Où ( )tvir

et ( )tair

sont respectivement les composantes de la vitesse et de l’accélération.

On voit que pour déterminer la position de la particule à un temps (t+∆t), il faut connaître

ses deux positions précédentes et son accélération à l’instant t. L’initialisation de l’algorithme

passe par une attribution, à chaque atome, de vitesse aléatoire à l’instant t0 selon une

distribution de Maxwell-Boltzmann à la température initiale souhaitée.

La valeur de ∆t doit être inférieure à celle de la période des mouvements les plus rapides du

système et doit permettre de garder constante l’énergie totale du système.

L’utilisation de l’algorithme SHAKE [Ryckaert, et al.; 1977] permet d’augmenter ∆t en

éliminant les oscillations les plus rapides associées aux liaisons chimiques, notamment de

type X-H qui ont une période de l’ordre de 10 fs. Cet algorithme s’applique de façon itérative

et permet de limiter les variations des longueurs de liaison dans la limite d’un critère de

convergence choisi. En appliquant cet algorithme aux liaisons X-H, il est généralement

possible d’employer un pas d’intégration de 2fs.

65

IX.2 Ensemble NPT

La définition d’un protocole de simulation commence par la définition de l’ensemble

thermodynamique utilisé pour le système. Les trois ensembles thermodynamiques les plus

communément utilisés dans les simulations de dynamique moléculaire sont :

- l’ensemble microcanonique (NVE),

- l’ensemble canonique (NVT), et

- l’ensemble isotherme-isobare (NPT)

Selon l’ensemble choisi, trois grandeurs thermodynamiques sont conservées, N le nombre de

particules, V le volume, P la pression ou T la température du système. L’ensemble canonique

NVT est le plus simple à implémenter, même si l’ensemble microcanonique NVE semble

théoriquement le mieux adapté aux simulations de dynamique moléculaire puisque, par

définition, l’énergie totale du système doit être conservée au cours de la simulation.

Cependant, des fluctuations ou de faibles dérives de l’énergie totale du système sont souvent

observées après quelques nanosecondes de simulation. Ces perturbations sont principalement

causées par l’accumulation d’erreurs numériques au cours de l’intégration des équations de

Newton et par les approximations faites au cours du temps lors de la troncature des

interactions non liées [Allen & Tildesley; 1987, Frenkel & Smit; 2002, Leach; 2001].

Du fait de sa simplicité d’application nous avons effectué l’étape de thermalisation (chauffage

du système) ainsi qu’une partie des étapes d’équilibration sous contraintes dans l’ensemble

canonique (NVT). Par ailleurs, afin de contrôler les dérives de température et/ou de pression

résultantes des erreurs de troncature des interactions à longue distance, nos simulations ont été

effectuées dans l’ensemble NPT.

La température est définie par rapport aux vitesses atomiques suivant l’équation suivante :

b

N

i ii

Nk

vmT

31

2∑==

r

où N est le nombre d’atome et kb la constante de Boltzmann.

La méthode utilisée pour maintenir la température constante consiste à coupler le système à

un réservoir externe de température [Berendsen, et al.; 1984]. Dans ce couplage à un bain

66

thermique, on modifie les équations du mouvement et on met en place une relaxation du

premier ordre pour la température par rapport à sa valeur de référence T0. On fait de même

pour maintenir la pression constante où P est déterminée par l’équation suivante :

⎟⎟⎠

⎞⎜⎜⎝

⎛+= ∑∑

==

N

iii

N

iii FrvmVP

11

221

32 rrr

IX.3 Conditions périodiques

Les molécules d’eau sont additionnées autour de la protéine dans une boîte de forme

polygonale. Par exemple, les boîtes octaédriques tronquées (figure 25) sont particulièrement

bien adaptées pour les systèmes à géométrie sphérique comme les protéines mais aussi pour

les solutés allongés (comme les fragments d’ADN) si on ne souhaite pas bloquer leur rotation

au sein de la cellule de simulation. (Elles permettent de minimiser le nombre de molécules

d’eau à rajouter par rapport à une boite sphérique.) On peut aussi ajouter des ions de manière

aléatoire pour assurer l’électroneutralité du système.

figure 25 : boîte octaédrique tronquée

Dans les simulations des macromolécules en solution, la taille finie du système pose des

problèmes d’effets de bords à l’interface avec le vide environnant. Pour masquer les

discontinuités aux frontières et simuler l’aspect infini d’une solution, on applique des

conditions périodiques aux limites [Leach; 2001]. Le soluté et les contre-ions sont placés dans

une boîte d’eau qui est répliquée dans toutes les directions de l’espace de manière à créer un

système de dimension infinie. On construit ainsi un réseau cristallin dans lequel le

comportement moléculaire est le même dans chaque maille. L’application des conditions

périodiques aux limites consiste alors à faire en sorte que, si une particule sort de la boîte

67

centrale par une face, son image dans la boîte adjacente y rentre par la face opposée. De

même, lors du calcul des forces sur un atome, toutes les interactions avec les autres atomes

situés dans les boîtes voisines sont prises en compte. Par contre, il faut s’assurer que le soluté

n’interagit pas avec ses images dans les boîtes voisines. On introduit donc un critère de seuil

(cutoff) au-delà duquel les interactions ne sont plus calculées. Ce seuil doit être au maximum

égal à la moitié de la plus petite distance entre deux surfaces de la boîte.

IX.4 Troncature LJ

L’approximation consistant à ne tenir compte que des interactions non-liées d’un atome donné

avec ses plus proches voisins situés dans une sphère, dont le rayon rc est appelé rayon de

coupure permet de diminuer notablement le temps de calcul. Si le « rayon de coupure » est

une approximation acceptable dans le cas du calcul des interactions de Lennard-Jones

(puisque celles-ci décroissent très rapidement lorsque la distance augmente), il introduit, dans

le cas des interactions électrostatiques, des discontinuités importantes dans le calcul des

énergies et des forces, car le terme électrostatique ne diminue que linéairement en fonction de

l’inverse de la distance. Pour éviter de créer des brusques variations de forces dues au fait que

le potentiel est discontinu pour r = rc on peut multiplier les termes d’interactions non-liées par

une fonction dite de « switch » ou ajouter au terme une fonction dite de « shift ». Ceci évite

les discontinuités mais ne résout pas le problème principal du calcul des interactions à longue

distance.

Une alternative à ce type d’approche est l’utilisation de la sommation d’Ewald [Allen &

Tildesley; 1987] qui consiste à traiter le système comme s’il s’agissait d’un quasi-cristal et

d’effectuer des sommes par maille. Cette technique a été spécialement introduite pour calculer

efficacement la somme des interactions électrostatiques entre les particules d'un système

moléculaire dans des conditions périodiques aux bornes.

Ewald a transformé le calcul de l'énergie électrostatique dans des conditions périodiques aux

bornes (qui est une somme sur tous les couples d’une fonction qui converge lentement) en la

somme de trois termes : la somme directe qui est une somme sur l'espace réel, la somme

réciproque (imaginaire ou de Fourier, effectuée dans l’espace réciproque de la description de

la maille) et la somme de correction (qui est une constante). L'algorithme PME « Particle

Mesh Ewald » [Cheatham III, et al.; 1995] est une méthode efficace de calcul de la somme

68

d'Ewald. Dans cette méthode, la somme directe est calculée en utilisant des coupures de

l'espace réel. Par exemple, si, comme dans nos calculs, on utilise une stratégie de coupure

sphérique (spherical cutoffs) avec un rayon rc, alors chaque particule n'interagit qu'avec les

particules qui se trouvent à l'intérieur de la sphère de rayon rc, centrée sur cette particule.

Quant à la somme réciproque, elle est approchée en utilisant une série de transformations

rapides de Fourier (Fast Fourier Transforms) sur une grille où les charges sont interpolées aux

points de la grille. La méthode PME permet un meilleur traitement de l’électrostatique pour

les interactions à longues distances que l’utilisation d’un simple rayon de coupure en évaluant

efficacement la somme d’Ewald, ce qui rend cette méthode particulièrement attractive dans le

cadre des simulations de dynamique moléculaire de macromolécules en solution.

IX.5 Protocole de dynamique moléculaire

Les protocoles de simulation de dynamique moléculaire que nous avons utilisés suivent les

étapes suivantes :

Tout d’abord, si la simulation est réalisée en présence de molécules d’eau explicites, les

molécules sont additionnées autour de la protéine dans une boîte octaédrique tronquée dont

les bords sont situés à 10 Å de la surface de la protéine. Par ailleurs, des ions chlorure sont

additionnés de manière aléatoire afin d'assurer l'électroneutralité du système.

Après une première minimisation d'énergie, le système est chauffé de 100 K à 300 K en 10 ps

en imposant des contraintes harmoniques sur les positions des atomes de la protéine, puis

relaxé, toujours sous les mêmes contraintes pendant 90 ps.

Ces contraintes sont ensuite progressivement relâchées au cours d'une série de cinq cycles de

minimisation-équilibration (minimisation de 1000 pas suivi de 50 ps de dynamique

moléculaire sous contrainte) en terminant par 50 ps de dynamique moléculaire sans

contrainte.

Enfin, on laisse le système évoluer pendant plusieurs nanosecondes. La longueur des liaisons

dans lesquelles interviennent les atomes d'hydrogène est contrainte à l'aide de l'algorithme

SHAKE [Ryckaert, et al.; 1977] et les interactions électrostatiques à longue portée sont

traitées à l'aide de l'approche Particle Mesh Ewald avec une troncature du potentiel à 9 Å et le

système est maintenu à pression et température constantes (1 bar et 300 K respectivement).

69

Si la simulation est réalisée en solvant implicite (voir ci-dessous), le système est simplifié car

il n’y a pas de molécules d’eau à rajouter et le caractère infini est assuré par l’utilisation d’une

fonction représentant les interactions avec le solvant. Le protocole utilisé est très similaire à

celui des expériences en solvant explicite mais le nombre d’atome plus réduit permet

d’augmenter le rayon de coupure à 15 Å.

70

X Représentation du solvant

Les calculs de modélisation moléculaire et de dynamique moléculaire peuvent se réaliser pour

des molécules placées dans le vide. Cependant, il est très intéressant de tenir compte des effets

du solvant lors de l’étude des molécules biologiques (notamment des protéines), ceux-ci

jouant un rôle primordial dans la structuration de ces dernières (voir Chapitre 3). Il existe

ainsi deux manières de tenir compte de ces effets, à savoir l’utilisation de molécules d’eau

explicites ou l’utilisation de fonctions énergétiques représentant les interactions avec le

solvant.

X.1 Solvant explicite

On peut représenter le solvant (ici l’eau) de manière explicite. Dans ce cas, chaque molécule

d’eau est modélisée.

• Modèle TIP3P

Le modèle d’eau que nous avons utilisé en dynamique moléculaire dans le programme

AMBER est TIP3P [Jorgensen, et al.; 1983]. Ce modèle comprend trois atomes (un oxygène

et deux hydrogènes) liés par trois liaisons (deux liaisons O-H de 0,957 Å et une pseudo-

liaison H-H de 1,514 Å) de constante de force de 553 kcal.mol-1. L’oxygène est chargé

négativement de –0,834 e (e est la charge élémentaire égale à 1,6.10-19 C) et les charges des

hydrogènes sont de +0,417 e. L’atténuation des interactions électrostatiques par le solvant est

intrinsèque au modèle (ε = 1) ainsi que la polarisation.

• Limites du système

Le nombre de molécule d’eau à ajouter pour simuler un environnement aqueux est important

et augmente avec la taille de la protéine. Il en résulte une augmentation considérable du

nombre de variables du système et donc du temps de calcul.

X.2 Solvant implicite : modèle de Born généralisé

L’utilisation d’un solvant implicite est très utile pour étudier les systèmes de grande taille. En

effet, ce traitement du solvant est plus rapide que les représentations explicites du solvant.

71

Le modèle de Born généralisé (« Generalized Born », GB) traite le solvant comme un

continuum diélectrique [Bashford & Case; 2000]. La contribution électrostatique à l’énergie

de solvatation est alors donnée par l’équation suivante :

∑ ⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛−−=

−

ji GB

ji

w

f

solvf

qqeE

GB

,12

1ε

κ

avec ⎟⎠⎞

⎜⎝⎛−+=

jiji

jijiGB RRrRRrf 4exp

2,2

,

εw est la constante diélectrique du solvant (la constante diélectrique de l’eau est égale à 78,5).

κ est une constante calculée d’après le modèle de Debye-Hückel permettant de représenter

l’effet d’un sel. Elle est égale à la constante de Debye-Hückel multipliée par 0,73 pour

prendre en compte la surestimation de l’effet du sel due au fait que rien n’empêche les

contres-ions d’approcher très près du soluté.

qi et qj sont les charges partielles des atomes i et j respectivement.

fGB est une fonction telle que fGB→Ri quand ri,j→0. D’autre part, cette fonction mime le calcul

de l’énergie de deux charges en interactions coulombiennes écrantées par Debye-Hückel

lorsque les deux charges sont éloignées.

ri,j est la distance entre les deux atomes i et j.

Ri et Rj sont les rayons de Born des atomes i et j respectivement. Ces rayons de Born effectifs

dépendent non seulement des rayons atomiques intrinsèques ρi ou ρj des deux atomes

considérés mais aussi des rayons ρk et des positions relatives krr

des autres atomes par le biais

d’une fonction positive notée g. Ils sont calculés avec la méthode de Hawkins, Cramer et

Truhlar [Hawkins, et al.; 1995, Hawkins, et al.; 1996] qui donne un rayon de Born plus grand

que le rayon atomique.

∑≠

−=ik

kikiiirrgR ),,,(11 ρρρrr

72

Les paramètres utilisés sont ceux de Tsui et Case [Tsui & Case; 2000] qui ont montré que

l’ADN restait stable sur 12 ns de dynamique moléculaire avec l’utilisation de ces paramètres.

Ils ont aussi montré que pour les protéines cette modélisation du solvant permettait un gain

important de temps par rapport à l’utilisation d’un solvant explicite tout en représentant

raisonnablement des effets de solvant [Xia, et al.; 2002].

L’avantage de ce modèle continu est de pouvoir limiter le nombre d’atomes du système par

rapport à l’utilisation d’un solvant explicite tout en tenant compte des effets électrostatiques

du solvant.

Pour une protéine d’environ 2000 atomes, le remplacement du solvant explicite par

l’approche de Born généralisée représente ainsi un gain d’environ 30% de temps de calcul

(sans autres simplifications).

73

XI Coordonnées internes

XI.1 Le système des coordonnées internes

La façon canonique de décrire la structure tridimensionnelle d’une molécule est de déterminer

les 3N coordonnées cartésiennes x, y et z des N atomes qui la composent. Bien

qu’extrêmement simple, ce système de coordonnées présente l’inconvénient d’être

irréductible et peu représentatif de la structure interne des systèmes macromoléculaires

complexes. L’autre base de coordonnées employée est l’ensemble des coordonnées internes,

c’est-à-dire l’ensemble des longueurs des liaisons covalentes, des angles de valence et des

angles dièdres que les atomes forment entre eux. L’utilisation de ce système de coordonnées

présente au moins deux avantages par rapport au système cartésien :

La représentation des variabilités structurales des molécules étudiées est plus

simple.

Les degrés de liberté les plus rigides (longueurs de liaison, certains angles de

valence) peuvent être gelés (c’est-à-dire que ces coordonnées peuvent être fixées à une valeur

de référence). Le nombre de variables peut ainsi diminuer d’un facteur dix. La surface de

l’énergie potentielle est alors moins accidentée, ce qui permet d’améliorer la recherche de la

conformation la plus stable (qui présente l’énergie minimale). Le choix de geler les longueurs

de liaison et certains angles de valence est justifié par le fait qu’ils sont en général associés à

des constantes de force élevées.

Le programme LIGAND est un programme de minimisation d’énergie dans lequel les

molécules sont représentées en coordonnées internes. Ce programme a été développé à partir

du programme JUMNA [Lavery, et al.; 1995], spécialement conçu au laboratoire pour la

modélisation des acides nucléiques.

Dans LIGAND, afin d’accélérer la minimisation de l’énergie du système, les longueurs de

liaison restent constantes. De même les angles de valence des chaînes latérales sont fixés. Les

variables décrivant le système se composent donc de tous les angles dièdres et des angles de

valence de la chaîne principale.

74

Le cas des prolines est un cas particulier puisque ces acides aminés comportent un cycle

flexible impliquant la chaîne principale et la chaîne latérale. Le cycle est artificiellement

coupé et une contrainte de distance quadratique est appliquée pour le fermer [Lavery, et al.;

1986a]. Le système est alors correctement décrit avec un angle de valence et un angle dièdre

indépendants sur la chaîne latérale. Le cycle est donc décrit par cinq variables indépendantes

(un angle de valence et une torsion pour la chaîne latérale et deux angles de valence et une

torsion des variables de la chaîne principale). Les deux angles de valence et les trois angles

dièdres restants sont dépendants (figure 26).

figure 26 : Les variables indépendantes et dépendantes d’un cycle de proline. Les variables

indépendantes sont en vert et les variables dépendantes en rouge. La liaison artificiellement

coupée est représentée par un ressort.

XI.2 Système d’axe : le pivot

Afin de pouvoir passer des coordonnées internes aux coordonnées cartésiennes ou de pouvoir

placer plusieurs protéines les unes par rapport aux autres, un système d’axes interne à chaque

molécule est déterminé. Ce système est centré sur le carbone α (appelé pivot) d’un des résidus

de la molécule. Les vecteurs décrivant la base orthonormée de ce système sont :

le vecteur normé de la liaison Cα-N : NC

NCuα

α=1r

75

le vecteur issu du produit vectoriel normalisé entre le vecteur 1ur et celui reliant

le carbone α au carbone carbonyle adjacent (Cα-C’) : '

'12

CC

CCuuα

α∧= vr

le vecteur obtenu par le produit vectoriel des deux précédents : 213 uuu rvr∧=

Ainsi, la position des atomes d’une protéine est décrite via les coordonnées internes

relativement aux autres atomes de la protéine et la position des protéines les unes par rapport

aux autres est déterminée par la donnée des pivots et des repères associés.

XI.3 Minimisation

La minimisation utilisée par le programme LIGAND est une minimisation quasi-newtonienne

(voir paragraphe VIII.2 page 61 ).

XI.4 Champ de force et représentation du solvant

Nous avons utilisé le champ de force AMBER décrit au paragraphe VII page 54. Dans la

somme énergétique, le terme d’énergie due au potentiel de déformation des liaisons

covalentes n’est pas calculé puisque les liaisons ne peuvent pas bouger et seuls les angles et

les torsions des variables implicites non gelées rentrent dans la somme des deux termes

angulaires.

Les effets du solvant sont modélisés par le modèle GB (voir paragraphe X.2 page 70). Cette

représentation continue du milieu environnant la protéine permet de prendre en compte les

effets électrostatiques du solvant. Une représentation explicite du milieu aqueux (avec la

donnée de toutes les molécules d’eau autour de la protéine) n’est en effet pas compatible avec

une description du système en variables internes.

XI.5 Préparation des données : le programme PCHEM

PCHEM est un programme qui permet de préparer les données topologiques spécifiques aux

protéines étudiées avec LIGAND. PCHEM définit la connectivité atomique, les types des

atomes, leurs charges et leurs coordonnées. Ce programme définit aussi les variables internes

décrivant le système. L’utilisateur peut imposer de geler certaines variables internes en plus

de celles habituellement gelées. Par exemple, on peut ne garder que les variables de la chaîne

76

principale en gelant les torsions des chaînes secondaires de la protéine étudiée. PCHEM décrit

aussi les atomes qui bougent quand chaque angle interne varie.

XI.6 Les différentes utilisations de LIGAND

Le programme LIGAND est en continuelle évolution. Il a été initialement utilisé par Tap Ha

Duong et Krystyna Zakzewska pour l’étude des modes normaux de l’ADN [Ha Duong &

Zakrzewska; 1997]. Le champ de force utilisé était alors le champ de force FLEX développé

par Richard Lavery et al. [Lavery, et al.; 1986b, Lavery, et al.; 1995]. Il a été aussi développé

par Karine Bastard et Chantal Prévost afin de créer des boucles multi-copies pour l’étude de

l’amarrage de macromolécules [Bastard, et al.; 2003]. Nous avons développé ce programme

en y introduisant le champ de force AMBER et en y programmant des contraintes afin

d’étudier les propriétés mécaniques des protéines.

XI.7 Limitation par la taille des protéines

Dans la description du système que nous venons de présenter, chaque acide aminé est

représenté par une moyenne de 9-10 variables (trois torsions et trois angles de valence pour la

chaîne principale et en moyenne trois à quatre torsions pour les chaînes latérales). Pour une

protéine d’environ 100 résidus, le programme doit aussi gérer un peu plus de 1000 variables.

Un cycle de minimisation prend dans ce cas environ 4 s sur un Athlon MP 2600 MHz avec le

champ de force AMBER et la représentation du solvant par GB. Une minimisation en 225

cycles prend alors un quart d’heure.

Les temps de calcul sont limitants pour l’étude des très gros systèmes et pour une étude

systématique d’un grand nombre de protéines. Une réponse à ce problème est de simplifier le

système de manière encore plus drastique.

77

XII Modèle granulaire

Il est possible d’explorer les mouvements moléculaires des protéines autour de leur état

d’équilibre avec des simulations de mécaniques moléculaires, de dynamique moléculaire ou

d’analyse de modes normaux sur des systèmes décrivant tous les atomes de la molécule.

Malheureusement, ces techniques sont très coûteuses pour de très grandes structures ou de

gros complexes biomoléculaires et inapplicables aux structures à basse résolution où les

coordonnées de l’ensemble des atomes ne sont pas disponibles. Il faut donc simplifier les

modèles utilisés pour décrire de tels systèmes. Le modèle granulaire est un modèle qui a fait

ses preuves dans le domaine de la modélisation moléculaire que ce soit pour étudier des

protéines [Doruker, et al.; 2002b, Tama, et al.; 2000, Tirion & ben-Avraham; 1993, Xu, et al.;

2003] ou des ARN [Bahar & Jernigan; 1998].

XII.1 L’origine du modèle granulaire

Le modèle granulaire voit son origine dans la modélisation des polymères [Flory; 1969] où le

monomère est représenté par un seul élément d’une chaîne modèle. Ainsi un ensemble

d’angles de valence et d’angles dièdres est remplacé par une seule jonction. Le but est alors de

retrouver le comportement des polymères grâce à ce modèle.

Nous utilisons un modèle granulaire dans le même but : faire des calculs dans des temps

raisonnables sur de très grandes structures, ce qui serait impossible sans cette grande

simplification de leur représentation. A la différence des études des polymères, les jonctions

ne remplacent pas forcément un groupe de liaisons, mais peuvent également être définies

entre deux éléments qui ne sont pas adjacents sur la chaîne polypeptidique.

XII.2 Le modèle granulaire appliqué aux protéines

La représentation des structures des protéines comme un réseau élastique est un modèle

granulaire qui permet de prédire des fluctuations dynamiques des protéines autour de leur

conformation native. Dans ce modèle, les carbones α sont remplacés par les nœuds du réseau

élastique. Chaque nœud i est relié aux autres nœuds j qui se trouvent dans la sphère de centre i

et de rayon rc, rayon limite (défini au préalable) (figure 27 et figure 28 d). Ceci ne tient pas

compte des connectivités de la chaîne protéique mais uniquement des distances entre les

78

différents nœuds du réseau. Tous les ressorts possèdent la même constance de force γ qui est

un paramètre ajustable par comparaison avec l’expérience [Tirion; 1996]. Par définition, les

ressorts sont considérés comme relaxés pour la conformation initiale, ce qui fait de cette

conformation le minimum énergétique absolu.

figure 27 : Formation du modèle granulaire. Les ressorts (en rouge) sont formés entre

carbones α (en jaune) séparés d’une distance inférieure à rc sans tenir compte de la

connectivité du brin polypeptidique (représentée par le trait noir sur le schéma de gauche).

Cα rc γ

79

figure 28 : Différentes représentations de la nucléase du staphylocoque. a : Tous les atomes

sont représentés sauf les hydrogènes ; en bleu clair les carbones, en rouge les oxygènes, en

bleu sombre les azotes et en jaune les souffres. b : Représentation de la « trace » de la

protéine ; les carbones α adjacents sont reliés entre eux, tenant compte des connectivités de la

chaîne protéique. c : Les carbones α sont représentés par des points. d : Réseau du modèle

granulaire pour un rc de 8Å ; les traits noirs représentent les ressorts entre les différents nœuds

du réseau.

a b

c d

80

XII.3 GNM : Gaussian Network Model

Le programme GNM repose essentiellement sur la construction de la matrice de contact Γ de

Kirchhoff. Ce programme est disponible sur le site d’Ivet Bahar

http://www.ccbb.pitt.edu/CCBBResearchDynProGNM.htm. Pour une protéine de N résidus,

cette matrice est une matrice symétrique de dimension NxN dont les éléments Γij hors de la

diagonale sont égaux à –1 si i et j sont reliés par un ressort et nuls si i et j sont séparés par une

distance plus grande que rc. Γii est l’opposé de la somme des éléments non diagonaux de la

ligne (ou de la colonne).

Les équations suivantes résument la construction de la matrice :

Γij = - h(rc-Rij°) pour i≠j et ∑≠

Γ−=Γij

ijii

La fonction h(x) est la fonction d’Heaviside (h(x) = 1 si x ≥ 0 et nulle sinon).

Rij° est la distance entre le site i et le site j dans la conformation initiale de la protéine (voir

figure 29 pour les notations).

figure 29 : Notations utilisés pour définir les positions des sites du réseau granulaire.

z

x

y

Rio

Rjo

∆Ri Ri i

j

Rij

∆RjRij°

Rj

81

Ainsi, le terme diagonal Γii donne le nombre de résidus dans la sphère de centre i et de rayon

rc, c’est-à-dire le nombre de ressorts liés au site i.

La corrélation entre le site i et le site j est alors donnée par la formule suivante :

[ ]ij

Bji

TkRR 13 −• Γ=>∆∆< γrr

où γ est la valeur de la constante de force des ressorts et kB est la constante de Boltzmann, T

est la température absolue, [Γ-1]ij est le ijème élément de la matrice pseudo-inverse Γ. En effet,

Γ a une valeur propre nulle et n’est donc pas inversable. Son pseudo-inverse est calculé de la

manière suivante :

∑−

=

−− =Γ1

1

11 ][N

k

Tkkk uu rrλ

où les λk sont les N-1 valeurs propres non nulles de Γ classées de la plus petite à la plus

grande et les kur sont les vecteurs propres associés. Le mode propre correspondant à λ1 est

celui qui est le plus coopératif, le plus global. Les modes globaux (correspondant aux petites

valeurs propres) sont ceux qui sont en général impliqués dans les fonctions biologiques des

protéines.

On déduit des deux équations précédentes le calcul des fluctuations du résidu i en fonction des

modes propres k de Γ :

∑−

=

−=>∆<1

112 ][3 N

kTkkk ii

Bi uuTkR rrr

λγ

XII.4 ANM : Anisotropic Network Model

Contrairement au modèle GNM qui considère que toutes les fluctuations sont isotropes, le

modèle ANM prend en compte l’anisotropie de ces fluctuations. Ainsi, ce programme permet

d’obtenir les trois composantes des vecteurs iRr

∆ de fluctuations alors que GNM ne peut

prédire que leur amplitude <( iRr

∆ )2>.

82

L’énergie potentielle de la structure construite à partir de N acides aminés dans le modèle

ANM s’écrit sous la forme gaussienne suivante :

V = (γ/2) Σi Σj h(rc – Rij° ) (Rij – Rij°)2 Où la fonction h(x) est la fonction d’Heaviside (h(x) = 1 si x ≥ 0 et nulle sinon).

Rij° est la distance entre les sites i et j de la structure initiale de la protéine, Rij est cette

distance après fluctuation et rc la distance limite en dessous de laquelle deux sites sont reliés

par un ressort. Ainsi, si deux sites i et j sont suffisamment proches, le ressort créé entre les

deux sites contribue au potentiel de façon harmonique.

Le potentiel peut aussi s’écrire de la forme suivante :

V = (1 / 2) Rr

∆ T H Rr

∆ Rr

∆ est le vecteur de dimension 3N des fluctuations iRr

∆ des sites i (1≤ i ≤ N) et Rr

∆ T est

son vecteur transposé.

H est la matrice hessienne composée des dérivées secondes de l’énergie potentielle. H est

donc une matrice de super éléments Hij de la forme :

⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

=

0

2

0

2

0

20

2

0

2

0

20

2

0

2

0

2

H

jijiji

jijiji

jijiji

ij

ZZV

YZV

XZV

ZYV

YYV

XYV

ZXV

YXV

XXV

où Xi, Yi et Zi sont les coordonnées du vecteur position iR

r du site i.

On a d’après la première expression de V :

2))((

0

0000

0

2

0

2

ij

ijijijji R

YYXXYX

VYX

V −−−⎟

⎟⎠

⎞⎜⎜⎝

⎛∂∂

∂⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

∂== γ pour i ≠ j,

et ∑≠

=−−

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂

∂

ij ij

ijij

ii R

YYXXYX

V2

))((0

0000

0

2γ

83

La corrélation entre les fluctuations du site i et celles du site j est donnée par l’expression

suivante :

< Rr

∆ i • Rr

∆ j> = (1/Z) ∫ ( Rr

∆ i • Rr

∆ j) exp-V/kTd Rr

∆ = kBT tr [Η-1]ij

où kB est la constante de Boltzmann, T est la température absolue, Z est la fonction de

partition de configuration, et tr[Η-1]ij est la trace de la ijème sous-matrice [Η-1]ij de H-1. H-1

est la pseudo-inverse de H car les six premières valeurs propres sont nulles, correspondant

aux trois translations et trois rotations globale de la molécule.

< Rr

∆ i • Rr

∆ j> peut être exprimé en fonction des contributions [ Rr

∆ i • Rr

∆ j]k des 3N-6

modes de fluctuations k.

< Rr

∆ i • Rr

∆ j > = Σ k [ Rr

∆ i • Rr

∆ j]k.

avec

[ ] [ ]ijTkkkkji uutrkTRR rrrr

1−• =∆∆ λ

où λk est la kème valeur propre non nulle de H et kur le vecteur propre de dimension 1x3N

correspondant. Les valeurs propres sont en général ordonnées de la plus petite à la plus grande

après avoir éliminé les 6 valeurs propres nulles correspondant aux mouvements rigides du

système (trois translations et trois rotations). Ainsi λ1 est la valeur propre non nulle la plus

petite et [ Rr

∆ i • Rr

∆ j]1 est la corrélation entre le site i et le site j pour le mode propre

correspondant. De même, [( Rr

∆ i)2]1 est la norme de la fluctuation du site i due au mode

normal 1.

XII.5 Applications

XII.5.1 Facteurs de température

Les programmes GNM et ANM permettent le calcul des valeurs moyennes des déplacements

des résidus par l’étude des modes normaux du système. Le seul paramètre indéfini est alors la

constante de force des ressorts décrivant le système. Cette constante peut être déterminée à

84

posteriori en comparant les facteurs de température expérimentaux (répertoriés dans le fichier

de la PDB) et les facteurs obtenus par le calcul.

Les études sur plusieurs protéines montrent que les valeurs des constantes de force sont de

l’ordre de 1,0 ± 0,6 kcal.mol-1.Å-2 [Atilgan, et al.; 2001, Kundu, et al.; 2002]. D’autre part, la

concordance entre les valeurs théoriques des facteurs de température obtenues avec les

méthodes GNM et ANM et les valeurs expérimentales est satisfaisante [Bahar, et al.; 1997].

Même si la corrélation n’est pas excellente, en moyenne de 0,594 avec GNM sur une étude de

113 protéines [Kundu, et al.; 2002], elle peut atteindre une très bonne corrélation comme par

exemple 0,831 pour la ferredoxine et 0,71 pour l’hémoglobine [Xu, et al.; 2003]. Les écarts

entre valeurs théoriques et valeurs expérimentales viennent en partie des interactions avec les

protéines des mailles voisines du cristal qui influencent les valeurs expérimentales des

facteurs de température. La prise en compte des protéines voisines dans le calcul de GNM

permet alors d’améliorer le modèle.

D’autre part, GNM rend compte en grande partie de l’effet d’empaquetage. En effet, d’après

Bertil Halle, les valeurs des facteurs de température dépendent essentiellement de

l’environnement de l’atome [Halle; 2002]. Elles sont d’après ses calculs étroitement corrélées

avec l’inverse de la densité de contact définie comme le nombre de voisins non covalents :

moins un résidu est en contact avec des voisins, plus le facteur de température qui lui est

associé est élevé. Ainsi, Halle propose un programme alternatif à GNM, LDM (Local density

model), qui détermine les fluctuations moyennes atomiques par un calcul de densité locale.

XII.5.2 Étude des modes normaux, graphes de corrélation

On peut étudier les modes normaux les plus lents (ceux de valeurs propres les plus petites) et

en déduire des mouvements globaux des protéines. Cette étude marche assez bien pour les

mouvements impliquant l’ouverture et la fermeture des enzymes. Pour chaque mode, la ième

coordonnée du vecteur propre de dimension N correspond à la valeur du vecteur sur le résidu i

dans le cas des études avec GNM. Dans les études avec ANM, un vecteur propre est de

dimension 3N et se décompose en N vecteurs de dimension 3 localisés sur chacun des résidus.

On a donc trois valeurs par résidu correspondant aux coordonnées x, y, z des vecteurs

projections.

85

Dans le cas de GNM, on peut colorer les résidus i de la structure de la protéine en fonction de

la valeur de la coordonnée i du mode j : uij. On peut alors visualiser les résidus qui bougent

peu (petites valeurs absolues de uij) et les résidus qui bougent beaucoup. Deux résidus i et k

dont les valeurs uij et ukj sont de même signe bougent de manière corrélée suivant le mode j.

Si les signes sont opposés, les deux résidus sont anticorrélés.

figure 30 : Représentation tubulaire de la myosine coloriée suivant la norme du quatrième

vecteur non nul le plus lent. Les résidus pour lesquels la composante du quatrième vecteur a

une norme faible sont en bleus. Les couleurs vont du bleu au rouge en passant par le vert

suivant l’ordre croissant des normes des vecteurs locaux.

Avec le programme ANM, on retrouve cette information. Chaque vecteur propre de la matrice

hessienne est la donnée des N vecteurs localisés sur les résidus se déplaçant selon ce mode.

On peut donc représenter la structure de la protéine avec chaque résidu colorié suivant la

norme du vecteur local associé (figure 30). Ceci permet de définir les régions qui bougent

selon ce mode ainsi que les charnières (régions qui bougent peu). La figure 30 montre une

tête

bras de levier

jointure

Site de l’ATP

86

représentation tubulaire de la structure de la myosine II de la coquille Saint Jacques coloriée

suivant les valeurs des normes des vecteurs locaux du quatrième vecteur propre non nul de

l’étude ANM. La gamme de couleurs va du bleu pour les normes les plus petites au rouge

pour les normes les plus grandes en passant par le vert. Le quatrième vecteur propre est

intéressant car les charnières, colorées en bleu, correspondent à la région enzymatique (site de

l’ATP (adénosine triphosphate) et à la région de jointure entre la tête de la myosine et le bras

de levier.

figure 31 : Graphe de corrélation du quatrième vecteur propre le plus lent de la chaîne

principale (835 résidus) et des deux chaînes légères (156 résidus chacune) de la myosine II de

la coquille Saint Jacques. Les bandes blanches correspondent à la séparation entre les

différentes chaînes. La couleur rouge correspond à un cosinus égal à 1, les deux résidus i et j

sont donc corrélés, la couleur bleu correspond à un cosinus de –1, les résidus sont

anticorrélés. A droite, représentation en ruban de la myosine avec les résidus coloriés suivant

la ligne correspondant au résidu 360 du graphe de corrélation. En rouge, les résidus corrélés,

qui se déplacent dans la même direction que le résidu 360 et en bleu, ceux qui déplacent dans

le sens inverse.

Chaîne principale Chaînes légères RES 360

Chaîne principale

Chaînes légères

87

On peut étudier les modes en représentant les flèches des vecteurs au niveau de chaque résidu.

Cette méthode est assez convaincante lorsque la protéine est suffisamment petite mais la

représentation peut très vite devenir trop chargée pour des grosses protéines. On peut alors

visualiser les modes en faisant des graphes de corrélation.

Le graphe de corrélation du vecteur propre de dimension 3N kur est une représentation de la

matrice Ck de dimension NxN. L’élément Ckij correspond au cosinus de l’angle formé entre le

vecteur localisé (composante de kur ) sur le résidu i et le vecteur localisé sur le résidu j. La

figure 31 donne un exemple d’un tel graphe pour le quatrième vecteur propre le plus lent de la

myosine.

Le graphe de corrélation du quatrième vecteur de la myosine est assez facile à lire. On peut

colorier la structure suivant les couleurs d’une ligne du graphe et voir apparaître clairement

les points charnières et les blocs corrélés correspondant au vecteur propre étudié. Certains

graphes de corrélation ne sont pas aussi simples. En général, c’est le cas lorsque les

mouvements correspondent plutôt à des rotations qu’à des translations. Par exemple, le cas du

troisième vecteur le plus lent de la myosine est un mode où la tête effectue une rotation dans

un sens alors que le bras de levier effectue une rotation dans le sens opposé. Si on crée un

modèle avec deux axes de rotations, on obtient un graphe de corrélation très semblable,

confirmant le mouvement de ce mode. La figure 32 représente le graphe de corrélation du

mode 3, celui du modèle et une représentation avec les couleurs des résidus correspondant aux

normes des vecteurs locaux du mode 3. Les deux axes de rotations sont représentés en rouge.

88

figure 32 : En haut à gauche, graphe de corrélation du troisième mode le plus lent de la

myosine. En dessous, le graphe de corrélation d'un mode correspondant à deux rotations

opposées. À droite, représentation de la structure coloriée suivant les normes du mode 3. Les

deux axes de rotation sont représentés.

XII.5.3 Description des ouvertures et des fermetures des sites enzymatiques

L’analyse des modes propres des structures fermées ou ouvertes de protéines qui subissent des

changements conformationnels importants comme les sites enzymatiques permet d’obtenir

des renseignements sur les directions induisant ces changements de conformation. En général,

les calculs sur les formes ouvertes donnent des résultats plus pertinents sur le changement de

conformation et on trouve souvent qu’un seul mode global suffit pour décrire le changement

de conformation [Tama & Sanejouand; 2001].

Les sites enzymatiques se situent en général au niveau des charnières des modes propres les

plus lents. Les résidus clefs lors des changements de conformation des sites enzymatiques

doivent satisfaire aux contraintes suivantes : ils se trouvent au niveau du site actif ou sont

89

couplés avec celui-ci, ils doivent avoir une certaine liberté les uns par rapport aux autres pour

permettre à la protéine de se couder à leur niveau et ils doivent être suffisamment empaquetés

pour que les forces perturbant leur position ne soient pas localisées mais se propagent le long

de la structure. C’est le cas s’ils sont localisés entre deux blocs relativement stables. C’est en

général le cas des résidus des régions contraintes des modes globaux, les régions dites

charnières [Bahar & Jernigan; 1999].

Le calcul des modes normaux permet de localiser deux types de sites importants. Le premier

groupe concerne les résidus importants dans la coordination des mouvements le long de la

molécule. Ils correspondent aux minima de fluctuation des modes globaux et sont les sites

charnières. Leur mutation influence la fonction de la protéine. Le deuxième groupe concerne

les résidus couplés très fortement avec leurs voisins. Ils se trouvent en général dans des zones

de haute densité et leur mutation influence la stabilité de la protéine. Ils correspondent aux

maxima des mouvements de haute fréquence [Isin, et al.; 2002].

XII.6 Modification des modèles granulaires

Un certain nombre d’essais de simplification ou de sophistication des programmes GNM et

ANM ont été testés.

Nous avons par exemple essayé de modifier la représentation des ressorts pour mieux décrire

le système. Si on fait dépendre la constante des ressorts en fonction de la distance initiale

entre les sites (γij = γ.Rijα avec α égal à 1, 2, -1 ou –2), on ne change pas les résultats sur les

modes propres les plus lents. Leur ordre peut subir quelques changements mais on retrouve

les mêmes modes propres parmi les plus lents. Ceci donne deux informations. D’une part, la

hiérarchie fine des modes propres n’a pas une très grande signification : le premier mode

propre n’est pas plus important que le troisième mais ces deux modes propres décrivent les

mouvements collectifs lents de manière plus significative que le vingtième mode propre.

D’autre part, la description du système telle qu’elle est faite dans GNM et ANM est très

stable. On étudie le système proche de l’équilibre dans des puits de potentiel harmonique et

donc peu perturbé par des petites modifications.

Il faut des perturbations très importantes pour que les résultats soient significativement

différents. Par exemple, au lieu de construire un système où tous les ressorts ont la même

constante, on construit un système où les constantes de ressorts prennent au choix une valeur

γ1 ou une valeur γ2 =100γ1. Si l’attribution des valeurs de constantes (γ1 ou γ2) aux ressorts est

90

aléatoire alors les résultats de l’étude des modes normaux seront très différents de l’étude

classique. Par contre, si la distribution prend en compte des critères géométriques ou

structuraux du système étudié, les résultats obtenus seront semblables aux résultats d’une

étude avec une seule constante de force (voir Chapitre 6, page 121).

On peut vouloir aussi simplifier encore plus la description du système. Un certain nombre

d’essais ont été faits où les sites ne représentent pas un acide aminé mais un groupe d’acides

aminés [Doruker, et al.; 2002a, Doruker, et al.; 2002b, Tama, et al.; 2000]. Ainsi, il est

possible d’obtenir les mouvements globaux en ne tenant compte que d’un résidu sur 40 dans

la construction du modèle granulaire de l’hémagglutinine du virus influenza (qui comporte un

total de 1509 acides aminés) (voir article Annexe 2).

XII.7 Minimisation avec une représentation granulaire

Le programme GNMlig est construit à partir des deux programmes LIGAND et ANM.

Comme dans le programme ANM, ce programme utilise une représentation granulaire de la

protéine. La protéine est représentée par des nœuds aux emplacements des carbones α reliés

par des ressorts. La structure initiale est alors considérée comme celle d’énergie la plus basse,

le système de ressorts étant au repos.

Le calcul de l’énergie est celui du système de ressorts et les variables du programme sont les

longueurs des ressorts. La minimisation est l’algorithme de type gradient quasi-Newtonien

utilisé dans le programme LIGAND et les contraintes appliquées sur une molécule modélisée

dans GNMlig sont les mêmes que dans LIGAND.

Des études similaires sur les propriétés mécaniques des protéines peuvent ainsi se faire avec

les deux programmes LIGAND et GNMlig. Seul le niveau de représentation est différent.

Lorsque la représentation granulaire permet d’obtenir les mêmes résultats que la

représentation où tous les atomes sont modélisés, l’utilisation de GNMlig pour une étude

systématique des protéines est un gain de temps énorme. Elle permet en plus de réaliser des

études sur de très grosses protéines, ce qui ne serait pas envisageable avec une représentation

atomistique, telle qu’implémentée dans LIGAND.

91

Chapitre 5 Des outils originaux pour

comprendre les propriétés mécaniques des

protéines

92

XIII Les contraintes mécaniques appliquées sur les

protéines

XIII.1 Introduction

Une manière d’étudier les propriétés mécaniques des protéines est d’observer et analyser leur

réaction à une contrainte mécanique imposée. Dans le domaine des expériences sur molécules

uniques, la contrainte imposée est celle de l’étirement [Smith, et al.; 2003] ou de la torsion

entre deux points d’attache [Bryant, et al.; 2003] de la macromolécule ou bien une contrainte

due à un champ électrique [Washizu; 1990] ou un écoulement [Ladoux, et al.; 2001]. Dans le

domaine de la modélisation, on peut reproduire ces contraintes mais aussi imaginer des

contraintes qui sont encore impossibles à mettre en œuvre de façon expérimentale.

XIII.1.1 Contraintes locales et globales

Nous avons voulu caractériser des propriétés mécaniques des protéines en regardant leur

comportement sous l’application de contraintes locales et globales.

Nous appelons contrainte locale une contrainte qui s’applique sur un résidu (ou un petit

groupe de résidus) particulier de la protéine. Cette approche consiste à contraindre le

déplacement de ce résidu ou groupe de résidus par rapport à l’ensemble des autres résidus et à

rechercher la structure la plus stable réalisant cette contrainte. Une telle contrainte peut alors

être appliquée successivement sur chacun des résidus. La réponse du système à ces

contraintes successives peut ensuite être analysée à l’aide de programmes adaptés.

Une contrainte globale est une contrainte agissant sur l’ensemble de la chaîne protéique. On

analyse alors la réponse globale de la protéine à une telle contrainte.

XIII.1.2 Principe d’application

L’application d’une contrainte au cours d’une simulation de mécanique moléculaire consiste à

rajouter un terme d’énergie de pénalité au champ de force. Concrètement, un terme

quadratique Epen autour d’une position d’équilibre est additionné à l’énergie globale pour

93

permettre de favoriser une nouvelle position par rapport à une structure de référence, qui peut

être la structure de départ ou toute autre structure par rapport à laquelle la structure

initialement à l’équilibre va s’éloigner ou s’approcher.

( )2*XXkEpen −×=

X est une fonction calculée à partir de la positions des atomes, X* est la valeur de cette

fonction que l’on cherche à atteindre. k est une constante de force choisie pour que la

contrainte soit satisfaite lors de la minimisation.

Sur chaque atome, une force supplémentaire est appliquée égale à l’opposé de la dérivée de

l’énergie de pénalité par rapport aux coordonnées de l’atome. Il faut donc avoir pour chaque

contrainte appliquée la valeur analytique de cette dérivée.

Nous avons programmé plusieurs contraintes de ce type dans les programmes LIGAND et

GNMlig et une des contraintes dans le programme AMBER.

XIII.2 Contraintes globales : expériences de dépliement partiel

Jusqu'à présent, la grande majorité des expériences et simulations de dépliement partiel sous

contraintes mécaniques ont été réalisées en tirant sur des points particuliers de la protéine.

Nous proposons des méthodes où le dépliement est induit sans imposer de direction. Seule la

contrainte de distance est développée dans ce paragraphe car elle a été testée en mécanique

moléculaire (avec LIGAND et GNMLig) et en dynamique moléculaire (avec AMBER). Les

autres contraintes que nous avons programmées sont explicitées dans l’annexe 1.

XIII.2.1 Contrainte RMS de distance

L'approche utilisée ici consiste à faire varier les distances entre les atomes constituant la

chaîne principale (N, Cα et C’) par rapport à leur valeurs dans une structure choisie comme

référence.

Une contrainte quadratique est utilisée pour faire augmenter une déviation quadratique

moyenne (RMSD) calculée à partir des distances inter-atomiques et nommée RMSdist.

94

'

)(2

1

0

N

ddRMS

N

i

N

ijijij

dist

∑ ∑= >

−

=

N représente le nombre d'atomes lourds (N, Cα, C) de la chaîne principale et N' représente le

nombre de paires uniques entre ces mêmes atomes (N’=N(N-1)/2). dij est la distance entre

l’atome i et l’atome j et dij0 cette même distance dans la structure de référence.

La contrainte rajoutée dans le champ de force s'exprime alors par l'équation suivante :

( )2*distdistpen RMSRMSkE −×=

où RMSdist* est la valeur que l'on souhaite atteindre.

L'expression des forces qui dérivent de ce potentiel est de la forme suivante pour le vecteur

coordonnées irr de l'atome i:

∑ −−

⋅−

−=−=j

jiij

ijij

dist

distdist

i

peni rr

ddd

RMSNRMSRMSk

rddErF )(

)('

)(2)(0* rr

rr

XIII.2.2 Variante ne prenant en compte que les carbones α

On peut aussi appliquer la contrainte sur la RMSD de distances présentée dans le paragraphe

précédent en réduisant les atomes concernés aux seuls carbones α. La somme est alors faite

sur les N’ paires de carbones α. Cette contrainte modifiée permet ainsi de comparer les

représentations granulaires à celles qui modélisent tous les atomes.

XIII.2.3 Avantage de la contrainte

Le fait d’utiliser des distances plutôt que des coordonnées comme dans le calcul classique du

RMSD utilisé par Gilquin et collaborateurs [Gilquin, et al.; 2000] évite d’avoir à bloquer la

rotation et la translation de la protéine au cours de la trajectoire, opération nécessaire pour le

calcul du RMSD qui requiert une superposition des structures. Les autres contraintes que nous

avons étudiées (voir Annexe 1) ont aussi cette caractéristique de ne pas dépendre d’une

superposition entre structures.

95

XIII.2.4 Expériences de dépliement partiel en dynamique moléculaire

Nous avons programmé cette contrainte dans le programme AMBER afin d’étudier le

dépliement partiel en dynamique moléculaire. Nous allons décrire les protocoles d’étude et

présenter les résultats sur un exemple : la nucléase du staphylocoque, notée dans la suite

SNase, et constituée de 149 acides aminés.

• Dynamique moléculaire sans contrainte

Avant d’étudier une dynamique sous contrainte RMSdist, nous avons tout d’abord effectué

deux simulations sans contraintes afin d’obtenir des structures stables. La structure initiale est

la structure cristallographique déterminée par Chen et al. (code 1EY0 dans la PDB) [Chen, et

al.; 2000].

La première simulation a été réalisée en présence de molécules d'eau explicite (TIP3P). Les

molécules d'eau (5655) sont additionnées autour de la protéine dans une boite octaédrique

tronquée dont les bords sont situés à 10 Å de la surface de la protéine. Par ailleurs, 14 ions

chlorures sont additionnés de manière aléatoire afin d'assurer l'électroneutralité du système,

qui contient finalement 19209 atomes. Le protocole de minimisation utilisé est décrit dans le

paragraphe IX.5 page 68. Une simulation de 4 ns a été réalisée.

La seconde simulation utilise une représentation implicite du solvant modélisé par la modèle

de Born Généralisé [Bashford & Case; 2000]. L'utilisation d'un modèle continu pour

représenter le solvant permet de limiter le nombre d'atomes du système aux 2230 atomes de la

protéine. Une concentration en sel de 0.1 mol.L-1 est prise en compte dans le paramètre κ du

modèle. Le calcul des interactions à longue portée est tronqué à partir de 15 Å et SHAKE est

de nouveau utilisé pour contraindre les liaisons impliquant des atomes d'hydrogène. Le

protocole de chauffage et minimisation-équilibration utilisé pour cette seconde simulation est

très similaire à celui utilisé pour la précédente en solvant explicite et le système est laissé

évoluer pendant 4 ns à température constante (300 K).

Les deux simulations de dynamique moléculaire dont nous venons de décrire le protocole ont

été donc menées sur 4 ns. Après environ une nanoseconde de simulation, les changements

observés correspondent à des oscillations autour d’une structure stabilisée comme le montre

les valeurs de RMSD des coordonnées d’environ 1,4 Å par rapport à la structure

cristallographique pour les atomes de la chaîne principale et 1,9 Å pour tous les atomes autres

96

que les hydrogènes pour la simulation en solvant explicite et respectivement de 2,6 Å et 3,6 Å

en solvant implicite (figure 33).

Si les deux états d'équilibre atteints restent relativement proches de la structure native, on

constate que la déviation est supérieure pour la simulation réalisée à l'aide d'un solvant

implicite. La différence majeure réside dans la conformation de la boucle composée des

résidus 45 à 53 (partie de SNase présentant la flexibilité la plus grande de la protéine d'après

plusieurs études [Ikura, et al.; 1997, Wang, et al.; 1997]), et les extrémités N et C-terminales.

figure 33 : Évolution du RMSD (des atomes de la chaîne principale en plein, et de tous les

atomes lourds en pointillés) calculé par rapport à la structure cristallographique le long des

trajectoires dynamiques de SNase. Les lignes noires correspondent à la simulation utilisant

une représentation explicite du solvant, les lignes grises à celle utilisant le modèle GB.

Le comportement de la protéine au cours des deux simulations est différent en termes de

fluctuations. Les fluctuations autour de la structure moyenne calculée sur les deux dernières

nanosecondes de simulation sont en effet nettement plus importantes dans le cas de

l'utilisation du solvant implicite que du solvant explicite (voir figure 34a et figure 34b).

L'amplitude des mouvements moléculaires observés pour la simulation GB est en revanche du

même ordre que les fluctuations observées en RMN (figure 34c). Au final, l'ensemble des

structures pour les deux simulations sont superposables avec les structures expérimentales

obtenues par cristallographie aux rayons X [Chen, et al.; 2000] et par RMN [Wang, et al.;

1997], à l'exception de la boucle 45-53. Il semble par ailleurs que les structures issues de la

dynamique en solvant explicite visitent un espace conformationnel intermédiaire aux

97

structures expérimentales, tandis que les structures issues de la dynamique en solvant

implicite échantillonnent un espace différent au niveau de cette boucle. Cependant, mis à part

cette boucle très flexible, les structures obtenues par dynamique moléculaire restent similaires

aux structures expérimentales.

figure 34 : (a) Structures issues de la dynamique en solvant explicite superposées avec la

structure moyenne de cette trajectoire; (b) Structures issues de la dynamique en solvant

implicite superposées avec la structure moyenne de cette trajectoire; (c) Faisceau de structures

issues de données RMN superposées (1JOR dans la PDB) avec la structure cristallographique

(en vert) (1EY0 dans la PDB) et les structures moyennes issues des dynamiques en solvant

implicite (en rouge) et explicite (en bleu).

Dynamique moléculaire sous contrainte RMSdist

Lors des simulations en dynamique moléculaire, nous utilisons une constante de force de 500

kcal.mol-1.Å-2 et la valeur de la RMSdist est augmentée par pas de 0,25 Å (solvant implicite)

ou 0,5 Å (solvant implicite) toutes les 100 ps. Le dépliement a été mené jusqu’à une valeur

finale de RMSdist de 6,5 Å dans les deux cas. Les autres paramètres sont les mêmes que ceux

utilisés au cours des dynamiques moléculaires sans contrainte.

Une dynamique a été réalisée en présence de molécules de solvant explicite. Dans celle-ci, la

structure de référence a été choisie comme la moyenne des structures de la dynamique sans

a b c

Boucle 45-53

98

contrainte en solvant explicite entre 2 ns et 4 ns. La structure de départ est la dernière

structure de cette même dynamique (soit après 4 ns de simulation).

Une autre dynamique a été réalisée avec une représentation continue du solvant. La structure

de référence est choisie comme la moyenne des structures de la dynamique sans contrainte en

solvant continu entre 0.8 et 1.8 ns. La structure de départ est la structure issue de la même

dynamique sans contrainte après 1.4 ns de simulation.

• Dépliement

L'étude du dépliement se base sur un ensemble de structures calculées comme étant les

moyennes des structures sur les dernières 50 ps pour chaque valeur de la contrainte imposée.

Certaines de ces structures sont représentées schématiquement sur la figure 35 et la figure 36.

figure 35 : Structures moyennes issues du chemin de dépliement de SNase en solvant explicite

en fonction de la valeur de RMSdist imposée. (a) référence en solvant explicite ;

(b) RMSdist = 2 Å ; (c) RMSdist = 4 Å ; (d) RMSdist = 6 Å.

figure 36 : Structures moyenne issues du chemin de dépliement de SNase en solvant implicite

en fonction de la valeur de RMSdist imposée. (a) référence en solvant implicite ;

(b) RMSdist = 2Å ; (c) RMSdist = 4 Å ; (d) RMSdist = 6 Å.

(a) (b) (c) (d)

boucle 45-53

boucle 79-88

(a) (b) (c) (d)

α1 α3

α2

99

Lors de la simulation en solvant explicite, le dépliement commence par un mouvement de

grande amplitude des boucles 45-53 et 79-88 dans des directions opposées. En fin de

simulation (à partir de RMSdist = 4 Å), l’hélice α1 commence à se plier au niveau de son

extrémité N-terminale.

Dans la simulation en solvant implicite, le dépliement débute par un déplacement de la boucle

flexible constituée des résidus 45 à 53, jusqu'à une valeur de RMSdist égale à 2 Å, entraînant

une scission de l'hélice α1 en deux parties. Le second évènement majeur observé consiste en

un éloignement de deux blocs : l'un constitué de la boucle 45-53 et de l'hélice α1, l'autre

comprenant les résidus situés séquentiellement entre les hélices α2 et α3. Enfin, à partir de

RMSdist = 6 Å, l'hélice C-terminale α3 commence à se débobiner par son extrémité C-

terminale.

On observe donc finalement des différences notables entre les deux simulations de dépliement

partiel en solvant implicite et explicite. Diverses raisons pourraient expliquer ce résultat. Tout

d’abord, la présence des molécules de solvant dans l’une des simulations peut induire des

« contraintes » de mouvement par « friction », ce qui n’a pas lieu dans la simulation utilisant

le modèle GB. Les molécules d’eau explicites peuvent également s’insérer dans la structure

protéique lors de son dépliement pour stabiliser des structures intermédiaires [Daggett &

Levitt; 1992, Sundaralingam & Sekharudu; 1989]. D’autre part, les différences structurales

entre les structures de départ et de référence des deux simulations peuvent être la cause de

modifications de la flexibilité de certaines parties de la protéine, entraînant un dépliement

différent.

On peut aussi penser que ces différences entre les deux chemins de dépliement sont la

conséquence d’une surface d’énergie dite en entonnoir. Cette hypothèse considère qu’au cours

du dépliement, les états iso-énergétiques (possédant des structures différentes) accessibles à la

protéine sont de plus en plus nombreux, conduisant à de nombreux chemins possibles

équivalents du point de vue de l’énergie que la protéine emprunterait suivant les conditions

initiales dans lesquelles elle se trouve (voir Chapitre 3).

Les structures issues de ces deux dynamiques moléculaires forment une base de données pour

une étude du dépliement de SNase. On peut ainsi effectuer une étude des différents états

100

obtenus. Cette étude peut se faire grâce à des contraintes locales afin d’étudier les propriétés

mécaniques des états le long de la trajectoire de dépliement.

XIII.3 Contraintes locales

Nous allons présenter dans cette section la contrainte locale que nous avons utilisée pour

étudier les propriétés mécaniques de la nucléase du Staphylocoque (voir l’article présenté au

Chapitre 7). Les autres contraintes locales que nous avons programmées et étudiées sont

décrites dans l’annexe 1.

XIII.3.1 Contrainte sur la valeur moyenne des distances

Le carbone α d’un résidu i est déplacé globalement par rapport aux autres carbones α de la

protéine en augmentant ou diminuant la valeur moyenne des distances entre cet atome et tous

les autres carbones α de la molécule.

La contrainte s’exprime de la manière suivante :

2

*1,,1

0

1,,1 33 ⎟⎟

⎠

⎞

⎜⎜

⎝

⎛

⎟⎟⎠

⎞⎜⎜⎝

⎛∆+−−−×= ∑∑

+−≠+−≠DN

dNdkE

iiij

ij

iiij

ijpen

La force dérivant de ce potentiel s’écrit pour la composante xi de l’atome i :

∑∑∑

≠

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛

+−≠+−≠ −−

∆+−−−−=−=

ij ij

jiiiij

ij

iiij

ij

ipen

id

xxN

DNd

Nd

kdxdExF 3

332)(

*1,,1

0

1,,1

dij est la distance entre l’atome Cαi et l’atome Cαj et N est le nombre de carbones α de la

protéine, dij0 étant sa valeur dans la structure de référence. ∆D* est la valeur souhaitée de la

différence entre la distance moyenne calculée avec la structure de référence et la distance

moyenne calculée avec la structure étudiée. La moyenne des distances se fait en éliminant les

résidus adjacents au carbone α étudié. En effet, ces distances varient peu puisqu’elles

résultent de la liaison peptidique, d’une liaison C-C et d’une liaison N-C. Leurs valeurs se

trouvent entre 3,73 et 3,87Å. La somme s’effectue donc sur N-3 distances entre le carbone α

du résidu i et les N-3 autres carbones α n’étant pas adjacent à ce dernier.

101

XIII.3.2 Pourquoi cette contrainte ?

L’idée est de pouvoir sonder la résistance mécanique de chacun des N résidus. Pour cela, il

faut pouvoir les pousser ou tirer par rapport à quelque chose. Une première approche serait de

tester toutes les paires de résidus (i,j) en prenant comme points d’attache (par analogie aux

expériences sur molécules uniques) les résidus i et j. Le désavantage de cette approche est que

le nombre d’expérience à réaliser pour tester toutes les paires d’atomes est de l’ordre de N2 et

que l’analyse des résultats pour en déduire une propriété locale de déformation d’un des

résidus serait difficile.

Plusieurs façons de déplacer un résidu par rapport au reste de la protéine ont été envisagées :

le déplacer par rapport au centre de masse, par rapport aux axes principaux de la protéine ou

par rapport à des axes définis localement (ces contraintes sont décrites dans l’annexe 1).

L’ordre de grandeur du nombre d’expérience est alors de l’ordre de N. Cependant, les

résultats obtenus sont difficilement interprétables en terme de résistance locale. En effet, la

contrainte qui consiste à étirer la distance centre de masse-résidu sondé est satisfaite en

bougeant le résidu mais aussi en bougeant le centre de masse. La réponse d’une protéine dont

une région est très flexible (comme une extrémité ou une boucle flexible) est alors

systématiquement un mouvement de la région flexible. Nous avons observé la même

sensibilité des axes principaux aux petits déplacements des extrémités. Les axes définis

localement ont l’avantage d’être plus stables par rapport au mouvement d’une extrémité mais

l’expérience n’est plus la même pour tous les résidus.

La contrainte sur la moyenne des distances d’un résidu par rapport aux autres permet N

expériences similaires donnant des informations sur la facilité ou la difficulté à déformer la

structure et sur la direction offrant le moins de résistance à ce type de contrainte.

XIII.3.3 Calcul des constantes de force de déplacement par résidu

Lorsqu’on applique une contrainte locale sur un résidu, on contraint une fonction X à la

valeur X*. Le système s’adapte de manière à satisfaire cette contrainte. On peut donc obtenir

un graphe ∆E=f(X) où ∆E représente la différence d’énergie potentielle du système sous la

contrainte moins celle du système à l’équilibre et X la valeur de la fonction atteinte.

Si les valeurs X* ne sont pas trop grandes, la courbe f(X) peut être modélisée par une fonction

quadratique de type ∆E = k X2 + bX + c. À chaque résidu correspond donc une constante de

102

force k caractérisant la difficulté (k grand) ou la facilité (k petit) du système à réagir à la

contrainte.

Dans le cas de la contrainte sur la moyenne des distances D, ∆D est égal à D-D0 où D0 est la

valeur de la moyenne des distances de la structure au repos. On a alors ∆E = k ∆D2 + b ∆D +

c avec b et c très petits devant k∆D et k∆D2. La figure 37 donne un exemple de la

modélisation des variations d’énergie en fonction de ∆D par une fonction polynomiale d’ordre

2 dans le cas de l’étude du résidu 4 d’une hélice α constituée de 13 alanines. De ce graphe, on

en déduit la valeur de la constante de force k en nN.Å-1 qu’on peut reporter sur un

histogramme (figure 38). (N.B. 0,07 nN.Å-1 ≈ 1 kcal.mol-1.Å-2)

figure 37 : Modélisation quadratique de la courbe ∆E=f(∆D) pour le résidu 4 d'une hélice α de

13 alanines. Les points sont les valeurs obtenues par l’application des contraintes sur D.

figure 38 : Diagramme des constantes de forces en fonction du numéro du résidu pour une

hélice α de 13 alanines.

∆D (Å)

∆E (kcal.mol-1)

103

L’histogramme des constantes de forces en fonction des résidus pour une hélice α de 13

alanines est reporté sur la figure 38. Les constantes de force sont plus importantes au centre de

l'hélice que sur les bords. On retrouve ainsi que la rigidité d’une hélice est supérieure en son

milieu.

figure 39 : Déplacements des atomes dans une hélice α de 13 alanines lors d'une contrainte

sur un des résidus. Le résidu sondé est indiqué par une flèche. Les flèches sur les résidus

représentent les déplacements des Cα pour un ∆D de 0,2 Å amplifiés d’un facteur 10 afin

d’être visibles.

Les vecteurs i

jrr∆ représentés dans la figure 39 correspondent aux vecteurs déplacement du

carbone αj de la structure obtenue pour une valeur de contrainte donnée D* par rapport à la

structure initiale après avoir superposé les deux structures lors d’un sondage de l’atome i.

Pour les hélices isolées, quel que soit l'atome i sondé, ce sont les résidus situés aux extrémités

de l'hélice qui se déplacent le plus pour satisfaire la contrainte. Cependant, la direction et

l'amplitude des déplacements sont différentes selon l'atome sondé : lorsque la contrainte est

appliquée à un des résidus extrêmes, la déformation induite correspond à une légère

élongation de l'hélice (figure 39 a); en revanche, lors de la sollicitation d'un résidu central, la

déformation aboutit à la formation d'un coude (figure 39 b) avec formation d'un tour d'hélice

310.

a b

104

XIV Domaines structuraux et mécaniques

Une autre approche de l’étude des propriétés mécaniques des protéines est de partitionner la

protéine étudiée en domaines, et notamment d’identifier des domaines rigides qui bougent les

uns par rapport aux autres. Ainsi, la connaissance de tels domaines permet de comprendre

certaines relations entre structure et fonction, de déterminer les charnières liant deux

domaines pivotant l’un par rapport à l’autre ou glissant l’un sur l’autre.

Nous avons déjà vu dans le chapitre sur le repliement des protéines que certains domaines

comme le cœur hydrophobe des protéines avaient une importance dans le processus de

repliement. La division en domaines est aussi utile lors de l’étude expérimentale ou théorique

du repliement de très grosses protéines. En effet, les différents domaines de ces dernières sont

alors étudiés séparément.

Il y a un grand nombre de façon de définir un domaine dans une protéine : en se basant sur

des alignement de séquence, sur les études de repliements, sur des alignements de structure…

Ainsi, un domaine est défini comme une unité compacte et semi-indépendante [Richardson;

1981] ou bien une unité stable de la structure qui peut se replier indépendamment du reste de

la protéine [Wetlaufer; 1973], ou encore une unité conservée au cours de l’évolution [Bork;

1992].

Nous avons développé deux programmes définissant des domaines. L’un est basé sur l’étude

des matrices de différences de distance calculées à partir de la comparaison de la structure 3D

de différentes conformation d’une protéine. L’autre utilise les données obtenues lors

d’expériences de mécanique moléculaire sous contrainte. Certains auteurs [Hinsen, et

al.;1999] font la différence entre domaines structuraux, les domaines compactes reliés par peu

d’éléments structuraux, et domaines dynamiques, ceux issus de la comparaison entre plusieurs

structures à des états dynamiques différents. Nous ne ferons pas cette différence de

vocabulaire dans cette thèse et appèleront domaines structuraux les domaines issus de la

comparaison entre structures et domaines mécaniques, ceux issus d’une étude mécanique.

Avant de rentrer plus en détail sur la méthodologie que nous avons mise au point, nous allons

présenter les principales méthodes de regroupement et de classification automatique (pour une

présentation plus détaillée voir [Diday, et al.; 1982]).

105

XIV.1 Classification automatique

Classifier, c’est regrouper entre eux des objets similaires selon un critère déterminé. Le critère

peut être simple ou multiple, numérique ou catégoriel, brut ou transformé, etc…les choix

possibles sont pratiquement illimités. Par construction, les objets ainsi réunis tendent à former

des classes homogènes [Chandon & Pinson; 1981].

Les diverses techniques statistiques de classification (ou d’« analyse typologique », de

« taxonomie » ou « taximonie », de « clusterisation » ou encore d’« analyse en clusters »

(amas)) visent à répartir n individus caractérisés par p caractères (ou variables) en m sous-

groupes.

Pour cela, il faut tout d’abord définir un indice de dissimilarité (ou, inversement de proximité)

entre les paires d’individus puis convenir d’une règle permettant de décider si deux individus

appartiennent au même groupe. On distingue deux grandes familles de classification : la

classification non hiérarchique, ou partition, décomposant l’ensemble en m sous-ensembles

disjoints (ou classes d’équivalence) et la classification hiérarchique où l’appartenance de deux

individus au même groupe dépend du seuil discriminant (ou niveau de précision regardé).

Cette dernière famille peut se représenter par une architecture de type arbres de classification

ou dendrogramme. La figure 40 donne des illustrations des différentes définitions de

structures classificatoires.

figure 40 : Types de structure classificatoire pour un ensemble I=a,b,c,d,e,f et

représentation en arbre de classification de la hiérarchie basée sur la distance euclidienne.

a

bc

d

e f a

bc

d

e f

partition hiérarchie arbre

a b c d e f

distance

106

XIV.1.1 Indice de dissimilarité

L’indice de dissimilarité (ou score de dissimilarité) δij entre toutes les paires (i,j) d’individus

doit satisfaire les conditions suivantes : positivité : δij ≥ 0 , symétrie : δij=δji et δii = 0.

Si en plus, pour tout i,j,k δij ≤ δik+δkj (on dit alors qu’il satisfait l’inégalité triangulaire),

l’indice est une distance ou distance métrique. Pour des variables quantitatives, un grand

nombre de distances peuvent êtres calculées : distance euclidienne (racine carré de la somme

des carrés des différences), distance de Chebychev (maximum des différences),…

XIV.1.2 Constitution des groupes

Etant donné un ensemble dij de distances entre individus, il s’agit de construire une partition

dont les m classes ou groupes sont aussi homogènes que possible.

La classification hiérarchique ascendante est la plus utilisée en pratique car elle est

relativement simple à programmer. Elle consiste à regrouper les deux individus les plus

proches, et à réitérer le processus jusqu’au regroupement complet. L’algorithme aboutit à un

arbre de classification. L’échelle verticale est la distance D(A,B) à laquelle les groupes A et B

sont réunis.

Différentes distances peuvent être utilisées : La méthode de saut minimal consiste à prendre

D(A,B) = min(dij, (i,j)∈AxB), celle de saut maximal consiste à prendre

D(A,B) = max(dij, (i,j)∈AxB). A partir d’un nuage étiré de n points, l’algorithme du saut

minimal tend à ajouter les individus un à un au « cluster » déjà formé (chaînage), tandis que

l’algorithme du saut maximal tendra à grouper des sous-clusters de taille similaire. D’autres

méthodes forment des compromis comme la moyenne des distances entre les deux amas, la

distance entre les centres de masse des deux amas ou la méthode de Ward [Ward; 1963] qui

est basée sur la minimisation de la perte d’information due au regroupement…

L’indice d’agrégation D(A,B) induit une distance Dij entre individus, qui est définie comme le

niveau d’agrégation minimal où i et j ont été réunis dans un même groupe.

Une fois l’arbre de classification construit, on choisit un nombre final m de groupes ou une

hauteur de coupe dans le dendrogramme pour obtenir une classification en différents sous-

groupes.

107

La classification hiérarchique est une analyse de données à caractère hautement heuristique.

C’est pourquoi le choix des options (choix des seuils, des distances, des critères) sera différent

suivant les informations que l’on veut faire apparaître et les classifications obtenues ne sont

pas uniques.

Des méthodes non hiérarchiques sont aussi utilisées. L’algorithme de Jarvis-Patrick [Jarvis &

Patrick; 1973] regroupe les individus avec une approche de « plus proche voisin ». La

méthode détermine les P plus proches voisins pour chaque individu selon une distance

métrique. Deux individus appartiennent au même groupe s’ils ont en commun au moins N

plus proches voisins. Cette méthode a l’avantage de pouvoir être utilisée pour un grand

nombre d’individus. Le nombre de sous-groupes produits dépend du choix des valeurs de P et

N. De grandes valeurs de P rallongent les temps de calcul mais permettent la formation de peu

de groupes de taille importante. De petites valeurs de N donnent des groupes plus compacts et

de grandes valeurs des groupes plus dispersés.

L’algorithme de type « Nuées Dynamiques » (K-Means) [Diday, et al.; 1982] impose le

nombre m de groupes formés. m individus (noyaux) sont choisis (en général aléatoirement) et

les autres individus sont regroupés avec le noyau le plus proche de façon à construire m

groupes initiaux. Les centres des groupes sont alors déterminés et les individus sont regroupés

avec le plus proche des centres. De nouveaux centres sont alors déterminés et le processus

continue jusqu’à ce que plus aucun individu ne change de groupe. Les résultats issus d’un

algorithme des Nuées Dynamiques dépend du choix initial des noyaux et il peut être

préférable de sélectionner les individus les plus représentatifs plutôt qu’un choix aléatoire.

Un grand nombre d’autres algorithmes existent pour partitionner un groupe [Diday, et al.;

1982] et le choix d’un algorithme se fait en général de façon empirique afin d’obtenir des

résultats qui répondent aux attentes de l’analyse souhaitée.

Maintenant que nous avons donné les définitions mathématiques relatives aux classifications,

nous allons présenter des algorithmes utilisés pour comparer deux structures entre elles, pour

classer les protéines et définir des domaines. Nous ne ferons pas de liste exhaustive mais nous

donnerons juste quelques exemples pour situer les algorithmes que nous avons mis au point et

montrer l’originalité de notre détermination de domaines mécaniques.

108

XIV.2 Comparer deux structures

La détermination de différents domaines au sein d’une protéine peut se faire soit en effectuant

une comparaison avec d’autres structures protéiques ou séquences, soit en étudiant les

propriétés intrinsèques de cette protéine. La comparaison entre structures permet de classer les

structures entre elles et d’identifier les domaines structuraux.

XIV.2.1 Comparaison de deux structures

L’approche la plus directe pour comparer deux structures est d’effectuer une superposition de

type corps rigide sur un certain nombre de points caractérisant une structure sur ceux

caractérisant l’autre. Ceci n’a de sens que pour des structures similaires et ne permet pas de

détecter des similarités locales pour des structures ne partageant que des sous-structures. Dans

ce cas-là, il faut tout d’abord couper les structures en fragments que l’on compare séparément.

De plus, cette approche nécessite de définir au préalable une série de positions équivalentes

entre les deux structures (avec, par exemple, un alignement séquentiel).

Une fois les structures superposées, il faut pouvoir évaluer la superposition. On reporte en

général la valeur du RMSD (root mean square deviation) comme mesure de la similarité entre

les structures. C’est la norme euclidienne des vecteurs distance entre les deux séries :

2

1

1 )()( irirRMSD B

N

iAN

rr−= ∑

=

Dans cette équation, N est le nombre de sites comparés et )(irAr

est le vecteur coordonnées du

site i dans la structure A ( )(irBr respectivement pour la structure B).

Afin de pouvoir comparer des structures suffisamment éloignées, d’autres critères ont été

proposés donnant plus de poids aux sites les mieux alignés [Levitt & Gerstein; 1998] ou en

utilisant une norme infinie L∞ [Lesk; 1998].

Un autre calcul de déviation quadratique moyenne peut être effectué, ne nécessitant pas de

superposition préalable : la moyenne euclidienne de la différence entre les distances issues des

matrices de distance des structures (que l’on peut noter dRMSD).

109

( )21

1

1)1(

2 ),(),( jidjiddRMSD BA

N

ij

N

iNN −= ∑∑

+=

−

=−

où dA(i,j) est la distance entre les sites i et j dans la structure A et N le nombre de sites

comparés. La matrice des dA(i,j) est appelée matrice de distances et regroupe les distances

entre les sites i et j d’une même structure A.

Tout comme les calculs de RMSD, les méthodes de comparaison de matrices de distance

posent des problèmes de choix d’indice (ou score) de similarités. Lors de la comparaison de

deux paires d’atomes, les scores de similarité peuvent être définis comme S1 [Taylor &

Orengo; 1989] ou S2 [Holm & Sander; 1993] donnés par les formules suivantes :

bDaS +=1 et ( ) ( ) ⎟

⎠⎞

⎜⎝⎛ ><−><−=

2exp2 b

DDDaS

avec D la différence entre les deux distances intramoléculaires, <D> sa valeur moyenne sur

l’ensemble des paires, a et b des constantes prises arbitrairement. (Une revue de Koehl donne

d’autres références de définitions de scores [Koehl; 2001]).

Le problème du choix de la méthode de comparaison et de la façon d’évaluer les similarités

entre plusieurs structures est important surtout lorsqu’on veut comparer une structure de façon

systématique aux structures d’une banque de données. On pourra aussi se reporter à la revue

de Godzik [Godzik; 1996] qui discute des différentes méthodes de comparaison.

XIV.2.2 Classification des protéines par comparaison

Il existe plusieurs projets de classification hiérarchique des structures de la Protein Data Bank

[Berman, et al.; 2000]. On peut citer, parmi les projets les plus couramment utilisés : FSSP

(Fold Classification based on Structure-Structure Assignments,

http://www.bioinfo.biocenter.helsinki.fi:8080/dali/index.html) [Holm & Sander; 1997],

CATH protein structure classification (Class Architecture Topology Homologous

superfamily, http://www.biochem.ucl.ac.uk/bsm/cath/) [Pearl, et al.; 2003], SCOP (Structural

Classification of Proteins, http://scop.mrc-lmb.cam.ac.uk/scop/) [Hubbard, et al.; 1997] et

3Dee (http://barton.ebi.ac.uk/servers/3Dee.html) [Siddiqui, et al.; 2001]. Ces classifications

sont construites avec différentes méthodes. Alors que CATH et 3Dee sont validés et que

110

SCOP est basé en grande partie sur le jugement d’experts humains, FSSP utilise un

algorithme de comparaison entièrement automatique : DALI.

• L’algorithme DALI

DALI utilise la comparaison des matrices de distances entre carbones α pour aligner deux

structures tridimensionnelles [Holm & Sander; 1993]. Ces matrices sont des représentations

2D de la structure 3D et contiennent tout l’information nécessaire pour pouvoir reconstruire la

structure 3D, à l’exception du choix entre deux molécules énantiomères. Holm et Sander ont

ainsi défini un algorithme permettant de superposer au mieux les différents domaines des

deux protéines comparées. L’algorithme permet par exemple de superposer deux structures de

feuillets β n'ayant pas la même connectivité en réordonnant les matrices de façon à faire

apparaître les sous-domaines superposables.

Cette méthode est automatisée et permet d’identifier les ressemblances structurales et les

cœurs structuraux communs à différentes protéines. En 1993 une classification des structures

est établie suite à la comparaison de 200 protéines représentatives. Depuis, on peut comparer

une structure avec une autre ou avec les structures issues de la PDB sur le site

http://www.ebi.ac.uk/dali. Il est à noter que cet algorithme ne nécessite pas d’alignement

séquentiel préalable des deux structures.

• Des méthodes originales pour classer les différentes structures

Quelques autres méthodes ne nécessitant pas d’alignement préalable de la séquence primaire,

ni d’approche classique de RMSD ou d’étude de matrices de distance, permettent de classer

les structures des protéines.

PRIDE (Probability of Identity) est un programme qui compare deux structures et définit une

distance notée PRIDE basée sur la moyenne des probabilités d’identité entre les distributions

statistiques des distances locales [Carugo & Pongor; 2002]. Pour chacune des structures

comparées, 28 histogrammes sont construits donnant le pourcentage des longueurs

représentées entre deux carbones Cα séparés de n acides aminés (n valant 3 à 30). Une

probabilité d’identité est calculée pour chacune des 28 paires d’histogrammes et le score

PRIDE est la moyenne des probabilités d’identité. Ainsi, PRIDE=1 correspond à une

ressemblance totale et les petites valeurs de PRIDE correspondent à la comparaison de

structures très différentes. Le programme PRIDE classe les structures qui se ressemblent dans

le même ordre que les valeurs de RMSD et il permet de retrouver de façon très satisfaisante

111

les classes de CATH (même pour des structures très éloignées) sans avoir recours à un

alignement structural ou à une détermination de structures secondaires.

Le programme MINAREA (Minimal Area : Minimal surface metric) est basé sur la

minimisation de la surface délimitée par les deux courbes (affines par morceaux) reliant les

carbones Cα des protéines comparées [Falicov & Cohen; 1996]. Cette surface est constituée

de petits triangles ayant pour sommets deux carbones α d’une des structures comparées et un

carbone α de l’autre structure. Les triangles consécutifs forment une surface qui est minimisée

par translation et rotation des deux structures l’une par rapport à l’autre. Le choix des

triangles est optimisé pour que la surface formée soit la plus petite possible. Le score de

similarité est donné par la valeur de la surface divisée par la longueur moyenne des deux

courbes et est ainsi très faible lorsque les structures sont similaires et plus grand lorsque les

structures sont différentes. Il n’y a pas besoin d’aligner la séquence primaire les protéines et

ces dernières n’ont pas besoin d’avoir le même nombre de résidus. Au contraire, cette

méthode permet de proposer un alignement et de montrer des ajouts ou délétions de

séquences.

SGM (Scaled Gauss metric) est une mesure topologique qui permet de classifier les structures

des protéines [Rogen & Fain; 2003]. La topologie d’une protéine est décrite par 30 nombres et

permet de regrouper les structures dans un espace à 30 dimensions. Cet algorithme rapide

permet de retrouver plus de 96% des domaines de CATH et n’utilise qu’un seul paramètre

ajustable. Il permet ainsi de s’affranchir des inconvénients des méthodes nécessitant un calcul

de RMSD : exigence d’un alignement de séquence, introduction de plusieurs paramètres

(paramètres de pénalité, poids de similarité…) et violation de l’inégalité triangulaire.

XIV.3 Identifier des domaines rigides à partir de deux structures

distinctes

Nous venons de voir comment les structures étaient classées entre elles. Nous allons

maintenant aborder la question de l’identification de domaines grâce à la comparaison de

structures.

112

XIV.3.1 Utilisation de superposition entre structures

Un exemple d’algorithme déterminant des domaines par superposition de structure est

l’algorithme de Wriggers et Schulten [Wriggers & Schulten; 1997]. Cet algorithme

« Hingefind », disponible sur la page ftp://ftp.ks.uiuc.edu/pub/hingefind/hingefind.html,

permet d’identifier et de visualiser les mouvements des domaines rigides autour des

charnières. Hingefind exige que les deux structures soient alignées et que seuls les sites

communs soient gardés. Seuls les carbones α sont pris en compte pour décrire les résidus.

L’approche utilisée consiste à superposer un sous-ensemble de Cα avec le méthode « Kabsch

least-squares » qui minimise la somme ∑=

−N

iBAi irirs

1

2' ))()(( rr où )(' irA

r désigne la coordonnée

du résidu i après une transformation de type corps rigide sur la structure A et )(irBr

la

coordonnée du résidu i dans la structure B. si est égal à 1 si le carbone α du résidu i appartient

au sous-ensemble et nul sinon.

Pour la première étape, le sous-ensemble choisi est tel que ρ<− )()( irir BArr

avec ρ=15Å.

Ce sous-ensemble est superposé entre les deux structures, et la norme )()(' irir BAirr

−=δ est

calculée pour tous les résidus. Sont alors retirés du sous-ensemble tous les résidus tels que

δi > ε et sont ajoutés au sous-ensemble tous les résidus tels que δi < ε. ε est une fraction du

RMSD initial entre les deux structures. Sa valeur est typiquement fixée entre 60% et 80% du

RMSD initial. Une superposition est de nouveau effectuée avec ce nouveau sous-ensemble.

Lorsque le processus converge, on estime que le domaine obtenu est un domaine rigide. On

réitère alors l’algorithme en ne tenant plus compte des résidus composant ce domaine.

XIV.3.2 Utilisation de matrice de distances

Les matrices de distances sont une bonne alternative aux superpositions pour la comparaison

de deux structures et l’identification de domaines structuraux. Leur construction nécessite que

les séquences des deux structures comparées soient au préalable séquentiellement alignées

pour avoir le même nombre de carbones α à comparer.

113

La première étape consiste à construire la matrice de distance ∆ des valeurs absolues des

différences (entre deux structures) des distances entre les carbones α des résidus i et j. Les

éléments ∆ij de cette matrice sont définis de la façon suivante :

∆ij = |dA(i,j)-dB(i,j)|

avec dA(i,j) la distance entre les résidus i et j dans la structure A et dB(i,j) la distance entre

ces mêmes résidus dans la structure B (voir figure 41).

figure 41 : Définition des distances dA(i,j) et dB(i,j). Les résidus i et j sont les mêmes dans les

deux structures A et B.

On peut alors construire une matrice D (de dimension NxN pour une protéine de N résidus),

dont les éléments Dij sont égaux à 1 si la différence ∆ij est inférieure à une valeur choisie rd et

nuls dans le cas contraire.

Dij = h(rd-∆ij) où h est la fonction d’Heaviside (h(x)=1 si x≥0 et h(x)=0 si x<0)

Ainsi, Dij=1 correspond aux résidus i et j qui ne bougent pas l’un par rapport à l’autre

lorsqu’on passe d’une structure à l’autre et Dij=0 correspond à deux résidus i et j dont la

distance n’est pas la même (d’après le critère rd) dans les deux structures.

i

j

i

j

dA(i,j)dB(i,j)

A B

114

Le but final est de définir des domaines (ou blocs) de résidus bougeant ensemble. Les

matrices obtenues sont alors analysées pour définir de tels domaines. Avant de décrire le

critère que nous avons choisi, nous allons présenter d’autres algorithmes utilisant les matrices

de distances.

XIV.3.3 Exemple d’algorithme utilisant la comparaison de matrices de

distances

Nichols et al. décrivent un algorithme permettant d’identifier les domaines rigides des

protéines par la comparaison de matrices de distances [Nichols, et al.; 1995]. Les auteurs

construisent une matrice de différences de distance D comme expliqué ci-dessus. Les

domaines sont construits avec des résidus afin que la distance entre n’importe quelle paire (i,j)

des carbones α des résidus i et j d’un domaine diffère de moins de rd dans les deux structures.

Malheureusement, cet algorithme demande un stockage important. Une recherche exhaustive

de tous les domaines satisfaisant le critère rd est impossible pour des protéines comprenant

plus de 50 résidus. Ils proposent aussi une autre approche non exhaustive qui permet de

construire des familles de domaines qui se recouvrent.

XIV.3.4 Le problème du bruit

Dans la plupart des algorithmes définissant des matrices de différences de distance, les

incertitudes sur les coordonnées atomiques ne sont pas prises en compte directement. Elles le

sont indirectement par le choix du seuil rd. Schneider a soulevé ce problème et propose de

prendre en compte dans les matrices de différences de distance les erreurs dues à ces

incertitudes [Schneider; 2000]. En effet, il souligne que les éléments des matrices de

différences de distance représentant de petites différences entre de grandes distances, le

problème du bruit n’est pas négligeable a priori.

Après avoir présenté notre approche, nous allons discuter dans notre cas ce problème de bruit.

XIV.4 Définition des blocs structuraux

Nous avons déterminé des blocs (ou domaines) structuraux après avoir construit une matrice

D de comparaison de distances entre deux structures d’une même protéine. L’alignement est

donc trivial puisque les séquences des deux structures sont les mêmes.

115

L’algorithme que nous avons utilisé est très simple et explicité ci-dessous.

On part du résidu numéro 1 et on considère comme appartenant au premier bloc tous les

résidus consécutifs j tant que D(1,j) est égal à 1. Soit i le premier résidu tel que D(1,i) est nul,

on commence alors un nouveau bloc dont le critère est D(i,j)=1 pour tous les résidus j

suivants et ainsi de suite. On crée ainsi des blocs « diagonaux » en regardant les informations

proches de la diagonale. Afin de regrouper les blocs qui seraient constitués de résidus non

consécutifs, on regarde la valeur des éléments D(iA,iB) où iA et iB sont des résidus centraux des

blocs diagonaux A et B. Si D(iA,iB) est égal à 1, les deux blocs A et B sont regroupés en un

bloc final. On construit donc une matrice Df telle que Df(i,j)=1 si i et j appartiennent à un

même bloc et Df(i,j)=0 dans le cas contraire.

Un exemple de matrices D et Df est montré figure 42.

figure 42 : Matrices D et Df pour la comparaison de deux structures de myosine avec un

critère rd de 0,1Å. À gauche : D avant l’algorithme de création des blocs, à droite : Df après

l’algorithme. Une valeur D(i,j) ou Df(i,j) égale à 1 est représentée en noir et une valeur D(i,j)

ou Df(i,j) égale à 0 en blanc.

Par rapport à l’approche de Nichols et al., nous nous contentons de ne regarder que les paires

entre le premier résidu du domaine et les autres. Notre méthode très simplificatrice est

justifiée a posteriori par une validation visuelle, notre volonté étant d’avoir une approche

qualitative rapide donnant une partition satisfaisante.

116

Dans les études que nous avons menées, nous n’avons pas tenu compte du raffinement

prenant en compte les erreurs sur les coordonnées, comme le suggère Schneider, pour deux

raisons. D’une part, les structures, réalisées par les mêmes auteurs (Houdusse et al.), ont été

déterminées à plutôt basse résolution (4,20 Å et 2,50 Å) [Houdusse, et al.; 1999, Houdusse, et

al.; 2000]. D’autre part, les résultats montrent qu’une analyse très simplifiée permet d’obtenir

des résultats très cohérents à partir des données expérimentales.

La méthode décrite ici est donc limitée à la comparaison de structures d’une même protéine,

cristallisée dans des conditions similaires et nous verrons son application dans le cas de la

myosine dans l’article présenté au Chapitre 6.

XIV.5 Identification de domaines sans comparaison

Nous venons de décrire des algorithmes qui permettent de déterminer des domaines d’une

structure par comparaison avec d’autres structures. Nous nous intéressons maintenant à

l’identification de domaines intrinsèques à une structure.

Nous avons vu dans le chapitre XII.5 des applications du modèle granulaire qu’on pouvait

déduire des facteurs de température ou de l’étude des modes normaux des régions plus rigides

et des régions plus flexibles. On peut ainsi déterminer des domaines dit « dynamiques »

constitués de régions rigides qui bougent les unes par rapport aux autres issu de l’étude des

modes normaux de grande amplitude [Hinsen; 1998, Hinsen, et al.; 1999]. Hinsen et al. ont

ainsi montré que l’on pouvait obtenir des domaines similaires par l’étude des modes normaux

et par la comparaison de deux structures d’une même protéine dans des conformations

différentes [Hinsen, et al.; 1999].

D’autres algorithmes permettent de déterminer des domaines, basés notamment sur le fait que

les domaines ont un minimum d’interaction entre eux et qu’il y a un maximum d’interaction à

l’intérieur de chaque domaine. C’est le cas de l’algorithme Puu (« arbre » en finlandais,

« parser for protein unfolding units ») qui construit une matrice de contact et la réordonne

pour déterminer les domaines comme les régions de plus grande densité de contacts [Holm &

Sander; 1994]. L’algorithme STRUDL (STRUctural Domain Limits) [Wernisch, et al.; 1999]

ainsi que Puu permettent d’identifier des domaines constitués de plusieurs morceaux de

chaîne sans imposer au préalable un nombre de coupures de la chaîne. STRUDL partitionne la

structure en régions afin de minimiser la surface d’interaction entre les domaines (cette

surface est calculée à partir des surfaces de Voronoï). Ces programmes permettent de définir

117

des domaines (éventuellement constitués de plusieurs segments de chaînes) pour des protéines

constituées de plusieurs chaînes, ce qui n’est pas le cas de l’algorithme DOMAK (Domain

Maker) qui détermine des domaines en ne cherchant que le point de coupure d’une seule

chaîne tel que les interactions entre domaines soient maximisées [Siddiqui & Barton; 1995].

D’autres approches comme le regroupement de petits segments [Crippen; 1978], le

regroupement de structures secondaires (algorithme DIAL) [Sowdhamini & Blundell; 1995,

Vinayagam, et al.; 2003] en définissant une notion de distance entres les unités regroupées

permettent de définir des domaines structuraux.

Le programme Protein Domain Parser [Xu, et al.; 2000] utilise une approche de la théorie des

graphes pour partitionner la structure étudiée. Chaque résidu représente un nœud d’un réseau

dont les liens dépendent de la nature du contact entre les résidus. Le réseau est découpé en

deux de façon à minimiser la coupure. La décomposition en plusieurs domaines se fait en

itérant le découpage en deux des domaines obtenus.

Dans la plupart des programmes que nous venons de présenter, les domaines obtenus sont des

domaines structuraux, obtenus uniquement par l’analyse de la structure de la protéine étudiée

(on pourra aussi lire la revue de Janin et Chothia qui discute des différentes méthodes de

localisation des domaines [Janin & Chothia; 1985]). Dans le prochain paragraphe, nous

présentons une approche originale de détermination de domaines protéiques fondé sur la

réponse mécanique d’une structure à une contrainte.

XIV.6 Domaines mécaniques

Lors de l’application d’une contrainte locale de valeur donnée D* sur la moyenne des

distances entre le carbone α d’un résidu i et les autres carbones α, la structure se déforme. Il

est alors possible de calculer un ensemble de vecteurs ijrr∆ correspondant aux déplacement

relatif du Cαj par rapport au Cαi sondé. On peut ainsi construire une matrice des normes ∆rij

de ces vecteurs (ces normes correspondent donc à la valeur absolue de la variation de la

distance dij). Chaque ligne i provient d’une expérience dans laquelle on sonde le résidu i. En

général, ∆rij est différent de ∆rji. De petites valeurs de ∆rij correspondent à des résidus i et j

qui sont couplés et bougent ensemble sous l’action de la contrainte.

On définit un domaine mécanique comme un ensemble de résidus qui bougent comme un bloc

sous l’influence des contraintes imposées.

118

L’algorithme que nous avons mis au point permet de regrouper ensemble les résidus i et j dont

les valeurs ∆r sont plus petites qu’un seuil T. La première étape consiste à rechercher la plus

petite valeur de ∆rij tel que ∆rij et ∆rji sont plus petits que T . Les résidus i et j forment ainsi le

noyau du premier domaine et ∆rij et ∆rji sont enlevés de l’analyse. Puis la plus petite valeur

∆rik de la ligne i est recherchée et le résidu k est ajouté au domaine si ∆rlk et ∆rkl sont

inférieurs à T pour tous les résidus l appartenant déjà au domaine. Le processus est réitéré

jusqu’à ce que tous les résidus aient été testés. Lorsque tous les résidus k satisfaisant la

condition « ∆rkl et ∆rlk plus petits que T pour tous l du domaine » sont trouvés, l’algorithme

élimine les valeurs correspondant aux résidus du domaine et construit un nouveau domaine en

recherchant dans la nouvelle matrice la plus petite valeur ∆rij.

Une fois que tous les domaines sont définis, on teste chaque résidu en regardant s’il peut

appartenir à un autre domaine que celui auquel il a été assigné. Le résidu i est déplacé du

domaine A vers le domaine B s’il satisfait le critère d’appartenance dans le domaine B (c’est-

à-dire pour tout l de B, ∆ril et ∆rli sont plus petit que T) et si AlilBlil rr

∈∈∆<∆ , où

Blilr∈

∆ est la moyenne des déplacements des résidus l du domaine B par rapport au résidu i.

∑=∈

∆+∆=∆n

lliilBlil rrnr

1)(2

1 où n est le nombre de résidus l dans le domaine B.

Tous les résidus sont testés de façon cyclique jusqu’à que les domaines soient stables.

Afin d’éviter une partition en domaines qui n’auraient pas de signification structurale, une

distance δ entre deux domaines A et B est définie comme la valeur maximale de l’ensemble

∆rlk, ∆rkl/ (l,k)∈AxB. Si cette distance δ entre A et B est plus petite que pxT (avec p un

pourcentage plus grand que 1) alors les deux domaines sont regroupés en un seul. Le

processus itératif permettant de changer des résidus de domaine décrit précédemment est de

nouveau appliqué avec un nouveau seuil T défini comme : T = max(T, δ). Tout ce processus

est réitéré jusqu’à impossibilité de regrouper deux domaines.

On peut alors construire un arbre de classification hiérarchique. La distance entre les branches

de l’arbre est alors plus grande que pxT.

119

Les valeurs de T=0,35 Å et p=1,3 donnent des résultats satisfaisant pour une valeur de D* de

0,2 Å présentés dans l’article du Chapitre 7 de cette thèse. On obtient ainsi quatre domaines

pour la nucléase du staphylocoque (figure 43).

figure 43 : Domaines dynamiques pour la nucléase du staphylocoque (4 domaines : bleu,

rouge, jaune et vert) pour D*=0,2Å, T=0,35 et p=1,3 et arbre de classification des domaines.

vert jaune bleu rouge

2,477 _ 1,711 _ 1,377 _

δ

121

Chapitre 6 Article : Flexibilité de la myosine :

domaines structuraux et vibrations collectives.

122

XV Introduction

XV.1 La myosine : une protéine moteur

XV.1.1 Différents types de myosines

Trois types de moteurs cytoplasmiques sont connus : les myosines qui s’associent aux

microfilaments d’actine, les kinésines et les dynéines qui se déplacent le long des

microtubules (voir la revue de Schliwa et Woehlke [Schliwa & Woehlke; 2003]). Les

myosines constituent une large superfamille de protéines. Elles présentent un domaine

commun, situé en général dans leur région N-terminale, dont les propriétés mécano-chimiques

sont d’hydrolyser des molécules d’ATP et d’interagir avec l’actine afin de produire un

mouvement le long des microfilaments d’actine. Les approches génétiques et phylogéniques

ont permis d’identifier de nombreux membres de cette famille et de les classer en sous-

familles (numérotées avec des chiffres romains). Un site internet regroupe les recherches

actuelles sur ces familles et l’avancée des connaissances sur les myosines :

http://www.mrc-lmb.cam.ac.uk/myosin/myosin.html.

Avant de présenter plus en détail la famille des myosines II, dont l’un des membres fait l’objet

de l’article commenté dans ce chapitre, nous allons présenter la structure générale des

myosines et les différentes familles jusqu’alors identifiées.

• Description de la structure

Les myosines sont constituées de trois domaines : la tête (en général la partie N-terminale),

qui constitue le domaine moteur, le cou (domaine régulateur), et la queue (partie C-terminale).

La structure quaternaire de ces protéines se compose de plusieurs chaînes : la chaîne

principale ou chaîne lourde et des chaînes légères situées au niveau du cou. Chacun des

domaines peut être divisé en plusieurs sous-domaines, spécialisés pour remplir des fonctions

spécifiques aux différentes familles.

La tête ou domaine moteur : Le domaine moteur est le seul domaine qui soit

présent dans toutes les chaînes lourdes des myosines. C’est ce domaine qui interagit avec

123

l’actine et lie l’ATP. Le domaine moteur est une région globulaire relativement conservée :

seules quelques boucles en surface et l’extrémité N-terminale varient parfois selon les

myosines.

Le cou ou domaine de régulation : Pratiquement toutes les myosines ont un

cou ou domaine de régulation. C’est une région constituée d’une longue hélice α stabilisée

par des chaînes légères. Les sites de fixation des chaînes légères sont des motifs IQ

(IQXXXRGXXXR) répétés de 0 à 7 fois. Comme l’indique le nom de ce domaine, celui-ci est

considéré comme ayant un rôle de régulation dans certaines myosines mais sa fonction est

encore mal connue. Lorsque ce domaine est assez long, il est supposé avoir un rôle de bras de

levier amplifiant les changements conformationnels de la tête de la myosine. Si certains

défendent ce modèle [Volkmann & Hanein; 2000], d’autres proposent que le changement

conformationnel du cou régule le temps d’attachement de la myosine sur l’actine [Yanagida &

Iwane; 2000c]. Deux caractéristiques diffèrent suivant les familles : la longueur du domaine et

le type de chaînes légères fixées. Beaucoup de myosines fixent des chaînes légères

ressemblant à la calmoduline, d’autres fixent de petites molécules pouvant se lier à des ions

calcium. L’activité motrice des myosines est alors régulée soit par la fixation d’ions calcium,

soit par une phosphorylation de la chaîne légère ou de la chaîne lourde.

La queue : La queue sert d’ancre spécifique et positionne le domaine moteur

afin qu’il puisse interagir avec l’actine. La queue varie beaucoup d’une myosine à l’autre, en

taille et en séquence. Plusieurs domaines fonctionnels impliqués dans des interactions

protéine-protéine ou protéine-phospholipide y ont été identifiés, par analogie avec d’autres

protéines. En outre, les queues de certaines myosines contiennent une structure en hélice qui

permet leur homodimérisation (α-helical coiled-coil) : on obtient, dans ce cas, des moteurs à

deux têtes, similaires aux moteurs associés aux microtubules. Dans le cas des myosines II,

cela permet aussi aux myosines de former des filaments.

Les extensions N-terminales : Certaines myosines possèdent également une

extension N-terminale (aussi appelée nez).

• Les sous-familles

Les différentes familles des myosines sont déterminées par la comparaison des séquences et

par une reconstruction de l’évolution entre les différentes branches d’un arbre phylogénique.

À l’heure actuelle, 18 classes de myosines ont été déterminées par la comparaison des têtes de

myosines [Berg, et al.; 2001, Hodge & Cope; 2000] (figure 44) qui sont globalement

124

retrouvées lorsqu’on compare les domaines du cou et de la queue. Ceci suggère que pour

chaque type de myosine, la tête et la queue ont évoluées ensemble [Korn; 2000].

figure 44 : Arbre phylogénique de la famille des myosines, extrait de l’article de Hodge et

Cope [Hodge & Cope; 2000].

• Rôle des myosines

À côté du rôle des myosines II qui est bien caractérisé dans la contraction musculaire (voir

plus loin), les membres de la familles des myosines sont impliqués dans un grand nombre de

fonctions cellulaires dont la motilité cellulaire, le trafic intracellulaire d’ARN ou d’organelles,

la cytocinèse (ou fission cellulaire) et la transduction de signaux…[Baker & Titus; 1998].

On caractérise les propriétés des myosines par les critères suivants :

125

- La direction de déplacement : La plupart des myosines se déplacent le long du

microfilament d’actine en direction de l’extrémité barbée de ce dernier mais certaines

(les myosines VI) se déplacent dans le sens inverse (vers le côté pointé, côté à

croissance lente).

- Le pas élémentaire : Bien que ce fait soit encore controversé, les différentes myosines

semblent avoir des déplacements unitaires différents. Un pas élémentaire correspond à

l’avancement dans la direction de l’actine du à un changement de conformation de la

tête amplifiée par le cou. Par exemple, la myosine II du squelette du lapin a un

déplacement élémentaire de 50 Å alors que certaines myosines I ont un déplacement

de 110 Å.

- La vitesse de glissement : Sous certaines conditions, une myosine a une certaine

vitesse de glissement déterminée par la combinaison des différents paramètres

cinétiques et le déplacement produit par la myosine. Celle-ci peut aller de

0,015 µm.s-1 (dans le cas de la myosine IX) à 70 µm.s-1 (pour la myosine Chara XI).

- La processivité : Une myosine est dite processive si elle est capable d’effectuer

plusieurs pas le long de du filament d’actine avant de s’en détacher. Les myosines V

sont des myosines processives : le fait que les deux têtes de myosines enlacées sont

coordonnées, il y a toujours une tête liée à l’actine. Les myosines II, elles, ne sont pas

processives : le temps pendant lequel elles restent attachées fortement à l’actine est

relativement faible.

• Propriété enzymatique des myosines

Les myosines hydrolysent les molécules d’ATP (adénosine triphosphate), en ADP (adénosine

diphosphate) et phosphate inorganique par la réaction suivante :

ATP ADP + Pi

Les formules chimiques des nucléotides cités ci-dessus sont données dans la figure 45.

126

figure 45 : Formule chimique de l'adénosine triphosphate (ATP). Sont aussi indiquées les

formules de l’adénosine diphosphate (ADP) et monophosphate (AMP).

Le site d’hydrolyse de l’ATP se situe dans la tête de la myosine, à l’opposé du site

d’interaction avec le filament d’actine (figure 47). Afin d’obtenir des structures

cristallographique correspondant à des conformations différentes de la tête de la myosine, ces

dernières ont été déterminées avec des nucléotides qui miment l’ATP, l’ADP.Pi ou l’ADP.

Ainsi, MgADP.BeFx mime l’ATP juste avant hydrolyse, et MgADP.VO4 et MgADP.AlF4

miment l’état de transition ADP.Pi [Rayment; 1996].

• La myosine II

Nous nous intéressons plus particulièrement à la myosine II ou myosine conventionnelle. Elle

tient ce nom du fait que ce fut la seule myosine étudiée pendant des années.

Les myosines II ont toutes une tête se terminant par les trois acides aminés FFK ou FFR, un

cou constitué des 71 (ou 72) acides aminés suivants et une queue commençant par un résidu

proline. Leur longue queue en hélice permet leur homodimérisation et, pour les myosines II

musculaires, la formation de filaments épais qui « glissent » sur les filaments fins d’actine.

Ainsi la contraction des muscles résulte du déplacement des filaments épais de myosine par

rapport aux filaments fins d’actine (figure 46).

Adénosine

127

figure 46 : Structure du squelette musculaire.

La figure 47 permet de visualiser les différents domaines couramment utilisés dans la

description des myosines. La molécule est constituée de poches et fentes, qui séparent les

différents domaines, déterminées visuellement. Le site du fixation du nucléotide se trouve

dans la poche située à l’interface entre le domaine N-terminal de 25 kDa (gris sombre) et le

fragment central de 50 kDa (bleu et gris clair). La fente « 50 kDa cleft » divise le domaine de

50 kDa en deux : « upper » (au dessus, bleu) et « lower » (en dessous, gris clair). Une région

entre la tête et le cou (hélice cyan) est désignée de « converter » car elle transmet le

128

mouvement de la tête au cou (ou bras de levier). Les chaînes légères sont représentées en

violet.

figure 47 : Différents domaines d'une myosine II, dessin issu de [Houdusse & Sweeney; 2001

] : Le domaine N-terminal (gris sombre), le domaine 50kDa (bleu et gris), le « converter »

(vert), le bras de levier (bleu clair) et les chaînes légères (violet). Les boucles reliant les

différents domaines sont coloriées en orange (Switch II) et rouge (SH1 helix). Les sites de

fixation de l’ATP et de l’actine sont indiqués ainsi que la région pliante située à la base du

cou.

XV.1.2 Cycles actine-myosine

Nous venons de voir que, lors de la contraction musculaire, les myosines II musculaires,

organisées en filaments épais, utilisent leurs propriétés mécano-enzymatiques pour « glisser »

sur des faisceaux d’actine. Afin de comprendre le mécanisme de déplacement des myosines

sur l’actine, plusieurs groupes ont entrepris l’analyse structurale de ces moteurs. Depuis la

première structure cristallographique de la tête motrice de myosines II du poulet (fragment

S1), qui est composée de la tête et du cou, par Rayment et al. [Rayment, et al.; 1993b],

plusieurs autres structures de fragments S1 de myosines II complexés à différent nucléotides

ont été déterminées. On peut citer entre autres, différentes structures du domaine S1 de la

myosine II du Dictyostelium discoideum par le groupe de Rayment [Gulick, et al.; 2000], du

muscle strié du poulet par Dominguez et al. [Dominguez, et al.; 1998] et de la coquille Saint

Jacques par Houdusse et al. [Houdusse, et al.; 2000] et Himmel et al. [Himmel, et al.; 2002]

Essential light chainRegulatory

light chain

129

(pour les références, voir les structures accessibles sur la Protein Data Bank [Berman, et al.;

2000]). Cependant aucune structure cristallographique du complexe actine-myosine n’a été

déterminée et seules des constructions visuelles ou théoriques du complexe acto-myosine,

basées sur les structures des protéines isolées et les données de microscopie électronique, ont

été proposées [Mendelson & Morris; 1997, Rayment, et al.; 1993a].

Les données cristallographiques et les études des propriétés cinétiques du déplacement le long

de l’actine et de l’hydrolyse de l’ATP ont permis de proposer différents modèles.

• Modèle du bras de levier et d’instabilité conformationnelle

Dans le modèle du bras de levier, la force est générée par de petits changements de

conformation du site de fixation du nucléotide dus à l’hydrolyse de l’ATP [Block; 1996,

Geeves; 1991, Holmes & Geeves; 2000, Uyeda, et al.; 1996]. Ces changements sont transmis

au cou via un domaine appelé « converter » et amplifiés par le cou qui fonctionne comme un

bras de levier.

Le cycle proposé par le modèle du bras de levier est schématisé dans la figure 48. En

l’absence de nucléotide, la myosine est liée avec une forte affinité à un monomère du

microfilament d’actine (a). Cette conformation est appelée « rigor » (parce qu’elle est

responsable de la rigidité cadavérique ou rigor mortis). L’ATP se lie alors à la myosine et

modifie ainsi la conformation de l’enzyme, diminuant son affinité pour l’actine (b). Le site du

nucléotide se referme alors que la myosine se détache de l’actine. Avec l’hydrolyse de l’ATP

en ADP.Pi, la tête de la myosine peut alors pivoter sur son cou flexible jusqu’à obtenir une

conformation lui permettant de se lier faiblement à un autre monomère du microfilament

d’actine (c). Le relargage du phosphate s’accompagne d’un changement conformationnel de

la tête de la myosine qui augmente l’affinité de la liaison entre la myosine et l’actine (d). La

libération de la molécule d’ADP entraîne alors le repositionnement de la tête de la myosine,

toujours étroitement liée au microfilament d’actine, par rapport à la queue. La myosine

retrouve sa structure initiale un pas plus loin pour redémarrer un nouveau cycle (e).

130

figure 48 : Modèle du bras de levier. Schéma tiré de

« Molecular Biology of the Cell » [Alberts, et al.;

1994].

Un grand nombre d’études récentes

justifient directement ou

indirectement le modèle du bras de

levier. Mais ce modèle ne permet pas

d’expliquer l’ensemble des

observations expérimentales. C’est

pourquoi Volkmann et Hanein

proposent que le mouvement de la

myosine est provoquer par un

mécanisme de bras de levier mais que

le changement de conformation de la

myosine responsable du déplacement

est dépendant de la forte liaison de la

myosine à l’actine et non pas de

l’hydrolyse de l’ATP. Avant de se

lier à l’actine, la molécule de

myosine présente de multiples

conformations qui sont réduites à une

seule conformation, induisant un

déplacement le long du filament

d’actine [Volkmann & Hanein;

2000].

• Modèle de cliquet brownien biaisé

La micromanipulation de molécules uniques collées à la pointe d’une aiguille et l’observation

simultanée du cycle d’hydrolyse de l’ATP ont, quant à elles, incité les auteurs de cette étude à

proposer un second modèle [Yanagida, et al.; 2000a, Yanagida, et al.; 2000b]. Pour ces

auteurs, la force produite par la myosine n’est pas couplée à la libération de la molécule

d’ADP. Une tête de myosine peut subir, pendant un même cycle d’hydrolyse d’ATP, une

a

b

c

d

e

131

succession de plusieurs déplacements élémentaires de 53 Å, longueur qui correspond à peu

près à la distance entre deux monomères d’actine dans un microfilament [Kitamura, et al.;

1999]. Ce résultat suggère que l’énergie chimique produite lors de ce cycle est emmagasinée

dans la tête de la myosine ou dans le microfilament d’actine et libérée en plusieurs fois pour

permettre ces déplacements successifs. Le changement de conformation interprété comme un

mouvement de bras de levier dans le premier modèle n’est pas ici directement impliqué dans

le déplacement du moteur, mais agit en régulateur du temps d’attachement de la myosine au

microfilament, et donc de sa vitesse.

En outre, au cours d’un même cycle d’hydrolyse d’une molécule d’ATP, les déplacements

élémentaires peuvent se produire dans les deux sens sur le microfilament d’actine, alors que le

mouvement global de la myosine n’a lieu que dans un sens (figure 49). Yanagida et al.

opposent ainsi un modèle stochastique, « le modèle de cliquet brownien biaisé » (Biaised

Brownian Ratchet Model) au modèle classique du bras de levier. Au cours d’un cycle, la

myosine effectue une succession de sauts le long du microfilament d’actine au gré de son

mouvement brownien. Le cou, région régulatrice, biaise ces sauts aléatoires pour favoriser un

sens de déplacement de la myosine (le sens du côté barbé pour les myosines II).

figure 49 : Le modèle de cliquet browien biaisé comparé au modèle du bras de levier (tiré de

Yanagida et al. [Yanagida & Iwane; 2000c]).

• Modèles intermédiaires

Les deux modèles que nous venons de décrire (le modèle du bras de levier et le modèle

d’encliquetage brownien biaisé) semblent en contradiction puisque le premier prévoit un

déplacement d’un pas par cycle d’hydrolyse d’ATP alors que le deuxième propose un

Modèle du bras de levier Modèle de cliquet brownien biaisé

132

mouvement en plusieurs étapes. Pourtant, le déplacement brownien de la myosine n’est pas

incompatible avec une instabilité conformationnelle de la protéine.

Irving et Goldman proposent ainsi un modèle qui réunit ces deux approches [Irving &

Goldman; 1999]. Ils suggèrent que les divergences entre les modèles proposés pour expliquer

le déplacement des myosines II le long des filaments d’actine viennent surtout des différences

techniques utilisées pour étudier ce système. L’augmentation de l’affinité du moteur pour

l’actine lors de l’hydrolyse de l’ATP en ADP+P peut correspondre à la fois à une

rigidification de la conformation de la protéine et à la régulation de son temps d’attachement

au microfilament d’actine.

A partir de la détermination de trois états conformationnels d’un fragment S1 de la myosine II

du muscle strié de la coquille Saint Jacques et de données cinétiques, Houdusse et al.

proposent une interprétation compatible avec les deux modèles [Houdusse & Sweeney; 2001].

En l’absence de force extérieure appliquée sur la molécule, la myosine agit essentiellement

comme un cliquet brownien biaisé par le cou et dont les pas sont compatibles avec la

périodicité de l’actine. En présence de force extérieure empéchant le glissement, elle agit

comme le modèle du bras de levier présenté ci-dessus. Les auteurs proposent un cycle

incluant toutes les données cinétiques alors accessibles (figure 50). Le cycle central de la

figure 50 correspond à un cycle sans contrainte imposée sur le système et celui du bas au

cycle postulé lors de l’application d’une contrainte sur le système. Le petit cycle indépendant

(en haut) montre que l’état détaché est en équilibre avec l’état ATP (structure proche du rigor)

et suggère que celui-ci correspond à une multitude de conformations, augmentant le temps de

vie de l’état avant hydrolyse de l’ATP. L’état de transition de l’hydrolyse, qui précède la

production de force, est stabilisé en absence d’actine et correspond à une conformation dans

laquelle le bras de levier forme un angle d’environ 90° avec le filament d’actine. Les trois

structures déterminées par Houdusse et al. en l’absence d’actine correspondent dans ce cycle

à l’état détaché, à l’état ATP et à l’état de transition [Houdusse, et al.; 1999, Houdusse &

Sweeney; 2001, Houdusse, et al.; 2000]. Ce sont ces trois structures que nous avons utilisées

dans notre étude sur la myosine.

133

figure 50 : Cycle proposé par Houdusse et al. [Houdusse & Sweeney; 2001]. Les lettres

oranges correspondent aux états cinétiques : A = actine, M = myosine, T = ATP, D = ADP et

Pi = phosphate inorganic.

134

XV.2 Blocs structuraux et étude des modes normaux

Nous avons profité de la disponibilité de la structure cristallographique de trois états

différentes (état détaché, état de transition et état « near rigor ») du fragment S1 d’une même

protéine, la myosine du muscle strié de la coquille Saint Jacques, pour comparer ces structures

entre elles.

Une première étape a consisté à appliquer la méthode ANM (Anisotropic Normal Mode) aux

trois structures. Seule une des structures, celles de l’état détaché est de suffisamment bonne

résolution pour que les facteurs de température soient accessibles. La méthode a été validée

sur ces données et les facteurs de température théoriques des deux autres structures ont été

déterminés.

La comparaison des structures deux à deux nous a permis de définir des domaines qui sont

d’une part compatibles avec les résultats de l’étude des modes normaux mais qui renseignent

aussi sur une partition plus fine des structures que celle couramment faite à partir d’une étude

visuelle.

Ces deux méthodes permettent de comparer les propriétés mécaniques des trois structures.

Nous avons ainsi observé que la myosine garde, au cours du cycle acto-myosine, des

caractéristiques globales tout en possédant des spécificités dépendant du nucléotide lié au

niveau du site enzymatique.

135

XVI Myosin Flexibility : Structural Domains and

Collective Vibrations

Isabelle Navizet, Richard Lavery and Robert L. Jernigan

Proteins: Structure, Function and Genetics (2004), 54, pages 384-393.

Abstract

The movement of the myosin motor along an actin filament involves a directed

conformational change within the cross-bridge formed between the protein and the filament.

Despite the structural data which has been obtained on this system, little is known of the

mechanics of this conformational change. We have used existing crystallographic structures

of three conformations of the myosin head, containing the motor domain and the lever arm,

for structural comparisons and mechanical studies with a coarse-grained elastic network

model. The results enable us to define structurally conserved domains within the protein and

to better understand myosin flexibility. Notably they point to the role of the light chains in

rigidifying the lever arm and to changes in flexibility as a consequence of nucleotide binding.

Key words: Motor proteins, Gaussian Network Model, Structural Blocks, B-factors.

136

Introduction

Myosin is an enzyme that converts the chemical energy resulting from the hydrolysis of ATP

into directed mechanical movement along an actin filament. The actomyosin system is

involved in numerous cell processes including vesicle trafficking, determinant partitioning,

cell motility, neurosensory function and muscle contraction [Baker & Titus; 1998]. Although

considerable crystallographic data have been gathered on this system [Dominguez, et al.;

1998, Gulick, et al.; 2000, Houdusse, et al.; 1999, Houdusse, et al.; 2000, Rayment, et al.;

1993b], many questions concerning the molecular mechanisms underlying myosin mobility

remain unanswered.

Myosin II, so-called conventional myosin, forms filaments and constitutes large assemblies of

non-cooperative motors within muscular tissues. It is an important member of a diverse

family of myosin motor proteins [Hodge & Cope; 2000]. Different mechanisms have been

proposed for myosin movement. The majority of biophysicists explain muscle contraction by

the movement of the myosin lever arm [Spudich; 2001], but other evidence has pointed to a

biased Brownian ratchet mechanism and to the possibility of multiple myosin steps per ATP-

driven cycle [Yanagida, et al.; 2000b]. It may however be possible to reconcile these

apparently conflicting viewpoints [Houdusse & Sweeney; 2001]. A part of the mechanism

proposed by Houdusse et al. [Houdusse & Sweeney; 2001] based on insights from X-ray

structures, cryo-electron microscopy and kinetic studies is presented in figure 51.

The strong binding of myosin to actin (rigor state) weakens with ATP-binding. This

conformation is termed the near rigor state. The detached state, where myosin releases the

actin filament may prevent a reverse powerstroke and increase the lifetime of the

prehydrolysis state. After hydrolysis of ATP in the myosin motor, phosphate binding

stabilizes the so-called transition state until actin binding. This is followed by force generation

and ADP-release returning the system to its rigor state.

137

figure 51 : Schematic view of the myosin cycle showing the DS, NR and TS states (adapted

from Houdusse and Sweeney [Houdusse & Sweeney; 2001]). Note that this cycle corresponds

to the thermal ratchet interpretation of myosin action. The main steps of the cycle are as

follows: in the absence of nucleotide, myosin binds tightly to actin. This is termed the rigor

state. The binding of ATP induces weakening of the binding via the so-called near-rigor state

(NR). The near-rigor state is in equilibrium with a completely detached state (DS). As a result

of ATP hydrolysis, myosin moves one step along the actin filament, leading to the so-called

transition state (TS). Phosphate release puts myosin in the weakly binding NR state and the

release of ADP to a returns it to the rigor state. For more details see reference [Houdusse &

Sweeney; 2001].

In the present paper, we use theoretical methods to study myosin II, in an attempt to better

understand the mechanics of its conformational changes. Since the myosin head is a large

system (1147 amino acids, 130 kD) and, moreover, undergoes large conformational changes,

it is not easy to use conventional all-atom molecular mechanics or dynamics methods. We

have thus chosen to study the problem with an anisotropic network model [Atilgan, et al.;

2001, Doruker, et al.; 2000] and also via a rigid block decomposition method. Both of these

138

methods are coarse-grained and only use a single point, Cα, to represent each amino acid

residue. The anisotropic network model provides data on the large-scale collective modes of

vibration by converting the protein structure into a set of coupled springs between

neighboring residues and carrying out a normal mode style analysis. It has been shown to

provide data in very good agreement with more refined all-atom approaches and with

crystallographic temperature factors [Atilgan, et al.; 2001, Bahar, et al.; 1998, Doruker, et al.;

2002a, Doruker, et al.; 2002b, Keskin, et al.; 2002a, Keskin, et al.; 2002b]. The rigid block

decomposition method is based on a comparison of inter-Cα distances between two structures

of the same protein and the identification of blocks based on virtually constant inter-residue

distances.

Together, these methods enable us to identify the rigid and flexible domains within the

myosin structure and highlight the respective roles of the light chains and of nucleotide

binding.

Materials and Methods

1. Structures

Three structures of different states of the scallop myosin S1 head form the basis for our

calculations. These structures have been determined by X-ray crystallography and are

available in the Protein Data Bank (PDB) [Berman, et al.; 2000] with the codes 1DFK, 1DFL

and 1B7T. 1DFK corresponds to scallop myosin S1 without an adenosine nucleotide and is

believed to be the near rigor state (NR). 1DFL is the myosin head structure in the presence of

ADP.VO4, corresponding to the transition state (TS). Finally, 1B7T is scallop myosin S1

complexed with ADP, which has been interpreted as a detached ATP state (DS). Hereafter,

we refer to these three structures using the functional codes NR, TS, and DS (see figure 51 ).

Each of these structures is composed of three polypeptide chains: the main chain (835

residues), divided into the N-terminal motor domain and the α-helical C-terminal lever arm;

the essential light chain (ELC, 156 residues), and the regulatory light chain (RLC, 156

residues). Two of the three available structures of myosin, NR and TS, are rather poorly

resolved (4.20 Å) and some residues are missing, limiting the head domain to 1019 and 1059

α-carbons respectively. DS, is better resolved (2.50 Å) and the structure is constituted of 1057

residues. These data are summarized in Table I.

139

Table I. Summary of the crystal structures used in the current study

Code NR TS DS

Supposed position in

the cycle [Houdusse &

Sweeney; 2001] (

figure 51)

Near rigor state Transition state Detached state

PDB entry 1DFK 1DFL 1B7T

Resolution 4.20 Å 4.20 Å 2.50 Å

Nucleotide None MgADP-VO4 MgADP

Experimental B-factors Not available Not available Available

Number of residues 1019 1059 1057

Number of atoms 5031 5230 8249

2. Anisotropic Network Model (ANM)

This coarse-grained elastic model begins by reducing a protein to a set of α-carbons and takes

no account of amino acid side chains or other peptide backbone atoms. The protein structure

is taken into account by creating springs between spatially neighboring residues (whether or

not these residues are sequential within the peptide chain). The vibrations of such a system

can be analyzed either by assuming that all fluctuations are isotropic, as in the so-called

Gaussian Network Model (GNM) [Bahar, et al.; 1997, Bahar, et al.; 1999, Demirel, et al.;

1998, Haliloglu & Bahar; 1999, Keskin, et al.; 2000], or by taking into account anisotropy via

the directions of movement of each residue, in the so-called Anisotropic Network Model

(ANM) [Atilgan, et al.; 2001]. We have used the latter approach since it yields the structural

changes associated with collective vibrational modes, rather than simply their overall

140

magnitudes. The potential energy V of a structure with N residues is expressed within the

ANM as a Gaussian form,

V = (γ / 2) ∆RT Η ∆R

where γ is the spring constant, ∆R is a 3N-dimensional vector of the fluctuations ∆Ri in the

position vectors Ri of all sites (1 ≤ i ≤ N), ∆RT is its transpose, and Η the Hessian matrix

composed of the second derivatives of the potential energy. Thus, V can also be written,

V = (1/2) Σi Σj h(rc – Rij° ) (Rij – Rij°)2

The summations are performed over all interaction sites. h(x) is the Heaviside step function

(h(x) = 1 if x ≥ 0, and zero otherwise), Rij° is the distance between sites i and j in the protein

structure, Rij is the same distance after fluctuation, and rc is the cutoff distance defining the

interacting residue pairs for which Gaussian springs are created. Η is expressed as a function

of N2 submatrices Hij of the form,

⎥⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

⎟⎟⎠

⎞⎜⎜⎝

⎛

∂∂∂

=

0

2

0

2

0

20

2

0

2

0

20

2

0

2

0

2

H

jijiji

jijiji

jijiji

ij

ZZV

YZV

XZV

ZYV

YYV

XYV

ZXV

YXV

XXV

with Xi, Yi and Zi being the components of Ri.

Note that,

2))((

0

0000

0

2

0

2

ij

ijijijji R

YYXXYX

VYX

V −−−⎟

⎟⎠

⎞⎜⎜⎝

⎛∂∂

∂⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

∂== γ for i ≠ j,

and ∑−−

⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

∂ =j

ij

ijij

ii R

YYXXYX

V2

))((0

0000

0

2γ

The correlations between the fluctuations at sites i and j are,

141

<∆Ri • ∆Rj> = (1/Z) ∫ (∆Ri • ∆Rj) exp-V/kTd∆R = kBT tr [Η-1]ij

where kB is the Boltzmann constant, Z is the configurational partition function, and tr[Η-1]ij is

the trace of the ijth submatrix [Η-1]ij of H-1. <∆Ri . ∆Rj> can be expressed as a sum over the

contributions [∆Ri • ∆Rj]k of the 3N-6 individual internal fluctuation modes as

<∆Ri • ∆Rj > = Σ k [∆Ri • ∆Rj]k. The contribution of the kth mode is explicitly given by,

[∆Ri • ∆Rj]k = kT tr [λk-1 uk ukT]ij

where λk is the kth non-zero eigenvalue of Η and uk is the corresponding eigenvector. The

eigenvalues are related to the frequencies of individual modes, and the eigenvectors describe

the effect of each mode on the positions of the N residues constituting the structure. The

eigenvalues are usually organized in ascending order (after removing the six zero eigenvalues

corresponding to overall translation and rotation), so that λ1 denotes the lowest frequency and

[∆Ri • ∆Rj]1 is the correlation for this mode of motion separately. Likewise, [(∆Ri)2]1 is the

mean-square fluctuation in the position of site i for mode 1. The slowest vibrational modes

usually dominate the collective dynamics of the structure and are particularly relevant to

biological function.

3. Determination of rigid blocks

Blocks of residues which move together in a coupled manner can be determined by the

comparison of two structures of the same protein. This analysis requires the construction of a

symmetric matrix termed D whose elements Dij are equal to 1 if the difference ∆ij of the

distances between two residues i and j in the two protein structures studied is below a

specified cutoff and is otherwise set to zero.

∆ij = | dA(i,j)-dB(i,j)|

and Dij = h(rd - ∆ij)

142

where dA(i,j) is the distance between residues i and j in structure A, dB(i,j) is the distance

between residues i and j in structure B and h(x) is the Heaviside step function (h(x)=1 if x ≥0,

and zero otherwise). D has dimensions NxN for an N residue protein. The value of the cutoff,

rd, is adjusted so that the analysis yields a reasonable number of blocks (see below).

As the resulting matrix is still complicated, it has to be refined in order to clearly delimit the

underlying blocks. This procedure involves starting with the first residue and constituting a

block with all consecutive residues j, as long as D(1,j) is equal to 1. If D(1,i) is equal to 0, a

new block is started with the criteria D(i,j)=1. Diagonal blocks are created this way. Two

diagonal blocks A and B then become part of a single block if the matrix element D(iA,iB) is

equal to 1, where iA and iB are the central residues within blocks A and B respectively (see

figure 57). The final matrix D is again a binary matrix, with D(i,j)=1 if i and j belong to the

same block.

Result and Discussion

Flexible regions within the myosin head

Starting from our ANM analysis of the three available structures of the myosin head, it is

possible to calculate the overall fluctuations of each amino acid residue in the form of the B-

factors commonly used in analyzing crystallographic structures,

Bi = 38 2π <∆Ri • ∆Ri >

figure 52 shows plots of these fluctuations for the DS, NR and TS structures. All calculation

of ∆Ri were performed with rc = 11 Å following the study of Atilgan et al. [Atilgan, et al.;

2001]. It is remarked that excellent agreement between such B-factors and crystallographic

data has already been demonstrated for other proteins [Atilgan, et al.; 2001, Bahar, et al.;

1998, Doruker, et al.; 2002a, Doruker, et al.; 2002b, Keskin, et al.; 2002a, Keskin, et al.;

143

2002b]. We can only make such comparisons in the case of the better resolved DS structure,

where the experimental values are available. The comparison with the theoretical results is

presented in figure 52 and shows a good overall agreement, with the exception of residues

belonging to the lever arm (775-835) and the RLC. These exceptions are most probably due to

the interactions which exist between the myosin lever arms within the crystal lattice, but are

naturally absent in our calculations. Since the spring constant γ is the only remaining

parameter of our calculations, its value can be determined by matching the areas under the

experimental and theoretical B-factor curves. This has been done for the residues in the zone

1-800 and leads to a value of 1.3 kcal/(Å2.mol). This value is comparable to the values found

for other proteins [Atilgan, et al.; 2001].

We can now compare the DS, NR and TS states of myosin. All three structures show rather

similar overall fluctuations. Each indicates a significant difference between the motor domain

(residues 1 to 775), which is rigid, and the lever arm (residues 820 to 835), which is flexible.

The regulatory light chain, which is located at the end of the lever arm structure, is also very

flexible, in contrast to the essential light chain. It should be recalled that these results refer to

an isolated myosin head, truncated at residue 835, and do not take into account the effects of

interactions with the actin filament or between neighboring myosin motors.

It is also recalled that myosin head structures we use are incomplete and the absence of

residues in some domains are the cause of significant local differences between the three

states which can be seen in figure 52. This is notably the case for the peaks observed near

residue 410 in the DS and TS structures and near residue 320 in the NR structure. There are

however some mechanically significant differences between the three states, most notably for

the contact region between the lever arm and the motor domain which are different in DS

compared to either the NR or TS structures. This change shows up in figure 52 as the peak in

fluctuations of residues 48-56 which is only seen for NR and TS, while only the DS structure

shows a peak for residues 508-510. The first peak can be easily explained by the fact that the

residues 48-56, belonging to the SH3 β-barrel, are distant from the lever arm in the NR and

TS structures, but close in DS. The second peak is coupled to the fact that the distance

separating the β-strand and α-helix elements of the so-called "relay" structure are more distant

from one another in DS than in either NR or TS (the elements of the relay are visible of the

left-hand side of the detailed views in the lower part of figure 53).

144

figure 52 : Calculated B-factors (solid curves) as a function of the residue numbers for three

structures of the myosin head composed of the main chain and the RLC and ELC light chains.

Calculations used a spring constant g of 1.3 kcal/(Å2.mol). Experimental B-factors are shown

for DS structure (dashed curves). The curves are interrupted at points where residues are

missing in the experimental structures. The scale chosen leads to overlap of the curves for the

particularly flexible RLC domain, but makes the details more visible for the remainder of the

structure.

In order to link these results more easily to the 3-dimensional structure of myosin, we use

color-coded ribbon models (where increasing fluctuations are indicated with a blue to red

gradation). The results shown in the upper part of figure 53 again stress the overall similarity

of the fluctuations for the three myosin structures. They also emphasize the flexibility of the

loops which compose the actin binding domain at the top of the S1 domain and the, probably

artefactual, flexibility of the end of the lever arm, compared to the stiffer region near the

essential light chain. Fluctuations are also seen to be more important at the surface of the

motor domain and in the lever arm, whereas the buried ATP site is a relatively rigid zone.

Since it is not easy to see the changes occurring with the motor domain in the full structure,

we have added detailed views in the lower part of figure 53. In addition to the changes in the

145

relay discussed above, these views show that the most rigid region corresponds to switch II

(the strand linking the central β-sheet to the α-helix of the relay) in NR and TS, but rather to

the ATP binding site in DS. This is in agreement with the remarks of Houdusse et al.

indicating that there is a stronger interaction between the elements linked by switch II in the

former structures [Houdusse, et al.; 2000].

The RLC and ELC light chains are known to play an important role biologically, and they can

be expected to modify the flexibility of the long α-helices which constitute the lever arm.

Their effect can be tested theoretically by comparing ANM calculations on the full myosin

head with calculations on structures where the light chains have been removed. The results of

these calculations are shown in figure 54 and figure 55. Removing the light chains is seen to

have a dramatic effect. As might be expected, in the absence of these proteins, there is a

significant increase in the fluctuations within the lever arm. However, it is also interesting to

note that although the more flexible parts of the motor domain (colored in orange in figure 55)

are still located on the surface of the structure, they do not occur in the same zones. Notably,

in the absence of the light chains, the loops near the actin-binding site become less flexible,

although the reason for this long range coupling is not obvious. Overall, maintaining the value

for the spring constant γ, the structure without RLC and ELC becomes four times more

flexible.

146

figure 53 : Upper part: Ribbon diagrams of the DS, NR and TS myosin head structures, color-

coded on the basis of the calculated B-factors (the color range from blue to red corresponds to

increasing fluctuations). Lower part: Detailed view of the part of the motor domain showing

the relay structure on the left and the nucleotide binding site on the right. Note that the color

scale has been adapted to show up changes within this fragment of the overall myosin

structure.

147

figure 54 : Calculated B-factors for the DS main chain as a function of residue number either

with (solid curves) or without the RLC and ELC light chains (dashed curves) . The inset

shows an expanded view of the results for the lever arm (residues 775 to 835). The curves are

normalized to yield equal areas for the residues 1-775.

figure 55 : Ribbon diagram of the DS myosin head, color-coded on the basis of the calculated

B-factors (the color range from blue to red corresponds to increasing fluctuations). On the left

- in the presence of the RLC and ELC light chains. On the right - in the absence of the light

chains.

148

Structurally coherent blocks of residues

The crystallographic data available for the DS, NR and TS structures of the myosin head

enables us to study flexibility from another point of view, by asking which blocks of residues

move in a coherent, coupled manner as myosin undergoes the conformational changes linked

to its motor cycle. We have carried out the rigid block analysis described in the methodology

section for the three possible pairs of structures: DS-TS, DS-NR and TS-NR. The limit

distance rd, which determines whether two residues are considered as part of the same block

was chosen as 0.1 Å following the preliminary studies illustrated in figure 56. These show

three representations of the matrix ∆, where ∆i,j=|dA(i,j)-dB(i,j)|. The data shown refers to the

case A = TS and B = DS. The color of a point within the matrix is red if ∆i,j > rd and graduated

from red to blue in terms of decreasing distance if ∆i,j < rd. If rd = 10 Å (figure 56a), we obtain

only two blocks which correspond, not surprisingly, to the myosin motor domain and the

lever arm. By decreasing rd (figure 56b and figure 56c), a finer distinction of movement is

obtained and more blocks appear. The selected limit of rd = 0.1 Å leads to roughly 20

structural blocks after the refinement procedure described in the methodology section and is

reasonable limit given the limited resolution of the experimental data.

figure 56 : Representation of the matrix ∆ij for the DS-TS structure comparison: (a) the values

of |dTS(i,j)-dDS(i,j)| from 0-10 Å are colored from blue to red. All values beyond 10 Å are

shown in red. (b) all values of |dTS(i,j)-dDS(i,j)| beyond 1 Å are shown in red. (c) all values

of |dTS(i,j)-dDS(i,j)| beyond 0.1 Å are shown in red.

figure 57 shows the D matrix with rd = 0.1 Å before and after refinement for the DS-TS, DS-

NR and TS-NR pairs. The resulting blocks can be linked to the 3-dimensional structure of

149

myosin, again using color-coded ribbon models (figure 58). Note that isolated residues and

two-residue blocks have been colored gray.

These results are in agreement with the division into four sub-domains connected by flexible

regions suggested by Houdusse et al. 6, although the subdivisions shown in figure 58 are

somewhat finer. The results for the three pairs of structures analyzed show overall similarity.

There are however some notable differences. In particular, the helix at the top of the motor

domain (colored tan in figure 58a, residues 416-446) belongs to a single block for the TS-DS

pair of structures, but is divided into three blocks (colored tan-yellow-orange in figure 58b

and figure 58c) when the structure NR is involved in the comparison. Given the position of

these residues, this change may well be related to the fact that the nucleotide binding pocket is

occupied in the structures DS and TS, but empty in NR.

150

figure 57 : Binary representation of the matrix Dij where 1's are colored in black and 0's in

white. Figures (a), (c) and (e) show the comparisons DS-TS, DS-NR and NR-TS before

refinement of the structural blocks (see methodology), while figures (b), (d) and (f) show the

same comparisons after refinement.

In fact, the presence of a nucleotide in the binding pocket seems to lead to larger structural

blocks in several regions. Thus, the zone formed by residues 231-243 (shown as ice blue in

figure 58a) forms a single block only when the nucleotide pocket is occupied and a similar

result is found for the residues 216-230 and 244-356 (shown in orange in figure 58a). A

151

similar distinction is found within the lever arm and light chains, where the three blocks

observed in the presence of a bound nucleotide (figure 58a), become four blocks when the

comparison involves an empty nucleotide pocket. It is also important to note that this analysis

clearly shows the "pliant point" within the region 775-780 (indicated by an arrow between the

yellow and red blocks in figure 58c) reported by Houdusse et al. [Houdusse & Sweeney;

2001].

figure 58 : Ribbon diagram of the DS myosin head structure, color-coded on the basis of the

calculated structural blocks (the color range from blue to red corresponds to increasing

fluctuations). Figures a, b and c show the blocks obtained from the DS-TS, DS-NR and NR-

TS comparisons respectively. Residues belonging to blocks of less than three residues are

shown in gray. The arrow in figure c indicates the so-called pliant point.

Links between collective vibrations and structural blocks

In order to test whether the results obtained by our rigid block analysis are related to the ANM

collective vibration analysis, we have repeated the B-factor calculations using a modified

spring model of myosin. The modification involves using two different spring constants to

152

mimic the existence of structural blocks. While maintaining the usual spring constant between

residues belonging to different blocks, we increase the spring constant by a factor of 100 for

residue pairs within a single block. If the block analysis can be related to rigidity within

blocks and flexibility between blocks, the modified spring constants would not be expected to

significantly change the calculated B-factors. As a control, we have also carried out B-factor

calculations with modified spring constants based on artificially constructed blocks which

cross the block boundaries we have actually determined. Note that the cutoff distance for

forming inter-residue springs is kept at 11 Å for all these studies.

figure 59 : Calculated B-factors for the DS structure using two spring constants which take

into account the rigid blocks obtained from the DS-TS comparison (solid curve) or using a

single spring constant (dashed curve).

figure 59 displays the modified B-factors calculated with two spring constants for the DS

structure, taking into account the structural blocks obtained from the DS-TS comparison. The

B-factors calculated with the standard spring constant of 1.3 kcal/(Å2.mol) are shown for

comparison. Note that the total area under the two curves have been made equal. It can be

seen that the modified B-factors are nearly identical to those calculated with a single spring

153

constant. Minor differences occur for residues 475-525 and residues 650-690 which do not

belong to structural blocks and are found to be a little more flexible than with the previous

calculation.

We have repeated this analysis for the three available myosin structures, using either of the

rigid block definitions involving the structure in question. This leads to a total of six different

B-factor curves which can be compared with the single spring constant result. In all cases, the

minor changes observed support the compatibility of the rigid block and the ANM analyses.

In contrast, if we use artificially constructed blocks bridging the principal boundaries between

the true rigid blocks, much more significant changes in the B-factor curves are found.

Compared to the reference B-factor curve, the mean relative error found with the artificial

blocks is 22%, compared to only 5% with the correctly formed blocks. We can therefore

conclude that there is indeed a close relation between the ANM calculations and the rigid

block analysis.

Conclusions

By combining coarse-grained methods with available crystallographic data, we have been

able to study the flexibility of myosin motor protein, a system involving almost 1000 amino

acid residues. We have used two approaches to obtain information, first, calculating residue

fluctuations using the ANM elastic model and, second, defining rigid structural blocks by an

analysis of conformational changes. Good agreement is found with available experimental

data.

These two approaches, which have been shown to yield compatible results, enable us to

distinguish and to quantify the rigid and flexible domains within the myosin structure.

Although, the basic mechanics of myosin seems to be preserved amongst its various known

conformations, changes have been detected in the flexibility at the motor domain-lever arm

interface and also linked to the presence or absence of a ligand within the nucleotide binding

pocket. We have also been able to show that the regulatory and essential light chains play a

significant role in determining the rigidity of the myosin lever arm.

Acknowledgment

I.N. acknowledges support from Foundation for Advanced Education in the Sciences and

from the National Institutes of Health.

154

XVII Conclusion

Cette étude comparative de trois structures de myosine II à différents moments du cycle acto-

myosine permet d’apporter quelques indices utiles à la compréhension du mécanisme de ce

moteur moléculaire.

D’une part, l’étude des modes normaux de la représentation granulaire des structures montrent

que le bras de levier est beaucoup plus mobile que le cœur de la tête, et en particulier que le

site de fixation de l’ATP. Cette remarque est vraie pour des structures du fragment S1 isolées

(en opposition à des fragments dans un réseau cristallographique où les cous sont en

interaction avec les autres structures ou reliés à la queue de la myosine). De même les boucles

situées en surface et particulièrement celles proches du site de fixation de l’actine (absente

dans toutes les structures) sont plutôt mobiles. Des différences sont toutefois observées pour

l’état détaché dont le bras de levier est proche d’un motif SH3 de la tête et dans lequel la

distance séparant l’hélice constituant le bras de levier du brin β dans la région dite « relay »

est plus grande que dans les autres structures. De plus, dans cette même structure, la région la

plus rigide se situe au niveau du site de fixation du nucléotide au lieu de se trouver au niveau

du lien dit « switch II » liant la région « relay » au site de fixation du nucléotide comme dans

les autres structures. Cela confirme le fait que les éléments structuraux constitutifs de l’état

détaché sont plus découplés que des autres états.

Le rôle des chaînes légères modifiant la flexibilité du bras de levier est confirmé par une

comparaison des facteurs de température du bras de levier calculés en présence ou absence

des chaînes légères. De même, les zones de la tête présentant une mobilité élevée sont

différents suivant que l’on considère ou non les chaînes légères dans le calcul.

D’autre part, la détermination de domaines structuraux par comparaison des matrices de

distance entre structures est compatible avec l’étude des modes normaux. La prise en compte

de ces domaines dans le calcul d’AMN donne en effet des résultats similaires à ceux présentés

précédemment. Les domaines définis dans notre étude sont plus fins que ceux couramment

employés pour décrire les têtes de myosines mais compatibles avec ces derniers. Ils

permettent de mettre en évidence des points de charnières comme la région dite « pliant

point » ou « kink » [Houdusse & Sweeney; 2001, Xiao, et al.; 2003] du bras de levier. En

155

regardant plus en détail la région de fixation du nucléotide, on remarque que l’hélice α

constituée des résidus 416 à 446 est divisée en deux blocs lorsqu’on compare la structure non

complexée aux autres structures dans lesquelles un nucléotide est lié au site enzymatique.

Ceci montre que cette hélice n’est pas rigide et se plie en son centre suivant l’absence ou la

présence d’un nucléotide.

L’étude présentée dans ce premier article montre une approche des propriétés mécaniques des

protéines par la comparaison de structures et le calculs de modes normaux. Nous allons

décrire dans la suite une autre approche des problèmes mécaniques des protéines.

157

Chapitre 7 Article : Propriétés mécaniques des

protéines à l’échelle du résidu et leur

utilisation pour définir des structurations en

domaines

158

XVIII Introduction

Dans cet article, nous présentons une méthode théorique pour tester les propriétés mécaniques

des protéines à l’échelle du résidu et son utilisation afin de définir des domaines structuraux

basés sur ces propriétés.

Les résidus d’une protéine sont sondés les uns après les autres en augmentant ou diminuant la

longueur moyenne reliant le carbone α du résidu sondé aux autres carbones α. La forme de la

surface énergétique le long de cette coordonnée autour de la position d’équilibre initiale est

quadratique (voir paragraphe XIII.3 page 100). On définit donc une constante de force qui

rend compte de la résistance du système à une telle contrainte (plus la constante est grande,

plus le système est résistant). L’ordre de grandeur de cette constante de force est le nN.Å-1

mais ses valeurs peuvent varier d’un facteur 50 suivant le résidu sondé. La réponse de la

protéine à la contrainte nous permet aussi de définir des domaines mécaniques en nous basant

sur le déplacement relatif des carbones α par rapport au carbone α testé (voir paragraphe

XIV.6 page 117). Une étude plus systématique de la position des résidus possédant une

grande constante de force nous a par ailleurs révélé que ceux-ci étaient situés aux interfaces

entre les domaines précedemment définis.

Deux modèles de représentation de protéines ont été testés : un modèle représentant tous les

atomes dans un champ de force défini par les paramètres parm99 d’AMBER en travaillant

avec les variables internes (voir la description du programme LIGAND paragraphe XI page

73 ) et un modèle granulaire modélisant les protéines sous la forme d’un réseau de ressorts

gaussiens entre les carbones α (voir la description du programme GNMlig paragraphe XII.7

page 90 ). Le modèle granulaire a l’avantage d’être très rapide et permet une étude

systématique ainsi que l’étude de système de taille importante.

L’exemple de la nucléase du staphylocoque est étudié avec ces deux approches et six autres

protéines, possédant entre 140 et 750 résidus, ont été étudiées avec la représentation

granulaire.

159

XIX Probing protein mechanics: Residue-level

properties and their use in defining domain structures

Isabelle Navizet, Fabien Cailliez and Richard Lavery

Soumis en février 2004 à Biophysical Journal

Abstract

It is becoming clear that, in addition to structural properties, the mechanical properties of

proteins can play an important role in their biological activity. It nevertheless remains difficult

to probe these properties experimentally. While single molecule experiments give access to

overall mechanical behavior, notably the impact of end-to-end stretching, it is currently

impossible to directly obtain data on more local properties. We propose a theoretical method

for probing the mechanical properties of protein structures at the single amino acid level. This

approach can be applied to both all-atom and simplified protein representations. The probing

leads to force constants for local deformations and to deformation vectors indicating the paths

of least mechanical resistance and also defining the mechanical coupling which exists

between residues. Results obtained for a variety of proteins show that the calculated force

constants vary over a wide range. An analysis of the induced deformations provides

information which is distinct from that obtained with measures of atomic fluctuations and is

more easily linked to residue-level properties than normal mode analyses or dynamic

trajectories. It is also shown that the data obtained from residue-level probing makes it

possible to define domains using this mechanical information.

Keywords: Molecular modeling, molecular dynamics, protein deformation, coarse-grained

models, dynamical domains

Introduction

AVERTISSEMENT

La version de cette thèse n’est pas la version complète de la thèse soutenue le 5 mars 2004. J’y ai enlevé l’article du chapitre 7 qui n’a pas encore été publié.

182

XX Conclusion

Cet article décrit une méthode que nous avons mise au point afin de tester les propriétés

mécaniques des structures protéiques à l’échelle du résidu. En appliquant une contrainte sur la

distance moyenne séparant un résidu i donné des autres résidus, la structure se déforme

donnant une information scalaire et une information vectorielle. L’information scalaire est

une constante de force informant sur la facilité avec laquelle le résidu i répond à une telle

contrainte. L’information vectorielle est la direction préférentielle de déplacement que choisit

le résidu i correspondant à la direction de plus faible résistance. La donnée des variations des

distances entre les carbones α pour satisfaire les contraintes permet de définir des domaines

structuraux. La combinaison de ces deux informations nous a de plus permis de remarquer

que les résidus les plus résistants sont situés à l’interface des domaines.

Nous avons utilisé cette méthode pour définir les domaines mécaniques de la nucléase du

staphylocoque avec une représentation tenant compte de tous les atomes et ceux de six autres

protéines en utilisant une représentation simplifiée ne tenant compte que des carbones α.

Il serait intéressant de regarder plus en détails les différents domaines obtenus. Ils peuvent en

effet sûrement expliquer des propriétés mécaniques liées aux informations structurelles et aux

mécanismes chimiques. De même, la comparaison de leur évolution le long d’un dépliement

et la comparaison de leur emplacement avec l’enchaînement du dépliement peut constituer

une étude intéressante en vue de mieux comprendre le dépliement et le repliement des

protéines.

183

Chapitre 8 Conclusion générale

Le travail de thèse qui vient d’être présenté a été effectué au sein de deux laboratoires :

l’étude des modes normaux et la détermination des domaines structuraux de la myosine ont

été développées au Laboratory of Experimental and Computational Biology, au National

Cancer Institute des NIH de Bethesda dans le Maryland (Etats-Unis) avec Robert L. Jernigan

et le développement des contraintes mécaniques et leur utilisation pour déterminer des

domaines mécaniques ont été effectués au Laboratoire de Biochimie Théorique à l’Institut de

Biologie Physico-Chimique à Paris (France) sous la direction de Richard Lavery.

L’étude des propriétés mécaniques des protéines a été abordée à différents niveaux de

représentation (atomiques ou granulaires) et sous plusieurs aspects.

Nous avons montré qu’une représentation très simplifié de la protéine comme appliquée dans

les programmes GNM et GNMlig permettait d’obtenir des résultats très intéressants avec des

calculs rapides et applicables sur de gros systèmes. L’analyse des résultats des études utilisant

cette représentation doit toutefois se limiter à des informations rudimentaires des propriétés.

En effet, le modèle granulaire gomme les informations sur les interactions chimiques entre

résidus et contraint l’étude de la structure autour de son état d’équilibre. Ainsi, l’étude du

dépliement d’une protéine sur un tel modèle se limite aux conformations proches de l’état

natif puisqu’elle ne permet pas à la structure de franchir des barrières d’énergie. Par contre, ce

modèle permet d’avoir accès aux facteurs de température par une étude des modes normaux

184

car ce sont les modes normaux les plus globaux qui contribuent majoritairement à leur calcul

théorique. Les facteurs de température, qu’on peut aussi obtenir expérimentalement si la

résolution de l’étude cristallographique est suffisamment bonne, sont liés à la compaction

locale autour des résidus étudiés.

Pour aborder une étude plus fine des liens entre structure et mécanique, nous avons défini un

indice permettant de caractériser l’élasticité d’un brin polypeptidique résidu par résidu. De

telles informations ne sont pas faciles à obtenir par l’analyse des trajectoires de dynamique

moléculaire ou par les calculs des modes normaux. La réponse d’une structure protéique à une

contrainte sur la moyenne des distances séparant un carbone Cα,i aux autres carbones α de la

structure permet de calculer une constante de force et révèle la direction de déplacement

montrant la plus faible résistance. La localisation des résidus les plus résistants et l’analyse

des déformations favorables sont des caractéristiques de la chaîne protéique étudiée. Il serait

intéressant de poursuivre cette recherche dans le cadre des études sur le rôle biologique des

résidus en question.

Une autre approche du problème mécanique que nous avons abordée est la délimitation de

domaines au sein des structures biologiques. La première méthode présentée est issue de la

comparaison entre structures d’une même protéine. Elle s’applique de façon naturelle dans le

cadre de notre étude de la myosine dont nous possédons plusieurs structures. Cette approche

simpliste est toutefois limitée à des études de structures très proches. Elle peut être utilisée par

exemple sur l’étude de structures obtenues par dynamique moléculaire, par l’étude des modes

normaux ou par des expériences de dépliement sous contrainte.

La deuxième méthode découle de la réponse aux contraintes mécaniques locales. La démarche

originale de détermination de domaines mécaniques est intéressante car, d’une part, elle est

intrinsèque à une structure donnée et ne nécessite pas de comparaison ni de superposition de

structures et, d’autre part, elle est liée à une information plus riche qu’une simple observation

de la structure. Il serait intéressant de comparer les domaines ainsi obtenus avec d’autres

méthodes. De même, un certain nombre de questions pourraient être abordées : Retrouve-t-on

les mêmes domaines mécaniques si on analyse deux structures différentes d’une même

protéine ? Les domaines mécaniques permettent-ils de prédire les réponses à une contrainte

mécanique globale dans l’étude du dépliement des protéines ? L’analyse de leur évolution lors

d’un dépliement ainsi que celle des constantes de force relatives à leur obtention donne-t-elle

des informations sur les parties les plus sensibles et les plus résistantes ?

185

Ainsi, les algorithmes que nous avons développés et dont nous avons présenté les premières

applications pourront dans l’avenir peut-être amener des éléments de réponses sur quelques

questions fondamentales comme le mécanisme de repliement des protéines. Mais on espère

aussi qu’ils permettront de donner des indications sur les caractéristiques mécaniques des sites

enzymatiques (notamment en comparant des enzymes dont le rôle des sites catalytiques a

divergé au cours de l’évolution tout en conservant la même localisation dans la structure

[Hasson, et al.; 1998]) et les surfaces d’interaction des protéines (observe-t-on des différences

de propriétés mécaniques au niveau des sites d’interaction ? Comment les propriétés

mécaniques d’une protéine au sein d’un complexe sont modifiées par rapport à celles de la

même protéine hors du complexe ?) ou les raisons mécaniques de la thermostabilité (quelle

différence observe-t-on entre les propriétés mécaniques des protéines thermophiles et de leurs

homologues mésophiles ?).

Le travail de recherche présenté dans ce mémoire de thèse correspond essentiellement au

développement des méthodes présentées. Seules quelques applications de ces méthodes

originales ont été abordées. Le champ d’application de ces méthodes est vaste car la

compréhension du comportement des protéines est encore très partielle et nous avons montré

que la modélisation moléculaire permet d’aller là où l’expérience ne peut pas encore fournir

les informations nécessaires.

187

BIBLIOGRAPHIE Alberts B., Bray D., Lewis J., Raff M., Roberts K. & Watson J. (1994) Molecular biology of

the cell. Garland Science, New York. Allemand J. F., Bensimon D., Lavery R. & Croquette V. (1998) Stretched and overwound

DNA forms a Pauling-like structure with exposed bases. Proc Natl Acad Sci U S A. 95(24): 14152-7.

Allen M. & Tildesley D. (1987) Computer simulations of liquids. Clarendon Press., Oxford. Alonso D. O. & Daggett V. (1995) Molecular dynamics simulations of protein unfolding and

limited refolding: characterization of partially unfolded states of ubiquitin in 60% methanol and in water. J Mol Biol. 247(3): 501-20.

Anfinsen C. B. & Scheraga H. A. (1975) Experimental and theoretical aspects of protein folding. Adv Protein Chem. 29: 205-300.

Atilgan A. R., Durell S. R., Jernigan R. L., Demirel M. C., Keskin O. & Bahar I. (2001) Anisotropy of fluctuation dynamics of proteins with an elastic network model. Biophys J. 80(1): 505-15.

Bahar I., Atilgan A. R., Demirel M. C. & Burack E. (1998) Vibrational Dynamics of Folded Proteins: Significance of Slow and Fast Motions in Relation to Function and Stability. Phys Rev Lett. 80: 2733-2736.

Bahar I., Atilgan A. R. & Erman B. (1997) Direct evaluation of thermal fluctuations in proteins using a single-parameter harmonic potential. Fold Des. 2(3): 173-81.

Bahar I., Erman B., Jernigan R. L., Atilgan A. R. & Covell D. G. (1999) Collective motions in HIV-1 reverse transcriptase: examination of flexibility and enzyme function. J Mol Biol. 285(3): 1023-37.

Bahar I. & Jernigan R. L. (1998) Vibrational dynamics of transfer RNAs: comparison of the free and synthetase-bound forms. J Mol Biol. 281(5): 871-84.

Bahar I. & Jernigan R. L. (1999) Cooperative fluctuations and subunit communication in tryptophan synthase. Biochemistry. 38(12): 3478-90.

Baker J. P. & Titus M. A. (1998) Myosins: matching functions with motors. Curr Opin Cell Biol. 10(1): 80-6.

Baldwin R. L. (1996) Why is protein folding so fast? Proc Natl Acad Sci U S A. 93(7): 2627-8.

Bashford D. & Case D. (2000) Generalized Born models of macromolecular solvation effects. Annu Rev Phys Chem. 51: 129-152.

Bastard K., Thureau A., Lavery R. & Prevost C. (2003) Docking macromolecules with flexible segments. J Comput Chem. 24(15): 1910-20.

Bensimon D. (1996) Force: a new structural control parameter? Structure. 4(8): 885-9. Berendsen H. J. C., Postma J. P. M., van Gunsteren W. F., DiNola A. & Haak J. R. (1984)

Molecular dynamics with coupling to an external bath. J. Chem. Phys. 81: 3684-3690. Berg J. S., Powell B. C. & Cheney R. E. (2001) A millennial myosin census. Mol Biol Cell.

12(4): 780-94. Berman H. M., Battistuz T., Bhat T. N., Bluhm W. F., Bourne P. E., Burkhardt K., Feng Z.,

Gilliland G. L., Iype L., Jain S., Fagan P., Marvin J., Padilla D., Ravichandran V., Schneider B., Thanki N., Weissig H., Westbrook J. D. & Zardecki C. (2002) The Protein Data Bank. Acta Crystallogr D Biol Crystallogr. 58(Pt 6 No 1): 899-907.

Berman H. M., Westbrook J., Feng Z., Gilliland G., Bhat T. N., Weissig H., Shindyalov I. N. & Bourne P. E. (2000) The Protein Data Bank. Nucleic Acids Res. 28(1): 235-42.

188

Bertucat G., Lavery R. & Prevost C. (1999) A molecular model for RecA-promoted strand exchange via parallel triple-stranded helices. Biophys J 77: 1562-76.

Bjorkman A. J. & Mowbray S. L. (1998) Multiple open forms of ribose-binding protein trace the path of its conformational change. J Mol Biol. 279(3): 651-64.

Block S. M. (1996) Fifty ways to love your lever: myosin motors. Cell. 87(2): 151-7. Bond C. J., Wong K. B., Clarke J., Fersht A. R. & Daggett V. (1997) Characterization of

residual structure in the thermally denatured state of barnase by simulation and experiment: description of the folding pathway. Proc Natl Acad Sci U S A. 94(25): 13409-13.

Bork P. (1992) Mobile modules and motifs. Curr Opin Struct Biol. 2: 413-421. Brockwell D. J., Beddard G. S., Clarkson J., Zinober R. C., Blake A. W., Trinick J., Olmsted

P. D., Smith D. A. & Radford S. E. (2002) The effect of core destabilization on the mechanical resistance of I27. Biophys J. 83(1): 458-72.

Brockwell D. J., Paci E., Zinober R. C., Beddard G. S., Olmsted P. D., Smith D. A., Perham R. N. & Radford S. E. (2003) Pulling geometry defines the mechanical resistance of a beta- sheet protein. Nature Structural Biology. 10(9): 731-737.

Bryant Z., Pande V. S. & Rokhsar D. S. (2000) Mechanical unfolding of a beta-hairpin using molecular dynamics. Biophysical Journal. 78(2): 584-589.

Bryant Z., Stone M. D., Gore J., Smith S. B., Cozzarelli N. R. & Bustamante C. (2003) Structural transitions and elasticity from torque measurements on DNA. Nature. 424(6946): 338-41.

Bustamante C., Bryant Z. & Smith S. B. (2003) Ten years of tension: single-molecule DNA mechanics. Nature. 421(6921): 423-7.

Carrion-Vazquez M., Li H., Lu H., Marszalek P. E., Oberhauser A. F. & Fernandez J. M. (2003) The mechanical stability of ubiquitin is linkage dependent. Nat Struct Biol. 10(9): 738-43.

Carrion-Vazquez M., Oberhauser A. F., Fowler S. B., Marszalek P. E., Broedel S. E., Clarke J. & Fernandez J. M. (1999) Mechanical and chemical unfolding of a single protein: a comparison. Proc Natl Acad Sci U S A. 96(7): 3694-9.

Carugo O. & Pongor S. (2002) Protein fold similarity estimated by a probabilistic approach based on C(alpha)-C(alpha) distance comparison. J Mol Biol. 315(4): 887-98.

Case D. A., Pearlman D. A., Caldwell J. W., Cheatham III T. E., Wang J., Ross W. S., Simmerling C. L., Darden T. A., Mer K. M., Stanton R. V., Cheng A. L., Vincent J. J., Crowley M., Tsui V., Gohlke H., Radmer R. J., Duan Y., Pitera J., Massova I., Seibel G. L., Singh U. C., Weimer P. K. & Kollman P. A. (2002) AMBER7.

Chakravarty S. & Varadarajan R. (2002) Elucidation of factors responsible for enhanced thermal stability of proteins: a structural genomics based study. Biochemistry. 41(25): 8152-61.

Chan H. S. & Dill K. A. (1998) Protein folding in the landscape perspective: chevron plots and non-Arrhenius kinetics. Proteins: Struct. Funct. Genet. 30(1): 2-33.

Chandon J. L. & Pinson S. (1981) Analyse typologique : théories et applications. Masson, Paris New York.

Chattopadhyaya R., Meador W. E., Means A. R. & Quiocho F. A. (1992) Calmodulin structure refined at 1.7 A resolution. J Mol Biol. 228(4): 1177-92.

Cheatham III T. E., Miller J. L., Fox T., Darden T. A. & Kollman P. A. (1995) Molecular Dynamics Simulation on Solvated Biomolecular Systems: The Particle Mesh Ewald Method Leads to Stable Trajectories of DNA, RNA and Proteins. J. Am. Chem. Soc. 117(14): 4193-4194.

189

Cheatham T. E., Miller J. L., Fox T., Darden T. A. & Kollman P. A. (1995) Molecular-Dynamics Simulations on Solvated Biomolecular Systems - the Particle Mesh Ewald Method Leads to Stable Trajectories of DNA, Rna, and Proteins. Journal of the American Chemical Society. 117(14): 4193-4194.

Chen J., Lu Z., Sakon J. & Stites W. E. (2000) Increasing the thermostability of staphylococcal nuclease: implications for the origin of protein thermostability. J Mol Biol. 303(2): 125-30.

Chen J. & Stites W. E. (2001) Packing is a key selection factor in the evolution of protein hydrophobic cores. Biochemistry. 40(50): 15280-9.

Chothia C. (1976) The nature of the accessible and buried surfaces in proteins. J Mol Biol. 105(1): 1-12.

Cluzel P., Lebrun A., Heller C., Lavery R., Viovy J. L., Chatenay D. & Caron F. (1996) DNA: an extensible molecule. Science. 271(5250): 792-4.

Cooper J. B., Khan G., Taylor G., Tickle I. J. & Blundell T. L. (1990) X-ray analyses of aspartic proteinases. II. Three-dimensional structure of the hexagonal crystal form of porcine pepsin at 2.3 A resolution. J Mol Biol. 214(1): 199-222.

Corey R. B. & Pauling L. (1953) Fundamental dimensions of polypeptide chains. Proc R Soc Lond B Biol Sci. 141(902): 10-20.

Cornell W. D., Cieplak P., Bayly C. I., Gould I. R., Merz K. M. J., Ferguson D. M., Spellmeyer D. C., Fox T., W. C. J. & Kollman P. A. (1995) A second generation force field for the simulation of proteins and nucleic acids. J. Am. Chem. Soc. 117(19): 5179-5197.

Cornell W. D., Cieplak P., Bayly C. I., Gould I. R., Merz K. M. J., Ferguson D. M., Spellmeyer D. C., Fox T., W. C. J. & Kollman P. A. (1996) A second generation force field for the simulation of proteins and nucleic acids, Additions & Correction. J. Am. Chem. Soc. 118(9): 2309-2309.

Crippen G. M. (1978) The tree structural organization of proteins. J Mol Biol. 126(3): 315-32. Daggett V. (2000) Long timescale simulations. Curr Opin Struct Biol. 10(2): 160-4. Daggett V. (2001) Molecular dynamics simulations of protein unfolding/folding. dans Protein

Structure, Stability, and Folding. ed. K. Murphy dans la série, Methods in molecular biology par J. Walker, Humana Press, 168, Totowa.

Daggett V. & Fersht A. (2003a) The present view of the mechanism of protein folding. Nat Rev Mol Cell Biol. 4(6): 497-502.

Daggett V. & Fersht A. R. (2003b) Is there a unifying mechanism for protein folding? Trends Biochem Sci. 28(1): 18-25.

Daggett V. & Levitt M. (1992) Molecular dynamics simulations of helix denaturation. J Mol Biol. 223(4): 1121-38.

Daggett V., Li A., Itzhaki L. S., Otzen D. E. & Fersht A. R. (1996) Structure of the transition state for folding of a protein derived from experiment and simulation. J Mol Biol. 257(2): 430-40.

Darden T., York D. & Pedersen L. (1993) Particle Mesh Ewald - an N.Log(N) Method for Ewald Sums in Large Systems. Journal of Chemical Physics. 98(12): 10089-10092.

Demirel M. C., Atilgan A. R., Jernigan R. L., Erman B. & Bahar I. (1998) Identification of kinetically hot residues in proteins. Protein Sci. 7(12): 2522-32.

Diday E., Lemaire J., Pouget J. & Testu F. (1982) Eléments d'analyse de données. Dunod, Paris.

Dill K. A. (1990) Dominant forces in protein folding. Biochemistry. 29(31): 7133-55. Dill K. A., Fiebig K. M. & Chan H. S. (1993) Cooperativity in protein-folding kinetics. Proc

Natl Acad Sci U S A. 90(5): 1942-6.

190

Dohoney K. M. & Gelles J. (2001) Chi-sequence recognition and DNA translocation by single RecBCD helicase/nuclease molecules. Nature. 409(6818): 370-4.

Dominguez R., Freyzon Y., Trybus K. M. & Cohen C. (1998) Crystal structure of a vertebrate smooth muscle myosin motor domain and its complex with the essential light chain: visualization of the pre-power stroke state. Cell. 94(5): 559-71.

Doruker P., Atilgan A. R. & Bahar I. (2000) Dynamics of proteins predicted by molecular dynamics simulations and analytical approaches: application to alpha-amylase inhibitor. Proteins. 40(3): 512-24.

Doruker P., Jernigan R. L. & Bahar I. (2002a) Dynamics of large proteins through hierarchical levels of coarse-grained structures. J Comput Chem. 23(1): 119-27.

Doruker P., Jernigan R. L., Navizet I. & Hernandez R. (2002b) Important fluctuation dynamics of large protein structures are preserved upon coarse-grained renormalization. Int J of Quantum Chem. 90(2): 822-837.

Duan Y. & Kollman P. A. (1998) Pathways to a protein folding intermediate observed in a 1-microsecond simulation in aqueous solution. Science. 282(5389): 740-4.

Eisenberg D. & McLachlan A. D. (1986) Solvation energy in protein folding and binding. Nature. 319(6050): 199-203.

Essevaz-Roulet B., Bockelmann U. & Heslot F. (1997) Mechanical separation of the complementary strands of DNA. Proc Natl Acad Sci U S A. 94(22): 11935-40.

Evans E. & Ritchie K. (1997) Dynamic strength of molecular adhesion bonds. Biophys J. 72(4): 1541-55.

Falicov A. & Cohen F. E. (1996) A surface of minimum area metric for the structural comparison of proteins. J Mol Biol. 258(5): 871-92.

Fersht A. R. & Daggett V. (2002) Protein folding and unfolding at atomic resolution. Cell. 108(4): 573-82.

Finkelstein A. V. (1997) Can protein unfolding simulate protein folding? Protein Eng. 10(8): 843-5.

Fisher T. E., Marszalek P. E. & Fernandez J. M. (2000) Stretching single molecules into novel conformations using the atomic force microscope. Nat Struct Biol. 7(9): 719-24.

Florin E. L., Moy V. T. & Gaub H. E. (1994) Adhesion forces between individual ligand-receptor pairs. Science. 264(5157): 415-7.

Flory P. J. (1969) Statistical mechanics of chain molecules. Interscience-Wiley Publishers, New York.

Freire E. (2001) The thermodynamic linkage between protein structure, stability and function. dans Protein Structure, Stability, and Folding. ed. K. Murphy dans la série, Methods in molecular biology par J. Walker, Humana Press, 168, Totowa.

Frenkel D. & Smit B. (2002) Understanding molecular simulation, from algorithms to applications. Academic press,

Frye K. J. & Royer C. A. (1998) Probing the contribution of internal cavities to the volume change of protein unfolding under pressure. Protein Sci. 7(10): 2217-22.

Gao M., Lu H. & Schulten K. (2001) Simulated refolding of stretched titin immunoglobulin domains. Biophys J. 81(4): 2268-77.

Gao M., Lu H. & Schulten K. (2002) Unfolding of titin domains studied by molecular dynamics simulations. J Muscle Res Cell Motil. 23(5-6): 513-21.

Geeves M. A. (1991) The dynamics of actin and myosin association and the crossbridge model of muscle contraction. Biochem J. 274 ( Pt 1): 1-14.

Gerstein M., Lesk A. M. & Chothia C. (1994) Structural mechanisms for domain movements in proteins. Biochemistry. 33(22): 6739-49.

191

Gilquin B., Guilbert C. & Perahia D. (2000) Unfolding of hen egg lysozyme by molecular dynamics simulations at 300K: insight into the role of the interdomain interface. Proteins. 41(1): 58-74.

Godzik A. (1996) The structural alignment between two proteins: is there a unique answer? Protein Sci. 5(7): 1325-38.

Grottesi A., Ceruso M. A., Colosimo A. & Di Nola A. (2002) Molecular dynamics study of a hyperthermophilic and a mesophilic rubredoxin. Proteins. 46(3): 287-94.

Gulick A. M., Bauer C. B., Thoden J. B., Pate E., Yount R. G. & Rayment I. (2000) X-ray structures of the Dictyostelium discoideum myosin motor domain with six non-nucleotide analogs. J Biol Chem. 275(1): 398-408.

Ha Duong T. & Zakrzewska K. (1997) Calculation and analysis of low frequency normal modes for DNA, Lab. de Biochimie Theor. Inst. de Biol. Physico-Chimique Paris France.

Haliloglu T. & Bahar I. (1999) Structure-based analysis of protein dynamics: comparison of theoretical results for hen lysozyme with X-ray diffraction and NMR relaxation data. Proteins. 37(4): 654-67.

Haliloglu T., Bahar I. & Erman B. (1997) Gaussian Dynamics of Folded Proteins. Phys Rev Lett. 79(16): 3090-3093.

Halle B. (2002) Flexibility and packing in proteins. Proc Natl Acad Sci U S A. 99(3): 1274-9. Harrison S. C. & Durbin R. (1985) Is there a single pathway for the folding of a polypeptide

chain? Proc Natl Acad Sci U S A. 82(12): 4028-30. Hasson M. S., Schlichting I., Moulai J., Taylor K., Barrett W., Kenyon G. L., Babbitt P. C.,

Gerlt J. A., Petsko G. A. & Ringe D. (1998) Evolution of an enzyme active site: the structure of a new crystal form of muconate lactonizing enzyme compared with mandelate racemase and enolase. Proc Natl Acad Sci U S A. 95(18): 10396-401.

Hawkins G. D., Cramer C. J. & Truhlar D. G. (1995) Pairwise solute screening of solute charges from a dielectric medium. Chem. Phys. Lett. 246: 122-129.

Hawkins G. D., Cramer C. J. & Truhlar D. G. (1996) Parameterized models of aqueous free energies of solvation based on pairwise descreening of solute atomic charges from a dielectric medium. J. Phys. Chem. 100: 19824-19839.

Hayward S., Kitao A. & Berendsen H. J. (1997) Model-free methods of analyzing domain motions in proteins from simulation: a comparison of normal mode analysis and molecular dynamics simulation of lysozyme. Proteins. 27(3): 425-37.

Himmel D. M., Gourinath S., Reshetnikova L., Shen Y., Szent-Gyorgyi A. G. & Cohen C. (2002) Crystallographic findings on the internally uncoupled and near-rigor states of myosin: further insights into the mechanics of the motor. Proc Natl Acad Sci U S A. 99(20): 12645-50.

Hinsen K. (1998) Analysis of domain motions by approximate normal mode calculations. Proteins. 33(3): 417-29.

Hinsen K., Thomas A. & Field M. J. (1999) Analysis of domain motions in large proteins. Proteins. 34(3): 369-82.

Hirakawa H., Muta S. & Kuhara S. (1999) The hydrophobic cores of proteins predicted by wavelet analysis. Bioinformatics. 15(2): 141-8.

Hirano S., Mihara K., Yamazaki Y., Kamikubo H., Imamoto Y. & Kataoka M. (2002) Role of C-terminal region of Staphylococcal nuclease for foldability, stability, and activity. Proteins. 49(2): 255-65.

Hodge T. & Cope M. J. (2000) A myosin family tree. J Cell Sci. 113 Pt 19: 3353-4. Holm L. & Sander C. (1993) Protein structure comparison by alignment of distance matrices.

J Mol Biol. 233(1): 123-38.

192

Holm L. & Sander C. (1994) Parser for protein folding units. Proteins. 19(3): 256-68. Holm L. & Sander C. (1997) Dali/FSSP classification of three-dimensional protein folds.

Nucleic Acids Res. 25(1): 231-4. Holmes K. C. & Geeves M. A. (2000) The structural basis of muscle contraction. Philos

Trans R Soc Lond B Biol Sci. 355(1396): 419-31. Honig B. (1999) Protein folding: from the levinthal paradox to structure prediction. J Mol

Biol. 293(2): 283-93. Houdusse A., Kalabokis V. N., Himmel D., Szent-Gyorgyi A. G. & Cohen C. (1999) Atomic

structure of scallop myosin subfragment S1 complexed with MgADP: a novel conformation of the myosin head. Cell. 97(4): 459-70.

Houdusse A. & Sweeney H. L. (2001) Myosin motors: missing structures and hidden springs. Curr Opin Struct Biol. 11(2): 182-94.

Houdusse A., Szent-Gyorgyi A. G. & Cohen C. (2000) Three conformational states of scallop myosin S1. Proc Natl Acad Sci U S A. 97(21): 11238-43.

Hubbard T. J., Murzin A. G., Brenner S. E. & Chothia C. (1997) SCOP: a structural classification of proteins database. Nucleic Acids Res. 25(1): 236-9.

Humphrey W., Dalke A. & Schulten K. (1996) VMD: visual molecular dynamics. J Mol Graph. 14(1): 33-8, 27-8.

Hunenberger P. H., Mark A. E. & van Gunsteren W. F. (1995) Computational approaches to study protein unfolding: hen egg white lysozyme as a case study. Proteins. 21(3): 196-213.

Idiris A., Alam M. T. & Ikai A. (2000) Spring mechanics of alpha-helical polypeptide. Protein Eng. 13(11): 763-70.

Ikura T., Tsurupa G. P. & Kuwajima K. (1997) Kinetic folding and cis/trans prolyl isomerization of staphylococcal nuclease. A study by stopped-flow absorption, stopped-flow circular dichroism, and molecular dynamics simulations. Biochemistry. 36(21): 6529-38.

Irving M. & Goldman Y. E. (1999) Motor proteins. Another step ahead for myosin. Nature. 398(6727): 463, 465.

Isin B., Doruker P. & Bahar I. (2002) Functional motions of influenza virus hemagglutinin: a structure-based analytical approach. Biophys J. 82(2): 569-81.

Itzhaki L. S., Neira J. L., Ruiz-Sanz J., de Prat Gay G. & Fersht A. R. (1995a) Search for nucleation sites in smaller fragments of chymotrypsin inhibitor 2. J Mol Biol. 254(2): 289-304.

Itzhaki L. S., Otzen D. E. & Fersht A. R. (1995b) The structure of the transition state for folding of chymotrypsin inhibitor 2 analysed by protein engineering methods: evidence for a nucleation-condensation mechanism for protein folding. J Mol Biol. 254(2): 260-88.

Izrailev S., Stepaniants S., Balsera M., Oono Y. & Schulten K. (1997) Molecular dynamics study of unbinding of the avidin-biotin complex. Biophys J. 72(4): 1568-81.

Janin J. & Chothia C. (1985) Domains in proteins: definitions, location, and structural principles. Methods Enzymol. 115: 420-30.

Jarvis R. A. & Patrick E. A. (1973) Clustering using a similarity measure based on shared near neighbours. IEEE Transactions in Computers. C-22: 1025-1034.

Jorgensen W. L., Chandrasekhar J., Madura J. D., Impey R. W. & Klein M. L. (1983) Comparison of Simple Potential Functions for Simulating Liquid Water. Journal of Chemical Physics. 79(2): 926-935.

Karplus M. & Weaver D. L. (1994) Protein folding dynamics: the diffusion-collision model and experimental data. Protein Sci. 3(4): 650-68.

193

Karplus P. A. (1996) Experimentally observed conformation-dependent geometry and hidden strain in proteins. Protein Sci. 5(7): 1406-20.

Kazmirski S. L. & Daggett V. (1998) Simulations of the structural and dynamical properties of denatured proteins: the "molten coil" state of bovine pancreatic trypsin inhibitor. J Mol Biol. 277(2): 487-506.

Kellermayer M. S., Smith S. B., Granzier H. L. & Bustamante C. (1997) Folding-unfolding transitions in single titin molecules characterized with laser tweezers. Science. 276(5315): 1112-6.

Keskin O., Bahar I., Flatow D., Covell D. G. & Jernigan R. L. (2002a) Molecular mechanisms of chaperonin GroEL-GroES function. Biochemistry. 41(2): 491-501.

Keskin O., Durell S. R., Bahar I., Jernigan R. L. & Covell D. G. (2002b) Relating molecular flexibility to function: a case study of tubulin. Biophys J. 83(2): 663-80.

Keskin O., Jernigan R. L. & Bahar I. (2000) Proteins with similar architecture exhibit similar large-scale dynamic behavior. Biophys J. 78(4): 2093-106.

Kitamura K., Tokunaga M., Iwane A. H. & Yanagida T. (1999) A single myosin head moves along an actin filament with regular steps of 5.3 nanometres. Nature. 397(6715): 129-34.

Koehl P. (2001) Protein structure similarities. Curr Opin Struct Biol. 11(3): 348-53. Korn E. D. (2000) Coevolution of head, neck, and tail domains of myosin heavy chains. Proc

Natl Acad Sci U S A. 97(23): 12559-64. Kundu S., Melton J. S., Sorensen D. C. & Phillips G. N., Jr. (2002) Dynamics of proteins in

crystals: comparison of experiment with simple models. Biophys J. 83(2): 723-32. Ladoux B., Quivy J. P., Doyle P. S., Almouzni G. & Viovy J. L. (2001) Direct imaging of

single-molecules: from dynamics of a single DNA chain to the study of complex DNA-protein interactions. Sci Prog. 84(Pt 4): 267-90.

Lavery R. & Lebrun A. (1999) Modelling DNA stretching for physics and biology. Genetica. 106(1-2): 75-84.

Lavery R., Lebrun A., Allemand J.-F., Bensimon D. & Croquette V. (2002) Structure and mechanics of single biomolecules: experiment and simulation. Journal of Physics-Condensed Matter 14: R383-R414.

Lavery R., Parker I. & Kendrick J. (1986a) A general approach to the optimization of the conformation of ring molecules with an application to valinomycin. J Biomol Struct Dyn. 4(3): 443-62.

Lavery R., Sklenar H., Zakrzewska K. & Pullman B. (1986b) The flexibility of the nucleic acids: (II). The calculation of internal energy and applications to mononucleotide repeat DNA. J Biomol Struct Dyn. 3(5): 989-1014.

Lavery R., Zakrzewska K. & Sklenar H. (1995) JUMNA: Junction Minimisation of Nucleic Acids. Computer Physics Communications. 91: 135-158.

Leach A. (2001) Molecular modelling principles and applications. Prentice hall., Lebrun A. & Lavery R. (1996) Modelling extreme stretching of DNA. Nucleic Acids Res.

24(12): 2260-7. Lebrun A. & Lavery R. (1998) Modeling the mechanics of a DNA oligomer. J Biomol Struct

Dyn. 16(3): 593-604. Lebrun A. & Lavery R. (1999) Modeling DNA deformations induced by minor groove

binding proteins. Biopolymers. 49(5): 341-53. Lebrun A., Shakked Z. & Lavery R. (1997) Local DNA stretching mimics the distortion

caused by the TATA box-binding protein. Proc Natl Acad Sci U S A. 94(7): 2993-8. Lesk A. M. (1998) Extraction of geometrically similar substructures: least-squares and

Chebyshev fitting and the difference distance matrix. Proteins. 33(3): 320-8.

194

Lesk A. M. & Chothia C. (1984) Mechanisms of domain closure in proteins. J Mol Biol. 174(1): 175-91.

Levinthal C. (1968) Are there pathways for protein folding ? J. Chem. Phys. 65: 44-45. Levitt M. & Gerstein M. (1998) A unified statistical framework for sequence comparison and

structure comparison. Proc Natl Acad Sci U S A. 95(11): 5913-20. Liphardt J., Onoa B., Smith S. B., Tinoco I. J. & Bustamante C. (2001) Reversible unfolding

of single RNA molecules by mechanical force. Science. 292(5517): 733-7. Lu H. & Schulten K. (2000) The key event in force-induced unfolding of Titin's

immunoglobulin domains. Biophys J. 79(1): 51-65. Marsh R. E. & Donohue J. (1967) Crystal structure studies of amino acids and peptides. Adv

Protein Chem. 22: 235-56. Masugata K., Ikai A. & Okazaki S. (2002) Molecular dynamics study of mechanical extension

of polyalanine by AFM cantilever. Applied Surface Science. 188(3-4): 372-376. Matouschek A. & Bustamante C. (2003) Finding a protein's Achilles heel. Nat Struct Biol.

10(9): 674-676. Mayor U., Guydosh N. R., Johnson C. M., Grossmann J. G., Sato S., Jas G. S., Freund S. M.,

Alonso D. O., Daggett V. & Fersht A. R. (2003) The complete folding pathway of a protein from nanoseconds to microseconds. Nature. 421(6925): 863-7.

Mayor U., Johnson C. M., Daggett V. & Fersht A. R. (2000) Protein folding and unfolding in microseconds to nanoseconds by experiment and simulation. Proc Natl Acad Sci U S A. 97(25): 13518-22.

Mendelson R. & Morris E. P. (1997) The structure of the acto-myosin subfragment 1 complex: results of searches using data from electron microscopy and x-ray crystallography. Proc Natl Acad Sci U S A. 94(16): 8533-8.

Meyer E., Cole G., Radhakrishnan R. & Epp O. (1988) Structure of native porcine pancreatic elastase at 1.65 A resolutions. Acta Crystallogr B. 44 ( Pt 1): 26-38.

Milner-White E. J. (1997) The partial charge of the nitrogen atom in peptide bonds. Protein Sci. 6(11): 2477-82.

Murphy K. (2001) Stabilization of protein structure. dans Protein Structure, Stability, and Folding. ed. K. Murphy dans la série, Methods in molecular biology par J. Walker, Humana Press, 168, Totowa.

Myers J. K., Pace C. N. & Scholtz J. M. (1995) Denaturant m values and heat capacity changes: relation to changes in accessible surface areas of protein unfolding. Protein Sci. 4(10): 2138-48.

Navizet I., Lavery R. & Jernigan R. L. (2004) Myosin flexibility: Structural domains and collective vibrations. Proteins: Structure, Function and Bioinformatics 54: 384-393.

Nichols W. L., Rose G. D., Ten Eyck L. F. & Zimm B. H. (1995) Rigid domains in proteins: an algorithmic approach to their identification. Proteins. 23(1): 38-48.

Orengo C. A., Pearl F. M. & Thornton J. M. (2003) The CATH domain structure database. Methods Biochem Anal. 44: 249-71.

Paci E. & Karplus M. (1999) Forced unfolding of fibronectin type 3 modules: an analysis by biased molecular dynamics simulations. J Mol Biol. 288(3): 441-59.

Paci E., Smith L. J., Dobson C. M. & Karplus M. (2001) Exploration of partially unfolded states of human alpha-lactalbumin by molecular dynamics simulation. J Mol Biol. 306(2): 329-47.

Pande V. S., Grosberg A., Tanaka T. & Rokhsar D. S. (1998) Pathways for protein folding: is a new view needed? Curr Opin Struct Biol. 8(1): 68-79.

Pauling L. & Corey R. B. (1953) Stable configurations of polypeptide chains. Proc R Soc Lond B Biol Sci. 141(902): 21-33.

195

Pearl F. M., Bennett C. F., Bray J. E., Harrison A. P., Martin N., Shepherd A., Sillitoe I., Thornton J. & Orengo C. A. (2003) The CATH database: an extended protein family resource for structural and functional genomics. Nucleic Acids Res. 31(1): 452-5.

Pearlman D. A., Case D. A., Caldwell J. W., Ross W. S., Cheatham III T. E., DeBolt S., Ferguson D., Seibel G. L. & Kollman P. A. (1995) AMBER, a package of computer programs for applying molecular mechanics, normal mode analysis, molecular dynamics and free energy calculations to simulate the structural and energetic properties of molecules. Comp. Phys. Commun. 91: 1-41.

Perrett S. & Zhou J. M. (2002) Expanding the pressure technique: insights into protein folding from combined use of pressure and chemical denaturants. Biochim Biophys Acta. 1595(1-2): 210-23.

Phelan P., Gorfe A. A., Jelesarov I., Marti D. N., Warwicker J. & Bosshard H. R. (2002) Salt bridges destabilize a leucine zipper designed for maximized ion pairing between helices. Biochemistry. 41(9): 2998-3008.

Plaxco K. W. & Dobson C. M. (1996) Time-resolved biophysical methods in the study of protein folding. Curr Opin Struct Biol. 6(5): 630-6.

Ptitsyn O. B. (1991) How does protein synthesis give rise to the 3D-structure? FEBS Lett. 285(2): 176-81.

Radford S. E. (2000) Protein folding: progress made and promises ahead. Trends Biochem Sci. 25(12): 611-8.

Ramachandran G. N. & Ramakrishnan C. (1963) Stereochemistry of polypeptide chain configurations. J Mol Biol. 7: 95-99.

Ramachandran G. N. & Sasisekharan V. (1968) Conformation of polypeptides and proteins. Adv Protein Chem. 23: 283-438.

Ramakrishnan C. (2001) In memoriam: Professor G.N. Ramachandran (1922-2001). Protein Sci. 10(8): 1689-91.

Rayment I. (1996) The structural basis of the myosin ATPase activity. J Biol Chem. 271(27): 15850-3.

Rayment I., Holden H. M., Whittaker M., Yohn C. B., Lorenz M., Holmes K. C. & Milligan R. A. (1993a) Structure of the actin-myosin complex and its implications for muscle contraction. Science. 261(5117): 58-65.

Rayment I., Rypniewski W. R., Schmidt-Base K., Smith R., Tomchick D. R., Benning M. M., Winkelmann D. A., Wesenberg G. & Holden H. M. (1993b) Three-dimensional structure of myosin subfragment-1: a molecular motor. Science. 261(5117): 50-8.

Richardson J. S. (1981) The anatomy and taxonomy of protein structure. Adv Protein Chem. 34: 167-339.

Rief M., Gautel M., Oesterhelt F., Fernandez J. M. & Gaub H. E. (1997a) Reversible unfolding of individual titin immunoglobulin domains by AFM. Science. 276(5315): 1109-12.

Rief M., Oesterhelt F., Heymann B. & Gaub H. E. (1997b) Single molecule force spectroscopy on polysaccharides by atomic force microscopy. Science. 275(5304): 1295-7.

Robbins A. H. & Stout C. D. (1989) Structure of activated aconitase: formation of the [4Fe-4S] cluster in the crystal. Proc Natl Acad Sci U S A. 86(10): 3639-43.

Rogen P. & Fain B. (2003) Automatic classification of protein structure by using Gauss integrals. Proc Natl Acad Sci U S A. 100(1): 119-24.

Rohs R., Etchebest C. & Lavery R. (1999) Unraveling proteins: a molecular mechanics study. Biophys J. 76(5): 2760-8.

196

Ryckaert J. P., Ciccotti G. & Berendsen H. J. C. (1977) Numerical Integration of the Cartesian equations of motion of a system with constraints: Molecular dynamics of n-alkanes. J. Comp. Phys. 23: 327-341.

Schliwa M. & Woehlke G. (2003) Molecular motors. Nature. 422(6933): 759-65. Schneider T. R. (2000) Objective comparison of protein structures: error-scaled difference

distance matrices. Acta Crystallogr D Biol Crystallogr. 56 ( Pt 6): 714-21. Siddiqui A. S. & Barton G. J. (1995) Continuous and discontinuous domains: an algorithm for

the automatic generation of reliable protein domain definitions. Protein Sci. 4(5): 872-84.

Siddiqui A. S., Dengler U. & Barton G. J. (2001) 3Dee: a database of protein structural domains. Bioinformatics. 17(2): 200-1.

Smith D. A., Brockwell D. J., Zinober R. C., Blake A. W., Beddard G. S., Olmsted P. D. & Radford S. E. (2003) Unfolding dynamics of proteins under applied force. Philos Transact Ser A Math Phys Eng Sci. 361(1805): 713-28; discussion 728-30.

Smith S. B., Cui Y. & Bustamante C. (1996) Overstretching B-DNA: the elastic response of individual double-stranded and single-stranded DNA molecules. Science. 271(5250): 795-9.

Socci N. D., Onuchic J. N. & Wolynes P. G. (1998) Protein folding mechanisms and the multidimensional folding funnel. Proteins Struct. Funct. Genet. 32(2): 136-58.

Sowdhamini R. & Blundell T. L. (1995) An automatic method involving cluster analysis of secondary structures for the identification of domains in proteins. Protein Sci. 4(3): 506-20.

Spudich J. A. (2001) The myosin swinging cross-bridge model. Nat Rev Mol Cell Biol. 2(5): 387-92.

Sundaralingam M. & Sekharudu Y. C. (1989) Water-inserted alpha-helical segments implicate reverse turns as folding intermediates. Science. 244(4910): 1333-7.

Swindells M. B. (1995) A procedure for the automatic determination of hydrophobic cores in protein structures. Protein Sci. 4(1): 93-102.

Tajkhorshid E., Aksimentiev A., Balabin I., Gao M., Isralewitz B., Phillips J. C., Zhu F. & Schulten K. (2003) Large scale simulation of protein mechanics and function. Adv Protein Chem. 66: 195-247.

Tama F., Gadea F. X., Marques O. & Sanejouand Y. H. (2000) Building-block approach for determining low-frequency normal modes of macromolecules. Proteins. 41(1): 1-7.

Tama F. & Sanejouand Y. H. (2001) Conformational change of proteins arising from normal mode calculations. Protein Eng. 14(1): 1-6.

Taylor W. R. & Orengo C. A. (1989) Protein structure alignment. J Mol Biol. 208(1): 1-22. Thomas A., Hinsen K., Field M. J. & Perahia D. (1999) Tertiary and quaternary

conformational changes in aspartate transcarbamylase: a normal mode study. Proteins. 34(1): 96-112.

Tirion M. M. (1996) Large amplitude elastic motions in proteins from a single-parameter, atomic analysis. Physical Review Letters. 77(9): 1905-1908.

Tirion M. M. & ben-Avraham D. (1993) Normal mode analysis of G-actin. J Mol Biol. 230(1): 186-95.

Tskhovrebova L., Trinick J., Sleep J. A. & Simmons R. M. (1997) Elasticity and unfolding of single molecules of the giant muscle protein titin. Nature. 387(6630): 308-12.

Tsui V. & Case D. A. (2000) Theory and applications of the generalized Born solvation model in macromolecular Simulations. Biopolymers. 56(4): 275-291.

197

Uyeda T. Q., Abramson P. D. & Spudich J. A. (1996) The neck region of the myosin motor domain acts as a lever arm to generate movement. Proc Natl Acad Sci U S A. 93(9): 4459-64.

van Meerssche M. & Feneau-Dupont J. (1984) Introduction à la cristallographie et à la chimie structurale. Peeters, Paris.

Verlet L. (1967) Computer experiments on classical fluids. I. Thermodynamical properties of Lennard-Jones molecules. Phys. Rev. 159: 98-103.

Vinayagam A., Shi J., Pugalenthi G., Meenakshi B., Blundell T. L. & Sowdhamini R. (2003) DDBASE2.0: updated domain database with improved identification of structural domains. Bioinformatics. 19(14): 1760-4.

Volkmann N. & Hanein D. (2000) Actomyosin: law and order in motility. Curr Opin Cell Biol. 12(1): 26-34.

Wang J., Cieplak P. & Kollman P. A. (2000) How well does a restrained electrostatic potential (RESP) model perform in calculating conformational energies of organic and biological molecules? J. Comput. Chem. 21(12): 1049-1074.

Wang J., Truckses D. M., Abildgaard F., Dzakula Z., Zolnai Z. & Markley J. L. (1997) Solution structures of staphylococcal nuclease from multidimensional, multinuclear NMR: nuclease-H124L and its ternary complex with Ca2+ and thymidine-3',5'-bisphosphate. J Biomol NMR. 10(2): 143-64.

Ward J. H. (1963) Hierarchical grouping to optimise an objective function. American Statistical Association Journal. 236-244.

Washizu M. (1990) Manipulation of DNA in Microfabricated Structures. IEEE Transactions on Industry Applications. 26: 1165-1172.

Wernisch L., Hunting M. & Wodak S. J. (1999) Identification of structural domains in proteins by a graph heuristic. Proteins. 35(3): 338-52.

Wetlaufer D. B. (1973) Nucleation, rapid folding, and globular intrachain regions in proteins. Proc Natl Acad Sci U S A. 70(3): 697-701.

Williams P. M., Fowler S. B., Best R. B., Toca-Herrera J. L., Scott K. A., Steward A. & Clarke J. (2003) Hidden complexity in the mechanical properties of titin. Nature. 422(6930): 446-9.

Wolynes P. G., Onuchic J. N. & Thirumalai D. (1995) Navigating the folding routes. Science. 267(5204): 1619-20.

Wriggers W. & Schulten K. (1997) Protein domain movements: detection of rigid domains and visualization of hinges in comparisons of atomic coordinates. Proteins. 29(1): 1-14.

Xia B., Tsui V., Case D. A., Dyson H. J. & Wright P. E. (2002) Comparison of protein solution structures refined by molecular dynamics simulation in vacuum, with a generalized Born model, and with explicit water. J Biomol NMR. 22(4): 317-31.

Xiao M., Reifenberger J. G., Wells A. L., Baldacchino C., Chen L. Q., Ge P., Sweeney H. L. & Selvin P. R. (2003) An actin-dependent conformational change in myosin. Nat Struct Biol. 10(5): 402-8.

Xu C., Tobi D. & Bahar I. (2003) Allosteric changes in protein structure computed by a simple mechanical model: hemoglobin T<-->R2 transition. J Mol Biol. 333(1): 153-68.

Xu Y., Xu D. & Gabow H. N. (2000) Protein domain decomposition using a graph-theoretic approach. Bioinformatics. 16(12): 1091-104.

Yanagida T., Esaki S., Iwane A. H., Inoue Y., Ishijima A., Kitamura K., Tanaka H. & Tokunaga M. (2000a) Single-motor mechanics and models of the myosin motor. Philos Trans R Soc Lond B Biol Sci. 355(1396): 441-7.

198

Yanagida T., Kitamura K., Tanaka H., Hikikoshi Iwane A. & Esaki S. (2000b) Single molecule analysis of the actomyosin motor. Curr Opin Cell Biol. 12(1): 20-5.

Yanagida T. & Iwane A. H. (2000c) A large step for myosin. Proc Natl Acad Sci U S A. 97(17): 9357-9.

Yang J., Dokurno P., Tonks N. K. & Barford D. (2001) Crystal structure of the M-fragment of alpha-catenin: implications for modulation of cell adhesion. Embo J. 20(14): 3645-56.

199

ANNEXE 1 : Contraintes mécaniques

I Contraintes globales Nous avons programmé d’autres contraintes que celle sur la RMS de distance décrite dans le

chapitre XIII.2 page 93. Nous ne présentons dans cette annexe que les équations qui ont été

utilisées dans les programmes . LIGAND et GNMlig

Rayon de giration Le rayon de giration est défini de la manière suivante :

2,

2

d

jiij

N

drg

∑=

La somme se fait sur les Nd couples (i,j) où i et j sont les carbones α de la protéine.

L'énergie de contrainte associée est 2*)( rgrgkEpen −×= avec rg* la valeur du rayon de

giration que l’on veut atteindre.

La force exercée le long d’une coordonnée xi du carbone Cα,j due à la contrainte est l’opposé

de la dérivée de cette énergie par rapport à cette coordonnée et est donnée par la formule

suivante :

∑≠

−××

−××−=

N

jiij

dj xx

rgN

rgrgkx )(

)(2)F( 2

*

200

RMS angulaire Au lieu de contraindre les distances, on peut contraindre les angles de torsion. Ce genre de

contrainte est logique pour une description en coordonnées internes des structures comme

celle utilisée dans LIGAND.

On définit la RMS de torsion de la manière suivante :

N

frms

N

ii∑

== 1)(τ

avec N le nombre de torsions et la fonction f égale au carré de la différence (comprise entre

-180° et 180°) entre l’angle de torsion τi et sa valeur τi0 dans la structure de référence.

Travailler sur les angles exige de faire attention à deux choses. D’une part, les angles sont

définis modulo 360°, les différences d’angles doivent donc toutes êtres comprises dans

l’intervalle [-180°,180°] (Nous avons choisi de prendre les valeurs angulaires entre -180° et

180°.). D’autre part, les énergies de contrainte doivent être continues et de dérivées continues,

notamment lorsque les valeurs des angles passent de –180° à 180°. La fonction f est donc

définie par morceaux de manière à ce qu’elle soit continue et que sa dérivée soit continue :

On prend pour d(τi) la valeur de l’angle différence τi- τi0 comprise entre –180° et 180°.

lim180limd

da −−= , lim180

lim360ddb −

×= , lim180lim180 2

dd

c −×−

= avec dlim, une valeur d’angle limite proche de

180° (par exemple 179°) (au delà de laquelle f n’est plus égale au carré de la différence

d’angle).

L'énergie de contrainte associée est 2*)( rmsrmskEp −×= avec rms* la valeur de la fonction

RMS angulaire souhaitée.

f(τi)=d(τi)2 si d(τi)∈[-dlim,dlim]

f(τi)=a d(τi)2 + b d(τi ) + c si d(τi)∈[dlim,180]

f(τi)= a d(τi)2 - b d(τi) + c si d(τi)∈[-180,-dlim]

201

L’opposé de la dérivée de cette énergie par rapport à un angle τj donne la force exercée sur cet

angle due à la contrainte en torsion et est donnée par la formule suivante :

)(')(

)F(*

jj frmsNrmsrmsk

ττ ××−×−

=

On passe à la force sur chaque atome grâce à un sous-programme (subroutine deltor) inclus

dans LIGAND.

Nous avons également programmé une autre contrainte de torsion ne tenant compte que des

carbones α. On définit alors des angles de torsion entre carbones α comme les angles formés

par les deux plans ABC et BCD des carbones α des résidus consécutifs A, B, C et D. τi est

alors l’angle de torsion entre quatre carbones α. Cette contrainte permet de faire des

comparaisons entre les programmes LIGAND et GNMlig.

II Contraintes locales

Contrainte locale « tirer-pousser » par rapport au centre de

masse On oblige le carbone Cα,i d’un résidu i particulier à se déplacer sur la droite le reliant au

centre de masse de tous les carbones α de la protéine.

L’énergie de contrainte appliquée s’exprime alors suivant l’équation :

2)( *ii rrkpE −×=

où ri est la distance entre le centre de masse et Cα,i et ri* est la valeur de cette distance que l’on

veut atteindre.

La force dérivant de ce potentiel s’écrit pour la composante xj du carbone Cα,j de la façon

suivante :

202

)()(2)F(*

cmii

iij xxrN

rrkx −××−××= si j≠i

et pour Cα,i :

)()1()(2)F(*

cmii

iii xxNrN

rrkx −×−××−××=

N est le nombre de résidus de la protéine et xcm est la composante cartésienne du centre de

masse.

Contrainte locale « tirer-pousser » le long des axes principaux

de la protéine Définition des axes principaux

Les axes principaux sont les directions dont les vecteurs directeurs sont les vecteurs propres

du tenseur central d’inertie IG :

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡

−−−−−−

=zzyzxz

yzyyxy

xzxyxx

G

IIIIIIIII

I avec ∑ +=i

iiixx zymI )( 22 et ∑=i

iiixy yxmI

Les sommes sont calculées sur les atomes pris en compte (ici les Cα) de masse mi (mi peut

être mis en facteur dans le cas d’atomes identiques) et de coordonnées (xi, yi, zi) dans un

repère cartésien de centre G, le centre de masse de ces atomes.

On peut donc définir pour n’importe quel ensemble de points trois axes principaux passant par

le centre de masse et de vecteurs directeurs définis comme ci-dessus.

Contrainte

La variable contrainte est la longueur de la projection du vecteur reliant le centre de masse au

carbone α du résidu i sur l’axe principal j. Pour chaque résidu, on peut imposer des

contraintes le long de trois directions privilégiées de la protéine.

Les notations sont explicités dans le schéma suivant (figure 67) :

203

figure 67 : Définition de la contrainte suivant les axes principaux : u1, u2 et u3 sont les trois

axes principaux, CM est le centre de masse, Cα,i est le carbone α du résidu i et l est la

longueur de la projection du vecteur i,C-CM α sur l’axe principal 1.

L’énergie de pénalité pour une contrainte suivant l’axe principal j est donnée par la formule

suivante : 2)( *ii llkpE −×= avec li la longueur de la projection du vecteur i,C-CM α sur l’axe

principal j étudié et li* la longueur imposée.

j

iji u

rul r

rr .=

La dérivée de l’énergie de pénalité doit donc prendre en compte la dérivée du vecteur unitaire

de l’axe j ainsi que celle de la position du centre de masse.

Contrainte locale « tirer-pousser » le long des axes structuraux Définition des axes structuraux

On définit les axes dits structuraux pour chacun des résidus (figure 68). L'axe 1 du résidu i est

l'axe passant par le centre de masse de vecteur directeur le vecteur normé reliant le carbone α

du résidu (i-1) et le carbone α du résidu (i+1). Le vecteur directeur de l'axe 2 est le vecteur

l

Cα,i

CM

u1

u2

u3

irr

204

perpendiculaire à celui de l'axe 1 dans le plan des carbones (Cαi, Cαi+1, Cαi-1). Le troisième axe

possède comme vecteur directeur le produit vectoriel des deux premiers de façon à former une

base orthonormée. D’après cette définition, les axes structuraux des résidus qui sont aux

extrémités de la chaîne ne sont pas définis car il n’ont pas deux voisins. On ne peut donc pas

appliquer cette contrainte sur les deux extrémités de la protéine.

figure 68 : Définition des axes structuraux u1, u2 et u3 associés au Cα,i. r est la projection du

vecteur reliant le centre de masse des Cα (CM) au carbone Cαi sur le vecteur structural u2.

Contrainte

La norme r de la projection du vecteur reliant le centre de masse des carbones α et le centre

du carbone α du résidu i étudié sur un des vecteurs structuraux de i (ou sur une combinaison

des trois vecteurs structuraux de i) est contrainte à une valeur r*.

L’énergie correspondante est donnée par l’équation : 2)( *rrkEpen −×=

A chaque cycle de la minimisation, les vecteurs structuraux et la norme de la projection du

vecteur i,C-CM α sont recalculés. La dérivée par rapport à une coordonnée d’un carbone α est

déterminée en calculant les dérivés de la position du centre de masse et des vecteurs

structuraux.

i

i+1

i-1

u1

u2

u3 irr

r

CM

205

ANNEXE 2 : Important Fluctuation Dynamics of Large

Protein Structures are Preserved upon Coarse-Grained

Renormalization

Introduction

L’article ci-dessous présente deux alternatives au programme ANM.

La première est basée sur le regroupement des carbones α consécutifs afin d’avoir une

représentation granulaire plus grossière que dans le programme ANM classique.

Contrairement à l’approche ANM classique dont chaque nœud du réseau représente un

carbone α, chaque nœud représente alors le groupement de n carbones α consécutifs en

« segment ». Le seuil de coupure pour déterminer l’emplacement des ressorts doit être plus

grand que le rayon de giration de chaque segment. Par analogie avec ANM, le seuil rc doit

être pris égal à deux fois le rayon moyen de giration d’un segment plus une distance de

contacte invariante R0 typiquement prise égale à 13 Å. En étudiant trois très grosses protéines

(la β-galactosidase, la xanthine hydrogénase et l’hémagglutinine), nous montrons que le

comportement du rayon de giration moyen en fonction de n est similaire jusqu’à des segments

de 40 résidus et que le rayon de giration des segments dans les protéines globulaires est

nettement plus petit que celui d’un modèle de polypeptide de n résidus.

La comparaison des courbes donnant les facteurs de température obtenus avec des nœuds tous

les résidus ou tous les 10 résidus le long de la chaîne montre que plus le modèle est simplifié,

plus la courbe est lissée mais que l’allure de la courbe reste similaire. Il en est de même pour

les modes normaux de plus grande amplitude qui sont retrouvés avec des segment de 10

résidus.

206

L’autre approche est une approche fondée sur le regroupement des carbones α en domaines

structuraux déterminés par la comparaison de deux structures comme présentée dans le

premier article page 135. Un premier résultat sur la myosine est présenté.

Alors que la plupart des études des protéines se focalisent sur les sites fonctionnels en

ignorant le reste de la protéine, nous montrons que les mouvements fonctionnels impliquent

l’ensemble de la structure protéique et qu’il n’y a pas besoin d’avoir des données

cristallographiques de très haute résolution pour obtenir les mouvements globaux les plus

importants.

Important Fluctuation Dynamics ofLarge Protein Structures Are Preservedupon Coarse-Grained Renormalization∗

PEMRA DORUKER,1,2 ROBERT L. JERNIGAN,2 ISABELLE NAVIZET,2,3

RIGOBERTO HERNANDEZ4

1Chemical Engineering Department and Polymer Research Center, Bogazici University,Bebek 80815, Istanbul, Turkey2Molecular Structure Section, Laboratory of Experimental and Computational Biology,Center for Cancer Research, National Cancer Institute, National Institutes of Health,Bethesda, Maryland 20892-56773Institut de Biologie Physico-Chimique, 75005 Paris, France4Center for Computational Molecular Science and Technology, School of Chemistryand Biochemistry, Georgia Institute of Technology, Atlanta, Georgia 30332-0400

Received 2 October 2001; revised 14 January 2002; accepted 25 January 2002

DOI 10.1002/qua.955

ABSTRACT: The fluctuations and important motions of three largeproteins—hemaglutinin, xanthine dehydrogenase, and β-galactosidase—have beenconsidered with a range of models having various levels of detail to represent thestructures. Because the slowest modes of motion are the largest contributors to the totalmotions, and because these motions depend mainly on the shapes of the structures ratherthan their details, it is possible to replace the real structures with significantly fewer pointsand still retain the essential features of the structure for these modes of motion. We obtainexcellent results, both for the magnitudes of the individual motions as well as for themolecular changes occurring during these motions. Similar results are obtained withanother completely different approach where the coarse graining is based on invariantregions of structure found by comparing two structures of the same protein, given asan example here for myosin. Results confirm the important coupling of local functionalmotions with the large-scale motions, implying important functional roles for the entireprotein structure. © 2002 Wiley Periodicals, Inc. Int J Quantum Chem 90: 822–837, 2002

Key words: Gaussian network model; anisotropic fluctuations; vibration dynamics;collective motions; hemagglutinin; xanthine dehyrogenase; β-galactosidase; myosin

∗Dedicated to the memory of Per-Olov Löwdin.Correspondence to: R. L. Jernigan; e-mail: jernigan@lmmb.

nci.nih.gov.Contract grant sponsor: National Science Foundation.Contract grant number: NSF 97-03372.

International Journal of Quantum Chemistry, Vol. 90, 822–837 (2002)© 2002 Wiley Periodicals, Inc.

207

FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES

Introduction

R ecently we and others have developed a me-chanics approach for studying the motions of

proteins [1 – 14] to obtain the equilibrium fluctua-tions near an initial structure. The initial structurehas usually been determined by crystallography,but other experimental methods, or even modeledstructures, could be utilized instead. The underlyingassumption in the method is that the starting struc-ture is the minimum energy structure in a local—ifnot global—minimum. All fluctuations about thisform are presumed to be higher in energy, propor-tional to their mean-square displacements, i.e., theenergy form is Gaussian. Within the structure, allclose-lying residues (as defined by a cutoff radius)are restrained by an effective spring with a uni-versal force constant and are said to be in contact.Residues nearest in sequence are not distinguishedbecause they necessarily fall within the cutoff ra-dius. The close-lying residue pairs are utilized toform a contact matrix that makes explicit referenceto these restraining springs. Because of the simpleGaussian form of the energy, the dynamics can beintegrated directly to obtain the mean-square fluctu-ations of positions, as well as the correlations of thedisplacements of residue pairs. The required com-putation is simply the inversion of the contact ma-trix. This method was initially developed to obtainscalar displacements, but it was readily apparentthat the directions of displacement are also impor-tant. Recently a three-dimensional version [11] ofthis approach was developed, and it yields the cor-relations in the directions of the displacements, withthe attendant computational cost from tripling eachdimension of the contact matrix.

When structures are coarse-grained at the levelof one point per residue, excellent agreement of thisapproach with experiments has been demonstratedfor several proteins with respect to the crystallo-graphic temperature factors [3, 4, 6, 8, 10, 13], aswell as with nuclear magnetic resonance (NMR) or-der parameters [5] and hydrogen exchange data [1].The computed results reveal that the most impor-tant motions are those typically involving largedomains such as hinge motions. In addition manyother large-scale motions are typically observed,e.g., rotation, stretching, shear, disintegration, andflap motions. Individual residue displacements are

observed primarily as components of the motionsof these subdomains. Moreover, the relative con-tributions of the modes involving the largest-scalemotions to the observables are significantly largerthan that of those modes at the other end of thespectrum, which involve only extremely local mo-tions.

Interestingly, relatively few short-range contactsgive rise to the large displacements of other residuesby acting as the foci of the motions, such as thehinge foci. These largest-scale motions primarily re-flect the shape of the protein rather than detailsof its internal structure. Some examples we haveobserved are: thin regions of structure that act ashinge sites, large interior cavities that undergo com-pression, and small numbers of contacts at subunitinterfaces that support interfacial motions such aswobble and counterrotation of two subunits. Sincethese small numbers of residues involved in themost important motions do not involve the inter-nal structure of the peptide chain, it suggests thatcoarse graining of the protein structures may readilybe performed. We have recently applied this coarsegraining, by retaining only 1 of every 40 residues, tohaemagglutinin [12], where we have shown that it ispossible to reproduce about 73% of the total proteinmotions. This initial coarse-grained application hasraised many issues regarding this procedure. Whatis the optimal way to perform the coarse graining?In the model, there are only two adjustable parame-ters, a spring constant and a cutoff distance. Howshould these be modified or scaled for the coarse-graining renormalization? It is also important tounderstand how the distance cutoff, determiningthe spring contacts, scales with the coarse graining,as well as how the spring constant itself ought to bescaled. This work represents a first attempt at an-swering these questions.

PROTEINS

We have chosen three large proteins to considerin this study, namely β-galactosidase [15] (GAL),xanthine dehyrogenase [16] (XDH), and hemag-glutinin [17, 18] (HA), with corresponding pdbfile names 1DPO, 1FO4, and 2HMG. The numberof residues and number of atoms in the crystalstructures in each monomer are, respectively, 1011,8125; 1299, 10077; and 503, 3957. See Figure 1 forviews of these structures. The structural and func-tional details of these proteins are summarized be-low, although in this study we will not discuss

INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY 823

208

DORUKER ET AL.

FIGURE 1. Ribbon diagrams of β-galactosidase (right), xanthine dehydrogenase (middle), and influenzavirus hemagglutinin (left).

the structure–function relationships of these pro-teins.

The X-ray structure of Escherichia coli β-galac-tosidase determined by Juers and co-workers [15]at 1.7 Å resolution is shown in the left part ofFigure 1. This enzyme hydrolyzes lactose and otherβ-galactosides into monosaccharides. The func-tional form is a tetramer having 4 identical subunits,with each monomer comprising 1023 residues. Thesubunits are assembled into a prolate ellipsoidalstructure with approximate dimensions of 175 Å ×135 Å × 90 Å.

The crystal structure of the dimeric bovine milkxanthine dehyrogenase, displayed in the middlepart of Figure 1, has been determined to 2.1 Å res-olution [16]. The enzyme catalyzes the hydroxyladdition of hypoxanthine and xanthine, whichare the two last steps in the formation of urate.Each monomer has 1332 residues conformed intoa butterfly-shaped dimeric enzyme with overall di-mensions of approximately 155 Å × 90 Å × 70 Å.

The influenza virus hemagglutinin is an inte-gral membrane glycoprotein, which is involved inthe binding of virus to target cells and in the fu-sion of viral and endosomal membranes at low pH.

The X-ray structure of the neutral pH form of HAhas been determined [17] and refined [18] by Wi-ley and co-workers to a resolution of 3 Å and isshown in the right part of Figure 1. HA, comprising1509 residues, is a cylindrically shaped homo-trimerabout 135 Å long, varying between 35 and 70 Åin the radial directions. Each monomer consists of2 polypeptides chains: HA1 (328 residues) and HA2(175 residues) that are linked by 2 disulfide bonds.The 3 monomers are assembled into a central coiledcoil that forms the stemlike domain, and the 3 glob-ular heads containing the receptor binding sites.Each globular head folds into a jelly-roll motif of8 antiparallel β-strands.

Methods

The coarse graining of structure involves replac-ing groups of individual points with single points toyield a less detailed structure. This operation resem-bles the development of an equivalent chain modelfor polymers, where multiple repeat units of a poly-mer are coarse-grained into a single unit so as toimitate the behavior of one link of a model chain.

824 VOL. 90, NO. 2

209


For example, several real bonds of polyethylene,because of their additive flexibility, are equivalentto the enhanced flexibility of a single link in thefreely jointed chain model [19]. Such equivalent rep-resentations have often been utilized in polymerstudies [19]. Applying this concept to the singlefixed configurations of segments of a protein is notquite the same physical situation as in a polymericrandom coil, since the conformations of the individ-ual segments vary from one to another and cannotuniformly benefit from averaging over conforma-tions, as is the case with polymer models. This iswhy it is important to see how variable these seg-ments’ conformations actually are. In what follows,we first outline the anisotropic network model de-veloped earlier to capture the essential dynamicsabout the initial (equilibrium) structure and subse-quently analyze the degree to which it is invariantto various coarse-graining strategies.

ANISOTROPIC NETWORK MODEL (ANM)

This is a model for protein motions developed asa three-dimensional extension of the Gaussian net-work model (GNM). It incorporates the anisotropyof fluctuations and yields the directions of eachmode of motion; whereas the GNM assumes all fluc-tuations to be isotropic and gives only the magni-tudes of the modes of motion. The potential energyof a structure having N interaction sites is expressedwith ANM as a Gaussian form:

V = γ

2RTH R, (1)

where R is a 3N-dimensional vector of the fluc-tuations Ri in the position vectors Ri of all sites(1 ≤ i ≤ N), RT being its transpose, and H theHessian matrix composed based upon the secondderivatives of the potential:

V = γ

2

∑i

∑j

h(rc − Rij)(Rj − Ri)2. (2)

The summations will be performed over all in-teraction sites, h(x) is the Heaviside step function[h(x) = 1 if x ≥ 0, and zero otherwise], Rij is thedistance between sites i and j, and rc is the cutoffdistance defining the interactions; H is expressed asa function of N2 submatrices Hij in the form

Hij =

∂2V/∂Xi∂Xj ∂2V/∂Xi∂Yj ∂2V/∂Xi∂Zj

∂2V/∂Yi∂Xj ∂2V/∂Yi∂Yj ∂2V/∂Yi∂Zj

∂2V/∂Zi∂Xj ∂2V/∂Zi∂Yj ∂2V/∂Zi∂Zj

,

(3)

with Xi, Yi, and Zi being the components of Ri.Note that ∂2V/∂Xi∂Yj = −∂2V/∂Xj∂Yi = −γ (Xj −Xi)(Yj − Yi)/R2

ij for i = j, and ∂2V/∂Xi∂Yi =γ

∑j(Xj − Xi)(Yj − Yi)/R2

ij.In general the correlations between the fluctua-

tions at sites i and j are given by

〈Ri · Rj〉= 1

Z

∫(Ri · Rj) exp−V/kT dR

= 3kBTγ

tr[H−1]

ij , (4)

where k is the Boltzmann constant, Z is the con-figurational partition function, and tr [H−1]ij is thetrace of the ijth submatrix [H−1]ij of H−1; 〈Ri ·Rj〉can be expressed as a sum over the contributions[Ri ·Rj]k of the 3N − 6 individual internal fluctu-ation modes, as 〈Ri · Rj〉 = ∑

k[Ri · Rj]k. Thecontribution of the kth mode is explicitly given by

[Ri ·Rj]k = 3kTγ

tr[λ−1

k ukuTk

]ij, (5)

where λk is the kth nonzero eigenvalue of H and uk isthe corresponding eigenvector. The eigenvalues arerelated to the frequencies of individual modes, andthe eigenvectors describe its effect on the positionsof the N points of the structure. The eigenvaluesare usually organized in ascending order (after re-moving the six zero eigenvalues), so that λ1 denotesthe lowest frequency, also called the global, modeof motion, and [Ri · Rj]1 is the correlation forthis mode of motion separately. Actually here weuse only the individual residue mean-square (ms)fluctuations for the position at site i for mode k,[(Ri)2]k. Note that zero values can arise eitherfrom being uncorrelated or being perpendicular.The slowest modes usually dominate the collectivedynamics of the structure and would be the onlysurviving modes at long times, thus they are partic-ularly relevant to biological function, unless othereffects such as anharmonicity interfere.

COARSE GRAINING OF THE ANM

Here we take N to be the number of residues inthe total structure (protein), s the number of coarse-grained segments, and n the number of residues inone coarse-grained segment, so that

N = sn. (6)

The cutoff distance rc defining interactions (springs)needs to be sufficiently large to include the s


210

DORUKER ET AL.

FIGURE 2. (a) Radius of gyration of chain segments inthe folded proteins GAL, XDH, and HA. (b) comparisonof the radius of gyration of chain segments in randomcoil polypeptides and folded proteins, where valuesgiven on the lower curve are average values for the threeproteins, with the bars showing the standard deviations.

residues in each of the n segments. For this purposewe compute RG the radius of gyration for each ofthe segments in the three proteins. See Figure 2(a)for segments up to 140 residues in length. Becauseof the finite size of the proteins, the values con-

verge to a clear limit. This behavior is reminiscentof the behavior of flexible polymer chains of dif-ferent lengths. Despite the heterogeneity in eachof the segments (or links), the three proteins be-have similarly up to the coarse-graining level of40 residues.

RADIUS OF GYRATION OFFOLDED CHAIN SEGMENTS

A point of comparison for the RG values of theprotein segment size is found in the RG values of therandom coil model for homopolymers consistingof N peptide units [20, 21]. The average dimension,expressed as the characteristic ratio, from an av-erage of several experiments, for several differentpolypeptides having β carbons, is

⟨r2⟩/NL2 = 9, (7)

where r is the end-to-end distance, and L is the vir-tual bond length. For a long Gaussian chain, theradius of gyration is related to the mean square ofthe end-to-end distance by

⟨R2

G

⟩ = 16

⟨r2⟩. (8)

Thus

RG/√

NL2 = 1.225, (9)

where, as before, N is the number of residues and Lis the virtual bond length.

In Figure 2(b), the random coil limit for RG ap-pears as the smooth upper curve. As might be ex-pected, all of the protein segments are more compactthan the random coil peptide. The bars show therange of individual values for segments of differentsizes, all of which are significantly more compactthan the random polypeptide case.

It would be interesting to learn the origin of thevariations in the RG values for a fixed size segment.Are the locally compact segments determined bytheir own sequences or by more global considera-tions? Do the segments with the lowest RG valuesinclude glycines, which could facilitate turns, or dothey have more hydrophobic residues on average,which could contribute to collapsed forms? Or arethere other composition effects?

In order to further coarse-grain folded proteins,it is helpful to know how the overall dimensionsof the chain segments in folded proteins change asa function of segment length. This will indicate howthe cutoff radius in the ANM calculations should be

826 VOL. 90, NO. 2

211


adjusted for further coarse graining along the back-bone of the protein.

For the three proteins that are considered in thisstudy, we calculate the mean-square radius of gy-ration, 〈R2

G〉, for segments of various lengths. Thiscalculation is carried out separately for the 6, 2,and 4 chains that make up HA, XDH, and GAL,respectively. And the average is calculated by mov-ing the starting point of each segment along thechain backbone one by one toward the end of thechain. Therefore, for a single chain composed of Nc

residues, the radius of gyration is averaged over(Nc − n + 1) frames for a segment of length n.

In Figure 2(a), the radius of gyration, RG, is plot-ted as a function of segment length for the threeproteins. The behavior is similar up to n = 40,presumably reflecting the average behavior of pep-tides. For n > 40, differences begin to be manifestedwhich occur because of the differences in the overallsizes and shapes of proteins.

For n < 40, the data can be fit with the form

RG = anb. (10)

These parameter values are found to be a = 1.778and b = 0.595 from a fit to the average over the threelog–log plots of RG vs. n for HA, XDH, and GAL.The n = 1 limit of Eq. (10) corresponds to a sin-gle monomer whose radius of gyration must be a,suggesting that the average bond length is approx-imately equal to 2a (= 3.556 Å), which is in closeconsistency with the virtual bond length betweensequential α-carbon atoms of 3.8 Å.

In Figure 2(b), the lower curve gives the radius ofgyration averaged over all segments of a given sizein the three folded proteins (HA, XDH, and GAL),and the error bars are shown for some representa-tive values of n. Here, the standard deviation fora specific value of n has been calculated over theframes of all possible segments in the three pro-teins. The dashed curve in the same figure givesthe RG of unfolded segments of length n, as pre-dicted by the model for polyalanine developed byFlory [21].

In earlier work, a cutoff radius of 13 Å wasfound to be suitable for ANM calculations, in whichall α-carbon atoms in the protein structure wereretained [11]. In the current study, as we furthercoarse-grain the structures, we recognize that therenormalized sites are interacting at longer rangesbecause their effective sizes have grown. The cutoff

TABLE IDetails of coarse graining.

s, Number of segmentsSegment Cutoff radiusa

length n rc (Å) GAL XDH HA

1 13.0 4044 2587 15092 18.4 2024 1294 7565 22.3 812 518 303

10 27.0 408 260 15320 34.1 204 130 7830 39.9 136 88 5140 44.9 104 66 4280 61.2 52 34 24

a Cutoff radius is calculated according to rc = 2RG + 13 Å,where RG is found from Eq. (10).

radius should thus equal the sum of the renormal-ized radii of each site plus the invariant contactdistance R0 between the sites, i.e.,

rc = 2RG + R0, (11)

where RG is obtained according to Eq. (10) withthe parameters found above. To be consistent withour earlier work, R0 should be set to a valueof (13 Å − 2a), but for simplicity, in what followswe have used the value of 13 Å instead. Thischoice leads to little change in the results since theyare only modestly dependent on R0, while beingstrongly dependent on the growth of RG with N. Re-sults for the three illustrative proteins of this studyare shown in Table I.

Results and Discussion

X-RAY CRYSTALLOGRAPHICTEMPERATURE FACTORS

The relationship between an individual residue’sfluctuations and its temperature factor is

Bi = (8π2/3

)⟨R2

i

⟩. (12)

In Figure 3, these experimental temperature factorsmeasured by X-ray crystallography (solid curves)are compared to those predicted by the ANM(dashed curves). For each of the three proteins,each monomer exhibits practically the same behav-ior both in experiment and calculation. Therefore,the fluctuations of residues are presented as av-erages over all monomers. The overall agreementis excellent as has often been observed with thismodel.


212

DORUKER ET AL.

FIGURE 3. Comparison of temperature factors from X-ray crystallography and those calculated with ANM calculationsfor (a) β-galactosidase, (b) xanthine dehydrogenase, and (c) hemagglutinin.

828 VOL. 90, NO. 2

213


TABLE IIForce constants γ for coarse-grainedANM calculations.

n GAL XDH HA

1 — 0.688 0.8902 0.874 0.496 0.6445 1.442 0.758 1.176

10 1.768 0.953 1.64120 2.009 1.048 1.87630 2.571 1.390 1.90940 2.333 0.901 1.65480 1.971 1.139 1.457

Once the cutoff radius for the interactions isfixed, the force constant γ is the only remainingparameter in the calculations. In turn its value isfixed by requiring a match between the average val-ues of the mean-square fluctuations predicted byANM and the experimental B factors. In Figure 3,such adjustments were made in order to comparethe experimental and theoretical results. The exper-imental B factor, Bn of a coarse-grained segmentcomposed of n residues is calculated as the averageof the B factors of its n constituent residues. Andthe force constant is extracted by a comparison ofthe coarse-grained B factors with the mean-squarefluctuations calculated with ANM. Table II givesthe force constant values. As our previous experi-ence with a large number of proteins has indicated,γ varies among proteins by no more than a factorof 2. However, as the coarse graining is applied,the force constants become stronger monotonically,upon passing from the scaling at n = 2 to n = 30.

Parenthetically, it should be noted that in thecase of β-galactosidase [Fig. 3(a)], only an N/2 cal-culation was carried out instead of an all-residuecalculation because of the large size of this pro-tein (4044 residues in total). Although an n = 1calculation is feasible, this has not been executedhere. And the experimental B factors, for com-parison, were averaged over neighboring pairs ofresidues.

COMPARISON OF ANM RESULTS AT DIFFERENTLEVELS OF COARSE GRAINING

B Factors

Figure 4(a) compares the temperature factorsfrom coarse-grained calculations N/2 and N/10

for GAL. Higher levels of coarse graining lead tosmoother curves, but the basic structure of the peaksis readily apparent at the level of N/10 calculations.Figure 4(b) shows the calculated B factors at thesame N/10 level for xanthine dehydrogenase. Fromthese results it is clear that the essential structure offluctuations is retained after the coarse graining.

First Mode

The slowest mode shapes obtained with N/2and N/10 calculations are displayed in Figure 5(a)for GAL. There is a remarkable match between thecurves, which have been normalized to match thescales. Figure 5(b) shows a comparison of the Nand N/10 calculations for hemagglutinin. Clearly,the general features of the first mode shape areobtained. As a result of these comparisons, it is evi-dent that the functionally important collective modeshapes can still be reproduced quite well at higherlevels of coarse-graining.

Eigenvalues

Figure 6 compares the weighted contributionof each mode to the mean-square fluctuations atthe different levels of coarse graining employedfor GAL, XDH, and HA. The modes are sortedand indexed starting from the slowest mode havingthe largest contribution and running up to higherfrequencies. In order to capture the same collec-tive modes at higher levels of coarse graining, thefractional contributions at the low-frequency endof the spectrum need to be similar. And thisis ex-actly what we observe in these logarithmic plots.In Table III, the cumulative contributions of thefirst three modes are listed. As the level of coarsegraining increases, the cumulative contribution ofslowest modes increases because there are fewermodes at the high-frequency end of the distribu-tion. Yet the fractional contributions of the collectivemodes appear to be comparable after renormaliza-tion.

Mechanisms of Motion

In Figure 7the two extreme positions for thefirst two slowest modes of β-galactosidase areshown at two different levels of coarse grain-ing, N/2 and N/10. It is amply clear from thesefigures that the same motions occur, despite thecoarse graining. The first mode is for bendingat the “waist” of the protein, and the second isa stretching–compression type of motion that we


214

DORUKER ET AL.

FIGURE 4. Comparison of temperature factors predicted by ANM at different levels of coarse graining for(a) β-galactosidase and (b) xanthine dehydrogenase.

have often observed in asymmetric elongated pro-tein structures.

The correlations computed between the motionswith the coarser-grained models and with the singleresidue–single point results are high. For hemagglu-tinin (see Table IV) it can be seen that, whereas thetotal motions are not so well represented (at the 49%level for the 1 out of every 40 models), the represen-tations of the first, slowest mode remain above 90%for even the 1 out of every 40-residue model. Thus

the coarse-grained results are most viable for mo-tions having the largest displacements.

Structure-Based Coarse Graining

Finally we consider a completely structure-basedapproach, which requires multiple structures tospecify which parts of the structure are to be coarse-grained. The parts of the two structures having thesmallest differences are identified directly to deter-

830 VOL. 90, NO. 2

215


FIGURE 5. Slowest mode shapes predicted by ANM at different levels of coarse graining for (a) β-galactosidaseand (b) hemagglutinin.

mine the blocks to be coarse-grained. Then, withinthese most constant blocks, the spring constants areincreased to prevent intrablock motions. Anotherway of implementing this approach would be totreat these fixed blocks as “fat” rigid elements in-cluding many more than usual contacts with theother individual residues. This approach is appliedhere for demonstration purposes to two structuresof myosin (pdb names 1B7T [22] and 1DFL [23]).

The blocks defined by this approach are shownin Figure 8 within which the changes in distanceshave been limited to a maximum of 0.1 Å. The in-variant regions are identified in different colors inFigure 8, with the few remaining residues not in-cluded within the rigid blocks are shown in gray.Importantly this approach yields nearly identicalcomputed temperature factors, to those computedwith the individual one point per residue model (see


216

DORUKER ET AL.

FIG

UR

E6.

Con

trib

utio

nsof

the

mod

esat

diffe

rent

leve

lsof

coar

segr

aini

ngfo

r(a

)β-g

alac

tosi

dase

,(b)

xant

hine

dehy

drog

enas

e,an

d(c

)he

mag

glut

inin

.A

llpl

ots

log–

log

plot

sto

emph

asiz

eth

aton

lyth

elo

wes

tind

exed

mod

esar

esi

gnifi

cant

cont

ribut

ors

toth

eov

eral

lmot

ions

.Als

ono

tabl

eis

the

exte

ntag

reem

enti

nth

edo

min

antm

ode

cont

ribut

ions

betw

een

the

mod

els,

rega

rdle

ssof

the

leve

lofc

oars

egr

aini

ng.

832 VOL. 90, NO. 2

217


TABLE IIITotal fractional contribution of the slowest threemodes to the mean-square fluctuations.

n GAL XDH HA

1 0.112 0.1452 0.084 0.123 0.1425 0.113 0.137 0.209

10 0.138 0.169 0.26220 0.146 0.206 0.27940 0.279 0.191 0.313

Fig. 9). Consequently, this model represents an alter-native coarse-grained model that has its basis in twodifferent structures. It is noteworthy that the mostrigid regions of the structure are clearly clusteredwithin these local domains.

Discussion

One of the most important findings from thesetypes of computations is the occurrence of func-tional “local motions” not independently but withinone of the slowest most important motions. Ex-amples that we have previously observed includeflaps opening and closing over small molecule bind-

(a)

FIGURE 7. First (a), (b) and second (c), (d) modes of motion for β-galactosidase at N/2 (a), (c) and N/10 (b),(d) levels of coarse graining. Note that in parts (a) and (c) only half of the α-carbon positions are shown (and used)and in parts (b) and (d) only 1 out of every 10 residue is shown (and used in the computations). The first mode isa bending of the molecule along its activating interface, and the second mode is a stretching–compression type ofmotion. Loops often are opened and closed during these large-scale motions. This can be seen most clearly at thetop and bottom of the structure in the stretching–compression mode of motion.


218

DORUKER ET AL.

FIGURE 7. (Continued.)

834 VOL. 90, NO. 2

219


(d)

FIGURE 7. (Continued.)

ing sites. These motions do not occur locally andindependently but rather together with a highly co-ordinated motion of the entire protein. This typeof motion can be clearly seen in Figure 7(b) wherethe flaps at the top and bottom of the structureopen upon compression and close upon stretching,whereas opposite behavior can be observed for sur-face flaps in the center of the structure.

TABLE IVCorrelations at different levels of coarse graining.

All Firstmodes (HA) mode (HA)

N/2 0.93 1.00N/10 0.73 0.99N/20 0.53 0.96N/40 0.49 0.91

Two alternative approaches for coarse graininghave been presented, one based on scaling the sizeof the cutoff distance based on the average di-mensions of protein segments and the other moreempirically based on actual changes between twoexperimental structures.

In many protein studies there has been a focuson functional sites while the remainder of the pro-tein structure has been substantially ignored. Thepresent work emphasizes that there is a truly impor-tant role for the entire protein in controlling thesecritical functional motions. In our view, the raisond’être for protein structure is that a fold pattern leadsto its shape, which in turn controls the importantfunctional motions of the protein. It is furthermoreimportant that it be possible to substantially ig-nore the details of the structure in extracting theselargest-scale motions. A secondary implication isthat high-resolution structures may not be requiredin order to infer the important motions of proteins.


220

DORUKER ET AL.

FIGURE 8. Ribbon diagram of the myosin headstructure [22] 1B7T. Residues in the same block areshown in the same color. The few residues in grayare those not included in any blocks.

ACKNOWLEDGMENTS

R.H. is supported through the National Sci-ence Foundation (Grant No. NSF 97-03372) andis presently an Alfred P. Sloan Fellow and Re-search Corporation Cottrell Scholar. P.D. is partiallysupported by the Bogazici Research Fund (project01HA501), and she thanks O.T. Turget for helpfuloccasions.

References

1. Bahar, I.; Wallqvist, A.; Covell, D. G.; Jernigan, R. L. Bio-chemistry 1998, 37, 1067–1075.

2. Demirel, M. C.; Atilgan, A. R.; Jernigan, R. L.; Erman, B.;Bahar, I. Protein Sci 1998, 7, 2522–2532.

3. Bahar, I.; Jernigan, R. L. J Mol Biol 1998, 281, 871–884; Ba-har, I.; Atilgan, A. R.; Erman, B. Folding Des 1997, 2, 173–181.

4. Bahar, I.; Erman, B.; Jernigan, R. L.; Covell, D. G. J Mol Biol1999, 285, 1023–1037.

5. Haliloglu, T.; Bahar, I. Proteins 1999, 37, 654–667.6. Bahar, I.; Jernigan, R. L. Biochemistry 1999, 38, 3478–3490.7. Jernigan, R. L.; Demirel, M. C.; Bahar, I. Int J Quantum Chem

(B. Pullman Memorial Volume) 1999, 75, 301–312.8. Keskin, O.; Jernigan, R. L.; Bahar, I. Biophys J 2000, 78, 2093–

2106.9. Jernigan, R. L.; Bahar, I.; Covell, D. G.; Atilgan, A. R.; Er-

man, B.; Flatow, D. T. J Biomol Struct Dyn, Conversation 11,Issue 1, 2000, 49–55.

10. Keskin, O.; Bahar, I.; Jernigan, R. L. Biochemistry, to appear.11. Atilgan, A. R.; Durell, S. R.; Jernigan, R. L.; Demirel, M. C.;

Keskin, O.; Bahar, I. Biophys J 2001, 80, 505–515.12. Doruker, P.; Jernigan, R. L.; Bahar, I. J Comput Chem 2002,

23, 119–127.

FIGURE 9. Comparison of temperature factors of myosin predicted from calculations taking into accountthe blocks (solid) and the full non-coarse-grained single-residue calculations (dashed).

836 VOL. 90, NO. 2

221


13. Doruker, P.; Atilgan, A. R.; Bahar, I. Proteins 2000, 40, 512–524.

14. Tama, F.; Gadea, F. X.; Marques, O.; Sanejouand, Y.-H. Pro-teins 2000, 41, 1–7.

15. Juers, D. H.; Jacobson, R. J.; Wigley, D.; Zhang, D.-J.; Huber,R. E.; Tronrud, D. E.; Matthews, B. W. Protein Sci 2000, 9,1685–1699.

16. Enroth, C.; Eger, B. T.; Okamoto, K.; Nishino, T.; Nishino, T.;Pai, E. F. Proc Natl Acad Sci USA 2000, 97, 10723–10728.

17. Wilson, I. A.; Skehel, J. J.; Wiley, D. C. Nature 1981, 289, 366–373.

18. Weis, W. I.; Brünger, A. T.; Skehel, J. J.; Wiley, D. C. J Mol Biol1990, 212, 737–761.

19. Flory, P. J. Statistical Mechanics of Chain Molecules; Inter-science: New York, 1969; Vol. 12, pp. 326–328.

20. Brant, D. A.; Flory, P. J. J Am Chem Soc 1964, 87, 2788–2800.21. Flory, P. J. Statistical Mechanics of Chain Molecules; Inter-

science: New York, 1969; p. 277.22. Houdusse, A.; Kalabokis, V. N.; Himmel, D.; Szent-Gyorgyi,

A. G.; Cohen, C. Cell 1999, 97, 459–470.23. Houdusse, A.; Szent-Gyorgyi, A. G.; Cohen, C. Proc Natl

Acad Sci USA 2000, 97, 11238–11243.


222

modélisation et analyse des propriétés mécaniques des protéines

Documents

Transcript of modélisation et analyse des propriétés mécaniques des protéines