modélisation et analyse des propriétés mécaniques des protéines
Transcript of modélisation et analyse des propriétés mécaniques des protéines
1
THÈSE DE DOCTORAT DE L’UNIVERSITÉ PARIS 6
PIERRE & MARIE CURIE
Ecole doctorale CHIMIE PHYSIQUE ET CHIMIE ANALYTIQUE DE PARIS CENTRE
Spécialité :
CHIMIE (Matière Condensée)
Présentée par :
Isabelle SOURY-LAVERGNE NAVIZET
Pour obtenir le grade de DOCTEUR de l’UNIVERSITÉ PARIS 6
MODÉLISATION ET ANALYSE DES PROPRIÉTÉS
MÉCANIQUES DES PROTÉINES
Soutenue le 5 mars 2004
devant le jury composé de :
Richard LAVERY ……………..Directeur de thèse
Monique GENEST……………..Rapporteur
David PERAHIA……………….Rapporteur
Christian AMATORE…………..Président
Anne HOUDUSSE……………..Examinateur
Jean-Marc VICTOR…………….Examinateur
AVERTISSEMENT
La version de cette thèse n’est pas la version complète de la thèse soutenue le 5 mars 2004. J’y ai enlevé l’article du chapitre 7 qui n’a pas encore été publié.
3
À Damien et Léonard.
4
5
REMERCIEMENTS Le présent travail a été réalisé au Laboratory of Experimental and Computational Biology, au National Cancer Institute des NIH de Bethesda aux États-Unis et au Laboratoire de Biochimie Théorique à l’Institut de Biologie Physico-Chimique à Paris. Je souhaite remercier tout particulièrement Richard Lavery qui a accepté de diriger cette thèse et m’a permis de partir un an travailler avec Robert Jernigan. Je tiens à lui témoigner ici toute ma reconnaissance pour m’avoir acceuillie dans son laboratoire et pour m’avoir accordé sa confiance dans la réalisation de ce travail. Je le remercie sincèrement d’avoir inspiré cette thèse avec enthousiasme. I would like to thank Robert Jernigan for accepting to have me as his first PhD student and for his kindness. Je voudrais exprimer ma profonde reconnaissance à Christian Amatore pour le soutient qu’il m’a témoigné tout au long de cette thèse et pour l’honneur qu’il me fait de présider le jury de thèse. Je remercie Monique Genest et David Perahia d’avoir aimablement accepté d’être les rapporteurs de cette thèse. Merci également à Anne Houdusse et Jean-Marc Victor, qui ont bien voulu examiner mon travail. Un merci tout particulier à Fabien Cailliez qui a su reprendre si vite la relève et à Chantal Prévost pour les longues discussions et les conseils en programmation. J’adresse également mes plus vifs remerciements à Marc Baaden, Philippe Derreumaux, Brigitte Hartmann, Anne Lebrun, Thérèse Malliavin, Alexey Mazur, Sophie Sacquin-Mora, Youri Timsit, Peter Varnai et Krystyna Zakrzewska, pour leur disponibilité, leurs conseils et les nombreuses discussions qui m’ont aidé tout au long de ces années. Merci à Daniel Piazzola pour sa bonne humeur et son assistance technologique qui ont contribué à la réussite de ce travail. Merci à Isabelle Lépine pour sa gentillesse et sa disponibilité en toutes circonstances. Merci à tous les étudiants en thèse rencontrés au Laboratoire de Biochimie théorique : Guillaume, Raphael, Ingrid, Emmanuel, Dragana, Guillaume, Cyril, Karine, Cyril et Fabien pour leur amitié et les pauses déjeuner. I am also grateful to all other scientists at the National Cancer Institute for their help and interesting discussions: particularly Pemra Doruker, Peter Greif, Ozlem Keskin, Ruth Nussinov, Yinon Shafrir, Michael Tolstorukov and Victor Zhurkin. Merci à Alain, Damien et Fabien pour la relecture de ce manuscrit. Merci aussi à vous que je ne cite pas ici mais qui avez contribué à cette thèse par vos conseils ou votre amitié. Enfin, je tiens à remercier ma famille et tout particulièrement mon tendre époux pour avoir toujours été à mes côtés pendant ces années, pour avoir partagé mes doutes et mes espoirs, pour m’avoir encouragée et soutenue lorsque je ne croyais plus en mon travail et pour avoir fêté avec moi mes petites victoires. Merci aussi à Léonard, qui a certes retardé un peu la réalisation de ce manuscrit mais qui m’a permis de l’écrire dans les meilleures conditions qu’il soit en faisant ses nuits.
6
7
TABLE DES MATIÈRES Chapitre 1 Introduction.................................................................................... 11
Chapitre 2 Les protéines................................................................................... 15
I Structure des protéines .............................................................................................. 16
I.1 Structure générale ........................................................................................................ 16 I.2 Les acides aminés ........................................................................................................ 16
I.2.1 Le carbone chiral ............................................................................................. 16 I.2.2 Propriétés acido-basiques................................................................................ 17 I.2.3 Classification suivant la nature des chaînes latérales ..................................... 17
I.3 La liaison peptidique ................................................................................................... 19 I.3.1 Une liaison plane ............................................................................................. 19 I.3.2 Les angles de la chaîne peptidique .................................................................. 21 I.3.3 Diagramme de Ramachandran ........................................................................ 22
I.4 La hiérarchie dans la description d’une structure protéique ........................................ 24 I.4.1 La structure primaire ....................................................................................... 24 I.4.2 La structure secondaire ................................................................................... 24 I.4.3 La structure tertiaire........................................................................................ 24 I.4.4 La structure quaternaire .................................................................................. 25
II Les structures secondaires......................................................................................... 26
II.1 Les hélices............................................................................................................... 26
II.1.1 L’hélice α........................................................................................................ 26 II.1.2 Les autres structures hélicoïdales .................................................................. 28
II.2 Le feuillet β............................................................................................................. 29 II.3 Coudes et boucles ................................................................................................... 30
Chapitre 3 Repliement, dynamique et stabilité des protéines....................... 31
III Stabilité des protéines ............................................................................................... 32
III.1 Une stabilité marginale ........................................................................................... 32 III.2 Les différents effets influençant la stabilité de la structure native.......................... 32
III.2.1 Interactions électrostatiques ......................................................................... 33 III.2.2 Effets hydrophobes et solvatation.................................................................. 34 III.2.3 Ponts disulfure............................................................................................... 35
III.3 Cœur hydrophobe.................................................................................................... 35
IV Le repliement des protéines ...................................................................................... 36
IV.1 Contrôle thermodynamique ou cinétique ? ............................................................. 36 IV.2 Les différents modèles de repliement proposés ...................................................... 38
8
IV.3 Le repliement in vivo .............................................................................................. 39 IV.4 Modèles théoriques pour étudier le repliement....................................................... 40
V Dépliement des protéines .......................................................................................... 42
V.1 Provoquer un dépliement in vitro ........................................................................... 42 V.1.1 Contraintes globales ....................................................................................... 42 V.1.2 Nanomanipulations ......................................................................................... 45
V.2 Études théoriques .................................................................................................... 48 V.2.1 Exemple d’une étude par dynamique moléculaire et données expérimentales48 V.2.2 Études théoriques du dépliement .................................................................... 49
VI Rigidité et flexibilité des protéines ........................................................................... 51
VI.1 Dynamique des protéines........................................................................................ 51 VI.2 Facteurs de température .......................................................................................... 52
Chapitre 4 Méthodologie .................................................................................. 53
VII Champ de force................................................................................................. 54
VIII Minimisation..................................................................................................... 59
VIII.1 Gradient simple et conjugué ............................................................................... 59 VIII.2 Quasi-Newton..................................................................................................... 61
IX Dynamique moléculaire ............................................................................................ 63
IX.1 Résolution de l’équation du mouvement ................................................................ 63 IX.2 Ensemble NPT ........................................................................................................ 65 IX.3 Conditions périodiques ........................................................................................... 66 IX.4 Troncature LJ .......................................................................................................... 67 IX.5 Protocole de dynamique moléculaire...................................................................... 68
X Représentation du solvant ......................................................................................... 70
X.1 Solvant explicite ..................................................................................................... 70 X.2 Solvant implicite : modèle de Born généralisé ....................................................... 70
XI Coordonnées internes ................................................................................................ 73
XI.1 Le système des coordonnées internes ..................................................................... 73 XI.2 Système d’axe : le pivot.......................................................................................... 74 XI.3 Minimisation ........................................................................................................... 75 XI.4 Champ de force et représentation du solvant .......................................................... 75 XI.5 Préparation des données : le programme PCHEM.................................................. 75 XI.6 Les différentes utilisations de LIGAND ................................................................. 76 XI.7 Limitation par la taille des protéines....................................................................... 76
XII Modèle granulaire............................................................................................. 77
XII.1 L’origine du modèle granulaire .............................................................................. 77
9
XII.2 Le modèle granulaire appliqué aux protéines ......................................................... 77 XII.3 GNM : Gaussian Network Model ........................................................................... 80 XII.4 ANM : Anisotropic Network Model....................................................................... 81 XII.5 Applications ............................................................................................................ 83
XII.5.1 Facteurs de température .............................................................................. 83 XII.5.2 Étude des modes normaux, graphes de corrélation ..................................... 84 XII.5.3 Description des ouvertures et des fermetures des sites enzymatiques ......... 88
XII.6 Modification des modèles granulaires .................................................................... 89 XII.7 Minimisation avec une représentation granulaire ................................................... 90
Chapitre 5 Des outils originaux pour comprendre les propriétés mécaniques
des protéines....................................................................................................... 91
XIII Les contraintes mécaniques appliquées sur les protéines ................................. 92
XIII.1 Introduction ........................................................................................................ 92 XIII.1.1 Contraintes locales et globales ................................................................... 92 XIII.1.2 Principe d’application ................................................................................ 92
XIII.2 Contraintes globales : expériences de dépliement partiel ................................... 93 XIII.2.1 Contrainte RMS de distance ....................................................................... 93
XIII.2.2 Variante ne prenant en compte que les carbones α.................................... 94 XIII.2.3 Avantage de la contrainte ........................................................................... 94 XIII.2.4 Expériences de dépliement partiel en dynamique moléculaire................... 95
XIII.3 Contraintes locales............................................................................................ 100 XIII.3.1 Contrainte sur la valeur moyenne des distances ...................................... 100 XIII.3.2 Pourquoi cette contrainte ? ...................................................................... 101 XIII.3.3 Calcul des constantes de force de déplacement par résidu ...................... 101
XIV Domaines structuraux et mécaniques ............................................................. 104
XIV.1 Classification automatique ............................................................................... 105 XIV.1.1 Indice de dissimilarité ............................................................................... 106 XIV.1.2 Constitution des groupes........................................................................... 106
XIV.2 Comparer deux structures................................................................................. 108 XIV.2.1 Comparaison de deux structures............................................................... 108 XIV.2.2 Classification des protéines par comparaison .......................................... 109
XIV.3 Identifier des domaines rigides à partir de deux structures distinctes .............. 111 XIV.3.1 Utilisation de superposition entre structures ............................................ 112 XIV.3.2 Utilisation de matrice de distances ........................................................... 112 XIV.3.3 Exemple d’algorithme utilisant la comparaison de matrices de distances114 XIV.3.4 Le problème du bruit................................................................................. 114
10
XIV.4 Définition des blocs structuraux ....................................................................... 114 XIV.5 Identification de domaines sans comparaison .................................................. 116 XIV.6 Domaines mécaniques ...................................................................................... 117
Chapitre 6 Article : Flexibilité de la myosine : domaines structuraux et
vibrations collectives. ...................................................................................... 121
XV Introduction .................................................................................................... 122
XV.1 La myosine : une protéine moteur......................................................................... 122 XV.1.1 Différents types de myosines ...................................................................... 122 XV.1.2 Cycles actine-myosine ................................................................................ 128
XV.2 Blocs structuraux et étude des modes normaux .................................................... 134
XVI Myosin Flexibility : Structural Domains and Collective Vibrations.............. 135
XVII Conclusion ...................................................................................................... 154
Chapitre 7 Article : Propriétés mécaniques des protéines à l’échelle du
résidu et leur utilisation pour définir des structurations en domaines...... 157
XVIII Introduction .................................................................................................... 158
XIX Probing protein mechanics: Residue-level properties and their use in defining
domain structures.............................................................................................................. 159
XX Conclusion ...................................................................................................... 182
Chapitre 8 Conclusion générale ..................................................................... 183
BIBLIOGRAPHIE .......................................................................................... 187
ANNEXE 1 : Contraintes mécaniques .......................................................... 199
I Contraintes globales ......................................................................................................... 199 II Contraintes locales .......................................................................................................... 201
ANNEXE 2 : Important Fluctuation Dynamics of Large Protein Structures
are Preserved upon Coarse-Grained Renormalization ............................... 205
Introduction......................................................................................................................... 205 Article : ............................................................................................................................... 207
11
Chapitre 1 Introduction
L’essor actuel de la biologie moléculaire serait impossible sans l’obtention des structures des
biopolymères par cristallographie ou par spectrocopie RMN. Néanmoins, malgré la croissance
exponentielle du nombre de structures résolues, ces informations sont généralement
insuffisantes pour comprendre le fonctionnement des macromolécules. Les biopolymères
comportent souvent des milliers de monomères (acides aminés ou nucléotides), mais ils ne
sont que marginalement stables. Leurs structures sont maintenues par un ensemble
d’interactions faibles (van der Waals, liaisons hydrogène, effet hydrophobe,…) qui autorisent
des mouvements sur des échelles de temps allant de la femtoseconde aux millisecondes et
ayant des amplitudes allant de quelques dixièmes d’angströms à plusieurs dizaines
d’angströms. Il est ainsi évident que les propriétés mécaniques et dynamiques des
biopolymères sont un élément fondamental de leur fonctionnement.
Malheureusement, il existe aujourd’hui peu de données sur ces propriétés mécaniques. Des
techniques spectroscopiques peuvent apporter des informations importantes mais elles sont
difficilement interprétables quand elles impliquent des mouvements globaux de grandes
molécules. D’un autre côté, la cristallographie peut fournir différentes conformations d’une
même macromolécule (par exemple, avec ou sans substrat), mais ne donne pas beaucoup
d’information sur la flexibilité des éléments qui composent ces conformations. Cependant, de
nombreux progrès ont été réalisés au niveau des expériences de manipulation de molécules
12
uniques au cours de la dernière décennie. Ces expériences consistent en l'application de forces
sur une macromolécule biologique afin d'observer ses propriétés mécaniques et d'en tirer des
conséquences au niveau de sa fonction biologique [Bensimon; 1996, Lavery, et al.; 2002b].
Les premières molécules à bénéficier de ce traitement ont été les brins d'ADN pour des
raisons techniques (disponibilité des molécules, techniques de fixation à différents supports
préexistantes,…). Ces expériences ont permis de mesurer les forces nécessaires pour
l'étirement [Cluzel, et al.; 1996], la torsion [Allemand, et al.; 1998] et la séparation des brins
d'ADN [Essevaz-Roulet, et al.; 1997]. Plus récemment, ce type d'étude a été étendu aux
protéines [Smith, et al.; 2003].
Parallèlement à cette approche expérimentale, la simulation numérique de ces manipulations
s'est développée afin de relier les forces appliquées aux changements structuraux impliqués au
niveau moléculaire. À cette fin, différentes méthodes ont été développées. Etant donnée la
difficulté de mise en oeuvre de simulations classiques de dynamique moléculaire en solvant
explicite (incompatibilité des échelles de temps notamment), une approche originale a été
développée au sein du laboratoire de Biochimie Théorique de l’IBPC basée sur la
représentation des macromolécules à l'aide de coordonnées internes. Cette modélisation a
permis de réduire de manière significative le nombre de variables et de faciliter ainsi les
calculs de minimisation d'énergie. Dans cette approche, les forces appliquées à la molécule
sont modélisées par des contraintes géométriques [Lebrun & Lavery; 1998]. Cette
méthodologie développée afin de simuler les expériences impliquant l'ADN a obtenu des
résultats très satisfaisants. Elle a notamment permis l'identification de nouvelles
conformations de la double hélice d'ADN, et d'établir un lien entre les propriétés mécaniques
de l'ADN et ses interactions avec des protéines comme la TBP (TATA box Binding Protein)
[Lebrun & Lavery; 1999, Lebrun, et al.; 1997]. Ce succès a tout naturellement débouché sur
l’idée d’adapter cette technique à l'étude des protéines.
Les protéines représentent plus de la moitié de la masse d’une cellule à l’exclusion de l’eau.
Ces macromolécules jouent donc un rôle primordial dans le fonctionnement des organismes
vivants, en réalisant des fonctions diverses. La connaissance des propriétés mécaniques des
protéines est donc importante pour comprendre leur rôle au sein du vivant. En effet, plusieurs
protéines subissent ou réagissent à des sollicitations mécaniques lors de leur fonctionnement.
Dans cette catégorie, nous pouvons citer les protéines des fibres musculaires, les protéines
moteurs et les protéines constituant des canaux transmembranaires mécanosensibles.
13
Ainsi, alors que la résolution de plusieurs structures cristallographiques des domaines moteurs
de la myosine (qui se déplace sur un microfilament d’actine) et de la kinésine (qui se déplace
sur un microtubule) n'a pas pu apporter de réponse définitive quant aux mécanismes de ces
moteurs, l’analyse des propriétés mécaniques de ces domaines devraient fournir de nouvelles
informations sur ces mécanismes.
En fait, les propriétés mécaniques de toutes les protéines sont intéressantes d’une façon
générale. Les sites catalytiques et les surfaces d’interaction des protéines sont des parties très
importantes pour la fonction des protéines et présentent certainement des propriétés
mécaniques tout à fait particulières nécessaires à la réalisation de cette fonction. De même, la
relation entre la flexibilité d’une protéine et sa thermostabilité est une question pour l’instant
non résolue.
Un autre enjeu de l’étude des propriétés mécaniques des protéines est la compréhension du
repliement de celles-ci. L'étude du repliement et du dépliement des protéines revêt un intérêt
tout particulier de par son importance dans le phénomène d'agrégation de protéines (formation
de fibres amyloïdes). Bien que le processus de repliement se fait in vivo dans un milieu
complexe, en présence des ribosomes et de molécules chaperonnes, quelques études ont été
menées au niveau théorique et expérimental dans un milieu simplifié sur la dénaturation des
protéines induite chimiquement, thermiquement et aussi mécaniquement,. Elles ont apporté
des données intéressantes mais les propriétés mécaniques mesurées par étirement du brin
polypeptidique dépendent de la position des points d’attache et de la direction d’étirement
[Brockwell, et al.; 2003, Carrion-Vazquez, et al.; 2003].
Afin de palier la difficulté de la mise en place des expériences, l’utilisation de techniques de
modélisation est donc à l’heure actuelle nécessaire afin d’obtenir des informations sur un
grand nombre de protéines.
Le premier travail présenté dans cette thèse a consisté à étudier des propriétés mécaniques de
la myosine par l’analyse des modes normaux d’un modèle granulaire, qui représente une
protéine par un ensemble de ressorts reliant les paires d’atomes Cα séparés par moins qu’une
distance seuil, et par la comparaison de différentes structures cristallographiques.
Pour aborder une étude plus fine des liens entre structure et mécanique, nous avons ensuite
utilisé une représentation des protéines en coordonnées internes permettant l'utilisation des
outils développés pour la modélisation des acides nucléiques. Nous avons développé de
14
nouvelles contraintes afin de pouvoir étudier à la fois les propriétés mécaniques globales et
locales (afin de définir un indice permettant de caractériser l’élasticité d’un brin
polypeptidique résidu par résidu) des protéines. L'adaptation de ces contraintes à une
représentation granulaire et de certaines contraintes à des simulations de dynamique
moléculaire permet de faire des comparaisons entre les différents modèles.
Après avoir fait un rappel du vocabulaire relatif aux protéines (chapitre 2), nous présenterons
les connaissances actuelles sur le repliement, la dynamique et la stabilité des protéines
(chapitre 3). Le chapitre 4 présente la méthodologie et les programmes utilisés pour l’étude
des propriétés mécaniques des protéines et le chapitre 5 les approches originales que nous
avons mises au point afin d’étudier ces propriétés. Enfin, les chapitres 6 et 7 présentent les
résultats publiés ou soumis à publication.
15
Chapitre 2 Les protéines
16
I Structure des protéines
I.1 Structure générale
Une protéine est un polymère dont les unités monomériques (appelés aussi résidus) sont les
acides aminés unis par des liaisons peptidiques (figure 1). La conformation (c’est-à-dire le
repliement) qu’adopte une protéine au sein de la cellule est appelée conformation native.
C’est cette conformation unique qui lui assure ses propriétés spécifiques : fonctions
enzymatiques et mécaniques, stabilité thermique...
figure 1 : Formule développée d’une protéine de n acides aminés. Les Ri désignent les
différentes chaînes latérales des résidus.
I.2 Les acides aminés
I.2.1 Le carbone chiral
Un acide aminé est un composé organique contenant un groupement amine et un groupement
acide carboxylique. Le type (α, β, δ,..) d’acide aminé est relié à la position de l’amine sur la
chaîne carbonée. Les acides aminés qui composent les protéines sont les acides α-aminés. En
effet, la fonction amine est en position α de la fonction acide. Le carbone où se rattache la
fonction amine est appelé carbone α et sera noté par la suite Cα. Comme ce carbone est relié à
quatre groupes différents (COOH, NH2, H et R), il est chiral (sauf pour la glycine où R est un
hydrogène). Pour les acides aminés naturels, la configuration stéréochimique de ce centre
17
chiral est en général L (dans la nomenclature de Fischer). Les formes D des acides aminés
sont extrêmement rares.
I.2.2 Propriétés acido-basiques
Les acides carboxyliques (-COOH) ne peuvent pas coexister avec des bases faibles comme les
amines (-NH2). En milieu aqueux, le groupement acide carboxylique des acides aminés donne
son proton au groupement amine. Les acides aminés possèdent donc une structure
zwitterionique (un atome porte une charge positive : -NH3+ et un autre porte une charge
négative –COO-) (figure 2).
figure 2 : Structure des acides L-α-aminés. A gauche, forme neutre, à droite, forme
zwitterionique. Cette dernière est présente aux valeurs de pH physiologiques. R correspond
aux différentes chaînes latérales.
I.2.3 Classification suivant la nature des chaînes latérales
Il existe 20 acides aminés naturels (20 chaînes latérales R différentes) qui composent les
protéines. Un code de trois lettres et un code d’une lettre permettent de les nommer de façon
synthétique (figure 3).
18
figure 3 : Les acides aminés : A chaque acide aminé est associé un code de trois lettres et un
code d’une lettre.
On peut les répertorier en trois groupes selon leur réactivité chimique : polaires, chargés, hydrophobes.
Les acides aminés hydrophobes ont des chaînes latérales non chargées et non
polaires. Ce sont la glycine, l’alanine, la valine, la leucine, l’isoleucine, la proline, la
19
phénylalanine, le tryptophane et la méthionine. Parmi ces acides aminés, la proline a la
particularité d’avoir une fonction amine secondaire et un cycle qui impose des contraintes de
conformation à la chaîne principale. Les chaînes latérales de la phénylalanine et de la tyrosine
possèdent des groupements aromatiques dont l’encombrement stérique est important.
Les acides aminés polaires mais non chargés sont la sérine, la thréonine, la
cystéine, la tyrosine, l’asparagine et la glutamine. Leurs chaînes latérales possèdent un
groupement hydroxyle, phénol, amide ou thiol. Le groupement thiol de la cystéine forme
souvent un pont disulfure avec un autre résidu cystéine après oxydation (figure 4). Les ponts
disulfure jouent un rôle important dans la structure des protéines en créant une liaison
covalente entre deux régions distinctes de la chaîne ou entre deux chaînes protéiques
différentes.
figure 4 : pont disulfure
Les acides aminés chargés sont l’acide aspartique, l’acide glutamique, la
lysine, l’arginine et dans certains cas l’histidine. L’arginine et la lysine sont chargées
positivement alors que l’acide aspartique et la glutamique sont chargés négativement à pH
physiologiques. La charge positive de l’histidine dépend de son environnement (le pKa de
l’acide conjugué de l’histidine, dont le cycle imidazole est protoné, vaut 6,1).
I.3 La liaison peptidique
I.3.1 Une liaison plane
La liaison de polymérisation entre deux acides aminés est appelée liaison peptidique. Les ions
carboxylate et ammonium réagissent pour former une liaison plane. La panéité de cette liaison
a été observée expériementalement par des études cristallographiques sur les acides aminés et
des peptides [Corey & Pauling; 1953, Marsh & Donohue; 1967, Pauling & Corey; 1953]. Ces
résultats sont interprétables avec des calculs quantiques expliquant le recouvrement des
orbitales pz des atomes C, O et N. Une étude de Milner-White propose que le recouvrement
20
des orbitales π de la liaison CN est responsable de la géométrie du lien peptidique [Milner-
White; 1997]. Parallèlement, une délocalisation des électrons des orbitales σ compense la
perte du nuage électronique de l’azote. De plus, des forces coulombiennes entre l’azote et le
carbone raccourcissent la liaison (figure 5).
figure 5 : Caractère plan de la liaison peptidique. Cette représentation ne donne pas une bonne
image des charges partielles sur l’azote car elle ne prend pas en compte la polarisation de la
liaison σ de CN qui est opposée à celle de la liaison π.
Cette planéité de la liaison peptidique réduit la géométrie autour de la liaison à deux
conformères : trans et cis (la barrière de potentielle entre les conformères étant de l’ordre de
20 kcal.mol-1). En général, les groupes peptidiques sont dans la conformation trans (figure 6) :
les carbones Cα sont de part et d’autre de la liaison dans le plan peptidique. La conformation
cis est en effet très défavorisée par l’encombrement stérique des chaînes latérales. Seules les
liaisons suivies par un résidu proline présentent 10% de conformation cis.
figure 6 : Conformation trans et cis d'une liaison peptidique. Le plan de la liaison peptidique
est coloré. L’encombrement stérique de la conformation cis est représenté par des cercles
rouges.
21
I.3.2 Les angles de la chaîne peptidique
On définit en général deux types d’angles dans les chaînes peptidiques. Les angles de valence
sont les angles d’ouverture entre deux liaisons consécutives. Les angles dièdres ou angles de
torsion sont les angles entre deux plans autours d’une liaison. L’angle entre les deux plans
ABC et BCD de la figure 7 est un angle de torsion qu’on notera par une flèche autour de la
liaison centrale.
figure 7 : Définition des angles de valence et dièdres.
Comme nous venons de le voir dans le paragraphe précédent, la liaison peptidique peut être
considérée comme plane. L’angle dièdre ω autour de la liaison peptidique est en général très
proche de 180°. Une étude statistique sur les angles dièdres ω de la banque de données
Protein Data Bank, PDB (http://www.rcsb.org/pdb/) [Berman, et al.; 2000], montre ainsi que
l’angle ω vaut 179,5° ± 3,8° [Karplus; 1996]. Les deux autres angles dièdres de la chaîne
peptidique principale sont les angles φ pour l’angle autour de la liaison N-Cα et ψ pour l’angle
autour de la liaison Cα-C (figure 8). Par convention, les valeurs des angles φ et ψ sont égales à
180° lorsque le peptide est dans sa forme étendue. Dans une représentation de Newman, on
peut visualiser ces angles dièdres (figure 9). En regardant la liaison Cα-N avec l’azote à
l’avant-plan, l’angle φ est l’angle entre les deux carbones C des groupes carboxyliques. De
même, l’angle ψ est l’angle entre les deux azotes lorsqu’on regarde la liaison Cα-C avec le
carbone Cα en premier plan.
figure 8 : Définitions des angles dièdres de la chaîne principale.
A
B C
D A
B
C
angle de valence angle dièdre
22
figure 9 : Trois exemples de valeur d’angles dièdres dans la représentation de Newman. Les
atomes situés derrière sont en caractères plus petits.
I.3.3 Diagramme de Ramachandran
Lorsqu’on porte sur un graphe les deux angles dièdres φ et ψ, on construit un espace à deux
dimensions appelé carte de Ramachandran, chercheur ayant beaucoup travaillé sur les
peptides [Ramakrishnan; 2001].
Ramachandran a eu l’idée de construire un modèle réduit de peptide où il pouvait faire pivoter
les angles φ et ψ de 360° [Ramachandran & Ramakrishnan; 1963]. Il a alors démontré que la
plupart des zones de la carte étaient interdites à cause de l’encombrement stérique des chaînes
latérales (figure 10). Des statistiques effectuées sur les protéines issues de la Protein Data
Bank [Berman, et al.; 2000] ont permis plus tard de confirmer que seules certaines parties de
la carte étaient représentées et que la proline et la glycine avaient des cartes différentes des
autres acides aminés [Ramachandran & Sasisekharan; 1968]. La glycine est en effet le seul
résidu sans carbone β. L’hydrogène étant beaucoup moins encombrant qu’une chaîne latérale
carbonée, la carte de Ramachandran pour le résidu glycine montre plus de conformations
accessibles que pour les résidus plus gros (figure 11). De plus, la non chiralité de ce résidu
rend la carte symétrique par rapport à l’origine. Dans le cas des prolines, les variations de φ
sont limitées par les tension du cycle.
Ciα
+ --
Ni Ni+1
Ciα Ni
C’i-1 C’i Cα
i+1
C’i
ψi φi ωi
C’i Ciα
Ni+1
23
figure 10 : Carte de Ramachandran d’une dialanine. En bleu sont les conformations les plus
stables, en vert les conformations possibles et en blanc les conformations non atteintes. Les
structures secondaires (hélice α droite (α) et gauche (αL) , feuillets β parallèles (↑↑) et
antiparallèles (↑↓)) sont indiquées.
figure 11 : Carte de Ramachandran des glycines.
24
I.4 La hiérarchie dans la description d’une structure protéique
I.4.1 La structure primaire
La structure primaire est l’ordre d’enchaînement des acides aminés de la chaîne protéique. On
nomme la liste des résidus en commençant par la terminaison amine (ou ammonium) et en
terminant par le résidu portant la fonction acide carboxylique (ou carboxylate). Le premier
résidu est alors nommé N-terminal et le dernier C-terminal. Le code à une lettre des acides
aminés est alors très pratique pour décrire les protéines (voir l’exemple figure 12).
I.4.2 La structure secondaire
La structure secondaire d’un polymère correspond à la conformation locale de son squelette.
C’est le premier niveau d’agencement dans l’espace tenant compte des liaisons hydrogène.
Dans le cas des protéines, elle consiste à définir les repliements réguliers et répétitifs : hélices,
feuillets, coudes,…Nous les décrirons plus en détail dans la partie suivante.
I.4.3 La structure tertiaire
La structure tertiaire d’une protéine est sa disposition tridimensionnelle : c’est la donnée de
l’agencement des structures secondaires et de l’organisation spatiale des chaînes latérales.
Un certain nombre d’interactions stabilisent les structures tertiaires :
Les liaisons disulfure entre deux cystéines forment un lien covalent entre deux
parties d’une chaîne qui sont espacées dans la structure primaire.
Les liaisons hydrogène, qui stabilisent aussi les structures secondaires,
contribuent à la stabilisation des structures tertiaires. Ces liaisons impliquent les squelettes
polypeptidiques (chaînes principales) et les chaînes latérales.
Les ponts salins se forment entre deux acides aminés ionisés. L’attraction
coulombienne entre les ions positifs et les ions négatifs stabilisent leur rapprochement.
Les interactions hydrophobes sont formées entre groupements non polaires. En
solution aqueuse, les groupements polaires sont tournés en général vers l’extérieur des
protéines globulaires alors que les groupements non polaires sont confinés à l’intérieur pour
interagir préférablement entre eux plutôt qu’avec les molécules d’eau. Ces interactions sont
25
plus faibles que les liaisons hydrogène et les ponts salins mais elles sont en général
suffisamment nombreuses dans les régions au cœur des protéines pour permettre la
stabilisation de la structure.
I.4.4 La structure quaternaire
La structure quaternaire est le niveau le plus élevé d’organisation des protéines. Elle concerne
les protéines constitués de plusieurs chaînes polypeptidiques et détermine l’arrangement
spatial des différentes sous-unités entre elles.
Les zones de contact entre sous-unités sont très semblables à celles à l’intérieur d’une
protéine à une seule sous-unité. Elles contiennent des chaînes latérales non polaires
regroupées, des liaisons hydrogène et dans certain cas des ponts disulfure intercaténaires.
Les différents niveaux de description d’une protéine sont résumés dans la figure 12. Il faut
noter qu’en général, la donnée de la structure primaire détermine la structure tertiaire des
protéines.
figure 12 : Différents niveaux de description d'une protéine : primaire (1), secondaire (2)
(exemple d’une hélice α), tertiaire (3) et quaternaire (4).
26
II Les structures secondaires
Au niveau de toutes les structures secondaires, les liaisons hydrogène sont formées entre les
groupements C=O et H-N. Les deux structures secondaires les plus fréquentes sont les hélices
α et le feuillets β.
II.1 Les hélices
L’hélice est une structure secondaire en forme de ressort. On peut la caractériser par son pas p
(distance entre deux tours de vis) et le nombre n d’unités peptidiques par tour d’hélice.
II.1.1 L’hélice α
La terminologie hélice "α" n'est basée que sur une classification ancienne, antérieure à la
détermination de la structure. L'hélice α est quasiment toujours une hélice droite. Elle
s’éloigne en tournant dans le sens des aiguilles d'une montre quand on regarde dans l’axe de
la chaîne principale (figure 13).
figure 13 : Hélice droite : elle s'éloigne en tournant dans le sens des aiguilles d'une montre. A
gauche : représentation tout atome, à droite : représentation en tube. Les résidus en avant du
plan sont en bleu, les plus éloignés sont en rouge.
27
L’hélice α contient 3,6 résidus par tour et son pas est de 5,41 Å. Les atomes sont bien
compactés, ce qui est favorable aux interactions de van der Waals. L’atome d'oxygène d’un
groupe carbonyle participe à une liaison hydrogène avec le NH appartenant à un acide aminé
situé 4 positions plus loin dans la chaîne (figure 14). Les trois atomes O, H et N sont alors
quasiment alignés et la distance N-O est de 2.86 Å de long. Tous les résidus forment de telles
liaisons tout le long de la chaîne ce qui renforce la stabilité de l'ensemble .
figure 14 : Liaisons hydrogène dans une hélice α. Les liaisons H sont représentées en bleu.
Les chaînes latérales sont tournées vers l'extérieur de l'hélice. L' hélice α pourrait être gauche
(tourner dans le sens opposé aux aiguilles d’une montre) mais les chaînes latérales des acides
aminés de la série L recouvrent de façon trop importante la chaîne principale. Cette structure
gauche est alors beaucoup moins stable et donc elle est très peu observée.
Théoriquement, les angles de torsions des acide aminés constituant une hélice α sont égaux à
–57° pour φ et –47° pour ψ.
Dans les protéines, l'hélice α n'est pas toujours exactement celle qui vient d'être décrite. Les
angles sont souvent de –62° et -41° respectivement ce qui permet à l'oxygène du carbonyle de
s'écarter de l'axe de l'hélice. La liaison hydrogène est alors moins linéaire donnant à l'oxygène
la possibilité de former des liaisons hydrogène simultanément avec le NH du résidu en
position i+4 et avec l'eau ou d'autres donneurs.
28
La nature des chaînes latérales réparties régulièrement autour de l’hélice peut induire un
caractère hydrophobe si la majorité des chaînes sont hydrophobes ou amphiphile (d’un côté
hydrophobe et d’un autre hydrophile) si les résidus d’une face sont hydrophobes et ceux de
l’autre face hydrophiles. Cette dernière propriété permet l’assemblage des structures
secondaires pour donner la structure tertiaire.
II.1.2 Les autres structures hélicoïdales
D’autres structures hélicoïdales existent. Le ruban 2,27, les hélices 310 et Π (4,46) en sont des
exemples. La notation 2,27, 310 et 4,46 indiquent comment les liaisons hydrogène sont placées
le long de l’hélice. Le nombre décimal donne le nombre de résidus par tour d’hélice et l’entier
en indice le nombre d’atomes dans l’anneau fermé par la liaison hydrogène (figure 15). Avec
ces notations, l’hélice α est une hélice 3,613.
figure 15 : Formation des liaisons hydrogène pour différentes hélices polypeptidiques. Les
traits bleu représentent les liens formés par les liaisons hydrogène.
Les hélices autres que α se rencontrent beaucoup moins souvent au sein des protéines.
D’autres structures (quaternaires) hélicoïdales existent en particulier chez les protéines
fibreuses comme par exemple la kératine et le collagène, qui sont des fibres d’hélices. Le
collagène est constitué de 3 hélices torsadées les unes sur les autres et la kératine est
constituée de dimères (deux hélices imbriquées hélicoïdalement l’une dans l’autre de manière
à ce que les axes des hélices forment aussi une hélice (Coiled coil rod)).
hélice α ruban 2,27
hélice 310 hélice π
29
II.2 Le feuillet β
Dans le feuillet β, les liaisons hydrogène intermoléculaires stabilisent l’alignement ordonné
des chaînes peptidiques. Les chaînes polypeptidiques (ou brins) voisines sont alors dites
parallèles si leurs bouts N-terminaux sont tous du même côté et antiparallèles dans le cas
contraire (figure 16).
figure 16 : Feuillets β, parallèles et antiparallèles. Les liaisons hydrogène sont dessinées en
rouge.
Comme pour les hélices α, les résidus constituant les feuillets β sont des structures
secondaires dans lesquelles les points de la carte de Ramachandran sont dans des régions
spécifiques.
30
II.3 Coudes et boucles
Les coudes β sont des segments polypeptidiques qui relient deux structures secondaires
répétitives (hélices ou feuillets). Ils se trouvent presque toujours à la surface des protéines. On
parle souvent d’épingles à cheveux β (β hairpin) car les deux extrémitées sont parallèles entre
elles (voir figure 17).
Les boucles Ω peuvent contenir plusieurs coudes β et ont la forme de la lettre grecque
majuscule. Elles sont compactes car leur chaînes latérales ont tendance à remplir l’intérieur de
leurs cavités.
figure 17 : Différents types de coudes β. À gauche : type I (φ2=-60°, ψ2=-30°, φ3=-90°,
ψ3=0°) ; à droite : type II (φ2=-60°, ψ2=120°, φ3=+90°, ψ3=0°)
Type I Type II
31
Chapitre 3 Repliement, dynamique et stabilité
des protéines
Dans ce chapitre, nous allons discuter des connaissances actuelles sur le repliement des
protéines, des interactions stabilisant les structures repliées des protéines et des études
expérimentales et théoriques qui ont été précédemment menées pour comprendre les
processus de repliement et dépliement ainsi que la stabilité des protéines.
32
III Stabilité des protéines
III.1 Une stabilité marginale
La stabilité des protéines est intimement liée à leur repliement. Les protéines ont besoin d’être
dans leur état natif pour être stables. La variation d’enthalpie libre de repliement d’un état
dénaturé à l’état natif s’écrit comme la contribution de l’enthalpie et de l’entropie.
U N avec U : état déplié, N : état natif
∆G = ∆H – T ∆S
Bien que les variations d’enthalpie et d’entropie soient grandes, la variation d’enthalpie libre
de l’état dénaturé à l’état natif est souvent faible (-5 à –15 kcal.mol-1). Cette énergie est
comparable à celle de quelques liaisons hydrogène. La diminution d’enthalpie favorable lors
du repliement est compensée par une perte d’entropie due au passage de la chaîne étendue à
une structure compacte. Le terme enthalpique stabilisant la structure comprend les effets
hydrophobes, les interactions de van der Waals et électrostatiques (en particulier les liaisons
hydrogène et les ponts salins) ainsi que la formation de liaisons covalentes (les liaisons
disulfure). Il est diminué par la perte des interactions qui existaient entre la structure
dénaturée et le solvant (effet de désolvatation).
III.2 Les différents effets influençant la stabilité de la structure native
La stabilité des protéines est influencée par un certain nombre de forces déjà décrites dans le
chapitre I.4.
Les interactions qui stabilisent la structure tridimensionnelle des protéines sont
principalement des interactions faibles, non covalentes : interactions électrostatiques et de van
der Waals et effets hydrophobes. Des liaisons covalentes sont également mises en jeu par
l’intermédiaire des ponts disulfure.
33
III.2.1 Interactions électrostatiques
Lors du repliement, les interactions électrostatiques attractives entre charges opposées ou
entre dipôles sont formées et cassées. Leur contribution enthalpique au repliement dépend de
la balance entre les interactions crées et celles qui ont été détruites.
• Interactions de van der Waals
Les interactions entre les nuages électroniques de deux atomes adjacents conduisent à la
présence d’une force attractive pour des distances de 3-4 Å. L’énergie de liaison est d’environ
1 kcal.mol-1, ce qui est à peine supérieur à l’énergie thermique moyenne des molécules à
température ambiante (0,6 kcal.mol-1). Cependant, de par leur grand nombre, ces interactions
jouent un rôle important dans la stabilisation de la structure des protéines et favorisent le
compactage.
• Ponts salins
Lorsqu’on regarde ces interactions dans le cas de résidus chargés (négativement pour les
aspartates, glutamates et l’extrémité C-terminale, et positivement pour les lysines, arginines,
certaines histidines et l’extrémité N-terminale) on parle de ponts salins.
Le fait que la formation de ponts salins soit un effet stabilisateur n’est pas évident. En effet,
Phelan et al. ont étudié par RMN et par des expériences de thermodynamique le cas d’une
protéine en fermeture éclair de 31 résidus et ont montré que la formation de ponts salins a un
effet déstabilisateur. La désolvatation des chaînes latérales chargées est en effet très
défavorable du point de vue énergétique et n’est pas compensée par le gain des attractions
coulombiennes [Phelan, et al.; 2002].
• Liaisons hydrogène
Les liaisons hydrogène sont le résultat des interactions électrostatiques (70%) et de van der
Waals (30%) entre un atome électronégatif (généralement un atome d’oxygène ou d’azote) et
un atome d’hydrogène, porté par un atome électronégatif. Les deux atomes électronégatifs
sont distants d’environ 3 Å. L’énergie des liaisons hydrogène de l’ordre de 3 kcal.mol-1. Les
acides aminés polaires peuvent ainsi former des liaisons hydrogène entre eux ou avec des
molécules d’eau. Ils se dissolvent donc facilement dans l’eau : ils sont hydrophiles. On trouve
ces liaisons notamment dans les hélices et les feuillets, stabilisant ces structures secondaires.
Elles permettent également de lier les sous-unités d’un oligomère. Les liaisons hydrogène
34
contribuent peu directement à l’énergie de stabilité mais permettent des contraintes favorisant
l’état replié des chaînes polypeptidiques [Honig; 1999].
III.2.2 Effets hydrophobes et solvatation
Le fait que les composés hydrophobes (c’est-à-dire apolaires) sont peu solubles dans l’eau
induit un effet dit hydrophobe. L’optimisation des liaisons hydrogène au voisinage des
groupements apolaires conduit à la formation d’une enveloppe de molécules d’eau ordonnées
autour de ceux-ci. Cette organisation est défavorable du point de vue entropique car elle
diminue le nombre de configurations accessibles ; les groupements apolaires ont alors
tendance à se rapprocher les uns des autres afin de limiter la surface de contact avec l’eau. Ce
phénomène entropique explique pourquoi les résidus hydrophobes des protéines solubles sont
regroupés au « cœur » de celles-ci alors que la « surface » est au contraire principalement
composée d’acides aminés hydrophiles.
Il n’existe donc pas à proprement parler de “liaison hydrophobe”. Pour quantifier cet effet, on
le définit comme l’énergie associée au transfert d’une surface hydrophobe de l’intérieur de la
protéine vers un milieu aqueux [Murphy; 2001]. Cela inclut donc les variations d’énergie due
aux changements des interactions de van der Waals subies par les groupements hydrophobes
mais aussi les variations d’enthalpie libre (variations d’enthapie et surtout d’entropie)
associées à la restructuration de l’eau.
Les effets hydrophobes et les liaisons de van der Waals sont responsables de l’agencement
(compactage) très dense des atomes au milieu des protéines. Ainsi le repliement est dirigé par
les effets hydrophobes et la stabilisation enthalpique par le compactage . L’enthalpie libre de
désolvatation, l’énergie de transfert pour un résidu apolaire pour passer du milieu aqueux au
sein de la protéine, est de l’ordre de -25 cal.mol-1.Å-2.
La différence d'enthalpie libre de solvatation entre protéine dénaturée et protéine repliée
fournit une évaluation empirique de l'effet hydrophobe, considéré comme la principale force
responsable du repliement des protéines. L’enthalpie libre de solvatation peut être calculée
approximativement à partir des surfaces atomiques accessibles au solvant et des paramètres de
solvatations atomistiques déterminés à partir des énergies libres de transfert [Chothia; 1976,
Eisenberg & McLachlan; 1986].
35
III.2.3 Ponts disulfure
Le rapprochement des chaînes latérales de deux cystéines et leur oxydation conduit à la
formation d’une liaison covalente S-S appelée pont disulfure. La majorité des protéines
possédant des ponts disulfure sont des protéines extracellulaires, se repliant dans le reticulum
endoplasmique (qui est un milieu oxydant) avant d’être secrétées dans le milieu
extracellulaire plus oxydant que le cytoplasme et dont le pH et la température sont moins bien
contrôlés. L’énergie de liaison correspondant étant d’environ 60 kcal.mol-1, un pont disulfure
impose une forte contrainte topologique à la chaîne polypeptidique. Cependant, cette énergie
ne correspond pas à l’énergie de formation d’une liaison disulfure à partir de deux cystéines
protonées. Cette dernière dépend de l’environnement des deux cystéines concernées. Ainsi le
rôle stabilisateur des ponts disulfure est controversé. En effet, si certaines études sur le rôle
des liaisons hydrogène et des liaisons disulfure dans la stabilité thermique [Chakravarty &
Varadarajan; 2002] montrent que celle-ci est favorisée par une plus grande rigidité, d’autres
études arrivent à une conclusion opposée [Grottesi, et al.; 2002].
III.3 Cœur hydrophobe
Les interactions hydrophobes sont des facteurs importants dans le repliement et la stabilité des
structures protéiques. Bien que les biologistes fassent souvent référence à l’appartenance de
tel ou tel résidu au cœur hydrophobe d’une protéine pour expliquer les propriétés de ce résidu,
il n’existe pas de définition unanime du cœur hydrophobe. Certaines définitions prennent en
compte la conservation au cours de l’évolution des résidus hydrophobes « enfouis » tandis
que d’autres ne s’appuient pas sur une analyse séquentielle [Hirakawa, et al.; 1999].
Quelques algorithmes ont ainsi été mis en place pour définir le cœur hydrophobe des
protéines de manière systématique. Parmi eux, un algorithme proposé par Swindells décrit le
cœur hydrophobe comme la collection des résidus possédant une accessibilité faible au
solvant, appartenant à des régions de structures secondaires régulières et dont les chaînes
latérales non polaires interagissent en partie entre elles [Swindells; 1995]. En général, ces
trois propriétés sont en effet utilisées par les expérimentateurs pour définir le cœur
hydrophobe de façon empirique.
Les résidus appartenant au cœur hydrophobe d’une protéine sont donc des résidus conservés
dans les familles structurales et jouant un rôle important pour la stabilité de la protéine tant au
moment de son repliement que dans sa structure native.
36
IV Le repliement des protéines
La compréhension du mécanisme de repliement des protéines est importante. Le bon
repliement de protéines est un processus essentiel à la vie parce que c’est ce repliement qui
assure les fonctions des protéines dans l’organisme. Ainsi, les défauts de repliement de
protéines causent des maladies graves telles que la fibrose kystique, l'emphysème juvénile,
certains types d'hémophilie, la maladie d'Alzheimer, la maladie de Kreutzfeld-Jakob et la
maladie de Parkinson. D’autre part, la connaissance du mécanisme de repliement (c’est-à-dire
les différents étapes qui le définissent) permet de prédire la structure tridimensionnelle d’une
protéine à partir de sa séquence primaire.
Pour l’instant, bien que les facteurs physico-chimiques entrant en jeu soient clairs, les règles
qui permettent à une séquence d’acides aminés de se replier en une structure tridimensionnelle
sont inconnues. Les phénomènes de repliement se déroulent à l’échelle de temps de la
milliseconde mais certains peuvent se produire en quelques microsecondes [Baldwin; 1996],
voire en moins d’une microseconde pour des protéines qui se replient de façon ultra-rapide
[Mayor, et al.; 2003]. Leur étude expérimentale est difficile et nécessite un grand nombre
d’approches par des techniques de biophysique pour récolter suffisamment d’indices sur les
mécanismes de repliement [Plaxco & Dobson; 1996, Radford; 2000].
Le repliement des protéines est depuis longtemps un sujet d’intérêt étudié aussi bien du point
de vue théorique qu’expérimental. Il donne lieu tous les deux ans à la compétition CASP
(Critical Assessment of Structure Prediction) qui teste les méthodes de prédiction de structure.
IV.1 Contrôle thermodynamique ou cinétique ?
En 1968, Levinthal a montré que le repliement des protéines ne pouvait pas être le résultat
d’une recherche aléatoire de la structure native parmi toutes les structures possibles. En effet,
cette recherche aléatoire prendrait un temps énorme (‘Longer than the lifetime of the
universe’) [Levinthal; 1968] qui n’est pas compatible avec la rapidité mesurée du repliement
des protéines (entre 10-4 et 100 secondes). Ceci est connu sous le nom du paradoxe de
Levinthal. Levinthal suggère alors un contrôle cinétique du repliement accéléré par la
formation simultanée de petits noyaux structurés, la forme native de la protéine n’étant pas
forcément la structure thermodynamiquement la plus stable.
37
D’autre part, en 1975, Anfinsen suggère lui un contrôle thermodynamique où la forme native
est celle d’enthalpie libre la plus basse [Anfinsen & Scheraga; 1975].
Il semble qu’un compromis entre les deux points de vue donne une bonne explication des faits
expérimentaux et théoriques observés. Le repliement des protéines est à la fois sous contrôle
thermodynamique (la structure native serait la structure la plus stable) et sous contrôle
cinétique puisque l’état natif est atteint grâce à la formation d’intermédiaires partiellement
structurés dont la formation est sous contrôle cinétique.
On peut résumer le comportement de repliement des protéines dans un diagramme en
entonnoir (« folding funnel ») proposé par Wolynes et al. [Wolynes, et al.; 1995] [Socci, et
al.; 1998] et repris par Chan et Dill [Chan & Dill; 1998]. La largeur de l’entonnoir rend
compte de l’entropie et la profondeur de l’énergie (
figure 18). Ainsi, plusieurs chemins de repliement sont possibles suivant les conditions
expérimentales. L’entonnoir décrit alors une diminution progressive de la dimensionnalité de
l’espace accessible, en passant de plusieurs degrés de liberté pour la chaîne dénaturée à une
absence complète pour l’état natif. La présence de bosses correspond à des conformations de
haute énergie (états de transition) et celle des creux (minima locaux) à des configurations
localement stabilisées (états intermédiaires métastables). La cinétique est reliée à la pente de
la courbe : plus elle est grande, plus le repliement est rapide. Le repliement se fait en deux
temps : il est tout d’abord sous contrôle cinétique pour donner un globule fondu. Le globule
fondu (« Molten Globule ») est une structure dont la majorité des structures secondaires
natives sont formées mais dont la structure tertiaire n’est pas atteinte. Dans la seconde partie
du repliement, la cinétique est plus lente. L’état natif atteint est celui de plus grande stabilité.
La différence de stabilité est cependant marginale entre l’état natif et les états intermédiaires
proches (5-10 kcal.mol-1). Ceci permet le bon fonctionnement de la protéine qui peut passer
d’un sous-état à un autre facilement sous l’effet de l’agitation thermique.
Le modèle de l’entonnoir résout le paradoxe de Levinthal par le fait qu’il y a effectivement un
grand nombre de voies de repliement mais le principe d’Anfinsen est respecté puisque la
structure native est la plus stable.
38
figure 18 : Diagramme en entonnoir du repliement d'une protéine. La largeur de l'entonnoir
représente l'entropie et la profondeur l'énergie.
IV.2 Les différents modèles de repliement proposés
Un grand nombre de modèles de repliement protéique sont proposés suivant les différentes
approches d’étude utilisées.
Le modèle de la charpente (framework model) postule que les structures secondaires sont
formées avant la structure tertiaire [Ptitsyn; 1991]. Ce modèle laisse supposer qu’il n’existe
qu’un seul chemin menant de la chaîne polypeptidique à la protéine native.
Le modèle d’effondrement hydrophobe (hydrophobic collapse) proposé par Dill [Dill; 1990]
suggère que la chaîne polypeptidique subit un effondrement, en regroupant des acides aminés
hydrophobes, formant le cœur de la protéine, suivi de la formation des structures secondaires
et tertiaires. Une variante, le modèle de la fermeture éclair hydrophobe [Dill, et al.; 1993]
suggère que la formation des structures secondaires et l’effondrement sont simultanés.
Etat du globule fondu
Intermédiaires de repliement
Début de la formation de l’hélice et du collapsus
Structure native
Entropie
Energie
39
Le modèle de diffusion-collision présenté par Karplus et Weater en 1994 [Karplus & Weaver;
1994] postule la formation de microdomaines de repliement qui entrent en collision par un
processus de diffusion pour former des domaines de tailles supérieures, jusqu’à la structure
native.
Le modèle de nucléation-condensation tient compte de la coopérativité du repliement. C’est
un modèle intermédiaire entre le modèle de la charpente et le modèle d’effondrement
hydrophobe [Daggett & Fersht; 2003b].
Le modèle du puzzle (Jigsaw Puzzle model) [Harrison & Durbin; 1985] introduit la notion de
repliement ne passant pas par un chemin unique. Puisque le nombre de conformations des
protéines dénaturées est grand, il existe plusieurs chemins pour arriver à la conformation
native unique. Le repliement est alors considéré comme l’assemblage en puzzle de ces
différents chemins.
Suivant les résultats expérimentaux ou théoriques obtenus, on choisit l’un ou l’autre modèle
pour décrire le repliement de la protéine étudiée. Les informations obtenues pour éclairer le
problème du repliement des protéines peuvent porter sur l’état natif, les états intermédiaires,
le globule fondu (ou état partiellement replié) ou l’état dénaturé.
IV.3 Le repliement in vivo
Les différents modèles proposés dans le paragraphe précédent sont des modèles de repliement
qui ne prennent pas en compte les conditions in vivo, c’est-à-dire les conditions dans le milieu
cellulaire riche en molécules et en ions. Trois types de protéines auxiliaires peuvent aider les
polypeptides à se replier pour prendre leurs conformations natives.
Les protéines disulfure isomérases catalysent les réactions d’échange entre les liaisons
disulfure. Les peptidyl prolyl cis-trans isomérases permettent à certaines prolines en
conformation trans de passer en conformation cis, accélérant ainsi le repliement des
polypeptides contenant des résidus proline. Les protéines chaperonnes empêchent les
protéines dans leur état dénaturé de former des agrégats intra ou intermoléculaires. Elles se
lient aux nombreuses surfaces hydrophobes dans les structures dénaturées exposées au solvant
puis se détachent de façon à faciliter le repliement.
40
IV.4 Modèles théoriques pour étudier le repliement
La compréhension théorique du repliement des protéines est basée sur trois types d’approche
différents : les modèles de réseaux simples, les modèles discrets hors réseau et les dynamiques
moléculaires tenant compte de la description de tous les atomes (voir la revue de Pande et al.
[Pande, et al.; 1998]).
Les modèles de simples chaînes soumises à des potentiels très simplifiés dans un réseau
décrivent les propriétés physiques générales du problème mais ne donnent pas d’information
au niveau atomique. Ainsi, on peut obtenir tous les états énergétiques et décrire toute la
surface énergétique. Les réseaux cubiques, dans lesquels les protéines sont représentées par
des chaînes dont seules les interactions entre paires en contact sur le réseau sont prisent en
compte, permettent de donner des indices sur la sélection des minima globaux.
Les modèles atomistiques traitent plus souvent la dénaturation que le repliement des protéines
[Fersht & Daggett; 2002].
En effet, mis à part pour les protéines qui se replient très vite comme la protéine En-HD
étudiée par Mayor et al. [Mayor, et al.; 2000] [Mayor, et al.; 2003], les temps de repliement
protéique de l’ordre de la milliseconde sont incompatibles avec les simulations de dynamique
moléculaire, restreintes à l’échelle de la microseconde [Daggett; 2000], alors que la
dénaturation des protéines à hautes températures (à 225°C) peut avoir lieu en moins d’une
nanoseconde.
Par ailleurs, la structure initiale lors des études de dépliement est la structure native qui est la
structure très bien caractérisée, contrairement à une structure dépliée.
Ces deux processus (dépliement et repliement) réversibles se complètent mais il convient de
rester prudent quant à l’interprétation du dépliement sous de fortes contraintes, comme une
température élevée, qui ne correspondent pas aux conditions de repliement physiologique
[Finkelstein; 1997]. Cependant, la dynamique moléculaire où une contrainte impose le
dépliement de la chaîne protéique, couplée avec les données expérimentales de RMN, permet
de caractériser les états partiellement dépliés [Daggett & Fersht; 2003a] comme par exemple,
celui de l’ubiquitine dans 60% de méthanol [Alonso & Daggett; 1995] ou celui de la barnase
thermiquement dépliée [Bond, et al.; 1997].
41
L’étude du repliement par dynamique moléculaire se développe. Les exemples du repliement
d’un peptide de 36 résidus [Duan & Kollman; 1998] et celui d’une petite protéine de 61
résidus [Mayor, et al.; 2003] montrent que la dynamique moléculaire permet d’obtenir des
informations au niveau atomique non accessibles expérimentalement. Toutefois, le coût en
temps de calcul reste grand et seuls des petits systèmes peuvent être abordés.
42
V Dépliement des protéines
Le dépliement des protéines est l’approche inverse du repliement des protéines. L’étude du
mécanisme de dénaturation des protéines peut donner des informations sur le mécanisme de
repliement, ses dernières étapes et ses états intermédiaires. De plus, le début du dépliement est
caractéristique de la structure tridimensionnelle des états natifs des protéines, de leur stabilité
et de leur dynamique. Il donne aussi des informations sur les états intermédiaires et les
dernières étapes du repliement.
V.1 Provoquer un dépliement in vitro
Un grand nombre d’expériences ont été mises en œuvres pour comprendre le dépliement des
protéines. La dénaturation des protéines se fait alors soit par l’action de produits chimiques
(urée, hydrochloride de guanidine, solvants organiques, corps salins ou détergents comme le
dodecylsulfate de sodium), soit par un changement des propriétés physiques du milieu
extérieur (température, pression, pH…) ou encore en exerçant une force externe sur la
protéine (nanomanipulations).
V.1.1 Contraintes globales
• Les détergents
Les détergents sont des molécules amphiphiles dont la tête polaire reste en contact avec l’eau
et la queue apolaire interagit avec les chaînes protéiques. L’ajout de détergents dans le milieu
dénature les protéines en supprimant la stabilisation due aux effets hydrophobes au sein de la
protéine.
Les solvants organiques solubles dans l’eau comme l’éthanol ou l’acétone font en général
précipiter les protéines de par les effets hydrophobes.
• Les dénaturants
La dénaturation avec l’urée ou l’hydrochloride de guanidine (figure 19) se fait par la création
de liaisons hydrogène entre le dénaturant et la protéine. Ces liaisons pouvant être plus
nombreuses dans l’état dénaturé, celui-ci est stabilisé par rapport à l’état natif. La protéine
reste en général soluble mais dépliée.
43
figure 19 : Dénaturants.
• La température
Il suffit en général d’un petit écart de température pour dénaturer les protéines car la
différence d’enthalpie libre entre la structure native et les structures dénaturées est facilement
accessible.
L’expression de l’enthalpie libre de dépliement (N <=> U) en fonction de la température est la
suivante :
))ln()((refTT
refprefref TTTCSTHG −−∆+∆−∆=∆
avec ∆Href et ∆Sref les valeurs respectives de l’enthalpie et de l’entropie du dépliement à la
température de référence Tref. ∆Cp est la variation de la capacité calorifique entre l’état natif et
l’état dénaturé. On suppose que cette dernière ne varie pas avec la température dans les
gammes que nous allons discuter.
La figure 20 représente des courbes de variation d’enthalpie libre entre l’état natif et l’état
dénaturé en fonction de la température. Lorsque ∆G est positif, la structure stable est celle de
l’état natif. Les températures Tm correspondant à ∆G = 0 kcal.mol-1 sont appelées
température de demi-transition de dénaturation, elles correspondent aux températures où sont
en équilibre autant de molécules sous la forme native que de molécules sous la forme dépliée.
La courbe ∆G(T) de la protéine B en solution aqueuse coupe une seule fois l’axe ∆G=0, la
protéine B se déplie si on augmente la température. Quant à la protéine A en solution aqueuse,
la courbe coupe deux fois l’axe des abscisses, elle se déplie si on augmente la température
mais aussi si on abaisse la température. En général, le maximum de la courbe (correspondant
à ∆S=0) se trouve pour des températures avoisinant la température physiologique. Même si la
protéine A a une température de demi-transition de dénaturation (TmA) plus grande que celle
de la protéine B (TmB), la protéine B est plus stable à 25°C. Ceci montre que la stabilité des
44
protéines à température ambiante ne détermine pas la valeur de la température de transition
Tm.
figure 20 : Énergie libre en fonction de la température pour deux protéines hypothétiques A et
B. Pour la protéine A (en pointillés), on a pris ∆H = 100 kcal.mol-1 à 80°C,
∆S = 0,3 kcal.mol-1.K-1 à 80°C et ∆Cp = 2 kcal.mol-1.K-1. Pour la protéine B (en plein), on a
pris ∆H = 100 kcal.mol-1 à 60°C, ∆S = 0,28 à 60°C, ∆Cp = 2,8 kcal.mol-1.K-1. TmA et TmB
sont les températures de demi-transition de dénaturation. Le graphe a été construit d’après
[Freire; 2001].
Nous venons de voir que les protéines se déplient si on augmente la température et que
certaines protéines se dénaturent aussi à basse température. Ainsi, les protéines ne sont stables
et fonctionnelles que dans une petite fourchette de température (en général de quelques
dizaines de degrés d’amplitude).
°
45
• Le pH
Le dépliement des protéines peut se faire en augmentant ou diminuant le pH du milieu. En
effet le pH influence la protonation et les charges des groupements chimiques. Souvent, le
changement de pH augmente les forces électrostatiques répulsives.
• La pression
Le dépliement sous pression hydrostatique est une méthode réversible de dénaturation qui
peut être combinée avec l’ajout d’un dénaturant [Perrett & Zhou; 2002]. Une pression élevée
induit le dépliement des protéines car le système protéine-solvant de l’état dénaturé occupe un
plus petit volume que celui de la forme native. Cette approche a permis une compréhension
sur l’origine du changement de volume observé lors de la dénaturation (qui est de l’ordre de
1%). Ainsi l’étude des cavités de la nucléase du staphylocoque montre que les effets de
volumes exclus dans les protéines sont la raison déterminante du changement de volume lors
du dépliement [Frye & Royer; 1998].
V.1.2 Nanomanipulations
Depuis une dizaine d’années, le développement des expériences sur molécules uniques a
permis de déterminer quelques caractéristiques mécaniques de ces molécules. Ces expériences
consistent à attacher des molécules uniques sur des surfaces, des fibres en verre, des
microbilles ou d’autres supports pour pouvoir y appliquer une force. De telles approches
expérimentales se sont portées sur des ADN [Bryant, et al.; 2003] [Smith, et al.; 1996]
[Cluzel, et al.; 1996] [Bustamante, et al.; 2003], des ARN [Liphardt, et al.; 2001], des
complexes ADN-protéines [Dohoney & Gelles; 2001], des complexes protéine-ligand [Florin,
et al.; 1994], des brins de polysaccharides [Rief, et al.; 1997b] ou des protéines comme par
exemple la titine, la tenascine, la spectrine et la fibronectine (voir la revue de Smith et al.
[Smith, et al.; 2003]).
La première protéine à avoir été étirée mécaniquement est la titine, une protéine géante du
muscle comportant environ 300 domaines immunoglobuline (Ig) et fibronectine type III
connectés par des régions PEVK [Rief, et al.; 1997a, Tskhovrebova, et al.; 1997]. Les
différents domaines de la titine peuvent se déplier de manière importante si une force critique
est appliquée. Pour s’affranchir de la complexité des protéines multidomaines naturelles, un
certain nombre de polyprotéines synthétiques contenant un nombre restreint de domaines ont
été étudiées [Brockwell, et al.; 2002, Fisher, et al.; 2000]. Par exemple, le dépliement d’un
46
polymère du domaine Ig de la titine a été étudié en tirant entre les deux extrémités [Rief, et
al.; 1997a]. Une des extrémité est attachée à une plaque d’or fixe et l’autre à la pointe d’un
appareil AFM (Atomic Force Microscopy). On obtient alors des graphes force-extension en
dents de scie comme ceux du gauche de la figure 21. Chaque pic est provoqué par le
dépliement d’un domaine Ig. Le schéma de droite de la figure 21 explicite la correspondance
entre les pics et la structure du polymère. La force augmente jusqu’à atteindre une valeur
maximum (150-300 pN) correspondant à la force nécessaire pour qu’un domaine se déplie
(point 1). Le dépliement provoque une diminution brutale de la force à cause d’une
augmentation de la longueur du polymère (point 2). Puis le déplacement de la pointe de
l’AFM continue jusqu’à obtenir une force permettant de déplier un nouveau domaine (point
3). Sur la figure de gauche, le modèle WLC (Worm-Like Chain model) permet de modéliser
les portions montantes de la courbe et la distance entre deux sommets permet de prédire que
chaque domaine mesure 28-29 nm de long lorsqu’il est étendu.(L’étude de la forme globale de
la courbe a été effectué par Evans et Ritchie [Evans & Ritchie; 1997] et celle des états
intermédiaire par des études de dynamique moléculaire [Gao, et al.; 2001, Gao, et al.; 2002]).
figure 21 : Graphe de l'étude sur molécule unique d'un poly-Ig de la titine tiré de l’article de
Rief et al. [Rief, et al.; 1997a]. À gauche, graphe force/extension en dent de scie d’un hexa-
Igdomain avec les courbes du modèle WLC pour l’analyse des pics. À droite, schéma
correspondant corrélant les pics aux différentes étapes du dépliement du polymère.
47
La valeur de la force de dépliement, maximum des courbes, dépend de la vitesse à laquelle le
domaine est étiré. La courbe de la force de dépliement en fonction de la vitesse est une droite
dont la pente permet de déterminer la constante de vitesse de dépliement des molécules
étudiées. L’analyse de ces courbes pour différents mutants permet d’obtenir des informations
sur les intermédiaires de repliement. Ainsi, l’étude de mutants du domaine immunoglobuline
de la titine a permis de mettre en évidence un intermédiaire de dépliement ainsi que des états
de transition [Williams, et al.; 2003 ]. Les auteurs ont pu montrer que, sous une faible vitesse,
la barrière principale à franchir est celle caractérisée dans les études de dépliement sous l’effet
de dénaturants. Au contraire, sous des contraintes plus fortes, l’état intermédiaire est plus
peuplé et résistant au dépliement et qu’il faut donc des forces plus grandes pour que le
dépliement se produise.
Il a été montré que les constantes de force de dépliement obtenues par dépliement mécanique
et celles obtenues par dénaturation chimique sont du même ordre et que les chemins de
dépliement sont similaires [Carrion-Vazquez, et al.; 1999]. Mais ces résultats sont critiquables
car on peut difficilement comparer le dépliement d’un monomère sous l’action des agents
chimiques avec celui d’un polymère sous une contrainte physique [Smith, et al.; 2003]. En
effet, les coordonnées de réaction ne sont pas comparables : c’est en général la surface
accessible au solvant pour les expériences de dénaturation chimique [Myers, et al.; 1995] et la
distance entre les deux points d’attache dans les expériences de nanomanipulation.
Même si les expériences sur molécules uniques donnent des renseignements intéressants sur
la résistance au dépliement, les domaines de la protéine résistant le mieux aux contraintes,
l’existence et la caractérisation d’intermédiaires de dépliement et sur l’effet des mutations
[Williams, et al.; 2003 ], elles s’avèrent difficiles à mettre en œuvre pour une étude
systématique des protéines et n’offrent pas une connaissance de ce qui se déroule au niveau
atomique. La modélisation moléculaire et la dynamique moléculaire peuvent permettre de
pallier ces carences par la représentation atomique des molécules et la possibilité d’étudier
tout type de protéine.
48
V.2 Études théoriques
V.2.1 Exemple d’une étude par dynamique moléculaire et données
expérimentales
La combinaison des études expérimentales et des simulations de dynamique moléculaire
permet de caractériser l’état natif, de transition et déplié. Les simulations permettent de
connecter ces états à une description du chemin de repliement. Nous allons prendre le cas de
l’inhibiteur 2 de la chymotrypsine (CI2) traité par Daggett [Daggett; 2001]. CI2 est une petite
protéine de 64 acides aminés qui se replie suivant le schéma à deux états (l’état déplié est en
équilibre avec l’état natif sans passer par des intermédiaires). L’état de transition
correspondant à la structure la plus haute en énergie dans le chemin de repliement est donc
une donnée importante pour comprendre ce chemin.
En dynamique moléculaire, la première étape est de bien caractériser l’état natif pour pouvoir
ensuite le comparer aux états obtenus sous contrainte. Les auteurs ont traité une simulation de
plusieurs nanosecondes (5,3 et 35 ns) de l’état natif dans les conditions natives. Ils ont montré
que la simulation reproduisait la majorité des mesures de couplages NOE observées par RMN
et des comportements d’échange d’hydrogène des amides et que la chaîne principale restait
proche de celles de la structure cristallographique et de la RMN.
L’état de transition a été étudié avec un grand nombre de techniques expérimentales. En
particulier, plus d’une centaine de mutations ont été étudiées tout au long de la protéine
[Itzhaki, et al.; 1995a, Itzhaki, et al.; 1995b]. De plus, le repliement et le dépliement ont été
observés montrant que l’état de transition était le même dans les deux phénomènes. L’état de
transition a une surface accessible au solvant 40% plus grande que celle de l’état natif ;
environ 50% des résidus hydrophobes restent enterrés et environ 30% des interactions des
chaînes latérales restent intactes. Les expériences d’échange de proton montrent que le
dépliement se fait de manière globale ce qui est en corrélation avec les résultats de repliement
observés par RMN où tous les pics apparaissent en même temps.
Quatre simulations de dépliement ont été réalisées à partir d’états natifs tirés des structures
RMN ou cristallographiques. Les quatre états de transition identifiés se ressemblent et seuls
les chemins après le passage de l’état de transition divergent. L’état de transition est assez
proche de l’état natif et on retrouve des propriétés similaires entre ces états issus de la
dynamique moléculaire et ceux étudiés expérimentalement. Ainsi les indices structuraux
49
locaux, produits des pourcentages locaux des structures tertiaires et secondaires dans les
structures de l’état de transition par rapport à la structure native [Daggett, et al.; 1996],
corrèlent avec un coefficient de 0,9. On peut aussi faire l’étude de mutants en dynamique
moléculaire et retrouver des résultats obtenus expérimentalement. Certaines mutations
permettent ainsi d’accélérer le repliement en stabilisant l’état de transition et l’étude atomique
de l’état par dynamique moléculaire permet de prédire ces mutations qui peuvent ensuite être
testées expérimentalement.
D’après les études RMN, l’état dénaturé de CI2 est largement non structuré, à part quelques
domaines restés faiblement structurés. On peut également retrouver ces informations dans les
études de dépliement de dynamiques moléculaires menées jusqu’à l’état dénaturé.
En conclusion, les méthodes expérimentales et théoriques donnent en général des résultats
similaires et montrent qu’il existe une seule famille d’états de transition, excluant les
hypothèses de chemins parallèles. CI2 se replie par un mécanisme de nucléation-
condensation/collapse. En outre, la dynamique moléculaire permet de proposer des mutations
pouvant accélérer le repliement et donne des détails sur les différents états. Par contre,
contrairement à l’expérience où tous les cas sont échantillonnés, la dynamique moléculaire ne
donne qu’un exemple de chemin de repliement. C’est une combinaison des deux approches
théorique et expérimentale qui permet d’élucider les mécanismes de repliement/dépliement.
V.2.2 Études théoriques du dépliement
Les nombreuses études théoriques qui ont été menées lors de la dernière décennie afin de
reproduire les résultats expérimentaux de nanomanipulation et d’obtenir de nouvelles
informations structurales au cours du dépliement de la molécule sont basées sur des méthodes
de minimisation d’énergie en coordonnées internes [Lavery & Lebrun; 1999] [Rohs, et al.;
1999] ou de dynamique moléculaire [Lu & Schulten; 2000] [Izrailev, et al.; 1997] [Paci &
Karplus; 1999] [Bryant, et al.; 2000] dans lesquelles les forces appliquées à la biomolécule
sont représentées par l’introduction de contraintes supplémentaires intégrées au champ de
force. Dans la plupart des cas, les simulations (comme les études expérimentales auxquelles
elles sont liées) ont consisté à étirer la protéine selon une direction privilégiée (souvent
déterminée par les résidus C-terminaux et N-terminaux). Elles correspondent de fait à la
réponse à une sollicitation donnée de la molécule et ne fournissent donc que des informations
partielles sur ses propriétés mécaniques. Or des études récentes, où le choix des points
d’attachement des protéines étirées était contrôlé, ont montré que la résistance au dépliement
50
mécanique dépend de la direction de la force appliquée [Brockwell, et al.; 2003, Carrion-
Vazquez, et al.; 2003, Matouschek & Bustamante; 2003].
Il est donc nécessaire d'imaginer des contraintes permettant un dépliement de la protéine sans
pour autant imprimer une direction particulière à cette déformation. Différentes approches ont
été mises au point utilisant des contraintes environnementales comme la température
[Kazmirski & Daggett; 1998], le rayon de giration [Paci, et al.; 2001], la pression
[Hunenberger, et al.; 1995] ou des contraintes géométriques. Une contrainte de ce type a été
utilisée par Gilquin et collaborateurs [Gilquin, et al.; 2000] afin d'étudier le chemin de
dépliement du lysozyme de l'œuf à l'aide d'une expérience de dynamique moléculaire. Elle
correspond à augmenter graduellement le RMSD entre la structure et une structure de
référence.
Une partie du travail présenté ici a été de développer des contraintes similaires dans le
programme LIGAND, programme de minimisation d’énergie en coordonnées internes.
51
VI Rigidité et flexibilité des protéines
Des conditions environnementales (température, pH, salinité…) peuvent influencer la
flexibilité des protéines et leur stabilité. Une rigidité structurelle suffisante préserve la forme
native unique et spécifique de la protéine. Quant à la flexibilité interne, elle permet son bon
fonctionnement (comme l’activité enzymatique des enzymes). Il est donc très important que
les protéines gardent une certaine flexibilité pour conserver leur activité biologique. Une
protéine est donc stable si les conditions extérieures lui permettent de ne pas se déplier mais
aussi d’être toujours active.
VI.1 Dynamique des protéines
L’étude par diffraction des rayons X ne fournit que des structures statiques des protéines.
Pourtant les protéines sont flexibles et leur activité biologique dépend de cette flexibilité. La
dynamique a lieu sur un large domaine temporel dont les différents mouvements sont cités
dans le tableau ci-dessous.
Mouvements Amplitude (Å) Log10 du temps
caractéristique (s)
Vibrations atomiques 0,01 à 1 -14 à –13
Vibrations élastiques de régions globulaires 0,05 à 0,5 -12 à –11
Rotations des chaînes latérales exposées 5 à 10 -11 à –10
Rotations des chaînes latérales enfouies 5 -4 à 0
Transitions allostériques 1 à 5 -5 à 0
Dénaturation locale 5 à 10 -5 à 1
52
Les mouvements qui contribuent à la dynamique des protéines sont dus à divers mécanismes :
mouvements de type vibratoire, mouvements d’ensemble de domaines, mouvements de
diffusion. Les vibrations atomiques sont des mouvements très rapides de l’ordre de la
picoseconde ou moins. Les mouvements entre domaines sont attendus dans les protéines dans
lesquelles des parties de la structure peuvent bouger les unes par rapport aux autres sur
plusieurs angströms. Les régions entre les domaines constituent des charnières en référence
aux charnières des portes liant deux parties bougeant l’une par rapport à l’autre.
VI.2 Facteurs de température
Une manière de mesurer la flexibilité des domaines d’une protéine est de regarder les facteurs
de température. Si la résolution de structure de la protéine obtenue par rayons X est
suffisamment bonne, les facteurs de température de chacun de ses atomes sont disponibles
dans les fichiers diffusés sur la banque de données Protein Data Bank [Berman, et al.; 2000].
Le facteur de température est un facteur correctif qui rend compte du fait que les noyaux des
atomes n’ont une position fixe que s’ils sont à la température du zéro absolu. À la température
de l’expérience, les noyaux oscillent autour de leur position d’équilibre.
La relation mathématique entre le facteur de température Bj et la valeur moyenne du
déplacement de l’atome j ( )2jRr
∆ est la suivante [van Meerssche & Feneau-Dupont; 1984] :
( )22
38
jj RBr
∆Π=
Cette équation montre que les facteurs de température sont positifs et leur dimension est celle
d’une surface. Plus le facteur de température d’un atome est grand, plus son noyau oscille
autour de sa position d’équilibre, plus cet atome fluctue.
Les facteurs de température sont des grandeurs expérimentales qui peuvent être calculées de
manière théorique avec la donnée des fluctuations moyennes des atomes.
53
Chapitre 4 Méthodologie
Nous allons décrire dans cette partie les différentes approches théoriques que nous avons
utilisées pour étudier les propriétés mécaniques des protéines. Suivant la taille des protéines et
les informations que l’on veut obtenir on choisit une description plus ou moins fine du
système (la protéine étudiée et son environnement). La description du système peut se faire
dans l’espace des coordonnées cartésiennes où chaque atome est décrit par la donnée des trois
coordonnées x, y, z dans un repère orthonormé. Le programme AMBER (Assisted Model
Building with Energy Refinement) [Pearlman, et al.; 1995] est un programme de mécanique
moléculaire (minimisation et calculs de modes normaux) et de dynamique moléculaire qui
travaille dans cet espace. Les coordonnées internes, où chaque atome est défini par rapport
aux autres atomes du système avec la donnée de distances et d’angles basée sur la structure
chimique, représentent une alternative utilisée dans le programme LIGAND [Lavery, et al.;
1986a, Lavery, et al.; 1995b], programme de minimisation d’énergie. On peut aussi décrire le
système sans tenir compte de tous les atomes. GNM (Gaussian Network Model), ANM
(Anisotropic Network Model) et GNMlig sont des programmes utilisant une description
granulaire du système pour faire des études de modes normaux et de la mécanique
moléculaire.
54
VII Champ de force
Compte tenu de la taille des systèmes étudiés en biologie, l'utilisation de la mécanique
quantique n'est pas possible. Les macromolécules sont représentées comme un ensemble
d’atomes ponctuels dont les interactions sont décrites par un potentiel semi-empirique ou
champ de force. On appelle champ de force le modèle mathématique représentant l'énergie
potentielle d'une molécule en mécanique moléculaire. Sous ce terme sont en fait regroupés
deux éléments : d'une part l'expression des différentes fonctions contribuant au calcul
énergétique et d'autre part les valeurs des différentes constantes paramétrant ces fonctions.
Ce potentiel empirique dans le programme AMBER est constitué de deux parties représentant
les interactions entre atomes non liés (électrostatique et Lennard-Jones) et les interactions
entre atomes liés (représentation harmonique des déformations des liaisons, des angles de
valence et des barrières énergétiques des angles de torsion propres et impropres). Il faut noter
que le nom « AMBER » est donné au programme mais aussi au champ de force utilisé dans le
programme. Les paramètres que nous avons utilisés sont les paramètres parm99 [Wang, et al.;
2000].
L’expression du champ de force AMBER est de la forme suivante [Cornell, et al.; 1995,
Cornell, et al.; 1996] :
LJélecimpropredièdresanglesliaisonsAmber EEEEEEE +++++=
avec :
( )∑ −=l
lliaisons llkE 20
( )∑ −=θ
θ θθ2
0kEangles
( )[ ]∑ ++=φ
γφφ nCosVE ndièdres 12,
55
( )[ ]∑ ++=impropres
impropresnimpropreimpropres nCosVE
φγφφ 12
,
∑<
⎟⎟⎠
⎞⎜⎜⎝
⎛=
ji ij
jielijélec
rqqfE
ε
∑< ⎟
⎟⎠
⎞⎜⎜⎝
⎛⎟⎠⎞
⎜⎝⎛−⎟
⎠⎞
⎜⎝⎛=
ji ijij
ijij
ijlj
ijLJ rr
rrefE
6*
12*
* 2
Le premier terme Eliaisons correspond à l’énergie potentielle de déformation des liaisons
covalentes. Cette énergie est représentée par un potentiel harmonique (approximation justifiée
par le fait qu’à température ambiante les longueurs de liaison fluctuent faiblement autour de
leur position d’équilibre). kl représente la constante de force associée à la liaison, l est la
longueur de la liaison à l’instant calculé et l0 est sa longueur de référence.
Le deuxième terme Eangles constitue l’énergie de déformation des angles de valence. Ce terme
prend également une forme quadratique, θ0 représentant la valeur de référence de l’angle θ et
kθ la constante de force qui lui est associée.
Le troisième terme Edièdres est l’énergie représentant la déformation des angles dièdres.
L’expression de la contribution de chaque angle dièdre est un (ou plusieurs) terme(s) d’une
fonction développée en série de Fourier. L’entier n est l’ordre de la série de Fourier pris en
compte pour l’angle dièdre φ considéré, le réel Vn,φ est la constante de torsion associée et γ
est la phase associée. Edièdres prend déjà en compte une partie des interactions entre atomes
non liés puisqu’il fait intervenir quatre atomes. Ces interactions devront donc être pondérées
dans l’expressions des termes énergétiques entre atomes non liés. Le choix de n dépend du
type de liaison dièdre qu’il décrit. Le premier ordre de la série de Fourier agit sur la
stabilisation des formes de conformation cis ou trans, le deuxième ordre sur la stabilisation
planaire des doubles liaisons entre atomes de type sp2 et le troisième ordre sur la stabilisation
des formes de conformation décalée ou éclipsée (figure 22). Une combinaison des différents
ordres permet de rendre compte de l’effet anomère (ou gauche) qui a lieu par exemple dans
les sucres.
56
figure 22 : Ordres n pour les différents types d'angles.
Le terme énergétique de torsions impropres Eimpropres donne la contribution énergétique des
déformations des torsions impropres formées par trois liaisons. Une torsion impropre est par
exemple l’angle formé par les plans IJK et JKL définis par la figure 23 . Les torsions
impropres sont appelées ainsi car les quatre atomes impliqués ne sont pas linéairement liés.
Ce terme sert à maintenir la planéité de certains groupements tels que le groupement
carbonyle, la valeur de l’ordre n est alors égale à 2. Il permet aussi de maintenir la chiralité
d’un carbone chiral possédant un hydrogène implicite (n est alors égal à 3). La phase γ des
torsions impropres est toujours égale à 180 degrés [Case, et al.; 2002].
figure 23 : Liaisons définissant un angle de torsion impropre IJKL.
Le paramétrage des termes énergétiques que nous venons de présenter est basée en général sur
les données expérimentales obtenues pour de petites molécules. Les valeurs de référence sont
souvent déterminées par des analyses de structures cristallographiques et les constantes de
force par des études de spectroscopie (infrarouge, Raman) ou à l’aide de calculs quantiques.
K
L I
J
57
De même, les valeurs des paramètres n, γ et Vn,φ peuvent être obtenues à l’aide de données
cristallographiques, RMN ou de résultats provenant de mesures de spectroscopie micro-onde.
Les deux derniers termes énergétiques représentent l'interaction à distance entre atomes non
liés, c’est-à-dire séparés par plus de deux liaisons. La somme se fait sur tous les couples
d’atomes i et j non liés. On parle par exemple d'interactions 1-4 (atomes séparés par 3
liaisons), 1-5 (atomes séparés par 4 liaisons)... Ces termes définissent respectivement la
contribution d’énergie électrostatique Eélec et un terme ELJ de type Lennard-Jones pour les
interactions de type van der Waals (vdW) et de répulsion d’échange.
L’expression de l’énergie électrostatique est représentée par un potentiel coulombien où ε est
la constante diélectrique et qi est la charge partielle de l’atome i. La répartition globale des
charges sur une molécule est simplifiée à des charges partielles localisées sur les atomes et
dont la valeur dépend de leur électronégativité. Ces charges partielles sont déterminées par
des calculs sur des petites molécules en utilisant des méthodes quantiques semi-empiriques
ou, plus souvent aujourd’hui, ab initio. Les monopoles atomiques sont ensuite optimisés pour
reproduire au mieux la distribution de potentiel électrostatique autour des molécules en
question.
Le terme de Lennard-Jones est représenté par la somme des énergies résultant des interactions
attractives et répulsives. L’expression de cette énergie est sous la forme d’un potentiel dit
6-12. Le terme en puissance 12 correspond aux paramètres du terme répulsif à courte distance
(reflet de la répulsion des nuages électroniques correspondant aux règles d’exclusion de Pauli)
et le terme en puissance 6 est le terme attractif à une distance moyenne (forces de dispersion
de London, Keeson et Debye résultant de l’induction et de l’attraction de dipôles instantanés).
Les paramètres eij*
et rij* sont respectivement la profondeur du puits de potentiel et la valeur
de la séparation correspondant au minimum énergétique (figure 24). Ces paramètres sont
calculés à partir de mesures thermodynamiques (chaleur de vaporisation).
Afin de diminuer la contribution des interactions de type 1-4 (j=i+3) qui sont déjà prises en
partie dans le terme Ediédres, des facteurs d’échelle égaux à fijel = 1/1,2 et fij
lj = 1/2, sont
appliqués respectivement aux termes d’interactions électrostatiques et Lennard-Jones. Ces
facteurs sont égaux à 1 pour les autres paires d’atomes.
58
figure 24 : Potentiel de Lennard-Jones. Définition des paramètres eij* et rij
*.
0 rij*
eij*
Energie
séparation rij
59
VIII Minimisation
Les programmes AMBER, LIGAND et GNMlig peuvent tous les trois minimiser la fonction
d’énergie du système.
Le rôle de la minimisation dans les programmes de dynamique moléculaire est
essentiellement de relaxer la structure initiale et d’éliminer les mauvais contacts
interatomiques. Ceci permet notamment d’éviter les changements de conformation trop
brusques dès le début d’une dynamique. Les structures « minimisées » correspondent
généralement au minimum local le plus proche de la structure de départ plutôt qu’au
minimum global d’énergie. La minimisation correspond donc à la première étape d’un
protocole de dynamique moléculaire, elle peut être aussi utilisée en alternance avec les phases
d’équilibration (phases de dynamique sous contrainte) de façon à relaxer le solvant et à
accélérer son équilibration autour du soluté.
De même, la minimisation dans les programmes de mécanique moléculaire comme LIGAND
et GNMlig permet de trouver le minimum d’énergie potentielle dans le champ de force étudié
et sous les contraintes imposées. Ces méthodes autorisent généralement des changements de
conformation plus importants grâce à la réduction du nombre et de la nature des variables ou
la simplification du champ de force.
Les méthodes de minimisation sont basées sur le calcul des dérivées de la fonction d’énergie
et utilisent des processus itératifs : à partir de l’énergie potentielle et du gradient, calculés
pour un jeu de coordonnées, ces algorithmes génèrent un nouveau jeu de coordonnées
correspondant à une énergie potentielle plus basse.
Nous allons décrire les deux types de minimisations utilisées d’une part dans le programme
AMBER et d’autre part dans LIGAND et GNMlig.
VIII.1 Gradient simple et conjugué
Les algorithmes de minimisation utilisés dans le programme AMBER sont les méthodes du
gradient simple (« steepest descent ») et du gradient conjugué (« conjugated gradients »).
60
Pour chaque pas de minimisation on détermine le nouveau jeu de positions des atomes
)1( +krr de l’itération suivante (k+1) à partir des positions initiales des atomes )(krr , de la
direction de recherche )(ksr et de la valeur du déplacement α(k) en utilisant la relation :
( ) ( ) ( ) ( )kkkk srr rrr α+=+1
Les deux méthodes diffèrent dans le choix du vecteur direction sr et dans leur vitesse de
convergence. La méthode du gradient simple utilise une direction de recherche correspondant
à l’opposé de la valeur du gradient de l’itération.
)()()(
kgkgks r
rr −=
La recherche se fait donc en suivant la direction où la fonction d’énergie potentielle décroît le
plus. L’incrément donné α(k) est ajusté de façon à suivre l’évolution de l’énergie (si l’énergie
diminue lors d’une itération, la taille du pas est augmentée à l’étape suivante, si elle se met à
augmenter, le pas est alors diminué, faisant l’hypothèse que l’algorithme est en train
d’explorer « le versant opposé d’une vallée énergétique »). Cette méthode est particulièrement
efficace lorsqu’on se trouve loin du minimum, par contre elle adopte généralement un
comportement oscillatoire une fois le fond du puits de potentiel atteint et ne converge alors
que très lentement. On l’utilise donc comme première étape du processus de minimisation, en
effectuant quelques centaines de cycles, pour éliminer les contacts stériques les plus
importants.
La seconde méthode dite du gradient conjugué converge rapidement lorsqu’on se rapproche
du minimum. À la première itération la direction de recherche est choisie comme
précédemment, opposée au plus grand gradient. Par la suite, la direction de recherche s’écrit
comme une combinaison linéaire des directions du gradient de l’étape k et de la direction de
recherche de l’étape précédente (k-1).
( ) ( ) ( ) ( )1−+−= kkkk sbgs rrr avec ( )
( ) ( )( ) ( )11 −− ⋅
⋅=kk
kkk gg
ggb rrrr
(Fletcher-Reeves)
L’incrément α(k) est choisi de façon à minimiser la fonction potentiel le long de la
direction sr .
61
( ) ( ) ( ) ( )kkkk srr rrr α+=+1
L’itération se termine lorsqu’un critère de convergence est atteint. Ce critère peut être
considéré comme atteint lorsque la moyenne quadratique des forces atomiques est plus petite
qu’une valeur choisie par l’utilisateur, typiquement égale à 10-4 kcal.mol-1.Å-1, dans le cas du
programme AMBER, ou lorsque la différence d’énergie estimée pour le pas k+1 est plus
petite qu’une valeur seuil (typiquement de 10-4 kcal.mol-1), dans le cas du minimiseur VA13A
utilisé dans le programme LIGAND.
VIII.2 Quasi-Newton
LIGAND est un programme qui minimise l’énergie conformationnelle du système étudié
avec un algorithme de minimisation de type gradient conjugué quasi-Newtonien (Harwell
VA13A) déjà utilisé dans le programme JUMNA pour les études sur l’ADN [Cluzel, et al.;
1996, Lavery, et al.; 1995b, Lebrun & Lavery; 1996].
Alors que la procédure du gradient n’utilise comme information que la pente, la méthode de
Newton utilise la pente et la courbure (c’est-à-dire la dérivée seconde de l’énergie). Cette
procédure est par conséquent optimale pour minimiser des fonctions quadratiques puisque
celles-ci sont uniquement définies par ces deux quantités.
Les nouvelles coordonnées sont alors données par l’équation suivante :
( ) ( ) ( ) ( )kkkk srr rrr α−=+1
avec α(k) le pas d’adaptation et sr la direction donnée par :
( ) ( )kkk gHs rr 1)(
−=
où H-1 est l’inverse de la matrice hessienne H du potentiel V avec
[ ]ji
ij xxkVkH
∂∂∂= )()(
62
Le hessien fait tourner le vecteur gradient de sorte que sr pointe vers la direction du minimum.
La matrice hessienne n’est pas calculée de façon analytique mais estimée en cours
d’algorithme.
Les algorithmes de minimisation nécessitent un calcul analytique des dérivées premières de
l’énergie de conformation par rapport à toutes les variables indépendantes définissant le
système étudié. On obtient ces dérivées en exprimant de façon analytique les forces atomiques
(obtenues par dérivation de l’énergie par rapport aux déplacements atomiques) et des
moments des forces agissant sur chaque atome. Pour les programmes en coordonnées internes
comme LIGAND, les dérivées par rapport aux coordonnées internes sont alors obtenues en
combinant les forces sur les atomes contribuant à ces variables [Lavery, et al.; 1986a]. Sous
l’action de l’ensemble des forces atomiques, les différentes parties de la molécule se
déplacent les unes par rapport aux autres par translation et rotation.
63
IX Dynamique moléculaire
Les simulations de dynamique moléculaire donnent la possibilité d’observer le comportement
d’un système en fonction du temps. Elles permettent aussi d’échantillonner un espace
conformationnel important, inaccessible aux expériences de minimisation d’énergie. En effet,
l’énergie totale du système se décompose en énergie potentielle décrite par le champ de force
et en énergie cinétique liée à la température du système. L’apport d’énergie cinétique sous
forme de température permet d’exciter le système et de lui faire quitter le minimum local
atteint au cours de la minimisation. Le système ayant accumulé suffisamment d’énergie peut
alors explorer l’espace conformationnel et effectuer des transitions de conformations par sauts
de barrières énergétiques successives. Nous avons donc utilisé les expériences de dynamique
moléculaire afin d’obtenir des structures stables et de basses énergies. Nous avons pour cela
utilisé la version 7.0 [Case, et al.; 2002] du programme de dynamique moléculaire AMBER.
IX.1 Résolution de l’équation du mouvement
En dynamique moléculaire, les configurations successives du système étudié sont générées
grâce à la résolution des équations du mouvement de Newton. Il en résulte la trajectoire qui
spécifie les positions (coordonnées cartésiennes) et les vitesses des atomes qui décrivent le
système au cours du temps.
La force iFr
s’appliquant sur l’atome i est calculée en dérivant la fonction d’énergie
potentielle Ep par rapport aux coordonnées cartésiennes de cet atome : i
pi r
EF rr
∂∂−= .
Pour chaque atome i de masse mi, la force iFr
exercée par l’ensemble du système sur cet
atome vérifie l’équation du mouvement de Newton :
2
2
dt
rdmF i
ii
rr
=
L’équation ci-dessus est un système d’équations différentielles du deuxième ordre dont une
solution discrétisée peut être obtenue à l’aide d’un développement de Taylor. A partir de la
64
connaissance des positions et de toutes leurs dérivées à l’instant t, les positions à l’instant
(t±∆t), où ∆t représente le pas d’intégration, sont données par :
( ) ( ) ( ) ( ) ( ))(62
43
33
2
22tO
ttrt
ttrt
ttrttrttr iii
ii ∆+∂
∂∆±
∂∂∆
+∂∂∆±=∆±
rrrrr
Dans le cas du programme AMBER l’algorithme choisi est l’algorithme de Verlet [Verlet;
1967]. En additionnant les deux expressions (+∆t et -∆t), on obtient la valeur des coordonnées
à l’instant t+∆t en fonction de celles à l’instant t-∆t et de celles à l’instant t :
( ) ( ) ( ) ( ) )(2 42 tOtattrttrttr iiii ∆+×∆++∆−−=∆+rrrr
Et en soustrayant les deux expressions (+∆t et -∆t), on obtient la vitesse à l’instant t :
( ) ( ) ( ) )(22tOt
ttrttrtv iii ∆+⎥⎦
⎤⎢⎣⎡
∆∆−−∆+=
rrr
Où ( )tvir
et ( )tair
sont respectivement les composantes de la vitesse et de l’accélération.
On voit que pour déterminer la position de la particule à un temps (t+∆t), il faut connaître
ses deux positions précédentes et son accélération à l’instant t. L’initialisation de l’algorithme
passe par une attribution, à chaque atome, de vitesse aléatoire à l’instant t0 selon une
distribution de Maxwell-Boltzmann à la température initiale souhaitée.
La valeur de ∆t doit être inférieure à celle de la période des mouvements les plus rapides du
système et doit permettre de garder constante l’énergie totale du système.
L’utilisation de l’algorithme SHAKE [Ryckaert, et al.; 1977] permet d’augmenter ∆t en
éliminant les oscillations les plus rapides associées aux liaisons chimiques, notamment de
type X-H qui ont une période de l’ordre de 10 fs. Cet algorithme s’applique de façon itérative
et permet de limiter les variations des longueurs de liaison dans la limite d’un critère de
convergence choisi. En appliquant cet algorithme aux liaisons X-H, il est généralement
possible d’employer un pas d’intégration de 2fs.
65
IX.2 Ensemble NPT
La définition d’un protocole de simulation commence par la définition de l’ensemble
thermodynamique utilisé pour le système. Les trois ensembles thermodynamiques les plus
communément utilisés dans les simulations de dynamique moléculaire sont :
- l’ensemble microcanonique (NVE),
- l’ensemble canonique (NVT), et
- l’ensemble isotherme-isobare (NPT)
Selon l’ensemble choisi, trois grandeurs thermodynamiques sont conservées, N le nombre de
particules, V le volume, P la pression ou T la température du système. L’ensemble canonique
NVT est le plus simple à implémenter, même si l’ensemble microcanonique NVE semble
théoriquement le mieux adapté aux simulations de dynamique moléculaire puisque, par
définition, l’énergie totale du système doit être conservée au cours de la simulation.
Cependant, des fluctuations ou de faibles dérives de l’énergie totale du système sont souvent
observées après quelques nanosecondes de simulation. Ces perturbations sont principalement
causées par l’accumulation d’erreurs numériques au cours de l’intégration des équations de
Newton et par les approximations faites au cours du temps lors de la troncature des
interactions non liées [Allen & Tildesley; 1987, Frenkel & Smit; 2002, Leach; 2001].
Du fait de sa simplicité d’application nous avons effectué l’étape de thermalisation (chauffage
du système) ainsi qu’une partie des étapes d’équilibration sous contraintes dans l’ensemble
canonique (NVT). Par ailleurs, afin de contrôler les dérives de température et/ou de pression
résultantes des erreurs de troncature des interactions à longue distance, nos simulations ont été
effectuées dans l’ensemble NPT.
La température est définie par rapport aux vitesses atomiques suivant l’équation suivante :
b
N
i ii
Nk
vmT
31
2∑==
r
où N est le nombre d’atome et kb la constante de Boltzmann.
La méthode utilisée pour maintenir la température constante consiste à coupler le système à
un réservoir externe de température [Berendsen, et al.; 1984]. Dans ce couplage à un bain
66
thermique, on modifie les équations du mouvement et on met en place une relaxation du
premier ordre pour la température par rapport à sa valeur de référence T0. On fait de même
pour maintenir la pression constante où P est déterminée par l’équation suivante :
⎟⎟⎠
⎞⎜⎜⎝
⎛+= ∑∑
==
N
iii
N
iii FrvmVP
11
221
32 rrr
IX.3 Conditions périodiques
Les molécules d’eau sont additionnées autour de la protéine dans une boîte de forme
polygonale. Par exemple, les boîtes octaédriques tronquées (figure 25) sont particulièrement
bien adaptées pour les systèmes à géométrie sphérique comme les protéines mais aussi pour
les solutés allongés (comme les fragments d’ADN) si on ne souhaite pas bloquer leur rotation
au sein de la cellule de simulation. (Elles permettent de minimiser le nombre de molécules
d’eau à rajouter par rapport à une boite sphérique.) On peut aussi ajouter des ions de manière
aléatoire pour assurer l’électroneutralité du système.
figure 25 : boîte octaédrique tronquée
Dans les simulations des macromolécules en solution, la taille finie du système pose des
problèmes d’effets de bords à l’interface avec le vide environnant. Pour masquer les
discontinuités aux frontières et simuler l’aspect infini d’une solution, on applique des
conditions périodiques aux limites [Leach; 2001]. Le soluté et les contre-ions sont placés dans
une boîte d’eau qui est répliquée dans toutes les directions de l’espace de manière à créer un
système de dimension infinie. On construit ainsi un réseau cristallin dans lequel le
comportement moléculaire est le même dans chaque maille. L’application des conditions
périodiques aux limites consiste alors à faire en sorte que, si une particule sort de la boîte
67
centrale par une face, son image dans la boîte adjacente y rentre par la face opposée. De
même, lors du calcul des forces sur un atome, toutes les interactions avec les autres atomes
situés dans les boîtes voisines sont prises en compte. Par contre, il faut s’assurer que le soluté
n’interagit pas avec ses images dans les boîtes voisines. On introduit donc un critère de seuil
(cutoff) au-delà duquel les interactions ne sont plus calculées. Ce seuil doit être au maximum
égal à la moitié de la plus petite distance entre deux surfaces de la boîte.
IX.4 Troncature LJ
L’approximation consistant à ne tenir compte que des interactions non-liées d’un atome donné
avec ses plus proches voisins situés dans une sphère, dont le rayon rc est appelé rayon de
coupure permet de diminuer notablement le temps de calcul. Si le « rayon de coupure » est
une approximation acceptable dans le cas du calcul des interactions de Lennard-Jones
(puisque celles-ci décroissent très rapidement lorsque la distance augmente), il introduit, dans
le cas des interactions électrostatiques, des discontinuités importantes dans le calcul des
énergies et des forces, car le terme électrostatique ne diminue que linéairement en fonction de
l’inverse de la distance. Pour éviter de créer des brusques variations de forces dues au fait que
le potentiel est discontinu pour r = rc on peut multiplier les termes d’interactions non-liées par
une fonction dite de « switch » ou ajouter au terme une fonction dite de « shift ». Ceci évite
les discontinuités mais ne résout pas le problème principal du calcul des interactions à longue
distance.
Une alternative à ce type d’approche est l’utilisation de la sommation d’Ewald [Allen &
Tildesley; 1987] qui consiste à traiter le système comme s’il s’agissait d’un quasi-cristal et
d’effectuer des sommes par maille. Cette technique a été spécialement introduite pour calculer
efficacement la somme des interactions électrostatiques entre les particules d'un système
moléculaire dans des conditions périodiques aux bornes.
Ewald a transformé le calcul de l'énergie électrostatique dans des conditions périodiques aux
bornes (qui est une somme sur tous les couples d’une fonction qui converge lentement) en la
somme de trois termes : la somme directe qui est une somme sur l'espace réel, la somme
réciproque (imaginaire ou de Fourier, effectuée dans l’espace réciproque de la description de
la maille) et la somme de correction (qui est une constante). L'algorithme PME « Particle
Mesh Ewald » [Cheatham III, et al.; 1995] est une méthode efficace de calcul de la somme
68
d'Ewald. Dans cette méthode, la somme directe est calculée en utilisant des coupures de
l'espace réel. Par exemple, si, comme dans nos calculs, on utilise une stratégie de coupure
sphérique (spherical cutoffs) avec un rayon rc, alors chaque particule n'interagit qu'avec les
particules qui se trouvent à l'intérieur de la sphère de rayon rc, centrée sur cette particule.
Quant à la somme réciproque, elle est approchée en utilisant une série de transformations
rapides de Fourier (Fast Fourier Transforms) sur une grille où les charges sont interpolées aux
points de la grille. La méthode PME permet un meilleur traitement de l’électrostatique pour
les interactions à longues distances que l’utilisation d’un simple rayon de coupure en évaluant
efficacement la somme d’Ewald, ce qui rend cette méthode particulièrement attractive dans le
cadre des simulations de dynamique moléculaire de macromolécules en solution.
IX.5 Protocole de dynamique moléculaire
Les protocoles de simulation de dynamique moléculaire que nous avons utilisés suivent les
étapes suivantes :
Tout d’abord, si la simulation est réalisée en présence de molécules d’eau explicites, les
molécules sont additionnées autour de la protéine dans une boîte octaédrique tronquée dont
les bords sont situés à 10 Å de la surface de la protéine. Par ailleurs, des ions chlorure sont
additionnés de manière aléatoire afin d'assurer l'électroneutralité du système.
Après une première minimisation d'énergie, le système est chauffé de 100 K à 300 K en 10 ps
en imposant des contraintes harmoniques sur les positions des atomes de la protéine, puis
relaxé, toujours sous les mêmes contraintes pendant 90 ps.
Ces contraintes sont ensuite progressivement relâchées au cours d'une série de cinq cycles de
minimisation-équilibration (minimisation de 1000 pas suivi de 50 ps de dynamique
moléculaire sous contrainte) en terminant par 50 ps de dynamique moléculaire sans
contrainte.
Enfin, on laisse le système évoluer pendant plusieurs nanosecondes. La longueur des liaisons
dans lesquelles interviennent les atomes d'hydrogène est contrainte à l'aide de l'algorithme
SHAKE [Ryckaert, et al.; 1977] et les interactions électrostatiques à longue portée sont
traitées à l'aide de l'approche Particle Mesh Ewald avec une troncature du potentiel à 9 Å et le
système est maintenu à pression et température constantes (1 bar et 300 K respectivement).
69
Si la simulation est réalisée en solvant implicite (voir ci-dessous), le système est simplifié car
il n’y a pas de molécules d’eau à rajouter et le caractère infini est assuré par l’utilisation d’une
fonction représentant les interactions avec le solvant. Le protocole utilisé est très similaire à
celui des expériences en solvant explicite mais le nombre d’atome plus réduit permet
d’augmenter le rayon de coupure à 15 Å.
70
X Représentation du solvant
Les calculs de modélisation moléculaire et de dynamique moléculaire peuvent se réaliser pour
des molécules placées dans le vide. Cependant, il est très intéressant de tenir compte des effets
du solvant lors de l’étude des molécules biologiques (notamment des protéines), ceux-ci
jouant un rôle primordial dans la structuration de ces dernières (voir Chapitre 3). Il existe
ainsi deux manières de tenir compte de ces effets, à savoir l’utilisation de molécules d’eau
explicites ou l’utilisation de fonctions énergétiques représentant les interactions avec le
solvant.
X.1 Solvant explicite
On peut représenter le solvant (ici l’eau) de manière explicite. Dans ce cas, chaque molécule
d’eau est modélisée.
• Modèle TIP3P
Le modèle d’eau que nous avons utilisé en dynamique moléculaire dans le programme
AMBER est TIP3P [Jorgensen, et al.; 1983]. Ce modèle comprend trois atomes (un oxygène
et deux hydrogènes) liés par trois liaisons (deux liaisons O-H de 0,957 Å et une pseudo-
liaison H-H de 1,514 Å) de constante de force de 553 kcal.mol-1. L’oxygène est chargé
négativement de –0,834 e (e est la charge élémentaire égale à 1,6.10-19 C) et les charges des
hydrogènes sont de +0,417 e. L’atténuation des interactions électrostatiques par le solvant est
intrinsèque au modèle (ε = 1) ainsi que la polarisation.
• Limites du système
Le nombre de molécule d’eau à ajouter pour simuler un environnement aqueux est important
et augmente avec la taille de la protéine. Il en résulte une augmentation considérable du
nombre de variables du système et donc du temps de calcul.
X.2 Solvant implicite : modèle de Born généralisé
L’utilisation d’un solvant implicite est très utile pour étudier les systèmes de grande taille. En
effet, ce traitement du solvant est plus rapide que les représentations explicites du solvant.
71
Le modèle de Born généralisé (« Generalized Born », GB) traite le solvant comme un
continuum diélectrique [Bashford & Case; 2000]. La contribution électrostatique à l’énergie
de solvatation est alors donnée par l’équation suivante :
∑ ⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛−−=
−
ji GB
ji
w
f
solvf
qqeE
GB
,12
1ε
κ
avec ⎟⎠⎞
⎜⎝⎛−+=
jiji
jijiGB RRrRRrf 4exp
2,2
,
εw est la constante diélectrique du solvant (la constante diélectrique de l’eau est égale à 78,5).
κ est une constante calculée d’après le modèle de Debye-Hückel permettant de représenter
l’effet d’un sel. Elle est égale à la constante de Debye-Hückel multipliée par 0,73 pour
prendre en compte la surestimation de l’effet du sel due au fait que rien n’empêche les
contres-ions d’approcher très près du soluté.
qi et qj sont les charges partielles des atomes i et j respectivement.
fGB est une fonction telle que fGB→Ri quand ri,j→0. D’autre part, cette fonction mime le calcul
de l’énergie de deux charges en interactions coulombiennes écrantées par Debye-Hückel
lorsque les deux charges sont éloignées.
ri,j est la distance entre les deux atomes i et j.
Ri et Rj sont les rayons de Born des atomes i et j respectivement. Ces rayons de Born effectifs
dépendent non seulement des rayons atomiques intrinsèques ρi ou ρj des deux atomes
considérés mais aussi des rayons ρk et des positions relatives krr
des autres atomes par le biais
d’une fonction positive notée g. Ils sont calculés avec la méthode de Hawkins, Cramer et
Truhlar [Hawkins, et al.; 1995, Hawkins, et al.; 1996] qui donne un rayon de Born plus grand
que le rayon atomique.
∑≠
−=ik
kikiiirrgR ),,,(11 ρρρrr
72
Les paramètres utilisés sont ceux de Tsui et Case [Tsui & Case; 2000] qui ont montré que
l’ADN restait stable sur 12 ns de dynamique moléculaire avec l’utilisation de ces paramètres.
Ils ont aussi montré que pour les protéines cette modélisation du solvant permettait un gain
important de temps par rapport à l’utilisation d’un solvant explicite tout en représentant
raisonnablement des effets de solvant [Xia, et al.; 2002].
L’avantage de ce modèle continu est de pouvoir limiter le nombre d’atomes du système par
rapport à l’utilisation d’un solvant explicite tout en tenant compte des effets électrostatiques
du solvant.
Pour une protéine d’environ 2000 atomes, le remplacement du solvant explicite par
l’approche de Born généralisée représente ainsi un gain d’environ 30% de temps de calcul
(sans autres simplifications).
73
XI Coordonnées internes
XI.1 Le système des coordonnées internes
La façon canonique de décrire la structure tridimensionnelle d’une molécule est de déterminer
les 3N coordonnées cartésiennes x, y et z des N atomes qui la composent. Bien
qu’extrêmement simple, ce système de coordonnées présente l’inconvénient d’être
irréductible et peu représentatif de la structure interne des systèmes macromoléculaires
complexes. L’autre base de coordonnées employée est l’ensemble des coordonnées internes,
c’est-à-dire l’ensemble des longueurs des liaisons covalentes, des angles de valence et des
angles dièdres que les atomes forment entre eux. L’utilisation de ce système de coordonnées
présente au moins deux avantages par rapport au système cartésien :
La représentation des variabilités structurales des molécules étudiées est plus
simple.
Les degrés de liberté les plus rigides (longueurs de liaison, certains angles de
valence) peuvent être gelés (c’est-à-dire que ces coordonnées peuvent être fixées à une valeur
de référence). Le nombre de variables peut ainsi diminuer d’un facteur dix. La surface de
l’énergie potentielle est alors moins accidentée, ce qui permet d’améliorer la recherche de la
conformation la plus stable (qui présente l’énergie minimale). Le choix de geler les longueurs
de liaison et certains angles de valence est justifié par le fait qu’ils sont en général associés à
des constantes de force élevées.
Le programme LIGAND est un programme de minimisation d’énergie dans lequel les
molécules sont représentées en coordonnées internes. Ce programme a été développé à partir
du programme JUMNA [Lavery, et al.; 1995], spécialement conçu au laboratoire pour la
modélisation des acides nucléiques.
Dans LIGAND, afin d’accélérer la minimisation de l’énergie du système, les longueurs de
liaison restent constantes. De même les angles de valence des chaînes latérales sont fixés. Les
variables décrivant le système se composent donc de tous les angles dièdres et des angles de
valence de la chaîne principale.
74
Le cas des prolines est un cas particulier puisque ces acides aminés comportent un cycle
flexible impliquant la chaîne principale et la chaîne latérale. Le cycle est artificiellement
coupé et une contrainte de distance quadratique est appliquée pour le fermer [Lavery, et al.;
1986a]. Le système est alors correctement décrit avec un angle de valence et un angle dièdre
indépendants sur la chaîne latérale. Le cycle est donc décrit par cinq variables indépendantes
(un angle de valence et une torsion pour la chaîne latérale et deux angles de valence et une
torsion des variables de la chaîne principale). Les deux angles de valence et les trois angles
dièdres restants sont dépendants (figure 26).
figure 26 : Les variables indépendantes et dépendantes d’un cycle de proline. Les variables
indépendantes sont en vert et les variables dépendantes en rouge. La liaison artificiellement
coupée est représentée par un ressort.
XI.2 Système d’axe : le pivot
Afin de pouvoir passer des coordonnées internes aux coordonnées cartésiennes ou de pouvoir
placer plusieurs protéines les unes par rapport aux autres, un système d’axes interne à chaque
molécule est déterminé. Ce système est centré sur le carbone α (appelé pivot) d’un des résidus
de la molécule. Les vecteurs décrivant la base orthonormée de ce système sont :
le vecteur normé de la liaison Cα-N : NC
NCuα
α=1r
75
le vecteur issu du produit vectoriel normalisé entre le vecteur 1ur et celui reliant
le carbone α au carbone carbonyle adjacent (Cα-C’) : '
'12
CC
CCuuα
α∧= vr
le vecteur obtenu par le produit vectoriel des deux précédents : 213 uuu rvr∧=
Ainsi, la position des atomes d’une protéine est décrite via les coordonnées internes
relativement aux autres atomes de la protéine et la position des protéines les unes par rapport
aux autres est déterminée par la donnée des pivots et des repères associés.
XI.3 Minimisation
La minimisation utilisée par le programme LIGAND est une minimisation quasi-newtonienne
(voir paragraphe VIII.2 page 61 ).
XI.4 Champ de force et représentation du solvant
Nous avons utilisé le champ de force AMBER décrit au paragraphe VII page 54. Dans la
somme énergétique, le terme d’énergie due au potentiel de déformation des liaisons
covalentes n’est pas calculé puisque les liaisons ne peuvent pas bouger et seuls les angles et
les torsions des variables implicites non gelées rentrent dans la somme des deux termes
angulaires.
Les effets du solvant sont modélisés par le modèle GB (voir paragraphe X.2 page 70). Cette
représentation continue du milieu environnant la protéine permet de prendre en compte les
effets électrostatiques du solvant. Une représentation explicite du milieu aqueux (avec la
donnée de toutes les molécules d’eau autour de la protéine) n’est en effet pas compatible avec
une description du système en variables internes.
XI.5 Préparation des données : le programme PCHEM
PCHEM est un programme qui permet de préparer les données topologiques spécifiques aux
protéines étudiées avec LIGAND. PCHEM définit la connectivité atomique, les types des
atomes, leurs charges et leurs coordonnées. Ce programme définit aussi les variables internes
décrivant le système. L’utilisateur peut imposer de geler certaines variables internes en plus
de celles habituellement gelées. Par exemple, on peut ne garder que les variables de la chaîne
76
principale en gelant les torsions des chaînes secondaires de la protéine étudiée. PCHEM décrit
aussi les atomes qui bougent quand chaque angle interne varie.
XI.6 Les différentes utilisations de LIGAND
Le programme LIGAND est en continuelle évolution. Il a été initialement utilisé par Tap Ha
Duong et Krystyna Zakzewska pour l’étude des modes normaux de l’ADN [Ha Duong &
Zakrzewska; 1997]. Le champ de force utilisé était alors le champ de force FLEX développé
par Richard Lavery et al. [Lavery, et al.; 1986b, Lavery, et al.; 1995]. Il a été aussi développé
par Karine Bastard et Chantal Prévost afin de créer des boucles multi-copies pour l’étude de
l’amarrage de macromolécules [Bastard, et al.; 2003]. Nous avons développé ce programme
en y introduisant le champ de force AMBER et en y programmant des contraintes afin
d’étudier les propriétés mécaniques des protéines.
XI.7 Limitation par la taille des protéines
Dans la description du système que nous venons de présenter, chaque acide aminé est
représenté par une moyenne de 9-10 variables (trois torsions et trois angles de valence pour la
chaîne principale et en moyenne trois à quatre torsions pour les chaînes latérales). Pour une
protéine d’environ 100 résidus, le programme doit aussi gérer un peu plus de 1000 variables.
Un cycle de minimisation prend dans ce cas environ 4 s sur un Athlon MP 2600 MHz avec le
champ de force AMBER et la représentation du solvant par GB. Une minimisation en 225
cycles prend alors un quart d’heure.
Les temps de calcul sont limitants pour l’étude des très gros systèmes et pour une étude
systématique d’un grand nombre de protéines. Une réponse à ce problème est de simplifier le
système de manière encore plus drastique.
77
XII Modèle granulaire
Il est possible d’explorer les mouvements moléculaires des protéines autour de leur état
d’équilibre avec des simulations de mécaniques moléculaires, de dynamique moléculaire ou
d’analyse de modes normaux sur des systèmes décrivant tous les atomes de la molécule.
Malheureusement, ces techniques sont très coûteuses pour de très grandes structures ou de
gros complexes biomoléculaires et inapplicables aux structures à basse résolution où les
coordonnées de l’ensemble des atomes ne sont pas disponibles. Il faut donc simplifier les
modèles utilisés pour décrire de tels systèmes. Le modèle granulaire est un modèle qui a fait
ses preuves dans le domaine de la modélisation moléculaire que ce soit pour étudier des
protéines [Doruker, et al.; 2002b, Tama, et al.; 2000, Tirion & ben-Avraham; 1993, Xu, et al.;
2003] ou des ARN [Bahar & Jernigan; 1998].
XII.1 L’origine du modèle granulaire
Le modèle granulaire voit son origine dans la modélisation des polymères [Flory; 1969] où le
monomère est représenté par un seul élément d’une chaîne modèle. Ainsi un ensemble
d’angles de valence et d’angles dièdres est remplacé par une seule jonction. Le but est alors de
retrouver le comportement des polymères grâce à ce modèle.
Nous utilisons un modèle granulaire dans le même but : faire des calculs dans des temps
raisonnables sur de très grandes structures, ce qui serait impossible sans cette grande
simplification de leur représentation. A la différence des études des polymères, les jonctions
ne remplacent pas forcément un groupe de liaisons, mais peuvent également être définies
entre deux éléments qui ne sont pas adjacents sur la chaîne polypeptidique.
XII.2 Le modèle granulaire appliqué aux protéines
La représentation des structures des protéines comme un réseau élastique est un modèle
granulaire qui permet de prédire des fluctuations dynamiques des protéines autour de leur
conformation native. Dans ce modèle, les carbones α sont remplacés par les nœuds du réseau
élastique. Chaque nœud i est relié aux autres nœuds j qui se trouvent dans la sphère de centre i
et de rayon rc, rayon limite (défini au préalable) (figure 27 et figure 28 d). Ceci ne tient pas
compte des connectivités de la chaîne protéique mais uniquement des distances entre les
78
différents nœuds du réseau. Tous les ressorts possèdent la même constance de force γ qui est
un paramètre ajustable par comparaison avec l’expérience [Tirion; 1996]. Par définition, les
ressorts sont considérés comme relaxés pour la conformation initiale, ce qui fait de cette
conformation le minimum énergétique absolu.
figure 27 : Formation du modèle granulaire. Les ressorts (en rouge) sont formés entre
carbones α (en jaune) séparés d’une distance inférieure à rc sans tenir compte de la
connectivité du brin polypeptidique (représentée par le trait noir sur le schéma de gauche).
Cα rc γ
79
figure 28 : Différentes représentations de la nucléase du staphylocoque. a : Tous les atomes
sont représentés sauf les hydrogènes ; en bleu clair les carbones, en rouge les oxygènes, en
bleu sombre les azotes et en jaune les souffres. b : Représentation de la « trace » de la
protéine ; les carbones α adjacents sont reliés entre eux, tenant compte des connectivités de la
chaîne protéique. c : Les carbones α sont représentés par des points. d : Réseau du modèle
granulaire pour un rc de 8Å ; les traits noirs représentent les ressorts entre les différents nœuds
du réseau.
a b
c d
80
XII.3 GNM : Gaussian Network Model
Le programme GNM repose essentiellement sur la construction de la matrice de contact Γ de
Kirchhoff. Ce programme est disponible sur le site d’Ivet Bahar
http://www.ccbb.pitt.edu/CCBBResearchDynProGNM.htm. Pour une protéine de N résidus,
cette matrice est une matrice symétrique de dimension NxN dont les éléments Γij hors de la
diagonale sont égaux à –1 si i et j sont reliés par un ressort et nuls si i et j sont séparés par une
distance plus grande que rc. Γii est l’opposé de la somme des éléments non diagonaux de la
ligne (ou de la colonne).
Les équations suivantes résument la construction de la matrice :
Γij = - h(rc-Rij°) pour i≠j et ∑≠
Γ−=Γij
ijii
La fonction h(x) est la fonction d’Heaviside (h(x) = 1 si x ≥ 0 et nulle sinon).
Rij° est la distance entre le site i et le site j dans la conformation initiale de la protéine (voir
figure 29 pour les notations).
figure 29 : Notations utilisés pour définir les positions des sites du réseau granulaire.
z
x
y
Rio
Rjo
∆Ri Ri i
j
Rij
∆RjRij°
Rj
81
Ainsi, le terme diagonal Γii donne le nombre de résidus dans la sphère de centre i et de rayon
rc, c’est-à-dire le nombre de ressorts liés au site i.
La corrélation entre le site i et le site j est alors donnée par la formule suivante :
[ ]ij
Bji
TkRR 13 −• Γ=>∆∆< γrr
où γ est la valeur de la constante de force des ressorts et kB est la constante de Boltzmann, T
est la température absolue, [Γ-1]ij est le ijème élément de la matrice pseudo-inverse Γ. En effet,
Γ a une valeur propre nulle et n’est donc pas inversable. Son pseudo-inverse est calculé de la
manière suivante :
∑−
=
−− =Γ1
1
11 ][N
k
Tkkk uu rrλ
où les λk sont les N-1 valeurs propres non nulles de Γ classées de la plus petite à la plus
grande et les kur sont les vecteurs propres associés. Le mode propre correspondant à λ1 est
celui qui est le plus coopératif, le plus global. Les modes globaux (correspondant aux petites
valeurs propres) sont ceux qui sont en général impliqués dans les fonctions biologiques des
protéines.
On déduit des deux équations précédentes le calcul des fluctuations du résidu i en fonction des
modes propres k de Γ :
∑−
=
−=>∆<1
112 ][3 N
kTkkk ii
Bi uuTkR rrr
λγ
XII.4 ANM : Anisotropic Network Model
Contrairement au modèle GNM qui considère que toutes les fluctuations sont isotropes, le
modèle ANM prend en compte l’anisotropie de ces fluctuations. Ainsi, ce programme permet
d’obtenir les trois composantes des vecteurs iRr
∆ de fluctuations alors que GNM ne peut
prédire que leur amplitude <( iRr
∆ )2>.
82
L’énergie potentielle de la structure construite à partir de N acides aminés dans le modèle
ANM s’écrit sous la forme gaussienne suivante :
V = (γ/2) Σi Σj h(rc – Rij° ) (Rij – Rij°)2 Où la fonction h(x) est la fonction d’Heaviside (h(x) = 1 si x ≥ 0 et nulle sinon).
Rij° est la distance entre les sites i et j de la structure initiale de la protéine, Rij est cette
distance après fluctuation et rc la distance limite en dessous de laquelle deux sites sont reliés
par un ressort. Ainsi, si deux sites i et j sont suffisamment proches, le ressort créé entre les
deux sites contribue au potentiel de façon harmonique.
Le potentiel peut aussi s’écrire de la forme suivante :
V = (1 / 2) Rr
∆ T H Rr
∆ Rr
∆ est le vecteur de dimension 3N des fluctuations iRr
∆ des sites i (1≤ i ≤ N) et Rr
∆ T est
son vecteur transposé.
H est la matrice hessienne composée des dérivées secondes de l’énergie potentielle. H est
donc une matrice de super éléments Hij de la forme :
⎥⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢⎢
⎣
⎡
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
=
0
2
0
2
0
20
2
0
2
0
20
2
0
2
0
2
H
jijiji
jijiji
jijiji
ij
ZZV
YZV
XZV
ZYV
YYV
XYV
ZXV
YXV
XXV
où Xi, Yi et Zi sont les coordonnées du vecteur position iR
r du site i.
On a d’après la première expression de V :
2))((
0
0000
0
2
0
2
ij
ijijijji R
YYXXYX
VYX
V −−−⎟
⎟⎠
⎞⎜⎜⎝
⎛∂∂
∂⎟⎟⎠
⎞⎜⎜⎝
⎛∂∂
∂== γ pour i ≠ j,
et ∑≠
=−−
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂
∂
ij ij
ijij
ii R
YYXXYX
V2
))((0
0000
0
2γ
83
La corrélation entre les fluctuations du site i et celles du site j est donnée par l’expression
suivante :
< Rr
∆ i • Rr
∆ j> = (1/Z) ∫ ( Rr
∆ i • Rr
∆ j) exp-V/kTd Rr
∆ = kBT tr [Η-1]ij
où kB est la constante de Boltzmann, T est la température absolue, Z est la fonction de
partition de configuration, et tr[Η-1]ij est la trace de la ijème sous-matrice [Η-1]ij de H-1. H-1
est la pseudo-inverse de H car les six premières valeurs propres sont nulles, correspondant
aux trois translations et trois rotations globale de la molécule.
< Rr
∆ i • Rr
∆ j> peut être exprimé en fonction des contributions [ Rr
∆ i • Rr
∆ j]k des 3N-6
modes de fluctuations k.
< Rr
∆ i • Rr
∆ j > = Σ k [ Rr
∆ i • Rr
∆ j]k.
avec
[ ] [ ]ijTkkkkji uutrkTRR rrrr
1−• =∆∆ λ
où λk est la kème valeur propre non nulle de H et kur le vecteur propre de dimension 1x3N
correspondant. Les valeurs propres sont en général ordonnées de la plus petite à la plus grande
après avoir éliminé les 6 valeurs propres nulles correspondant aux mouvements rigides du
système (trois translations et trois rotations). Ainsi λ1 est la valeur propre non nulle la plus
petite et [ Rr
∆ i • Rr
∆ j]1 est la corrélation entre le site i et le site j pour le mode propre
correspondant. De même, [( Rr
∆ i)2]1 est la norme de la fluctuation du site i due au mode
normal 1.
XII.5 Applications
XII.5.1 Facteurs de température
Les programmes GNM et ANM permettent le calcul des valeurs moyennes des déplacements
des résidus par l’étude des modes normaux du système. Le seul paramètre indéfini est alors la
constante de force des ressorts décrivant le système. Cette constante peut être déterminée à
84
posteriori en comparant les facteurs de température expérimentaux (répertoriés dans le fichier
de la PDB) et les facteurs obtenus par le calcul.
Les études sur plusieurs protéines montrent que les valeurs des constantes de force sont de
l’ordre de 1,0 ± 0,6 kcal.mol-1.Å-2 [Atilgan, et al.; 2001, Kundu, et al.; 2002]. D’autre part, la
concordance entre les valeurs théoriques des facteurs de température obtenues avec les
méthodes GNM et ANM et les valeurs expérimentales est satisfaisante [Bahar, et al.; 1997].
Même si la corrélation n’est pas excellente, en moyenne de 0,594 avec GNM sur une étude de
113 protéines [Kundu, et al.; 2002], elle peut atteindre une très bonne corrélation comme par
exemple 0,831 pour la ferredoxine et 0,71 pour l’hémoglobine [Xu, et al.; 2003]. Les écarts
entre valeurs théoriques et valeurs expérimentales viennent en partie des interactions avec les
protéines des mailles voisines du cristal qui influencent les valeurs expérimentales des
facteurs de température. La prise en compte des protéines voisines dans le calcul de GNM
permet alors d’améliorer le modèle.
D’autre part, GNM rend compte en grande partie de l’effet d’empaquetage. En effet, d’après
Bertil Halle, les valeurs des facteurs de température dépendent essentiellement de
l’environnement de l’atome [Halle; 2002]. Elles sont d’après ses calculs étroitement corrélées
avec l’inverse de la densité de contact définie comme le nombre de voisins non covalents :
moins un résidu est en contact avec des voisins, plus le facteur de température qui lui est
associé est élevé. Ainsi, Halle propose un programme alternatif à GNM, LDM (Local density
model), qui détermine les fluctuations moyennes atomiques par un calcul de densité locale.
XII.5.2 Étude des modes normaux, graphes de corrélation
On peut étudier les modes normaux les plus lents (ceux de valeurs propres les plus petites) et
en déduire des mouvements globaux des protéines. Cette étude marche assez bien pour les
mouvements impliquant l’ouverture et la fermeture des enzymes. Pour chaque mode, la ième
coordonnée du vecteur propre de dimension N correspond à la valeur du vecteur sur le résidu i
dans le cas des études avec GNM. Dans les études avec ANM, un vecteur propre est de
dimension 3N et se décompose en N vecteurs de dimension 3 localisés sur chacun des résidus.
On a donc trois valeurs par résidu correspondant aux coordonnées x, y, z des vecteurs
projections.
85
Dans le cas de GNM, on peut colorer les résidus i de la structure de la protéine en fonction de
la valeur de la coordonnée i du mode j : uij. On peut alors visualiser les résidus qui bougent
peu (petites valeurs absolues de uij) et les résidus qui bougent beaucoup. Deux résidus i et k
dont les valeurs uij et ukj sont de même signe bougent de manière corrélée suivant le mode j.
Si les signes sont opposés, les deux résidus sont anticorrélés.
figure 30 : Représentation tubulaire de la myosine coloriée suivant la norme du quatrième
vecteur non nul le plus lent. Les résidus pour lesquels la composante du quatrième vecteur a
une norme faible sont en bleus. Les couleurs vont du bleu au rouge en passant par le vert
suivant l’ordre croissant des normes des vecteurs locaux.
Avec le programme ANM, on retrouve cette information. Chaque vecteur propre de la matrice
hessienne est la donnée des N vecteurs localisés sur les résidus se déplaçant selon ce mode.
On peut donc représenter la structure de la protéine avec chaque résidu colorié suivant la
norme du vecteur local associé (figure 30). Ceci permet de définir les régions qui bougent
selon ce mode ainsi que les charnières (régions qui bougent peu). La figure 30 montre une
tête
bras de levier
jointure
Site de l’ATP
86
représentation tubulaire de la structure de la myosine II de la coquille Saint Jacques coloriée
suivant les valeurs des normes des vecteurs locaux du quatrième vecteur propre non nul de
l’étude ANM. La gamme de couleurs va du bleu pour les normes les plus petites au rouge
pour les normes les plus grandes en passant par le vert. Le quatrième vecteur propre est
intéressant car les charnières, colorées en bleu, correspondent à la région enzymatique (site de
l’ATP (adénosine triphosphate) et à la région de jointure entre la tête de la myosine et le bras
de levier.
figure 31 : Graphe de corrélation du quatrième vecteur propre le plus lent de la chaîne
principale (835 résidus) et des deux chaînes légères (156 résidus chacune) de la myosine II de
la coquille Saint Jacques. Les bandes blanches correspondent à la séparation entre les
différentes chaînes. La couleur rouge correspond à un cosinus égal à 1, les deux résidus i et j
sont donc corrélés, la couleur bleu correspond à un cosinus de –1, les résidus sont
anticorrélés. A droite, représentation en ruban de la myosine avec les résidus coloriés suivant
la ligne correspondant au résidu 360 du graphe de corrélation. En rouge, les résidus corrélés,
qui se déplacent dans la même direction que le résidu 360 et en bleu, ceux qui déplacent dans
le sens inverse.
Chaîne principale Chaînes légères RES 360
Chaîne principale
Chaînes légères
87
On peut étudier les modes en représentant les flèches des vecteurs au niveau de chaque résidu.
Cette méthode est assez convaincante lorsque la protéine est suffisamment petite mais la
représentation peut très vite devenir trop chargée pour des grosses protéines. On peut alors
visualiser les modes en faisant des graphes de corrélation.
Le graphe de corrélation du vecteur propre de dimension 3N kur est une représentation de la
matrice Ck de dimension NxN. L’élément Ckij correspond au cosinus de l’angle formé entre le
vecteur localisé (composante de kur ) sur le résidu i et le vecteur localisé sur le résidu j. La
figure 31 donne un exemple d’un tel graphe pour le quatrième vecteur propre le plus lent de la
myosine.
Le graphe de corrélation du quatrième vecteur de la myosine est assez facile à lire. On peut
colorier la structure suivant les couleurs d’une ligne du graphe et voir apparaître clairement
les points charnières et les blocs corrélés correspondant au vecteur propre étudié. Certains
graphes de corrélation ne sont pas aussi simples. En général, c’est le cas lorsque les
mouvements correspondent plutôt à des rotations qu’à des translations. Par exemple, le cas du
troisième vecteur le plus lent de la myosine est un mode où la tête effectue une rotation dans
un sens alors que le bras de levier effectue une rotation dans le sens opposé. Si on crée un
modèle avec deux axes de rotations, on obtient un graphe de corrélation très semblable,
confirmant le mouvement de ce mode. La figure 32 représente le graphe de corrélation du
mode 3, celui du modèle et une représentation avec les couleurs des résidus correspondant aux
normes des vecteurs locaux du mode 3. Les deux axes de rotations sont représentés en rouge.
88
figure 32 : En haut à gauche, graphe de corrélation du troisième mode le plus lent de la
myosine. En dessous, le graphe de corrélation d'un mode correspondant à deux rotations
opposées. À droite, représentation de la structure coloriée suivant les normes du mode 3. Les
deux axes de rotation sont représentés.
XII.5.3 Description des ouvertures et des fermetures des sites enzymatiques
L’analyse des modes propres des structures fermées ou ouvertes de protéines qui subissent des
changements conformationnels importants comme les sites enzymatiques permet d’obtenir
des renseignements sur les directions induisant ces changements de conformation. En général,
les calculs sur les formes ouvertes donnent des résultats plus pertinents sur le changement de
conformation et on trouve souvent qu’un seul mode global suffit pour décrire le changement
de conformation [Tama & Sanejouand; 2001].
Les sites enzymatiques se situent en général au niveau des charnières des modes propres les
plus lents. Les résidus clefs lors des changements de conformation des sites enzymatiques
doivent satisfaire aux contraintes suivantes : ils se trouvent au niveau du site actif ou sont
89
couplés avec celui-ci, ils doivent avoir une certaine liberté les uns par rapport aux autres pour
permettre à la protéine de se couder à leur niveau et ils doivent être suffisamment empaquetés
pour que les forces perturbant leur position ne soient pas localisées mais se propagent le long
de la structure. C’est le cas s’ils sont localisés entre deux blocs relativement stables. C’est en
général le cas des résidus des régions contraintes des modes globaux, les régions dites
charnières [Bahar & Jernigan; 1999].
Le calcul des modes normaux permet de localiser deux types de sites importants. Le premier
groupe concerne les résidus importants dans la coordination des mouvements le long de la
molécule. Ils correspondent aux minima de fluctuation des modes globaux et sont les sites
charnières. Leur mutation influence la fonction de la protéine. Le deuxième groupe concerne
les résidus couplés très fortement avec leurs voisins. Ils se trouvent en général dans des zones
de haute densité et leur mutation influence la stabilité de la protéine. Ils correspondent aux
maxima des mouvements de haute fréquence [Isin, et al.; 2002].
XII.6 Modification des modèles granulaires
Un certain nombre d’essais de simplification ou de sophistication des programmes GNM et
ANM ont été testés.
Nous avons par exemple essayé de modifier la représentation des ressorts pour mieux décrire
le système. Si on fait dépendre la constante des ressorts en fonction de la distance initiale
entre les sites (γij = γ.Rijα avec α égal à 1, 2, -1 ou –2), on ne change pas les résultats sur les
modes propres les plus lents. Leur ordre peut subir quelques changements mais on retrouve
les mêmes modes propres parmi les plus lents. Ceci donne deux informations. D’une part, la
hiérarchie fine des modes propres n’a pas une très grande signification : le premier mode
propre n’est pas plus important que le troisième mais ces deux modes propres décrivent les
mouvements collectifs lents de manière plus significative que le vingtième mode propre.
D’autre part, la description du système telle qu’elle est faite dans GNM et ANM est très
stable. On étudie le système proche de l’équilibre dans des puits de potentiel harmonique et
donc peu perturbé par des petites modifications.
Il faut des perturbations très importantes pour que les résultats soient significativement
différents. Par exemple, au lieu de construire un système où tous les ressorts ont la même
constante, on construit un système où les constantes de ressorts prennent au choix une valeur
γ1 ou une valeur γ2 =100γ1. Si l’attribution des valeurs de constantes (γ1 ou γ2) aux ressorts est
90
aléatoire alors les résultats de l’étude des modes normaux seront très différents de l’étude
classique. Par contre, si la distribution prend en compte des critères géométriques ou
structuraux du système étudié, les résultats obtenus seront semblables aux résultats d’une
étude avec une seule constante de force (voir Chapitre 6, page 121).
On peut vouloir aussi simplifier encore plus la description du système. Un certain nombre
d’essais ont été faits où les sites ne représentent pas un acide aminé mais un groupe d’acides
aminés [Doruker, et al.; 2002a, Doruker, et al.; 2002b, Tama, et al.; 2000]. Ainsi, il est
possible d’obtenir les mouvements globaux en ne tenant compte que d’un résidu sur 40 dans
la construction du modèle granulaire de l’hémagglutinine du virus influenza (qui comporte un
total de 1509 acides aminés) (voir article Annexe 2).
XII.7 Minimisation avec une représentation granulaire
Le programme GNMlig est construit à partir des deux programmes LIGAND et ANM.
Comme dans le programme ANM, ce programme utilise une représentation granulaire de la
protéine. La protéine est représentée par des nœuds aux emplacements des carbones α reliés
par des ressorts. La structure initiale est alors considérée comme celle d’énergie la plus basse,
le système de ressorts étant au repos.
Le calcul de l’énergie est celui du système de ressorts et les variables du programme sont les
longueurs des ressorts. La minimisation est l’algorithme de type gradient quasi-Newtonien
utilisé dans le programme LIGAND et les contraintes appliquées sur une molécule modélisée
dans GNMlig sont les mêmes que dans LIGAND.
Des études similaires sur les propriétés mécaniques des protéines peuvent ainsi se faire avec
les deux programmes LIGAND et GNMlig. Seul le niveau de représentation est différent.
Lorsque la représentation granulaire permet d’obtenir les mêmes résultats que la
représentation où tous les atomes sont modélisés, l’utilisation de GNMlig pour une étude
systématique des protéines est un gain de temps énorme. Elle permet en plus de réaliser des
études sur de très grosses protéines, ce qui ne serait pas envisageable avec une représentation
atomistique, telle qu’implémentée dans LIGAND.
91
Chapitre 5 Des outils originaux pour
comprendre les propriétés mécaniques des
protéines
92
XIII Les contraintes mécaniques appliquées sur les
protéines
XIII.1 Introduction
Une manière d’étudier les propriétés mécaniques des protéines est d’observer et analyser leur
réaction à une contrainte mécanique imposée. Dans le domaine des expériences sur molécules
uniques, la contrainte imposée est celle de l’étirement [Smith, et al.; 2003] ou de la torsion
entre deux points d’attache [Bryant, et al.; 2003] de la macromolécule ou bien une contrainte
due à un champ électrique [Washizu; 1990] ou un écoulement [Ladoux, et al.; 2001]. Dans le
domaine de la modélisation, on peut reproduire ces contraintes mais aussi imaginer des
contraintes qui sont encore impossibles à mettre en œuvre de façon expérimentale.
XIII.1.1 Contraintes locales et globales
Nous avons voulu caractériser des propriétés mécaniques des protéines en regardant leur
comportement sous l’application de contraintes locales et globales.
Nous appelons contrainte locale une contrainte qui s’applique sur un résidu (ou un petit
groupe de résidus) particulier de la protéine. Cette approche consiste à contraindre le
déplacement de ce résidu ou groupe de résidus par rapport à l’ensemble des autres résidus et à
rechercher la structure la plus stable réalisant cette contrainte. Une telle contrainte peut alors
être appliquée successivement sur chacun des résidus. La réponse du système à ces
contraintes successives peut ensuite être analysée à l’aide de programmes adaptés.
Une contrainte globale est une contrainte agissant sur l’ensemble de la chaîne protéique. On
analyse alors la réponse globale de la protéine à une telle contrainte.
XIII.1.2 Principe d’application
L’application d’une contrainte au cours d’une simulation de mécanique moléculaire consiste à
rajouter un terme d’énergie de pénalité au champ de force. Concrètement, un terme
quadratique Epen autour d’une position d’équilibre est additionné à l’énergie globale pour
93
permettre de favoriser une nouvelle position par rapport à une structure de référence, qui peut
être la structure de départ ou toute autre structure par rapport à laquelle la structure
initialement à l’équilibre va s’éloigner ou s’approcher.
( )2*XXkEpen −×=
X est une fonction calculée à partir de la positions des atomes, X* est la valeur de cette
fonction que l’on cherche à atteindre. k est une constante de force choisie pour que la
contrainte soit satisfaite lors de la minimisation.
Sur chaque atome, une force supplémentaire est appliquée égale à l’opposé de la dérivée de
l’énergie de pénalité par rapport aux coordonnées de l’atome. Il faut donc avoir pour chaque
contrainte appliquée la valeur analytique de cette dérivée.
Nous avons programmé plusieurs contraintes de ce type dans les programmes LIGAND et
GNMlig et une des contraintes dans le programme AMBER.
XIII.2 Contraintes globales : expériences de dépliement partiel
Jusqu'à présent, la grande majorité des expériences et simulations de dépliement partiel sous
contraintes mécaniques ont été réalisées en tirant sur des points particuliers de la protéine.
Nous proposons des méthodes où le dépliement est induit sans imposer de direction. Seule la
contrainte de distance est développée dans ce paragraphe car elle a été testée en mécanique
moléculaire (avec LIGAND et GNMLig) et en dynamique moléculaire (avec AMBER). Les
autres contraintes que nous avons programmées sont explicitées dans l’annexe 1.
XIII.2.1 Contrainte RMS de distance
L'approche utilisée ici consiste à faire varier les distances entre les atomes constituant la
chaîne principale (N, Cα et C’) par rapport à leur valeurs dans une structure choisie comme
référence.
Une contrainte quadratique est utilisée pour faire augmenter une déviation quadratique
moyenne (RMSD) calculée à partir des distances inter-atomiques et nommée RMSdist.
94
'
)(2
1
0
N
ddRMS
N
i
N
ijijij
dist
∑ ∑= >
−
=
N représente le nombre d'atomes lourds (N, Cα, C) de la chaîne principale et N' représente le
nombre de paires uniques entre ces mêmes atomes (N’=N(N-1)/2). dij est la distance entre
l’atome i et l’atome j et dij0 cette même distance dans la structure de référence.
La contrainte rajoutée dans le champ de force s'exprime alors par l'équation suivante :
( )2*distdistpen RMSRMSkE −×=
où RMSdist* est la valeur que l'on souhaite atteindre.
L'expression des forces qui dérivent de ce potentiel est de la forme suivante pour le vecteur
coordonnées irr de l'atome i:
∑ −−
⋅−
−=−=j
jiij
ijij
dist
distdist
i
peni rr
ddd
RMSNRMSRMSk
rddErF )(
)('
)(2)(0* rr
rr
XIII.2.2 Variante ne prenant en compte que les carbones α
On peut aussi appliquer la contrainte sur la RMSD de distances présentée dans le paragraphe
précédent en réduisant les atomes concernés aux seuls carbones α. La somme est alors faite
sur les N’ paires de carbones α. Cette contrainte modifiée permet ainsi de comparer les
représentations granulaires à celles qui modélisent tous les atomes.
XIII.2.3 Avantage de la contrainte
Le fait d’utiliser des distances plutôt que des coordonnées comme dans le calcul classique du
RMSD utilisé par Gilquin et collaborateurs [Gilquin, et al.; 2000] évite d’avoir à bloquer la
rotation et la translation de la protéine au cours de la trajectoire, opération nécessaire pour le
calcul du RMSD qui requiert une superposition des structures. Les autres contraintes que nous
avons étudiées (voir Annexe 1) ont aussi cette caractéristique de ne pas dépendre d’une
superposition entre structures.
95
XIII.2.4 Expériences de dépliement partiel en dynamique moléculaire
Nous avons programmé cette contrainte dans le programme AMBER afin d’étudier le
dépliement partiel en dynamique moléculaire. Nous allons décrire les protocoles d’étude et
présenter les résultats sur un exemple : la nucléase du staphylocoque, notée dans la suite
SNase, et constituée de 149 acides aminés.
• Dynamique moléculaire sans contrainte
Avant d’étudier une dynamique sous contrainte RMSdist, nous avons tout d’abord effectué
deux simulations sans contraintes afin d’obtenir des structures stables. La structure initiale est
la structure cristallographique déterminée par Chen et al. (code 1EY0 dans la PDB) [Chen, et
al.; 2000].
La première simulation a été réalisée en présence de molécules d'eau explicite (TIP3P). Les
molécules d'eau (5655) sont additionnées autour de la protéine dans une boite octaédrique
tronquée dont les bords sont situés à 10 Å de la surface de la protéine. Par ailleurs, 14 ions
chlorures sont additionnés de manière aléatoire afin d'assurer l'électroneutralité du système,
qui contient finalement 19209 atomes. Le protocole de minimisation utilisé est décrit dans le
paragraphe IX.5 page 68. Une simulation de 4 ns a été réalisée.
La seconde simulation utilise une représentation implicite du solvant modélisé par la modèle
de Born Généralisé [Bashford & Case; 2000]. L'utilisation d'un modèle continu pour
représenter le solvant permet de limiter le nombre d'atomes du système aux 2230 atomes de la
protéine. Une concentration en sel de 0.1 mol.L-1 est prise en compte dans le paramètre κ du
modèle. Le calcul des interactions à longue portée est tronqué à partir de 15 Å et SHAKE est
de nouveau utilisé pour contraindre les liaisons impliquant des atomes d'hydrogène. Le
protocole de chauffage et minimisation-équilibration utilisé pour cette seconde simulation est
très similaire à celui utilisé pour la précédente en solvant explicite et le système est laissé
évoluer pendant 4 ns à température constante (300 K).
Les deux simulations de dynamique moléculaire dont nous venons de décrire le protocole ont
été donc menées sur 4 ns. Après environ une nanoseconde de simulation, les changements
observés correspondent à des oscillations autour d’une structure stabilisée comme le montre
les valeurs de RMSD des coordonnées d’environ 1,4 Å par rapport à la structure
cristallographique pour les atomes de la chaîne principale et 1,9 Å pour tous les atomes autres
96
que les hydrogènes pour la simulation en solvant explicite et respectivement de 2,6 Å et 3,6 Å
en solvant implicite (figure 33).
Si les deux états d'équilibre atteints restent relativement proches de la structure native, on
constate que la déviation est supérieure pour la simulation réalisée à l'aide d'un solvant
implicite. La différence majeure réside dans la conformation de la boucle composée des
résidus 45 à 53 (partie de SNase présentant la flexibilité la plus grande de la protéine d'après
plusieurs études [Ikura, et al.; 1997, Wang, et al.; 1997]), et les extrémités N et C-terminales.
figure 33 : Évolution du RMSD (des atomes de la chaîne principale en plein, et de tous les
atomes lourds en pointillés) calculé par rapport à la structure cristallographique le long des
trajectoires dynamiques de SNase. Les lignes noires correspondent à la simulation utilisant
une représentation explicite du solvant, les lignes grises à celle utilisant le modèle GB.
Le comportement de la protéine au cours des deux simulations est différent en termes de
fluctuations. Les fluctuations autour de la structure moyenne calculée sur les deux dernières
nanosecondes de simulation sont en effet nettement plus importantes dans le cas de
l'utilisation du solvant implicite que du solvant explicite (voir figure 34a et figure 34b).
L'amplitude des mouvements moléculaires observés pour la simulation GB est en revanche du
même ordre que les fluctuations observées en RMN (figure 34c). Au final, l'ensemble des
structures pour les deux simulations sont superposables avec les structures expérimentales
obtenues par cristallographie aux rayons X [Chen, et al.; 2000] et par RMN [Wang, et al.;
1997], à l'exception de la boucle 45-53. Il semble par ailleurs que les structures issues de la
dynamique en solvant explicite visitent un espace conformationnel intermédiaire aux
97
structures expérimentales, tandis que les structures issues de la dynamique en solvant
implicite échantillonnent un espace différent au niveau de cette boucle. Cependant, mis à part
cette boucle très flexible, les structures obtenues par dynamique moléculaire restent similaires
aux structures expérimentales.
figure 34 : (a) Structures issues de la dynamique en solvant explicite superposées avec la
structure moyenne de cette trajectoire; (b) Structures issues de la dynamique en solvant
implicite superposées avec la structure moyenne de cette trajectoire; (c) Faisceau de structures
issues de données RMN superposées (1JOR dans la PDB) avec la structure cristallographique
(en vert) (1EY0 dans la PDB) et les structures moyennes issues des dynamiques en solvant
implicite (en rouge) et explicite (en bleu).
Dynamique moléculaire sous contrainte RMSdist
Lors des simulations en dynamique moléculaire, nous utilisons une constante de force de 500
kcal.mol-1.Å-2 et la valeur de la RMSdist est augmentée par pas de 0,25 Å (solvant implicite)
ou 0,5 Å (solvant implicite) toutes les 100 ps. Le dépliement a été mené jusqu’à une valeur
finale de RMSdist de 6,5 Å dans les deux cas. Les autres paramètres sont les mêmes que ceux
utilisés au cours des dynamiques moléculaires sans contrainte.
Une dynamique a été réalisée en présence de molécules de solvant explicite. Dans celle-ci, la
structure de référence a été choisie comme la moyenne des structures de la dynamique sans
a b c
Boucle 45-53
98
contrainte en solvant explicite entre 2 ns et 4 ns. La structure de départ est la dernière
structure de cette même dynamique (soit après 4 ns de simulation).
Une autre dynamique a été réalisée avec une représentation continue du solvant. La structure
de référence est choisie comme la moyenne des structures de la dynamique sans contrainte en
solvant continu entre 0.8 et 1.8 ns. La structure de départ est la structure issue de la même
dynamique sans contrainte après 1.4 ns de simulation.
• Dépliement
L'étude du dépliement se base sur un ensemble de structures calculées comme étant les
moyennes des structures sur les dernières 50 ps pour chaque valeur de la contrainte imposée.
Certaines de ces structures sont représentées schématiquement sur la figure 35 et la figure 36.
figure 35 : Structures moyennes issues du chemin de dépliement de SNase en solvant explicite
en fonction de la valeur de RMSdist imposée. (a) référence en solvant explicite ;
(b) RMSdist = 2 Å ; (c) RMSdist = 4 Å ; (d) RMSdist = 6 Å.
figure 36 : Structures moyenne issues du chemin de dépliement de SNase en solvant implicite
en fonction de la valeur de RMSdist imposée. (a) référence en solvant implicite ;
(b) RMSdist = 2Å ; (c) RMSdist = 4 Å ; (d) RMSdist = 6 Å.
(a) (b) (c) (d)
boucle 45-53
boucle 79-88
(a) (b) (c) (d)
α1 α3
α2
99
Lors de la simulation en solvant explicite, le dépliement commence par un mouvement de
grande amplitude des boucles 45-53 et 79-88 dans des directions opposées. En fin de
simulation (à partir de RMSdist = 4 Å), l’hélice α1 commence à se plier au niveau de son
extrémité N-terminale.
Dans la simulation en solvant implicite, le dépliement débute par un déplacement de la boucle
flexible constituée des résidus 45 à 53, jusqu'à une valeur de RMSdist égale à 2 Å, entraînant
une scission de l'hélice α1 en deux parties. Le second évènement majeur observé consiste en
un éloignement de deux blocs : l'un constitué de la boucle 45-53 et de l'hélice α1, l'autre
comprenant les résidus situés séquentiellement entre les hélices α2 et α3. Enfin, à partir de
RMSdist = 6 Å, l'hélice C-terminale α3 commence à se débobiner par son extrémité C-
terminale.
On observe donc finalement des différences notables entre les deux simulations de dépliement
partiel en solvant implicite et explicite. Diverses raisons pourraient expliquer ce résultat. Tout
d’abord, la présence des molécules de solvant dans l’une des simulations peut induire des
« contraintes » de mouvement par « friction », ce qui n’a pas lieu dans la simulation utilisant
le modèle GB. Les molécules d’eau explicites peuvent également s’insérer dans la structure
protéique lors de son dépliement pour stabiliser des structures intermédiaires [Daggett &
Levitt; 1992, Sundaralingam & Sekharudu; 1989]. D’autre part, les différences structurales
entre les structures de départ et de référence des deux simulations peuvent être la cause de
modifications de la flexibilité de certaines parties de la protéine, entraînant un dépliement
différent.
On peut aussi penser que ces différences entre les deux chemins de dépliement sont la
conséquence d’une surface d’énergie dite en entonnoir. Cette hypothèse considère qu’au cours
du dépliement, les états iso-énergétiques (possédant des structures différentes) accessibles à la
protéine sont de plus en plus nombreux, conduisant à de nombreux chemins possibles
équivalents du point de vue de l’énergie que la protéine emprunterait suivant les conditions
initiales dans lesquelles elle se trouve (voir Chapitre 3).
Les structures issues de ces deux dynamiques moléculaires forment une base de données pour
une étude du dépliement de SNase. On peut ainsi effectuer une étude des différents états
100
obtenus. Cette étude peut se faire grâce à des contraintes locales afin d’étudier les propriétés
mécaniques des états le long de la trajectoire de dépliement.
XIII.3 Contraintes locales
Nous allons présenter dans cette section la contrainte locale que nous avons utilisée pour
étudier les propriétés mécaniques de la nucléase du Staphylocoque (voir l’article présenté au
Chapitre 7). Les autres contraintes locales que nous avons programmées et étudiées sont
décrites dans l’annexe 1.
XIII.3.1 Contrainte sur la valeur moyenne des distances
Le carbone α d’un résidu i est déplacé globalement par rapport aux autres carbones α de la
protéine en augmentant ou diminuant la valeur moyenne des distances entre cet atome et tous
les autres carbones α de la molécule.
La contrainte s’exprime de la manière suivante :
2
*1,,1
0
1,,1 33 ⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
⎟⎟⎠
⎞⎜⎜⎝
⎛∆+−−−×= ∑∑
+−≠+−≠DN
dNdkE
iiij
ij
iiij
ijpen
La force dérivant de ce potentiel s’écrit pour la composante xi de l’atome i :
∑∑∑
≠
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛
+−≠+−≠ −−
∆+−−−−=−=
ij ij
jiiiij
ij
iiij
ij
ipen
id
xxN
DNd
Nd
kdxdExF 3
332)(
*1,,1
0
1,,1
dij est la distance entre l’atome Cαi et l’atome Cαj et N est le nombre de carbones α de la
protéine, dij0 étant sa valeur dans la structure de référence. ∆D* est la valeur souhaitée de la
différence entre la distance moyenne calculée avec la structure de référence et la distance
moyenne calculée avec la structure étudiée. La moyenne des distances se fait en éliminant les
résidus adjacents au carbone α étudié. En effet, ces distances varient peu puisqu’elles
résultent de la liaison peptidique, d’une liaison C-C et d’une liaison N-C. Leurs valeurs se
trouvent entre 3,73 et 3,87Å. La somme s’effectue donc sur N-3 distances entre le carbone α
du résidu i et les N-3 autres carbones α n’étant pas adjacent à ce dernier.
101
XIII.3.2 Pourquoi cette contrainte ?
L’idée est de pouvoir sonder la résistance mécanique de chacun des N résidus. Pour cela, il
faut pouvoir les pousser ou tirer par rapport à quelque chose. Une première approche serait de
tester toutes les paires de résidus (i,j) en prenant comme points d’attache (par analogie aux
expériences sur molécules uniques) les résidus i et j. Le désavantage de cette approche est que
le nombre d’expérience à réaliser pour tester toutes les paires d’atomes est de l’ordre de N2 et
que l’analyse des résultats pour en déduire une propriété locale de déformation d’un des
résidus serait difficile.
Plusieurs façons de déplacer un résidu par rapport au reste de la protéine ont été envisagées :
le déplacer par rapport au centre de masse, par rapport aux axes principaux de la protéine ou
par rapport à des axes définis localement (ces contraintes sont décrites dans l’annexe 1).
L’ordre de grandeur du nombre d’expérience est alors de l’ordre de N. Cependant, les
résultats obtenus sont difficilement interprétables en terme de résistance locale. En effet, la
contrainte qui consiste à étirer la distance centre de masse-résidu sondé est satisfaite en
bougeant le résidu mais aussi en bougeant le centre de masse. La réponse d’une protéine dont
une région est très flexible (comme une extrémité ou une boucle flexible) est alors
systématiquement un mouvement de la région flexible. Nous avons observé la même
sensibilité des axes principaux aux petits déplacements des extrémités. Les axes définis
localement ont l’avantage d’être plus stables par rapport au mouvement d’une extrémité mais
l’expérience n’est plus la même pour tous les résidus.
La contrainte sur la moyenne des distances d’un résidu par rapport aux autres permet N
expériences similaires donnant des informations sur la facilité ou la difficulté à déformer la
structure et sur la direction offrant le moins de résistance à ce type de contrainte.
XIII.3.3 Calcul des constantes de force de déplacement par résidu
Lorsqu’on applique une contrainte locale sur un résidu, on contraint une fonction X à la
valeur X*. Le système s’adapte de manière à satisfaire cette contrainte. On peut donc obtenir
un graphe ∆E=f(X) où ∆E représente la différence d’énergie potentielle du système sous la
contrainte moins celle du système à l’équilibre et X la valeur de la fonction atteinte.
Si les valeurs X* ne sont pas trop grandes, la courbe f(X) peut être modélisée par une fonction
quadratique de type ∆E = k X2 + bX + c. À chaque résidu correspond donc une constante de
102
force k caractérisant la difficulté (k grand) ou la facilité (k petit) du système à réagir à la
contrainte.
Dans le cas de la contrainte sur la moyenne des distances D, ∆D est égal à D-D0 où D0 est la
valeur de la moyenne des distances de la structure au repos. On a alors ∆E = k ∆D2 + b ∆D +
c avec b et c très petits devant k∆D et k∆D2. La figure 37 donne un exemple de la
modélisation des variations d’énergie en fonction de ∆D par une fonction polynomiale d’ordre
2 dans le cas de l’étude du résidu 4 d’une hélice α constituée de 13 alanines. De ce graphe, on
en déduit la valeur de la constante de force k en nN.Å-1 qu’on peut reporter sur un
histogramme (figure 38). (N.B. 0,07 nN.Å-1 ≈ 1 kcal.mol-1.Å-2)
figure 37 : Modélisation quadratique de la courbe ∆E=f(∆D) pour le résidu 4 d'une hélice α de
13 alanines. Les points sont les valeurs obtenues par l’application des contraintes sur D.
figure 38 : Diagramme des constantes de forces en fonction du numéro du résidu pour une
hélice α de 13 alanines.
∆D (Å)
∆E (kcal.mol-1)
103
L’histogramme des constantes de forces en fonction des résidus pour une hélice α de 13
alanines est reporté sur la figure 38. Les constantes de force sont plus importantes au centre de
l'hélice que sur les bords. On retrouve ainsi que la rigidité d’une hélice est supérieure en son
milieu.
figure 39 : Déplacements des atomes dans une hélice α de 13 alanines lors d'une contrainte
sur un des résidus. Le résidu sondé est indiqué par une flèche. Les flèches sur les résidus
représentent les déplacements des Cα pour un ∆D de 0,2 Å amplifiés d’un facteur 10 afin
d’être visibles.
Les vecteurs i
jrr∆ représentés dans la figure 39 correspondent aux vecteurs déplacement du
carbone αj de la structure obtenue pour une valeur de contrainte donnée D* par rapport à la
structure initiale après avoir superposé les deux structures lors d’un sondage de l’atome i.
Pour les hélices isolées, quel que soit l'atome i sondé, ce sont les résidus situés aux extrémités
de l'hélice qui se déplacent le plus pour satisfaire la contrainte. Cependant, la direction et
l'amplitude des déplacements sont différentes selon l'atome sondé : lorsque la contrainte est
appliquée à un des résidus extrêmes, la déformation induite correspond à une légère
élongation de l'hélice (figure 39 a); en revanche, lors de la sollicitation d'un résidu central, la
déformation aboutit à la formation d'un coude (figure 39 b) avec formation d'un tour d'hélice
310.
a b
104
XIV Domaines structuraux et mécaniques
Une autre approche de l’étude des propriétés mécaniques des protéines est de partitionner la
protéine étudiée en domaines, et notamment d’identifier des domaines rigides qui bougent les
uns par rapport aux autres. Ainsi, la connaissance de tels domaines permet de comprendre
certaines relations entre structure et fonction, de déterminer les charnières liant deux
domaines pivotant l’un par rapport à l’autre ou glissant l’un sur l’autre.
Nous avons déjà vu dans le chapitre sur le repliement des protéines que certains domaines
comme le cœur hydrophobe des protéines avaient une importance dans le processus de
repliement. La division en domaines est aussi utile lors de l’étude expérimentale ou théorique
du repliement de très grosses protéines. En effet, les différents domaines de ces dernières sont
alors étudiés séparément.
Il y a un grand nombre de façon de définir un domaine dans une protéine : en se basant sur
des alignement de séquence, sur les études de repliements, sur des alignements de structure…
Ainsi, un domaine est défini comme une unité compacte et semi-indépendante [Richardson;
1981] ou bien une unité stable de la structure qui peut se replier indépendamment du reste de
la protéine [Wetlaufer; 1973], ou encore une unité conservée au cours de l’évolution [Bork;
1992].
Nous avons développé deux programmes définissant des domaines. L’un est basé sur l’étude
des matrices de différences de distance calculées à partir de la comparaison de la structure 3D
de différentes conformation d’une protéine. L’autre utilise les données obtenues lors
d’expériences de mécanique moléculaire sous contrainte. Certains auteurs [Hinsen, et
al.;1999] font la différence entre domaines structuraux, les domaines compactes reliés par peu
d’éléments structuraux, et domaines dynamiques, ceux issus de la comparaison entre plusieurs
structures à des états dynamiques différents. Nous ne ferons pas cette différence de
vocabulaire dans cette thèse et appèleront domaines structuraux les domaines issus de la
comparaison entre structures et domaines mécaniques, ceux issus d’une étude mécanique.
Avant de rentrer plus en détail sur la méthodologie que nous avons mise au point, nous allons
présenter les principales méthodes de regroupement et de classification automatique (pour une
présentation plus détaillée voir [Diday, et al.; 1982]).
105
XIV.1 Classification automatique
Classifier, c’est regrouper entre eux des objets similaires selon un critère déterminé. Le critère
peut être simple ou multiple, numérique ou catégoriel, brut ou transformé, etc…les choix
possibles sont pratiquement illimités. Par construction, les objets ainsi réunis tendent à former
des classes homogènes [Chandon & Pinson; 1981].
Les diverses techniques statistiques de classification (ou d’« analyse typologique », de
« taxonomie » ou « taximonie », de « clusterisation » ou encore d’« analyse en clusters »
(amas)) visent à répartir n individus caractérisés par p caractères (ou variables) en m sous-
groupes.
Pour cela, il faut tout d’abord définir un indice de dissimilarité (ou, inversement de proximité)
entre les paires d’individus puis convenir d’une règle permettant de décider si deux individus
appartiennent au même groupe. On distingue deux grandes familles de classification : la
classification non hiérarchique, ou partition, décomposant l’ensemble en m sous-ensembles
disjoints (ou classes d’équivalence) et la classification hiérarchique où l’appartenance de deux
individus au même groupe dépend du seuil discriminant (ou niveau de précision regardé).
Cette dernière famille peut se représenter par une architecture de type arbres de classification
ou dendrogramme. La figure 40 donne des illustrations des différentes définitions de
structures classificatoires.
figure 40 : Types de structure classificatoire pour un ensemble I=a,b,c,d,e,f et
représentation en arbre de classification de la hiérarchie basée sur la distance euclidienne.
a
bc
d
e f a
bc
d
e f
partition hiérarchie arbre
a b c d e f
distance
106
XIV.1.1 Indice de dissimilarité
L’indice de dissimilarité (ou score de dissimilarité) δij entre toutes les paires (i,j) d’individus
doit satisfaire les conditions suivantes : positivité : δij ≥ 0 , symétrie : δij=δji et δii = 0.
Si en plus, pour tout i,j,k δij ≤ δik+δkj (on dit alors qu’il satisfait l’inégalité triangulaire),
l’indice est une distance ou distance métrique. Pour des variables quantitatives, un grand
nombre de distances peuvent êtres calculées : distance euclidienne (racine carré de la somme
des carrés des différences), distance de Chebychev (maximum des différences),…
XIV.1.2 Constitution des groupes
Etant donné un ensemble dij de distances entre individus, il s’agit de construire une partition
dont les m classes ou groupes sont aussi homogènes que possible.
La classification hiérarchique ascendante est la plus utilisée en pratique car elle est
relativement simple à programmer. Elle consiste à regrouper les deux individus les plus
proches, et à réitérer le processus jusqu’au regroupement complet. L’algorithme aboutit à un
arbre de classification. L’échelle verticale est la distance D(A,B) à laquelle les groupes A et B
sont réunis.
Différentes distances peuvent être utilisées : La méthode de saut minimal consiste à prendre
D(A,B) = min(dij, (i,j)∈AxB), celle de saut maximal consiste à prendre
D(A,B) = max(dij, (i,j)∈AxB). A partir d’un nuage étiré de n points, l’algorithme du saut
minimal tend à ajouter les individus un à un au « cluster » déjà formé (chaînage), tandis que
l’algorithme du saut maximal tendra à grouper des sous-clusters de taille similaire. D’autres
méthodes forment des compromis comme la moyenne des distances entre les deux amas, la
distance entre les centres de masse des deux amas ou la méthode de Ward [Ward; 1963] qui
est basée sur la minimisation de la perte d’information due au regroupement…
L’indice d’agrégation D(A,B) induit une distance Dij entre individus, qui est définie comme le
niveau d’agrégation minimal où i et j ont été réunis dans un même groupe.
Une fois l’arbre de classification construit, on choisit un nombre final m de groupes ou une
hauteur de coupe dans le dendrogramme pour obtenir une classification en différents sous-
groupes.
107
La classification hiérarchique est une analyse de données à caractère hautement heuristique.
C’est pourquoi le choix des options (choix des seuils, des distances, des critères) sera différent
suivant les informations que l’on veut faire apparaître et les classifications obtenues ne sont
pas uniques.
Des méthodes non hiérarchiques sont aussi utilisées. L’algorithme de Jarvis-Patrick [Jarvis &
Patrick; 1973] regroupe les individus avec une approche de « plus proche voisin ». La
méthode détermine les P plus proches voisins pour chaque individu selon une distance
métrique. Deux individus appartiennent au même groupe s’ils ont en commun au moins N
plus proches voisins. Cette méthode a l’avantage de pouvoir être utilisée pour un grand
nombre d’individus. Le nombre de sous-groupes produits dépend du choix des valeurs de P et
N. De grandes valeurs de P rallongent les temps de calcul mais permettent la formation de peu
de groupes de taille importante. De petites valeurs de N donnent des groupes plus compacts et
de grandes valeurs des groupes plus dispersés.
L’algorithme de type « Nuées Dynamiques » (K-Means) [Diday, et al.; 1982] impose le
nombre m de groupes formés. m individus (noyaux) sont choisis (en général aléatoirement) et
les autres individus sont regroupés avec le noyau le plus proche de façon à construire m
groupes initiaux. Les centres des groupes sont alors déterminés et les individus sont regroupés
avec le plus proche des centres. De nouveaux centres sont alors déterminés et le processus
continue jusqu’à ce que plus aucun individu ne change de groupe. Les résultats issus d’un
algorithme des Nuées Dynamiques dépend du choix initial des noyaux et il peut être
préférable de sélectionner les individus les plus représentatifs plutôt qu’un choix aléatoire.
Un grand nombre d’autres algorithmes existent pour partitionner un groupe [Diday, et al.;
1982] et le choix d’un algorithme se fait en général de façon empirique afin d’obtenir des
résultats qui répondent aux attentes de l’analyse souhaitée.
Maintenant que nous avons donné les définitions mathématiques relatives aux classifications,
nous allons présenter des algorithmes utilisés pour comparer deux structures entre elles, pour
classer les protéines et définir des domaines. Nous ne ferons pas de liste exhaustive mais nous
donnerons juste quelques exemples pour situer les algorithmes que nous avons mis au point et
montrer l’originalité de notre détermination de domaines mécaniques.
108
XIV.2 Comparer deux structures
La détermination de différents domaines au sein d’une protéine peut se faire soit en effectuant
une comparaison avec d’autres structures protéiques ou séquences, soit en étudiant les
propriétés intrinsèques de cette protéine. La comparaison entre structures permet de classer les
structures entre elles et d’identifier les domaines structuraux.
XIV.2.1 Comparaison de deux structures
L’approche la plus directe pour comparer deux structures est d’effectuer une superposition de
type corps rigide sur un certain nombre de points caractérisant une structure sur ceux
caractérisant l’autre. Ceci n’a de sens que pour des structures similaires et ne permet pas de
détecter des similarités locales pour des structures ne partageant que des sous-structures. Dans
ce cas-là, il faut tout d’abord couper les structures en fragments que l’on compare séparément.
De plus, cette approche nécessite de définir au préalable une série de positions équivalentes
entre les deux structures (avec, par exemple, un alignement séquentiel).
Une fois les structures superposées, il faut pouvoir évaluer la superposition. On reporte en
général la valeur du RMSD (root mean square deviation) comme mesure de la similarité entre
les structures. C’est la norme euclidienne des vecteurs distance entre les deux séries :
2
1
1 )()( irirRMSD B
N
iAN
rr−= ∑
=
Dans cette équation, N est le nombre de sites comparés et )(irAr
est le vecteur coordonnées du
site i dans la structure A ( )(irBr respectivement pour la structure B).
Afin de pouvoir comparer des structures suffisamment éloignées, d’autres critères ont été
proposés donnant plus de poids aux sites les mieux alignés [Levitt & Gerstein; 1998] ou en
utilisant une norme infinie L∞ [Lesk; 1998].
Un autre calcul de déviation quadratique moyenne peut être effectué, ne nécessitant pas de
superposition préalable : la moyenne euclidienne de la différence entre les distances issues des
matrices de distance des structures (que l’on peut noter dRMSD).
109
( )21
1
1)1(
2 ),(),( jidjiddRMSD BA
N
ij
N
iNN −= ∑∑
+=
−
=−
où dA(i,j) est la distance entre les sites i et j dans la structure A et N le nombre de sites
comparés. La matrice des dA(i,j) est appelée matrice de distances et regroupe les distances
entre les sites i et j d’une même structure A.
Tout comme les calculs de RMSD, les méthodes de comparaison de matrices de distance
posent des problèmes de choix d’indice (ou score) de similarités. Lors de la comparaison de
deux paires d’atomes, les scores de similarité peuvent être définis comme S1 [Taylor &
Orengo; 1989] ou S2 [Holm & Sander; 1993] donnés par les formules suivantes :
bDaS +=1 et ( ) ( ) ⎟
⎠⎞
⎜⎝⎛ ><−><−=
2exp2 b
DDDaS
avec D la différence entre les deux distances intramoléculaires, <D> sa valeur moyenne sur
l’ensemble des paires, a et b des constantes prises arbitrairement. (Une revue de Koehl donne
d’autres références de définitions de scores [Koehl; 2001]).
Le problème du choix de la méthode de comparaison et de la façon d’évaluer les similarités
entre plusieurs structures est important surtout lorsqu’on veut comparer une structure de façon
systématique aux structures d’une banque de données. On pourra aussi se reporter à la revue
de Godzik [Godzik; 1996] qui discute des différentes méthodes de comparaison.
XIV.2.2 Classification des protéines par comparaison
Il existe plusieurs projets de classification hiérarchique des structures de la Protein Data Bank
[Berman, et al.; 2000]. On peut citer, parmi les projets les plus couramment utilisés : FSSP
(Fold Classification based on Structure-Structure Assignments,
http://www.bioinfo.biocenter.helsinki.fi:8080/dali/index.html) [Holm & Sander; 1997],
CATH protein structure classification (Class Architecture Topology Homologous
superfamily, http://www.biochem.ucl.ac.uk/bsm/cath/) [Pearl, et al.; 2003], SCOP (Structural
Classification of Proteins, http://scop.mrc-lmb.cam.ac.uk/scop/) [Hubbard, et al.; 1997] et
3Dee (http://barton.ebi.ac.uk/servers/3Dee.html) [Siddiqui, et al.; 2001]. Ces classifications
sont construites avec différentes méthodes. Alors que CATH et 3Dee sont validés et que
110
SCOP est basé en grande partie sur le jugement d’experts humains, FSSP utilise un
algorithme de comparaison entièrement automatique : DALI.
• L’algorithme DALI
DALI utilise la comparaison des matrices de distances entre carbones α pour aligner deux
structures tridimensionnelles [Holm & Sander; 1993]. Ces matrices sont des représentations
2D de la structure 3D et contiennent tout l’information nécessaire pour pouvoir reconstruire la
structure 3D, à l’exception du choix entre deux molécules énantiomères. Holm et Sander ont
ainsi défini un algorithme permettant de superposer au mieux les différents domaines des
deux protéines comparées. L’algorithme permet par exemple de superposer deux structures de
feuillets β n'ayant pas la même connectivité en réordonnant les matrices de façon à faire
apparaître les sous-domaines superposables.
Cette méthode est automatisée et permet d’identifier les ressemblances structurales et les
cœurs structuraux communs à différentes protéines. En 1993 une classification des structures
est établie suite à la comparaison de 200 protéines représentatives. Depuis, on peut comparer
une structure avec une autre ou avec les structures issues de la PDB sur le site
http://www.ebi.ac.uk/dali. Il est à noter que cet algorithme ne nécessite pas d’alignement
séquentiel préalable des deux structures.
• Des méthodes originales pour classer les différentes structures
Quelques autres méthodes ne nécessitant pas d’alignement préalable de la séquence primaire,
ni d’approche classique de RMSD ou d’étude de matrices de distance, permettent de classer
les structures des protéines.
PRIDE (Probability of Identity) est un programme qui compare deux structures et définit une
distance notée PRIDE basée sur la moyenne des probabilités d’identité entre les distributions
statistiques des distances locales [Carugo & Pongor; 2002]. Pour chacune des structures
comparées, 28 histogrammes sont construits donnant le pourcentage des longueurs
représentées entre deux carbones Cα séparés de n acides aminés (n valant 3 à 30). Une
probabilité d’identité est calculée pour chacune des 28 paires d’histogrammes et le score
PRIDE est la moyenne des probabilités d’identité. Ainsi, PRIDE=1 correspond à une
ressemblance totale et les petites valeurs de PRIDE correspondent à la comparaison de
structures très différentes. Le programme PRIDE classe les structures qui se ressemblent dans
le même ordre que les valeurs de RMSD et il permet de retrouver de façon très satisfaisante
111
les classes de CATH (même pour des structures très éloignées) sans avoir recours à un
alignement structural ou à une détermination de structures secondaires.
Le programme MINAREA (Minimal Area : Minimal surface metric) est basé sur la
minimisation de la surface délimitée par les deux courbes (affines par morceaux) reliant les
carbones Cα des protéines comparées [Falicov & Cohen; 1996]. Cette surface est constituée
de petits triangles ayant pour sommets deux carbones α d’une des structures comparées et un
carbone α de l’autre structure. Les triangles consécutifs forment une surface qui est minimisée
par translation et rotation des deux structures l’une par rapport à l’autre. Le choix des
triangles est optimisé pour que la surface formée soit la plus petite possible. Le score de
similarité est donné par la valeur de la surface divisée par la longueur moyenne des deux
courbes et est ainsi très faible lorsque les structures sont similaires et plus grand lorsque les
structures sont différentes. Il n’y a pas besoin d’aligner la séquence primaire les protéines et
ces dernières n’ont pas besoin d’avoir le même nombre de résidus. Au contraire, cette
méthode permet de proposer un alignement et de montrer des ajouts ou délétions de
séquences.
SGM (Scaled Gauss metric) est une mesure topologique qui permet de classifier les structures
des protéines [Rogen & Fain; 2003]. La topologie d’une protéine est décrite par 30 nombres et
permet de regrouper les structures dans un espace à 30 dimensions. Cet algorithme rapide
permet de retrouver plus de 96% des domaines de CATH et n’utilise qu’un seul paramètre
ajustable. Il permet ainsi de s’affranchir des inconvénients des méthodes nécessitant un calcul
de RMSD : exigence d’un alignement de séquence, introduction de plusieurs paramètres
(paramètres de pénalité, poids de similarité…) et violation de l’inégalité triangulaire.
XIV.3 Identifier des domaines rigides à partir de deux structures
distinctes
Nous venons de voir comment les structures étaient classées entre elles. Nous allons
maintenant aborder la question de l’identification de domaines grâce à la comparaison de
structures.
112
XIV.3.1 Utilisation de superposition entre structures
Un exemple d’algorithme déterminant des domaines par superposition de structure est
l’algorithme de Wriggers et Schulten [Wriggers & Schulten; 1997]. Cet algorithme
« Hingefind », disponible sur la page ftp://ftp.ks.uiuc.edu/pub/hingefind/hingefind.html,
permet d’identifier et de visualiser les mouvements des domaines rigides autour des
charnières. Hingefind exige que les deux structures soient alignées et que seuls les sites
communs soient gardés. Seuls les carbones α sont pris en compte pour décrire les résidus.
L’approche utilisée consiste à superposer un sous-ensemble de Cα avec le méthode « Kabsch
least-squares » qui minimise la somme ∑=
−N
iBAi irirs
1
2' ))()(( rr où )(' irA
r désigne la coordonnée
du résidu i après une transformation de type corps rigide sur la structure A et )(irBr
la
coordonnée du résidu i dans la structure B. si est égal à 1 si le carbone α du résidu i appartient
au sous-ensemble et nul sinon.
Pour la première étape, le sous-ensemble choisi est tel que ρ<− )()( irir BArr
avec ρ=15Å.
Ce sous-ensemble est superposé entre les deux structures, et la norme )()(' irir BAirr
−=δ est
calculée pour tous les résidus. Sont alors retirés du sous-ensemble tous les résidus tels que
δi > ε et sont ajoutés au sous-ensemble tous les résidus tels que δi < ε. ε est une fraction du
RMSD initial entre les deux structures. Sa valeur est typiquement fixée entre 60% et 80% du
RMSD initial. Une superposition est de nouveau effectuée avec ce nouveau sous-ensemble.
Lorsque le processus converge, on estime que le domaine obtenu est un domaine rigide. On
réitère alors l’algorithme en ne tenant plus compte des résidus composant ce domaine.
XIV.3.2 Utilisation de matrice de distances
Les matrices de distances sont une bonne alternative aux superpositions pour la comparaison
de deux structures et l’identification de domaines structuraux. Leur construction nécessite que
les séquences des deux structures comparées soient au préalable séquentiellement alignées
pour avoir le même nombre de carbones α à comparer.
113
La première étape consiste à construire la matrice de distance ∆ des valeurs absolues des
différences (entre deux structures) des distances entre les carbones α des résidus i et j. Les
éléments ∆ij de cette matrice sont définis de la façon suivante :
∆ij = |dA(i,j)-dB(i,j)|
avec dA(i,j) la distance entre les résidus i et j dans la structure A et dB(i,j) la distance entre
ces mêmes résidus dans la structure B (voir figure 41).
figure 41 : Définition des distances dA(i,j) et dB(i,j). Les résidus i et j sont les mêmes dans les
deux structures A et B.
On peut alors construire une matrice D (de dimension NxN pour une protéine de N résidus),
dont les éléments Dij sont égaux à 1 si la différence ∆ij est inférieure à une valeur choisie rd et
nuls dans le cas contraire.
Dij = h(rd-∆ij) où h est la fonction d’Heaviside (h(x)=1 si x≥0 et h(x)=0 si x<0)
Ainsi, Dij=1 correspond aux résidus i et j qui ne bougent pas l’un par rapport à l’autre
lorsqu’on passe d’une structure à l’autre et Dij=0 correspond à deux résidus i et j dont la
distance n’est pas la même (d’après le critère rd) dans les deux structures.
i
j
i
j
dA(i,j)dB(i,j)
A B
114
Le but final est de définir des domaines (ou blocs) de résidus bougeant ensemble. Les
matrices obtenues sont alors analysées pour définir de tels domaines. Avant de décrire le
critère que nous avons choisi, nous allons présenter d’autres algorithmes utilisant les matrices
de distances.
XIV.3.3 Exemple d’algorithme utilisant la comparaison de matrices de
distances
Nichols et al. décrivent un algorithme permettant d’identifier les domaines rigides des
protéines par la comparaison de matrices de distances [Nichols, et al.; 1995]. Les auteurs
construisent une matrice de différences de distance D comme expliqué ci-dessus. Les
domaines sont construits avec des résidus afin que la distance entre n’importe quelle paire (i,j)
des carbones α des résidus i et j d’un domaine diffère de moins de rd dans les deux structures.
Malheureusement, cet algorithme demande un stockage important. Une recherche exhaustive
de tous les domaines satisfaisant le critère rd est impossible pour des protéines comprenant
plus de 50 résidus. Ils proposent aussi une autre approche non exhaustive qui permet de
construire des familles de domaines qui se recouvrent.
XIV.3.4 Le problème du bruit
Dans la plupart des algorithmes définissant des matrices de différences de distance, les
incertitudes sur les coordonnées atomiques ne sont pas prises en compte directement. Elles le
sont indirectement par le choix du seuil rd. Schneider a soulevé ce problème et propose de
prendre en compte dans les matrices de différences de distance les erreurs dues à ces
incertitudes [Schneider; 2000]. En effet, il souligne que les éléments des matrices de
différences de distance représentant de petites différences entre de grandes distances, le
problème du bruit n’est pas négligeable a priori.
Après avoir présenté notre approche, nous allons discuter dans notre cas ce problème de bruit.
XIV.4 Définition des blocs structuraux
Nous avons déterminé des blocs (ou domaines) structuraux après avoir construit une matrice
D de comparaison de distances entre deux structures d’une même protéine. L’alignement est
donc trivial puisque les séquences des deux structures sont les mêmes.
115
L’algorithme que nous avons utilisé est très simple et explicité ci-dessous.
On part du résidu numéro 1 et on considère comme appartenant au premier bloc tous les
résidus consécutifs j tant que D(1,j) est égal à 1. Soit i le premier résidu tel que D(1,i) est nul,
on commence alors un nouveau bloc dont le critère est D(i,j)=1 pour tous les résidus j
suivants et ainsi de suite. On crée ainsi des blocs « diagonaux » en regardant les informations
proches de la diagonale. Afin de regrouper les blocs qui seraient constitués de résidus non
consécutifs, on regarde la valeur des éléments D(iA,iB) où iA et iB sont des résidus centraux des
blocs diagonaux A et B. Si D(iA,iB) est égal à 1, les deux blocs A et B sont regroupés en un
bloc final. On construit donc une matrice Df telle que Df(i,j)=1 si i et j appartiennent à un
même bloc et Df(i,j)=0 dans le cas contraire.
Un exemple de matrices D et Df est montré figure 42.
figure 42 : Matrices D et Df pour la comparaison de deux structures de myosine avec un
critère rd de 0,1Å. À gauche : D avant l’algorithme de création des blocs, à droite : Df après
l’algorithme. Une valeur D(i,j) ou Df(i,j) égale à 1 est représentée en noir et une valeur D(i,j)
ou Df(i,j) égale à 0 en blanc.
Par rapport à l’approche de Nichols et al., nous nous contentons de ne regarder que les paires
entre le premier résidu du domaine et les autres. Notre méthode très simplificatrice est
justifiée a posteriori par une validation visuelle, notre volonté étant d’avoir une approche
qualitative rapide donnant une partition satisfaisante.
116
Dans les études que nous avons menées, nous n’avons pas tenu compte du raffinement
prenant en compte les erreurs sur les coordonnées, comme le suggère Schneider, pour deux
raisons. D’une part, les structures, réalisées par les mêmes auteurs (Houdusse et al.), ont été
déterminées à plutôt basse résolution (4,20 Å et 2,50 Å) [Houdusse, et al.; 1999, Houdusse, et
al.; 2000]. D’autre part, les résultats montrent qu’une analyse très simplifiée permet d’obtenir
des résultats très cohérents à partir des données expérimentales.
La méthode décrite ici est donc limitée à la comparaison de structures d’une même protéine,
cristallisée dans des conditions similaires et nous verrons son application dans le cas de la
myosine dans l’article présenté au Chapitre 6.
XIV.5 Identification de domaines sans comparaison
Nous venons de décrire des algorithmes qui permettent de déterminer des domaines d’une
structure par comparaison avec d’autres structures. Nous nous intéressons maintenant à
l’identification de domaines intrinsèques à une structure.
Nous avons vu dans le chapitre XII.5 des applications du modèle granulaire qu’on pouvait
déduire des facteurs de température ou de l’étude des modes normaux des régions plus rigides
et des régions plus flexibles. On peut ainsi déterminer des domaines dit « dynamiques »
constitués de régions rigides qui bougent les unes par rapport aux autres issu de l’étude des
modes normaux de grande amplitude [Hinsen; 1998, Hinsen, et al.; 1999]. Hinsen et al. ont
ainsi montré que l’on pouvait obtenir des domaines similaires par l’étude des modes normaux
et par la comparaison de deux structures d’une même protéine dans des conformations
différentes [Hinsen, et al.; 1999].
D’autres algorithmes permettent de déterminer des domaines, basés notamment sur le fait que
les domaines ont un minimum d’interaction entre eux et qu’il y a un maximum d’interaction à
l’intérieur de chaque domaine. C’est le cas de l’algorithme Puu (« arbre » en finlandais,
« parser for protein unfolding units ») qui construit une matrice de contact et la réordonne
pour déterminer les domaines comme les régions de plus grande densité de contacts [Holm &
Sander; 1994]. L’algorithme STRUDL (STRUctural Domain Limits) [Wernisch, et al.; 1999]
ainsi que Puu permettent d’identifier des domaines constitués de plusieurs morceaux de
chaîne sans imposer au préalable un nombre de coupures de la chaîne. STRUDL partitionne la
structure en régions afin de minimiser la surface d’interaction entre les domaines (cette
surface est calculée à partir des surfaces de Voronoï). Ces programmes permettent de définir
117
des domaines (éventuellement constitués de plusieurs segments de chaînes) pour des protéines
constituées de plusieurs chaînes, ce qui n’est pas le cas de l’algorithme DOMAK (Domain
Maker) qui détermine des domaines en ne cherchant que le point de coupure d’une seule
chaîne tel que les interactions entre domaines soient maximisées [Siddiqui & Barton; 1995].
D’autres approches comme le regroupement de petits segments [Crippen; 1978], le
regroupement de structures secondaires (algorithme DIAL) [Sowdhamini & Blundell; 1995,
Vinayagam, et al.; 2003] en définissant une notion de distance entres les unités regroupées
permettent de définir des domaines structuraux.
Le programme Protein Domain Parser [Xu, et al.; 2000] utilise une approche de la théorie des
graphes pour partitionner la structure étudiée. Chaque résidu représente un nœud d’un réseau
dont les liens dépendent de la nature du contact entre les résidus. Le réseau est découpé en
deux de façon à minimiser la coupure. La décomposition en plusieurs domaines se fait en
itérant le découpage en deux des domaines obtenus.
Dans la plupart des programmes que nous venons de présenter, les domaines obtenus sont des
domaines structuraux, obtenus uniquement par l’analyse de la structure de la protéine étudiée
(on pourra aussi lire la revue de Janin et Chothia qui discute des différentes méthodes de
localisation des domaines [Janin & Chothia; 1985]). Dans le prochain paragraphe, nous
présentons une approche originale de détermination de domaines protéiques fondé sur la
réponse mécanique d’une structure à une contrainte.
XIV.6 Domaines mécaniques
Lors de l’application d’une contrainte locale de valeur donnée D* sur la moyenne des
distances entre le carbone α d’un résidu i et les autres carbones α, la structure se déforme. Il
est alors possible de calculer un ensemble de vecteurs ijrr∆ correspondant aux déplacement
relatif du Cαj par rapport au Cαi sondé. On peut ainsi construire une matrice des normes ∆rij
de ces vecteurs (ces normes correspondent donc à la valeur absolue de la variation de la
distance dij). Chaque ligne i provient d’une expérience dans laquelle on sonde le résidu i. En
général, ∆rij est différent de ∆rji. De petites valeurs de ∆rij correspondent à des résidus i et j
qui sont couplés et bougent ensemble sous l’action de la contrainte.
On définit un domaine mécanique comme un ensemble de résidus qui bougent comme un bloc
sous l’influence des contraintes imposées.
118
L’algorithme que nous avons mis au point permet de regrouper ensemble les résidus i et j dont
les valeurs ∆r sont plus petites qu’un seuil T. La première étape consiste à rechercher la plus
petite valeur de ∆rij tel que ∆rij et ∆rji sont plus petits que T . Les résidus i et j forment ainsi le
noyau du premier domaine et ∆rij et ∆rji sont enlevés de l’analyse. Puis la plus petite valeur
∆rik de la ligne i est recherchée et le résidu k est ajouté au domaine si ∆rlk et ∆rkl sont
inférieurs à T pour tous les résidus l appartenant déjà au domaine. Le processus est réitéré
jusqu’à ce que tous les résidus aient été testés. Lorsque tous les résidus k satisfaisant la
condition « ∆rkl et ∆rlk plus petits que T pour tous l du domaine » sont trouvés, l’algorithme
élimine les valeurs correspondant aux résidus du domaine et construit un nouveau domaine en
recherchant dans la nouvelle matrice la plus petite valeur ∆rij.
Une fois que tous les domaines sont définis, on teste chaque résidu en regardant s’il peut
appartenir à un autre domaine que celui auquel il a été assigné. Le résidu i est déplacé du
domaine A vers le domaine B s’il satisfait le critère d’appartenance dans le domaine B (c’est-
à-dire pour tout l de B, ∆ril et ∆rli sont plus petit que T) et si AlilBlil rr
∈∈∆<∆ , où
Blilr∈
∆ est la moyenne des déplacements des résidus l du domaine B par rapport au résidu i.
∑=∈
∆+∆=∆n
lliilBlil rrnr
1)(2
1 où n est le nombre de résidus l dans le domaine B.
Tous les résidus sont testés de façon cyclique jusqu’à que les domaines soient stables.
Afin d’éviter une partition en domaines qui n’auraient pas de signification structurale, une
distance δ entre deux domaines A et B est définie comme la valeur maximale de l’ensemble
∆rlk, ∆rkl/ (l,k)∈AxB. Si cette distance δ entre A et B est plus petite que pxT (avec p un
pourcentage plus grand que 1) alors les deux domaines sont regroupés en un seul. Le
processus itératif permettant de changer des résidus de domaine décrit précédemment est de
nouveau appliqué avec un nouveau seuil T défini comme : T = max(T, δ). Tout ce processus
est réitéré jusqu’à impossibilité de regrouper deux domaines.
On peut alors construire un arbre de classification hiérarchique. La distance entre les branches
de l’arbre est alors plus grande que pxT.
119
Les valeurs de T=0,35 Å et p=1,3 donnent des résultats satisfaisant pour une valeur de D* de
0,2 Å présentés dans l’article du Chapitre 7 de cette thèse. On obtient ainsi quatre domaines
pour la nucléase du staphylocoque (figure 43).
figure 43 : Domaines dynamiques pour la nucléase du staphylocoque (4 domaines : bleu,
rouge, jaune et vert) pour D*=0,2Å, T=0,35 et p=1,3 et arbre de classification des domaines.
vert jaune bleu rouge
2,477 _ 1,711 _ 1,377 _
δ
120
121
Chapitre 6 Article : Flexibilité de la myosine :
domaines structuraux et vibrations collectives.
122
XV Introduction
XV.1 La myosine : une protéine moteur
XV.1.1 Différents types de myosines
Trois types de moteurs cytoplasmiques sont connus : les myosines qui s’associent aux
microfilaments d’actine, les kinésines et les dynéines qui se déplacent le long des
microtubules (voir la revue de Schliwa et Woehlke [Schliwa & Woehlke; 2003]). Les
myosines constituent une large superfamille de protéines. Elles présentent un domaine
commun, situé en général dans leur région N-terminale, dont les propriétés mécano-chimiques
sont d’hydrolyser des molécules d’ATP et d’interagir avec l’actine afin de produire un
mouvement le long des microfilaments d’actine. Les approches génétiques et phylogéniques
ont permis d’identifier de nombreux membres de cette famille et de les classer en sous-
familles (numérotées avec des chiffres romains). Un site internet regroupe les recherches
actuelles sur ces familles et l’avancée des connaissances sur les myosines :
http://www.mrc-lmb.cam.ac.uk/myosin/myosin.html.
Avant de présenter plus en détail la famille des myosines II, dont l’un des membres fait l’objet
de l’article commenté dans ce chapitre, nous allons présenter la structure générale des
myosines et les différentes familles jusqu’alors identifiées.
• Description de la structure
Les myosines sont constituées de trois domaines : la tête (en général la partie N-terminale),
qui constitue le domaine moteur, le cou (domaine régulateur), et la queue (partie C-terminale).
La structure quaternaire de ces protéines se compose de plusieurs chaînes : la chaîne
principale ou chaîne lourde et des chaînes légères situées au niveau du cou. Chacun des
domaines peut être divisé en plusieurs sous-domaines, spécialisés pour remplir des fonctions
spécifiques aux différentes familles.
La tête ou domaine moteur : Le domaine moteur est le seul domaine qui soit
présent dans toutes les chaînes lourdes des myosines. C’est ce domaine qui interagit avec
123
l’actine et lie l’ATP. Le domaine moteur est une région globulaire relativement conservée :
seules quelques boucles en surface et l’extrémité N-terminale varient parfois selon les
myosines.
Le cou ou domaine de régulation : Pratiquement toutes les myosines ont un
cou ou domaine de régulation. C’est une région constituée d’une longue hélice α stabilisée
par des chaînes légères. Les sites de fixation des chaînes légères sont des motifs IQ
(IQXXXRGXXXR) répétés de 0 à 7 fois. Comme l’indique le nom de ce domaine, celui-ci est
considéré comme ayant un rôle de régulation dans certaines myosines mais sa fonction est
encore mal connue. Lorsque ce domaine est assez long, il est supposé avoir un rôle de bras de
levier amplifiant les changements conformationnels de la tête de la myosine. Si certains
défendent ce modèle [Volkmann & Hanein; 2000], d’autres proposent que le changement
conformationnel du cou régule le temps d’attachement de la myosine sur l’actine [Yanagida &
Iwane; 2000c]. Deux caractéristiques diffèrent suivant les familles : la longueur du domaine et
le type de chaînes légères fixées. Beaucoup de myosines fixent des chaînes légères
ressemblant à la calmoduline, d’autres fixent de petites molécules pouvant se lier à des ions
calcium. L’activité motrice des myosines est alors régulée soit par la fixation d’ions calcium,
soit par une phosphorylation de la chaîne légère ou de la chaîne lourde.
La queue : La queue sert d’ancre spécifique et positionne le domaine moteur
afin qu’il puisse interagir avec l’actine. La queue varie beaucoup d’une myosine à l’autre, en
taille et en séquence. Plusieurs domaines fonctionnels impliqués dans des interactions
protéine-protéine ou protéine-phospholipide y ont été identifiés, par analogie avec d’autres
protéines. En outre, les queues de certaines myosines contiennent une structure en hélice qui
permet leur homodimérisation (α-helical coiled-coil) : on obtient, dans ce cas, des moteurs à
deux têtes, similaires aux moteurs associés aux microtubules. Dans le cas des myosines II,
cela permet aussi aux myosines de former des filaments.
Les extensions N-terminales : Certaines myosines possèdent également une
extension N-terminale (aussi appelée nez).
• Les sous-familles
Les différentes familles des myosines sont déterminées par la comparaison des séquences et
par une reconstruction de l’évolution entre les différentes branches d’un arbre phylogénique.
À l’heure actuelle, 18 classes de myosines ont été déterminées par la comparaison des têtes de
myosines [Berg, et al.; 2001, Hodge & Cope; 2000] (figure 44) qui sont globalement
124
retrouvées lorsqu’on compare les domaines du cou et de la queue. Ceci suggère que pour
chaque type de myosine, la tête et la queue ont évoluées ensemble [Korn; 2000].
figure 44 : Arbre phylogénique de la famille des myosines, extrait de l’article de Hodge et
Cope [Hodge & Cope; 2000].
• Rôle des myosines
À côté du rôle des myosines II qui est bien caractérisé dans la contraction musculaire (voir
plus loin), les membres de la familles des myosines sont impliqués dans un grand nombre de
fonctions cellulaires dont la motilité cellulaire, le trafic intracellulaire d’ARN ou d’organelles,
la cytocinèse (ou fission cellulaire) et la transduction de signaux…[Baker & Titus; 1998].
On caractérise les propriétés des myosines par les critères suivants :
125
- La direction de déplacement : La plupart des myosines se déplacent le long du
microfilament d’actine en direction de l’extrémité barbée de ce dernier mais certaines
(les myosines VI) se déplacent dans le sens inverse (vers le côté pointé, côté à
croissance lente).
- Le pas élémentaire : Bien que ce fait soit encore controversé, les différentes myosines
semblent avoir des déplacements unitaires différents. Un pas élémentaire correspond à
l’avancement dans la direction de l’actine du à un changement de conformation de la
tête amplifiée par le cou. Par exemple, la myosine II du squelette du lapin a un
déplacement élémentaire de 50 Å alors que certaines myosines I ont un déplacement
de 110 Å.
- La vitesse de glissement : Sous certaines conditions, une myosine a une certaine
vitesse de glissement déterminée par la combinaison des différents paramètres
cinétiques et le déplacement produit par la myosine. Celle-ci peut aller de
0,015 µm.s-1 (dans le cas de la myosine IX) à 70 µm.s-1 (pour la myosine Chara XI).
- La processivité : Une myosine est dite processive si elle est capable d’effectuer
plusieurs pas le long de du filament d’actine avant de s’en détacher. Les myosines V
sont des myosines processives : le fait que les deux têtes de myosines enlacées sont
coordonnées, il y a toujours une tête liée à l’actine. Les myosines II, elles, ne sont pas
processives : le temps pendant lequel elles restent attachées fortement à l’actine est
relativement faible.
• Propriété enzymatique des myosines
Les myosines hydrolysent les molécules d’ATP (adénosine triphosphate), en ADP (adénosine
diphosphate) et phosphate inorganique par la réaction suivante :
ATP ADP + Pi
Les formules chimiques des nucléotides cités ci-dessus sont données dans la figure 45.
126
figure 45 : Formule chimique de l'adénosine triphosphate (ATP). Sont aussi indiquées les
formules de l’adénosine diphosphate (ADP) et monophosphate (AMP).
Le site d’hydrolyse de l’ATP se situe dans la tête de la myosine, à l’opposé du site
d’interaction avec le filament d’actine (figure 47). Afin d’obtenir des structures
cristallographique correspondant à des conformations différentes de la tête de la myosine, ces
dernières ont été déterminées avec des nucléotides qui miment l’ATP, l’ADP.Pi ou l’ADP.
Ainsi, MgADP.BeFx mime l’ATP juste avant hydrolyse, et MgADP.VO4 et MgADP.AlF4
miment l’état de transition ADP.Pi [Rayment; 1996].
• La myosine II
Nous nous intéressons plus particulièrement à la myosine II ou myosine conventionnelle. Elle
tient ce nom du fait que ce fut la seule myosine étudiée pendant des années.
Les myosines II ont toutes une tête se terminant par les trois acides aminés FFK ou FFR, un
cou constitué des 71 (ou 72) acides aminés suivants et une queue commençant par un résidu
proline. Leur longue queue en hélice permet leur homodimérisation et, pour les myosines II
musculaires, la formation de filaments épais qui « glissent » sur les filaments fins d’actine.
Ainsi la contraction des muscles résulte du déplacement des filaments épais de myosine par
rapport aux filaments fins d’actine (figure 46).
Adénosine
127
figure 46 : Structure du squelette musculaire.
La figure 47 permet de visualiser les différents domaines couramment utilisés dans la
description des myosines. La molécule est constituée de poches et fentes, qui séparent les
différents domaines, déterminées visuellement. Le site du fixation du nucléotide se trouve
dans la poche située à l’interface entre le domaine N-terminal de 25 kDa (gris sombre) et le
fragment central de 50 kDa (bleu et gris clair). La fente « 50 kDa cleft » divise le domaine de
50 kDa en deux : « upper » (au dessus, bleu) et « lower » (en dessous, gris clair). Une région
entre la tête et le cou (hélice cyan) est désignée de « converter » car elle transmet le
128
mouvement de la tête au cou (ou bras de levier). Les chaînes légères sont représentées en
violet.
figure 47 : Différents domaines d'une myosine II, dessin issu de [Houdusse & Sweeney; 2001
] : Le domaine N-terminal (gris sombre), le domaine 50kDa (bleu et gris), le « converter »
(vert), le bras de levier (bleu clair) et les chaînes légères (violet). Les boucles reliant les
différents domaines sont coloriées en orange (Switch II) et rouge (SH1 helix). Les sites de
fixation de l’ATP et de l’actine sont indiqués ainsi que la région pliante située à la base du
cou.
XV.1.2 Cycles actine-myosine
Nous venons de voir que, lors de la contraction musculaire, les myosines II musculaires,
organisées en filaments épais, utilisent leurs propriétés mécano-enzymatiques pour « glisser »
sur des faisceaux d’actine. Afin de comprendre le mécanisme de déplacement des myosines
sur l’actine, plusieurs groupes ont entrepris l’analyse structurale de ces moteurs. Depuis la
première structure cristallographique de la tête motrice de myosines II du poulet (fragment
S1), qui est composée de la tête et du cou, par Rayment et al. [Rayment, et al.; 1993b],
plusieurs autres structures de fragments S1 de myosines II complexés à différent nucléotides
ont été déterminées. On peut citer entre autres, différentes structures du domaine S1 de la
myosine II du Dictyostelium discoideum par le groupe de Rayment [Gulick, et al.; 2000], du
muscle strié du poulet par Dominguez et al. [Dominguez, et al.; 1998] et de la coquille Saint
Jacques par Houdusse et al. [Houdusse, et al.; 2000] et Himmel et al. [Himmel, et al.; 2002]
Essential light chainRegulatory
light chain
129
(pour les références, voir les structures accessibles sur la Protein Data Bank [Berman, et al.;
2000]). Cependant aucune structure cristallographique du complexe actine-myosine n’a été
déterminée et seules des constructions visuelles ou théoriques du complexe acto-myosine,
basées sur les structures des protéines isolées et les données de microscopie électronique, ont
été proposées [Mendelson & Morris; 1997, Rayment, et al.; 1993a].
Les données cristallographiques et les études des propriétés cinétiques du déplacement le long
de l’actine et de l’hydrolyse de l’ATP ont permis de proposer différents modèles.
• Modèle du bras de levier et d’instabilité conformationnelle
Dans le modèle du bras de levier, la force est générée par de petits changements de
conformation du site de fixation du nucléotide dus à l’hydrolyse de l’ATP [Block; 1996,
Geeves; 1991, Holmes & Geeves; 2000, Uyeda, et al.; 1996]. Ces changements sont transmis
au cou via un domaine appelé « converter » et amplifiés par le cou qui fonctionne comme un
bras de levier.
Le cycle proposé par le modèle du bras de levier est schématisé dans la figure 48. En
l’absence de nucléotide, la myosine est liée avec une forte affinité à un monomère du
microfilament d’actine (a). Cette conformation est appelée « rigor » (parce qu’elle est
responsable de la rigidité cadavérique ou rigor mortis). L’ATP se lie alors à la myosine et
modifie ainsi la conformation de l’enzyme, diminuant son affinité pour l’actine (b). Le site du
nucléotide se referme alors que la myosine se détache de l’actine. Avec l’hydrolyse de l’ATP
en ADP.Pi, la tête de la myosine peut alors pivoter sur son cou flexible jusqu’à obtenir une
conformation lui permettant de se lier faiblement à un autre monomère du microfilament
d’actine (c). Le relargage du phosphate s’accompagne d’un changement conformationnel de
la tête de la myosine qui augmente l’affinité de la liaison entre la myosine et l’actine (d). La
libération de la molécule d’ADP entraîne alors le repositionnement de la tête de la myosine,
toujours étroitement liée au microfilament d’actine, par rapport à la queue. La myosine
retrouve sa structure initiale un pas plus loin pour redémarrer un nouveau cycle (e).
130
figure 48 : Modèle du bras de levier. Schéma tiré de
« Molecular Biology of the Cell » [Alberts, et al.;
1994].
Un grand nombre d’études récentes
justifient directement ou
indirectement le modèle du bras de
levier. Mais ce modèle ne permet pas
d’expliquer l’ensemble des
observations expérimentales. C’est
pourquoi Volkmann et Hanein
proposent que le mouvement de la
myosine est provoquer par un
mécanisme de bras de levier mais que
le changement de conformation de la
myosine responsable du déplacement
est dépendant de la forte liaison de la
myosine à l’actine et non pas de
l’hydrolyse de l’ATP. Avant de se
lier à l’actine, la molécule de
myosine présente de multiples
conformations qui sont réduites à une
seule conformation, induisant un
déplacement le long du filament
d’actine [Volkmann & Hanein;
2000].
• Modèle de cliquet brownien biaisé
La micromanipulation de molécules uniques collées à la pointe d’une aiguille et l’observation
simultanée du cycle d’hydrolyse de l’ATP ont, quant à elles, incité les auteurs de cette étude à
proposer un second modèle [Yanagida, et al.; 2000a, Yanagida, et al.; 2000b]. Pour ces
auteurs, la force produite par la myosine n’est pas couplée à la libération de la molécule
d’ADP. Une tête de myosine peut subir, pendant un même cycle d’hydrolyse d’ATP, une
a
b
c
d
e
131
succession de plusieurs déplacements élémentaires de 53 Å, longueur qui correspond à peu
près à la distance entre deux monomères d’actine dans un microfilament [Kitamura, et al.;
1999]. Ce résultat suggère que l’énergie chimique produite lors de ce cycle est emmagasinée
dans la tête de la myosine ou dans le microfilament d’actine et libérée en plusieurs fois pour
permettre ces déplacements successifs. Le changement de conformation interprété comme un
mouvement de bras de levier dans le premier modèle n’est pas ici directement impliqué dans
le déplacement du moteur, mais agit en régulateur du temps d’attachement de la myosine au
microfilament, et donc de sa vitesse.
En outre, au cours d’un même cycle d’hydrolyse d’une molécule d’ATP, les déplacements
élémentaires peuvent se produire dans les deux sens sur le microfilament d’actine, alors que le
mouvement global de la myosine n’a lieu que dans un sens (figure 49). Yanagida et al.
opposent ainsi un modèle stochastique, « le modèle de cliquet brownien biaisé » (Biaised
Brownian Ratchet Model) au modèle classique du bras de levier. Au cours d’un cycle, la
myosine effectue une succession de sauts le long du microfilament d’actine au gré de son
mouvement brownien. Le cou, région régulatrice, biaise ces sauts aléatoires pour favoriser un
sens de déplacement de la myosine (le sens du côté barbé pour les myosines II).
figure 49 : Le modèle de cliquet browien biaisé comparé au modèle du bras de levier (tiré de
Yanagida et al. [Yanagida & Iwane; 2000c]).
• Modèles intermédiaires
Les deux modèles que nous venons de décrire (le modèle du bras de levier et le modèle
d’encliquetage brownien biaisé) semblent en contradiction puisque le premier prévoit un
déplacement d’un pas par cycle d’hydrolyse d’ATP alors que le deuxième propose un
Modèle du bras de levier Modèle de cliquet brownien biaisé
132
mouvement en plusieurs étapes. Pourtant, le déplacement brownien de la myosine n’est pas
incompatible avec une instabilité conformationnelle de la protéine.
Irving et Goldman proposent ainsi un modèle qui réunit ces deux approches [Irving &
Goldman; 1999]. Ils suggèrent que les divergences entre les modèles proposés pour expliquer
le déplacement des myosines II le long des filaments d’actine viennent surtout des différences
techniques utilisées pour étudier ce système. L’augmentation de l’affinité du moteur pour
l’actine lors de l’hydrolyse de l’ATP en ADP+P peut correspondre à la fois à une
rigidification de la conformation de la protéine et à la régulation de son temps d’attachement
au microfilament d’actine.
A partir de la détermination de trois états conformationnels d’un fragment S1 de la myosine II
du muscle strié de la coquille Saint Jacques et de données cinétiques, Houdusse et al.
proposent une interprétation compatible avec les deux modèles [Houdusse & Sweeney; 2001].
En l’absence de force extérieure appliquée sur la molécule, la myosine agit essentiellement
comme un cliquet brownien biaisé par le cou et dont les pas sont compatibles avec la
périodicité de l’actine. En présence de force extérieure empéchant le glissement, elle agit
comme le modèle du bras de levier présenté ci-dessus. Les auteurs proposent un cycle
incluant toutes les données cinétiques alors accessibles (figure 50). Le cycle central de la
figure 50 correspond à un cycle sans contrainte imposée sur le système et celui du bas au
cycle postulé lors de l’application d’une contrainte sur le système. Le petit cycle indépendant
(en haut) montre que l’état détaché est en équilibre avec l’état ATP (structure proche du rigor)
et suggère que celui-ci correspond à une multitude de conformations, augmentant le temps de
vie de l’état avant hydrolyse de l’ATP. L’état de transition de l’hydrolyse, qui précède la
production de force, est stabilisé en absence d’actine et correspond à une conformation dans
laquelle le bras de levier forme un angle d’environ 90° avec le filament d’actine. Les trois
structures déterminées par Houdusse et al. en l’absence d’actine correspondent dans ce cycle
à l’état détaché, à l’état ATP et à l’état de transition [Houdusse, et al.; 1999, Houdusse &
Sweeney; 2001, Houdusse, et al.; 2000]. Ce sont ces trois structures que nous avons utilisées
dans notre étude sur la myosine.
133
figure 50 : Cycle proposé par Houdusse et al. [Houdusse & Sweeney; 2001]. Les lettres
oranges correspondent aux états cinétiques : A = actine, M = myosine, T = ATP, D = ADP et
Pi = phosphate inorganic.
134
XV.2 Blocs structuraux et étude des modes normaux
Nous avons profité de la disponibilité de la structure cristallographique de trois états
différentes (état détaché, état de transition et état « near rigor ») du fragment S1 d’une même
protéine, la myosine du muscle strié de la coquille Saint Jacques, pour comparer ces structures
entre elles.
Une première étape a consisté à appliquer la méthode ANM (Anisotropic Normal Mode) aux
trois structures. Seule une des structures, celles de l’état détaché est de suffisamment bonne
résolution pour que les facteurs de température soient accessibles. La méthode a été validée
sur ces données et les facteurs de température théoriques des deux autres structures ont été
déterminés.
La comparaison des structures deux à deux nous a permis de définir des domaines qui sont
d’une part compatibles avec les résultats de l’étude des modes normaux mais qui renseignent
aussi sur une partition plus fine des structures que celle couramment faite à partir d’une étude
visuelle.
Ces deux méthodes permettent de comparer les propriétés mécaniques des trois structures.
Nous avons ainsi observé que la myosine garde, au cours du cycle acto-myosine, des
caractéristiques globales tout en possédant des spécificités dépendant du nucléotide lié au
niveau du site enzymatique.
135
XVI Myosin Flexibility : Structural Domains and
Collective Vibrations
Isabelle Navizet, Richard Lavery and Robert L. Jernigan
Proteins: Structure, Function and Genetics (2004), 54, pages 384-393.
Abstract
The movement of the myosin motor along an actin filament involves a directed
conformational change within the cross-bridge formed between the protein and the filament.
Despite the structural data which has been obtained on this system, little is known of the
mechanics of this conformational change. We have used existing crystallographic structures
of three conformations of the myosin head, containing the motor domain and the lever arm,
for structural comparisons and mechanical studies with a coarse-grained elastic network
model. The results enable us to define structurally conserved domains within the protein and
to better understand myosin flexibility. Notably they point to the role of the light chains in
rigidifying the lever arm and to changes in flexibility as a consequence of nucleotide binding.
Key words: Motor proteins, Gaussian Network Model, Structural Blocks, B-factors.
136
Introduction
Myosin is an enzyme that converts the chemical energy resulting from the hydrolysis of ATP
into directed mechanical movement along an actin filament. The actomyosin system is
involved in numerous cell processes including vesicle trafficking, determinant partitioning,
cell motility, neurosensory function and muscle contraction [Baker & Titus; 1998]. Although
considerable crystallographic data have been gathered on this system [Dominguez, et al.;
1998, Gulick, et al.; 2000, Houdusse, et al.; 1999, Houdusse, et al.; 2000, Rayment, et al.;
1993b], many questions concerning the molecular mechanisms underlying myosin mobility
remain unanswered.
Myosin II, so-called conventional myosin, forms filaments and constitutes large assemblies of
non-cooperative motors within muscular tissues. It is an important member of a diverse
family of myosin motor proteins [Hodge & Cope; 2000]. Different mechanisms have been
proposed for myosin movement. The majority of biophysicists explain muscle contraction by
the movement of the myosin lever arm [Spudich; 2001], but other evidence has pointed to a
biased Brownian ratchet mechanism and to the possibility of multiple myosin steps per ATP-
driven cycle [Yanagida, et al.; 2000b]. It may however be possible to reconcile these
apparently conflicting viewpoints [Houdusse & Sweeney; 2001]. A part of the mechanism
proposed by Houdusse et al. [Houdusse & Sweeney; 2001] based on insights from X-ray
structures, cryo-electron microscopy and kinetic studies is presented in figure 51.
The strong binding of myosin to actin (rigor state) weakens with ATP-binding. This
conformation is termed the near rigor state. The detached state, where myosin releases the
actin filament may prevent a reverse powerstroke and increase the lifetime of the
prehydrolysis state. After hydrolysis of ATP in the myosin motor, phosphate binding
stabilizes the so-called transition state until actin binding. This is followed by force generation
and ADP-release returning the system to its rigor state.
137
figure 51 : Schematic view of the myosin cycle showing the DS, NR and TS states (adapted
from Houdusse and Sweeney [Houdusse & Sweeney; 2001]). Note that this cycle corresponds
to the thermal ratchet interpretation of myosin action. The main steps of the cycle are as
follows: in the absence of nucleotide, myosin binds tightly to actin. This is termed the rigor
state. The binding of ATP induces weakening of the binding via the so-called near-rigor state
(NR). The near-rigor state is in equilibrium with a completely detached state (DS). As a result
of ATP hydrolysis, myosin moves one step along the actin filament, leading to the so-called
transition state (TS). Phosphate release puts myosin in the weakly binding NR state and the
release of ADP to a returns it to the rigor state. For more details see reference [Houdusse &
Sweeney; 2001].
In the present paper, we use theoretical methods to study myosin II, in an attempt to better
understand the mechanics of its conformational changes. Since the myosin head is a large
system (1147 amino acids, 130 kD) and, moreover, undergoes large conformational changes,
it is not easy to use conventional all-atom molecular mechanics or dynamics methods. We
have thus chosen to study the problem with an anisotropic network model [Atilgan, et al.;
2001, Doruker, et al.; 2000] and also via a rigid block decomposition method. Both of these
138
methods are coarse-grained and only use a single point, Cα, to represent each amino acid
residue. The anisotropic network model provides data on the large-scale collective modes of
vibration by converting the protein structure into a set of coupled springs between
neighboring residues and carrying out a normal mode style analysis. It has been shown to
provide data in very good agreement with more refined all-atom approaches and with
crystallographic temperature factors [Atilgan, et al.; 2001, Bahar, et al.; 1998, Doruker, et al.;
2002a, Doruker, et al.; 2002b, Keskin, et al.; 2002a, Keskin, et al.; 2002b]. The rigid block
decomposition method is based on a comparison of inter-Cα distances between two structures
of the same protein and the identification of blocks based on virtually constant inter-residue
distances.
Together, these methods enable us to identify the rigid and flexible domains within the
myosin structure and highlight the respective roles of the light chains and of nucleotide
binding.
Materials and Methods
1. Structures
Three structures of different states of the scallop myosin S1 head form the basis for our
calculations. These structures have been determined by X-ray crystallography and are
available in the Protein Data Bank (PDB) [Berman, et al.; 2000] with the codes 1DFK, 1DFL
and 1B7T. 1DFK corresponds to scallop myosin S1 without an adenosine nucleotide and is
believed to be the near rigor state (NR). 1DFL is the myosin head structure in the presence of
ADP.VO4, corresponding to the transition state (TS). Finally, 1B7T is scallop myosin S1
complexed with ADP, which has been interpreted as a detached ATP state (DS). Hereafter,
we refer to these three structures using the functional codes NR, TS, and DS (see figure 51 ).
Each of these structures is composed of three polypeptide chains: the main chain (835
residues), divided into the N-terminal motor domain and the α-helical C-terminal lever arm;
the essential light chain (ELC, 156 residues), and the regulatory light chain (RLC, 156
residues). Two of the three available structures of myosin, NR and TS, are rather poorly
resolved (4.20 Å) and some residues are missing, limiting the head domain to 1019 and 1059
α-carbons respectively. DS, is better resolved (2.50 Å) and the structure is constituted of 1057
residues. These data are summarized in Table I.
139
Table I. Summary of the crystal structures used in the current study
Code NR TS DS
Supposed position in
the cycle [Houdusse &
Sweeney; 2001] (
figure 51)
Near rigor state Transition state Detached state
PDB entry 1DFK 1DFL 1B7T
Resolution 4.20 Å 4.20 Å 2.50 Å
Nucleotide None MgADP-VO4 MgADP
Experimental B-factors Not available Not available Available
Number of residues 1019 1059 1057
Number of atoms 5031 5230 8249
2. Anisotropic Network Model (ANM)
This coarse-grained elastic model begins by reducing a protein to a set of α-carbons and takes
no account of amino acid side chains or other peptide backbone atoms. The protein structure
is taken into account by creating springs between spatially neighboring residues (whether or
not these residues are sequential within the peptide chain). The vibrations of such a system
can be analyzed either by assuming that all fluctuations are isotropic, as in the so-called
Gaussian Network Model (GNM) [Bahar, et al.; 1997, Bahar, et al.; 1999, Demirel, et al.;
1998, Haliloglu & Bahar; 1999, Keskin, et al.; 2000], or by taking into account anisotropy via
the directions of movement of each residue, in the so-called Anisotropic Network Model
(ANM) [Atilgan, et al.; 2001]. We have used the latter approach since it yields the structural
changes associated with collective vibrational modes, rather than simply their overall
140
magnitudes. The potential energy V of a structure with N residues is expressed within the
ANM as a Gaussian form,
V = (γ / 2) ∆RT Η ∆R
where γ is the spring constant, ∆R is a 3N-dimensional vector of the fluctuations ∆Ri in the
position vectors Ri of all sites (1 ≤ i ≤ N), ∆RT is its transpose, and Η the Hessian matrix
composed of the second derivatives of the potential energy. Thus, V can also be written,
V = (1/2) Σi Σj h(rc – Rij° ) (Rij – Rij°)2
The summations are performed over all interaction sites. h(x) is the Heaviside step function
(h(x) = 1 if x ≥ 0, and zero otherwise), Rij° is the distance between sites i and j in the protein
structure, Rij is the same distance after fluctuation, and rc is the cutoff distance defining the
interacting residue pairs for which Gaussian springs are created. Η is expressed as a function
of N2 submatrices Hij of the form,
⎥⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢⎢
⎣
⎡
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
⎟⎟⎠
⎞⎜⎜⎝
⎛
∂∂∂
=
0
2
0
2
0
20
2
0
2
0
20
2
0
2
0
2
H
jijiji
jijiji
jijiji
ij
ZZV
YZV
XZV
ZYV
YYV
XYV
ZXV
YXV
XXV
with Xi, Yi and Zi being the components of Ri.
Note that,
2))((
0
0000
0
2
0
2
ij
ijijijji R
YYXXYX
VYX
V −−−⎟
⎟⎠
⎞⎜⎜⎝
⎛∂∂
∂⎟⎟⎠
⎞⎜⎜⎝
⎛∂∂
∂== γ for i ≠ j,
and ∑−−
⎟⎟⎠
⎞⎜⎜⎝
⎛∂∂
∂ =j
ij
ijij
ii R
YYXXYX
V2
))((0
0000
0
2γ
The correlations between the fluctuations at sites i and j are,
141
<∆Ri • ∆Rj> = (1/Z) ∫ (∆Ri • ∆Rj) exp-V/kTd∆R = kBT tr [Η-1]ij
where kB is the Boltzmann constant, Z is the configurational partition function, and tr[Η-1]ij is
the trace of the ijth submatrix [Η-1]ij of H-1. <∆Ri . ∆Rj> can be expressed as a sum over the
contributions [∆Ri • ∆Rj]k of the 3N-6 individual internal fluctuation modes as
<∆Ri • ∆Rj > = Σ k [∆Ri • ∆Rj]k. The contribution of the kth mode is explicitly given by,
[∆Ri • ∆Rj]k = kT tr [λk-1 uk ukT]ij
where λk is the kth non-zero eigenvalue of Η and uk is the corresponding eigenvector. The
eigenvalues are related to the frequencies of individual modes, and the eigenvectors describe
the effect of each mode on the positions of the N residues constituting the structure. The
eigenvalues are usually organized in ascending order (after removing the six zero eigenvalues
corresponding to overall translation and rotation), so that λ1 denotes the lowest frequency and
[∆Ri • ∆Rj]1 is the correlation for this mode of motion separately. Likewise, [(∆Ri)2]1 is the
mean-square fluctuation in the position of site i for mode 1. The slowest vibrational modes
usually dominate the collective dynamics of the structure and are particularly relevant to
biological function.
3. Determination of rigid blocks
Blocks of residues which move together in a coupled manner can be determined by the
comparison of two structures of the same protein. This analysis requires the construction of a
symmetric matrix termed D whose elements Dij are equal to 1 if the difference ∆ij of the
distances between two residues i and j in the two protein structures studied is below a
specified cutoff and is otherwise set to zero.
∆ij = | dA(i,j)-dB(i,j)|
and Dij = h(rd - ∆ij)
142
where dA(i,j) is the distance between residues i and j in structure A, dB(i,j) is the distance
between residues i and j in structure B and h(x) is the Heaviside step function (h(x)=1 if x ≥0,
and zero otherwise). D has dimensions NxN for an N residue protein. The value of the cutoff,
rd, is adjusted so that the analysis yields a reasonable number of blocks (see below).
As the resulting matrix is still complicated, it has to be refined in order to clearly delimit the
underlying blocks. This procedure involves starting with the first residue and constituting a
block with all consecutive residues j, as long as D(1,j) is equal to 1. If D(1,i) is equal to 0, a
new block is started with the criteria D(i,j)=1. Diagonal blocks are created this way. Two
diagonal blocks A and B then become part of a single block if the matrix element D(iA,iB) is
equal to 1, where iA and iB are the central residues within blocks A and B respectively (see
figure 57). The final matrix D is again a binary matrix, with D(i,j)=1 if i and j belong to the
same block.
Result and Discussion
Flexible regions within the myosin head
Starting from our ANM analysis of the three available structures of the myosin head, it is
possible to calculate the overall fluctuations of each amino acid residue in the form of the B-
factors commonly used in analyzing crystallographic structures,
Bi = 38 2π <∆Ri • ∆Ri >
figure 52 shows plots of these fluctuations for the DS, NR and TS structures. All calculation
of ∆Ri were performed with rc = 11 Å following the study of Atilgan et al. [Atilgan, et al.;
2001]. It is remarked that excellent agreement between such B-factors and crystallographic
data has already been demonstrated for other proteins [Atilgan, et al.; 2001, Bahar, et al.;
1998, Doruker, et al.; 2002a, Doruker, et al.; 2002b, Keskin, et al.; 2002a, Keskin, et al.;
143
2002b]. We can only make such comparisons in the case of the better resolved DS structure,
where the experimental values are available. The comparison with the theoretical results is
presented in figure 52 and shows a good overall agreement, with the exception of residues
belonging to the lever arm (775-835) and the RLC. These exceptions are most probably due to
the interactions which exist between the myosin lever arms within the crystal lattice, but are
naturally absent in our calculations. Since the spring constant γ is the only remaining
parameter of our calculations, its value can be determined by matching the areas under the
experimental and theoretical B-factor curves. This has been done for the residues in the zone
1-800 and leads to a value of 1.3 kcal/(Å2.mol). This value is comparable to the values found
for other proteins [Atilgan, et al.; 2001].
We can now compare the DS, NR and TS states of myosin. All three structures show rather
similar overall fluctuations. Each indicates a significant difference between the motor domain
(residues 1 to 775), which is rigid, and the lever arm (residues 820 to 835), which is flexible.
The regulatory light chain, which is located at the end of the lever arm structure, is also very
flexible, in contrast to the essential light chain. It should be recalled that these results refer to
an isolated myosin head, truncated at residue 835, and do not take into account the effects of
interactions with the actin filament or between neighboring myosin motors.
It is also recalled that myosin head structures we use are incomplete and the absence of
residues in some domains are the cause of significant local differences between the three
states which can be seen in figure 52. This is notably the case for the peaks observed near
residue 410 in the DS and TS structures and near residue 320 in the NR structure. There are
however some mechanically significant differences between the three states, most notably for
the contact region between the lever arm and the motor domain which are different in DS
compared to either the NR or TS structures. This change shows up in figure 52 as the peak in
fluctuations of residues 48-56 which is only seen for NR and TS, while only the DS structure
shows a peak for residues 508-510. The first peak can be easily explained by the fact that the
residues 48-56, belonging to the SH3 β-barrel, are distant from the lever arm in the NR and
TS structures, but close in DS. The second peak is coupled to the fact that the distance
separating the β-strand and α-helix elements of the so-called "relay" structure are more distant
from one another in DS than in either NR or TS (the elements of the relay are visible of the
left-hand side of the detailed views in the lower part of figure 53).
144
figure 52 : Calculated B-factors (solid curves) as a function of the residue numbers for three
structures of the myosin head composed of the main chain and the RLC and ELC light chains.
Calculations used a spring constant g of 1.3 kcal/(Å2.mol). Experimental B-factors are shown
for DS structure (dashed curves). The curves are interrupted at points where residues are
missing in the experimental structures. The scale chosen leads to overlap of the curves for the
particularly flexible RLC domain, but makes the details more visible for the remainder of the
structure.
In order to link these results more easily to the 3-dimensional structure of myosin, we use
color-coded ribbon models (where increasing fluctuations are indicated with a blue to red
gradation). The results shown in the upper part of figure 53 again stress the overall similarity
of the fluctuations for the three myosin structures. They also emphasize the flexibility of the
loops which compose the actin binding domain at the top of the S1 domain and the, probably
artefactual, flexibility of the end of the lever arm, compared to the stiffer region near the
essential light chain. Fluctuations are also seen to be more important at the surface of the
motor domain and in the lever arm, whereas the buried ATP site is a relatively rigid zone.
Since it is not easy to see the changes occurring with the motor domain in the full structure,
we have added detailed views in the lower part of figure 53. In addition to the changes in the
145
relay discussed above, these views show that the most rigid region corresponds to switch II
(the strand linking the central β-sheet to the α-helix of the relay) in NR and TS, but rather to
the ATP binding site in DS. This is in agreement with the remarks of Houdusse et al.
indicating that there is a stronger interaction between the elements linked by switch II in the
former structures [Houdusse, et al.; 2000].
The RLC and ELC light chains are known to play an important role biologically, and they can
be expected to modify the flexibility of the long α-helices which constitute the lever arm.
Their effect can be tested theoretically by comparing ANM calculations on the full myosin
head with calculations on structures where the light chains have been removed. The results of
these calculations are shown in figure 54 and figure 55. Removing the light chains is seen to
have a dramatic effect. As might be expected, in the absence of these proteins, there is a
significant increase in the fluctuations within the lever arm. However, it is also interesting to
note that although the more flexible parts of the motor domain (colored in orange in figure 55)
are still located on the surface of the structure, they do not occur in the same zones. Notably,
in the absence of the light chains, the loops near the actin-binding site become less flexible,
although the reason for this long range coupling is not obvious. Overall, maintaining the value
for the spring constant γ, the structure without RLC and ELC becomes four times more
flexible.
146
figure 53 : Upper part: Ribbon diagrams of the DS, NR and TS myosin head structures, color-
coded on the basis of the calculated B-factors (the color range from blue to red corresponds to
increasing fluctuations). Lower part: Detailed view of the part of the motor domain showing
the relay structure on the left and the nucleotide binding site on the right. Note that the color
scale has been adapted to show up changes within this fragment of the overall myosin
structure.
147
figure 54 : Calculated B-factors for the DS main chain as a function of residue number either
with (solid curves) or without the RLC and ELC light chains (dashed curves) . The inset
shows an expanded view of the results for the lever arm (residues 775 to 835). The curves are
normalized to yield equal areas for the residues 1-775.
figure 55 : Ribbon diagram of the DS myosin head, color-coded on the basis of the calculated
B-factors (the color range from blue to red corresponds to increasing fluctuations). On the left
- in the presence of the RLC and ELC light chains. On the right - in the absence of the light
chains.
148
Structurally coherent blocks of residues
The crystallographic data available for the DS, NR and TS structures of the myosin head
enables us to study flexibility from another point of view, by asking which blocks of residues
move in a coherent, coupled manner as myosin undergoes the conformational changes linked
to its motor cycle. We have carried out the rigid block analysis described in the methodology
section for the three possible pairs of structures: DS-TS, DS-NR and TS-NR. The limit
distance rd, which determines whether two residues are considered as part of the same block
was chosen as 0.1 Å following the preliminary studies illustrated in figure 56. These show
three representations of the matrix ∆, where ∆i,j=|dA(i,j)-dB(i,j)|. The data shown refers to the
case A = TS and B = DS. The color of a point within the matrix is red if ∆i,j > rd and graduated
from red to blue in terms of decreasing distance if ∆i,j < rd. If rd = 10 Å (figure 56a), we obtain
only two blocks which correspond, not surprisingly, to the myosin motor domain and the
lever arm. By decreasing rd (figure 56b and figure 56c), a finer distinction of movement is
obtained and more blocks appear. The selected limit of rd = 0.1 Å leads to roughly 20
structural blocks after the refinement procedure described in the methodology section and is
reasonable limit given the limited resolution of the experimental data.
figure 56 : Representation of the matrix ∆ij for the DS-TS structure comparison: (a) the values
of |dTS(i,j)-dDS(i,j)| from 0-10 Å are colored from blue to red. All values beyond 10 Å are
shown in red. (b) all values of |dTS(i,j)-dDS(i,j)| beyond 1 Å are shown in red. (c) all values
of |dTS(i,j)-dDS(i,j)| beyond 0.1 Å are shown in red.
figure 57 shows the D matrix with rd = 0.1 Å before and after refinement for the DS-TS, DS-
NR and TS-NR pairs. The resulting blocks can be linked to the 3-dimensional structure of
149
myosin, again using color-coded ribbon models (figure 58). Note that isolated residues and
two-residue blocks have been colored gray.
These results are in agreement with the division into four sub-domains connected by flexible
regions suggested by Houdusse et al. 6, although the subdivisions shown in figure 58 are
somewhat finer. The results for the three pairs of structures analyzed show overall similarity.
There are however some notable differences. In particular, the helix at the top of the motor
domain (colored tan in figure 58a, residues 416-446) belongs to a single block for the TS-DS
pair of structures, but is divided into three blocks (colored tan-yellow-orange in figure 58b
and figure 58c) when the structure NR is involved in the comparison. Given the position of
these residues, this change may well be related to the fact that the nucleotide binding pocket is
occupied in the structures DS and TS, but empty in NR.
150
figure 57 : Binary representation of the matrix Dij where 1's are colored in black and 0's in
white. Figures (a), (c) and (e) show the comparisons DS-TS, DS-NR and NR-TS before
refinement of the structural blocks (see methodology), while figures (b), (d) and (f) show the
same comparisons after refinement.
In fact, the presence of a nucleotide in the binding pocket seems to lead to larger structural
blocks in several regions. Thus, the zone formed by residues 231-243 (shown as ice blue in
figure 58a) forms a single block only when the nucleotide pocket is occupied and a similar
result is found for the residues 216-230 and 244-356 (shown in orange in figure 58a). A
151
similar distinction is found within the lever arm and light chains, where the three blocks
observed in the presence of a bound nucleotide (figure 58a), become four blocks when the
comparison involves an empty nucleotide pocket. It is also important to note that this analysis
clearly shows the "pliant point" within the region 775-780 (indicated by an arrow between the
yellow and red blocks in figure 58c) reported by Houdusse et al. [Houdusse & Sweeney;
2001].
figure 58 : Ribbon diagram of the DS myosin head structure, color-coded on the basis of the
calculated structural blocks (the color range from blue to red corresponds to increasing
fluctuations). Figures a, b and c show the blocks obtained from the DS-TS, DS-NR and NR-
TS comparisons respectively. Residues belonging to blocks of less than three residues are
shown in gray. The arrow in figure c indicates the so-called pliant point.
Links between collective vibrations and structural blocks
In order to test whether the results obtained by our rigid block analysis are related to the ANM
collective vibration analysis, we have repeated the B-factor calculations using a modified
spring model of myosin. The modification involves using two different spring constants to
152
mimic the existence of structural blocks. While maintaining the usual spring constant between
residues belonging to different blocks, we increase the spring constant by a factor of 100 for
residue pairs within a single block. If the block analysis can be related to rigidity within
blocks and flexibility between blocks, the modified spring constants would not be expected to
significantly change the calculated B-factors. As a control, we have also carried out B-factor
calculations with modified spring constants based on artificially constructed blocks which
cross the block boundaries we have actually determined. Note that the cutoff distance for
forming inter-residue springs is kept at 11 Å for all these studies.
figure 59 : Calculated B-factors for the DS structure using two spring constants which take
into account the rigid blocks obtained from the DS-TS comparison (solid curve) or using a
single spring constant (dashed curve).
figure 59 displays the modified B-factors calculated with two spring constants for the DS
structure, taking into account the structural blocks obtained from the DS-TS comparison. The
B-factors calculated with the standard spring constant of 1.3 kcal/(Å2.mol) are shown for
comparison. Note that the total area under the two curves have been made equal. It can be
seen that the modified B-factors are nearly identical to those calculated with a single spring
153
constant. Minor differences occur for residues 475-525 and residues 650-690 which do not
belong to structural blocks and are found to be a little more flexible than with the previous
calculation.
We have repeated this analysis for the three available myosin structures, using either of the
rigid block definitions involving the structure in question. This leads to a total of six different
B-factor curves which can be compared with the single spring constant result. In all cases, the
minor changes observed support the compatibility of the rigid block and the ANM analyses.
In contrast, if we use artificially constructed blocks bridging the principal boundaries between
the true rigid blocks, much more significant changes in the B-factor curves are found.
Compared to the reference B-factor curve, the mean relative error found with the artificial
blocks is 22%, compared to only 5% with the correctly formed blocks. We can therefore
conclude that there is indeed a close relation between the ANM calculations and the rigid
block analysis.
Conclusions
By combining coarse-grained methods with available crystallographic data, we have been
able to study the flexibility of myosin motor protein, a system involving almost 1000 amino
acid residues. We have used two approaches to obtain information, first, calculating residue
fluctuations using the ANM elastic model and, second, defining rigid structural blocks by an
analysis of conformational changes. Good agreement is found with available experimental
data.
These two approaches, which have been shown to yield compatible results, enable us to
distinguish and to quantify the rigid and flexible domains within the myosin structure.
Although, the basic mechanics of myosin seems to be preserved amongst its various known
conformations, changes have been detected in the flexibility at the motor domain-lever arm
interface and also linked to the presence or absence of a ligand within the nucleotide binding
pocket. We have also been able to show that the regulatory and essential light chains play a
significant role in determining the rigidity of the myosin lever arm.
Acknowledgment
I.N. acknowledges support from Foundation for Advanced Education in the Sciences and
from the National Institutes of Health.
154
XVII Conclusion
Cette étude comparative de trois structures de myosine II à différents moments du cycle acto-
myosine permet d’apporter quelques indices utiles à la compréhension du mécanisme de ce
moteur moléculaire.
D’une part, l’étude des modes normaux de la représentation granulaire des structures montrent
que le bras de levier est beaucoup plus mobile que le cœur de la tête, et en particulier que le
site de fixation de l’ATP. Cette remarque est vraie pour des structures du fragment S1 isolées
(en opposition à des fragments dans un réseau cristallographique où les cous sont en
interaction avec les autres structures ou reliés à la queue de la myosine). De même les boucles
situées en surface et particulièrement celles proches du site de fixation de l’actine (absente
dans toutes les structures) sont plutôt mobiles. Des différences sont toutefois observées pour
l’état détaché dont le bras de levier est proche d’un motif SH3 de la tête et dans lequel la
distance séparant l’hélice constituant le bras de levier du brin β dans la région dite « relay »
est plus grande que dans les autres structures. De plus, dans cette même structure, la région la
plus rigide se situe au niveau du site de fixation du nucléotide au lieu de se trouver au niveau
du lien dit « switch II » liant la région « relay » au site de fixation du nucléotide comme dans
les autres structures. Cela confirme le fait que les éléments structuraux constitutifs de l’état
détaché sont plus découplés que des autres états.
Le rôle des chaînes légères modifiant la flexibilité du bras de levier est confirmé par une
comparaison des facteurs de température du bras de levier calculés en présence ou absence
des chaînes légères. De même, les zones de la tête présentant une mobilité élevée sont
différents suivant que l’on considère ou non les chaînes légères dans le calcul.
D’autre part, la détermination de domaines structuraux par comparaison des matrices de
distance entre structures est compatible avec l’étude des modes normaux. La prise en compte
de ces domaines dans le calcul d’AMN donne en effet des résultats similaires à ceux présentés
précédemment. Les domaines définis dans notre étude sont plus fins que ceux couramment
employés pour décrire les têtes de myosines mais compatibles avec ces derniers. Ils
permettent de mettre en évidence des points de charnières comme la région dite « pliant
point » ou « kink » [Houdusse & Sweeney; 2001, Xiao, et al.; 2003] du bras de levier. En
155
regardant plus en détail la région de fixation du nucléotide, on remarque que l’hélice α
constituée des résidus 416 à 446 est divisée en deux blocs lorsqu’on compare la structure non
complexée aux autres structures dans lesquelles un nucléotide est lié au site enzymatique.
Ceci montre que cette hélice n’est pas rigide et se plie en son centre suivant l’absence ou la
présence d’un nucléotide.
L’étude présentée dans ce premier article montre une approche des propriétés mécaniques des
protéines par la comparaison de structures et le calculs de modes normaux. Nous allons
décrire dans la suite une autre approche des problèmes mécaniques des protéines.
156
157
Chapitre 7 Article : Propriétés mécaniques des
protéines à l’échelle du résidu et leur
utilisation pour définir des structurations en
domaines
158
XVIII Introduction
Dans cet article, nous présentons une méthode théorique pour tester les propriétés mécaniques
des protéines à l’échelle du résidu et son utilisation afin de définir des domaines structuraux
basés sur ces propriétés.
Les résidus d’une protéine sont sondés les uns après les autres en augmentant ou diminuant la
longueur moyenne reliant le carbone α du résidu sondé aux autres carbones α. La forme de la
surface énergétique le long de cette coordonnée autour de la position d’équilibre initiale est
quadratique (voir paragraphe XIII.3 page 100). On définit donc une constante de force qui
rend compte de la résistance du système à une telle contrainte (plus la constante est grande,
plus le système est résistant). L’ordre de grandeur de cette constante de force est le nN.Å-1
mais ses valeurs peuvent varier d’un facteur 50 suivant le résidu sondé. La réponse de la
protéine à la contrainte nous permet aussi de définir des domaines mécaniques en nous basant
sur le déplacement relatif des carbones α par rapport au carbone α testé (voir paragraphe
XIV.6 page 117). Une étude plus systématique de la position des résidus possédant une
grande constante de force nous a par ailleurs révélé que ceux-ci étaient situés aux interfaces
entre les domaines précedemment définis.
Deux modèles de représentation de protéines ont été testés : un modèle représentant tous les
atomes dans un champ de force défini par les paramètres parm99 d’AMBER en travaillant
avec les variables internes (voir la description du programme LIGAND paragraphe XI page
73 ) et un modèle granulaire modélisant les protéines sous la forme d’un réseau de ressorts
gaussiens entre les carbones α (voir la description du programme GNMlig paragraphe XII.7
page 90 ). Le modèle granulaire a l’avantage d’être très rapide et permet une étude
systématique ainsi que l’étude de système de taille importante.
L’exemple de la nucléase du staphylocoque est étudié avec ces deux approches et six autres
protéines, possédant entre 140 et 750 résidus, ont été étudiées avec la représentation
granulaire.
159
XIX Probing protein mechanics: Residue-level
properties and their use in defining domain structures
Isabelle Navizet, Fabien Cailliez and Richard Lavery
Soumis en février 2004 à Biophysical Journal
Abstract
It is becoming clear that, in addition to structural properties, the mechanical properties of
proteins can play an important role in their biological activity. It nevertheless remains difficult
to probe these properties experimentally. While single molecule experiments give access to
overall mechanical behavior, notably the impact of end-to-end stretching, it is currently
impossible to directly obtain data on more local properties. We propose a theoretical method
for probing the mechanical properties of protein structures at the single amino acid level. This
approach can be applied to both all-atom and simplified protein representations. The probing
leads to force constants for local deformations and to deformation vectors indicating the paths
of least mechanical resistance and also defining the mechanical coupling which exists
between residues. Results obtained for a variety of proteins show that the calculated force
constants vary over a wide range. An analysis of the induced deformations provides
information which is distinct from that obtained with measures of atomic fluctuations and is
more easily linked to residue-level properties than normal mode analyses or dynamic
trajectories. It is also shown that the data obtained from residue-level probing makes it
possible to define domains using this mechanical information.
Keywords: Molecular modeling, molecular dynamics, protein deformation, coarse-grained
models, dynamical domains
Introduction
AVERTISSEMENT
La version de cette thèse n’est pas la version complète de la thèse soutenue le 5 mars 2004. J’y ai enlevé l’article du chapitre 7 qui n’a pas encore été publié.
AVERTISSEMENT
La version de cette thèse n’est pas la version complète de la thèse soutenue le 5 mars 2004. J’y ai enlevé l’article du chapitre 7 qui n’a pas encore été publié.
182
XX Conclusion
Cet article décrit une méthode que nous avons mise au point afin de tester les propriétés
mécaniques des structures protéiques à l’échelle du résidu. En appliquant une contrainte sur la
distance moyenne séparant un résidu i donné des autres résidus, la structure se déforme
donnant une information scalaire et une information vectorielle. L’information scalaire est
une constante de force informant sur la facilité avec laquelle le résidu i répond à une telle
contrainte. L’information vectorielle est la direction préférentielle de déplacement que choisit
le résidu i correspondant à la direction de plus faible résistance. La donnée des variations des
distances entre les carbones α pour satisfaire les contraintes permet de définir des domaines
structuraux. La combinaison de ces deux informations nous a de plus permis de remarquer
que les résidus les plus résistants sont situés à l’interface des domaines.
Nous avons utilisé cette méthode pour définir les domaines mécaniques de la nucléase du
staphylocoque avec une représentation tenant compte de tous les atomes et ceux de six autres
protéines en utilisant une représentation simplifiée ne tenant compte que des carbones α.
Il serait intéressant de regarder plus en détails les différents domaines obtenus. Ils peuvent en
effet sûrement expliquer des propriétés mécaniques liées aux informations structurelles et aux
mécanismes chimiques. De même, la comparaison de leur évolution le long d’un dépliement
et la comparaison de leur emplacement avec l’enchaînement du dépliement peut constituer
une étude intéressante en vue de mieux comprendre le dépliement et le repliement des
protéines.
183
Chapitre 8 Conclusion générale
Le travail de thèse qui vient d’être présenté a été effectué au sein de deux laboratoires :
l’étude des modes normaux et la détermination des domaines structuraux de la myosine ont
été développées au Laboratory of Experimental and Computational Biology, au National
Cancer Institute des NIH de Bethesda dans le Maryland (Etats-Unis) avec Robert L. Jernigan
et le développement des contraintes mécaniques et leur utilisation pour déterminer des
domaines mécaniques ont été effectués au Laboratoire de Biochimie Théorique à l’Institut de
Biologie Physico-Chimique à Paris (France) sous la direction de Richard Lavery.
L’étude des propriétés mécaniques des protéines a été abordée à différents niveaux de
représentation (atomiques ou granulaires) et sous plusieurs aspects.
Nous avons montré qu’une représentation très simplifié de la protéine comme appliquée dans
les programmes GNM et GNMlig permettait d’obtenir des résultats très intéressants avec des
calculs rapides et applicables sur de gros systèmes. L’analyse des résultats des études utilisant
cette représentation doit toutefois se limiter à des informations rudimentaires des propriétés.
En effet, le modèle granulaire gomme les informations sur les interactions chimiques entre
résidus et contraint l’étude de la structure autour de son état d’équilibre. Ainsi, l’étude du
dépliement d’une protéine sur un tel modèle se limite aux conformations proches de l’état
natif puisqu’elle ne permet pas à la structure de franchir des barrières d’énergie. Par contre, ce
modèle permet d’avoir accès aux facteurs de température par une étude des modes normaux
184
car ce sont les modes normaux les plus globaux qui contribuent majoritairement à leur calcul
théorique. Les facteurs de température, qu’on peut aussi obtenir expérimentalement si la
résolution de l’étude cristallographique est suffisamment bonne, sont liés à la compaction
locale autour des résidus étudiés.
Pour aborder une étude plus fine des liens entre structure et mécanique, nous avons défini un
indice permettant de caractériser l’élasticité d’un brin polypeptidique résidu par résidu. De
telles informations ne sont pas faciles à obtenir par l’analyse des trajectoires de dynamique
moléculaire ou par les calculs des modes normaux. La réponse d’une structure protéique à une
contrainte sur la moyenne des distances séparant un carbone Cα,i aux autres carbones α de la
structure permet de calculer une constante de force et révèle la direction de déplacement
montrant la plus faible résistance. La localisation des résidus les plus résistants et l’analyse
des déformations favorables sont des caractéristiques de la chaîne protéique étudiée. Il serait
intéressant de poursuivre cette recherche dans le cadre des études sur le rôle biologique des
résidus en question.
Une autre approche du problème mécanique que nous avons abordée est la délimitation de
domaines au sein des structures biologiques. La première méthode présentée est issue de la
comparaison entre structures d’une même protéine. Elle s’applique de façon naturelle dans le
cadre de notre étude de la myosine dont nous possédons plusieurs structures. Cette approche
simpliste est toutefois limitée à des études de structures très proches. Elle peut être utilisée par
exemple sur l’étude de structures obtenues par dynamique moléculaire, par l’étude des modes
normaux ou par des expériences de dépliement sous contrainte.
La deuxième méthode découle de la réponse aux contraintes mécaniques locales. La démarche
originale de détermination de domaines mécaniques est intéressante car, d’une part, elle est
intrinsèque à une structure donnée et ne nécessite pas de comparaison ni de superposition de
structures et, d’autre part, elle est liée à une information plus riche qu’une simple observation
de la structure. Il serait intéressant de comparer les domaines ainsi obtenus avec d’autres
méthodes. De même, un certain nombre de questions pourraient être abordées : Retrouve-t-on
les mêmes domaines mécaniques si on analyse deux structures différentes d’une même
protéine ? Les domaines mécaniques permettent-ils de prédire les réponses à une contrainte
mécanique globale dans l’étude du dépliement des protéines ? L’analyse de leur évolution lors
d’un dépliement ainsi que celle des constantes de force relatives à leur obtention donne-t-elle
des informations sur les parties les plus sensibles et les plus résistantes ?
185
Ainsi, les algorithmes que nous avons développés et dont nous avons présenté les premières
applications pourront dans l’avenir peut-être amener des éléments de réponses sur quelques
questions fondamentales comme le mécanisme de repliement des protéines. Mais on espère
aussi qu’ils permettront de donner des indications sur les caractéristiques mécaniques des sites
enzymatiques (notamment en comparant des enzymes dont le rôle des sites catalytiques a
divergé au cours de l’évolution tout en conservant la même localisation dans la structure
[Hasson, et al.; 1998]) et les surfaces d’interaction des protéines (observe-t-on des différences
de propriétés mécaniques au niveau des sites d’interaction ? Comment les propriétés
mécaniques d’une protéine au sein d’un complexe sont modifiées par rapport à celles de la
même protéine hors du complexe ?) ou les raisons mécaniques de la thermostabilité (quelle
différence observe-t-on entre les propriétés mécaniques des protéines thermophiles et de leurs
homologues mésophiles ?).
Le travail de recherche présenté dans ce mémoire de thèse correspond essentiellement au
développement des méthodes présentées. Seules quelques applications de ces méthodes
originales ont été abordées. Le champ d’application de ces méthodes est vaste car la
compréhension du comportement des protéines est encore très partielle et nous avons montré
que la modélisation moléculaire permet d’aller là où l’expérience ne peut pas encore fournir
les informations nécessaires.
186
187
BIBLIOGRAPHIE Alberts B., Bray D., Lewis J., Raff M., Roberts K. & Watson J. (1994) Molecular biology of
the cell. Garland Science, New York. Allemand J. F., Bensimon D., Lavery R. & Croquette V. (1998) Stretched and overwound
DNA forms a Pauling-like structure with exposed bases. Proc Natl Acad Sci U S A. 95(24): 14152-7.
Allen M. & Tildesley D. (1987) Computer simulations of liquids. Clarendon Press., Oxford. Alonso D. O. & Daggett V. (1995) Molecular dynamics simulations of protein unfolding and
limited refolding: characterization of partially unfolded states of ubiquitin in 60% methanol and in water. J Mol Biol. 247(3): 501-20.
Anfinsen C. B. & Scheraga H. A. (1975) Experimental and theoretical aspects of protein folding. Adv Protein Chem. 29: 205-300.
Atilgan A. R., Durell S. R., Jernigan R. L., Demirel M. C., Keskin O. & Bahar I. (2001) Anisotropy of fluctuation dynamics of proteins with an elastic network model. Biophys J. 80(1): 505-15.
Bahar I., Atilgan A. R., Demirel M. C. & Burack E. (1998) Vibrational Dynamics of Folded Proteins: Significance of Slow and Fast Motions in Relation to Function and Stability. Phys Rev Lett. 80: 2733-2736.
Bahar I., Atilgan A. R. & Erman B. (1997) Direct evaluation of thermal fluctuations in proteins using a single-parameter harmonic potential. Fold Des. 2(3): 173-81.
Bahar I., Erman B., Jernigan R. L., Atilgan A. R. & Covell D. G. (1999) Collective motions in HIV-1 reverse transcriptase: examination of flexibility and enzyme function. J Mol Biol. 285(3): 1023-37.
Bahar I. & Jernigan R. L. (1998) Vibrational dynamics of transfer RNAs: comparison of the free and synthetase-bound forms. J Mol Biol. 281(5): 871-84.
Bahar I. & Jernigan R. L. (1999) Cooperative fluctuations and subunit communication in tryptophan synthase. Biochemistry. 38(12): 3478-90.
Baker J. P. & Titus M. A. (1998) Myosins: matching functions with motors. Curr Opin Cell Biol. 10(1): 80-6.
Baldwin R. L. (1996) Why is protein folding so fast? Proc Natl Acad Sci U S A. 93(7): 2627-8.
Bashford D. & Case D. (2000) Generalized Born models of macromolecular solvation effects. Annu Rev Phys Chem. 51: 129-152.
Bastard K., Thureau A., Lavery R. & Prevost C. (2003) Docking macromolecules with flexible segments. J Comput Chem. 24(15): 1910-20.
Bensimon D. (1996) Force: a new structural control parameter? Structure. 4(8): 885-9. Berendsen H. J. C., Postma J. P. M., van Gunsteren W. F., DiNola A. & Haak J. R. (1984)
Molecular dynamics with coupling to an external bath. J. Chem. Phys. 81: 3684-3690. Berg J. S., Powell B. C. & Cheney R. E. (2001) A millennial myosin census. Mol Biol Cell.
12(4): 780-94. Berman H. M., Battistuz T., Bhat T. N., Bluhm W. F., Bourne P. E., Burkhardt K., Feng Z.,
Gilliland G. L., Iype L., Jain S., Fagan P., Marvin J., Padilla D., Ravichandran V., Schneider B., Thanki N., Weissig H., Westbrook J. D. & Zardecki C. (2002) The Protein Data Bank. Acta Crystallogr D Biol Crystallogr. 58(Pt 6 No 1): 899-907.
Berman H. M., Westbrook J., Feng Z., Gilliland G., Bhat T. N., Weissig H., Shindyalov I. N. & Bourne P. E. (2000) The Protein Data Bank. Nucleic Acids Res. 28(1): 235-42.
188
Bertucat G., Lavery R. & Prevost C. (1999) A molecular model for RecA-promoted strand exchange via parallel triple-stranded helices. Biophys J 77: 1562-76.
Bjorkman A. J. & Mowbray S. L. (1998) Multiple open forms of ribose-binding protein trace the path of its conformational change. J Mol Biol. 279(3): 651-64.
Block S. M. (1996) Fifty ways to love your lever: myosin motors. Cell. 87(2): 151-7. Bond C. J., Wong K. B., Clarke J., Fersht A. R. & Daggett V. (1997) Characterization of
residual structure in the thermally denatured state of barnase by simulation and experiment: description of the folding pathway. Proc Natl Acad Sci U S A. 94(25): 13409-13.
Bork P. (1992) Mobile modules and motifs. Curr Opin Struct Biol. 2: 413-421. Brockwell D. J., Beddard G. S., Clarkson J., Zinober R. C., Blake A. W., Trinick J., Olmsted
P. D., Smith D. A. & Radford S. E. (2002) The effect of core destabilization on the mechanical resistance of I27. Biophys J. 83(1): 458-72.
Brockwell D. J., Paci E., Zinober R. C., Beddard G. S., Olmsted P. D., Smith D. A., Perham R. N. & Radford S. E. (2003) Pulling geometry defines the mechanical resistance of a beta- sheet protein. Nature Structural Biology. 10(9): 731-737.
Bryant Z., Pande V. S. & Rokhsar D. S. (2000) Mechanical unfolding of a beta-hairpin using molecular dynamics. Biophysical Journal. 78(2): 584-589.
Bryant Z., Stone M. D., Gore J., Smith S. B., Cozzarelli N. R. & Bustamante C. (2003) Structural transitions and elasticity from torque measurements on DNA. Nature. 424(6946): 338-41.
Bustamante C., Bryant Z. & Smith S. B. (2003) Ten years of tension: single-molecule DNA mechanics. Nature. 421(6921): 423-7.
Carrion-Vazquez M., Li H., Lu H., Marszalek P. E., Oberhauser A. F. & Fernandez J. M. (2003) The mechanical stability of ubiquitin is linkage dependent. Nat Struct Biol. 10(9): 738-43.
Carrion-Vazquez M., Oberhauser A. F., Fowler S. B., Marszalek P. E., Broedel S. E., Clarke J. & Fernandez J. M. (1999) Mechanical and chemical unfolding of a single protein: a comparison. Proc Natl Acad Sci U S A. 96(7): 3694-9.
Carugo O. & Pongor S. (2002) Protein fold similarity estimated by a probabilistic approach based on C(alpha)-C(alpha) distance comparison. J Mol Biol. 315(4): 887-98.
Case D. A., Pearlman D. A., Caldwell J. W., Cheatham III T. E., Wang J., Ross W. S., Simmerling C. L., Darden T. A., Mer K. M., Stanton R. V., Cheng A. L., Vincent J. J., Crowley M., Tsui V., Gohlke H., Radmer R. J., Duan Y., Pitera J., Massova I., Seibel G. L., Singh U. C., Weimer P. K. & Kollman P. A. (2002) AMBER7.
Chakravarty S. & Varadarajan R. (2002) Elucidation of factors responsible for enhanced thermal stability of proteins: a structural genomics based study. Biochemistry. 41(25): 8152-61.
Chan H. S. & Dill K. A. (1998) Protein folding in the landscape perspective: chevron plots and non-Arrhenius kinetics. Proteins: Struct. Funct. Genet. 30(1): 2-33.
Chandon J. L. & Pinson S. (1981) Analyse typologique : théories et applications. Masson, Paris New York.
Chattopadhyaya R., Meador W. E., Means A. R. & Quiocho F. A. (1992) Calmodulin structure refined at 1.7 A resolution. J Mol Biol. 228(4): 1177-92.
Cheatham III T. E., Miller J. L., Fox T., Darden T. A. & Kollman P. A. (1995) Molecular Dynamics Simulation on Solvated Biomolecular Systems: The Particle Mesh Ewald Method Leads to Stable Trajectories of DNA, RNA and Proteins. J. Am. Chem. Soc. 117(14): 4193-4194.
189
Cheatham T. E., Miller J. L., Fox T., Darden T. A. & Kollman P. A. (1995) Molecular-Dynamics Simulations on Solvated Biomolecular Systems - the Particle Mesh Ewald Method Leads to Stable Trajectories of DNA, Rna, and Proteins. Journal of the American Chemical Society. 117(14): 4193-4194.
Chen J., Lu Z., Sakon J. & Stites W. E. (2000) Increasing the thermostability of staphylococcal nuclease: implications for the origin of protein thermostability. J Mol Biol. 303(2): 125-30.
Chen J. & Stites W. E. (2001) Packing is a key selection factor in the evolution of protein hydrophobic cores. Biochemistry. 40(50): 15280-9.
Chothia C. (1976) The nature of the accessible and buried surfaces in proteins. J Mol Biol. 105(1): 1-12.
Cluzel P., Lebrun A., Heller C., Lavery R., Viovy J. L., Chatenay D. & Caron F. (1996) DNA: an extensible molecule. Science. 271(5250): 792-4.
Cooper J. B., Khan G., Taylor G., Tickle I. J. & Blundell T. L. (1990) X-ray analyses of aspartic proteinases. II. Three-dimensional structure of the hexagonal crystal form of porcine pepsin at 2.3 A resolution. J Mol Biol. 214(1): 199-222.
Corey R. B. & Pauling L. (1953) Fundamental dimensions of polypeptide chains. Proc R Soc Lond B Biol Sci. 141(902): 10-20.
Cornell W. D., Cieplak P., Bayly C. I., Gould I. R., Merz K. M. J., Ferguson D. M., Spellmeyer D. C., Fox T., W. C. J. & Kollman P. A. (1995) A second generation force field for the simulation of proteins and nucleic acids. J. Am. Chem. Soc. 117(19): 5179-5197.
Cornell W. D., Cieplak P., Bayly C. I., Gould I. R., Merz K. M. J., Ferguson D. M., Spellmeyer D. C., Fox T., W. C. J. & Kollman P. A. (1996) A second generation force field for the simulation of proteins and nucleic acids, Additions & Correction. J. Am. Chem. Soc. 118(9): 2309-2309.
Crippen G. M. (1978) The tree structural organization of proteins. J Mol Biol. 126(3): 315-32. Daggett V. (2000) Long timescale simulations. Curr Opin Struct Biol. 10(2): 160-4. Daggett V. (2001) Molecular dynamics simulations of protein unfolding/folding. dans Protein
Structure, Stability, and Folding. ed. K. Murphy dans la série, Methods in molecular biology par J. Walker, Humana Press, 168, Totowa.
Daggett V. & Fersht A. (2003a) The present view of the mechanism of protein folding. Nat Rev Mol Cell Biol. 4(6): 497-502.
Daggett V. & Fersht A. R. (2003b) Is there a unifying mechanism for protein folding? Trends Biochem Sci. 28(1): 18-25.
Daggett V. & Levitt M. (1992) Molecular dynamics simulations of helix denaturation. J Mol Biol. 223(4): 1121-38.
Daggett V., Li A., Itzhaki L. S., Otzen D. E. & Fersht A. R. (1996) Structure of the transition state for folding of a protein derived from experiment and simulation. J Mol Biol. 257(2): 430-40.
Darden T., York D. & Pedersen L. (1993) Particle Mesh Ewald - an N.Log(N) Method for Ewald Sums in Large Systems. Journal of Chemical Physics. 98(12): 10089-10092.
Demirel M. C., Atilgan A. R., Jernigan R. L., Erman B. & Bahar I. (1998) Identification of kinetically hot residues in proteins. Protein Sci. 7(12): 2522-32.
Diday E., Lemaire J., Pouget J. & Testu F. (1982) Eléments d'analyse de données. Dunod, Paris.
Dill K. A. (1990) Dominant forces in protein folding. Biochemistry. 29(31): 7133-55. Dill K. A., Fiebig K. M. & Chan H. S. (1993) Cooperativity in protein-folding kinetics. Proc
Natl Acad Sci U S A. 90(5): 1942-6.
190
Dohoney K. M. & Gelles J. (2001) Chi-sequence recognition and DNA translocation by single RecBCD helicase/nuclease molecules. Nature. 409(6818): 370-4.
Dominguez R., Freyzon Y., Trybus K. M. & Cohen C. (1998) Crystal structure of a vertebrate smooth muscle myosin motor domain and its complex with the essential light chain: visualization of the pre-power stroke state. Cell. 94(5): 559-71.
Doruker P., Atilgan A. R. & Bahar I. (2000) Dynamics of proteins predicted by molecular dynamics simulations and analytical approaches: application to alpha-amylase inhibitor. Proteins. 40(3): 512-24.
Doruker P., Jernigan R. L. & Bahar I. (2002a) Dynamics of large proteins through hierarchical levels of coarse-grained structures. J Comput Chem. 23(1): 119-27.
Doruker P., Jernigan R. L., Navizet I. & Hernandez R. (2002b) Important fluctuation dynamics of large protein structures are preserved upon coarse-grained renormalization. Int J of Quantum Chem. 90(2): 822-837.
Duan Y. & Kollman P. A. (1998) Pathways to a protein folding intermediate observed in a 1-microsecond simulation in aqueous solution. Science. 282(5389): 740-4.
Eisenberg D. & McLachlan A. D. (1986) Solvation energy in protein folding and binding. Nature. 319(6050): 199-203.
Essevaz-Roulet B., Bockelmann U. & Heslot F. (1997) Mechanical separation of the complementary strands of DNA. Proc Natl Acad Sci U S A. 94(22): 11935-40.
Evans E. & Ritchie K. (1997) Dynamic strength of molecular adhesion bonds. Biophys J. 72(4): 1541-55.
Falicov A. & Cohen F. E. (1996) A surface of minimum area metric for the structural comparison of proteins. J Mol Biol. 258(5): 871-92.
Fersht A. R. & Daggett V. (2002) Protein folding and unfolding at atomic resolution. Cell. 108(4): 573-82.
Finkelstein A. V. (1997) Can protein unfolding simulate protein folding? Protein Eng. 10(8): 843-5.
Fisher T. E., Marszalek P. E. & Fernandez J. M. (2000) Stretching single molecules into novel conformations using the atomic force microscope. Nat Struct Biol. 7(9): 719-24.
Florin E. L., Moy V. T. & Gaub H. E. (1994) Adhesion forces between individual ligand-receptor pairs. Science. 264(5157): 415-7.
Flory P. J. (1969) Statistical mechanics of chain molecules. Interscience-Wiley Publishers, New York.
Freire E. (2001) The thermodynamic linkage between protein structure, stability and function. dans Protein Structure, Stability, and Folding. ed. K. Murphy dans la série, Methods in molecular biology par J. Walker, Humana Press, 168, Totowa.
Frenkel D. & Smit B. (2002) Understanding molecular simulation, from algorithms to applications. Academic press,
Frye K. J. & Royer C. A. (1998) Probing the contribution of internal cavities to the volume change of protein unfolding under pressure. Protein Sci. 7(10): 2217-22.
Gao M., Lu H. & Schulten K. (2001) Simulated refolding of stretched titin immunoglobulin domains. Biophys J. 81(4): 2268-77.
Gao M., Lu H. & Schulten K. (2002) Unfolding of titin domains studied by molecular dynamics simulations. J Muscle Res Cell Motil. 23(5-6): 513-21.
Geeves M. A. (1991) The dynamics of actin and myosin association and the crossbridge model of muscle contraction. Biochem J. 274 ( Pt 1): 1-14.
Gerstein M., Lesk A. M. & Chothia C. (1994) Structural mechanisms for domain movements in proteins. Biochemistry. 33(22): 6739-49.
191
Gilquin B., Guilbert C. & Perahia D. (2000) Unfolding of hen egg lysozyme by molecular dynamics simulations at 300K: insight into the role of the interdomain interface. Proteins. 41(1): 58-74.
Godzik A. (1996) The structural alignment between two proteins: is there a unique answer? Protein Sci. 5(7): 1325-38.
Grottesi A., Ceruso M. A., Colosimo A. & Di Nola A. (2002) Molecular dynamics study of a hyperthermophilic and a mesophilic rubredoxin. Proteins. 46(3): 287-94.
Gulick A. M., Bauer C. B., Thoden J. B., Pate E., Yount R. G. & Rayment I. (2000) X-ray structures of the Dictyostelium discoideum myosin motor domain with six non-nucleotide analogs. J Biol Chem. 275(1): 398-408.
Ha Duong T. & Zakrzewska K. (1997) Calculation and analysis of low frequency normal modes for DNA, Lab. de Biochimie Theor. Inst. de Biol. Physico-Chimique Paris France.
Haliloglu T. & Bahar I. (1999) Structure-based analysis of protein dynamics: comparison of theoretical results for hen lysozyme with X-ray diffraction and NMR relaxation data. Proteins. 37(4): 654-67.
Haliloglu T., Bahar I. & Erman B. (1997) Gaussian Dynamics of Folded Proteins. Phys Rev Lett. 79(16): 3090-3093.
Halle B. (2002) Flexibility and packing in proteins. Proc Natl Acad Sci U S A. 99(3): 1274-9. Harrison S. C. & Durbin R. (1985) Is there a single pathway for the folding of a polypeptide
chain? Proc Natl Acad Sci U S A. 82(12): 4028-30. Hasson M. S., Schlichting I., Moulai J., Taylor K., Barrett W., Kenyon G. L., Babbitt P. C.,
Gerlt J. A., Petsko G. A. & Ringe D. (1998) Evolution of an enzyme active site: the structure of a new crystal form of muconate lactonizing enzyme compared with mandelate racemase and enolase. Proc Natl Acad Sci U S A. 95(18): 10396-401.
Hawkins G. D., Cramer C. J. & Truhlar D. G. (1995) Pairwise solute screening of solute charges from a dielectric medium. Chem. Phys. Lett. 246: 122-129.
Hawkins G. D., Cramer C. J. & Truhlar D. G. (1996) Parameterized models of aqueous free energies of solvation based on pairwise descreening of solute atomic charges from a dielectric medium. J. Phys. Chem. 100: 19824-19839.
Hayward S., Kitao A. & Berendsen H. J. (1997) Model-free methods of analyzing domain motions in proteins from simulation: a comparison of normal mode analysis and molecular dynamics simulation of lysozyme. Proteins. 27(3): 425-37.
Himmel D. M., Gourinath S., Reshetnikova L., Shen Y., Szent-Gyorgyi A. G. & Cohen C. (2002) Crystallographic findings on the internally uncoupled and near-rigor states of myosin: further insights into the mechanics of the motor. Proc Natl Acad Sci U S A. 99(20): 12645-50.
Hinsen K. (1998) Analysis of domain motions by approximate normal mode calculations. Proteins. 33(3): 417-29.
Hinsen K., Thomas A. & Field M. J. (1999) Analysis of domain motions in large proteins. Proteins. 34(3): 369-82.
Hirakawa H., Muta S. & Kuhara S. (1999) The hydrophobic cores of proteins predicted by wavelet analysis. Bioinformatics. 15(2): 141-8.
Hirano S., Mihara K., Yamazaki Y., Kamikubo H., Imamoto Y. & Kataoka M. (2002) Role of C-terminal region of Staphylococcal nuclease for foldability, stability, and activity. Proteins. 49(2): 255-65.
Hodge T. & Cope M. J. (2000) A myosin family tree. J Cell Sci. 113 Pt 19: 3353-4. Holm L. & Sander C. (1993) Protein structure comparison by alignment of distance matrices.
J Mol Biol. 233(1): 123-38.
192
Holm L. & Sander C. (1994) Parser for protein folding units. Proteins. 19(3): 256-68. Holm L. & Sander C. (1997) Dali/FSSP classification of three-dimensional protein folds.
Nucleic Acids Res. 25(1): 231-4. Holmes K. C. & Geeves M. A. (2000) The structural basis of muscle contraction. Philos
Trans R Soc Lond B Biol Sci. 355(1396): 419-31. Honig B. (1999) Protein folding: from the levinthal paradox to structure prediction. J Mol
Biol. 293(2): 283-93. Houdusse A., Kalabokis V. N., Himmel D., Szent-Gyorgyi A. G. & Cohen C. (1999) Atomic
structure of scallop myosin subfragment S1 complexed with MgADP: a novel conformation of the myosin head. Cell. 97(4): 459-70.
Houdusse A. & Sweeney H. L. (2001) Myosin motors: missing structures and hidden springs. Curr Opin Struct Biol. 11(2): 182-94.
Houdusse A., Szent-Gyorgyi A. G. & Cohen C. (2000) Three conformational states of scallop myosin S1. Proc Natl Acad Sci U S A. 97(21): 11238-43.
Hubbard T. J., Murzin A. G., Brenner S. E. & Chothia C. (1997) SCOP: a structural classification of proteins database. Nucleic Acids Res. 25(1): 236-9.
Humphrey W., Dalke A. & Schulten K. (1996) VMD: visual molecular dynamics. J Mol Graph. 14(1): 33-8, 27-8.
Hunenberger P. H., Mark A. E. & van Gunsteren W. F. (1995) Computational approaches to study protein unfolding: hen egg white lysozyme as a case study. Proteins. 21(3): 196-213.
Idiris A., Alam M. T. & Ikai A. (2000) Spring mechanics of alpha-helical polypeptide. Protein Eng. 13(11): 763-70.
Ikura T., Tsurupa G. P. & Kuwajima K. (1997) Kinetic folding and cis/trans prolyl isomerization of staphylococcal nuclease. A study by stopped-flow absorption, stopped-flow circular dichroism, and molecular dynamics simulations. Biochemistry. 36(21): 6529-38.
Irving M. & Goldman Y. E. (1999) Motor proteins. Another step ahead for myosin. Nature. 398(6727): 463, 465.
Isin B., Doruker P. & Bahar I. (2002) Functional motions of influenza virus hemagglutinin: a structure-based analytical approach. Biophys J. 82(2): 569-81.
Itzhaki L. S., Neira J. L., Ruiz-Sanz J., de Prat Gay G. & Fersht A. R. (1995a) Search for nucleation sites in smaller fragments of chymotrypsin inhibitor 2. J Mol Biol. 254(2): 289-304.
Itzhaki L. S., Otzen D. E. & Fersht A. R. (1995b) The structure of the transition state for folding of chymotrypsin inhibitor 2 analysed by protein engineering methods: evidence for a nucleation-condensation mechanism for protein folding. J Mol Biol. 254(2): 260-88.
Izrailev S., Stepaniants S., Balsera M., Oono Y. & Schulten K. (1997) Molecular dynamics study of unbinding of the avidin-biotin complex. Biophys J. 72(4): 1568-81.
Janin J. & Chothia C. (1985) Domains in proteins: definitions, location, and structural principles. Methods Enzymol. 115: 420-30.
Jarvis R. A. & Patrick E. A. (1973) Clustering using a similarity measure based on shared near neighbours. IEEE Transactions in Computers. C-22: 1025-1034.
Jorgensen W. L., Chandrasekhar J., Madura J. D., Impey R. W. & Klein M. L. (1983) Comparison of Simple Potential Functions for Simulating Liquid Water. Journal of Chemical Physics. 79(2): 926-935.
Karplus M. & Weaver D. L. (1994) Protein folding dynamics: the diffusion-collision model and experimental data. Protein Sci. 3(4): 650-68.
193
Karplus P. A. (1996) Experimentally observed conformation-dependent geometry and hidden strain in proteins. Protein Sci. 5(7): 1406-20.
Kazmirski S. L. & Daggett V. (1998) Simulations of the structural and dynamical properties of denatured proteins: the "molten coil" state of bovine pancreatic trypsin inhibitor. J Mol Biol. 277(2): 487-506.
Kellermayer M. S., Smith S. B., Granzier H. L. & Bustamante C. (1997) Folding-unfolding transitions in single titin molecules characterized with laser tweezers. Science. 276(5315): 1112-6.
Keskin O., Bahar I., Flatow D., Covell D. G. & Jernigan R. L. (2002a) Molecular mechanisms of chaperonin GroEL-GroES function. Biochemistry. 41(2): 491-501.
Keskin O., Durell S. R., Bahar I., Jernigan R. L. & Covell D. G. (2002b) Relating molecular flexibility to function: a case study of tubulin. Biophys J. 83(2): 663-80.
Keskin O., Jernigan R. L. & Bahar I. (2000) Proteins with similar architecture exhibit similar large-scale dynamic behavior. Biophys J. 78(4): 2093-106.
Kitamura K., Tokunaga M., Iwane A. H. & Yanagida T. (1999) A single myosin head moves along an actin filament with regular steps of 5.3 nanometres. Nature. 397(6715): 129-34.
Koehl P. (2001) Protein structure similarities. Curr Opin Struct Biol. 11(3): 348-53. Korn E. D. (2000) Coevolution of head, neck, and tail domains of myosin heavy chains. Proc
Natl Acad Sci U S A. 97(23): 12559-64. Kundu S., Melton J. S., Sorensen D. C. & Phillips G. N., Jr. (2002) Dynamics of proteins in
crystals: comparison of experiment with simple models. Biophys J. 83(2): 723-32. Ladoux B., Quivy J. P., Doyle P. S., Almouzni G. & Viovy J. L. (2001) Direct imaging of
single-molecules: from dynamics of a single DNA chain to the study of complex DNA-protein interactions. Sci Prog. 84(Pt 4): 267-90.
Lavery R. & Lebrun A. (1999) Modelling DNA stretching for physics and biology. Genetica. 106(1-2): 75-84.
Lavery R., Lebrun A., Allemand J.-F., Bensimon D. & Croquette V. (2002) Structure and mechanics of single biomolecules: experiment and simulation. Journal of Physics-Condensed Matter 14: R383-R414.
Lavery R., Parker I. & Kendrick J. (1986a) A general approach to the optimization of the conformation of ring molecules with an application to valinomycin. J Biomol Struct Dyn. 4(3): 443-62.
Lavery R., Sklenar H., Zakrzewska K. & Pullman B. (1986b) The flexibility of the nucleic acids: (II). The calculation of internal energy and applications to mononucleotide repeat DNA. J Biomol Struct Dyn. 3(5): 989-1014.
Lavery R., Zakrzewska K. & Sklenar H. (1995) JUMNA: Junction Minimisation of Nucleic Acids. Computer Physics Communications. 91: 135-158.
Leach A. (2001) Molecular modelling principles and applications. Prentice hall., Lebrun A. & Lavery R. (1996) Modelling extreme stretching of DNA. Nucleic Acids Res.
24(12): 2260-7. Lebrun A. & Lavery R. (1998) Modeling the mechanics of a DNA oligomer. J Biomol Struct
Dyn. 16(3): 593-604. Lebrun A. & Lavery R. (1999) Modeling DNA deformations induced by minor groove
binding proteins. Biopolymers. 49(5): 341-53. Lebrun A., Shakked Z. & Lavery R. (1997) Local DNA stretching mimics the distortion
caused by the TATA box-binding protein. Proc Natl Acad Sci U S A. 94(7): 2993-8. Lesk A. M. (1998) Extraction of geometrically similar substructures: least-squares and
Chebyshev fitting and the difference distance matrix. Proteins. 33(3): 320-8.
194
Lesk A. M. & Chothia C. (1984) Mechanisms of domain closure in proteins. J Mol Biol. 174(1): 175-91.
Levinthal C. (1968) Are there pathways for protein folding ? J. Chem. Phys. 65: 44-45. Levitt M. & Gerstein M. (1998) A unified statistical framework for sequence comparison and
structure comparison. Proc Natl Acad Sci U S A. 95(11): 5913-20. Liphardt J., Onoa B., Smith S. B., Tinoco I. J. & Bustamante C. (2001) Reversible unfolding
of single RNA molecules by mechanical force. Science. 292(5517): 733-7. Lu H. & Schulten K. (2000) The key event in force-induced unfolding of Titin's
immunoglobulin domains. Biophys J. 79(1): 51-65. Marsh R. E. & Donohue J. (1967) Crystal structure studies of amino acids and peptides. Adv
Protein Chem. 22: 235-56. Masugata K., Ikai A. & Okazaki S. (2002) Molecular dynamics study of mechanical extension
of polyalanine by AFM cantilever. Applied Surface Science. 188(3-4): 372-376. Matouschek A. & Bustamante C. (2003) Finding a protein's Achilles heel. Nat Struct Biol.
10(9): 674-676. Mayor U., Guydosh N. R., Johnson C. M., Grossmann J. G., Sato S., Jas G. S., Freund S. M.,
Alonso D. O., Daggett V. & Fersht A. R. (2003) The complete folding pathway of a protein from nanoseconds to microseconds. Nature. 421(6925): 863-7.
Mayor U., Johnson C. M., Daggett V. & Fersht A. R. (2000) Protein folding and unfolding in microseconds to nanoseconds by experiment and simulation. Proc Natl Acad Sci U S A. 97(25): 13518-22.
Mendelson R. & Morris E. P. (1997) The structure of the acto-myosin subfragment 1 complex: results of searches using data from electron microscopy and x-ray crystallography. Proc Natl Acad Sci U S A. 94(16): 8533-8.
Meyer E., Cole G., Radhakrishnan R. & Epp O. (1988) Structure of native porcine pancreatic elastase at 1.65 A resolutions. Acta Crystallogr B. 44 ( Pt 1): 26-38.
Milner-White E. J. (1997) The partial charge of the nitrogen atom in peptide bonds. Protein Sci. 6(11): 2477-82.
Murphy K. (2001) Stabilization of protein structure. dans Protein Structure, Stability, and Folding. ed. K. Murphy dans la série, Methods in molecular biology par J. Walker, Humana Press, 168, Totowa.
Myers J. K., Pace C. N. & Scholtz J. M. (1995) Denaturant m values and heat capacity changes: relation to changes in accessible surface areas of protein unfolding. Protein Sci. 4(10): 2138-48.
Navizet I., Lavery R. & Jernigan R. L. (2004) Myosin flexibility: Structural domains and collective vibrations. Proteins: Structure, Function and Bioinformatics 54: 384-393.
Nichols W. L., Rose G. D., Ten Eyck L. F. & Zimm B. H. (1995) Rigid domains in proteins: an algorithmic approach to their identification. Proteins. 23(1): 38-48.
Orengo C. A., Pearl F. M. & Thornton J. M. (2003) The CATH domain structure database. Methods Biochem Anal. 44: 249-71.
Paci E. & Karplus M. (1999) Forced unfolding of fibronectin type 3 modules: an analysis by biased molecular dynamics simulations. J Mol Biol. 288(3): 441-59.
Paci E., Smith L. J., Dobson C. M. & Karplus M. (2001) Exploration of partially unfolded states of human alpha-lactalbumin by molecular dynamics simulation. J Mol Biol. 306(2): 329-47.
Pande V. S., Grosberg A., Tanaka T. & Rokhsar D. S. (1998) Pathways for protein folding: is a new view needed? Curr Opin Struct Biol. 8(1): 68-79.
Pauling L. & Corey R. B. (1953) Stable configurations of polypeptide chains. Proc R Soc Lond B Biol Sci. 141(902): 21-33.
195
Pearl F. M., Bennett C. F., Bray J. E., Harrison A. P., Martin N., Shepherd A., Sillitoe I., Thornton J. & Orengo C. A. (2003) The CATH database: an extended protein family resource for structural and functional genomics. Nucleic Acids Res. 31(1): 452-5.
Pearlman D. A., Case D. A., Caldwell J. W., Ross W. S., Cheatham III T. E., DeBolt S., Ferguson D., Seibel G. L. & Kollman P. A. (1995) AMBER, a package of computer programs for applying molecular mechanics, normal mode analysis, molecular dynamics and free energy calculations to simulate the structural and energetic properties of molecules. Comp. Phys. Commun. 91: 1-41.
Perrett S. & Zhou J. M. (2002) Expanding the pressure technique: insights into protein folding from combined use of pressure and chemical denaturants. Biochim Biophys Acta. 1595(1-2): 210-23.
Phelan P., Gorfe A. A., Jelesarov I., Marti D. N., Warwicker J. & Bosshard H. R. (2002) Salt bridges destabilize a leucine zipper designed for maximized ion pairing between helices. Biochemistry. 41(9): 2998-3008.
Plaxco K. W. & Dobson C. M. (1996) Time-resolved biophysical methods in the study of protein folding. Curr Opin Struct Biol. 6(5): 630-6.
Ptitsyn O. B. (1991) How does protein synthesis give rise to the 3D-structure? FEBS Lett. 285(2): 176-81.
Radford S. E. (2000) Protein folding: progress made and promises ahead. Trends Biochem Sci. 25(12): 611-8.
Ramachandran G. N. & Ramakrishnan C. (1963) Stereochemistry of polypeptide chain configurations. J Mol Biol. 7: 95-99.
Ramachandran G. N. & Sasisekharan V. (1968) Conformation of polypeptides and proteins. Adv Protein Chem. 23: 283-438.
Ramakrishnan C. (2001) In memoriam: Professor G.N. Ramachandran (1922-2001). Protein Sci. 10(8): 1689-91.
Rayment I. (1996) The structural basis of the myosin ATPase activity. J Biol Chem. 271(27): 15850-3.
Rayment I., Holden H. M., Whittaker M., Yohn C. B., Lorenz M., Holmes K. C. & Milligan R. A. (1993a) Structure of the actin-myosin complex and its implications for muscle contraction. Science. 261(5117): 58-65.
Rayment I., Rypniewski W. R., Schmidt-Base K., Smith R., Tomchick D. R., Benning M. M., Winkelmann D. A., Wesenberg G. & Holden H. M. (1993b) Three-dimensional structure of myosin subfragment-1: a molecular motor. Science. 261(5117): 50-8.
Richardson J. S. (1981) The anatomy and taxonomy of protein structure. Adv Protein Chem. 34: 167-339.
Rief M., Gautel M., Oesterhelt F., Fernandez J. M. & Gaub H. E. (1997a) Reversible unfolding of individual titin immunoglobulin domains by AFM. Science. 276(5315): 1109-12.
Rief M., Oesterhelt F., Heymann B. & Gaub H. E. (1997b) Single molecule force spectroscopy on polysaccharides by atomic force microscopy. Science. 275(5304): 1295-7.
Robbins A. H. & Stout C. D. (1989) Structure of activated aconitase: formation of the [4Fe-4S] cluster in the crystal. Proc Natl Acad Sci U S A. 86(10): 3639-43.
Rogen P. & Fain B. (2003) Automatic classification of protein structure by using Gauss integrals. Proc Natl Acad Sci U S A. 100(1): 119-24.
Rohs R., Etchebest C. & Lavery R. (1999) Unraveling proteins: a molecular mechanics study. Biophys J. 76(5): 2760-8.
196
Ryckaert J. P., Ciccotti G. & Berendsen H. J. C. (1977) Numerical Integration of the Cartesian equations of motion of a system with constraints: Molecular dynamics of n-alkanes. J. Comp. Phys. 23: 327-341.
Schliwa M. & Woehlke G. (2003) Molecular motors. Nature. 422(6933): 759-65. Schneider T. R. (2000) Objective comparison of protein structures: error-scaled difference
distance matrices. Acta Crystallogr D Biol Crystallogr. 56 ( Pt 6): 714-21. Siddiqui A. S. & Barton G. J. (1995) Continuous and discontinuous domains: an algorithm for
the automatic generation of reliable protein domain definitions. Protein Sci. 4(5): 872-84.
Siddiqui A. S., Dengler U. & Barton G. J. (2001) 3Dee: a database of protein structural domains. Bioinformatics. 17(2): 200-1.
Smith D. A., Brockwell D. J., Zinober R. C., Blake A. W., Beddard G. S., Olmsted P. D. & Radford S. E. (2003) Unfolding dynamics of proteins under applied force. Philos Transact Ser A Math Phys Eng Sci. 361(1805): 713-28; discussion 728-30.
Smith S. B., Cui Y. & Bustamante C. (1996) Overstretching B-DNA: the elastic response of individual double-stranded and single-stranded DNA molecules. Science. 271(5250): 795-9.
Socci N. D., Onuchic J. N. & Wolynes P. G. (1998) Protein folding mechanisms and the multidimensional folding funnel. Proteins Struct. Funct. Genet. 32(2): 136-58.
Sowdhamini R. & Blundell T. L. (1995) An automatic method involving cluster analysis of secondary structures for the identification of domains in proteins. Protein Sci. 4(3): 506-20.
Spudich J. A. (2001) The myosin swinging cross-bridge model. Nat Rev Mol Cell Biol. 2(5): 387-92.
Sundaralingam M. & Sekharudu Y. C. (1989) Water-inserted alpha-helical segments implicate reverse turns as folding intermediates. Science. 244(4910): 1333-7.
Swindells M. B. (1995) A procedure for the automatic determination of hydrophobic cores in protein structures. Protein Sci. 4(1): 93-102.
Tajkhorshid E., Aksimentiev A., Balabin I., Gao M., Isralewitz B., Phillips J. C., Zhu F. & Schulten K. (2003) Large scale simulation of protein mechanics and function. Adv Protein Chem. 66: 195-247.
Tama F., Gadea F. X., Marques O. & Sanejouand Y. H. (2000) Building-block approach for determining low-frequency normal modes of macromolecules. Proteins. 41(1): 1-7.
Tama F. & Sanejouand Y. H. (2001) Conformational change of proteins arising from normal mode calculations. Protein Eng. 14(1): 1-6.
Taylor W. R. & Orengo C. A. (1989) Protein structure alignment. J Mol Biol. 208(1): 1-22. Thomas A., Hinsen K., Field M. J. & Perahia D. (1999) Tertiary and quaternary
conformational changes in aspartate transcarbamylase: a normal mode study. Proteins. 34(1): 96-112.
Tirion M. M. (1996) Large amplitude elastic motions in proteins from a single-parameter, atomic analysis. Physical Review Letters. 77(9): 1905-1908.
Tirion M. M. & ben-Avraham D. (1993) Normal mode analysis of G-actin. J Mol Biol. 230(1): 186-95.
Tskhovrebova L., Trinick J., Sleep J. A. & Simmons R. M. (1997) Elasticity and unfolding of single molecules of the giant muscle protein titin. Nature. 387(6630): 308-12.
Tsui V. & Case D. A. (2000) Theory and applications of the generalized Born solvation model in macromolecular Simulations. Biopolymers. 56(4): 275-291.
197
Uyeda T. Q., Abramson P. D. & Spudich J. A. (1996) The neck region of the myosin motor domain acts as a lever arm to generate movement. Proc Natl Acad Sci U S A. 93(9): 4459-64.
van Meerssche M. & Feneau-Dupont J. (1984) Introduction à la cristallographie et à la chimie structurale. Peeters, Paris.
Verlet L. (1967) Computer experiments on classical fluids. I. Thermodynamical properties of Lennard-Jones molecules. Phys. Rev. 159: 98-103.
Vinayagam A., Shi J., Pugalenthi G., Meenakshi B., Blundell T. L. & Sowdhamini R. (2003) DDBASE2.0: updated domain database with improved identification of structural domains. Bioinformatics. 19(14): 1760-4.
Volkmann N. & Hanein D. (2000) Actomyosin: law and order in motility. Curr Opin Cell Biol. 12(1): 26-34.
Wang J., Cieplak P. & Kollman P. A. (2000) How well does a restrained electrostatic potential (RESP) model perform in calculating conformational energies of organic and biological molecules? J. Comput. Chem. 21(12): 1049-1074.
Wang J., Truckses D. M., Abildgaard F., Dzakula Z., Zolnai Z. & Markley J. L. (1997) Solution structures of staphylococcal nuclease from multidimensional, multinuclear NMR: nuclease-H124L and its ternary complex with Ca2+ and thymidine-3',5'-bisphosphate. J Biomol NMR. 10(2): 143-64.
Ward J. H. (1963) Hierarchical grouping to optimise an objective function. American Statistical Association Journal. 236-244.
Washizu M. (1990) Manipulation of DNA in Microfabricated Structures. IEEE Transactions on Industry Applications. 26: 1165-1172.
Wernisch L., Hunting M. & Wodak S. J. (1999) Identification of structural domains in proteins by a graph heuristic. Proteins. 35(3): 338-52.
Wetlaufer D. B. (1973) Nucleation, rapid folding, and globular intrachain regions in proteins. Proc Natl Acad Sci U S A. 70(3): 697-701.
Williams P. M., Fowler S. B., Best R. B., Toca-Herrera J. L., Scott K. A., Steward A. & Clarke J. (2003) Hidden complexity in the mechanical properties of titin. Nature. 422(6930): 446-9.
Wolynes P. G., Onuchic J. N. & Thirumalai D. (1995) Navigating the folding routes. Science. 267(5204): 1619-20.
Wriggers W. & Schulten K. (1997) Protein domain movements: detection of rigid domains and visualization of hinges in comparisons of atomic coordinates. Proteins. 29(1): 1-14.
Xia B., Tsui V., Case D. A., Dyson H. J. & Wright P. E. (2002) Comparison of protein solution structures refined by molecular dynamics simulation in vacuum, with a generalized Born model, and with explicit water. J Biomol NMR. 22(4): 317-31.
Xiao M., Reifenberger J. G., Wells A. L., Baldacchino C., Chen L. Q., Ge P., Sweeney H. L. & Selvin P. R. (2003) An actin-dependent conformational change in myosin. Nat Struct Biol. 10(5): 402-8.
Xu C., Tobi D. & Bahar I. (2003) Allosteric changes in protein structure computed by a simple mechanical model: hemoglobin T<-->R2 transition. J Mol Biol. 333(1): 153-68.
Xu Y., Xu D. & Gabow H. N. (2000) Protein domain decomposition using a graph-theoretic approach. Bioinformatics. 16(12): 1091-104.
Yanagida T., Esaki S., Iwane A. H., Inoue Y., Ishijima A., Kitamura K., Tanaka H. & Tokunaga M. (2000a) Single-motor mechanics and models of the myosin motor. Philos Trans R Soc Lond B Biol Sci. 355(1396): 441-7.
198
Yanagida T., Kitamura K., Tanaka H., Hikikoshi Iwane A. & Esaki S. (2000b) Single molecule analysis of the actomyosin motor. Curr Opin Cell Biol. 12(1): 20-5.
Yanagida T. & Iwane A. H. (2000c) A large step for myosin. Proc Natl Acad Sci U S A. 97(17): 9357-9.
Yang J., Dokurno P., Tonks N. K. & Barford D. (2001) Crystal structure of the M-fragment of alpha-catenin: implications for modulation of cell adhesion. Embo J. 20(14): 3645-56.
199
ANNEXE 1 : Contraintes mécaniques
I Contraintes globales Nous avons programmé d’autres contraintes que celle sur la RMS de distance décrite dans le
chapitre XIII.2 page 93. Nous ne présentons dans cette annexe que les équations qui ont été
utilisées dans les programmes . LIGAND et GNMlig
Rayon de giration Le rayon de giration est défini de la manière suivante :
2,
2
d
jiij
N
drg
∑=
La somme se fait sur les Nd couples (i,j) où i et j sont les carbones α de la protéine.
L'énergie de contrainte associée est 2*)( rgrgkEpen −×= avec rg* la valeur du rayon de
giration que l’on veut atteindre.
La force exercée le long d’une coordonnée xi du carbone Cα,j due à la contrainte est l’opposé
de la dérivée de cette énergie par rapport à cette coordonnée et est donnée par la formule
suivante :
∑≠
−××
−××−=
N
jiij
dj xx
rgN
rgrgkx )(
)(2)F( 2
*
200
RMS angulaire Au lieu de contraindre les distances, on peut contraindre les angles de torsion. Ce genre de
contrainte est logique pour une description en coordonnées internes des structures comme
celle utilisée dans LIGAND.
On définit la RMS de torsion de la manière suivante :
N
frms
N
ii∑
== 1)(τ
avec N le nombre de torsions et la fonction f égale au carré de la différence (comprise entre
-180° et 180°) entre l’angle de torsion τi et sa valeur τi0 dans la structure de référence.
Travailler sur les angles exige de faire attention à deux choses. D’une part, les angles sont
définis modulo 360°, les différences d’angles doivent donc toutes êtres comprises dans
l’intervalle [-180°,180°] (Nous avons choisi de prendre les valeurs angulaires entre -180° et
180°.). D’autre part, les énergies de contrainte doivent être continues et de dérivées continues,
notamment lorsque les valeurs des angles passent de –180° à 180°. La fonction f est donc
définie par morceaux de manière à ce qu’elle soit continue et que sa dérivée soit continue :
On prend pour d(τi) la valeur de l’angle différence τi- τi0 comprise entre –180° et 180°.
lim180limd
da −−= , lim180
lim360ddb −
×= , lim180lim180 2
dd
c −×−
= avec dlim, une valeur d’angle limite proche de
180° (par exemple 179°) (au delà de laquelle f n’est plus égale au carré de la différence
d’angle).
L'énergie de contrainte associée est 2*)( rmsrmskEp −×= avec rms* la valeur de la fonction
RMS angulaire souhaitée.
f(τi)=d(τi)2 si d(τi)∈[-dlim,dlim]
f(τi)=a d(τi)2 + b d(τi ) + c si d(τi)∈[dlim,180]
f(τi)= a d(τi)2 - b d(τi) + c si d(τi)∈[-180,-dlim]
201
L’opposé de la dérivée de cette énergie par rapport à un angle τj donne la force exercée sur cet
angle due à la contrainte en torsion et est donnée par la formule suivante :
)(')(
)F(*
jj frmsNrmsrmsk
ττ ××−×−
=
On passe à la force sur chaque atome grâce à un sous-programme (subroutine deltor) inclus
dans LIGAND.
Nous avons également programmé une autre contrainte de torsion ne tenant compte que des
carbones α. On définit alors des angles de torsion entre carbones α comme les angles formés
par les deux plans ABC et BCD des carbones α des résidus consécutifs A, B, C et D. τi est
alors l’angle de torsion entre quatre carbones α. Cette contrainte permet de faire des
comparaisons entre les programmes LIGAND et GNMlig.
II Contraintes locales
Contrainte locale « tirer-pousser » par rapport au centre de
masse On oblige le carbone Cα,i d’un résidu i particulier à se déplacer sur la droite le reliant au
centre de masse de tous les carbones α de la protéine.
L’énergie de contrainte appliquée s’exprime alors suivant l’équation :
2)( *ii rrkpE −×=
où ri est la distance entre le centre de masse et Cα,i et ri* est la valeur de cette distance que l’on
veut atteindre.
La force dérivant de ce potentiel s’écrit pour la composante xj du carbone Cα,j de la façon
suivante :
202
)()(2)F(*
cmii
iij xxrN
rrkx −××−××= si j≠i
et pour Cα,i :
)()1()(2)F(*
cmii
iii xxNrN
rrkx −×−××−××=
N est le nombre de résidus de la protéine et xcm est la composante cartésienne du centre de
masse.
Contrainte locale « tirer-pousser » le long des axes principaux
de la protéine Définition des axes principaux
Les axes principaux sont les directions dont les vecteurs directeurs sont les vecteurs propres
du tenseur central d’inertie IG :
⎥⎥
⎦
⎤
⎢⎢
⎣
⎡
−−−−−−
=zzyzxz
yzyyxy
xzxyxx
G
IIIIIIIII
I avec ∑ +=i
iiixx zymI )( 22 et ∑=i
iiixy yxmI
Les sommes sont calculées sur les atomes pris en compte (ici les Cα) de masse mi (mi peut
être mis en facteur dans le cas d’atomes identiques) et de coordonnées (xi, yi, zi) dans un
repère cartésien de centre G, le centre de masse de ces atomes.
On peut donc définir pour n’importe quel ensemble de points trois axes principaux passant par
le centre de masse et de vecteurs directeurs définis comme ci-dessus.
Contrainte
La variable contrainte est la longueur de la projection du vecteur reliant le centre de masse au
carbone α du résidu i sur l’axe principal j. Pour chaque résidu, on peut imposer des
contraintes le long de trois directions privilégiées de la protéine.
Les notations sont explicités dans le schéma suivant (figure 67) :
203
figure 67 : Définition de la contrainte suivant les axes principaux : u1, u2 et u3 sont les trois
axes principaux, CM est le centre de masse, Cα,i est le carbone α du résidu i et l est la
longueur de la projection du vecteur i,C-CM α sur l’axe principal 1.
L’énergie de pénalité pour une contrainte suivant l’axe principal j est donnée par la formule
suivante : 2)( *ii llkpE −×= avec li la longueur de la projection du vecteur i,C-CM α sur l’axe
principal j étudié et li* la longueur imposée.
j
iji u
rul r
rr .=
La dérivée de l’énergie de pénalité doit donc prendre en compte la dérivée du vecteur unitaire
de l’axe j ainsi que celle de la position du centre de masse.
Contrainte locale « tirer-pousser » le long des axes structuraux Définition des axes structuraux
On définit les axes dits structuraux pour chacun des résidus (figure 68). L'axe 1 du résidu i est
l'axe passant par le centre de masse de vecteur directeur le vecteur normé reliant le carbone α
du résidu (i-1) et le carbone α du résidu (i+1). Le vecteur directeur de l'axe 2 est le vecteur
l
Cα,i
CM
u1
u2
u3
irr
204
perpendiculaire à celui de l'axe 1 dans le plan des carbones (Cαi, Cαi+1, Cαi-1). Le troisième axe
possède comme vecteur directeur le produit vectoriel des deux premiers de façon à former une
base orthonormée. D’après cette définition, les axes structuraux des résidus qui sont aux
extrémités de la chaîne ne sont pas définis car il n’ont pas deux voisins. On ne peut donc pas
appliquer cette contrainte sur les deux extrémités de la protéine.
figure 68 : Définition des axes structuraux u1, u2 et u3 associés au Cα,i. r est la projection du
vecteur reliant le centre de masse des Cα (CM) au carbone Cαi sur le vecteur structural u2.
Contrainte
La norme r de la projection du vecteur reliant le centre de masse des carbones α et le centre
du carbone α du résidu i étudié sur un des vecteurs structuraux de i (ou sur une combinaison
des trois vecteurs structuraux de i) est contrainte à une valeur r*.
L’énergie correspondante est donnée par l’équation : 2)( *rrkEpen −×=
A chaque cycle de la minimisation, les vecteurs structuraux et la norme de la projection du
vecteur i,C-CM α sont recalculés. La dérivée par rapport à une coordonnée d’un carbone α est
déterminée en calculant les dérivés de la position du centre de masse et des vecteurs
structuraux.
i
i+1
i-1
u1
u2
u3 irr
r
CM
205
ANNEXE 2 : Important Fluctuation Dynamics of Large
Protein Structures are Preserved upon Coarse-Grained
Renormalization
Introduction
L’article ci-dessous présente deux alternatives au programme ANM.
La première est basée sur le regroupement des carbones α consécutifs afin d’avoir une
représentation granulaire plus grossière que dans le programme ANM classique.
Contrairement à l’approche ANM classique dont chaque nœud du réseau représente un
carbone α, chaque nœud représente alors le groupement de n carbones α consécutifs en
« segment ». Le seuil de coupure pour déterminer l’emplacement des ressorts doit être plus
grand que le rayon de giration de chaque segment. Par analogie avec ANM, le seuil rc doit
être pris égal à deux fois le rayon moyen de giration d’un segment plus une distance de
contacte invariante R0 typiquement prise égale à 13 Å. En étudiant trois très grosses protéines
(la β-galactosidase, la xanthine hydrogénase et l’hémagglutinine), nous montrons que le
comportement du rayon de giration moyen en fonction de n est similaire jusqu’à des segments
de 40 résidus et que le rayon de giration des segments dans les protéines globulaires est
nettement plus petit que celui d’un modèle de polypeptide de n résidus.
La comparaison des courbes donnant les facteurs de température obtenus avec des nœuds tous
les résidus ou tous les 10 résidus le long de la chaîne montre que plus le modèle est simplifié,
plus la courbe est lissée mais que l’allure de la courbe reste similaire. Il en est de même pour
les modes normaux de plus grande amplitude qui sont retrouvés avec des segment de 10
résidus.
206
L’autre approche est une approche fondée sur le regroupement des carbones α en domaines
structuraux déterminés par la comparaison de deux structures comme présentée dans le
premier article page 135. Un premier résultat sur la myosine est présenté.
Alors que la plupart des études des protéines se focalisent sur les sites fonctionnels en
ignorant le reste de la protéine, nous montrons que les mouvements fonctionnels impliquent
l’ensemble de la structure protéique et qu’il n’y a pas besoin d’avoir des données
cristallographiques de très haute résolution pour obtenir les mouvements globaux les plus
importants.
Important Fluctuation Dynamics ofLarge Protein Structures Are Preservedupon Coarse-Grained Renormalization∗
PEMRA DORUKER,1,2 ROBERT L. JERNIGAN,2 ISABELLE NAVIZET,2,3
RIGOBERTO HERNANDEZ4
1Chemical Engineering Department and Polymer Research Center, Bogazici University,Bebek 80815, Istanbul, Turkey2Molecular Structure Section, Laboratory of Experimental and Computational Biology,Center for Cancer Research, National Cancer Institute, National Institutes of Health,Bethesda, Maryland 20892-56773Institut de Biologie Physico-Chimique, 75005 Paris, France4Center for Computational Molecular Science and Technology, School of Chemistryand Biochemistry, Georgia Institute of Technology, Atlanta, Georgia 30332-0400
Received 2 October 2001; revised 14 January 2002; accepted 25 January 2002
DOI 10.1002/qua.955
ABSTRACT: The fluctuations and important motions of three largeproteins—hemaglutinin, xanthine dehydrogenase, and β-galactosidase—have beenconsidered with a range of models having various levels of detail to represent thestructures. Because the slowest modes of motion are the largest contributors to the totalmotions, and because these motions depend mainly on the shapes of the structures ratherthan their details, it is possible to replace the real structures with significantly fewer pointsand still retain the essential features of the structure for these modes of motion. We obtainexcellent results, both for the magnitudes of the individual motions as well as for themolecular changes occurring during these motions. Similar results are obtained withanother completely different approach where the coarse graining is based on invariantregions of structure found by comparing two structures of the same protein, given asan example here for myosin. Results confirm the important coupling of local functionalmotions with the large-scale motions, implying important functional roles for the entireprotein structure. © 2002 Wiley Periodicals, Inc. Int J Quantum Chem 90: 822–837, 2002
Key words: Gaussian network model; anisotropic fluctuations; vibration dynamics;collective motions; hemagglutinin; xanthine dehyrogenase; β-galactosidase; myosin
∗Dedicated to the memory of Per-Olov Löwdin.Correspondence to: R. L. Jernigan; e-mail: jernigan@lmmb.
nci.nih.gov.Contract grant sponsor: National Science Foundation.Contract grant number: NSF 97-03372.
International Journal of Quantum Chemistry, Vol. 90, 822–837 (2002)© 2002 Wiley Periodicals, Inc.
207
FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES
Introduction
R ecently we and others have developed a me-chanics approach for studying the motions of
proteins [1 – 14] to obtain the equilibrium fluctua-tions near an initial structure. The initial structurehas usually been determined by crystallography,but other experimental methods, or even modeledstructures, could be utilized instead. The underlyingassumption in the method is that the starting struc-ture is the minimum energy structure in a local—ifnot global—minimum. All fluctuations about thisform are presumed to be higher in energy, propor-tional to their mean-square displacements, i.e., theenergy form is Gaussian. Within the structure, allclose-lying residues (as defined by a cutoff radius)are restrained by an effective spring with a uni-versal force constant and are said to be in contact.Residues nearest in sequence are not distinguishedbecause they necessarily fall within the cutoff ra-dius. The close-lying residue pairs are utilized toform a contact matrix that makes explicit referenceto these restraining springs. Because of the simpleGaussian form of the energy, the dynamics can beintegrated directly to obtain the mean-square fluctu-ations of positions, as well as the correlations of thedisplacements of residue pairs. The required com-putation is simply the inversion of the contact ma-trix. This method was initially developed to obtainscalar displacements, but it was readily apparentthat the directions of displacement are also impor-tant. Recently a three-dimensional version [11] ofthis approach was developed, and it yields the cor-relations in the directions of the displacements, withthe attendant computational cost from tripling eachdimension of the contact matrix.
When structures are coarse-grained at the levelof one point per residue, excellent agreement of thisapproach with experiments has been demonstratedfor several proteins with respect to the crystallo-graphic temperature factors [3, 4, 6, 8, 10, 13], aswell as with nuclear magnetic resonance (NMR) or-der parameters [5] and hydrogen exchange data [1].The computed results reveal that the most impor-tant motions are those typically involving largedomains such as hinge motions. In addition manyother large-scale motions are typically observed,e.g., rotation, stretching, shear, disintegration, andflap motions. Individual residue displacements are
observed primarily as components of the motionsof these subdomains. Moreover, the relative con-tributions of the modes involving the largest-scalemotions to the observables are significantly largerthan that of those modes at the other end of thespectrum, which involve only extremely local mo-tions.
Interestingly, relatively few short-range contactsgive rise to the large displacements of other residuesby acting as the foci of the motions, such as thehinge foci. These largest-scale motions primarily re-flect the shape of the protein rather than detailsof its internal structure. Some examples we haveobserved are: thin regions of structure that act ashinge sites, large interior cavities that undergo com-pression, and small numbers of contacts at subunitinterfaces that support interfacial motions such aswobble and counterrotation of two subunits. Sincethese small numbers of residues involved in themost important motions do not involve the inter-nal structure of the peptide chain, it suggests thatcoarse graining of the protein structures may readilybe performed. We have recently applied this coarsegraining, by retaining only 1 of every 40 residues, tohaemagglutinin [12], where we have shown that it ispossible to reproduce about 73% of the total proteinmotions. This initial coarse-grained application hasraised many issues regarding this procedure. Whatis the optimal way to perform the coarse graining?In the model, there are only two adjustable parame-ters, a spring constant and a cutoff distance. Howshould these be modified or scaled for the coarse-graining renormalization? It is also important tounderstand how the distance cutoff, determiningthe spring contacts, scales with the coarse graining,as well as how the spring constant itself ought to bescaled. This work represents a first attempt at an-swering these questions.
PROTEINS
We have chosen three large proteins to considerin this study, namely β-galactosidase [15] (GAL),xanthine dehyrogenase [16] (XDH), and hemag-glutinin [17, 18] (HA), with corresponding pdbfile names 1DPO, 1FO4, and 2HMG. The numberof residues and number of atoms in the crystalstructures in each monomer are, respectively, 1011,8125; 1299, 10077; and 503, 3957. See Figure 1 forviews of these structures. The structural and func-tional details of these proteins are summarized be-low, although in this study we will not discuss
INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY 823
208
DORUKER ET AL.
FIGURE 1. Ribbon diagrams of β-galactosidase (right), xanthine dehydrogenase (middle), and influenzavirus hemagglutinin (left).
the structure–function relationships of these pro-teins.
The X-ray structure of Escherichia coli β-galac-tosidase determined by Juers and co-workers [15]at 1.7 Å resolution is shown in the left part ofFigure 1. This enzyme hydrolyzes lactose and otherβ-galactosides into monosaccharides. The func-tional form is a tetramer having 4 identical subunits,with each monomer comprising 1023 residues. Thesubunits are assembled into a prolate ellipsoidalstructure with approximate dimensions of 175 Å ×135 Å × 90 Å.
The crystal structure of the dimeric bovine milkxanthine dehyrogenase, displayed in the middlepart of Figure 1, has been determined to 2.1 Å res-olution [16]. The enzyme catalyzes the hydroxyladdition of hypoxanthine and xanthine, whichare the two last steps in the formation of urate.Each monomer has 1332 residues conformed intoa butterfly-shaped dimeric enzyme with overall di-mensions of approximately 155 Å × 90 Å × 70 Å.
The influenza virus hemagglutinin is an inte-gral membrane glycoprotein, which is involved inthe binding of virus to target cells and in the fu-sion of viral and endosomal membranes at low pH.
The X-ray structure of the neutral pH form of HAhas been determined [17] and refined [18] by Wi-ley and co-workers to a resolution of 3 Å and isshown in the right part of Figure 1. HA, comprising1509 residues, is a cylindrically shaped homo-trimerabout 135 Å long, varying between 35 and 70 Åin the radial directions. Each monomer consists of2 polypeptides chains: HA1 (328 residues) and HA2(175 residues) that are linked by 2 disulfide bonds.The 3 monomers are assembled into a central coiledcoil that forms the stemlike domain, and the 3 glob-ular heads containing the receptor binding sites.Each globular head folds into a jelly-roll motif of8 antiparallel β-strands.
Methods
The coarse graining of structure involves replac-ing groups of individual points with single points toyield a less detailed structure. This operation resem-bles the development of an equivalent chain modelfor polymers, where multiple repeat units of a poly-mer are coarse-grained into a single unit so as toimitate the behavior of one link of a model chain.
824 VOL. 90, NO. 2
209
FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES
For example, several real bonds of polyethylene,because of their additive flexibility, are equivalentto the enhanced flexibility of a single link in thefreely jointed chain model [19]. Such equivalent rep-resentations have often been utilized in polymerstudies [19]. Applying this concept to the singlefixed configurations of segments of a protein is notquite the same physical situation as in a polymericrandom coil, since the conformations of the individ-ual segments vary from one to another and cannotuniformly benefit from averaging over conforma-tions, as is the case with polymer models. This iswhy it is important to see how variable these seg-ments’ conformations actually are. In what follows,we first outline the anisotropic network model de-veloped earlier to capture the essential dynamicsabout the initial (equilibrium) structure and subse-quently analyze the degree to which it is invariantto various coarse-graining strategies.
ANISOTROPIC NETWORK MODEL (ANM)
This is a model for protein motions developed asa three-dimensional extension of the Gaussian net-work model (GNM). It incorporates the anisotropyof fluctuations and yields the directions of eachmode of motion; whereas the GNM assumes all fluc-tuations to be isotropic and gives only the magni-tudes of the modes of motion. The potential energyof a structure having N interaction sites is expressedwith ANM as a Gaussian form:
V = γ
2RTH R, (1)
where R is a 3N-dimensional vector of the fluc-tuations Ri in the position vectors Ri of all sites(1 ≤ i ≤ N), RT being its transpose, and H theHessian matrix composed based upon the secondderivatives of the potential:
V = γ
2
∑i
∑j
h(rc − Rij)(Rj − Ri)2. (2)
The summations will be performed over all in-teraction sites, h(x) is the Heaviside step function[h(x) = 1 if x ≥ 0, and zero otherwise], Rij is thedistance between sites i and j, and rc is the cutoffdistance defining the interactions; H is expressed asa function of N2 submatrices Hij in the form
Hij =
∂2V/∂Xi∂Xj ∂2V/∂Xi∂Yj ∂2V/∂Xi∂Zj
∂2V/∂Yi∂Xj ∂2V/∂Yi∂Yj ∂2V/∂Yi∂Zj
∂2V/∂Zi∂Xj ∂2V/∂Zi∂Yj ∂2V/∂Zi∂Zj
,
(3)
with Xi, Yi, and Zi being the components of Ri.Note that ∂2V/∂Xi∂Yj = −∂2V/∂Xj∂Yi = −γ (Xj −Xi)(Yj − Yi)/R2
ij for i = j, and ∂2V/∂Xi∂Yi =γ
∑j(Xj − Xi)(Yj − Yi)/R2
ij.In general the correlations between the fluctua-
tions at sites i and j are given by
〈Ri · Rj〉= 1
Z
∫(Ri · Rj) exp−V/kT dR
= 3kBTγ
tr[H−1]
ij , (4)
where k is the Boltzmann constant, Z is the con-figurational partition function, and tr [H−1]ij is thetrace of the ijth submatrix [H−1]ij of H−1; 〈Ri ·Rj〉can be expressed as a sum over the contributions[Ri ·Rj]k of the 3N − 6 individual internal fluctu-ation modes, as 〈Ri · Rj〉 = ∑
k[Ri · Rj]k. Thecontribution of the kth mode is explicitly given by
[Ri ·Rj]k = 3kTγ
tr[λ−1
k ukuTk
]ij, (5)
where λk is the kth nonzero eigenvalue of H and uk isthe corresponding eigenvector. The eigenvalues arerelated to the frequencies of individual modes, andthe eigenvectors describe its effect on the positionsof the N points of the structure. The eigenvaluesare usually organized in ascending order (after re-moving the six zero eigenvalues), so that λ1 denotesthe lowest frequency, also called the global, modeof motion, and [Ri · Rj]1 is the correlation forthis mode of motion separately. Actually here weuse only the individual residue mean-square (ms)fluctuations for the position at site i for mode k,[(Ri)2]k. Note that zero values can arise eitherfrom being uncorrelated or being perpendicular.The slowest modes usually dominate the collectivedynamics of the structure and would be the onlysurviving modes at long times, thus they are partic-ularly relevant to biological function, unless othereffects such as anharmonicity interfere.
COARSE GRAINING OF THE ANM
Here we take N to be the number of residues inthe total structure (protein), s the number of coarse-grained segments, and n the number of residues inone coarse-grained segment, so that
N = sn. (6)
The cutoff distance rc defining interactions (springs)needs to be sufficiently large to include the s
INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY 825
210
DORUKER ET AL.
FIGURE 2. (a) Radius of gyration of chain segments inthe folded proteins GAL, XDH, and HA. (b) comparisonof the radius of gyration of chain segments in randomcoil polypeptides and folded proteins, where valuesgiven on the lower curve are average values for the threeproteins, with the bars showing the standard deviations.
residues in each of the n segments. For this purposewe compute RG the radius of gyration for each ofthe segments in the three proteins. See Figure 2(a)for segments up to 140 residues in length. Becauseof the finite size of the proteins, the values con-
verge to a clear limit. This behavior is reminiscentof the behavior of flexible polymer chains of dif-ferent lengths. Despite the heterogeneity in eachof the segments (or links), the three proteins be-have similarly up to the coarse-graining level of40 residues.
RADIUS OF GYRATION OFFOLDED CHAIN SEGMENTS
A point of comparison for the RG values of theprotein segment size is found in the RG values of therandom coil model for homopolymers consistingof N peptide units [20, 21]. The average dimension,expressed as the characteristic ratio, from an av-erage of several experiments, for several differentpolypeptides having β carbons, is
⟨r2⟩/NL2 = 9, (7)
where r is the end-to-end distance, and L is the vir-tual bond length. For a long Gaussian chain, theradius of gyration is related to the mean square ofthe end-to-end distance by
⟨R2
G
⟩ = 16
⟨r2⟩. (8)
Thus
RG/√
NL2 = 1.225, (9)
where, as before, N is the number of residues and Lis the virtual bond length.
In Figure 2(b), the random coil limit for RG ap-pears as the smooth upper curve. As might be ex-pected, all of the protein segments are more compactthan the random coil peptide. The bars show therange of individual values for segments of differentsizes, all of which are significantly more compactthan the random polypeptide case.
It would be interesting to learn the origin of thevariations in the RG values for a fixed size segment.Are the locally compact segments determined bytheir own sequences or by more global considera-tions? Do the segments with the lowest RG valuesinclude glycines, which could facilitate turns, or dothey have more hydrophobic residues on average,which could contribute to collapsed forms? Or arethere other composition effects?
In order to further coarse-grain folded proteins,it is helpful to know how the overall dimensionsof the chain segments in folded proteins change asa function of segment length. This will indicate howthe cutoff radius in the ANM calculations should be
826 VOL. 90, NO. 2
211
FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES
adjusted for further coarse graining along the back-bone of the protein.
For the three proteins that are considered in thisstudy, we calculate the mean-square radius of gy-ration, 〈R2
G〉, for segments of various lengths. Thiscalculation is carried out separately for the 6, 2,and 4 chains that make up HA, XDH, and GAL,respectively. And the average is calculated by mov-ing the starting point of each segment along thechain backbone one by one toward the end of thechain. Therefore, for a single chain composed of Nc
residues, the radius of gyration is averaged over(Nc − n + 1) frames for a segment of length n.
In Figure 2(a), the radius of gyration, RG, is plot-ted as a function of segment length for the threeproteins. The behavior is similar up to n = 40,presumably reflecting the average behavior of pep-tides. For n > 40, differences begin to be manifestedwhich occur because of the differences in the overallsizes and shapes of proteins.
For n < 40, the data can be fit with the form
RG = anb. (10)
These parameter values are found to be a = 1.778and b = 0.595 from a fit to the average over the threelog–log plots of RG vs. n for HA, XDH, and GAL.The n = 1 limit of Eq. (10) corresponds to a sin-gle monomer whose radius of gyration must be a,suggesting that the average bond length is approx-imately equal to 2a (= 3.556 Å), which is in closeconsistency with the virtual bond length betweensequential α-carbon atoms of 3.8 Å.
In Figure 2(b), the lower curve gives the radius ofgyration averaged over all segments of a given sizein the three folded proteins (HA, XDH, and GAL),and the error bars are shown for some representa-tive values of n. Here, the standard deviation fora specific value of n has been calculated over theframes of all possible segments in the three pro-teins. The dashed curve in the same figure givesthe RG of unfolded segments of length n, as pre-dicted by the model for polyalanine developed byFlory [21].
In earlier work, a cutoff radius of 13 Å wasfound to be suitable for ANM calculations, in whichall α-carbon atoms in the protein structure wereretained [11]. In the current study, as we furthercoarse-grain the structures, we recognize that therenormalized sites are interacting at longer rangesbecause their effective sizes have grown. The cutoff
TABLE IDetails of coarse graining.
s, Number of segmentsSegment Cutoff radiusa
length n rc (Å) GAL XDH HA
1 13.0 4044 2587 15092 18.4 2024 1294 7565 22.3 812 518 303
10 27.0 408 260 15320 34.1 204 130 7830 39.9 136 88 5140 44.9 104 66 4280 61.2 52 34 24
a Cutoff radius is calculated according to rc = 2RG + 13 Å,where RG is found from Eq. (10).
radius should thus equal the sum of the renormal-ized radii of each site plus the invariant contactdistance R0 between the sites, i.e.,
rc = 2RG + R0, (11)
where RG is obtained according to Eq. (10) withthe parameters found above. To be consistent withour earlier work, R0 should be set to a valueof (13 Å − 2a), but for simplicity, in what followswe have used the value of 13 Å instead. Thischoice leads to little change in the results since theyare only modestly dependent on R0, while beingstrongly dependent on the growth of RG with N. Re-sults for the three illustrative proteins of this studyare shown in Table I.
Results and Discussion
X-RAY CRYSTALLOGRAPHICTEMPERATURE FACTORS
The relationship between an individual residue’sfluctuations and its temperature factor is
Bi = (8π2/3
)⟨R2
i
⟩. (12)
In Figure 3, these experimental temperature factorsmeasured by X-ray crystallography (solid curves)are compared to those predicted by the ANM(dashed curves). For each of the three proteins,each monomer exhibits practically the same behav-ior both in experiment and calculation. Therefore,the fluctuations of residues are presented as av-erages over all monomers. The overall agreementis excellent as has often been observed with thismodel.
INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY 827
212
DORUKER ET AL.
FIGURE 3. Comparison of temperature factors from X-ray crystallography and those calculated with ANM calculationsfor (a) β-galactosidase, (b) xanthine dehydrogenase, and (c) hemagglutinin.
828 VOL. 90, NO. 2
213
FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES
TABLE IIForce constants γ for coarse-grainedANM calculations.
n GAL XDH HA
1 — 0.688 0.8902 0.874 0.496 0.6445 1.442 0.758 1.176
10 1.768 0.953 1.64120 2.009 1.048 1.87630 2.571 1.390 1.90940 2.333 0.901 1.65480 1.971 1.139 1.457
Once the cutoff radius for the interactions isfixed, the force constant γ is the only remainingparameter in the calculations. In turn its value isfixed by requiring a match between the average val-ues of the mean-square fluctuations predicted byANM and the experimental B factors. In Figure 3,such adjustments were made in order to comparethe experimental and theoretical results. The exper-imental B factor, Bn of a coarse-grained segmentcomposed of n residues is calculated as the averageof the B factors of its n constituent residues. Andthe force constant is extracted by a comparison ofthe coarse-grained B factors with the mean-squarefluctuations calculated with ANM. Table II givesthe force constant values. As our previous experi-ence with a large number of proteins has indicated,γ varies among proteins by no more than a factorof 2. However, as the coarse graining is applied,the force constants become stronger monotonically,upon passing from the scaling at n = 2 to n = 30.
Parenthetically, it should be noted that in thecase of β-galactosidase [Fig. 3(a)], only an N/2 cal-culation was carried out instead of an all-residuecalculation because of the large size of this pro-tein (4044 residues in total). Although an n = 1calculation is feasible, this has not been executedhere. And the experimental B factors, for com-parison, were averaged over neighboring pairs ofresidues.
COMPARISON OF ANM RESULTS AT DIFFERENTLEVELS OF COARSE GRAINING
B Factors
Figure 4(a) compares the temperature factorsfrom coarse-grained calculations N/2 and N/10
for GAL. Higher levels of coarse graining lead tosmoother curves, but the basic structure of the peaksis readily apparent at the level of N/10 calculations.Figure 4(b) shows the calculated B factors at thesame N/10 level for xanthine dehydrogenase. Fromthese results it is clear that the essential structure offluctuations is retained after the coarse graining.
First Mode
The slowest mode shapes obtained with N/2and N/10 calculations are displayed in Figure 5(a)for GAL. There is a remarkable match between thecurves, which have been normalized to match thescales. Figure 5(b) shows a comparison of the Nand N/10 calculations for hemagglutinin. Clearly,the general features of the first mode shape areobtained. As a result of these comparisons, it is evi-dent that the functionally important collective modeshapes can still be reproduced quite well at higherlevels of coarse-graining.
Eigenvalues
Figure 6 compares the weighted contributionof each mode to the mean-square fluctuations atthe different levels of coarse graining employedfor GAL, XDH, and HA. The modes are sortedand indexed starting from the slowest mode havingthe largest contribution and running up to higherfrequencies. In order to capture the same collec-tive modes at higher levels of coarse graining, thefractional contributions at the low-frequency endof the spectrum need to be similar. And thisis ex-actly what we observe in these logarithmic plots.In Table III, the cumulative contributions of thefirst three modes are listed. As the level of coarsegraining increases, the cumulative contribution ofslowest modes increases because there are fewermodes at the high-frequency end of the distribu-tion. Yet the fractional contributions of the collectivemodes appear to be comparable after renormaliza-tion.
Mechanisms of Motion
In Figure 7the two extreme positions for thefirst two slowest modes of β-galactosidase areshown at two different levels of coarse grain-ing, N/2 and N/10. It is amply clear from thesefigures that the same motions occur, despite thecoarse graining. The first mode is for bendingat the “waist” of the protein, and the second isa stretching–compression type of motion that we
INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY 829
214
DORUKER ET AL.
FIGURE 4. Comparison of temperature factors predicted by ANM at different levels of coarse graining for(a) β-galactosidase and (b) xanthine dehydrogenase.
have often observed in asymmetric elongated pro-tein structures.
The correlations computed between the motionswith the coarser-grained models and with the singleresidue–single point results are high. For hemagglu-tinin (see Table IV) it can be seen that, whereas thetotal motions are not so well represented (at the 49%level for the 1 out of every 40 models), the represen-tations of the first, slowest mode remain above 90%for even the 1 out of every 40-residue model. Thus
the coarse-grained results are most viable for mo-tions having the largest displacements.
Structure-Based Coarse Graining
Finally we consider a completely structure-basedapproach, which requires multiple structures tospecify which parts of the structure are to be coarse-grained. The parts of the two structures having thesmallest differences are identified directly to deter-
830 VOL. 90, NO. 2
215
FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES
FIGURE 5. Slowest mode shapes predicted by ANM at different levels of coarse graining for (a) β-galactosidaseand (b) hemagglutinin.
mine the blocks to be coarse-grained. Then, withinthese most constant blocks, the spring constants areincreased to prevent intrablock motions. Anotherway of implementing this approach would be totreat these fixed blocks as “fat” rigid elements in-cluding many more than usual contacts with theother individual residues. This approach is appliedhere for demonstration purposes to two structuresof myosin (pdb names 1B7T [22] and 1DFL [23]).
The blocks defined by this approach are shownin Figure 8 within which the changes in distanceshave been limited to a maximum of 0.1 Å. The in-variant regions are identified in different colors inFigure 8, with the few remaining residues not in-cluded within the rigid blocks are shown in gray.Importantly this approach yields nearly identicalcomputed temperature factors, to those computedwith the individual one point per residue model (see
INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY 831
216
DORUKER ET AL.
FIG
UR
E6.
Con
trib
utio
nsof
the
mod
esat
diffe
rent
leve
lsof
coar
segr
aini
ngfo
r(a
)β-g
alac
tosi
dase
,(b)
xant
hine
dehy
drog
enas
e,an
d(c
)he
mag
glut
inin
.A
llpl
ots
log–
log
plot
sto
emph
asiz
eth
aton
lyth
elo
wes
tind
exed
mod
esar
esi
gnifi
cant
cont
ribut
ors
toth
eov
eral
lmot
ions
.Als
ono
tabl
eis
the
exte
ntag
reem
enti
nth
edo
min
antm
ode
cont
ribut
ions
betw
een
the
mod
els,
rega
rdle
ssof
the
leve
lofc
oars
egr
aini
ng.
832 VOL. 90, NO. 2
217
FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES
TABLE IIITotal fractional contribution of the slowest threemodes to the mean-square fluctuations.
n GAL XDH HA
1 0.112 0.1452 0.084 0.123 0.1425 0.113 0.137 0.209
10 0.138 0.169 0.26220 0.146 0.206 0.27940 0.279 0.191 0.313
Fig. 9). Consequently, this model represents an alter-native coarse-grained model that has its basis in twodifferent structures. It is noteworthy that the mostrigid regions of the structure are clearly clusteredwithin these local domains.
Discussion
One of the most important findings from thesetypes of computations is the occurrence of func-tional “local motions” not independently but withinone of the slowest most important motions. Ex-amples that we have previously observed includeflaps opening and closing over small molecule bind-
(a)
FIGURE 7. First (a), (b) and second (c), (d) modes of motion for β-galactosidase at N/2 (a), (c) and N/10 (b),(d) levels of coarse graining. Note that in parts (a) and (c) only half of the α-carbon positions are shown (and used)and in parts (b) and (d) only 1 out of every 10 residue is shown (and used in the computations). The first mode isa bending of the molecule along its activating interface, and the second mode is a stretching–compression type ofmotion. Loops often are opened and closed during these large-scale motions. This can be seen most clearly at thetop and bottom of the structure in the stretching–compression mode of motion.
INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY 833
218
DORUKER ET AL.
FIGURE 7. (Continued.)
834 VOL. 90, NO. 2
219
FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES
(d)
FIGURE 7. (Continued.)
ing sites. These motions do not occur locally andindependently but rather together with a highly co-ordinated motion of the entire protein. This typeof motion can be clearly seen in Figure 7(b) wherethe flaps at the top and bottom of the structureopen upon compression and close upon stretching,whereas opposite behavior can be observed for sur-face flaps in the center of the structure.
TABLE IVCorrelations at different levels of coarse graining.
All Firstmodes (HA) mode (HA)
N/2 0.93 1.00N/10 0.73 0.99N/20 0.53 0.96N/40 0.49 0.91
Two alternative approaches for coarse graininghave been presented, one based on scaling the sizeof the cutoff distance based on the average di-mensions of protein segments and the other moreempirically based on actual changes between twoexperimental structures.
In many protein studies there has been a focuson functional sites while the remainder of the pro-tein structure has been substantially ignored. Thepresent work emphasizes that there is a truly impor-tant role for the entire protein in controlling thesecritical functional motions. In our view, the raisond’être for protein structure is that a fold pattern leadsto its shape, which in turn controls the importantfunctional motions of the protein. It is furthermoreimportant that it be possible to substantially ig-nore the details of the structure in extracting theselargest-scale motions. A secondary implication isthat high-resolution structures may not be requiredin order to infer the important motions of proteins.
INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY 835
220
DORUKER ET AL.
FIGURE 8. Ribbon diagram of the myosin headstructure [22] 1B7T. Residues in the same block areshown in the same color. The few residues in grayare those not included in any blocks.
ACKNOWLEDGMENTS
R.H. is supported through the National Sci-ence Foundation (Grant No. NSF 97-03372) andis presently an Alfred P. Sloan Fellow and Re-search Corporation Cottrell Scholar. P.D. is partiallysupported by the Bogazici Research Fund (project01HA501), and she thanks O.T. Turget for helpfuloccasions.
References
1. Bahar, I.; Wallqvist, A.; Covell, D. G.; Jernigan, R. L. Bio-chemistry 1998, 37, 1067–1075.
2. Demirel, M. C.; Atilgan, A. R.; Jernigan, R. L.; Erman, B.;Bahar, I. Protein Sci 1998, 7, 2522–2532.
3. Bahar, I.; Jernigan, R. L. J Mol Biol 1998, 281, 871–884; Ba-har, I.; Atilgan, A. R.; Erman, B. Folding Des 1997, 2, 173–181.
4. Bahar, I.; Erman, B.; Jernigan, R. L.; Covell, D. G. J Mol Biol1999, 285, 1023–1037.
5. Haliloglu, T.; Bahar, I. Proteins 1999, 37, 654–667.6. Bahar, I.; Jernigan, R. L. Biochemistry 1999, 38, 3478–3490.7. Jernigan, R. L.; Demirel, M. C.; Bahar, I. Int J Quantum Chem
(B. Pullman Memorial Volume) 1999, 75, 301–312.8. Keskin, O.; Jernigan, R. L.; Bahar, I. Biophys J 2000, 78, 2093–
2106.9. Jernigan, R. L.; Bahar, I.; Covell, D. G.; Atilgan, A. R.; Er-
man, B.; Flatow, D. T. J Biomol Struct Dyn, Conversation 11,Issue 1, 2000, 49–55.
10. Keskin, O.; Bahar, I.; Jernigan, R. L. Biochemistry, to appear.11. Atilgan, A. R.; Durell, S. R.; Jernigan, R. L.; Demirel, M. C.;
Keskin, O.; Bahar, I. Biophys J 2001, 80, 505–515.12. Doruker, P.; Jernigan, R. L.; Bahar, I. J Comput Chem 2002,
23, 119–127.
FIGURE 9. Comparison of temperature factors of myosin predicted from calculations taking into accountthe blocks (solid) and the full non-coarse-grained single-residue calculations (dashed).
836 VOL. 90, NO. 2
221
FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES
13. Doruker, P.; Atilgan, A. R.; Bahar, I. Proteins 2000, 40, 512–524.
14. Tama, F.; Gadea, F. X.; Marques, O.; Sanejouand, Y.-H. Pro-teins 2000, 41, 1–7.
15. Juers, D. H.; Jacobson, R. J.; Wigley, D.; Zhang, D.-J.; Huber,R. E.; Tronrud, D. E.; Matthews, B. W. Protein Sci 2000, 9,1685–1699.
16. Enroth, C.; Eger, B. T.; Okamoto, K.; Nishino, T.; Nishino, T.;Pai, E. F. Proc Natl Acad Sci USA 2000, 97, 10723–10728.
17. Wilson, I. A.; Skehel, J. J.; Wiley, D. C. Nature 1981, 289, 366–373.
18. Weis, W. I.; Brünger, A. T.; Skehel, J. J.; Wiley, D. C. J Mol Biol1990, 212, 737–761.
19. Flory, P. J. Statistical Mechanics of Chain Molecules; Inter-science: New York, 1969; Vol. 12, pp. 326–328.
20. Brant, D. A.; Flory, P. J. J Am Chem Soc 1964, 87, 2788–2800.21. Flory, P. J. Statistical Mechanics of Chain Molecules; Inter-
science: New York, 1969; p. 277.22. Houdusse, A.; Kalabokis, V. N.; Himmel, D.; Szent-Gyorgyi,
A. G.; Cohen, C. Cell 1999, 97, 459–470.23. Houdusse, A.; Szent-Gyorgyi, A. G.; Cohen, C. Proc Natl
Acad Sci USA 2000, 97, 11238–11243.
INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY 837
222