MÉTAGÉNOMIQUE DES TAPIS MICROBIENS …...premier temps, de dresser une description générale de...
Transcript of MÉTAGÉNOMIQUE DES TAPIS MICROBIENS …...premier temps, de dresser une description générale de...
-
THIBAUT VARIN
MÉTAGÉNOMIQUE DES TAPIS MICROBIENS
POLAIRES
Thèse présentée
à la Faculté des études supérieures et postdoctorales de l’Université Laval
dans le cadre du programme de doctorat en physiologie-endocrinologie
pour l’obtention du grade de Philosophiæ doctor (Ph.D.)
DÉPARTEMENT DE MÉDECINE MOLÉCULAIRE
FACULTÉ DE MÉDECINE
UNIVERSITÉ LAVAL
QUÉBEC
2013
© Thibaut Varin, 2013
-
i
Résumé
Le domaine de l'écologie microbienne est en pleine effervescence grâce à l'avènement de la
métagénomique et des techniques de séquençage de nouvelle génération (SNG), qui nous
apportent une meilleure compréhension de la structure et du fonctionnement des
communautés microbiennes de la biosphère. Cette thèse illustre ainsi une manière de tirer
profit de l'utilisation de ces nouvelles technologies, dans le but d'étudier un écosystème qui
a été très peu caractérisé jusqu'à maintenant, en l'occurrence les tapis microbiens polaires.
Les analyses métagénomiques de différents tapis microbiens polaires ont permis dans un
premier temps, de dresser une description générale de la taxonomie et du potentiel
fonctionnel des communautés microbiennes en question, pour ensuite nous permettre
d'examiner de façon plus exhaustive deux de leurs particularités métaboliques.
L'existence éventuelle d'un système de recyclage des nutriments au sein même des tapis
microbiens étudiés a été soulevée étant donné le caractère oligotrophique de leur milieu
environnant. L'analyse des profils métagénomiques des tapis microbiens de l'Arctique a
permis de mettre en évidence plusieurs groupes de gènes impliqués dans des mécanismes
de décomposition et de récupération qui donneraient la possibilité à ces communautés de
retenir et de recycler leurs nutriments au sein de leur microenvironnement benthique.
Un autre aspect des tapis microbiens polaires sur lequel je me suis penché lors de ce
doctorat, concerne la propension des membres peuplant ce type d'écosystème à s'acclimater
à un large panel de stress découlant de la nature extrême de leur habitat. La présence de
divers procédés métaboliques d'adaptation au froid et à d'autres stress a été observée à partir
de l'analyse du métagénome des ces communautés arctiques et antarctiques, en
concordance avec les différents niveaux de représentation des principaux groupes
bactériens.
Cette thèse démontre à quel point le recours aux disciplines « méta-omiques », peut nous
amener vers une meilleure compréhension de l'écologie microbienne, et comment
l'émergence de ces technologies a permis d'aborder différemment des thèmes aussi
fondamentaux que celui de la biogéographie des microorganismes.
-
ii
Abstract
Over the last few years, metagenomics and next generation sequencing (NGS) have been
revolutionizing the field of microbial ecology leading to a greater understanding of the
structure and functions of the microbial communities in the biosphere. The work
presented here applies these new technologies to study polar microbial mats, which are
poorly-characterized ecosystems.
Metagenomic analyses of distinct polar microbial mats provided an opportunity to, firstly
obtain a general description of microbial community composition and metabolic activity,
and subsequently, to more thoroughly study two specific metabolic processes.
We hypothesized that microbial mats are nutrient-replete despite the oligotrophic
conditions of the surrounding waters due to strong nutrient recycling within the polar
microbial mats. Analyses of metagenomic profiles derived from arctic microbial mats
revealed that several groups of genes involved in scavenging mechanisms provide these
communities with the capacity to retain and recycle nutrients within the shallow
benthic microenvironment.
Another aspect of polar microbial mats which was examined during this PhD, addresses the
ability of organisms in the mat to thrive despite varied environmental stresses. The presence
of different metabolic processes involved in cold adaptation and other stresses was detected
from metagenomic analyses of Arctic and Antarctic communities that were
consistently proportional to their representation within major bacterial groups.
This thesis demonstrates how metagenomics and associated « meta-omics » approaches can
be informative to improve global comprehension of microbial ecology, and how the
emergence of these disciplines enables us to tackle fundamental questions such as
biogeography of microorganisms with a new vision.
-
iii
Avant-propos
En ce qui concerne les contributions apportées lors de ce doctorat, je précise que je suis le
premier auteur des deux publications qui sont présentées au chapitre 4 de cette thèse. Plus
précisément, je suis responsable de la production intégrale des données et de l'exécution de
l'ensemble des analyses bio-informatiques et statistiques nécessaires à la création de la
matière sur laquelle repose ces articles. Il faut mentionner cependant, que le travail de
laboratoire, qui consistait à réaliser des extractions d'ADN à partir d'échantillons de tapis
microbiens polaires, a été exécuté par Anne D. Jungblut. J'ai rédigé la première version de
mes deux articles (inclus dans cette thèse), puis retravaillé ensuite leur rédaction sous la
supervision de mes coauteurs, à savoir : Connie Lovejoy, Anne D. Jungblut, Warwick F.
Vincent, et Jacques Corbeil.
Dans un autre registre, je tiens à remercier Jacques Corbeil pour m'avoir tenté et permis de
me lancer dans cette aventure qu'est le doctorat. Je salue également l'ouverture d'esprit, le
caractère visionnaire, et la pluridisciplinarité de mon directeur de recherche, qui ont
définitivement influencé le déroulement de mes études de troisième cycle d'une manière
très positive. Un grand merci, également, à ma codirectrice Connie Lovejoy pour sa
gentillesse et sa constante bonne humeur, mais surtout pour ses précieux conseils et son
aide dans divers aspects techniques rencontrés durant ce doctorat, que ce soit dans les
travaux de laboratoire ou dans la phase de rédaction des mes articles. Ainsi, grâce aux
efforts conjugués de mon directeur et ma codirectrice, ce doctorat m'a permis de découvrir
le monde de la microbiologie polaire, un domaine passionnant avec lequel je n'étais point
familier, et qui m'a sans aucun doute permis d'élargir ma vision du monde microbien.
Je tiens à remercier tout particulièrement mes coauteurs Anne D. Jungblut et Warwick F.
Vincent, qui m'ont apporté, en plus de leur grande amabilité, une aide indispensable dans
l'orientation de mes recherches et lors de la rédaction des articles présentés dans cette thèse.
Merci à René Paradis, le pilier du service de bioinformatique au CHUL qui m'a sorti
d'innombrable fois du cauchemar que peut représenter un « bug » informatique. Mais au
delà du professionnel, je remercie par dessus tout le grand ami, qui est le premier québécois
-
iv
que j'ai connu en arrivant à Québec, et qui n'a pas hésité à me traiter comme un ami
d'enfance. Merci Ron pour ta bonté et ta gaieté si contagieuse ! Merci à Fréderic Raymond,
mon voisin de bureau durant toutes ces années passées au CHUL, qui demeure ma personne
ressource de référence en génomique, et avec qui je me souviendrai avoir passé de bons
moments sur fond de musiques tonitruantes pour reprendre son expression, à l'Impérial, au
Velvet, ou encore sur les plaines ! Merci à Sébastien Boisvert pour ses précieux conseils en
bio-informatique, ainsi qu'à Robin Allary pour « la » partie de tennis sur l'heure du midi
entre deux PCR ! Merci à Pascal Belleau pour son amabilité et ses stimulants sujets de
conversations. Je remercie aussi le reste de « l'ancienne » bande du Complan,
malheureusement dissoute aujourd'hui; par ordre alphabétique, je pense notamment à Astrid
Deschênes, Jean-Philippe Dionne, Arnaud Droit (qui ironie du sort, est un des évaluateurs
de cette thèse aujourd'hui), Joël Fillon, Patrick Lacasse, David Paladini, Philippe Rigault,
Sayo Yuen.
Merci aux autres membres de l'équipe de Jacques Corbeil, à savoir Lynda Robitaille,
Jessyka Fortin, et Nancy Boucher, pour leur aide dans le laboratoire. Je remercie tout
particulièrement Mélissa Sirois qui était toujours aussi jovial et serviable même quand je la
dérangeais au laboratoire; je suis également reconnaissant envers son conjoint, Yan
Sergerie, pour son aide dans la délicate situation de l'après-doctorat.
Du côté du pavillon Vachon ou Marchand, je remercie Estelle Pedneault et Marianne
Potvin pour leur disponibilité et leur aide dans les différentes tâches de laboratoire que j'ai
eu à exécuter au début de mon doctorat. Merci également à Pierre Galand pour ses conseils
avisés dans le domaine de la microbiologie polaire.
Bien évidemment, je remercie de tout cœur ma famille et mes proches, en particulier mes
parents et ma sœur qui m'ont toujours aimé, soutenu quoi qu'il arrive, et sans qui je n'aurais
pu accomplir toutes les choses que j'ai voulu faire jusqu'à maintenant. Je dédie tout
naturellement cette thèse à ma mère qui m'a tant encouragé à faire un doctorat... J'adresse
également ma plus sincère reconnaissance à ma « blonde », Kim, qui m'a apporté beaucoup
de soutien d'une manière générale tout au long de ce périple, et qui s'est toujours montrée
très attentionnée envers moi. Kim a aussi contribué concrètement à cette thèse en m'aidant
dans les fastidieuses tâches de relecture et de formatage des références.
-
v
Et enfin, après les remerciements adressés aux personnes physiques, je rends hommage à
quelque chose de plus abstrait et d'immatériel, en l'occurrence l'escalade ! En effet, ce
magnifique sport qui m'a accompagné tout au long de mon doctorat aura été une bouée de
sauvetage dans les moments plus difficiles, tant il contribue à l'intégrité de ma santé
physique et mentale. De plus, c'est une passion dans laquelle je retrouve beaucoup des
valeurs qui me sont chères. J'en profite par la même occasion, pour rendre un dernier
hommage à une personne qui m'a beaucoup inspiré en tant que grimpeur mais aussi en tant
que personne : Patrick Edlinger, une figure emblématique de l'escalade qui nous a
malheureusement quitté alors que je finissais la rédaction de cet avant-propos.
-
vii
À ma chère famille
-
ix
Table des matières
Résumé ..................................................................................................................................... i Avant-propos ........................................................................................................................ iii Table des matières ................................................................................................................. ix Liste des tableaux ................................................................................................................ xiii
Liste des figures .................................................................................................................... xv 1. Introduction ......................................................................................................................... 1
1.1. Objectifs ....................................................................................................................... 3 2. La métagénomique .............................................................................................................. 5
2.1. Introduction .................................................................................................................. 5 2.1.1. Définition .............................................................................................................. 5 2.1.2. Contexte et origine ................................................................................................ 5 2.1.3. Méthodes et applications ...................................................................................... 8
2.1.4. Défis .................................................................................................................... 13
2.1.4.1. L'environnement analysé ............................................................................. 14 2.1.4.2. L'étape d'isolation et d'extraction des acides nucléiques ............................. 15 2.1.4.3. L'étape de clonage ........................................................................................ 16
2.1.4.4. Le séquençage .............................................................................................. 16 2.2. Séquençage à haut débit ............................................................................................. 17
2.2.1. Historique............................................................................................................ 17 2.2.2. Le séquençage en aveugle................................................................................... 18
2.2.3. Les méthodes à haut débit ................................................................................... 19 2.2.3.1. Le pyroséquençage 454 ............................................................................... 20
2.2.3.2. Le séquençage Illumina ............................................................................... 23 2.2.3.3. Le séquençage ABI SOLiD ......................................................................... 25 2.2.3.4. Le séquençage par semi-conducteur ............................................................ 27
2.2.3.5. Le séquençage par Polonator ....................................................................... 28 2.2.3.6. Le séquençage HeliScope ............................................................................ 28
2.2.3.7. Le séquençage SMRT (Single Molecule Real Time) .................................. 29 2.2.3.8. Le séquençage par Nanopore ....................................................................... 30
2.3. Métagénomique et bio-informatique ......................................................................... 32
2.3.1. L'assemblage de génomes ................................................................................... 32
2.3.1.1. Les assembleurs « voraces » ........................................................................ 34 2.3.1.2. Les assembleurs OLC .................................................................................. 35 2.3.1.3. Les assembleurs DBG .................................................................................. 37 2.3.1.4. L'assemblage de données métagénomiques ................................................. 39
2.3.2. Analyse de biodiversité ....................................................................................... 41 2.3.3. L'annotation de métagénomes ............................................................................. 43
2.3.3.1. Les défis ....................................................................................................... 43 2.3.3.2. L'annotation taxonomique............................................................................ 44 2.3.3.3. L'annotation fonctionnelle ........................................................................... 49
2.3.3.4. La métagénomique comparative .................................................................. 52 2.3.4. La plateforme MG-RAST ................................................................................... 54
2.3.4.1. L’historique .................................................................................................. 54 2.3.4.2. Le processus de traitement des données ...................................................... 55
-
x
2.3.4.3. La page de vue d'ensemble .......................................................................... 58 2.3.4.4. La page d'analyse de métagénomes ............................................................. 61
2.3.5. L'application STAMP ......................................................................................... 68
2.4. Métagénomique et approches complémentaires........................................................ 70 2.4.1. Les tendances futures en termes de métagénomique ......................................... 70
2.4.1.1. La métatranscriptomique ............................................................................. 70 2.4.1.2. La métaprotéomique .................................................................................... 73 2.4.1.3. La méta-métabolomique .............................................................................. 74
2.4.2. Autres approches complémentaires .................................................................... 75 3. Les tapis microbiens polaires ........................................................................................... 77
3.1. Définition .................................................................................................................. 78
3.2. Les plateformes de glace ........................................................................................... 78 3.2.1. Les plateformes de glace de l'Arctique canadien ............................................... 82 3.2.2. Les tapis microbiens de l'Arctique canadien ...................................................... 84 3.2.3. La plateforme de glace de McMurdo (Antarctique)........................................... 85
3.2.4. Les tapis microbiens de la plateforme de McMurdo .......................................... 86
3.3. Composition taxonomique ........................................................................................ 87 3.4. Un écosystème menacé ............................................................................................. 88
4. Analyses métagénomiques de tapis microbiens polaires ................................................. 91
4.1. Le contexte ................................................................................................................ 91 4.2. La méthodologie ........................................................................................................ 93
4.3. Le recyclage des nutriments au sein des tapis microbiens polaires .......................... 95 4.3.1. Le résumé en français ......................................................................................... 95
4.3.2. Abstract .............................................................................................................. 97 4.4. Article #1 ................................................................................................................... 98
4.4.1. Introduction ........................................................................................................ 99 4.4.2. Methods ............................................................................................................ 100
4.4.2.1. Study sites and sample collection.............................................................. 100
4.4.2.2. DNA extraction and sequencing ............................................................... 101 4.4.2.3. Bioinformatics and statistical analyses ..................................................... 102
4.4.3. Results .............................................................................................................. 103 4.4.3.1. Classification of microbial communities based on protein-coding genes . 104
4.4.3.2. Taxonomic classification of the microbial communities based on ribosomal
genes ....................................................................................................................... 105
4.4.3.3. Functional gene analysis ........................................................................... 106 4.4.4. Discussion ........................................................................................................ 108 4.4.5. Acknowledgments ............................................................................................ 113
4.5. Tables ...................................................................................................................... 114 4.6. Figures ..................................................................................................................... 118
4.7. Stress et tapis microbiens polaires .......................................................................... 123 4.7.1. Le résumé en français ....................................................................................... 123 4.7.2. Abstract ............................................................................................................ 125
4.8. Article #2 ................................................................................................................. 126 4.8.1. Introduction ...................................................................................................... 127
4.8.2. Materials and Methods ..................................................................................... 128
4.8.2.1. Study site and sample collection ............................................................... 128
4.8.2.2. DNA extraction and sequencing ............................................................... 129
-
xi
4.8.2.3. Bioinformatics and statistical analyses ...................................................... 129 4.8.2.4. Metagenome sequence accession ............................................................... 131
4.8.3. Results ............................................................................................................... 131
4.8.3.1. Mat metagenomes ...................................................................................... 131 4.8.3.2. Taxonomic and functional comparisons of polar microbial mats .............. 132 4.8.3.3. Taxonomy of genes involved in cold and other stresses ........................... 133 4.8.3.4. Taxonomy of functional differences .......................................................... 134
4.8.4. Discussion ......................................................................................................... 135
4.8.5. Acknowledgments ............................................................................................ 140 4.9. Tables ....................................................................................................................... 141 4.10. Figures ................................................................................................................... 149
5. Discussion ....................................................................................................................... 153 5.1. Notre approche métagénomique et ses alternatives ................................................. 153
5.1.1. L'approche utilisée dans nos articles ................................................................. 153 5.1.2. Une alternative à notre approche ...................................................................... 155
5.1.3. Des exemples d'analyses complémentaires ...................................................... 165
5.2. Biogéographie microbienne des habitats de froid pérenne ...................................... 167 5.2.1. Distribution microbienne au sein des tapis microbiens polaires....................... 167 5.2.2. Hypothèses d'écologie microbienne et habitats de froid pérenne ..................... 169
5.2.2.1. L'hypothèse de l'ubiquité ........................................................................... 170 5.2.2.2. L'endémisme microbien ............................................................................. 175
5.2.3. Combinaison de cosmopolitisme et d'endémisme ? ......................................... 177 6. Conclusion ...................................................................................................................... 183
Bibliographie ...................................................................................................................... 187
-
xiii
Liste des tableaux
Tableau 2.1. Liste (non exhaustive) d'études pertinentes retraçant l'histoire de la métagénomique (tableau adapté de Ederer, 2011). Ces
différents projets sont classés selon le type de communautés
microbiennes analysées. Abréviations : Gbases (gigabases),
Mbases (mégabases), 454 (pyroséquençage 454), ABI
(séquençage ABI SOLiD), Illumina GA (séquençage Illumina
Genome Analyzer), Illumina HS (séquençage Illumina HiSeq
2000). ........................................................................................................... 12
Table 4.5.1. Temperature, pH, conductivity of the meltwater ponds for the three samples that were pooled for each metagenome. MIS,
Markham Ice Shelf; WHI, Ward Hunt Ice Shelf. ...................................... 114
Table 4.5.2. Percentage of total significant hits found from combined MIS and WHI sequences when compared to databases designated in
the top row. Taxonomic analysis based on rRNA genes was
performed with BLASTN against RDP II and Euro rRNA SSU
databases. SEED and Swiss-Prot were used with BLASTX
indicating taxonomic placements based on protein-coding
genes. E-value cut-off: 1 × 10−5
for all. Total of significant hits
from both MIS and WHI sequences; na, not applicable. .......................... 115
Table 4.5.3. Sequence matches to Eukaryota obtained using the MG-RAST
server against Euro rRNA SSU database (E-value cutoff: 0.1).
Positive hits to the SCUM database for prokaryote viral
sequences and GenBank for eukaryote viral sequences (E-value
cutoff: 1 × 10−4
). ........................................................................................ 116
Table 4.9.1. Environmental and metagenomic comparisons for the three
sampling sites ............................................................................................ 141
Supplementary Table 4.9.4. Significant matches found to microbial polar genomes and the model cyanobacterial reference genome
Synechococcus WH5701. Comparisons among the
metagenomes from the Markham Ice Shelf (MIS), Ward Hunt
Ice Shelf (WHI) and McMurdo Ice shelf (MCM) using
BLASTX compared to the SEED database to indicate bacterial
or archaeal taxonomic placements based on protein-coding
genes (E value ≤10-5
, alignment length ≥50 bp; percentage of
identity >65%). Values were normalized to the metagenome
(WHI) with the highest amount of BLASTX hits. NCBI
reference sequences of genomes are indicated in parentheses.
Classes are bacterial except for the archaeal Euryarchaeota. ................... 148
-
xv
Liste des figures
Figure 2.1. Schématisation de plusieurs méthodologies courantes dans une analyse métagénomique (figure adaptée d'Ederer, 2011). Le
chemin constitué de cadres et de flèches rouges symbolise la
méthode métagénomique utilisée dans les différentes analyses
présentées dans cette thèse. ........................................................................... 9
Figure 2.2. Principe du pyroséquençage 454 (figure adaptée de 454 Life Sciences, © 1996-2012 Roche Diagnostics Corporation,
www.454.com). ........................................................................................... 22
Figure 2.3. Principe du séquençage Illumina (figure tirée de Strausberg et al., 2008). ..................................................................................................... 24
Figure 2.4. Principe du séquençage ABI SOLiD® (figure tirée de
Strausberg et al., 2008). ............................................................................... 26
Figure 2.5. Sources de la distribution des résultats significatifs obtenus
avec MG-RAST pour l’échantillon métagénomique de tapis
microbien prélevé sur la plateforme de glace de Ward Hunt. Ce
graphique illustre le nombre de fragments appartenant à ce
métagénome qui ont obtenu des résultats significatifs par
similarité de séquence avec les différents types de bases de
données cités dans la présente figure (protéiques, protéiques
hiérarchisées, ou ribosomiques). Une échelle de couleurs
permet de symboliser l'étendue d'« E-value » utilisée pour
chaque base de données. .............................................................................. 59
Figure 2.6. Menu de la page d'analyse de MG-RAST. L'encadré rouge intitulé « Data Type » permet à l'utilisateur de choisir son type
d'analyse taxonomique (méthode du meilleur résultat
significatif obtenu, ou du plus petit ancêtre commun) ou
fonctionnelle (selon une classification hiérarchique, ou selon
toutes les bases de données fonctionnelles hiérarchisées ou
non), ou encore de lancer une analyse de recrutement. L'encadré
bleu nommé « Data Selection » permet de choisir le (ou les)
métagénome(s) à analyser (ou comparer), la base de données à
utiliser, ainsi que la valeur des paramètres à considérer pour
l'analyse (« E-value » maximum, pourcentage d'identité
minimum, et longueur d'alignement minimum). L'encadré
mauve appelé « Data Visualization » propose à l'utilisateur de
choisir le mode de visualisation des résultats en fonction de
l'analyse à effectuer (graphique en barres, arbre phylogénétique,
tableau, carte phylogénétique (« heatmap »), graphique en
composantes principales, ou courbe de raréfaction). Dans cet
exemple, l'utilisateur désire réaliser une analyse taxonomique
du métagénome 4445129.3 (échantillon de tapis microbien
-
xvi
prélevé sur la plateforme de glace de Ward Hunt) basée sur la
classification à partir du meilleur résultat significatif obtenu.
L'utilisateur a sélectionné la base de données M5NR et a laissé
les autres paramètres par défaut, de plus, en sélectionnant
l'onglet « table », il a choisi d'afficher les résultats de l'analyse
dans un tableau (du type de celui de la Figure 2.7.). .................................. 62
Figure 2.7. Tableau interactif généré par MG-RAST qui représente les résultats significatifs obtenus pour une analyse taxonomique du
métagénome 4445129.3 (échantillon de tapis microbien prélevé
sur la plateforme de glace de Ward Hunt). Dans cet exemple, il
s'agit d'une analyse de classification taxonomique basée sur la
similarité en fonction du meilleur résultat significatif obtenu («
best hit classification ») contre la base de données protéiques
M5NR, en tenant compte des paramètres suivants : « E-value »
maximum de 1.10-5
, pourcentage d'identité minimum de 65%,
et longueur d'alignement minimum de 50 pb. Chaque ligne du
tableau indique dans une colonne distincte de gauche à droite
respectivement : l'identifiant du métagénome en question, la
base de données utilisée, le rang taxonomique avec une colonne
par niveau taxonomique (du domaine à la souche selon le choix
de l'utilisateur), l'abondance (nombre de séquences du
métagénome qui ont été assignés à l'annotation en question), la
valeur moyenne des « E-values », des pourcentages d'identité,
et des longueurs d'alignement des appariements significatifs
trouvés, et enfin le nombre de « hits » (nombre de séquences
uniques appartenant à la base de données en question qui ont eu
un appariement significatif). À noter que dans cet exemple de
tableau, seules les 25 premières lignes (sur un total de 94)
apparaissent; de plus, ici l'utilisateur aura choisi préalablement
d'afficher uniquement les domaines, phyla, et classes de chaque
organisme. Les nombres indiqués en bleu dans la colonne de
l'abondance sont cliquables et permettent d'accéder à une
nouvelle page où sont affichés tous les détails de l'alignement
correspondant aux résultats présentés dans la ligne en question.
Deux onglets situés en haut à droite du tableau, appelé « krona
graph » et « QIIME report » permettent respectivement
d'afficher les données du tableau sous la forme d'un graphique
de type « krona », ou de télécharger localement ces mêmes
données dans un format compatible avec QIIME. ...................................... 64
Figure 3.1. Plateforme de glace de Ward Hunt, située le long de la côte nord de l’île d’Ellesmere, au Nunavut, dans le haut Arctique
canadien. (Photographe: Warwick F. Vincent, 2006) ................................. 79
Figure 3.2. Tapis microbien recouvert partiellement d’eau de fonte sur la plateforme de glace de Markham, située sur la côte nord de l’ile
-
xvii
d’Ellesmere, au Nunavut, dans le haut Arctique canadien.
(Photographe: Anne D. Jungblut, 2006) ...................................................... 80
Figure 3.3. Gros plan d'un tapis microbien affichant une pigmentation
orangée caractéristique, et gisant au fond d'une marre d'eau de
fonte présente sur la plateforme de glace de Ward Hunt.
(Photographe: Warwick F. Vincent, 2006) ................................................. 81
Figure 3.4. Tapis microbien de la plateforme de Markham exposés à l'air et présentant une forte pigmentation orangée en surface.
(Photographe: Warwick F. Vincent, 2006) ................................................. 81
Figure 3.5. Gros plan d’un échantillon de tapis microbien prélevé sur la
plateforme de glace de Markham. (Photographe: Anne D.
Jungblut, 2006) ............................................................................................ 85
Figure 4.6.1. Location of sampling sites along the northern coast of Ellesmere Island in High Arctic, Canada. Dark gray indicates
the extent of the two ice shelves at the time of sampling (2006);
the white circles indicate sites where the mats were collected.................. 118
Figure 4.6.2. Inferred taxonomic distributions from the MIS (black bars) and WHI (grey bars) microbial mat metagenomes. Sequence
classification based on BLASTX similarities to SEED from
protein-coding genes. Insert: contribution of the major classes
of Proteobacteria (A = Alphaproteobacteria; B =
Betaproteobacteria; G = Gammaproteobacteria; O = other
Proteobacteria). Note the log scale of the y-axis in both graphs. ............. 119
Figure 4.6.3. Percentage of sequences assignable to functional categories for MIS (black bars) and WHI (gray bars) metagenomes. Sequence
groupings in subsystem (ss) categories were performed by the
MG-RAST server using the SEED database. Note the log scale
of the y-axis. .............................................................................................. 120
Figure 4.6.4. Principal component analysis of gene functions from different bacterial groups. (A) Genes involved in light capture. (B)
Nitrogen uptake and transformation genes. (C) Phosphorus
uptake and transport genes. Horizontal and vertical axes
represent component 1 and component 2, respectively. Gray
circles contain all other identified taxa. Abbreviations: PSI,
photosystem I; PSII, photosystem II; PSII-like, bacterial
photosystem II–type photosynthetic reaction center; Nfix,
nitrogen fixation; AmmAss, ammonium assimilation system;
Denitrif, denitrification; AllantoinD, allantoin degradation;
UreaD, urea degradation; CyanateH, cyanate hydrolysis; Na
and NiAmo, nitrate and nitrite reduction to ammonia; ChitinN,
chitin and N-acetylglucosamine utilization; Cyanoph,
cyanophycin metabolism; ABCbcaa, ABC transporter for
branched-chain amino acids; ABCdip, ABC transporter for
dipeptides; ABCgluta, ABC transporter for glutamate and
-
xviii
aspartate; ABCglut, ABC transporter for glutamine; ABColigo,
ABC transporter for oligopeptides; Alkalin_Pho, alkaline
phosphatase; PhoTransPhoReg, high-affinity phosphate
transporter and control of PHO regulon; ExoPho,
exopolyphosphatase; Polypho, polyphosphate kinase;
AlkylphosphonateU, alkylphosphonate utilization; pstA,
phosphate transport system permease protein pstA; pstB,
phosphate transport system permease protein pstB; pstC,
phosphate transport system permease protein pstC; pstS,
phosphate ABC transport, periplasmic phosphate-binding
protein pstS; phoU, phosphate transport regulator phoU; PhoR,
phosphate regulon sensor protein phoR; phoB, phosphate
regulon transcriptional regulatory protein phoB. ...................................... 121
Figure 4.10.1. Statistical analyses of taxonomic profiles for the Arctic
(combined MIS and WHI samples) and Antarctic (MCM
sample) metagenomes. Orders or classes overrepresented in the
Antarctic have a negative difference between proportions
(green dots); those overrepresented in the Arctic community
have a positive value difference between proportions (blue
dots). Features (orders or classes) with a q value of ˃0.05 were
considered biologically significant. .......................................................... 149
Figure 4.10.3. Statistical analyses of metabolic profiles for the Arctic
microbial mats (combined MIS-WHI samples) and the
Antarctic metagenome (MCM sample). Total numbers of
sequences in the different categories are shown in the left bar
graph; the left side (blue) represents the Arctic mats, while the
right side (green) represents the Antarctic mat. Subsystems in
the Antarctic microbial mat community have negative
differences between proportions (green dots). Subsystems
overrepresented in the Arctic microbial mat samples have
positive differences between proportions (blue dots). Features
(orders or classes) with a q value of >0.05 were considered
significant. ................................................................................................ 152
Figure 5.1. Nombres de séquences (n) appartenant aux métagénomes
arctiques (MIS (en rouge) et WHI (en gris)) et antarctiques
(MCM (en bleu)) qui ont pu être assignées à différents gènes
impliqués dans les réactions biochimiques du cycle de l'azote.
L'épaisseur des flèches est proportionnelle au niveau
d'abondance relative de séquences assignées aux gènes
impliqués dans la réaction en question. Ces annotations
fonctionnelles ont été réalisées en utilisant BLASTX contre la
base de données SEED; seuls les appariements significatifs
ayant plus de 50 nucléotides de longueur, au moins 65% de
similarité, et un « E value » ≤10-5
, ont été inclus. Les valeurs (n)
-
xix
ont été normalisées par rapport au métagénome (WHI) ayant
obtenu le plus de « hits » avec BLASTX. ................................................. 159
Figure 5.2. Graphique d'analyse en coordonnées principales représentant le
degré de similitude taxonomique entre différents métagénomes
de tapis microbiens provenant de divers environnements
(polaires, chauds, et tempérés). Abréviations : MIS : Markham
Ice Shelf microbial mat, WHI : Ward Hunt Ice Shelf microbial
mat, MCM : McMurdo Ice Shelf microbial mat; AL : Antarctic
freshwater lake (Ace lake, Antarctica); MHS : Mushroom hot
spring microbial mat (Yellowstone National Park), OHS :
Octopus hot spring microbial mat (Yellowstone National Park);
GMM : Green freshwater microbial mat (Cuatro Ciénegas
Basin II, Coahuila, Mexico), RMM : Red freshwater microbial
mat (Cuatro Ciénegas Basin II, Coahuila, Mexico). Pour chaque
métagénome, les séquences ont été annotées taxonomiquement
à l'aide de BLAT contre la base de données M5NR, en
considérant comme significatif les appariements ayant plus de
50 nucléotides de longueur, au moins 65% de similarité, et un «
E value » ≤10-5
. ......................................................................................... 163
Figure 5.3. Graphique d'analyse en coordonnées principales représentant le degré de similitude fonctionnelle entre différents métagénomes
de tapis microbiens provenant de divers environnements
(polaires, chauds, et tempérés). Abréviations : MIS : Markham
Ice Shelf microbial mat, WHI : Ward Hunt Ice Shelf microbial
mat, MCM : McMurdo Ice Shelf microbial mat; AL : Antarctic
freshwater lake (Ace lake, Antarctica); MHS : Mushroom hot
spring microbial mat (Yellowstone National Park), OHS :
Octopus hot spring microbial mat (Yellowstone National Park);
GMM : Green freshwater microbial mat (Cuatro Ciénegas
Basin II, Coahuila, Mexico), RMM : Red freshwater microbial
mat (Cuatro Ciénegas Basin II, Coahuila, Mexico). Pour chaque
métagénome, les séquences ont été annotées taxonomiquement
à l'aide de BLAT contre la base de données SEED, en
considérant comme significatif les appariements ayant plus de
50 nucléotides de longueur, au moins 65% de similarité, et un «
E value » ≤10-5
. ......................................................................................... 164
-
1
1. Introduction
Malgré le fait que, techniquement parlant, la génomique a permis de réaliser des progrès
fulgurants dans le domaine de l’écologie microbienne, il faut attendre le début des années
2000, avec l’arrivée de la métagénomique, pour qu’une véritable révolution s’opère dans le
monde de la microbiologie environnementale. Durant les dernières années, la
métagénomique s’est taillée une place de choix dans le palmarès des disciplines
scientifiques les plus actives et les plus utilisées par la communauté scientifique. Cette
approche expérimentale novatrice et particulièrement puissante, permet désormais l’analyse
de communautés microbiennes qui semblaient largement hors de portée il y a moins de dix
ans. Le fait de pouvoir accéder à l’information génétique d’un assemblage microbien
directement depuis son environnement naturel, tout en s’affranchissant de certaines
contraintes liées à la microbiologie traditionnelle, a ouvert la voie à une nouvelle dimension
dans l'exploration des écosystèmes microbiens.
Depuis les trente dernières années, un autre domaine est en plein essor, c'est celui de la
microbiologie polaire. L'amélioration de l'accessibilité à ces régions isolées a provoqué un
véritable engouement auprès des microbiologistes, qui se sont empressés d'approfondir
notre savoir sur l'écologie des communautés microbiennes vivant dans ces environnements
de froid intense. D'autant plus qu'une meilleure compréhension des écosystèmes polaires
serait susceptible d'apporter de plus amples connaissances sur des sujets aussi
fondamentaux que l'apparition de la vie sur Terre, les cycles biogéochimiques, ou encore
les changements environnementaux à l'échelle planétaire, qu'ils soient passés ou actuels.
Durant ce doctorat, j'ai choisi de coupler la métagénomique et la microbiologie polaire, afin
d'apporter ma modeste contribution dans l'étude d'un écosystème très peu exploré jusqu'à
présent, à savoir les tapis microbiens des régions polaires. Mes travaux avaient donc pour
but d'évaluer certaines caractéristiques physiologiques inhérentes à la survie de ces
communautés microbiennes dans un habitat particulièrement hostile.
-
2
Faisant suite à la présente introduction, le deuxième chapitre de cette thèse dresse un
portrait technique de cette fantastique discipline qu'est la métagénomique, puis décrit
ensuite les technologies complémentaires sans lesquelles la métagénomique ne pourrait être
utilisée efficacement, il s'agit en l'occurrence des techniques de séquençage à haut débit et
des différents outils bio-informatiques de traitements des données. Le chapitre 2 est le plus
conséquent de ma thèse car il est représentatif de l'importance des choix en matière de
séquençages à haut débit, d'approches métagénomiques, et de méthodes d'annotations. De
plus, je voulais que ce chapitre soit à l'image de l'ampleur du travail que j'ai fourni lors de
ce doctorat dans la considération de ces différents aspects, afin de mener à bien nos
objectifs.
Le chapitre 3 est quant à lui dédié à la description générale des tapis microbiens polaires en
tant que tels et de leur habitat structurel qui est constitué par les plateformes de glaces. Ce
chapitre est conclu par une note plutôt alarmiste qui met en évidence l'urgence d'étudier un
tel écosystème avant qu'il ne disparaisse en raison du contexte de réchauffement climatique
actuel.
On entre dans le vif du sujet à proprement parler avec le chapitre 4, qui présente les deux
publications réalisées durant ce doctorat, qui traitent d'une part du recyclage des nutriments
au sein des tapis microbiens polaires, et d'autre part des mécanismes d'adaptation à
différents stress utilisés par ces communautés microbiennes.
La discussion énoncée dans le chapitre 5 aborde dans un premier temps les tendances
futures en termes de métagénomique, avec notamment la description des différentes
disciplines « méta-omiques » ainsi que leurs applications possibles. J'évoque ensuite les
forces et les faiblesses de l'approche métagénomique utilisée dans nos articles, pour ensuite
proposer une approche méthodologique alternative, ainsi que des exemples d'analyses
complémentaires qui permettraient de compléter les travaux réalisés lors de ce doctorat.
Dans une deuxième partie, j'aborde un thème aussi passionnant que complexe, celui de la
biogéographie microbienne au sein de la cryosphère. Je compare ainsi certains arguments
en faveur de l'une ou l'autre des deux plus grandes théories liées à la répartition planétaire
-
3
des microorganismes, c'est-à-dire le cosmopolitisme et l'endémisme, tout en étayant
chacune de ces notions à l'aide de données issues de nos propres analyses ou provenant
d'autres publications sur le sujet.
1.1. Objectifs
Face au caractère plutôt modeste des connaissances actuelles sur les tapis microbiens
polaires, le but de mes travaux de doctorat était d'utiliser la puissance de la métagénomique
afin de tenter de mieux comprendre la structure et les processus métaboliques utilisés par
ces communautés microbiennes.
Plus précisément, l'objectif général était de réaliser, à partir de métagénomes de tapis
microbiens récoltés sur diverses plateformes de glace polaires, des profils fonctionnels et
taxonomiques de basse résolution, afin d'obtenir une vue d'ensemble de la composition et
du potentiel métabolique des tapis microbien polaires, tout en s'efforçant de comparer cette
dernière en fonction de leur origine (Arctique ou Antarctique).
De plus, ce type d'approche devait nous permettre de définir les deux objectifs spécifiques
suivants :
Mettre en évidence la présence d'un système de décomposition et de recyclage des
nutriments au sein des tapis microbiens de l'Arctique, les rendant ainsi capables de
former un microenvironnement riche en nutriments malgré le caractère
oligotrophique de leur habitat;
Évaluer si les similarités taxonomiques éventuelles entre les tapis microbiens
arctiques et antarctiques se reflètent sur leurs réponses génétiques face aux stress
environnementaux. Ceci permettant de tester par la même occasion, si des
communautés microbiennes occupant le même type d'habitat extrême déploient les
mêmes types de mécanismes de résistance et d'adaptation aux stress imposés par
l'environnement polaire, et ceci indépendamment de la distance géographique qui
les sépare.
-
5
2. La métagénomique
De par l'introduction, vous aurez compris que la métagénomique revêt une importance
capitale dans cette thèse; c'est la raison pour laquelle je lui dédie ce chapitre, qui a pour but
de familiariser le lecteur avec les différents aspects, principes et applications de la
métagénomique.
2.1. Introduction
2.1.1. Définition
La métagénomique consiste à analyser l'ADN génomique d'une communauté microbienne
dans son ensemble. En d'autres mots, c'est une approche basée sur l'isolation directe de
l'intégralité des acides nucléiques présents dans un échantillon prélevé dans un
environnement donné, et ceci sans aucun isolement ou culture de microorganismes au
préalable (Handelsman, 2004; Simon & Daniel, 2011). Le préfixe « méta » qui en grec veut
dire littéralement « au-delà », induit une distinction majeure entre les termes «
métagénomique » et « génomique », ce dernier représentant l'étude de l'ADN génomique
issu d'un seul microorganisme ou d'une cellule unique (Gilbert & Dupont, 2011).
2.1.2. Contexte et origine
Durant la majeure partie de son histoire, la microbiologie est restée centrée sur le fait que la
culture de microorganismes était une étape inhérente à toutes études dignes de ce nom. En
effet, les microbiologistes ont longtemps cru que les organismes microbiens pouvaient être
classifiés, si et seulement si, ils étaient cultivés auparavant (Society of American
Bacteriologists, 1923). Cependant, dans les années 1980, les scientifiques ont réalisé que
les microbes étaient beaucoup plus ubiquitaires, diversifiés, et nombreux que ce qu'ils
pensaient (Ederer, 2011); et nous savons désormais que les techniques classiques de culture
utilisées en microbiologie ont permis jusqu'à maintenant de caractériser seulement environ
1% de la diversité microbienne planétaire (D'Onofrio et al., 2010). Des estimations
calculées par Whitman et collaborateurs (Whitman et al., 1998) indiquent que la terre est
l'habitat d'environ 5×1030
procaryotes (bactéries et archées) avec plus de 107 espèces de
-
6
bactéries différentes, ces dernières étant présentes dans tous les environnements planétaires,
capables de coloniser les habitats les plus extrêmes allant des sources hydrothermales à
340°C des profondeurs océaniques, aux tapis microbiens polaires que nous avons étudiés
(Whitman et al., 1998).
Mais pourquoi l'étude de l'écologie microbienne devrait susciter autant d'intérêt ?
Les microorganismes ne sont pas seulement omniprésents, ils sont essentiels à la vie sur
terre car ils représentent le plus grand réservoir de nutriments de la planète en séquestrant
50% du carbone total de tous les organismes vivants et en constituant le plus grand
réservoir terrestre de nitrogène et de phosphore cellulaire (Whitman et al., 1998). De plus,
les microbes sont les principaux recycleurs de matières en décomposition permettant de
rendre à nouveau disponible divers composés sous forme organique (Whitman et al., 1998).
Ils jouent donc un rôle critique dans les processus biogéochimiques en maintenant la survie
des écosystèmes (Falkowski et al., 2008). Par ailleurs, l'étude de la diversité microbienne
des environnements extrêmes, tels que les sources chaudes (Rhee et al., 2005), les bassins
hyper-salins (Ferrer et al., 2005), la glace de glacier (Simon et al., 2009), et les sols ou
sédiments arctiques et antarctiques (Heath et al., 2009; Jeon et al., 2009), suscite un certain
engouement étant donné du fait que ces écosystèmes représentent un réservoir de nouvelles
biomolécules ayant potentiellement un intérêt au niveau biotechnologique.
Tout comme les plantes et les autres animaux, l'existence même de l'homme est fortement
dépendante et affectée par les microorganismes. Nous avons plus de cellules bactériennes
(1014
) résidant dans notre corps que de cellules humaines (1013
) (Berg, 1996). Le matériel
génétique de l'ensemble de ces bactéries représente environ 1000 fois plus de gènes que
ceux du génome humain (Ederer, 2011). Par ailleurs, Turnbaugh et collaborateurs
(Turnbaugh et al., 2006) ont déjà démontré que des différences dans la composition du
microbiome humain peuvent être liées à certaines conditions pathologiques chez l'homme.
En résumé, on peut affirmer que l'étude de l'écologie des communautés microbiennes de la
biosphère constitue une première étape fondamentale dans la compréhension :
-
7
De leurs contributions dans le maintien de la santé planétaire;
De leurs rôles dans le bien-être chez l'humain;
Des conséquences environnementales de l'activité humaine.
Au vu du peu de connaissances de la communauté scientifique en termes de biodiversité
microbienne, les microbiologistes avaient besoin de nouvelles approches moins réductrices,
et indépendantes de la culture pour la caractérisation des microorganismes, prenant ainsi en
compte l'écosystème dans son ensemble. Le développement de nouvelles méthodologies
devaient permettre ainsi de caractériser les organismes identifiés dans leur environnement,
ceci impliquant de pouvoir déceler leurs possibles interactions avec les autres membres de
la communauté et leur potentiel métabolique.
C'est dans ce contexte que Pace et collaborateurs (Pace et al., 1986), qui aspiraient à étudier
la diversité et la classification des bactéries par d'autres méthodes que celles basées sur les
traits morphologiques et physiologiques des ces organismes, furent les premiers à analyser
directement (sans culture au préalable) les gènes codant pour l'ARN ribosomique (ARNr)
16S présents dans un échantillon environnemental afin de déterminer sa diversité
microbienne. Depuis l'étude novatrice de Pace et collaborateurs en 1986 (Pace et al., 1986),
l'utilisation de l'ARNr 16S (couplée à la technologie de séquençage de Sanger (Sanger et
al., 1977) déjà très populaire à l'époque) s'est rapidement imposée au fil des années comme
outil de prédilection pour la discrimination des différentes espèces bactériennes. Ce sont
donc des recherches de ce type qui ont permis ultimement la naissance de la
métagénomique, c'est-à-dire, une discipline nouvelle qui se situe à l'interface de la
microbiologie, la génomique et l'écologie (Ederer, 2011). Ce terme ayant été mentionné
officiellement pour la première fois par Handelsman et collaborateurs (Handelsman et al.,
1998) lors d'une étude visant à découvrir des nouveaux antibiotiques à partir de
communautés microbiennes vivant dans le sol.
Cette nouvelle approche qu'est la métagénomique vise ainsi, en analysant le contenu en
acides nucléiques d'une communauté microbienne quelconque, à caractériser la diversité
microbienne, la complexité génétique, mais aussi ses diverses interactions dont celles de
-
8
nature métabolique. C'est sur ce dernier point que la métagénomique se distingue, en
permettant d'aller bien plus loin que les analyses basées seulement sur l'amplification PCR
des gènes codant pour l'ARNr 16S ou 18S qui permettent de se concentrer uniquement sur
des études taxonomiques. Ainsi, avec le soutien essentiel de la bio-informatique, le
couplage de la métagénomique avec le séquençage à haut débit, offre dorénavant la
possibilité d'accéder à des domaines inexplorés du monde microbien.
La complexité et le nombre sans cesse grandissant de projets métagénomiques ont engendré
la création par la communauté scientifique de consortiums visant à aider les chercheurs
utilisant des données métagénomiques, en offrant des cyber-infrastructures permettant
essentiellement le catalogage des génomes (complets) de référence issus de métagénomes
et des outils d'analyse et de consultation de ces données. On peut distinguer à l'heure
actuelle quatre principales ressources de ce type : le « Human Microbiome Project (HMP) »
(http://www.hmpdacc.org/), le « Global Ocean Sampling (GOS) expedition »
(http://www.jcvi.org/cms/research/projects/gos/), le « Terragenome »
(http://www.terragenome.org/), et enfin mais non le moindre, le « Earth Microbiome
Project (EMP) ».
2.1.3. Méthodes et applications
La métagénomique représente un attrait indéniable pour les scientifiques dans le sens où
elle leur permet d'accéder à un certain nombre des membres d'une communauté
microbienne donnée (indépendamment du fait de savoir si ces organismes peuvent être
cultivés ou pas), tout en ayant la possibilité d'accéder à une vue d'ensemble des voies
métaboliques régnant en son sein.
Ceci étant dit, quels sont les types d'approches métagénomiques et leurs principales étapes
en termes de protocole ?
Cela dépend bien évidemment du but de l'étude en question mais on peut résumer ces
étapes à la manière de celles illustrées dans la figure 2.1.
-
9
Figure 2.1. Schématisation de plusieurs méthodologies courantes dans une analyse
métagénomique (figure adaptée d'Ederer, 2011). Le chemin constitué de cadres et de
flèches rouges symbolise la méthode métagénomique utilisée dans les différentes analyses
présentées dans cette thèse.
Dans tous les cas, on doit procéder après échantillonnage de l'écosystème en question, à
une extraction de l'ensemble de l'ADN ou l'ARN génomique présent dans le ou les
échantillon(s). Si l'estimation de la diversité microbienne est le seul but de l'étude en
question, une amplification PCR spécifique des gènes codant pour l'ARNr 16S ou 18S sera
réalisée afin de séquencer uniquement ces derniers en bout de ligne; on obtiendra ainsi une
librairie à grande échelle de gènes d'ARN ribosomique. Une telle librairie peut ensuite être
soumise à une biopuce de type PhyloChip afin de pouvoir comparer la diversité de cette
dernière avec un ensemble de gènes codant pour des ARNr 16S connus (Brodie et al., 2006;
DeSantis et al,. 2007; Yergeau et al., 2009). Par contre, si on s'intéresse cette fois au
potentiel métabolique d'un écosystème, on va s'efforcer d'analyser l'ensemble des acides
nucléiques de l'échantillon. L'ADN ou l'ADNc (ADN complémentaire obtenu par
rétrotranscription de l'ARN isolé) extrait peut être alors traité essentiellement de trois
manières différentes :
-
10
Il peut être fragmenté aléatoirement, puis séquencé directement en utilisant des
technologies de séquençage à haut débit. Il faut noter que ce séquençage direct
d'acides nucléiques après extraction est de plus en plus privilégié à l'heure actuelle,
étant donné qu'il permet de se soustraire à toute étape de clonage. À noter cependant
que la plupart des techniques de séquençage à haut débit nécessitent la création
d'une librairie de fragments d'ADN, néanmoins ces derniers ne sont pas clonés, et il
ne faut donc pas confondre ce type de librairie avec celui mentionné dans le
paragraphe suivant;
Après fragmentation aléatoire, l'ADN peut également être cloné afin de constituer
une librairie de clones à petits ou larges inserts qui sera ensuite séquencée par la
technique de Sanger (Sanger et al., 1977) ou par une technologie à haut débit; c'est
ce qu'on appelle le séquençage en aveugle (voir section 2.2.2.). Cette librairie peut
ensuite être parcourue pour rechercher puis séquencer des clones comportant un
gène d'intérêt, ou bien séquencée en totalité pour permettre la reconstitution de
génomes complets (Venter et al., 2004);
Troisièmement, l'ADN génomique extrait peut aussi être analysé par des biopuces
de type GeoChip 3.0 contenant un ensemble de sondes spécifiques à des marqueurs
phylogénétiques (tel que gyrB) et à des gènes d'intérêts connus (appartenant à des
cycles biogéochimiques par exemple) (He et al., 2007; 2010).
Dans tous les cas, le volume conséquent de fragments séquencés (appelés « reads » en
anglais) lors d'une étude de métagénomique, fait en sorte que l'utilisation de la bio-
informatique est indispensable afin d'analyser ces derniers.
-
11
D'un point de vue général, toute étude faisant appel à la métagénomique doit s'orienter vers
l'une des approches suivantes (DeLong, 2007) :
La première est centrée sur le « génome » afin de déterminer les membres
composant une communauté microbienne, avec le but ultime de tenter d'assembler
leur génome complet;
La seconde aspire quant à elle, à réaliser une analyse fonctionnelle de la
communauté échantillonnée afin de déceler son potentiel métabolique. Elle est donc
basée cette fois-ci non pas sur le « génome » mais sur le « gène ». C'est d'ailleurs
cette approche qui a été privilégiée dans le cadre de cette thèse pour l'étude des tapis
microbiens polaires.
La combinaison des deux approches citées précédemment est également
envisageable.
Les études métagénomiques effectuées jusqu'à présent ont porté sur trois principaux types
de communautés microbiennes :
Les communautés que l'on retrouve à l'état naturel (environnements tempérés ou
extrêmes);
Les communautés vivant dans un environnement modifié par l'activité humaine;
Les communautés qui dépendent d'un hôte pour survivre.
Le tableau 2.1. recense un certain nombre d'exemples d'études métagénomiques classées
selon les trois catégories de communautés microbiennes citées précédemment. Cette liste
n'est en aucun cas exhaustive, elle a seulement pour but d'illustrer la grande diversité des
projets de métagénomique déjà réalisés à ce jour.
-
12
Tableau 2.1. Liste (non exhaustive) d'études pertinentes retraçant l'histoire de la
métagénomique (tableau adapté de Ederer, 2011). Ces différents projets sont classés selon
le type de communautés microbiennes analysées. Abréviations : Gbases (gigabases),
Mbases (mégabases), 454 (pyroséquençage 454), ABI (séquençage ABI SOLiD), Illumina
GA (séquençage Illumina Genome Analyzer), Illumina HS (séquençage Illumina HiSeq
2000).
Auteurs
Objectifs de l'étude
métagénomique Taille du projet
Type de
séquençage
Communautés
à l'état
naturel
Hugenholtz et al.,
1998
Taxonomie bactérienne
d'une source chaude du
Yellowstone
Librairie de gènes
d'ARNr (˃300
clones)
ABI
Rondon et al., 2000
Identification de
nouveaux gènes à partir
de microbiomes du sol
1 Gbases clonées dans
des BACs ABI
Breitbart et al., 2002
Comparaison de deux
communautés océaniques
de virus
Librairie de gènes
d'ARNr 16S clonés
(˃1000 clones)
ABI
Venture et al., 2004 Microbes de la mer des
Sargasses 1,045 Gbases clonées ABI
Edwards et al., 2006
Population microbienne
de la mine « Soudan »
aux États-Unis
70 Mbases 454
Rusch et al., 2007 Échantillonnage global
de l'océan (GOS) 6,4 Gbases clonées ABI
Dinsdale et al., 2008
Métagénomique des
profils métaboliques de 9
biomes
15 Mbases 454
Breitbart et al., 2009
Communautés
microbiennes associées
aux microbialites
47,1 Mbases 454
Varin et al., 2010;
2012
Les tapis microbiens
polaires 146 Mbases 454
Communautés
affectées par
l'activité
humaine
Martin et al., 2006
Taxonomie des
communautés de boue
activée dans le traitement
des eaux usagées
176 Mbases ABI
Thurber et al., 2009 Facteurs de stress sur le
corail holobionte
22 Mbases
454
Tamaki et al., 2011 Virus à ADN contenus
dans les eaux usées
70-119 Mbases
454
Yu & Zhang, 2012
Métagénomique et
métatranscriptomique de
boue activée dans le
traitement des eaux
usagées
4,8 Gbases Illumina HS
-
13
Tableau 2.1. (suite)
Auteurs
Objectifs de l'étude
métagénomique Taille du projet
Type de
séquençage
Communautés
hôte-
dépendantes
Breitbart et al., 2003 Communauté virale des
excréments humains
17 Mbases d'ADN
contenues dans une
librairie de 532 clones
ABI
Gill et al., 2006 Métagénomique de la
partie distale de l'intestin
78 Mbases avec
2062 clones de gènes
d'ARNr 16S
454
Warnecke et al.,
2007
Métagénome intestinal
du termite 71 Mbases 454
Qin et al., 2010
Catalogue de gènes du
microbiome intestinal
humain
576,7 Gbases
Illumina
GA et
Sanger
Le consortium sur le
projet du
microbiome humain,
2012a
Fonction et diversité du
microbiome humain chez
le sujet sain 2Tbases
Illumina
GA et 454
Le consortium sur le
projet du
microbiome humain,
2012b
Un cadre de travail pour
la recherche sur le
microbiome humain 3,5Tbases
Illumina
GA
Abubucker et al.,
2012
Reconstructions
métaboliques pour le
microbiome humain
3,5Tbases Illumina
GA
Dans les dernières années, on a pu constater l'émergence de nouvelles études
métagénomiques basées sur l'expression des gènes (Urich et al., 2008; Moran, 2009) ou sur
la production de protéines (Wilmes et al., 2008; Schweder et al., 2008) plutôt que sur
l'ADN. En effet, la métatranscriptomique et la métaprotéomique (voir section 2.4.1.) sont
des approches qui ont le potentiel de nous apporter de nouvelles connaissances sur la
dynamique fonctionnelle des communautés microbiennes (Simon & Daniel, 2011).
2.1.4. Défis
Conceptuellement, une approche métagénomique semble plutôt simple (Figure 2.1.); il
suffit d'extraire, puis de séquencer les acides nucléiques d'un échantillon environnemental,
pour ensuite analyser le tout afin de caractériser la communauté microbienne de
l'échantillon en question. Mais en réalité, l'utilisation de la métagénomique amène certains
défis et limites dont il faut tenir compte lors de la conception de la méthodologie d'un projet
et dans l'interprétation des résultats obtenus. Les éventuels problèmes associés à une étude
de métagénomique peuvent être répertoriés selon les aspects détaillés dans les sous-sections
2.1.4.1. à 2.1.4.4.
-
14
2.1.4.1. L'environnement analysé
Il faut toujours être conscient que l'échantillonnage d'un environnement donné se fait en un
point géographique bien particulier, et à un moment précis dans le temps, et que par
conséquent, la composition d'une communauté peut varier grandement si l'un ou l'autre de
ces paramètres change (Morris et al., 2002; Kunin et al., 2008).
De plus, la notion de microenvironnement vient compliquer le processus d'échantillonnage,
qui généralement n'est pas assez précis pour différencier les sous-écosystèmes qui peuvent
coexister dans un même environnement. Un gramme de sol forestier par exemple, peut
contenir de 6400 à 38000 espèces différentes de bactéries (Ederer, 2011), cependant, ces
dernières ne sont pas distribuées de façon égale dans le sol, il est bien plus probable qu'elles
forment des mini-communautés organisées en sous-écosystèmes pouvant être en contact ou
séparés les uns des autres. Ainsi, l'isolement de l'ADN d'un échantillon contenant ce type de
microenvironnement ne permettra vraisemblablement pas de reconstituer la sous-
distribution des membres qui composent ce genre de mini-communautés.
D'autre part, le principe même de la métagénomique fait en sorte que les fragments
séquencés à partir d'un échantillon d'ADN génomique sont issus d'un plus ou moins grand
nombre d'espèces différentes dont, pour la majeure partie, le génome complet n'est pas
présent. L'identification de l'espèce d'origine auquel appartient un fragment donné n'est
donc pas chose aisée. Nous traitons ce sujet plus en détail dans la section 2.3.3. de cette
thèse.
Une étude de Huber et collaborateurs (Huber et al., 2007) sur des communautés de
bactéries et d'archées vivant dans des cheminées hydrothermales, a montré qu'un
échantillon métagénomique peut être représentatif de l'environnement en termes de
taxonomie (en l'occurrence de la population d'archées dans cet exemple). Cependant, ces
mêmes auteurs ne sont pas parvenus à explorer de façon exhaustive la population
bactérienne de cet environnement, cette dernière étant beaucoup plus diversifiée. En effet,
la difficulté d'identifier potentiellement toutes les espèces d'un écosystème augmente avec
la complexité et diversité taxonomique de ce dernier (Sogin et al., 2006; Huber et al., 2007;
Wooley et al., 2010). Même un séquençage « en profondeur » d’un environnement naturel
permet d’accéder seulement à une fraction infime de la variabilité génétique disponible
dans le milieu en question (Gilbert & Dupont, 2011). Par conséquent, une analyse
-
15
métagénomique permet habituellement d'identifier seulement les membres les plus
abondants d'une communauté (Tyson et al., 2004), car les espèces les plus nombreuses
masquent celles qui sont rares, en fournissant une part beaucoup plus importante du
matériel génétique total de la population microbienne en question. Ainsi, les chances de
retrouver des fragments appartenant aux espèces moins représentées dans l'échantillon sont
plus faibles. À titre d’exemple, une étude sur un échantillon d’une communauté
microbienne de rumen comptant plus de 500 genres bactériens différents, a mis en évidence
que les séquences issues des cinq plus abondants genres comptaient pour plus de 73% du
nombre de séquences totales (Sparks et al., 2011). Néanmoins, certaines techniques comme
l'hybridation différentielle permettent de soustraire l'ADN le plus abondant d'un échantillon
afin de permettre d'avoir accès aux génomes des espèces plus rares (Galbraith et al., 2007).
D'une manière générale, il faut donc être prudent quant à la représentativité des résultats
obtenus lors d'une étude métagénomique. En d'autres termes, ce qui est observé dans
l'échantillon ne le sera pas forcément dans l'environnement dont ce dernier est issu.
D'autant plus que Bent et Forney (Bent & Forney, 2008) ont mis en évidence que la
majorité des communautés microbiennes complexes affichent une distribution taxonomique
caractéristique où seulement quelques espèces dominent alors que la vaste majorité de la
population est inusitée.
2.1.4.2. L'étape d'isolation et d'extraction des acides nucléiques
Les microorganismes ont différents niveaux d'accessibilité face à l'isolation. Certains
d'entre eux peuvent rester attachés à des particules inertes présentes dans l'échantillon,
rendant leur ADN inaccessible. De plus, l'efficacité du procédé de lyse cellulaire varie
selon les organismes, si bien que le produit d'extraction d'un échantillon environnemental
ne représentera pas forcément tous les organismes présents au départ lors de
l'échantillonnage. Ceci pouvant bien évidemment biaiser l'estimation de la composition
taxonomique de l'échantillon en question.
Il a été rapporté récemment que l'utilisation de différentes approches d'extraction pour
l'étude d'un même métagénome apporte l'avantage de pouvoir caractériser des parties
différentes de ce dernier, mais aussi d'augmenter le nombre d'espèces et de fonctions
détectées (Delmont et al., 2012). Cependant, Morgan et collaborateurs (Morgan et al.,
-
16
2010) ont démontré que l'utilisation de protocoles d'extraction différents dans des études de
métagénomique comparative peuvent entraîner des biais significatifs dans les résultats; c'est
la raison pour laquelle nous avons choisi d'avoir recours à la même méthode d'extraction
pour tous les échantillons analysés dans nos études, nous permettant ainsi de considérer les
mêmes biais dans toutes nos analyses subséquentes.
2.1.4.3. L'étape de clonage
La fabrication d'une librairie de clones préalablement au séquençage peut entraîner certains
biais inhérents au processus de clonage (niveau d'efficacité, nombres suffisants de clones
produits), mais aussi à l'étape de PCR qui est souvent nécessaire après un clonage, et qui
comporte certains désavantages comme les biais introduits par l'utilisation des sondes et/ou
par l'amplification exponentielle (Suzuki & Giovannoni, 1996; Wang & Wang, 1997;
Kanagawa, 2003; Acinas et al., 2005; Sipos et al., 2010). On sait par ailleurs que des
fragments d'ADN pauvres en bases GC peuvent être moins stables et affecter l'efficacité du
clonage (Temperton et al., 2009). De plus, certains gènes ne peuvent être incorporés dans
les vecteurs de librairie en raison de leur instabilité ou de leur toxicité pour la cellule hôte
(Sorek et al., 2007).
Néanmoins, l'ensemble de ces biais peuvent être évités en supprimant tout simplement
l'étape de clonage, et donc en séquençant directement l'ADN génomique obtenu après
extraction. Cette approche a d'ailleurs été proposée comme la méthode la plus précise pour
l'estimation de la diversité taxonomique de métagénomes (von Mering et al., 2007).
2.1.4.4. Le séquençage
La présence de certaines substances inhibitrices contenues dans l'environnement prélevé,
comme l'acide humique souvent associée aux échantillons provenant du sol, peut affecter
l'efficacité du séquençage.
Il faut mentionner également qu'il existe d'autres défis liés à l'utilisation de la
métagénomique, mais étant donné que ceux-ci sont associés au séquençage à haut débit et
au traitement bio-informatique des séquences générées, j'ai fait le choix de les aborder dans
les sections 2.2. et 2.3. respectivement.
-
17
2.2. Séquençage à haut débit
L'essor de la métagénomique n'aurait pu avoir lieu sans les remarquables avancées
technologiques que le séquençage de l'ADN a connu lors de la dernière décennie,
notamment avec l'avènement des techniques de séquençage de deuxième génération, qui
permettent de produire un nombre beaucoup plus important d'ADN séquencés, en moins de
temps et à moindre coût.
2.2.1. Historique
Au cours du 20ème
siècle, le séquençage de l'ADN a révolutionné la recherche dans le
domaine des sciences de la vie, en réalisant un grand pas pour l'humanité avec le
séquençage complet du génome humain en 2001 (Lander et al., 2001; Venter et al., 2001).
Historiquement, ceci a été rendu possible grâce aux prouesses de deux pionniers travaillant
sur le séquençage, W. Gilbert et F. Sanger qui se partagèrent le prix Nobel de chimie en
1980 pour leurs co-découvertes dans ce domaine. Tout a commencé en 1975 avec Sanger et
Coulson qui sont parvenus à développer la méthode de terminaison des chaînes, permettant
le séquençage d'environ 50 nucléotides contigus sur plusieurs jours (Sanger & Coulson,
1975). Deux ans plus tard, Maxam et Gilbert présentent alors une autre méthode de
séquençage basée sur la dégradation chimique de l'ADN par coupures sélectives (Maxam &
Gilbert, 1977). Cependant, la même année Sanger publie une méthode complémentaire à
celle qu'il avait déjà créé en 1975, en introduisant l'utilisation des didéoxynucléotides, des
inhibiteurs de l'ADN polymérase spécifiques à chaque base nucléotidique (Sanger et al.,
1977). La même année, le développement de cette technologie a ainsi permis de séquencer
le tout premier génome complet, celui du phage φX (Sanger et al., 1977). Dans les deux
décennies suivantes, la méthode de séquençage de Sanger a été améliorée en termes de
procédés et de chimie, avec la capacité de produire des séquences d'une longueur de 1000
nucléotides avec une précision pouvant atteindre 99,999% (Shendure et al., 2004). Mais
l'avancée majeure depuis cette optimisation reste son automatisation, qui a ouvert la voie à
la démocratisation du séquençage à partir des années 1990 (Hutchison, 2007). Ces avancées
dans la technique de Sanger ont rendu possible le séquençage d'une variété de génomes
bactériens et eucaryotes, dont les plus marquants sont : Saccharomyces cerevisiae (Goffeau
et al., 1996), Escherichia coli (Blattner et al., 1997), le riz (Goff et al., 2002; Yu et al.,
-
18
2002), la souris (Waterston et al., 2002), et enfin l'homme (Lander et al., 2001; Venter et
al., 2001).
Néanmoins, la démocratisation du séquençage en aveugle de génomes dans les années
1990, a conduit à la génération d'un volume de plus en plus important de données à
séquencer, rendant ainsi la technologie de Sanger souvent inadéquate, car jugée trop longue
et particulièrement onéreuse (Shendure & Ji, 2008). C'est la raison pour laquelle en 2004, le
National Human Research Institute a lancé « le programme de séquençage du génome à
1000$ » dans le but de réduire à cette somme le prix du séquençage des génomes de
mammifère, et ceci d'ici une dizaine d'années. Ainsi après cette annonce, plusieurs
compagnies se sont lancées dans l'aventure afin de créer des nouveaux instruments de
séquençage permettant de produire plus rapidement, et pour moins cher, des quantités
massives de données (Meldrum, 2001; Meldrum & Holl, 2002). C'est dans cet esprit que
sont nées les technologies de séquençage à haut débit de deuxième et troisième génération.
2.2.2. Le séquençage en aveugle
Ce type de séquençage (appelé « whole-genome shotgun sequencing ») a été popularisé à la
fin des années 1990 par l'Institut Craig Venter, bien que Sanger et collaborateurs l'avaient
proposé dès 1982 avec le séquençage du génome complet du phage λ (Sanger et al., 1982).
Cette méthode, toujours utilisée à l'heure actuelle, a permis l'assemblage de grands
génomes (bactériens puis eucaryotes) tels que ceux cités dans la section 2.2.1.
On peut décrire cette méthode de séquençage de la manière suivante :
-
19
1. L'ADN génomique de l'organisme à séquencer est fragmenté de façon aléatoire;
2. Les fragments sont clonés au hasard dans un vecteur (plasmide ou BAC), qui est
ensuite introduit dans une bactérie hôte (comme E. coli) afin de créer une librairie
de séquences et de produire ainsi assez de matériel pour le séquençage subséquent;
3. Les fragments de la librairie de clones sont alors séquencés avec la technologie de
Sanger;
4. Les séquences obtenues sont assemblées à l'aide de différents outils de bio-
informatique afin de reconstituer le génome complet de l'organisme en question.
Signalons cependant, que ce type de séquençage est de plus en plus concurrencé par
l'avènement des technologies de séquençage dites de « nouvelle génération » présentées
dans la section suivante.
2.2.3. Les méthodes à haut débit
Apparues à partir de 2005, les méthodes de séquençage à haut débit de l'ADN, dites de «
nouvelle génération » (Next Generation Sequencing (NGS)), ont gagné beaucoup de terrain
sur la technologie de Sanger pour le séquençage des petits génomes et des écosystèmes
environnementaux. Ceci est principalement dû au fait qu’elles sont grandement
parallélisées permettant la production de plusieurs millions de séquences (« reads »)
différentes par expérience sans avoir nécessairement besoin d’une étape de clonage au
préalable. Ainsi, ces méthodes permettent d’obtenir un plus grand nombre de séquences,
plus rapidement et pour un prix inférieur à la méthode de Sanger. Néanmoins, les « reads »
produits sont plus courts pour la plupart des technologies existantes en 2012: de 35 à 250
pb (paires de bases), excepté pour le pyroséquençage 454 qui depuis peu, serait en mesure
de séquencer des fragments d'une longueur moyenne de 700 pb égalant ainsi plus ou moins
la méthode de Sanger (Siqueira et al., 2012).
-
20
Les techniques de séquençage de deuxième génération les plus utilisées à l'heure actuelle
utilisent des méthodologies différentes, cependant, elles présentent des similarités dans leur
protocole, plus particulièrement elles comprennent toutes les étapes suivantes :
1. Construction d’une librairie de séquences, qui consiste à fragmenter l’ADN
génomique pour ensuite lier des adaptateurs à chacune des extrémités de ces
fragments;
2. Chaque fragment de la librairie est amplifié de manière à ce que chaque produit
d'amplification soit séparé les uns des autres;
3. Séquençage effectué par plusieurs cycles de réactions enzymatiques, le tout étant
mesuré en temps réel.
On compte actuellement plusieurs technologies dont quatre majeures de séquençage à haut
débit de deuxième génération, chacune d'entre elles étant décrites ci-dessous.
2.2.3.1. Le pyroséquençage 454
Commercialisée par la compagnie 454 Life Sciences (appartenant désormais à Roche
Diagnostics Corporation) depuis 2005, cette méthode consiste à séquencer un fragment
d’ADN simple brin par synthèse du brin complémentaire, une base à la fois, en détectant à
chaque étape le nucléotide qui a été ajouté (Margulies et al., 2005). Cette technologie
produit les « reads » les plus longs en 2012 en termes de séquençage à haut débit de
deuxième génération, soit des fragments de 1000 pb en théorie avec le nouveau système GS
FLX+, mais en pratique la longueur moyenne maximale des « reads » produits se situe
autour de 700 pb à l'heure actuelle. Une seule analyse de 454 peut désormais produire
jusqu'à 700 millions de nucléotides (1 million de « reads ») en 23 heures environ.
La première étape consiste à préparer une librairie de fragments simple brin, qui est alors
mise en contact avec des billes recouvertes de sondes oligonucléotidiques complémentaires
aux adaptateurs (Figure 2.2., encadré A et B); les conditions expérimentales font en sorte
qu’une bille fixe un seul fragment de la librairie (Figure 2.2., encadré C). Ensuite, une
-
21
amplification par PCR à émulsion est réalisée afin d’amplifier le fragment d’ADN fixé à la
bille (Figure 2.2., encadré D). Chaque bille contenue dans l’émulsion (mélange d’huile et
d’eau) est piégée dans une bulle qui joue le rôle de microréacteur où l’amplification clonale
a lieu (Figure 2.2., encadré D). Ceci permet d’obtenir une bille recouverte en surface de
fragments simple brin, tous identiques, et prêts à être séquencés. Les billes sont alors mises
en contact avec une plaque à micro-puits qui fait en sorte que chaque puits contient une
seule bille, ainsi que les différentes enzymes (ADN polymérase, sulfurylase, luciférase)
nécessaires à l'étape de séquençage (Figure 2.2., encadré E). Au sein de chaque puits, la
séquence complémentaire des fragments amplifiés préalablement à la surface de la bille va
être synthétisée en parallèle (étape d'élongation réalisée par l'ADN polymérase) et donc
séquencée par la même occasion. L'étape d'élongation se déroule de la manière suivante :
les nucléotides sont introduits dans le milieu réactionnel l'un après l'autre dans un ordre
prédéterminé; si le nucléotide ajouté est celui attendu par l'ADN polymérase, il est
incorporé dans le brin en cours de synthèse et libère alors un pyrophosphate immédiatement
dégradé en ATP par l'ATP sulfurylas