MÉTAGÉNOMIQUE DES TAPIS MICROBIENS …...premier temps, de dresser une description générale de...

THIBAUT VARIN

MÉTAGÉNOMIQUE DES TAPIS MICROBIENS

POLAIRES

Thèse présentée

à la Faculté des études supérieures et postdoctorales de l’Université Laval

dans le cadre du programme de doctorat en physiologie-endocrinologie

pour l’obtention du grade de Philosophiæ doctor (Ph.D.)

DÉPARTEMENT DE MÉDECINE MOLÉCULAIRE

FACULTÉ DE MÉDECINE

UNIVERSITÉ LAVAL

QUÉBEC

2013

© Thibaut Varin, 2013

i

Résumé

Le domaine de l'écologie microbienne est en pleine effervescence grâce à l'avènement de la

métagénomique et des techniques de séquençage de nouvelle génération (SNG), qui nous

apportent une meilleure compréhension de la structure et du fonctionnement des

communautés microbiennes de la biosphère. Cette thèse illustre ainsi une manière de tirer

profit de l'utilisation de ces nouvelles technologies, dans le but d'étudier un écosystème qui

a été très peu caractérisé jusqu'à maintenant, en l'occurrence les tapis microbiens polaires.

Les analyses métagénomiques de différents tapis microbiens polaires ont permis dans un

premier temps, de dresser une description générale de la taxonomie et du potentiel

fonctionnel des communautés microbiennes en question, pour ensuite nous permettre

d'examiner de façon plus exhaustive deux de leurs particularités métaboliques.

L'existence éventuelle d'un système de recyclage des nutriments au sein même des tapis

microbiens étudiés a été soulevée étant donné le caractère oligotrophique de leur milieu

environnant. L'analyse des profils métagénomiques des tapis microbiens de l'Arctique a

permis de mettre en évidence plusieurs groupes de gènes impliqués dans des mécanismes

de décomposition et de récupération qui donneraient la possibilité à ces communautés de

retenir et de recycler leurs nutriments au sein de leur microenvironnement benthique.

Un autre aspect des tapis microbiens polaires sur lequel je me suis penché lors de ce

doctorat, concerne la propension des membres peuplant ce type d'écosystème à s'acclimater

à un large panel de stress découlant de la nature extrême de leur habitat. La présence de

divers procédés métaboliques d'adaptation au froid et à d'autres stress a été observée à partir

de l'analyse du métagénome des ces communautés arctiques et antarctiques, en

concordance avec les différents niveaux de représentation des principaux groupes

bactériens.

Cette thèse démontre à quel point le recours aux disciplines « méta-omiques », peut nous

amener vers une meilleure compréhension de l'écologie microbienne, et comment

l'émergence de ces technologies a permis d'aborder différemment des thèmes aussi

fondamentaux que celui de la biogéographie des microorganismes.

ii

Abstract

Over the last few years, metagenomics and next generation sequencing (NGS) have been

revolutionizing the field of microbial ecology leading to a greater understanding of the

structure and functions of the microbial communities in the biosphere. The work

presented here applies these new technologies to study polar microbial mats, which are

poorly-characterized ecosystems.

Metagenomic analyses of distinct polar microbial mats provided an opportunity to, firstly

obtain a general description of microbial community composition and metabolic activity,

and subsequently, to more thoroughly study two specific metabolic processes.

We hypothesized that microbial mats are nutrient-replete despite the oligotrophic

conditions of the surrounding waters due to strong nutrient recycling within the polar

microbial mats. Analyses of metagenomic profiles derived from arctic microbial mats

revealed that several groups of genes involved in scavenging mechanisms provide these

communities with the capacity to retain and recycle nutrients within the shallow

benthic microenvironment.

Another aspect of polar microbial mats which was examined during this PhD, addresses the

ability of organisms in the mat to thrive despite varied environmental stresses. The presence

of different metabolic processes involved in cold adaptation and other stresses was detected

from metagenomic analyses of Arctic and Antarctic communities that were

consistently proportional to their representation within major bacterial groups.

This thesis demonstrates how metagenomics and associated « meta-omics » approaches can

be informative to improve global comprehension of microbial ecology, and how the

emergence of these disciplines enables us to tackle fundamental questions such as

biogeography of microorganisms with a new vision.

iii

Avant-propos

En ce qui concerne les contributions apportées lors de ce doctorat, je précise que je suis le

premier auteur des deux publications qui sont présentées au chapitre 4 de cette thèse. Plus

précisément, je suis responsable de la production intégrale des données et de l'exécution de

l'ensemble des analyses bio-informatiques et statistiques nécessaires à la création de la

matière sur laquelle repose ces articles. Il faut mentionner cependant, que le travail de

laboratoire, qui consistait à réaliser des extractions d'ADN à partir d'échantillons de tapis

microbiens polaires, a été exécuté par Anne D. Jungblut. J'ai rédigé la première version de

mes deux articles (inclus dans cette thèse), puis retravaillé ensuite leur rédaction sous la

supervision de mes coauteurs, à savoir : Connie Lovejoy, Anne D. Jungblut, Warwick F.

Vincent, et Jacques Corbeil.

Dans un autre registre, je tiens à remercier Jacques Corbeil pour m'avoir tenté et permis de

me lancer dans cette aventure qu'est le doctorat. Je salue également l'ouverture d'esprit, le

caractère visionnaire, et la pluridisciplinarité de mon directeur de recherche, qui ont

définitivement influencé le déroulement de mes études de troisième cycle d'une manière

très positive. Un grand merci, également, à ma codirectrice Connie Lovejoy pour sa

gentillesse et sa constante bonne humeur, mais surtout pour ses précieux conseils et son

aide dans divers aspects techniques rencontrés durant ce doctorat, que ce soit dans les

travaux de laboratoire ou dans la phase de rédaction des mes articles. Ainsi, grâce aux

efforts conjugués de mon directeur et ma codirectrice, ce doctorat m'a permis de découvrir

le monde de la microbiologie polaire, un domaine passionnant avec lequel je n'étais point

familier, et qui m'a sans aucun doute permis d'élargir ma vision du monde microbien.

Je tiens à remercier tout particulièrement mes coauteurs Anne D. Jungblut et Warwick F.

Vincent, qui m'ont apporté, en plus de leur grande amabilité, une aide indispensable dans

l'orientation de mes recherches et lors de la rédaction des articles présentés dans cette thèse.

Merci à René Paradis, le pilier du service de bioinformatique au CHUL qui m'a sorti

d'innombrable fois du cauchemar que peut représenter un « bug » informatique. Mais au

delà du professionnel, je remercie par dessus tout le grand ami, qui est le premier québécois

iv

que j'ai connu en arrivant à Québec, et qui n'a pas hésité à me traiter comme un ami

d'enfance. Merci Ron pour ta bonté et ta gaieté si contagieuse ! Merci à Fréderic Raymond,

mon voisin de bureau durant toutes ces années passées au CHUL, qui demeure ma personne

ressource de référence en génomique, et avec qui je me souviendrai avoir passé de bons

moments sur fond de musiques tonitruantes pour reprendre son expression, à l'Impérial, au

Velvet, ou encore sur les plaines ! Merci à Sébastien Boisvert pour ses précieux conseils en

bio-informatique, ainsi qu'à Robin Allary pour « la » partie de tennis sur l'heure du midi

entre deux PCR ! Merci à Pascal Belleau pour son amabilité et ses stimulants sujets de

conversations. Je remercie aussi le reste de « l'ancienne » bande du Complan,

malheureusement dissoute aujourd'hui; par ordre alphabétique, je pense notamment à Astrid

Deschênes, Jean-Philippe Dionne, Arnaud Droit (qui ironie du sort, est un des évaluateurs

de cette thèse aujourd'hui), Joël Fillon, Patrick Lacasse, David Paladini, Philippe Rigault,

Sayo Yuen.

Merci aux autres membres de l'équipe de Jacques Corbeil, à savoir Lynda Robitaille,

Jessyka Fortin, et Nancy Boucher, pour leur aide dans le laboratoire. Je remercie tout

particulièrement Mélissa Sirois qui était toujours aussi jovial et serviable même quand je la

dérangeais au laboratoire; je suis également reconnaissant envers son conjoint, Yan

Sergerie, pour son aide dans la délicate situation de l'après-doctorat.

Du côté du pavillon Vachon ou Marchand, je remercie Estelle Pedneault et Marianne

Potvin pour leur disponibilité et leur aide dans les différentes tâches de laboratoire que j'ai

eu à exécuter au début de mon doctorat. Merci également à Pierre Galand pour ses conseils

avisés dans le domaine de la microbiologie polaire.

Bien évidemment, je remercie de tout cœur ma famille et mes proches, en particulier mes

parents et ma sœur qui m'ont toujours aimé, soutenu quoi qu'il arrive, et sans qui je n'aurais

pu accomplir toutes les choses que j'ai voulu faire jusqu'à maintenant. Je dédie tout

naturellement cette thèse à ma mère qui m'a tant encouragé à faire un doctorat... J'adresse

également ma plus sincère reconnaissance à ma « blonde », Kim, qui m'a apporté beaucoup

de soutien d'une manière générale tout au long de ce périple, et qui s'est toujours montrée

très attentionnée envers moi. Kim a aussi contribué concrètement à cette thèse en m'aidant

dans les fastidieuses tâches de relecture et de formatage des références.

v

Et enfin, après les remerciements adressés aux personnes physiques, je rends hommage à

quelque chose de plus abstrait et d'immatériel, en l'occurrence l'escalade ! En effet, ce

magnifique sport qui m'a accompagné tout au long de mon doctorat aura été une bouée de

sauvetage dans les moments plus difficiles, tant il contribue à l'intégrité de ma santé

physique et mentale. De plus, c'est une passion dans laquelle je retrouve beaucoup des

valeurs qui me sont chères. J'en profite par la même occasion, pour rendre un dernier

hommage à une personne qui m'a beaucoup inspiré en tant que grimpeur mais aussi en tant

que personne : Patrick Edlinger, une figure emblématique de l'escalade qui nous a

malheureusement quitté alors que je finissais la rédaction de cet avant-propos.

vii

À ma chère famille

ix

Table des matières

Résumé ..................................................................................................................................... i Avant-propos ........................................................................................................................ iii Table des matières ................................................................................................................. ix Liste des tableaux ................................................................................................................ xiii

Liste des figures .................................................................................................................... xv 1. Introduction ......................................................................................................................... 1

1.1. Objectifs ....................................................................................................................... 3 2. La métagénomique .............................................................................................................. 5

2.1. Introduction .................................................................................................................. 5 2.1.1. Définition .............................................................................................................. 5 2.1.2. Contexte et origine ................................................................................................ 5 2.1.3. Méthodes et applications ...................................................................................... 8

2.1.4. Défis .................................................................................................................... 13

2.1.4.1. L'environnement analysé ............................................................................. 14 2.1.4.2. L'étape d'isolation et d'extraction des acides nucléiques ............................. 15 2.1.4.3. L'étape de clonage ........................................................................................ 16

2.1.4.4. Le séquençage .............................................................................................. 16 2.2. Séquençage à haut débit ............................................................................................. 17

2.2.1. Historique............................................................................................................ 17 2.2.2. Le séquençage en aveugle................................................................................... 18

2.2.3. Les méthodes à haut débit ................................................................................... 19 2.2.3.1. Le pyroséquençage 454 ............................................................................... 20

2.2.3.2. Le séquençage Illumina ............................................................................... 23 2.2.3.3. Le séquençage ABI SOLiD ......................................................................... 25 2.2.3.4. Le séquençage par semi-conducteur ............................................................ 27

2.2.3.5. Le séquençage par Polonator ....................................................................... 28 2.2.3.6. Le séquençage HeliScope ............................................................................ 28

2.2.3.7. Le séquençage SMRT (Single Molecule Real Time) .................................. 29 2.2.3.8. Le séquençage par Nanopore ....................................................................... 30

2.3. Métagénomique et bio-informatique ......................................................................... 32

2.3.1. L'assemblage de génomes ................................................................................... 32

2.3.1.1. Les assembleurs « voraces » ........................................................................ 34 2.3.1.2. Les assembleurs OLC .................................................................................. 35 2.3.1.3. Les assembleurs DBG .................................................................................. 37 2.3.1.4. L'assemblage de données métagénomiques ................................................. 39

2.3.2. Analyse de biodiversité ....................................................................................... 41 2.3.3. L'annotation de métagénomes ............................................................................. 43

2.3.3.1. Les défis ....................................................................................................... 43 2.3.3.2. L'annotation taxonomique............................................................................ 44 2.3.3.3. L'annotation fonctionnelle ........................................................................... 49

2.3.3.4. La métagénomique comparative .................................................................. 52 2.3.4. La plateforme MG-RAST ................................................................................... 54

2.3.4.1. L’historique .................................................................................................. 54 2.3.4.2. Le processus de traitement des données ...................................................... 55

x

2.3.4.3. La page de vue d'ensemble .......................................................................... 58 2.3.4.4. La page d'analyse de métagénomes ............................................................. 61

2.3.5. L'application STAMP ......................................................................................... 68

2.4. Métagénomique et approches complémentaires........................................................ 70 2.4.1. Les tendances futures en termes de métagénomique ......................................... 70

2.4.1.1. La métatranscriptomique ............................................................................. 70 2.4.1.2. La métaprotéomique .................................................................................... 73 2.4.1.3. La méta-métabolomique .............................................................................. 74

2.4.2. Autres approches complémentaires .................................................................... 75 3. Les tapis microbiens polaires ........................................................................................... 77

3.1. Définition .................................................................................................................. 78

3.2. Les plateformes de glace ........................................................................................... 78 3.2.1. Les plateformes de glace de l'Arctique canadien ............................................... 82 3.2.2. Les tapis microbiens de l'Arctique canadien ...................................................... 84 3.2.3. La plateforme de glace de McMurdo (Antarctique)........................................... 85

3.2.4. Les tapis microbiens de la plateforme de McMurdo .......................................... 86

3.3. Composition taxonomique ........................................................................................ 87 3.4. Un écosystème menacé ............................................................................................. 88

4. Analyses métagénomiques de tapis microbiens polaires ................................................. 91

4.1. Le contexte ................................................................................................................ 91 4.2. La méthodologie ........................................................................................................ 93

4.3. Le recyclage des nutriments au sein des tapis microbiens polaires .......................... 95 4.3.1. Le résumé en français ......................................................................................... 95

4.3.2. Abstract .............................................................................................................. 97 4.4. Article #1 ................................................................................................................... 98

4.4.1. Introduction ........................................................................................................ 99 4.4.2. Methods ............................................................................................................ 100

4.4.2.1. Study sites and sample collection.............................................................. 100

4.4.2.2. DNA extraction and sequencing ............................................................... 101 4.4.2.3. Bioinformatics and statistical analyses ..................................................... 102

4.4.3. Results .............................................................................................................. 103 4.4.3.1. Classification of microbial communities based on protein-coding genes . 104

4.4.3.2. Taxonomic classification of the microbial communities based on ribosomal

genes ....................................................................................................................... 105

4.4.3.3. Functional gene analysis ........................................................................... 106 4.4.4. Discussion ........................................................................................................ 108 4.4.5. Acknowledgments ............................................................................................ 113

4.5. Tables ...................................................................................................................... 114 4.6. Figures ..................................................................................................................... 118

4.7. Stress et tapis microbiens polaires .......................................................................... 123 4.7.1. Le résumé en français ....................................................................................... 123 4.7.2. Abstract ............................................................................................................ 125

4.8. Article #2 ................................................................................................................. 126 4.8.1. Introduction ...................................................................................................... 127

4.8.2. Materials and Methods ..................................................................................... 128

4.8.2.1. Study site and sample collection ............................................................... 128

4.8.2.2. DNA extraction and sequencing ............................................................... 129

xi

4.8.2.3. Bioinformatics and statistical analyses ...................................................... 129 4.8.2.4. Metagenome sequence accession ............................................................... 131

4.8.3. Results ............................................................................................................... 131

4.8.3.1. Mat metagenomes ...................................................................................... 131 4.8.3.2. Taxonomic and functional comparisons of polar microbial mats .............. 132 4.8.3.3. Taxonomy of genes involved in cold and other stresses ........................... 133 4.8.3.4. Taxonomy of functional differences .......................................................... 134

4.8.4. Discussion ......................................................................................................... 135

4.8.5. Acknowledgments ............................................................................................ 140 4.9. Tables ....................................................................................................................... 141 4.10. Figures ................................................................................................................... 149

5. Discussion ....................................................................................................................... 153 5.1. Notre approche métagénomique et ses alternatives ................................................. 153

5.1.1. L'approche utilisée dans nos articles ................................................................. 153 5.1.2. Une alternative à notre approche ...................................................................... 155

5.1.3. Des exemples d'analyses complémentaires ...................................................... 165

5.2. Biogéographie microbienne des habitats de froid pérenne ...................................... 167 5.2.1. Distribution microbienne au sein des tapis microbiens polaires....................... 167 5.2.2. Hypothèses d'écologie microbienne et habitats de froid pérenne ..................... 169

5.2.2.1. L'hypothèse de l'ubiquité ........................................................................... 170 5.2.2.2. L'endémisme microbien ............................................................................. 175

5.2.3. Combinaison de cosmopolitisme et d'endémisme ? ......................................... 177 6. Conclusion ...................................................................................................................... 183

Bibliographie ...................................................................................................................... 187

xiii

Liste des tableaux

Tableau 2.1. Liste (non exhaustive) d'études pertinentes retraçant l'histoire de la métagénomique (tableau adapté de Ederer, 2011). Ces

différents projets sont classés selon le type de communautés

microbiennes analysées. Abréviations : Gbases (gigabases),

Mbases (mégabases), 454 (pyroséquençage 454), ABI

(séquençage ABI SOLiD), Illumina GA (séquençage Illumina

Genome Analyzer), Illumina HS (séquençage Illumina HiSeq

2000). ........................................................................................................... 12

Table 4.5.1. Temperature, pH, conductivity of the meltwater ponds for the three samples that were pooled for each metagenome. MIS,

Markham Ice Shelf; WHI, Ward Hunt Ice Shelf. ...................................... 114

Table 4.5.2. Percentage of total significant hits found from combined MIS and WHI sequences when compared to databases designated in

the top row. Taxonomic analysis based on rRNA genes was

performed with BLASTN against RDP II and Euro rRNA SSU

databases. SEED and Swiss-Prot were used with BLASTX

indicating taxonomic placements based on protein-coding

genes. E-value cut-off: 1 × 10−5

for all. Total of significant hits

from both MIS and WHI sequences; na, not applicable. .......................... 115

Table 4.5.3. Sequence matches to Eukaryota obtained using the MG-RAST

server against Euro rRNA SSU database (E-value cutoff: 0.1).

Positive hits to the SCUM database for prokaryote viral

sequences and GenBank for eukaryote viral sequences (E-value

cutoff: 1 × 10−4

). ........................................................................................ 116

Table 4.9.1. Environmental and metagenomic comparisons for the three

sampling sites ............................................................................................ 141

Supplementary Table 4.9.4. Significant matches found to microbial polar genomes and the model cyanobacterial reference genome

Synechococcus WH5701. Comparisons among the

metagenomes from the Markham Ice Shelf (MIS), Ward Hunt

Ice Shelf (WHI) and McMurdo Ice shelf (MCM) using

BLASTX compared to the SEED database to indicate bacterial

or archaeal taxonomic placements based on protein-coding

genes (E value ≤10-5

, alignment length ≥50 bp; percentage of

identity >65%). Values were normalized to the metagenome

(WHI) with the highest amount of BLASTX hits. NCBI

reference sequences of genomes are indicated in parentheses.

Classes are bacterial except for the archaeal Euryarchaeota. ................... 148

xv

Liste des figures

Figure 2.1. Schématisation de plusieurs méthodologies courantes dans une analyse métagénomique (figure adaptée d'Ederer, 2011). Le

chemin constitué de cadres et de flèches rouges symbolise la

méthode métagénomique utilisée dans les différentes analyses

présentées dans cette thèse. ........................................................................... 9

Figure 2.2. Principe du pyroséquençage 454 (figure adaptée de 454 Life Sciences, © 1996-2012 Roche Diagnostics Corporation,

www.454.com). ........................................................................................... 22

Figure 2.3. Principe du séquençage Illumina (figure tirée de Strausberg et al., 2008). ..................................................................................................... 24

Figure 2.4. Principe du séquençage ABI SOLiD® (figure tirée de

Strausberg et al., 2008). ............................................................................... 26

Figure 2.5. Sources de la distribution des résultats significatifs obtenus

avec MG-RAST pour l’échantillon métagénomique de tapis

microbien prélevé sur la plateforme de glace de Ward Hunt. Ce

graphique illustre le nombre de fragments appartenant à ce

métagénome qui ont obtenu des résultats significatifs par

similarité de séquence avec les différents types de bases de

données cités dans la présente figure (protéiques, protéiques

hiérarchisées, ou ribosomiques). Une échelle de couleurs

permet de symboliser l'étendue d'« E-value » utilisée pour

chaque base de données. .............................................................................. 59

Figure 2.6. Menu de la page d'analyse de MG-RAST. L'encadré rouge intitulé « Data Type » permet à l'utilisateur de choisir son type

d'analyse taxonomique (méthode du meilleur résultat

significatif obtenu, ou du plus petit ancêtre commun) ou

fonctionnelle (selon une classification hiérarchique, ou selon

toutes les bases de données fonctionnelles hiérarchisées ou

non), ou encore de lancer une analyse de recrutement. L'encadré

bleu nommé « Data Selection » permet de choisir le (ou les)

métagénome(s) à analyser (ou comparer), la base de données à

utiliser, ainsi que la valeur des paramètres à considérer pour

l'analyse (« E-value » maximum, pourcentage d'identité

minimum, et longueur d'alignement minimum). L'encadré

mauve appelé « Data Visualization » propose à l'utilisateur de

choisir le mode de visualisation des résultats en fonction de

l'analyse à effectuer (graphique en barres, arbre phylogénétique,

tableau, carte phylogénétique (« heatmap »), graphique en

composantes principales, ou courbe de raréfaction). Dans cet

exemple, l'utilisateur désire réaliser une analyse taxonomique

du métagénome 4445129.3 (échantillon de tapis microbien

xvi

prélevé sur la plateforme de glace de Ward Hunt) basée sur la

classification à partir du meilleur résultat significatif obtenu.

L'utilisateur a sélectionné la base de données M5NR et a laissé

les autres paramètres par défaut, de plus, en sélectionnant

l'onglet « table », il a choisi d'afficher les résultats de l'analyse

dans un tableau (du type de celui de la Figure 2.7.). .................................. 62

Figure 2.7. Tableau interactif généré par MG-RAST qui représente les résultats significatifs obtenus pour une analyse taxonomique du

métagénome 4445129.3 (échantillon de tapis microbien prélevé

sur la plateforme de glace de Ward Hunt). Dans cet exemple, il

s'agit d'une analyse de classification taxonomique basée sur la

similarité en fonction du meilleur résultat significatif obtenu («

best hit classification ») contre la base de données protéiques

M5NR, en tenant compte des paramètres suivants : « E-value »

maximum de 1.10-5

, pourcentage d'identité minimum de 65%,

et longueur d'alignement minimum de 50 pb. Chaque ligne du

tableau indique dans une colonne distincte de gauche à droite

respectivement : l'identifiant du métagénome en question, la

base de données utilisée, le rang taxonomique avec une colonne

par niveau taxonomique (du domaine à la souche selon le choix

de l'utilisateur), l'abondance (nombre de séquences du

métagénome qui ont été assignés à l'annotation en question), la

valeur moyenne des « E-values », des pourcentages d'identité,

et des longueurs d'alignement des appariements significatifs

trouvés, et enfin le nombre de « hits » (nombre de séquences

uniques appartenant à la base de données en question qui ont eu

un appariement significatif). À noter que dans cet exemple de

tableau, seules les 25 premières lignes (sur un total de 94)

apparaissent; de plus, ici l'utilisateur aura choisi préalablement

d'afficher uniquement les domaines, phyla, et classes de chaque

organisme. Les nombres indiqués en bleu dans la colonne de

l'abondance sont cliquables et permettent d'accéder à une

nouvelle page où sont affichés tous les détails de l'alignement

correspondant aux résultats présentés dans la ligne en question.

Deux onglets situés en haut à droite du tableau, appelé « krona

graph » et « QIIME report » permettent respectivement

d'afficher les données du tableau sous la forme d'un graphique

de type « krona », ou de télécharger localement ces mêmes

données dans un format compatible avec QIIME. ...................................... 64

Figure 3.1. Plateforme de glace de Ward Hunt, située le long de la côte nord de l’île d’Ellesmere, au Nunavut, dans le haut Arctique

canadien. (Photographe: Warwick F. Vincent, 2006) ................................. 79

Figure 3.2. Tapis microbien recouvert partiellement d’eau de fonte sur la plateforme de glace de Markham, située sur la côte nord de l’ile

xvii

d’Ellesmere, au Nunavut, dans le haut Arctique canadien.

(Photographe: Anne D. Jungblut, 2006) ...................................................... 80

Figure 3.3. Gros plan d'un tapis microbien affichant une pigmentation

orangée caractéristique, et gisant au fond d'une marre d'eau de

fonte présente sur la plateforme de glace de Ward Hunt.

(Photographe: Warwick F. Vincent, 2006) ................................................. 81

Figure 3.4. Tapis microbien de la plateforme de Markham exposés à l'air et présentant une forte pigmentation orangée en surface.

(Photographe: Warwick F. Vincent, 2006) ................................................. 81

Figure 3.5. Gros plan d’un échantillon de tapis microbien prélevé sur la

plateforme de glace de Markham. (Photographe: Anne D.

Jungblut, 2006) ............................................................................................ 85

Figure 4.6.1. Location of sampling sites along the northern coast of Ellesmere Island in High Arctic, Canada. Dark gray indicates

the extent of the two ice shelves at the time of sampling (2006);

the white circles indicate sites where the mats were collected.................. 118

Figure 4.6.2. Inferred taxonomic distributions from the MIS (black bars) and WHI (grey bars) microbial mat metagenomes. Sequence

classification based on BLASTX similarities to SEED from

protein-coding genes. Insert: contribution of the major classes

of Proteobacteria (A = Alphaproteobacteria; B =

Betaproteobacteria; G = Gammaproteobacteria; O = other

Proteobacteria). Note the log scale of the y-axis in both graphs. ............. 119

Figure 4.6.3. Percentage of sequences assignable to functional categories for MIS (black bars) and WHI (gray bars) metagenomes. Sequence

groupings in subsystem (ss) categories were performed by the

MG-RAST server using the SEED database. Note the log scale

of the y-axis. .............................................................................................. 120

Figure 4.6.4. Principal component analysis of gene functions from different bacterial groups. (A) Genes involved in light capture. (B)

Nitrogen uptake and transformation genes. (C) Phosphorus

uptake and transport genes. Horizontal and vertical axes

represent component 1 and component 2, respectively. Gray

circles contain all other identified taxa. Abbreviations: PSI,

photosystem I; PSII, photosystem II; PSII-like, bacterial

photosystem II–type photosynthetic reaction center; Nfix,

nitrogen fixation; AmmAss, ammonium assimilation system;

Denitrif, denitrification; AllantoinD, allantoin degradation;

UreaD, urea degradation; CyanateH, cyanate hydrolysis; Na

and NiAmo, nitrate and nitrite reduction to ammonia; ChitinN,

chitin and N-acetylglucosamine utilization; Cyanoph,

cyanophycin metabolism; ABCbcaa, ABC transporter for

branched-chain amino acids; ABCdip, ABC transporter for

dipeptides; ABCgluta, ABC transporter for glutamate and

xviii

aspartate; ABCglut, ABC transporter for glutamine; ABColigo,

ABC transporter for oligopeptides; Alkalin_Pho, alkaline

phosphatase; PhoTransPhoReg, high-affinity phosphate

transporter and control of PHO regulon; ExoPho,

exopolyphosphatase; Polypho, polyphosphate kinase;

AlkylphosphonateU, alkylphosphonate utilization; pstA,

phosphate transport system permease protein pstA; pstB,

phosphate transport system permease protein pstB; pstC,

phosphate transport system permease protein pstC; pstS,

phosphate ABC transport, periplasmic phosphate-binding

protein pstS; phoU, phosphate transport regulator phoU; PhoR,

phosphate regulon sensor protein phoR; phoB, phosphate

regulon transcriptional regulatory protein phoB. ...................................... 121

Figure 4.10.1. Statistical analyses of taxonomic profiles for the Arctic

(combined MIS and WHI samples) and Antarctic (MCM

sample) metagenomes. Orders or classes overrepresented in the

Antarctic have a negative difference between proportions

(green dots); those overrepresented in the Arctic community

have a positive value difference between proportions (blue

dots). Features (orders or classes) with a q value of ˃0.05 were

considered biologically significant. .......................................................... 149

Figure 4.10.3. Statistical analyses of metabolic profiles for the Arctic

microbial mats (combined MIS-WHI samples) and the

Antarctic metagenome (MCM sample). Total numbers of

sequences in the different categories are shown in the left bar

graph; the left side (blue) represents the Arctic mats, while the

right side (green) represents the Antarctic mat. Subsystems in

the Antarctic microbial mat community have negative

differences between proportions (green dots). Subsystems

overrepresented in the Arctic microbial mat samples have

positive differences between proportions (blue dots). Features

(orders or classes) with a q value of >0.05 were considered

significant. ................................................................................................ 152

Figure 5.1. Nombres de séquences (n) appartenant aux métagénomes

arctiques (MIS (en rouge) et WHI (en gris)) et antarctiques

(MCM (en bleu)) qui ont pu être assignées à différents gènes

impliqués dans les réactions biochimiques du cycle de l'azote.

L'épaisseur des flèches est proportionnelle au niveau

d'abondance relative de séquences assignées aux gènes

impliqués dans la réaction en question. Ces annotations

fonctionnelles ont été réalisées en utilisant BLASTX contre la

base de données SEED; seuls les appariements significatifs

ayant plus de 50 nucléotides de longueur, au moins 65% de

similarité, et un « E value » ≤10-5

, ont été inclus. Les valeurs (n)

xix

ont été normalisées par rapport au métagénome (WHI) ayant

obtenu le plus de « hits » avec BLASTX. ................................................. 159

Figure 5.2. Graphique d'analyse en coordonnées principales représentant le

degré de similitude taxonomique entre différents métagénomes

de tapis microbiens provenant de divers environnements

(polaires, chauds, et tempérés). Abréviations : MIS : Markham

Ice Shelf microbial mat, WHI : Ward Hunt Ice Shelf microbial

mat, MCM : McMurdo Ice Shelf microbial mat; AL : Antarctic

freshwater lake (Ace lake, Antarctica); MHS : Mushroom hot

spring microbial mat (Yellowstone National Park), OHS :

Octopus hot spring microbial mat (Yellowstone National Park);

GMM : Green freshwater microbial mat (Cuatro Ciénegas

Basin II, Coahuila, Mexico), RMM : Red freshwater microbial

mat (Cuatro Ciénegas Basin II, Coahuila, Mexico). Pour chaque

métagénome, les séquences ont été annotées taxonomiquement

à l'aide de BLAT contre la base de données M5NR, en

considérant comme significatif les appariements ayant plus de

50 nucléotides de longueur, au moins 65% de similarité, et un «

E value » ≤10-5

. ......................................................................................... 163

Figure 5.3. Graphique d'analyse en coordonnées principales représentant le degré de similitude fonctionnelle entre différents métagénomes

de tapis microbiens provenant de divers environnements

(polaires, chauds, et tempérés). Abréviations : MIS : Markham

Ice Shelf microbial mat, WHI : Ward Hunt Ice Shelf microbial

mat, MCM : McMurdo Ice Shelf microbial mat; AL : Antarctic

freshwater lake (Ace lake, Antarctica); MHS : Mushroom hot

spring microbial mat (Yellowstone National Park), OHS :

Octopus hot spring microbial mat (Yellowstone National Park);

GMM : Green freshwater microbial mat (Cuatro Ciénegas

Basin II, Coahuila, Mexico), RMM : Red freshwater microbial

mat (Cuatro Ciénegas Basin II, Coahuila, Mexico). Pour chaque

métagénome, les séquences ont été annotées taxonomiquement

à l'aide de BLAT contre la base de données SEED, en

considérant comme significatif les appariements ayant plus de

50 nucléotides de longueur, au moins 65% de similarité, et un «

E value » ≤10-5

. ......................................................................................... 164

1

1. Introduction

Malgré le fait que, techniquement parlant, la génomique a permis de réaliser des progrès

fulgurants dans le domaine de l’écologie microbienne, il faut attendre le début des années

2000, avec l’arrivée de la métagénomique, pour qu’une véritable révolution s’opère dans le

monde de la microbiologie environnementale. Durant les dernières années, la

métagénomique s’est taillée une place de choix dans le palmarès des disciplines

scientifiques les plus actives et les plus utilisées par la communauté scientifique. Cette

approche expérimentale novatrice et particulièrement puissante, permet désormais l’analyse

de communautés microbiennes qui semblaient largement hors de portée il y a moins de dix

ans. Le fait de pouvoir accéder à l’information génétique d’un assemblage microbien

directement depuis son environnement naturel, tout en s’affranchissant de certaines

contraintes liées à la microbiologie traditionnelle, a ouvert la voie à une nouvelle dimension

dans l'exploration des écosystèmes microbiens.

Depuis les trente dernières années, un autre domaine est en plein essor, c'est celui de la

microbiologie polaire. L'amélioration de l'accessibilité à ces régions isolées a provoqué un

véritable engouement auprès des microbiologistes, qui se sont empressés d'approfondir

notre savoir sur l'écologie des communautés microbiennes vivant dans ces environnements

de froid intense. D'autant plus qu'une meilleure compréhension des écosystèmes polaires

serait susceptible d'apporter de plus amples connaissances sur des sujets aussi

fondamentaux que l'apparition de la vie sur Terre, les cycles biogéochimiques, ou encore

les changements environnementaux à l'échelle planétaire, qu'ils soient passés ou actuels.

Durant ce doctorat, j'ai choisi de coupler la métagénomique et la microbiologie polaire, afin

d'apporter ma modeste contribution dans l'étude d'un écosystème très peu exploré jusqu'à

présent, à savoir les tapis microbiens des régions polaires. Mes travaux avaient donc pour

but d'évaluer certaines caractéristiques physiologiques inhérentes à la survie de ces

communautés microbiennes dans un habitat particulièrement hostile.

2

Faisant suite à la présente introduction, le deuxième chapitre de cette thèse dresse un

portrait technique de cette fantastique discipline qu'est la métagénomique, puis décrit

ensuite les technologies complémentaires sans lesquelles la métagénomique ne pourrait être

utilisée efficacement, il s'agit en l'occurrence des techniques de séquençage à haut débit et

des différents outils bio-informatiques de traitements des données. Le chapitre 2 est le plus

conséquent de ma thèse car il est représentatif de l'importance des choix en matière de

séquençages à haut débit, d'approches métagénomiques, et de méthodes d'annotations. De

plus, je voulais que ce chapitre soit à l'image de l'ampleur du travail que j'ai fourni lors de

ce doctorat dans la considération de ces différents aspects, afin de mener à bien nos

objectifs.

Le chapitre 3 est quant à lui dédié à la description générale des tapis microbiens polaires en

tant que tels et de leur habitat structurel qui est constitué par les plateformes de glaces. Ce

chapitre est conclu par une note plutôt alarmiste qui met en évidence l'urgence d'étudier un

tel écosystème avant qu'il ne disparaisse en raison du contexte de réchauffement climatique

actuel.

On entre dans le vif du sujet à proprement parler avec le chapitre 4, qui présente les deux

publications réalisées durant ce doctorat, qui traitent d'une part du recyclage des nutriments

au sein des tapis microbiens polaires, et d'autre part des mécanismes d'adaptation à

différents stress utilisés par ces communautés microbiennes.

La discussion énoncée dans le chapitre 5 aborde dans un premier temps les tendances

futures en termes de métagénomique, avec notamment la description des différentes

disciplines « méta-omiques » ainsi que leurs applications possibles. J'évoque ensuite les

forces et les faiblesses de l'approche métagénomique utilisée dans nos articles, pour ensuite

proposer une approche méthodologique alternative, ainsi que des exemples d'analyses

complémentaires qui permettraient de compléter les travaux réalisés lors de ce doctorat.

Dans une deuxième partie, j'aborde un thème aussi passionnant que complexe, celui de la

biogéographie microbienne au sein de la cryosphère. Je compare ainsi certains arguments

en faveur de l'une ou l'autre des deux plus grandes théories liées à la répartition planétaire

3

des microorganismes, c'est-à-dire le cosmopolitisme et l'endémisme, tout en étayant

chacune de ces notions à l'aide de données issues de nos propres analyses ou provenant

d'autres publications sur le sujet.

1.1. Objectifs

Face au caractère plutôt modeste des connaissances actuelles sur les tapis microbiens

polaires, le but de mes travaux de doctorat était d'utiliser la puissance de la métagénomique

afin de tenter de mieux comprendre la structure et les processus métaboliques utilisés par

ces communautés microbiennes.

Plus précisément, l'objectif général était de réaliser, à partir de métagénomes de tapis

microbiens récoltés sur diverses plateformes de glace polaires, des profils fonctionnels et

taxonomiques de basse résolution, afin d'obtenir une vue d'ensemble de la composition et

du potentiel métabolique des tapis microbien polaires, tout en s'efforçant de comparer cette

dernière en fonction de leur origine (Arctique ou Antarctique).

De plus, ce type d'approche devait nous permettre de définir les deux objectifs spécifiques

suivants :

Mettre en évidence la présence d'un système de décomposition et de recyclage des

nutriments au sein des tapis microbiens de l'Arctique, les rendant ainsi capables de

former un microenvironnement riche en nutriments malgré le caractère

oligotrophique de leur habitat;

Évaluer si les similarités taxonomiques éventuelles entre les tapis microbiens

arctiques et antarctiques se reflètent sur leurs réponses génétiques face aux stress

environnementaux. Ceci permettant de tester par la même occasion, si des

communautés microbiennes occupant le même type d'habitat extrême déploient les

mêmes types de mécanismes de résistance et d'adaptation aux stress imposés par

l'environnement polaire, et ceci indépendamment de la distance géographique qui

les sépare.

5

2. La métagénomique

De par l'introduction, vous aurez compris que la métagénomique revêt une importance

capitale dans cette thèse; c'est la raison pour laquelle je lui dédie ce chapitre, qui a pour but

de familiariser le lecteur avec les différents aspects, principes et applications de la

métagénomique.

2.1. Introduction

2.1.1. Définition

La métagénomique consiste à analyser l'ADN génomique d'une communauté microbienne

dans son ensemble. En d'autres mots, c'est une approche basée sur l'isolation directe de

l'intégralité des acides nucléiques présents dans un échantillon prélevé dans un

environnement donné, et ceci sans aucun isolement ou culture de microorganismes au

préalable (Handelsman, 2004; Simon & Daniel, 2011). Le préfixe « méta » qui en grec veut

dire littéralement « au-delà », induit une distinction majeure entre les termes «

métagénomique » et « génomique », ce dernier représentant l'étude de l'ADN génomique

issu d'un seul microorganisme ou d'une cellule unique (Gilbert & Dupont, 2011).

2.1.2. Contexte et origine

Durant la majeure partie de son histoire, la microbiologie est restée centrée sur le fait que la

culture de microorganismes était une étape inhérente à toutes études dignes de ce nom. En

effet, les microbiologistes ont longtemps cru que les organismes microbiens pouvaient être

classifiés, si et seulement si, ils étaient cultivés auparavant (Society of American

Bacteriologists, 1923). Cependant, dans les années 1980, les scientifiques ont réalisé que

les microbes étaient beaucoup plus ubiquitaires, diversifiés, et nombreux que ce qu'ils

pensaient (Ederer, 2011); et nous savons désormais que les techniques classiques de culture

utilisées en microbiologie ont permis jusqu'à maintenant de caractériser seulement environ

1% de la diversité microbienne planétaire (D'Onofrio et al., 2010). Des estimations

calculées par Whitman et collaborateurs (Whitman et al., 1998) indiquent que la terre est

l'habitat d'environ 5×1030

procaryotes (bactéries et archées) avec plus de 107 espèces de

6

bactéries différentes, ces dernières étant présentes dans tous les environnements planétaires,

capables de coloniser les habitats les plus extrêmes allant des sources hydrothermales à

340°C des profondeurs océaniques, aux tapis microbiens polaires que nous avons étudiés

(Whitman et al., 1998).

Mais pourquoi l'étude de l'écologie microbienne devrait susciter autant d'intérêt ?

Les microorganismes ne sont pas seulement omniprésents, ils sont essentiels à la vie sur

terre car ils représentent le plus grand réservoir de nutriments de la planète en séquestrant

50% du carbone total de tous les organismes vivants et en constituant le plus grand

réservoir terrestre de nitrogène et de phosphore cellulaire (Whitman et al., 1998). De plus,

les microbes sont les principaux recycleurs de matières en décomposition permettant de

rendre à nouveau disponible divers composés sous forme organique (Whitman et al., 1998).

Ils jouent donc un rôle critique dans les processus biogéochimiques en maintenant la survie

des écosystèmes (Falkowski et al., 2008). Par ailleurs, l'étude de la diversité microbienne

des environnements extrêmes, tels que les sources chaudes (Rhee et al., 2005), les bassins

hyper-salins (Ferrer et al., 2005), la glace de glacier (Simon et al., 2009), et les sols ou

sédiments arctiques et antarctiques (Heath et al., 2009; Jeon et al., 2009), suscite un certain

engouement étant donné du fait que ces écosystèmes représentent un réservoir de nouvelles

biomolécules ayant potentiellement un intérêt au niveau biotechnologique.

Tout comme les plantes et les autres animaux, l'existence même de l'homme est fortement

dépendante et affectée par les microorganismes. Nous avons plus de cellules bactériennes

(1014

) résidant dans notre corps que de cellules humaines (1013

) (Berg, 1996). Le matériel

génétique de l'ensemble de ces bactéries représente environ 1000 fois plus de gènes que

ceux du génome humain (Ederer, 2011). Par ailleurs, Turnbaugh et collaborateurs

(Turnbaugh et al., 2006) ont déjà démontré que des différences dans la composition du

microbiome humain peuvent être liées à certaines conditions pathologiques chez l'homme.

En résumé, on peut affirmer que l'étude de l'écologie des communautés microbiennes de la

biosphère constitue une première étape fondamentale dans la compréhension :

7

De leurs contributions dans le maintien de la santé planétaire;

De leurs rôles dans le bien-être chez l'humain;

Des conséquences environnementales de l'activité humaine.

Au vu du peu de connaissances de la communauté scientifique en termes de biodiversité

microbienne, les microbiologistes avaient besoin de nouvelles approches moins réductrices,

et indépendantes de la culture pour la caractérisation des microorganismes, prenant ainsi en

compte l'écosystème dans son ensemble. Le développement de nouvelles méthodologies

devaient permettre ainsi de caractériser les organismes identifiés dans leur environnement,

ceci impliquant de pouvoir déceler leurs possibles interactions avec les autres membres de

la communauté et leur potentiel métabolique.

C'est dans ce contexte que Pace et collaborateurs (Pace et al., 1986), qui aspiraient à étudier

la diversité et la classification des bactéries par d'autres méthodes que celles basées sur les

traits morphologiques et physiologiques des ces organismes, furent les premiers à analyser

directement (sans culture au préalable) les gènes codant pour l'ARN ribosomique (ARNr)

16S présents dans un échantillon environnemental afin de déterminer sa diversité

microbienne. Depuis l'étude novatrice de Pace et collaborateurs en 1986 (Pace et al., 1986),

l'utilisation de l'ARNr 16S (couplée à la technologie de séquençage de Sanger (Sanger et

al., 1977) déjà très populaire à l'époque) s'est rapidement imposée au fil des années comme

outil de prédilection pour la discrimination des différentes espèces bactériennes. Ce sont

donc des recherches de ce type qui ont permis ultimement la naissance de la

métagénomique, c'est-à-dire, une discipline nouvelle qui se situe à l'interface de la

microbiologie, la génomique et l'écologie (Ederer, 2011). Ce terme ayant été mentionné

officiellement pour la première fois par Handelsman et collaborateurs (Handelsman et al.,

1998) lors d'une étude visant à découvrir des nouveaux antibiotiques à partir de

communautés microbiennes vivant dans le sol.

Cette nouvelle approche qu'est la métagénomique vise ainsi, en analysant le contenu en

acides nucléiques d'une communauté microbienne quelconque, à caractériser la diversité

microbienne, la complexité génétique, mais aussi ses diverses interactions dont celles de

8

nature métabolique. C'est sur ce dernier point que la métagénomique se distingue, en

permettant d'aller bien plus loin que les analyses basées seulement sur l'amplification PCR

des gènes codant pour l'ARNr 16S ou 18S qui permettent de se concentrer uniquement sur

des études taxonomiques. Ainsi, avec le soutien essentiel de la bio-informatique, le

couplage de la métagénomique avec le séquençage à haut débit, offre dorénavant la

possibilité d'accéder à des domaines inexplorés du monde microbien.

La complexité et le nombre sans cesse grandissant de projets métagénomiques ont engendré

la création par la communauté scientifique de consortiums visant à aider les chercheurs

utilisant des données métagénomiques, en offrant des cyber-infrastructures permettant

essentiellement le catalogage des génomes (complets) de référence issus de métagénomes

et des outils d'analyse et de consultation de ces données. On peut distinguer à l'heure

actuelle quatre principales ressources de ce type : le « Human Microbiome Project (HMP) »

(http://www.hmpdacc.org/), le « Global Ocean Sampling (GOS) expedition »

(http://www.jcvi.org/cms/research/projects/gos/), le « Terragenome »

(http://www.terragenome.org/), et enfin mais non le moindre, le « Earth Microbiome

Project (EMP) ».

2.1.3. Méthodes et applications

La métagénomique représente un attrait indéniable pour les scientifiques dans le sens où

elle leur permet d'accéder à un certain nombre des membres d'une communauté

microbienne donnée (indépendamment du fait de savoir si ces organismes peuvent être

cultivés ou pas), tout en ayant la possibilité d'accéder à une vue d'ensemble des voies

métaboliques régnant en son sein.

Ceci étant dit, quels sont les types d'approches métagénomiques et leurs principales étapes

en termes de protocole ?

Cela dépend bien évidemment du but de l'étude en question mais on peut résumer ces

étapes à la manière de celles illustrées dans la figure 2.1.

9

Figure 2.1. Schématisation de plusieurs méthodologies courantes dans une analyse

métagénomique (figure adaptée d'Ederer, 2011). Le chemin constitué de cadres et de

flèches rouges symbolise la méthode métagénomique utilisée dans les différentes analyses

présentées dans cette thèse.

Dans tous les cas, on doit procéder après échantillonnage de l'écosystème en question, à

une extraction de l'ensemble de l'ADN ou l'ARN génomique présent dans le ou les

échantillon(s). Si l'estimation de la diversité microbienne est le seul but de l'étude en

question, une amplification PCR spécifique des gènes codant pour l'ARNr 16S ou 18S sera

réalisée afin de séquencer uniquement ces derniers en bout de ligne; on obtiendra ainsi une

librairie à grande échelle de gènes d'ARN ribosomique. Une telle librairie peut ensuite être

soumise à une biopuce de type PhyloChip afin de pouvoir comparer la diversité de cette

dernière avec un ensemble de gènes codant pour des ARNr 16S connus (Brodie et al., 2006;

DeSantis et al,. 2007; Yergeau et al., 2009). Par contre, si on s'intéresse cette fois au

potentiel métabolique d'un écosystème, on va s'efforcer d'analyser l'ensemble des acides

nucléiques de l'échantillon. L'ADN ou l'ADNc (ADN complémentaire obtenu par

rétrotranscription de l'ARN isolé) extrait peut être alors traité essentiellement de trois

manières différentes :

10

Il peut être fragmenté aléatoirement, puis séquencé directement en utilisant des

technologies de séquençage à haut débit. Il faut noter que ce séquençage direct

d'acides nucléiques après extraction est de plus en plus privilégié à l'heure actuelle,

étant donné qu'il permet de se soustraire à toute étape de clonage. À noter cependant

que la plupart des techniques de séquençage à haut débit nécessitent la création

d'une librairie de fragments d'ADN, néanmoins ces derniers ne sont pas clonés, et il

ne faut donc pas confondre ce type de librairie avec celui mentionné dans le

paragraphe suivant;

Après fragmentation aléatoire, l'ADN peut également être cloné afin de constituer

une librairie de clones à petits ou larges inserts qui sera ensuite séquencée par la

technique de Sanger (Sanger et al., 1977) ou par une technologie à haut débit; c'est

ce qu'on appelle le séquençage en aveugle (voir section 2.2.2.). Cette librairie peut

ensuite être parcourue pour rechercher puis séquencer des clones comportant un

gène d'intérêt, ou bien séquencée en totalité pour permettre la reconstitution de

génomes complets (Venter et al., 2004);

Troisièmement, l'ADN génomique extrait peut aussi être analysé par des biopuces

de type GeoChip 3.0 contenant un ensemble de sondes spécifiques à des marqueurs

phylogénétiques (tel que gyrB) et à des gènes d'intérêts connus (appartenant à des

cycles biogéochimiques par exemple) (He et al., 2007; 2010).

Dans tous les cas, le volume conséquent de fragments séquencés (appelés « reads » en

anglais) lors d'une étude de métagénomique, fait en sorte que l'utilisation de la bio-

informatique est indispensable afin d'analyser ces derniers.

11

D'un point de vue général, toute étude faisant appel à la métagénomique doit s'orienter vers

l'une des approches suivantes (DeLong, 2007) :

La première est centrée sur le « génome » afin de déterminer les membres

composant une communauté microbienne, avec le but ultime de tenter d'assembler

leur génome complet;

La seconde aspire quant à elle, à réaliser une analyse fonctionnelle de la

communauté échantillonnée afin de déceler son potentiel métabolique. Elle est donc

basée cette fois-ci non pas sur le « génome » mais sur le « gène ». C'est d'ailleurs

cette approche qui a été privilégiée dans le cadre de cette thèse pour l'étude des tapis

microbiens polaires.

La combinaison des deux approches citées précédemment est également

envisageable.

Les études métagénomiques effectuées jusqu'à présent ont porté sur trois principaux types

de communautés microbiennes :

Les communautés que l'on retrouve à l'état naturel (environnements tempérés ou

extrêmes);

Les communautés vivant dans un environnement modifié par l'activité humaine;

Les communautés qui dépendent d'un hôte pour survivre.

Le tableau 2.1. recense un certain nombre d'exemples d'études métagénomiques classées

selon les trois catégories de communautés microbiennes citées précédemment. Cette liste

n'est en aucun cas exhaustive, elle a seulement pour but d'illustrer la grande diversité des

projets de métagénomique déjà réalisés à ce jour.

12

Tableau 2.1. Liste (non exhaustive) d'études pertinentes retraçant l'histoire de la

métagénomique (tableau adapté de Ederer, 2011). Ces différents projets sont classés selon

le type de communautés microbiennes analysées. Abréviations : Gbases (gigabases),

Mbases (mégabases), 454 (pyroséquençage 454), ABI (séquençage ABI SOLiD), Illumina

GA (séquençage Illumina Genome Analyzer), Illumina HS (séquençage Illumina HiSeq

2000).

Auteurs

Objectifs de l'étude

métagénomique Taille du projet

Type de

séquençage

Communautés

à l'état

naturel

Hugenholtz et al.,

1998

Taxonomie bactérienne

d'une source chaude du

Yellowstone

Librairie de gènes

d'ARNr (˃300

clones)

ABI

Rondon et al., 2000

Identification de

nouveaux gènes à partir

de microbiomes du sol

1 Gbases clonées dans

des BACs ABI

Breitbart et al., 2002

Comparaison de deux

communautés océaniques

de virus

Librairie de gènes

d'ARNr 16S clonés

(˃1000 clones)

ABI

Venture et al., 2004 Microbes de la mer des

Sargasses 1,045 Gbases clonées ABI

Edwards et al., 2006

Population microbienne

de la mine « Soudan »

aux États-Unis

70 Mbases 454

Rusch et al., 2007 Échantillonnage global

de l'océan (GOS) 6,4 Gbases clonées ABI

Dinsdale et al., 2008

Métagénomique des

profils métaboliques de 9

biomes

15 Mbases 454

Breitbart et al., 2009

Communautés

microbiennes associées

aux microbialites

47,1 Mbases 454

Varin et al., 2010;

2012

Les tapis microbiens

polaires 146 Mbases 454

Communautés

affectées par

l'activité

humaine

Martin et al., 2006

Taxonomie des

communautés de boue

activée dans le traitement

des eaux usagées

176 Mbases ABI

Thurber et al., 2009 Facteurs de stress sur le

corail holobionte

22 Mbases

454

Tamaki et al., 2011 Virus à ADN contenus

dans les eaux usées

70-119 Mbases

454

Yu & Zhang, 2012

Métagénomique et

métatranscriptomique de

boue activée dans le

traitement des eaux

usagées

4,8 Gbases Illumina HS

13

Tableau 2.1. (suite)

Auteurs

Objectifs de l'étude

métagénomique Taille du projet

Type de

séquençage

Communautés

hôte-

dépendantes

Breitbart et al., 2003 Communauté virale des

excréments humains

17 Mbases d'ADN

contenues dans une

librairie de 532 clones

ABI

Gill et al., 2006 Métagénomique de la

partie distale de l'intestin

78 Mbases avec

2062 clones de gènes

d'ARNr 16S

454

Warnecke et al.,

2007

Métagénome intestinal

du termite 71 Mbases 454

Qin et al., 2010

Catalogue de gènes du

microbiome intestinal

humain

576,7 Gbases

Illumina

GA et

Sanger

Le consortium sur le

projet du

microbiome humain,

2012a

Fonction et diversité du

microbiome humain chez

le sujet sain 2Tbases

Illumina

GA et 454

Le consortium sur le

projet du

microbiome humain,

2012b

Un cadre de travail pour

la recherche sur le

microbiome humain 3,5Tbases

Illumina

GA

Abubucker et al.,

2012

Reconstructions

métaboliques pour le

microbiome humain

3,5Tbases Illumina

GA

Dans les dernières années, on a pu constater l'émergence de nouvelles études

métagénomiques basées sur l'expression des gènes (Urich et al., 2008; Moran, 2009) ou sur

la production de protéines (Wilmes et al., 2008; Schweder et al., 2008) plutôt que sur

l'ADN. En effet, la métatranscriptomique et la métaprotéomique (voir section 2.4.1.) sont

des approches qui ont le potentiel de nous apporter de nouvelles connaissances sur la

dynamique fonctionnelle des communautés microbiennes (Simon & Daniel, 2011).

2.1.4. Défis

Conceptuellement, une approche métagénomique semble plutôt simple (Figure 2.1.); il

suffit d'extraire, puis de séquencer les acides nucléiques d'un échantillon environnemental,

pour ensuite analyser le tout afin de caractériser la communauté microbienne de

l'échantillon en question. Mais en réalité, l'utilisation de la métagénomique amène certains

défis et limites dont il faut tenir compte lors de la conception de la méthodologie d'un projet

et dans l'interprétation des résultats obtenus. Les éventuels problèmes associés à une étude

de métagénomique peuvent être répertoriés selon les aspects détaillés dans les sous-sections

2.1.4.1. à 2.1.4.4.

14

2.1.4.1. L'environnement analysé

Il faut toujours être conscient que l'échantillonnage d'un environnement donné se fait en un

point géographique bien particulier, et à un moment précis dans le temps, et que par

conséquent, la composition d'une communauté peut varier grandement si l'un ou l'autre de

ces paramètres change (Morris et al., 2002; Kunin et al., 2008).

De plus, la notion de microenvironnement vient compliquer le processus d'échantillonnage,

qui généralement n'est pas assez précis pour différencier les sous-écosystèmes qui peuvent

coexister dans un même environnement. Un gramme de sol forestier par exemple, peut

contenir de 6400 à 38000 espèces différentes de bactéries (Ederer, 2011), cependant, ces

dernières ne sont pas distribuées de façon égale dans le sol, il est bien plus probable qu'elles

forment des mini-communautés organisées en sous-écosystèmes pouvant être en contact ou

séparés les uns des autres. Ainsi, l'isolement de l'ADN d'un échantillon contenant ce type de

microenvironnement ne permettra vraisemblablement pas de reconstituer la sous-

distribution des membres qui composent ce genre de mini-communautés.

D'autre part, le principe même de la métagénomique fait en sorte que les fragments

séquencés à partir d'un échantillon d'ADN génomique sont issus d'un plus ou moins grand

nombre d'espèces différentes dont, pour la majeure partie, le génome complet n'est pas

présent. L'identification de l'espèce d'origine auquel appartient un fragment donné n'est

donc pas chose aisée. Nous traitons ce sujet plus en détail dans la section 2.3.3. de cette

thèse.

Une étude de Huber et collaborateurs (Huber et al., 2007) sur des communautés de

bactéries et d'archées vivant dans des cheminées hydrothermales, a montré qu'un

échantillon métagénomique peut être représentatif de l'environnement en termes de

taxonomie (en l'occurrence de la population d'archées dans cet exemple). Cependant, ces

mêmes auteurs ne sont pas parvenus à explorer de façon exhaustive la population

bactérienne de cet environnement, cette dernière étant beaucoup plus diversifiée. En effet,

la difficulté d'identifier potentiellement toutes les espèces d'un écosystème augmente avec

la complexité et diversité taxonomique de ce dernier (Sogin et al., 2006; Huber et al., 2007;

Wooley et al., 2010). Même un séquençage « en profondeur » d’un environnement naturel

permet d’accéder seulement à une fraction infime de la variabilité génétique disponible

dans le milieu en question (Gilbert & Dupont, 2011). Par conséquent, une analyse

15

métagénomique permet habituellement d'identifier seulement les membres les plus

abondants d'une communauté (Tyson et al., 2004), car les espèces les plus nombreuses

masquent celles qui sont rares, en fournissant une part beaucoup plus importante du

matériel génétique total de la population microbienne en question. Ainsi, les chances de

retrouver des fragments appartenant aux espèces moins représentées dans l'échantillon sont

plus faibles. À titre d’exemple, une étude sur un échantillon d’une communauté

microbienne de rumen comptant plus de 500 genres bactériens différents, a mis en évidence

que les séquences issues des cinq plus abondants genres comptaient pour plus de 73% du

nombre de séquences totales (Sparks et al., 2011). Néanmoins, certaines techniques comme

l'hybridation différentielle permettent de soustraire l'ADN le plus abondant d'un échantillon

afin de permettre d'avoir accès aux génomes des espèces plus rares (Galbraith et al., 2007).

D'une manière générale, il faut donc être prudent quant à la représentativité des résultats

obtenus lors d'une étude métagénomique. En d'autres termes, ce qui est observé dans

l'échantillon ne le sera pas forcément dans l'environnement dont ce dernier est issu.

D'autant plus que Bent et Forney (Bent & Forney, 2008) ont mis en évidence que la

majorité des communautés microbiennes complexes affichent une distribution taxonomique

caractéristique où seulement quelques espèces dominent alors que la vaste majorité de la

population est inusitée.

2.1.4.2. L'étape d'isolation et d'extraction des acides nucléiques

Les microorganismes ont différents niveaux d'accessibilité face à l'isolation. Certains

d'entre eux peuvent rester attachés à des particules inertes présentes dans l'échantillon,

rendant leur ADN inaccessible. De plus, l'efficacité du procédé de lyse cellulaire varie

selon les organismes, si bien que le produit d'extraction d'un échantillon environnemental

ne représentera pas forcément tous les organismes présents au départ lors de

l'échantillonnage. Ceci pouvant bien évidemment biaiser l'estimation de la composition

taxonomique de l'échantillon en question.

Il a été rapporté récemment que l'utilisation de différentes approches d'extraction pour

l'étude d'un même métagénome apporte l'avantage de pouvoir caractériser des parties

différentes de ce dernier, mais aussi d'augmenter le nombre d'espèces et de fonctions

détectées (Delmont et al., 2012). Cependant, Morgan et collaborateurs (Morgan et al.,

16

2010) ont démontré que l'utilisation de protocoles d'extraction différents dans des études de

métagénomique comparative peuvent entraîner des biais significatifs dans les résultats; c'est

la raison pour laquelle nous avons choisi d'avoir recours à la même méthode d'extraction

pour tous les échantillons analysés dans nos études, nous permettant ainsi de considérer les

mêmes biais dans toutes nos analyses subséquentes.

2.1.4.3. L'étape de clonage

La fabrication d'une librairie de clones préalablement au séquençage peut entraîner certains

biais inhérents au processus de clonage (niveau d'efficacité, nombres suffisants de clones

produits), mais aussi à l'étape de PCR qui est souvent nécessaire après un clonage, et qui

comporte certains désavantages comme les biais introduits par l'utilisation des sondes et/ou

par l'amplification exponentielle (Suzuki & Giovannoni, 1996; Wang & Wang, 1997;

Kanagawa, 2003; Acinas et al., 2005; Sipos et al., 2010). On sait par ailleurs que des

fragments d'ADN pauvres en bases GC peuvent être moins stables et affecter l'efficacité du

clonage (Temperton et al., 2009). De plus, certains gènes ne peuvent être incorporés dans

les vecteurs de librairie en raison de leur instabilité ou de leur toxicité pour la cellule hôte

(Sorek et al., 2007).

Néanmoins, l'ensemble de ces biais peuvent être évités en supprimant tout simplement

l'étape de clonage, et donc en séquençant directement l'ADN génomique obtenu après

extraction. Cette approche a d'ailleurs été proposée comme la méthode la plus précise pour

l'estimation de la diversité taxonomique de métagénomes (von Mering et al., 2007).

2.1.4.4. Le séquençage

La présence de certaines substances inhibitrices contenues dans l'environnement prélevé,

comme l'acide humique souvent associée aux échantillons provenant du sol, peut affecter

l'efficacité du séquençage.

Il faut mentionner également qu'il existe d'autres défis liés à l'utilisation de la

métagénomique, mais étant donné que ceux-ci sont associés au séquençage à haut débit et

au traitement bio-informatique des séquences générées, j'ai fait le choix de les aborder dans

les sections 2.2. et 2.3. respectivement.

17

2.2. Séquençage à haut débit

L'essor de la métagénomique n'aurait pu avoir lieu sans les remarquables avancées

technologiques que le séquençage de l'ADN a connu lors de la dernière décennie,

notamment avec l'avènement des techniques de séquençage de deuxième génération, qui

permettent de produire un nombre beaucoup plus important d'ADN séquencés, en moins de

temps et à moindre coût.

2.2.1. Historique

Au cours du 20ème

siècle, le séquençage de l'ADN a révolutionné la recherche dans le

domaine des sciences de la vie, en réalisant un grand pas pour l'humanité avec le

séquençage complet du génome humain en 2001 (Lander et al., 2001; Venter et al., 2001).

Historiquement, ceci a été rendu possible grâce aux prouesses de deux pionniers travaillant

sur le séquençage, W. Gilbert et F. Sanger qui se partagèrent le prix Nobel de chimie en

1980 pour leurs co-découvertes dans ce domaine. Tout a commencé en 1975 avec Sanger et

Coulson qui sont parvenus à développer la méthode de terminaison des chaînes, permettant

le séquençage d'environ 50 nucléotides contigus sur plusieurs jours (Sanger & Coulson,

1975). Deux ans plus tard, Maxam et Gilbert présentent alors une autre méthode de

séquençage basée sur la dégradation chimique de l'ADN par coupures sélectives (Maxam &

Gilbert, 1977). Cependant, la même année Sanger publie une méthode complémentaire à

celle qu'il avait déjà créé en 1975, en introduisant l'utilisation des didéoxynucléotides, des

inhibiteurs de l'ADN polymérase spécifiques à chaque base nucléotidique (Sanger et al.,

1977). La même année, le développement de cette technologie a ainsi permis de séquencer

le tout premier génome complet, celui du phage φX (Sanger et al., 1977). Dans les deux

décennies suivantes, la méthode de séquençage de Sanger a été améliorée en termes de

procédés et de chimie, avec la capacité de produire des séquences d'une longueur de 1000

nucléotides avec une précision pouvant atteindre 99,999% (Shendure et al., 2004). Mais

l'avancée majeure depuis cette optimisation reste son automatisation, qui a ouvert la voie à

la démocratisation du séquençage à partir des années 1990 (Hutchison, 2007). Ces avancées

dans la technique de Sanger ont rendu possible le séquençage d'une variété de génomes

bactériens et eucaryotes, dont les plus marquants sont : Saccharomyces cerevisiae (Goffeau

et al., 1996), Escherichia coli (Blattner et al., 1997), le riz (Goff et al., 2002; Yu et al.,

18

2002), la souris (Waterston et al., 2002), et enfin l'homme (Lander et al., 2001; Venter et

al., 2001).

Néanmoins, la démocratisation du séquençage en aveugle de génomes dans les années

1990, a conduit à la génération d'un volume de plus en plus important de données à

séquencer, rendant ainsi la technologie de Sanger souvent inadéquate, car jugée trop longue

et particulièrement onéreuse (Shendure & Ji, 2008). C'est la raison pour laquelle en 2004, le

National Human Research Institute a lancé « le programme de séquençage du génome à

1000$ » dans le but de réduire à cette somme le prix du séquençage des génomes de

mammifère, et ceci d'ici une dizaine d'années. Ainsi après cette annonce, plusieurs

compagnies se sont lancées dans l'aventure afin de créer des nouveaux instruments de

séquençage permettant de produire plus rapidement, et pour moins cher, des quantités

massives de données (Meldrum, 2001; Meldrum & Holl, 2002). C'est dans cet esprit que

sont nées les technologies de séquençage à haut débit de deuxième et troisième génération.

2.2.2. Le séquençage en aveugle

Ce type de séquençage (appelé « whole-genome shotgun sequencing ») a été popularisé à la

fin des années 1990 par l'Institut Craig Venter, bien que Sanger et collaborateurs l'avaient

proposé dès 1982 avec le séquençage du génome complet du phage λ (Sanger et al., 1982).

Cette méthode, toujours utilisée à l'heure actuelle, a permis l'assemblage de grands

génomes (bactériens puis eucaryotes) tels que ceux cités dans la section 2.2.1.

On peut décrire cette méthode de séquençage de la manière suivante :

19

1. L'ADN génomique de l'organisme à séquencer est fragmenté de façon aléatoire;

2. Les fragments sont clonés au hasard dans un vecteur (plasmide ou BAC), qui est

ensuite introduit dans une bactérie hôte (comme E. coli) afin de créer une librairie

de séquences et de produire ainsi assez de matériel pour le séquençage subséquent;

3. Les fragments de la librairie de clones sont alors séquencés avec la technologie de

Sanger;

4. Les séquences obtenues sont assemblées à l'aide de différents outils de bio-

informatique afin de reconstituer le génome complet de l'organisme en question.

Signalons cependant, que ce type de séquençage est de plus en plus concurrencé par

l'avènement des technologies de séquençage dites de « nouvelle génération » présentées

dans la section suivante.

2.2.3. Les méthodes à haut débit

Apparues à partir de 2005, les méthodes de séquençage à haut débit de l'ADN, dites de «

nouvelle génération » (Next Generation Sequencing (NGS)), ont gagné beaucoup de terrain

sur la technologie de Sanger pour le séquençage des petits génomes et des écosystèmes

environnementaux. Ceci est principalement dû au fait qu’elles sont grandement

parallélisées permettant la production de plusieurs millions de séquences (« reads »)

différentes par expérience sans avoir nécessairement besoin d’une étape de clonage au

préalable. Ainsi, ces méthodes permettent d’obtenir un plus grand nombre de séquences,

plus rapidement et pour un prix inférieur à la méthode de Sanger. Néanmoins, les « reads »

produits sont plus courts pour la plupart des technologies existantes en 2012: de 35 à 250

pb (paires de bases), excepté pour le pyroséquençage 454 qui depuis peu, serait en mesure

de séquencer des fragments d'une longueur moyenne de 700 pb égalant ainsi plus ou moins

la méthode de Sanger (Siqueira et al., 2012).

20

Les techniques de séquençage de deuxième génération les plus utilisées à l'heure actuelle

utilisent des méthodologies différentes, cependant, elles présentent des similarités dans leur

protocole, plus particulièrement elles comprennent toutes les étapes suivantes :

1. Construction d’une librairie de séquences, qui consiste à fragmenter l’ADN

génomique pour ensuite lier des adaptateurs à chacune des extrémités de ces

fragments;

2. Chaque fragment de la librairie est amplifié de manière à ce que chaque produit

d'amplification soit séparé les uns des autres;

3. Séquençage effectué par plusieurs cycles de réactions enzymatiques, le tout étant

mesuré en temps réel.

On compte actuellement plusieurs technologies dont quatre majeures de séquençage à haut

débit de deuxième génération, chacune d'entre elles étant décrites ci-dessous.

2.2.3.1. Le pyroséquençage 454

Commercialisée par la compagnie 454 Life Sciences (appartenant désormais à Roche

Diagnostics Corporation) depuis 2005, cette méthode consiste à séquencer un fragment

d’ADN simple brin par synthèse du brin complémentaire, une base à la fois, en détectant à

chaque étape le nucléotide qui a été ajouté (Margulies et al., 2005). Cette technologie

produit les « reads » les plus longs en 2012 en termes de séquençage à haut débit de

deuxième génération, soit des fragments de 1000 pb en théorie avec le nouveau système GS

FLX+, mais en pratique la longueur moyenne maximale des « reads » produits se situe

autour de 700 pb à l'heure actuelle. Une seule analyse de 454 peut désormais produire

jusqu'à 700 millions de nucléotides (1 million de « reads ») en 23 heures environ.

La première étape consiste à préparer une librairie de fragments simple brin, qui est alors

mise en contact avec des billes recouvertes de sondes oligonucléotidiques complémentaires

aux adaptateurs (Figure 2.2., encadré A et B); les conditions expérimentales font en sorte

qu’une bille fixe un seul fragment de la librairie (Figure 2.2., encadré C). Ensuite, une

21

amplification par PCR à émulsion est réalisée afin d’amplifier le fragment d’ADN fixé à la

bille (Figure 2.2., encadré D). Chaque bille contenue dans l’émulsion (mélange d’huile et

d’eau) est piégée dans une bulle qui joue le rôle de microréacteur où l’amplification clonale

a lieu (Figure 2.2., encadré D). Ceci permet d’obtenir une bille recouverte en surface de

fragments simple brin, tous identiques, et prêts à être séquencés. Les billes sont alors mises

en contact avec une plaque à micro-puits qui fait en sorte que chaque puits contient une

seule bille, ainsi que les différentes enzymes (ADN polymérase, sulfurylase, luciférase)

nécessaires à l'étape de séquençage (Figure 2.2., encadré E). Au sein de chaque puits, la

séquence complémentaire des fragments amplifiés préalablement à la surface de la bille va

être synthétisée en parallèle (étape d'élongation réalisée par l'ADN polymérase) et donc

séquencée par la même occasion. L'étape d'élongation se déroule de la manière suivante :

les nucléotides sont introduits dans le milieu réactionnel l'un après l'autre dans un ordre

prédéterminé; si le nucléotide ajouté est celui attendu par l'ADN polymérase, il est

incorporé dans le brin en cours de synthèse et libère alors un pyrophosphate immédiatement

dégradé en ATP par l'ATP sulfurylas

MÉTAGÉNOMIQUE DES TAPIS MICROBIENS …...premier temps, de dresser une description générale de...

Documents

Transcript of MÉTAGÉNOMIQUE DES TAPIS MICROBIENS …...premier temps, de dresser une description générale de...