MÉTAGÉNOMIQUE DES TAPIS MICROBIENS …...premier temps, de dresser une description générale de...

239
THIBAUT VARIN MÉTAGÉNOMIQUE DES TAPIS MICROBIENS POLAIRES Thèse présentée à la Faculté des études supérieures et postdoctorales de l’Université Laval dans le cadre du programme de doctorat en physiologie-endocrinologie pour l’obtention du grade de Philosophiæ doctor (Ph.D.) DÉPARTEMENT DE MÉDECINE MOLÉCULAIRE FACULTÉ DE MÉDECINE UNIVERSITÉ LAVAL QUÉBEC 2013 © Thibaut Varin, 2013

Transcript of MÉTAGÉNOMIQUE DES TAPIS MICROBIENS …...premier temps, de dresser une description générale de...

  • THIBAUT VARIN

    MÉTAGÉNOMIQUE DES TAPIS MICROBIENS

    POLAIRES

    Thèse présentée

    à la Faculté des études supérieures et postdoctorales de l’Université Laval

    dans le cadre du programme de doctorat en physiologie-endocrinologie

    pour l’obtention du grade de Philosophiæ doctor (Ph.D.)

    DÉPARTEMENT DE MÉDECINE MOLÉCULAIRE

    FACULTÉ DE MÉDECINE

    UNIVERSITÉ LAVAL

    QUÉBEC

    2013

    © Thibaut Varin, 2013

  • i

    Résumé

    Le domaine de l'écologie microbienne est en pleine effervescence grâce à l'avènement de la

    métagénomique et des techniques de séquençage de nouvelle génération (SNG), qui nous

    apportent une meilleure compréhension de la structure et du fonctionnement des

    communautés microbiennes de la biosphère. Cette thèse illustre ainsi une manière de tirer

    profit de l'utilisation de ces nouvelles technologies, dans le but d'étudier un écosystème qui

    a été très peu caractérisé jusqu'à maintenant, en l'occurrence les tapis microbiens polaires.

    Les analyses métagénomiques de différents tapis microbiens polaires ont permis dans un

    premier temps, de dresser une description générale de la taxonomie et du potentiel

    fonctionnel des communautés microbiennes en question, pour ensuite nous permettre

    d'examiner de façon plus exhaustive deux de leurs particularités métaboliques.

    L'existence éventuelle d'un système de recyclage des nutriments au sein même des tapis

    microbiens étudiés a été soulevée étant donné le caractère oligotrophique de leur milieu

    environnant. L'analyse des profils métagénomiques des tapis microbiens de l'Arctique a

    permis de mettre en évidence plusieurs groupes de gènes impliqués dans des mécanismes

    de décomposition et de récupération qui donneraient la possibilité à ces communautés de

    retenir et de recycler leurs nutriments au sein de leur microenvironnement benthique.

    Un autre aspect des tapis microbiens polaires sur lequel je me suis penché lors de ce

    doctorat, concerne la propension des membres peuplant ce type d'écosystème à s'acclimater

    à un large panel de stress découlant de la nature extrême de leur habitat. La présence de

    divers procédés métaboliques d'adaptation au froid et à d'autres stress a été observée à partir

    de l'analyse du métagénome des ces communautés arctiques et antarctiques, en

    concordance avec les différents niveaux de représentation des principaux groupes

    bactériens.

    Cette thèse démontre à quel point le recours aux disciplines « méta-omiques », peut nous

    amener vers une meilleure compréhension de l'écologie microbienne, et comment

    l'émergence de ces technologies a permis d'aborder différemment des thèmes aussi

    fondamentaux que celui de la biogéographie des microorganismes.

  • ii

    Abstract

    Over the last few years, metagenomics and next generation sequencing (NGS) have been

    revolutionizing the field of microbial ecology leading to a greater understanding of the

    structure and functions of the microbial communities in the biosphere. The work

    presented here applies these new technologies to study polar microbial mats, which are

    poorly-characterized ecosystems.

    Metagenomic analyses of distinct polar microbial mats provided an opportunity to, firstly

    obtain a general description of microbial community composition and metabolic activity,

    and subsequently, to more thoroughly study two specific metabolic processes.

    We hypothesized that microbial mats are nutrient-replete despite the oligotrophic

    conditions of the surrounding waters due to strong nutrient recycling within the polar

    microbial mats. Analyses of metagenomic profiles derived from arctic microbial mats

    revealed that several groups of genes involved in scavenging mechanisms provide these

    communities with the capacity to retain and recycle nutrients within the shallow

    benthic microenvironment.

    Another aspect of polar microbial mats which was examined during this PhD, addresses the

    ability of organisms in the mat to thrive despite varied environmental stresses. The presence

    of different metabolic processes involved in cold adaptation and other stresses was detected

    from metagenomic analyses of Arctic and Antarctic communities that were

    consistently proportional to their representation within major bacterial groups.

    This thesis demonstrates how metagenomics and associated « meta-omics » approaches can

    be informative to improve global comprehension of microbial ecology, and how the

    emergence of these disciplines enables us to tackle fundamental questions such as

    biogeography of microorganisms with a new vision.

  • iii

    Avant-propos

    En ce qui concerne les contributions apportées lors de ce doctorat, je précise que je suis le

    premier auteur des deux publications qui sont présentées au chapitre 4 de cette thèse. Plus

    précisément, je suis responsable de la production intégrale des données et de l'exécution de

    l'ensemble des analyses bio-informatiques et statistiques nécessaires à la création de la

    matière sur laquelle repose ces articles. Il faut mentionner cependant, que le travail de

    laboratoire, qui consistait à réaliser des extractions d'ADN à partir d'échantillons de tapis

    microbiens polaires, a été exécuté par Anne D. Jungblut. J'ai rédigé la première version de

    mes deux articles (inclus dans cette thèse), puis retravaillé ensuite leur rédaction sous la

    supervision de mes coauteurs, à savoir : Connie Lovejoy, Anne D. Jungblut, Warwick F.

    Vincent, et Jacques Corbeil.

    Dans un autre registre, je tiens à remercier Jacques Corbeil pour m'avoir tenté et permis de

    me lancer dans cette aventure qu'est le doctorat. Je salue également l'ouverture d'esprit, le

    caractère visionnaire, et la pluridisciplinarité de mon directeur de recherche, qui ont

    définitivement influencé le déroulement de mes études de troisième cycle d'une manière

    très positive. Un grand merci, également, à ma codirectrice Connie Lovejoy pour sa

    gentillesse et sa constante bonne humeur, mais surtout pour ses précieux conseils et son

    aide dans divers aspects techniques rencontrés durant ce doctorat, que ce soit dans les

    travaux de laboratoire ou dans la phase de rédaction des mes articles. Ainsi, grâce aux

    efforts conjugués de mon directeur et ma codirectrice, ce doctorat m'a permis de découvrir

    le monde de la microbiologie polaire, un domaine passionnant avec lequel je n'étais point

    familier, et qui m'a sans aucun doute permis d'élargir ma vision du monde microbien.

    Je tiens à remercier tout particulièrement mes coauteurs Anne D. Jungblut et Warwick F.

    Vincent, qui m'ont apporté, en plus de leur grande amabilité, une aide indispensable dans

    l'orientation de mes recherches et lors de la rédaction des articles présentés dans cette thèse.

    Merci à René Paradis, le pilier du service de bioinformatique au CHUL qui m'a sorti

    d'innombrable fois du cauchemar que peut représenter un « bug » informatique. Mais au

    delà du professionnel, je remercie par dessus tout le grand ami, qui est le premier québécois

  • iv

    que j'ai connu en arrivant à Québec, et qui n'a pas hésité à me traiter comme un ami

    d'enfance. Merci Ron pour ta bonté et ta gaieté si contagieuse ! Merci à Fréderic Raymond,

    mon voisin de bureau durant toutes ces années passées au CHUL, qui demeure ma personne

    ressource de référence en génomique, et avec qui je me souviendrai avoir passé de bons

    moments sur fond de musiques tonitruantes pour reprendre son expression, à l'Impérial, au

    Velvet, ou encore sur les plaines ! Merci à Sébastien Boisvert pour ses précieux conseils en

    bio-informatique, ainsi qu'à Robin Allary pour « la » partie de tennis sur l'heure du midi

    entre deux PCR ! Merci à Pascal Belleau pour son amabilité et ses stimulants sujets de

    conversations. Je remercie aussi le reste de « l'ancienne » bande du Complan,

    malheureusement dissoute aujourd'hui; par ordre alphabétique, je pense notamment à Astrid

    Deschênes, Jean-Philippe Dionne, Arnaud Droit (qui ironie du sort, est un des évaluateurs

    de cette thèse aujourd'hui), Joël Fillon, Patrick Lacasse, David Paladini, Philippe Rigault,

    Sayo Yuen.

    Merci aux autres membres de l'équipe de Jacques Corbeil, à savoir Lynda Robitaille,

    Jessyka Fortin, et Nancy Boucher, pour leur aide dans le laboratoire. Je remercie tout

    particulièrement Mélissa Sirois qui était toujours aussi jovial et serviable même quand je la

    dérangeais au laboratoire; je suis également reconnaissant envers son conjoint, Yan

    Sergerie, pour son aide dans la délicate situation de l'après-doctorat.

    Du côté du pavillon Vachon ou Marchand, je remercie Estelle Pedneault et Marianne

    Potvin pour leur disponibilité et leur aide dans les différentes tâches de laboratoire que j'ai

    eu à exécuter au début de mon doctorat. Merci également à Pierre Galand pour ses conseils

    avisés dans le domaine de la microbiologie polaire.

    Bien évidemment, je remercie de tout cœur ma famille et mes proches, en particulier mes

    parents et ma sœur qui m'ont toujours aimé, soutenu quoi qu'il arrive, et sans qui je n'aurais

    pu accomplir toutes les choses que j'ai voulu faire jusqu'à maintenant. Je dédie tout

    naturellement cette thèse à ma mère qui m'a tant encouragé à faire un doctorat... J'adresse

    également ma plus sincère reconnaissance à ma « blonde », Kim, qui m'a apporté beaucoup

    de soutien d'une manière générale tout au long de ce périple, et qui s'est toujours montrée

    très attentionnée envers moi. Kim a aussi contribué concrètement à cette thèse en m'aidant

    dans les fastidieuses tâches de relecture et de formatage des références.

  • v

    Et enfin, après les remerciements adressés aux personnes physiques, je rends hommage à

    quelque chose de plus abstrait et d'immatériel, en l'occurrence l'escalade ! En effet, ce

    magnifique sport qui m'a accompagné tout au long de mon doctorat aura été une bouée de

    sauvetage dans les moments plus difficiles, tant il contribue à l'intégrité de ma santé

    physique et mentale. De plus, c'est une passion dans laquelle je retrouve beaucoup des

    valeurs qui me sont chères. J'en profite par la même occasion, pour rendre un dernier

    hommage à une personne qui m'a beaucoup inspiré en tant que grimpeur mais aussi en tant

    que personne : Patrick Edlinger, une figure emblématique de l'escalade qui nous a

    malheureusement quitté alors que je finissais la rédaction de cet avant-propos.

  • vii

    À ma chère famille

  • ix

    Table des matières

    Résumé ..................................................................................................................................... i Avant-propos ........................................................................................................................ iii Table des matières ................................................................................................................. ix Liste des tableaux ................................................................................................................ xiii

    Liste des figures .................................................................................................................... xv 1. Introduction ......................................................................................................................... 1

    1.1. Objectifs ....................................................................................................................... 3 2. La métagénomique .............................................................................................................. 5

    2.1. Introduction .................................................................................................................. 5 2.1.1. Définition .............................................................................................................. 5 2.1.2. Contexte et origine ................................................................................................ 5 2.1.3. Méthodes et applications ...................................................................................... 8

    2.1.4. Défis .................................................................................................................... 13

    2.1.4.1. L'environnement analysé ............................................................................. 14 2.1.4.2. L'étape d'isolation et d'extraction des acides nucléiques ............................. 15 2.1.4.3. L'étape de clonage ........................................................................................ 16

    2.1.4.4. Le séquençage .............................................................................................. 16 2.2. Séquençage à haut débit ............................................................................................. 17

    2.2.1. Historique............................................................................................................ 17 2.2.2. Le séquençage en aveugle................................................................................... 18

    2.2.3. Les méthodes à haut débit ................................................................................... 19 2.2.3.1. Le pyroséquençage 454 ............................................................................... 20

    2.2.3.2. Le séquençage Illumina ............................................................................... 23 2.2.3.3. Le séquençage ABI SOLiD ......................................................................... 25 2.2.3.4. Le séquençage par semi-conducteur ............................................................ 27

    2.2.3.5. Le séquençage par Polonator ....................................................................... 28 2.2.3.6. Le séquençage HeliScope ............................................................................ 28

    2.2.3.7. Le séquençage SMRT (Single Molecule Real Time) .................................. 29 2.2.3.8. Le séquençage par Nanopore ....................................................................... 30

    2.3. Métagénomique et bio-informatique ......................................................................... 32

    2.3.1. L'assemblage de génomes ................................................................................... 32

    2.3.1.1. Les assembleurs « voraces » ........................................................................ 34 2.3.1.2. Les assembleurs OLC .................................................................................. 35 2.3.1.3. Les assembleurs DBG .................................................................................. 37 2.3.1.4. L'assemblage de données métagénomiques ................................................. 39

    2.3.2. Analyse de biodiversité ....................................................................................... 41 2.3.3. L'annotation de métagénomes ............................................................................. 43

    2.3.3.1. Les défis ....................................................................................................... 43 2.3.3.2. L'annotation taxonomique............................................................................ 44 2.3.3.3. L'annotation fonctionnelle ........................................................................... 49

    2.3.3.4. La métagénomique comparative .................................................................. 52 2.3.4. La plateforme MG-RAST ................................................................................... 54

    2.3.4.1. L’historique .................................................................................................. 54 2.3.4.2. Le processus de traitement des données ...................................................... 55

  • x

    2.3.4.3. La page de vue d'ensemble .......................................................................... 58 2.3.4.4. La page d'analyse de métagénomes ............................................................. 61

    2.3.5. L'application STAMP ......................................................................................... 68

    2.4. Métagénomique et approches complémentaires........................................................ 70 2.4.1. Les tendances futures en termes de métagénomique ......................................... 70

    2.4.1.1. La métatranscriptomique ............................................................................. 70 2.4.1.2. La métaprotéomique .................................................................................... 73 2.4.1.3. La méta-métabolomique .............................................................................. 74

    2.4.2. Autres approches complémentaires .................................................................... 75 3. Les tapis microbiens polaires ........................................................................................... 77

    3.1. Définition .................................................................................................................. 78

    3.2. Les plateformes de glace ........................................................................................... 78 3.2.1. Les plateformes de glace de l'Arctique canadien ............................................... 82 3.2.2. Les tapis microbiens de l'Arctique canadien ...................................................... 84 3.2.3. La plateforme de glace de McMurdo (Antarctique)........................................... 85

    3.2.4. Les tapis microbiens de la plateforme de McMurdo .......................................... 86

    3.3. Composition taxonomique ........................................................................................ 87 3.4. Un écosystème menacé ............................................................................................. 88

    4. Analyses métagénomiques de tapis microbiens polaires ................................................. 91

    4.1. Le contexte ................................................................................................................ 91 4.2. La méthodologie ........................................................................................................ 93

    4.3. Le recyclage des nutriments au sein des tapis microbiens polaires .......................... 95 4.3.1. Le résumé en français ......................................................................................... 95

    4.3.2. Abstract .............................................................................................................. 97 4.4. Article #1 ................................................................................................................... 98

    4.4.1. Introduction ........................................................................................................ 99 4.4.2. Methods ............................................................................................................ 100

    4.4.2.1. Study sites and sample collection.............................................................. 100

    4.4.2.2. DNA extraction and sequencing ............................................................... 101 4.4.2.3. Bioinformatics and statistical analyses ..................................................... 102

    4.4.3. Results .............................................................................................................. 103 4.4.3.1. Classification of microbial communities based on protein-coding genes . 104

    4.4.3.2. Taxonomic classification of the microbial communities based on ribosomal

    genes ....................................................................................................................... 105

    4.4.3.3. Functional gene analysis ........................................................................... 106 4.4.4. Discussion ........................................................................................................ 108 4.4.5. Acknowledgments ............................................................................................ 113

    4.5. Tables ...................................................................................................................... 114 4.6. Figures ..................................................................................................................... 118

    4.7. Stress et tapis microbiens polaires .......................................................................... 123 4.7.1. Le résumé en français ....................................................................................... 123 4.7.2. Abstract ............................................................................................................ 125

    4.8. Article #2 ................................................................................................................. 126 4.8.1. Introduction ...................................................................................................... 127

    4.8.2. Materials and Methods ..................................................................................... 128

    4.8.2.1. Study site and sample collection ............................................................... 128

    4.8.2.2. DNA extraction and sequencing ............................................................... 129

  • xi

    4.8.2.3. Bioinformatics and statistical analyses ...................................................... 129 4.8.2.4. Metagenome sequence accession ............................................................... 131

    4.8.3. Results ............................................................................................................... 131

    4.8.3.1. Mat metagenomes ...................................................................................... 131 4.8.3.2. Taxonomic and functional comparisons of polar microbial mats .............. 132 4.8.3.3. Taxonomy of genes involved in cold and other stresses ........................... 133 4.8.3.4. Taxonomy of functional differences .......................................................... 134

    4.8.4. Discussion ......................................................................................................... 135

    4.8.5. Acknowledgments ............................................................................................ 140 4.9. Tables ....................................................................................................................... 141 4.10. Figures ................................................................................................................... 149

    5. Discussion ....................................................................................................................... 153 5.1. Notre approche métagénomique et ses alternatives ................................................. 153

    5.1.1. L'approche utilisée dans nos articles ................................................................. 153 5.1.2. Une alternative à notre approche ...................................................................... 155

    5.1.3. Des exemples d'analyses complémentaires ...................................................... 165

    5.2. Biogéographie microbienne des habitats de froid pérenne ...................................... 167 5.2.1. Distribution microbienne au sein des tapis microbiens polaires....................... 167 5.2.2. Hypothèses d'écologie microbienne et habitats de froid pérenne ..................... 169

    5.2.2.1. L'hypothèse de l'ubiquité ........................................................................... 170 5.2.2.2. L'endémisme microbien ............................................................................. 175

    5.2.3. Combinaison de cosmopolitisme et d'endémisme ? ......................................... 177 6. Conclusion ...................................................................................................................... 183

    Bibliographie ...................................................................................................................... 187

  • xiii

    Liste des tableaux

    Tableau 2.1. Liste (non exhaustive) d'études pertinentes retraçant l'histoire de la métagénomique (tableau adapté de Ederer, 2011). Ces

    différents projets sont classés selon le type de communautés

    microbiennes analysées. Abréviations : Gbases (gigabases),

    Mbases (mégabases), 454 (pyroséquençage 454), ABI

    (séquençage ABI SOLiD), Illumina GA (séquençage Illumina

    Genome Analyzer), Illumina HS (séquençage Illumina HiSeq

    2000). ........................................................................................................... 12

    Table 4.5.1. Temperature, pH, conductivity of the meltwater ponds for the three samples that were pooled for each metagenome. MIS,

    Markham Ice Shelf; WHI, Ward Hunt Ice Shelf. ...................................... 114

    Table 4.5.2. Percentage of total significant hits found from combined MIS and WHI sequences when compared to databases designated in

    the top row. Taxonomic analysis based on rRNA genes was

    performed with BLASTN against RDP II and Euro rRNA SSU

    databases. SEED and Swiss-Prot were used with BLASTX

    indicating taxonomic placements based on protein-coding

    genes. E-value cut-off: 1 × 10−5

    for all. Total of significant hits

    from both MIS and WHI sequences; na, not applicable. .......................... 115

    Table 4.5.3. Sequence matches to Eukaryota obtained using the MG-RAST

    server against Euro rRNA SSU database (E-value cutoff: 0.1).

    Positive hits to the SCUM database for prokaryote viral

    sequences and GenBank for eukaryote viral sequences (E-value

    cutoff: 1 × 10−4

    ). ........................................................................................ 116

    Table 4.9.1. Environmental and metagenomic comparisons for the three

    sampling sites ............................................................................................ 141

    Supplementary Table 4.9.4. Significant matches found to microbial polar genomes and the model cyanobacterial reference genome

    Synechococcus WH5701. Comparisons among the

    metagenomes from the Markham Ice Shelf (MIS), Ward Hunt

    Ice Shelf (WHI) and McMurdo Ice shelf (MCM) using

    BLASTX compared to the SEED database to indicate bacterial

    or archaeal taxonomic placements based on protein-coding

    genes (E value ≤10-5

    , alignment length ≥50 bp; percentage of

    identity >65%). Values were normalized to the metagenome

    (WHI) with the highest amount of BLASTX hits. NCBI

    reference sequences of genomes are indicated in parentheses.

    Classes are bacterial except for the archaeal Euryarchaeota. ................... 148

  • xv

    Liste des figures

    Figure 2.1. Schématisation de plusieurs méthodologies courantes dans une analyse métagénomique (figure adaptée d'Ederer, 2011). Le

    chemin constitué de cadres et de flèches rouges symbolise la

    méthode métagénomique utilisée dans les différentes analyses

    présentées dans cette thèse. ........................................................................... 9

    Figure 2.2. Principe du pyroséquençage 454 (figure adaptée de 454 Life Sciences, © 1996-2012 Roche Diagnostics Corporation,

    www.454.com). ........................................................................................... 22

    Figure 2.3. Principe du séquençage Illumina (figure tirée de Strausberg et al., 2008). ..................................................................................................... 24

    Figure 2.4. Principe du séquençage ABI SOLiD® (figure tirée de

    Strausberg et al., 2008). ............................................................................... 26

    Figure 2.5. Sources de la distribution des résultats significatifs obtenus

    avec MG-RAST pour l’échantillon métagénomique de tapis

    microbien prélevé sur la plateforme de glace de Ward Hunt. Ce

    graphique illustre le nombre de fragments appartenant à ce

    métagénome qui ont obtenu des résultats significatifs par

    similarité de séquence avec les différents types de bases de

    données cités dans la présente figure (protéiques, protéiques

    hiérarchisées, ou ribosomiques). Une échelle de couleurs

    permet de symboliser l'étendue d'« E-value » utilisée pour

    chaque base de données. .............................................................................. 59

    Figure 2.6. Menu de la page d'analyse de MG-RAST. L'encadré rouge intitulé « Data Type » permet à l'utilisateur de choisir son type

    d'analyse taxonomique (méthode du meilleur résultat

    significatif obtenu, ou du plus petit ancêtre commun) ou

    fonctionnelle (selon une classification hiérarchique, ou selon

    toutes les bases de données fonctionnelles hiérarchisées ou

    non), ou encore de lancer une analyse de recrutement. L'encadré

    bleu nommé « Data Selection » permet de choisir le (ou les)

    métagénome(s) à analyser (ou comparer), la base de données à

    utiliser, ainsi que la valeur des paramètres à considérer pour

    l'analyse (« E-value » maximum, pourcentage d'identité

    minimum, et longueur d'alignement minimum). L'encadré

    mauve appelé « Data Visualization » propose à l'utilisateur de

    choisir le mode de visualisation des résultats en fonction de

    l'analyse à effectuer (graphique en barres, arbre phylogénétique,

    tableau, carte phylogénétique (« heatmap »), graphique en

    composantes principales, ou courbe de raréfaction). Dans cet

    exemple, l'utilisateur désire réaliser une analyse taxonomique

    du métagénome 4445129.3 (échantillon de tapis microbien

  • xvi

    prélevé sur la plateforme de glace de Ward Hunt) basée sur la

    classification à partir du meilleur résultat significatif obtenu.

    L'utilisateur a sélectionné la base de données M5NR et a laissé

    les autres paramètres par défaut, de plus, en sélectionnant

    l'onglet « table », il a choisi d'afficher les résultats de l'analyse

    dans un tableau (du type de celui de la Figure 2.7.). .................................. 62

    Figure 2.7. Tableau interactif généré par MG-RAST qui représente les résultats significatifs obtenus pour une analyse taxonomique du

    métagénome 4445129.3 (échantillon de tapis microbien prélevé

    sur la plateforme de glace de Ward Hunt). Dans cet exemple, il

    s'agit d'une analyse de classification taxonomique basée sur la

    similarité en fonction du meilleur résultat significatif obtenu («

    best hit classification ») contre la base de données protéiques

    M5NR, en tenant compte des paramètres suivants : « E-value »

    maximum de 1.10-5

    , pourcentage d'identité minimum de 65%,

    et longueur d'alignement minimum de 50 pb. Chaque ligne du

    tableau indique dans une colonne distincte de gauche à droite

    respectivement : l'identifiant du métagénome en question, la

    base de données utilisée, le rang taxonomique avec une colonne

    par niveau taxonomique (du domaine à la souche selon le choix

    de l'utilisateur), l'abondance (nombre de séquences du

    métagénome qui ont été assignés à l'annotation en question), la

    valeur moyenne des « E-values », des pourcentages d'identité,

    et des longueurs d'alignement des appariements significatifs

    trouvés, et enfin le nombre de « hits » (nombre de séquences

    uniques appartenant à la base de données en question qui ont eu

    un appariement significatif). À noter que dans cet exemple de

    tableau, seules les 25 premières lignes (sur un total de 94)

    apparaissent; de plus, ici l'utilisateur aura choisi préalablement

    d'afficher uniquement les domaines, phyla, et classes de chaque

    organisme. Les nombres indiqués en bleu dans la colonne de

    l'abondance sont cliquables et permettent d'accéder à une

    nouvelle page où sont affichés tous les détails de l'alignement

    correspondant aux résultats présentés dans la ligne en question.

    Deux onglets situés en haut à droite du tableau, appelé « krona

    graph » et « QIIME report » permettent respectivement

    d'afficher les données du tableau sous la forme d'un graphique

    de type « krona », ou de télécharger localement ces mêmes

    données dans un format compatible avec QIIME. ...................................... 64

    Figure 3.1. Plateforme de glace de Ward Hunt, située le long de la côte nord de l’île d’Ellesmere, au Nunavut, dans le haut Arctique

    canadien. (Photographe: Warwick F. Vincent, 2006) ................................. 79

    Figure 3.2. Tapis microbien recouvert partiellement d’eau de fonte sur la plateforme de glace de Markham, située sur la côte nord de l’ile

  • xvii

    d’Ellesmere, au Nunavut, dans le haut Arctique canadien.

    (Photographe: Anne D. Jungblut, 2006) ...................................................... 80

    Figure 3.3. Gros plan d'un tapis microbien affichant une pigmentation

    orangée caractéristique, et gisant au fond d'une marre d'eau de

    fonte présente sur la plateforme de glace de Ward Hunt.

    (Photographe: Warwick F. Vincent, 2006) ................................................. 81

    Figure 3.4. Tapis microbien de la plateforme de Markham exposés à l'air et présentant une forte pigmentation orangée en surface.

    (Photographe: Warwick F. Vincent, 2006) ................................................. 81

    Figure 3.5. Gros plan d’un échantillon de tapis microbien prélevé sur la

    plateforme de glace de Markham. (Photographe: Anne D.

    Jungblut, 2006) ............................................................................................ 85

    Figure 4.6.1. Location of sampling sites along the northern coast of Ellesmere Island in High Arctic, Canada. Dark gray indicates

    the extent of the two ice shelves at the time of sampling (2006);

    the white circles indicate sites where the mats were collected.................. 118

    Figure 4.6.2. Inferred taxonomic distributions from the MIS (black bars) and WHI (grey bars) microbial mat metagenomes. Sequence

    classification based on BLASTX similarities to SEED from

    protein-coding genes. Insert: contribution of the major classes

    of Proteobacteria (A = Alphaproteobacteria; B =

    Betaproteobacteria; G = Gammaproteobacteria; O = other

    Proteobacteria). Note the log scale of the y-axis in both graphs. ............. 119

    Figure 4.6.3. Percentage of sequences assignable to functional categories for MIS (black bars) and WHI (gray bars) metagenomes. Sequence

    groupings in subsystem (ss) categories were performed by the

    MG-RAST server using the SEED database. Note the log scale

    of the y-axis. .............................................................................................. 120

    Figure 4.6.4. Principal component analysis of gene functions from different bacterial groups. (A) Genes involved in light capture. (B)

    Nitrogen uptake and transformation genes. (C) Phosphorus

    uptake and transport genes. Horizontal and vertical axes

    represent component 1 and component 2, respectively. Gray

    circles contain all other identified taxa. Abbreviations: PSI,

    photosystem I; PSII, photosystem II; PSII-like, bacterial

    photosystem II–type photosynthetic reaction center; Nfix,

    nitrogen fixation; AmmAss, ammonium assimilation system;

    Denitrif, denitrification; AllantoinD, allantoin degradation;

    UreaD, urea degradation; CyanateH, cyanate hydrolysis; Na

    and NiAmo, nitrate and nitrite reduction to ammonia; ChitinN,

    chitin and N-acetylglucosamine utilization; Cyanoph,

    cyanophycin metabolism; ABCbcaa, ABC transporter for

    branched-chain amino acids; ABCdip, ABC transporter for

    dipeptides; ABCgluta, ABC transporter for glutamate and

  • xviii

    aspartate; ABCglut, ABC transporter for glutamine; ABColigo,

    ABC transporter for oligopeptides; Alkalin_Pho, alkaline

    phosphatase; PhoTransPhoReg, high-affinity phosphate

    transporter and control of PHO regulon; ExoPho,

    exopolyphosphatase; Polypho, polyphosphate kinase;

    AlkylphosphonateU, alkylphosphonate utilization; pstA,

    phosphate transport system permease protein pstA; pstB,

    phosphate transport system permease protein pstB; pstC,

    phosphate transport system permease protein pstC; pstS,

    phosphate ABC transport, periplasmic phosphate-binding

    protein pstS; phoU, phosphate transport regulator phoU; PhoR,

    phosphate regulon sensor protein phoR; phoB, phosphate

    regulon transcriptional regulatory protein phoB. ...................................... 121

    Figure 4.10.1. Statistical analyses of taxonomic profiles for the Arctic

    (combined MIS and WHI samples) and Antarctic (MCM

    sample) metagenomes. Orders or classes overrepresented in the

    Antarctic have a negative difference between proportions

    (green dots); those overrepresented in the Arctic community

    have a positive value difference between proportions (blue

    dots). Features (orders or classes) with a q value of ˃0.05 were

    considered biologically significant. .......................................................... 149

    Figure 4.10.3. Statistical analyses of metabolic profiles for the Arctic

    microbial mats (combined MIS-WHI samples) and the

    Antarctic metagenome (MCM sample). Total numbers of

    sequences in the different categories are shown in the left bar

    graph; the left side (blue) represents the Arctic mats, while the

    right side (green) represents the Antarctic mat. Subsystems in

    the Antarctic microbial mat community have negative

    differences between proportions (green dots). Subsystems

    overrepresented in the Arctic microbial mat samples have

    positive differences between proportions (blue dots). Features

    (orders or classes) with a q value of >0.05 were considered

    significant. ................................................................................................ 152

    Figure 5.1. Nombres de séquences (n) appartenant aux métagénomes

    arctiques (MIS (en rouge) et WHI (en gris)) et antarctiques

    (MCM (en bleu)) qui ont pu être assignées à différents gènes

    impliqués dans les réactions biochimiques du cycle de l'azote.

    L'épaisseur des flèches est proportionnelle au niveau

    d'abondance relative de séquences assignées aux gènes

    impliqués dans la réaction en question. Ces annotations

    fonctionnelles ont été réalisées en utilisant BLASTX contre la

    base de données SEED; seuls les appariements significatifs

    ayant plus de 50 nucléotides de longueur, au moins 65% de

    similarité, et un « E value » ≤10-5

    , ont été inclus. Les valeurs (n)

  • xix

    ont été normalisées par rapport au métagénome (WHI) ayant

    obtenu le plus de « hits » avec BLASTX. ................................................. 159

    Figure 5.2. Graphique d'analyse en coordonnées principales représentant le

    degré de similitude taxonomique entre différents métagénomes

    de tapis microbiens provenant de divers environnements

    (polaires, chauds, et tempérés). Abréviations : MIS : Markham

    Ice Shelf microbial mat, WHI : Ward Hunt Ice Shelf microbial

    mat, MCM : McMurdo Ice Shelf microbial mat; AL : Antarctic

    freshwater lake (Ace lake, Antarctica); MHS : Mushroom hot

    spring microbial mat (Yellowstone National Park), OHS :

    Octopus hot spring microbial mat (Yellowstone National Park);

    GMM : Green freshwater microbial mat (Cuatro Ciénegas

    Basin II, Coahuila, Mexico), RMM : Red freshwater microbial

    mat (Cuatro Ciénegas Basin II, Coahuila, Mexico). Pour chaque

    métagénome, les séquences ont été annotées taxonomiquement

    à l'aide de BLAT contre la base de données M5NR, en

    considérant comme significatif les appariements ayant plus de

    50 nucléotides de longueur, au moins 65% de similarité, et un «

    E value » ≤10-5

    . ......................................................................................... 163

    Figure 5.3. Graphique d'analyse en coordonnées principales représentant le degré de similitude fonctionnelle entre différents métagénomes

    de tapis microbiens provenant de divers environnements

    (polaires, chauds, et tempérés). Abréviations : MIS : Markham

    Ice Shelf microbial mat, WHI : Ward Hunt Ice Shelf microbial

    mat, MCM : McMurdo Ice Shelf microbial mat; AL : Antarctic

    freshwater lake (Ace lake, Antarctica); MHS : Mushroom hot

    spring microbial mat (Yellowstone National Park), OHS :

    Octopus hot spring microbial mat (Yellowstone National Park);

    GMM : Green freshwater microbial mat (Cuatro Ciénegas

    Basin II, Coahuila, Mexico), RMM : Red freshwater microbial

    mat (Cuatro Ciénegas Basin II, Coahuila, Mexico). Pour chaque

    métagénome, les séquences ont été annotées taxonomiquement

    à l'aide de BLAT contre la base de données SEED, en

    considérant comme significatif les appariements ayant plus de

    50 nucléotides de longueur, au moins 65% de similarité, et un «

    E value » ≤10-5

    . ......................................................................................... 164

  • 1

    1. Introduction

    Malgré le fait que, techniquement parlant, la génomique a permis de réaliser des progrès

    fulgurants dans le domaine de l’écologie microbienne, il faut attendre le début des années

    2000, avec l’arrivée de la métagénomique, pour qu’une véritable révolution s’opère dans le

    monde de la microbiologie environnementale. Durant les dernières années, la

    métagénomique s’est taillée une place de choix dans le palmarès des disciplines

    scientifiques les plus actives et les plus utilisées par la communauté scientifique. Cette

    approche expérimentale novatrice et particulièrement puissante, permet désormais l’analyse

    de communautés microbiennes qui semblaient largement hors de portée il y a moins de dix

    ans. Le fait de pouvoir accéder à l’information génétique d’un assemblage microbien

    directement depuis son environnement naturel, tout en s’affranchissant de certaines

    contraintes liées à la microbiologie traditionnelle, a ouvert la voie à une nouvelle dimension

    dans l'exploration des écosystèmes microbiens.

    Depuis les trente dernières années, un autre domaine est en plein essor, c'est celui de la

    microbiologie polaire. L'amélioration de l'accessibilité à ces régions isolées a provoqué un

    véritable engouement auprès des microbiologistes, qui se sont empressés d'approfondir

    notre savoir sur l'écologie des communautés microbiennes vivant dans ces environnements

    de froid intense. D'autant plus qu'une meilleure compréhension des écosystèmes polaires

    serait susceptible d'apporter de plus amples connaissances sur des sujets aussi

    fondamentaux que l'apparition de la vie sur Terre, les cycles biogéochimiques, ou encore

    les changements environnementaux à l'échelle planétaire, qu'ils soient passés ou actuels.

    Durant ce doctorat, j'ai choisi de coupler la métagénomique et la microbiologie polaire, afin

    d'apporter ma modeste contribution dans l'étude d'un écosystème très peu exploré jusqu'à

    présent, à savoir les tapis microbiens des régions polaires. Mes travaux avaient donc pour

    but d'évaluer certaines caractéristiques physiologiques inhérentes à la survie de ces

    communautés microbiennes dans un habitat particulièrement hostile.

  • 2

    Faisant suite à la présente introduction, le deuxième chapitre de cette thèse dresse un

    portrait technique de cette fantastique discipline qu'est la métagénomique, puis décrit

    ensuite les technologies complémentaires sans lesquelles la métagénomique ne pourrait être

    utilisée efficacement, il s'agit en l'occurrence des techniques de séquençage à haut débit et

    des différents outils bio-informatiques de traitements des données. Le chapitre 2 est le plus

    conséquent de ma thèse car il est représentatif de l'importance des choix en matière de

    séquençages à haut débit, d'approches métagénomiques, et de méthodes d'annotations. De

    plus, je voulais que ce chapitre soit à l'image de l'ampleur du travail que j'ai fourni lors de

    ce doctorat dans la considération de ces différents aspects, afin de mener à bien nos

    objectifs.

    Le chapitre 3 est quant à lui dédié à la description générale des tapis microbiens polaires en

    tant que tels et de leur habitat structurel qui est constitué par les plateformes de glaces. Ce

    chapitre est conclu par une note plutôt alarmiste qui met en évidence l'urgence d'étudier un

    tel écosystème avant qu'il ne disparaisse en raison du contexte de réchauffement climatique

    actuel.

    On entre dans le vif du sujet à proprement parler avec le chapitre 4, qui présente les deux

    publications réalisées durant ce doctorat, qui traitent d'une part du recyclage des nutriments

    au sein des tapis microbiens polaires, et d'autre part des mécanismes d'adaptation à

    différents stress utilisés par ces communautés microbiennes.

    La discussion énoncée dans le chapitre 5 aborde dans un premier temps les tendances

    futures en termes de métagénomique, avec notamment la description des différentes

    disciplines « méta-omiques » ainsi que leurs applications possibles. J'évoque ensuite les

    forces et les faiblesses de l'approche métagénomique utilisée dans nos articles, pour ensuite

    proposer une approche méthodologique alternative, ainsi que des exemples d'analyses

    complémentaires qui permettraient de compléter les travaux réalisés lors de ce doctorat.

    Dans une deuxième partie, j'aborde un thème aussi passionnant que complexe, celui de la

    biogéographie microbienne au sein de la cryosphère. Je compare ainsi certains arguments

    en faveur de l'une ou l'autre des deux plus grandes théories liées à la répartition planétaire

  • 3

    des microorganismes, c'est-à-dire le cosmopolitisme et l'endémisme, tout en étayant

    chacune de ces notions à l'aide de données issues de nos propres analyses ou provenant

    d'autres publications sur le sujet.

    1.1. Objectifs

    Face au caractère plutôt modeste des connaissances actuelles sur les tapis microbiens

    polaires, le but de mes travaux de doctorat était d'utiliser la puissance de la métagénomique

    afin de tenter de mieux comprendre la structure et les processus métaboliques utilisés par

    ces communautés microbiennes.

    Plus précisément, l'objectif général était de réaliser, à partir de métagénomes de tapis

    microbiens récoltés sur diverses plateformes de glace polaires, des profils fonctionnels et

    taxonomiques de basse résolution, afin d'obtenir une vue d'ensemble de la composition et

    du potentiel métabolique des tapis microbien polaires, tout en s'efforçant de comparer cette

    dernière en fonction de leur origine (Arctique ou Antarctique).

    De plus, ce type d'approche devait nous permettre de définir les deux objectifs spécifiques

    suivants :

    Mettre en évidence la présence d'un système de décomposition et de recyclage des

    nutriments au sein des tapis microbiens de l'Arctique, les rendant ainsi capables de

    former un microenvironnement riche en nutriments malgré le caractère

    oligotrophique de leur habitat;

    Évaluer si les similarités taxonomiques éventuelles entre les tapis microbiens

    arctiques et antarctiques se reflètent sur leurs réponses génétiques face aux stress

    environnementaux. Ceci permettant de tester par la même occasion, si des

    communautés microbiennes occupant le même type d'habitat extrême déploient les

    mêmes types de mécanismes de résistance et d'adaptation aux stress imposés par

    l'environnement polaire, et ceci indépendamment de la distance géographique qui

    les sépare.

  • 5

    2. La métagénomique

    De par l'introduction, vous aurez compris que la métagénomique revêt une importance

    capitale dans cette thèse; c'est la raison pour laquelle je lui dédie ce chapitre, qui a pour but

    de familiariser le lecteur avec les différents aspects, principes et applications de la

    métagénomique.

    2.1. Introduction

    2.1.1. Définition

    La métagénomique consiste à analyser l'ADN génomique d'une communauté microbienne

    dans son ensemble. En d'autres mots, c'est une approche basée sur l'isolation directe de

    l'intégralité des acides nucléiques présents dans un échantillon prélevé dans un

    environnement donné, et ceci sans aucun isolement ou culture de microorganismes au

    préalable (Handelsman, 2004; Simon & Daniel, 2011). Le préfixe « méta » qui en grec veut

    dire littéralement « au-delà », induit une distinction majeure entre les termes «

    métagénomique » et « génomique », ce dernier représentant l'étude de l'ADN génomique

    issu d'un seul microorganisme ou d'une cellule unique (Gilbert & Dupont, 2011).

    2.1.2. Contexte et origine

    Durant la majeure partie de son histoire, la microbiologie est restée centrée sur le fait que la

    culture de microorganismes était une étape inhérente à toutes études dignes de ce nom. En

    effet, les microbiologistes ont longtemps cru que les organismes microbiens pouvaient être

    classifiés, si et seulement si, ils étaient cultivés auparavant (Society of American

    Bacteriologists, 1923). Cependant, dans les années 1980, les scientifiques ont réalisé que

    les microbes étaient beaucoup plus ubiquitaires, diversifiés, et nombreux que ce qu'ils

    pensaient (Ederer, 2011); et nous savons désormais que les techniques classiques de culture

    utilisées en microbiologie ont permis jusqu'à maintenant de caractériser seulement environ

    1% de la diversité microbienne planétaire (D'Onofrio et al., 2010). Des estimations

    calculées par Whitman et collaborateurs (Whitman et al., 1998) indiquent que la terre est

    l'habitat d'environ 5×1030

    procaryotes (bactéries et archées) avec plus de 107 espèces de

  • 6

    bactéries différentes, ces dernières étant présentes dans tous les environnements planétaires,

    capables de coloniser les habitats les plus extrêmes allant des sources hydrothermales à

    340°C des profondeurs océaniques, aux tapis microbiens polaires que nous avons étudiés

    (Whitman et al., 1998).

    Mais pourquoi l'étude de l'écologie microbienne devrait susciter autant d'intérêt ?

    Les microorganismes ne sont pas seulement omniprésents, ils sont essentiels à la vie sur

    terre car ils représentent le plus grand réservoir de nutriments de la planète en séquestrant

    50% du carbone total de tous les organismes vivants et en constituant le plus grand

    réservoir terrestre de nitrogène et de phosphore cellulaire (Whitman et al., 1998). De plus,

    les microbes sont les principaux recycleurs de matières en décomposition permettant de

    rendre à nouveau disponible divers composés sous forme organique (Whitman et al., 1998).

    Ils jouent donc un rôle critique dans les processus biogéochimiques en maintenant la survie

    des écosystèmes (Falkowski et al., 2008). Par ailleurs, l'étude de la diversité microbienne

    des environnements extrêmes, tels que les sources chaudes (Rhee et al., 2005), les bassins

    hyper-salins (Ferrer et al., 2005), la glace de glacier (Simon et al., 2009), et les sols ou

    sédiments arctiques et antarctiques (Heath et al., 2009; Jeon et al., 2009), suscite un certain

    engouement étant donné du fait que ces écosystèmes représentent un réservoir de nouvelles

    biomolécules ayant potentiellement un intérêt au niveau biotechnologique.

    Tout comme les plantes et les autres animaux, l'existence même de l'homme est fortement

    dépendante et affectée par les microorganismes. Nous avons plus de cellules bactériennes

    (1014

    ) résidant dans notre corps que de cellules humaines (1013

    ) (Berg, 1996). Le matériel

    génétique de l'ensemble de ces bactéries représente environ 1000 fois plus de gènes que

    ceux du génome humain (Ederer, 2011). Par ailleurs, Turnbaugh et collaborateurs

    (Turnbaugh et al., 2006) ont déjà démontré que des différences dans la composition du

    microbiome humain peuvent être liées à certaines conditions pathologiques chez l'homme.

    En résumé, on peut affirmer que l'étude de l'écologie des communautés microbiennes de la

    biosphère constitue une première étape fondamentale dans la compréhension :

  • 7

    De leurs contributions dans le maintien de la santé planétaire;

    De leurs rôles dans le bien-être chez l'humain;

    Des conséquences environnementales de l'activité humaine.

    Au vu du peu de connaissances de la communauté scientifique en termes de biodiversité

    microbienne, les microbiologistes avaient besoin de nouvelles approches moins réductrices,

    et indépendantes de la culture pour la caractérisation des microorganismes, prenant ainsi en

    compte l'écosystème dans son ensemble. Le développement de nouvelles méthodologies

    devaient permettre ainsi de caractériser les organismes identifiés dans leur environnement,

    ceci impliquant de pouvoir déceler leurs possibles interactions avec les autres membres de

    la communauté et leur potentiel métabolique.

    C'est dans ce contexte que Pace et collaborateurs (Pace et al., 1986), qui aspiraient à étudier

    la diversité et la classification des bactéries par d'autres méthodes que celles basées sur les

    traits morphologiques et physiologiques des ces organismes, furent les premiers à analyser

    directement (sans culture au préalable) les gènes codant pour l'ARN ribosomique (ARNr)

    16S présents dans un échantillon environnemental afin de déterminer sa diversité

    microbienne. Depuis l'étude novatrice de Pace et collaborateurs en 1986 (Pace et al., 1986),

    l'utilisation de l'ARNr 16S (couplée à la technologie de séquençage de Sanger (Sanger et

    al., 1977) déjà très populaire à l'époque) s'est rapidement imposée au fil des années comme

    outil de prédilection pour la discrimination des différentes espèces bactériennes. Ce sont

    donc des recherches de ce type qui ont permis ultimement la naissance de la

    métagénomique, c'est-à-dire, une discipline nouvelle qui se situe à l'interface de la

    microbiologie, la génomique et l'écologie (Ederer, 2011). Ce terme ayant été mentionné

    officiellement pour la première fois par Handelsman et collaborateurs (Handelsman et al.,

    1998) lors d'une étude visant à découvrir des nouveaux antibiotiques à partir de

    communautés microbiennes vivant dans le sol.

    Cette nouvelle approche qu'est la métagénomique vise ainsi, en analysant le contenu en

    acides nucléiques d'une communauté microbienne quelconque, à caractériser la diversité

    microbienne, la complexité génétique, mais aussi ses diverses interactions dont celles de

  • 8

    nature métabolique. C'est sur ce dernier point que la métagénomique se distingue, en

    permettant d'aller bien plus loin que les analyses basées seulement sur l'amplification PCR

    des gènes codant pour l'ARNr 16S ou 18S qui permettent de se concentrer uniquement sur

    des études taxonomiques. Ainsi, avec le soutien essentiel de la bio-informatique, le

    couplage de la métagénomique avec le séquençage à haut débit, offre dorénavant la

    possibilité d'accéder à des domaines inexplorés du monde microbien.

    La complexité et le nombre sans cesse grandissant de projets métagénomiques ont engendré

    la création par la communauté scientifique de consortiums visant à aider les chercheurs

    utilisant des données métagénomiques, en offrant des cyber-infrastructures permettant

    essentiellement le catalogage des génomes (complets) de référence issus de métagénomes

    et des outils d'analyse et de consultation de ces données. On peut distinguer à l'heure

    actuelle quatre principales ressources de ce type : le « Human Microbiome Project (HMP) »

    (http://www.hmpdacc.org/), le « Global Ocean Sampling (GOS) expedition »

    (http://www.jcvi.org/cms/research/projects/gos/), le « Terragenome »

    (http://www.terragenome.org/), et enfin mais non le moindre, le « Earth Microbiome

    Project (EMP) ».

    2.1.3. Méthodes et applications

    La métagénomique représente un attrait indéniable pour les scientifiques dans le sens où

    elle leur permet d'accéder à un certain nombre des membres d'une communauté

    microbienne donnée (indépendamment du fait de savoir si ces organismes peuvent être

    cultivés ou pas), tout en ayant la possibilité d'accéder à une vue d'ensemble des voies

    métaboliques régnant en son sein.

    Ceci étant dit, quels sont les types d'approches métagénomiques et leurs principales étapes

    en termes de protocole ?

    Cela dépend bien évidemment du but de l'étude en question mais on peut résumer ces

    étapes à la manière de celles illustrées dans la figure 2.1.

  • 9

    Figure 2.1. Schématisation de plusieurs méthodologies courantes dans une analyse

    métagénomique (figure adaptée d'Ederer, 2011). Le chemin constitué de cadres et de

    flèches rouges symbolise la méthode métagénomique utilisée dans les différentes analyses

    présentées dans cette thèse.

    Dans tous les cas, on doit procéder après échantillonnage de l'écosystème en question, à

    une extraction de l'ensemble de l'ADN ou l'ARN génomique présent dans le ou les

    échantillon(s). Si l'estimation de la diversité microbienne est le seul but de l'étude en

    question, une amplification PCR spécifique des gènes codant pour l'ARNr 16S ou 18S sera

    réalisée afin de séquencer uniquement ces derniers en bout de ligne; on obtiendra ainsi une

    librairie à grande échelle de gènes d'ARN ribosomique. Une telle librairie peut ensuite être

    soumise à une biopuce de type PhyloChip afin de pouvoir comparer la diversité de cette

    dernière avec un ensemble de gènes codant pour des ARNr 16S connus (Brodie et al., 2006;

    DeSantis et al,. 2007; Yergeau et al., 2009). Par contre, si on s'intéresse cette fois au

    potentiel métabolique d'un écosystème, on va s'efforcer d'analyser l'ensemble des acides

    nucléiques de l'échantillon. L'ADN ou l'ADNc (ADN complémentaire obtenu par

    rétrotranscription de l'ARN isolé) extrait peut être alors traité essentiellement de trois

    manières différentes :

  • 10

    Il peut être fragmenté aléatoirement, puis séquencé directement en utilisant des

    technologies de séquençage à haut débit. Il faut noter que ce séquençage direct

    d'acides nucléiques après extraction est de plus en plus privilégié à l'heure actuelle,

    étant donné qu'il permet de se soustraire à toute étape de clonage. À noter cependant

    que la plupart des techniques de séquençage à haut débit nécessitent la création

    d'une librairie de fragments d'ADN, néanmoins ces derniers ne sont pas clonés, et il

    ne faut donc pas confondre ce type de librairie avec celui mentionné dans le

    paragraphe suivant;

    Après fragmentation aléatoire, l'ADN peut également être cloné afin de constituer

    une librairie de clones à petits ou larges inserts qui sera ensuite séquencée par la

    technique de Sanger (Sanger et al., 1977) ou par une technologie à haut débit; c'est

    ce qu'on appelle le séquençage en aveugle (voir section 2.2.2.). Cette librairie peut

    ensuite être parcourue pour rechercher puis séquencer des clones comportant un

    gène d'intérêt, ou bien séquencée en totalité pour permettre la reconstitution de

    génomes complets (Venter et al., 2004);

    Troisièmement, l'ADN génomique extrait peut aussi être analysé par des biopuces

    de type GeoChip 3.0 contenant un ensemble de sondes spécifiques à des marqueurs

    phylogénétiques (tel que gyrB) et à des gènes d'intérêts connus (appartenant à des

    cycles biogéochimiques par exemple) (He et al., 2007; 2010).

    Dans tous les cas, le volume conséquent de fragments séquencés (appelés « reads » en

    anglais) lors d'une étude de métagénomique, fait en sorte que l'utilisation de la bio-

    informatique est indispensable afin d'analyser ces derniers.

  • 11

    D'un point de vue général, toute étude faisant appel à la métagénomique doit s'orienter vers

    l'une des approches suivantes (DeLong, 2007) :

    La première est centrée sur le « génome » afin de déterminer les membres

    composant une communauté microbienne, avec le but ultime de tenter d'assembler

    leur génome complet;

    La seconde aspire quant à elle, à réaliser une analyse fonctionnelle de la

    communauté échantillonnée afin de déceler son potentiel métabolique. Elle est donc

    basée cette fois-ci non pas sur le « génome » mais sur le « gène ». C'est d'ailleurs

    cette approche qui a été privilégiée dans le cadre de cette thèse pour l'étude des tapis

    microbiens polaires.

    La combinaison des deux approches citées précédemment est également

    envisageable.

    Les études métagénomiques effectuées jusqu'à présent ont porté sur trois principaux types

    de communautés microbiennes :

    Les communautés que l'on retrouve à l'état naturel (environnements tempérés ou

    extrêmes);

    Les communautés vivant dans un environnement modifié par l'activité humaine;

    Les communautés qui dépendent d'un hôte pour survivre.

    Le tableau 2.1. recense un certain nombre d'exemples d'études métagénomiques classées

    selon les trois catégories de communautés microbiennes citées précédemment. Cette liste

    n'est en aucun cas exhaustive, elle a seulement pour but d'illustrer la grande diversité des

    projets de métagénomique déjà réalisés à ce jour.

  • 12

    Tableau 2.1. Liste (non exhaustive) d'études pertinentes retraçant l'histoire de la

    métagénomique (tableau adapté de Ederer, 2011). Ces différents projets sont classés selon

    le type de communautés microbiennes analysées. Abréviations : Gbases (gigabases),

    Mbases (mégabases), 454 (pyroséquençage 454), ABI (séquençage ABI SOLiD), Illumina

    GA (séquençage Illumina Genome Analyzer), Illumina HS (séquençage Illumina HiSeq

    2000).

    Auteurs

    Objectifs de l'étude

    métagénomique Taille du projet

    Type de

    séquençage

    Communautés

    à l'état

    naturel

    Hugenholtz et al.,

    1998

    Taxonomie bactérienne

    d'une source chaude du

    Yellowstone

    Librairie de gènes

    d'ARNr (˃300

    clones)

    ABI

    Rondon et al., 2000

    Identification de

    nouveaux gènes à partir

    de microbiomes du sol

    1 Gbases clonées dans

    des BACs ABI

    Breitbart et al., 2002

    Comparaison de deux

    communautés océaniques

    de virus

    Librairie de gènes

    d'ARNr 16S clonés

    (˃1000 clones)

    ABI

    Venture et al., 2004 Microbes de la mer des

    Sargasses 1,045 Gbases clonées ABI

    Edwards et al., 2006

    Population microbienne

    de la mine « Soudan »

    aux États-Unis

    70 Mbases 454

    Rusch et al., 2007 Échantillonnage global

    de l'océan (GOS) 6,4 Gbases clonées ABI

    Dinsdale et al., 2008

    Métagénomique des

    profils métaboliques de 9

    biomes

    15 Mbases 454

    Breitbart et al., 2009

    Communautés

    microbiennes associées

    aux microbialites

    47,1 Mbases 454

    Varin et al., 2010;

    2012

    Les tapis microbiens

    polaires 146 Mbases 454

    Communautés

    affectées par

    l'activité

    humaine

    Martin et al., 2006

    Taxonomie des

    communautés de boue

    activée dans le traitement

    des eaux usagées

    176 Mbases ABI

    Thurber et al., 2009 Facteurs de stress sur le

    corail holobionte

    22 Mbases

    454

    Tamaki et al., 2011 Virus à ADN contenus

    dans les eaux usées

    70-119 Mbases

    454

    Yu & Zhang, 2012

    Métagénomique et

    métatranscriptomique de

    boue activée dans le

    traitement des eaux

    usagées

    4,8 Gbases Illumina HS

  • 13

    Tableau 2.1. (suite)

    Auteurs

    Objectifs de l'étude

    métagénomique Taille du projet

    Type de

    séquençage

    Communautés

    hôte-

    dépendantes

    Breitbart et al., 2003 Communauté virale des

    excréments humains

    17 Mbases d'ADN

    contenues dans une

    librairie de 532 clones

    ABI

    Gill et al., 2006 Métagénomique de la

    partie distale de l'intestin

    78 Mbases avec

    2062 clones de gènes

    d'ARNr 16S

    454

    Warnecke et al.,

    2007

    Métagénome intestinal

    du termite 71 Mbases 454

    Qin et al., 2010

    Catalogue de gènes du

    microbiome intestinal

    humain

    576,7 Gbases

    Illumina

    GA et

    Sanger

    Le consortium sur le

    projet du

    microbiome humain,

    2012a

    Fonction et diversité du

    microbiome humain chez

    le sujet sain 2Tbases

    Illumina

    GA et 454

    Le consortium sur le

    projet du

    microbiome humain,

    2012b

    Un cadre de travail pour

    la recherche sur le

    microbiome humain 3,5Tbases

    Illumina

    GA

    Abubucker et al.,

    2012

    Reconstructions

    métaboliques pour le

    microbiome humain

    3,5Tbases Illumina

    GA

    Dans les dernières années, on a pu constater l'émergence de nouvelles études

    métagénomiques basées sur l'expression des gènes (Urich et al., 2008; Moran, 2009) ou sur

    la production de protéines (Wilmes et al., 2008; Schweder et al., 2008) plutôt que sur

    l'ADN. En effet, la métatranscriptomique et la métaprotéomique (voir section 2.4.1.) sont

    des approches qui ont le potentiel de nous apporter de nouvelles connaissances sur la

    dynamique fonctionnelle des communautés microbiennes (Simon & Daniel, 2011).

    2.1.4. Défis

    Conceptuellement, une approche métagénomique semble plutôt simple (Figure 2.1.); il

    suffit d'extraire, puis de séquencer les acides nucléiques d'un échantillon environnemental,

    pour ensuite analyser le tout afin de caractériser la communauté microbienne de

    l'échantillon en question. Mais en réalité, l'utilisation de la métagénomique amène certains

    défis et limites dont il faut tenir compte lors de la conception de la méthodologie d'un projet

    et dans l'interprétation des résultats obtenus. Les éventuels problèmes associés à une étude

    de métagénomique peuvent être répertoriés selon les aspects détaillés dans les sous-sections

    2.1.4.1. à 2.1.4.4.

  • 14

    2.1.4.1. L'environnement analysé

    Il faut toujours être conscient que l'échantillonnage d'un environnement donné se fait en un

    point géographique bien particulier, et à un moment précis dans le temps, et que par

    conséquent, la composition d'une communauté peut varier grandement si l'un ou l'autre de

    ces paramètres change (Morris et al., 2002; Kunin et al., 2008).

    De plus, la notion de microenvironnement vient compliquer le processus d'échantillonnage,

    qui généralement n'est pas assez précis pour différencier les sous-écosystèmes qui peuvent

    coexister dans un même environnement. Un gramme de sol forestier par exemple, peut

    contenir de 6400 à 38000 espèces différentes de bactéries (Ederer, 2011), cependant, ces

    dernières ne sont pas distribuées de façon égale dans le sol, il est bien plus probable qu'elles

    forment des mini-communautés organisées en sous-écosystèmes pouvant être en contact ou

    séparés les uns des autres. Ainsi, l'isolement de l'ADN d'un échantillon contenant ce type de

    microenvironnement ne permettra vraisemblablement pas de reconstituer la sous-

    distribution des membres qui composent ce genre de mini-communautés.

    D'autre part, le principe même de la métagénomique fait en sorte que les fragments

    séquencés à partir d'un échantillon d'ADN génomique sont issus d'un plus ou moins grand

    nombre d'espèces différentes dont, pour la majeure partie, le génome complet n'est pas

    présent. L'identification de l'espèce d'origine auquel appartient un fragment donné n'est

    donc pas chose aisée. Nous traitons ce sujet plus en détail dans la section 2.3.3. de cette

    thèse.

    Une étude de Huber et collaborateurs (Huber et al., 2007) sur des communautés de

    bactéries et d'archées vivant dans des cheminées hydrothermales, a montré qu'un

    échantillon métagénomique peut être représentatif de l'environnement en termes de

    taxonomie (en l'occurrence de la population d'archées dans cet exemple). Cependant, ces

    mêmes auteurs ne sont pas parvenus à explorer de façon exhaustive la population

    bactérienne de cet environnement, cette dernière étant beaucoup plus diversifiée. En effet,

    la difficulté d'identifier potentiellement toutes les espèces d'un écosystème augmente avec

    la complexité et diversité taxonomique de ce dernier (Sogin et al., 2006; Huber et al., 2007;

    Wooley et al., 2010). Même un séquençage « en profondeur » d’un environnement naturel

    permet d’accéder seulement à une fraction infime de la variabilité génétique disponible

    dans le milieu en question (Gilbert & Dupont, 2011). Par conséquent, une analyse

  • 15

    métagénomique permet habituellement d'identifier seulement les membres les plus

    abondants d'une communauté (Tyson et al., 2004), car les espèces les plus nombreuses

    masquent celles qui sont rares, en fournissant une part beaucoup plus importante du

    matériel génétique total de la population microbienne en question. Ainsi, les chances de

    retrouver des fragments appartenant aux espèces moins représentées dans l'échantillon sont

    plus faibles. À titre d’exemple, une étude sur un échantillon d’une communauté

    microbienne de rumen comptant plus de 500 genres bactériens différents, a mis en évidence

    que les séquences issues des cinq plus abondants genres comptaient pour plus de 73% du

    nombre de séquences totales (Sparks et al., 2011). Néanmoins, certaines techniques comme

    l'hybridation différentielle permettent de soustraire l'ADN le plus abondant d'un échantillon

    afin de permettre d'avoir accès aux génomes des espèces plus rares (Galbraith et al., 2007).

    D'une manière générale, il faut donc être prudent quant à la représentativité des résultats

    obtenus lors d'une étude métagénomique. En d'autres termes, ce qui est observé dans

    l'échantillon ne le sera pas forcément dans l'environnement dont ce dernier est issu.

    D'autant plus que Bent et Forney (Bent & Forney, 2008) ont mis en évidence que la

    majorité des communautés microbiennes complexes affichent une distribution taxonomique

    caractéristique où seulement quelques espèces dominent alors que la vaste majorité de la

    population est inusitée.

    2.1.4.2. L'étape d'isolation et d'extraction des acides nucléiques

    Les microorganismes ont différents niveaux d'accessibilité face à l'isolation. Certains

    d'entre eux peuvent rester attachés à des particules inertes présentes dans l'échantillon,

    rendant leur ADN inaccessible. De plus, l'efficacité du procédé de lyse cellulaire varie

    selon les organismes, si bien que le produit d'extraction d'un échantillon environnemental

    ne représentera pas forcément tous les organismes présents au départ lors de

    l'échantillonnage. Ceci pouvant bien évidemment biaiser l'estimation de la composition

    taxonomique de l'échantillon en question.

    Il a été rapporté récemment que l'utilisation de différentes approches d'extraction pour

    l'étude d'un même métagénome apporte l'avantage de pouvoir caractériser des parties

    différentes de ce dernier, mais aussi d'augmenter le nombre d'espèces et de fonctions

    détectées (Delmont et al., 2012). Cependant, Morgan et collaborateurs (Morgan et al.,

  • 16

    2010) ont démontré que l'utilisation de protocoles d'extraction différents dans des études de

    métagénomique comparative peuvent entraîner des biais significatifs dans les résultats; c'est

    la raison pour laquelle nous avons choisi d'avoir recours à la même méthode d'extraction

    pour tous les échantillons analysés dans nos études, nous permettant ainsi de considérer les

    mêmes biais dans toutes nos analyses subséquentes.

    2.1.4.3. L'étape de clonage

    La fabrication d'une librairie de clones préalablement au séquençage peut entraîner certains

    biais inhérents au processus de clonage (niveau d'efficacité, nombres suffisants de clones

    produits), mais aussi à l'étape de PCR qui est souvent nécessaire après un clonage, et qui

    comporte certains désavantages comme les biais introduits par l'utilisation des sondes et/ou

    par l'amplification exponentielle (Suzuki & Giovannoni, 1996; Wang & Wang, 1997;

    Kanagawa, 2003; Acinas et al., 2005; Sipos et al., 2010). On sait par ailleurs que des

    fragments d'ADN pauvres en bases GC peuvent être moins stables et affecter l'efficacité du

    clonage (Temperton et al., 2009). De plus, certains gènes ne peuvent être incorporés dans

    les vecteurs de librairie en raison de leur instabilité ou de leur toxicité pour la cellule hôte

    (Sorek et al., 2007).

    Néanmoins, l'ensemble de ces biais peuvent être évités en supprimant tout simplement

    l'étape de clonage, et donc en séquençant directement l'ADN génomique obtenu après

    extraction. Cette approche a d'ailleurs été proposée comme la méthode la plus précise pour

    l'estimation de la diversité taxonomique de métagénomes (von Mering et al., 2007).

    2.1.4.4. Le séquençage

    La présence de certaines substances inhibitrices contenues dans l'environnement prélevé,

    comme l'acide humique souvent associée aux échantillons provenant du sol, peut affecter

    l'efficacité du séquençage.

    Il faut mentionner également qu'il existe d'autres défis liés à l'utilisation de la

    métagénomique, mais étant donné que ceux-ci sont associés au séquençage à haut débit et

    au traitement bio-informatique des séquences générées, j'ai fait le choix de les aborder dans

    les sections 2.2. et 2.3. respectivement.

  • 17

    2.2. Séquençage à haut débit

    L'essor de la métagénomique n'aurait pu avoir lieu sans les remarquables avancées

    technologiques que le séquençage de l'ADN a connu lors de la dernière décennie,

    notamment avec l'avènement des techniques de séquençage de deuxième génération, qui

    permettent de produire un nombre beaucoup plus important d'ADN séquencés, en moins de

    temps et à moindre coût.

    2.2.1. Historique

    Au cours du 20ème

    siècle, le séquençage de l'ADN a révolutionné la recherche dans le

    domaine des sciences de la vie, en réalisant un grand pas pour l'humanité avec le

    séquençage complet du génome humain en 2001 (Lander et al., 2001; Venter et al., 2001).

    Historiquement, ceci a été rendu possible grâce aux prouesses de deux pionniers travaillant

    sur le séquençage, W. Gilbert et F. Sanger qui se partagèrent le prix Nobel de chimie en

    1980 pour leurs co-découvertes dans ce domaine. Tout a commencé en 1975 avec Sanger et

    Coulson qui sont parvenus à développer la méthode de terminaison des chaînes, permettant

    le séquençage d'environ 50 nucléotides contigus sur plusieurs jours (Sanger & Coulson,

    1975). Deux ans plus tard, Maxam et Gilbert présentent alors une autre méthode de

    séquençage basée sur la dégradation chimique de l'ADN par coupures sélectives (Maxam &

    Gilbert, 1977). Cependant, la même année Sanger publie une méthode complémentaire à

    celle qu'il avait déjà créé en 1975, en introduisant l'utilisation des didéoxynucléotides, des

    inhibiteurs de l'ADN polymérase spécifiques à chaque base nucléotidique (Sanger et al.,

    1977). La même année, le développement de cette technologie a ainsi permis de séquencer

    le tout premier génome complet, celui du phage φX (Sanger et al., 1977). Dans les deux

    décennies suivantes, la méthode de séquençage de Sanger a été améliorée en termes de

    procédés et de chimie, avec la capacité de produire des séquences d'une longueur de 1000

    nucléotides avec une précision pouvant atteindre 99,999% (Shendure et al., 2004). Mais

    l'avancée majeure depuis cette optimisation reste son automatisation, qui a ouvert la voie à

    la démocratisation du séquençage à partir des années 1990 (Hutchison, 2007). Ces avancées

    dans la technique de Sanger ont rendu possible le séquençage d'une variété de génomes

    bactériens et eucaryotes, dont les plus marquants sont : Saccharomyces cerevisiae (Goffeau

    et al., 1996), Escherichia coli (Blattner et al., 1997), le riz (Goff et al., 2002; Yu et al.,

  • 18

    2002), la souris (Waterston et al., 2002), et enfin l'homme (Lander et al., 2001; Venter et

    al., 2001).

    Néanmoins, la démocratisation du séquençage en aveugle de génomes dans les années

    1990, a conduit à la génération d'un volume de plus en plus important de données à

    séquencer, rendant ainsi la technologie de Sanger souvent inadéquate, car jugée trop longue

    et particulièrement onéreuse (Shendure & Ji, 2008). C'est la raison pour laquelle en 2004, le

    National Human Research Institute a lancé « le programme de séquençage du génome à

    1000$ » dans le but de réduire à cette somme le prix du séquençage des génomes de

    mammifère, et ceci d'ici une dizaine d'années. Ainsi après cette annonce, plusieurs

    compagnies se sont lancées dans l'aventure afin de créer des nouveaux instruments de

    séquençage permettant de produire plus rapidement, et pour moins cher, des quantités

    massives de données (Meldrum, 2001; Meldrum & Holl, 2002). C'est dans cet esprit que

    sont nées les technologies de séquençage à haut débit de deuxième et troisième génération.

    2.2.2. Le séquençage en aveugle

    Ce type de séquençage (appelé « whole-genome shotgun sequencing ») a été popularisé à la

    fin des années 1990 par l'Institut Craig Venter, bien que Sanger et collaborateurs l'avaient

    proposé dès 1982 avec le séquençage du génome complet du phage λ (Sanger et al., 1982).

    Cette méthode, toujours utilisée à l'heure actuelle, a permis l'assemblage de grands

    génomes (bactériens puis eucaryotes) tels que ceux cités dans la section 2.2.1.

    On peut décrire cette méthode de séquençage de la manière suivante :

  • 19

    1. L'ADN génomique de l'organisme à séquencer est fragmenté de façon aléatoire;

    2. Les fragments sont clonés au hasard dans un vecteur (plasmide ou BAC), qui est

    ensuite introduit dans une bactérie hôte (comme E. coli) afin de créer une librairie

    de séquences et de produire ainsi assez de matériel pour le séquençage subséquent;

    3. Les fragments de la librairie de clones sont alors séquencés avec la technologie de

    Sanger;

    4. Les séquences obtenues sont assemblées à l'aide de différents outils de bio-

    informatique afin de reconstituer le génome complet de l'organisme en question.

    Signalons cependant, que ce type de séquençage est de plus en plus concurrencé par

    l'avènement des technologies de séquençage dites de « nouvelle génération » présentées

    dans la section suivante.

    2.2.3. Les méthodes à haut débit

    Apparues à partir de 2005, les méthodes de séquençage à haut débit de l'ADN, dites de «

    nouvelle génération » (Next Generation Sequencing (NGS)), ont gagné beaucoup de terrain

    sur la technologie de Sanger pour le séquençage des petits génomes et des écosystèmes

    environnementaux. Ceci est principalement dû au fait qu’elles sont grandement

    parallélisées permettant la production de plusieurs millions de séquences (« reads »)

    différentes par expérience sans avoir nécessairement besoin d’une étape de clonage au

    préalable. Ainsi, ces méthodes permettent d’obtenir un plus grand nombre de séquences,

    plus rapidement et pour un prix inférieur à la méthode de Sanger. Néanmoins, les « reads »

    produits sont plus courts pour la plupart des technologies existantes en 2012: de 35 à 250

    pb (paires de bases), excepté pour le pyroséquençage 454 qui depuis peu, serait en mesure

    de séquencer des fragments d'une longueur moyenne de 700 pb égalant ainsi plus ou moins

    la méthode de Sanger (Siqueira et al., 2012).

  • 20

    Les techniques de séquençage de deuxième génération les plus utilisées à l'heure actuelle

    utilisent des méthodologies différentes, cependant, elles présentent des similarités dans leur

    protocole, plus particulièrement elles comprennent toutes les étapes suivantes :

    1. Construction d’une librairie de séquences, qui consiste à fragmenter l’ADN

    génomique pour ensuite lier des adaptateurs à chacune des extrémités de ces

    fragments;

    2. Chaque fragment de la librairie est amplifié de manière à ce que chaque produit

    d'amplification soit séparé les uns des autres;

    3. Séquençage effectué par plusieurs cycles de réactions enzymatiques, le tout étant

    mesuré en temps réel.

    On compte actuellement plusieurs technologies dont quatre majeures de séquençage à haut

    débit de deuxième génération, chacune d'entre elles étant décrites ci-dessous.

    2.2.3.1. Le pyroséquençage 454

    Commercialisée par la compagnie 454 Life Sciences (appartenant désormais à Roche

    Diagnostics Corporation) depuis 2005, cette méthode consiste à séquencer un fragment

    d’ADN simple brin par synthèse du brin complémentaire, une base à la fois, en détectant à

    chaque étape le nucléotide qui a été ajouté (Margulies et al., 2005). Cette technologie

    produit les « reads » les plus longs en 2012 en termes de séquençage à haut débit de

    deuxième génération, soit des fragments de 1000 pb en théorie avec le nouveau système GS

    FLX+, mais en pratique la longueur moyenne maximale des « reads » produits se situe

    autour de 700 pb à l'heure actuelle. Une seule analyse de 454 peut désormais produire

    jusqu'à 700 millions de nucléotides (1 million de « reads ») en 23 heures environ.

    La première étape consiste à préparer une librairie de fragments simple brin, qui est alors

    mise en contact avec des billes recouvertes de sondes oligonucléotidiques complémentaires

    aux adaptateurs (Figure 2.2., encadré A et B); les conditions expérimentales font en sorte

    qu’une bille fixe un seul fragment de la librairie (Figure 2.2., encadré C). Ensuite, une

  • 21

    amplification par PCR à émulsion est réalisée afin d’amplifier le fragment d’ADN fixé à la

    bille (Figure 2.2., encadré D). Chaque bille contenue dans l’émulsion (mélange d’huile et

    d’eau) est piégée dans une bulle qui joue le rôle de microréacteur où l’amplification clonale

    a lieu (Figure 2.2., encadré D). Ceci permet d’obtenir une bille recouverte en surface de

    fragments simple brin, tous identiques, et prêts à être séquencés. Les billes sont alors mises

    en contact avec une plaque à micro-puits qui fait en sorte que chaque puits contient une

    seule bille, ainsi que les différentes enzymes (ADN polymérase, sulfurylase, luciférase)

    nécessaires à l'étape de séquençage (Figure 2.2., encadré E). Au sein de chaque puits, la

    séquence complémentaire des fragments amplifiés préalablement à la surface de la bille va

    être synthétisée en parallèle (étape d'élongation réalisée par l'ADN polymérase) et donc

    séquencée par la même occasion. L'étape d'élongation se déroule de la manière suivante :

    les nucléotides sont introduits dans le milieu réactionnel l'un après l'autre dans un ordre

    prédéterminé; si le nucléotide ajouté est celui attendu par l'ADN polymérase, il est

    incorporé dans le brin en cours de synthèse et libère alors un pyrophosphate immédiatement

    dégradé en ATP par l'ATP sulfurylas