"Développement d'outils et méthodes bioinformatiques pour l'étude ...

307
´ ecole doctorale des sciences de la vie et de la sant ´ e universit ´ e de la m ´ editerran ´ ee aix-marseille II facult ´ e des sciences de luminy th ` ese pour obtenir le titre de Docteur en Sciences Spécialité : Bioinformatique et enomique Présentée et soutenue par Aurélie Bergon Développement d’outils et méthodes bioinformatiques pour l’étude de l’expression des gènes et de leur régulation : Application aux pathologies soutenue le 6 février 2012 Jury : Rapporteurs : Pr. Gianluca Bontempi - Université Libre de Bruxelles Dr. Frédéric Guyon - Inserm UMR_S 973 (Paris) Examinateurs : Dr. Max Chaffanet - CRCM Inserm UMR891 (Marseille) Dr. Salvatore Spicuglia - Inserm UMR_S 928 (Marseille) Directeurs : Dr. Jean Imbert - Inserm UMR_S 928 (Marseille) Dr. Denis Puthier - Inserm UMR_S 928 (Marseille) Président : Pr. Franck Galland - CIML (Marseille)

Transcript of "Développement d'outils et méthodes bioinformatiques pour l'étude ...

  • ecole doctorale des sciences de la vie et de la sante

    universite de la mediterranee aix-marseille IIfaculte des sciences de luminy

    thesepour obtenir le titre de

    Docteur en SciencesSpcialit : Bioinformatique et Genomique

    Prsente et soutenue par

    Aurlie Bergon

    Dveloppement doutils et mthodes bioinformatiques pourltude de lexpression des gnes et de leur rgulation :

    Application aux pathologies

    soutenue le 6 fvrier 2012

    Jury :

    Rapporteurs : Pr. Gianluca Bontempi - Universit Libre de BruxellesDr. Frdric Guyon - Inserm UMR_S 973 (Paris)

    Examinateurs : Dr. Max Chaffanet - CRCM Inserm UMR891 (Marseille)Dr. Salvatore Spicuglia - Inserm UMR_S 928 (Marseille)

    Directeurs : Dr. Jean Imbert - Inserm UMR_S 928 (Marseille)Dr. Denis Puthier - Inserm UMR_S 928 (Marseille)

    Prsident : Pr. Franck Galland - CIML (Marseille)

  • Remerciements

    Tout dabord, je tiens remercier les membres de mon jury davoir accept de lire et dejuger mon travail de Doctorat, malgr le court dlai que je leur ai finalement laiss. Je voudraisensuite exprimer ma gratitude la directrice du laboratoire Inserm UMR_S 928 TAGC, leDocteur Catherine Nguyen, pour mavoir accueillie depuis 5 ans. Je remercie galement mesdirecteurs de thse, les docteurs Jean Imbert et Denis Puthier, pour mavoir permis de prendrepart des projets de recherche fort intressants, qui mont beaucoup appris.

    Un immense merci mes amis de la plateforme TGML, pour votre amiti et pour tous lesmoments de dtente et les fous rires inoubliables partags ensemble. A Fabrice et FX, mescollgues bioinformaticiens ! ! ! ah, on en passe du temps sur les donnes de squenage, et cenest que le dbut, trs bientt pour poursuivre le dveloppement. Et en particulier Fabricepour son aide en programmation lors de ma thse, on va bientt pouvoir reprendre les soirespizzas... A Hlne, pour toute son aide et sa patience afin de mexpliquer et surtout de maider venir bout des expriences, notamment du ChIP-seq et pour toute la culture cellulairequelle a ralise pour moi. A Valrie, pour sa gentillesse et les bons gteaux au chocolat, unantidpresseur naturel qui ma t trs utile, lors de cette thse.

    A Sophie et Vro, notre quipe de choc de gestion, merci les filles pour les pauses cafs,qui mont t dun grand rconfort. Merci en particulier toi Sophie, pour toutes les relecturesque tu as faites malgr le fait que la bioinformatique ne soit pas ta tasse de thse... euh je veuxdire de th ! ! !

    A Clairette, merci de mavoir encourage en me montrant quon pouvait vaincre toutes lesdifficults... Merci pour mavoir encourage aller prendre des cours de salsa avec toi, sansquoi je naurais jamais rencontr lamour de ma vie, Christophe. Jen profite pour remerciertous mes amis de la salsa, de la bachata et de la kizomba... trs bientt sur les pistes de danse,esprons que dici l je naie pas tout oubli.

    Jadresse mes remerciements tous mes collaborateurs auprs desquels jai beaucoupappris au cours de ces 4 annes. En particulier, je souhaite vivement remercier le Dr El ChrifIbrahim pour ses conseils, son aide prcieuse et les critiques quil a pu apporter lors de lalaborieuse rdaction de ce manuscrit.

    A mes amies de Prdiguard Angela et Florence, et tous mes amis du laboratoire prsentset passs : Jacky, Brigitte, Alex, Laura, Mimz, Luca, Sve, Nath, Cyrille, et tous les autres ;un grand merci pour votre soutien et tous les bons moments de rigolade et pour lambiance detravail unique du TAGC. A Jacques et Sam, qui malgr leur emploi du temps trs charg montaccord du temps lors de nombreuses discussions constructives et pour leurs conseils.

    A mes amis Martine et Jean-Louis pour leur bons sandwichs qui mont nourri pendant cesannes de thse des horaires souvent hors normes, merci pour votre amiti.

    Une pense ma grande famille et celle de Christophe, en particulier mes parents et

  • 2

    mon frre Olivier. Vous avez toujours t l pour moi, mme toi Olivier parti vivre loin denous en Chine ! ! ! Merci pour votre soutien et le rconfort que vous mavez apport pendantles moments de doute et de stress de ces dernires annes, et pour mavoir pousse toujours enavant.

    Enfin, un immense merci mon chri Christophe, qui a subi ces 9 derniers mois la naissancede cette thse, pour tout le soutien que tu mas toujours donn. On a connu le plus dur moncoeur, il nous reste le meilleur vivre.

    A mes parents pour leur immense soutien,et en mmoire de ma grand mre Monique

    qui ma toujours pousse me surpasser

  • Table des matires

    Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1Liste des figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9Liste des tables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11Liste des abrviations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    Avant propos : Contexte de la thse 15

    1 Introduction gnrale 191.1 tude des pathologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.2 Le transcriptome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    1.2.1 Principe des puces ADN . . . . . . . . . . . . . . . . . . . . . . . . 211.2.2 Cas particulier des puces ADN de technologie AgilentTM . . . . . . . 22

    1.3 Rgulation de lexpression des gnes . . . . . . . . . . . . . . . . . . . . . . . 241.3.1 La transcription basale . . . . . . . . . . . . . . . . . . . . . . . . . . 241.3.2 Les squences rgulatrices et les facteurs de transcription squences-

    spcifiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.3.3 La chromatine : histones et marques pigntiques . . . . . . . . . . . 251.3.4 Les ARN non codants . . . . . . . . . . . . . . . . . . . . . . . . . . 271.3.5 Epigntique et pignomes . . . . . . . . . . . . . . . . . . . . . . . 29

    1.4 Les techniques de squenage trs haut dbit . . . . . . . . . . . . . . . . . . 311.4.1 Principes du squenage trs haut dbit . . . . . . . . . . . . . . . . 321.4.2 Techniques danalyses bases sur le squenage HTS . . . . . . . . . . 45

    1.5 Apports des techniques de puces ADN et de squenage trs haut dbit . . . 511.6 Langages de programmation pour lanalyse de donnes . . . . . . . . . . . . . 53

    2 Contrle qualit et normalisation de donnes de puces ADN 592.1 Obtention des donnes brutes dexpression . . . . . . . . . . . . . . . . . . . . 59

    2.1.1 Conception du plan dexprience et biais techniques . . . . . . . . . . 592.1.2 Acquisition des donnes brutes . . . . . . . . . . . . . . . . . . . . . . 61

    2.2 Correction des donnes brutes . . . . . . . . . . . . . . . . . . . . . . . . . . 612.2.1 Prtraitement des donnes . . . . . . . . . . . . . . . . . . . . . . . . 612.2.2 Transformation en logarithme base 2 . . . . . . . . . . . . . . . . . . . 622.2.3 Normalisation des donnes . . . . . . . . . . . . . . . . . . . . . . . . 62

    2.3 Contexte du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652.4 Choix du dveloppement dune librairie R . . . . . . . . . . . . . . . . . . . . 662.5 Principe de la librairie R AgiND . . . . . . . . . . . . . . . . . . . . . . . . . 672.6 Discussions et Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

  • 4 Table des matires

    3 Analyses de donnes de puces ADN 753.1 Slection de gnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    3.1.1 Test t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 763.1.2 Significant Analysis of Microarrays (SAM) . . . . . . . . . . . . . . . 783.1.3 ANalysis Of VAriance (ANOVA) . . . . . . . . . . . . . . . . . . . . 79

    3.2 Mthodes de classification non supervises . . . . . . . . . . . . . . . . . . . 803.2.1 La mthode de classification hirarchique . . . . . . . . . . . . . . . . 803.2.2 La mthode des k-moyens (k-means) . . . . . . . . . . . . . . . . . . 803.2.3 Self-organizing maps (SOM) . . . . . . . . . . . . . . . . . . . . . . . 82

    3.3 Annotation fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823.3.1 Les diffrentes sources dinformation . . . . . . . . . . . . . . . . . . 833.3.2 Quelques outils dannotation . . . . . . . . . . . . . . . . . . . . . . . 833.3.3 Tests denrichissement fonctionnel . . . . . . . . . . . . . . . . . . . . 86

    3.4 Analyses de donnes dans le cadre de collaborations . . . . . . . . . . . . . . 883.4.1 La dengue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89ARTICLE 1 : Genome-wide expression profiling deciphers host responses al-

    tered during dengue shock syndrome and reveals the role of innate

    immunity in severe dengue. . . . . . . . . . . . . . . . . . . . . . . . . 913.4.2 Dysautonomie Familiale . . . . . . . . . . . . . . . . . . . . . . . . . 107ARTICLE 2 : Olfactory stem cells, a new cellular model for studying mole-

    cular mechanisms underlying familial dysautonomia . . . . . . . . . . 111ARTICLE 3 : Genome-Wide Analysis of Familial Dysautonomia and Kinetin

    Target Genes with Patient Olfactory Ecto-Mesenchymal Stem Cells 1293.5 Conclusions et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

    4 Fouille de donnes de puces ADN 1454.1 Stockage des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

    4.1.1 Qualit et traage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1464.1.2 Les bases de donnes MySQL . . . . . . . . . . . . . . . . . . . . . . 1474.1.3 Optimisations de base de donnes . . . . . . . . . . . . . . . . . . . . 147

    4.2 Mta-analyse et intgration de donnes . . . . . . . . . . . . . . . . . . . . . . 1484.2.1 Bases de donnes de biologie . . . . . . . . . . . . . . . . . . . . . . 1484.2.2 Bases de donnes ddies aux donnes de puces ADN . . . . . . . . 1484.2.3 Structure des donnes dans Gene Expression Omnibus (GEO) . . . . . 1494.2.4 R-analyses et mta-analyses de jeux de donnes provenant de GEO . . 149

    4.3 Contexte du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1514.4 Dveloppement de lapplication . . . . . . . . . . . . . . . . . . . . . . . . . 151

    ARTICLE 4 : TranscriptomeBrowser: A Powerful and Flexible Toolbox toExplore Productively the Transcriptional Landscape of theGene Ex-pression Omnibus Database . . . . . . . . . . . . . . . . . . . . . . . . 155

    4.5 Mise jour de la base et intgration de donnes . . . . . . . . . . . . . . . . . 1664.5.1 Restructuration de la base de donnes . . . . . . . . . . . . . . . . . . 1664.5.2 Intgration de nouvelles donnes . . . . . . . . . . . . . . . . . . . . . 167

    4.6 Dveloppement de nouvelles fonctionnalits . . . . . . . . . . . . . . . . . . . 1704.6.1 Nouveaux modes de requtes . . . . . . . . . . . . . . . . . . . . . . . 170

  • Table des matires 5

    4.6.2 Amlioration et nouveaux plugins . . . . . . . . . . . . . . . . . . . . 170ARTICLE 5 : TranscriptomeBrowser 3.0 : introducing a new interaction da-

    tabase and a new visualization tool for the study of gene regulatory

    networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1734.6.3 Les cartes transcriptionnelles pour le plugin TBMap . . . . . . . . . . 205

    4.7 Accs programm la base de donnes de TBrowser . . . . . . . . . . . . . . 2054.7.1 Dveloppement de services web . . . . . . . . . . . . . . . . . . . . . 2054.7.2 Implmentation dune librairie R/Bioconductor : RTools4TB . . . . . . 206

    4.8 Conclusions et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

    5 tude de la rgulation transcriptionelle par HTS 2155.1 Principe de limmunoprcipitation de la chromatine associe au squenage

    trs haut dbit (ChIP-seq) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2165.1.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2165.1.2 Principe biologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2185.1.3 Biais et bruit de fond . . . . . . . . . . . . . . . . . . . . . . . . . . . 2185.1.4 Avantages et inconvnients . . . . . . . . . . . . . . . . . . . . . . . . 2205.1.5 Le modle thorique de distribution des squences . . . . . . . . . . . 220

    5.2 Linformatique du HTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2215.2.1 Organisation matrielle et logicielle . . . . . . . . . . . . . . . . . . . 2215.2.2 Interfaces utilisateurs pour le lancement et la gestion du squenage . . 2275.2.3 Pipeline de traitement de donnes : Bioscope . . . . . . . . . . . . . . 227

    5.3 Analyse de donnes de ChIP-seq . . . . . . . . . . . . . . . . . . . . . . . . . 2285.3.1 Donnes brutes et qualit de squenage . . . . . . . . . . . . . . . . . 2305.3.2 Formats standards et outils de manipulation de donnes . . . . . . . . . 2335.3.3 Alignement sur le gnome de rfrence . . . . . . . . . . . . . . . . . 2355.3.4 Recherche de pics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2375.3.5 Dcouverte et recherche de motifs . . . . . . . . . . . . . . . . . . . . 2385.3.6 Annotation et visualisation des rsultats . . . . . . . . . . . . . . . . . 2415.3.7 Bases de donnes ddies aux donnes HTS . . . . . . . . . . . . . . . 241

    5.4 Elaboration doutils et de mthodes danalyse pour les donnes de ChIP-seq . . 2425.4.1 Choix des logiciels et stratgies . . . . . . . . . . . . . . . . . . . . . 2425.4.2 Picor : un nouvel outil pour la recherche de pics . . . . . . . . . . . . . 243

    5.5 Analyse de donnes en collaborations . . . . . . . . . . . . . . . . . . . . . . 2465.6 Discussion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

    A Manuel dutilisation de la librairie R : AgiND 251

    B Manuel dutilisation de la librairie R/Bioconductor : RTools4TB 273

    Bibliographie 285

  • Liste des figures

    1.1 Procdure damplification des ARNc pour une exprience bi-canale : pour uneexprience mono-canale, seuls les chantillons marqus au Cy3 ( B ) serontutiliss (Extrait du manuel dAgilentTM One-Color Microarray-Based GeneExpression Analysis (Low Input Quick Amp Labeling) Protocol ) . . . . . . . 22

    1.2 Droulement dune exprience de puces ADN, du dessin de lexprience austockage des donnes, en passant par leur traitement et leur analyse. . . . . . . 23

    1.3 Reprsentation schmatique des rgions rgulatrices permettant la modulationtranscriptionnelle de lexpression des gnes . . . . . . . . . . . . . . . . . . . 26

    1.4 Reprsentation des modifications covalentes dhistones avec en (A) la struc-ture de la chromatine avec ces octamres dhistones (adapt de http://www.mun.ca/biology/scarr/Histone_Protein_Structure.html), en (B) la structure tri-dimensionnelle dun nuclosome avec le positionnement des principales modi-fications dhistones (extrait de [Wolffe & Hayes, 1999]) et enfin en (C) les di-verses modifications N-terminales des histones H2A, H2B, H3 et H4 (adapt de[Lacoste & Ct, 2003]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    1.5 Interaction de la mthylation de lADN, des modifications dhistones, du posi-tionnement des nuclosomes et des autres facteurs permettant la rgulation delexpression des gnes comme des facteurs de transcription et les small RNA . . 30

    1.6 Rpartition des diffrentes technologies de squenage trs haut dbit dans lemonde en dcembre 2011. (A) Rpartition gographique, (B) Distribution ennombre et en pourcentage des principaux modles de squenceurs trs hautdbit (nombre total : 1670), et (C) Principaux centres de squenage (source :http://pathogenomics.bham.ac.uk/hts) . . . . . . . . . . . . . . . . . . . . . 34

    1.7 Amplification monoclonale des fragments dADN pour la constitution de librai-ries (Adapt de [Metzker, 2010]) . . . . . . . . . . . . . . . . . . . . . . . . . 36

    1.8 Principe des trois technologies majeures de squenage trs haut dbit (Adaptde [Metzker, 2010]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    1.9 Les sondes de la technologie SOLiDTM. Chaque sonde de 8 nuclotides est com-pose de 2 bases complmentaires la squence cible (positions 1 et 2) puis de3 bases dgnres (n) et enfin de trois bases universelles (z) . . . . . . . . . . 40

    1.10 Conversion des reads SOLiDTMen squences nuclotidiques. Chaque couleurcode pour un nombre entre 0 et 3 permettant laide de la dernire base deladaptateur (dans cet exemple T ) de reconstituer la squence gnomique . . 40

    1.11 Principe de la dtection de SNP et small indels par la technologie SOLiDTM . . 411.12 (A) Les diffrents modes de squenage : fragment , paired-end et

    mate-pair (B) Apport du mode paired-end pour la dtection dv-nements dinsertion, de dltion ou dinversion . . . . . . . . . . . . . . . . . 44

    1.13 La nouvelle gnration de squenceurs. (A) La technologie de Pacific Bios-ciences sur le principe de SMRTTM(B) LIon Torrent et sa puce semi-conductrice pour la lecture dun diffrentiel de pH (Adapt de [Metzker, 2010]et [Rothberg et al., 2011]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    http://www.mun.ca/biology/scarr/Histone_Protein_Structure.htmlhttp://www.mun.ca/biology/scarr/Histone_Protein_Structure.htmlhttp://pathogenomics.bham.ac.uk/hts)

  • 8 Liste des figures

    1.14 Les diffrentes tudes rendues possibles par le HTS avec divers niveaux dabs-traction (adapt de [Fullwood et al., 2009]) . . . . . . . . . . . . . . . . . . . 46

    1.15 Diagramme des objectifs du consortium travaillant sur le dcryptage des pig-nomes humains : le IHEC (International Human Epigenome Consortium). Cettefigure est issue du site internet du consortium IHEC. . . . . . . . . . . . . . . 53

    2.1 Les diffrents types de reprsentations (A) nuage de points, (B) diagramme, (C)histogramme, (D) bote moustaches. . . . . . . . . . . . . . . . . . . . . . . 63

    2.2 Principe de la mthode des quantiles . . . . . . . . . . . . . . . . . . . . . . . 652.3 Exemple de structure dune librairie R, ici la librairie R limma avec en (A) son

    architecture de fichier au niveau du code source, et en (B) celle aprs compila-tion et installation de la librairie . . . . . . . . . . . . . . . . . . . . . . . . . 67

    2.4 Schma rcapitulatif de lanalyse de donnes de puces ADN incluant la librai-rie AgiND . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    3.1 Distribution de la loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . 773.2 Reprsentation de type volcano plot . . . . . . . . . . . . . . . . . . . . . . . 783.3 Reprsentation de la valeur de d obtenue pour chaque gne i, soit d(i), en fonc-

    tion de la valeur simule dE(i). . . . . . . . . . . . . . . . . . . . . . . . . . . 793.4 Reprsentation dun jeu de donnes : (A) le heatmap sur les donnes brutes, (B)

    la classification hirarchique, et (C) la partitionnement par la mthode k-means(k=3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    3.5 Interprtation des gnes diffrentiellement exprims partir dune expriencede puces ADN. Cette interprtation dpend de ltude mene et permet lagnration de rseaux de gnes contextualiss ([Werner, 2008]) . . . . . . . . . 82

    3.6 Exemple de structure de lontologie Gene Ontology Biological Process .Cette figure schmatise les termes parents du terme transcription, DNA-dependent , obtenue laide de loutil QuickGO (http://www.ebi.ac.uk/QuickGO/GTerm?id=GO:0006351) . . . . . . . . . . . . . . . . . . . . . . . 85

    3.7 Exemples doutils dannotation partir de listes de gnes ou autres identifiants :(A) Gene Set Enrichment Analysis (GSEA), (B) DAVIDknowledgebase et (C)Ingenuity Pathway Analysis (IPA) . . . . . . . . . . . . . . . . . . . . . . . . 87

    3.8 Classification clinique de la dengue tablie en 1997 par lOMS et localisationde la rgion do proviennent les jeunes patients cambodgiens . . . . . . . . . 90

    3.9 Consquence de lpissage alternatif du gne IKBKAP sur les diffrentes iso-formes protique codes par ce gne . . . . . . . . . . . . . . . . . . . . . . . 108

    3.10 Rsum du plan exprimental et analytique de la seconde campagne de puces ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

    4.1 Interface web de Gene Expression Omnibus (GEO) . . . . . . . . . . . . . . . 1504.2 Principe de lalgorithme DBF-MCL . . . . . . . . . . . . . . . . . . . . . . . 1534.3 volution du nombre dchantillons disponibles dans Gene Expression Omni-

    bus de 2000 2010. (Adapt de [Barrett et al., 2005]) . . . . . . . . . . . . . . 1674.4 Schma de la nouvelle base de donnes TBrowserDBv2. Cette base de don-

    nes MySQL est constitue de 47 tables darchitecture MyISAM, permettantun accs rapide aux donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

    http://www.ebi.ac.uk/QuickGO/GTerm?id=GO:0006351http://www.ebi.ac.uk/QuickGO/GTerm?id=GO:0006351

  • Liste des figures 9

    4.5 Les diverses annotations disponibles dans la base de donnes utilise pour g-nrer lannotation des signatures transcriptionnelles . . . . . . . . . . . . . . . 169

    4.6 Interface graphique de TBrowser avec son panneau de requtes et ses principauxplugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

    4.7 Rsum de lavancement du projet avec le dveloppement dune nouvelle basede donnes, dune librairie R, de services web, et lintgration de nouvellesdonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

    5.1 ChIP-seq vs. ChIP-on-chip : processus gnral . . . . . . . . . . . . . . . . . . 2175.2 Distribution thorique de fragments squencs aprs alignement sur une s-

    quence de rfrence avec en (A) la dfinition dun pic, o d correspond la taille de sonication et en (B) les diffrents profils de pics (Adapt de[Wilbanks & Facciotti, 2010] et [Kidder et al., 2011]) . . . . . . . . . . . . . . 222

    5.3 Visualisation de profils de pics avec en (A) ceux obtenus pour un facteurde transcription ou pour les marques de mthylation et en (B) la diffrencede profils entre les diffrentes modifications dhistone ([Barski et al., 2007],[Tomaru et al., 2009] et [Pekowska et al., 2010]) . . . . . . . . . . . . . . . . 223

    5.4 Schma de lorganisation du matriel utilis sur la plateforme IBiSA TGMLdu TAGC pour lacquisition et lanalyse des donnes de squenage trs hautdbit par la technologie SOLiDTM . . . . . . . . . . . . . . . . . . . . . . . . 225

    5.5 Droulement de la prparation du squenage et de lanalyse laide des diff-rents logiciels (Adapt du manuel dutilisation dApplied Biosystems SOLiDExperimental Tracking Software (SETS) v4.0.1 ) . . . . . . . . . . . . . . . . 226

    5.6 Aperu de linterface graphique du logiciel ICS pilotant le run . . . . . . . . . 2275.7 Interface graphique Tomcat de Bioscope installe sur le cluster offline avec les

    diffrents pipelines disponibles et un exemple de lancement de pipeline . . . . 2295.8 Fichier de paramtrage (.ini) de bioscope pour une utilisation en ligne de com-

    mandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2305.9 Pipeline danalyse des donnes de ChIP-seq . . . . . . . . . . . . . . . . . . . 2315.10 Les formats fichiers bruts standards du SOLiDTMavec en (A) la notation de

    lidentifiant des billes et en (B) quelques lignes seulement dun fichier .cs-fasta et _QV.qual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233

    5.11 Visualisation de la qualit des reads laide des logiciels SETS ou FastQC . . . 2345.12 Choix de la mthode de dtection de pics et reprsentation des artefacts (Adapt

    de [Pepke et al., 2009] et [Rye et al., 2011]) . . . . . . . . . . . . . . . . . . . 2395.13 Les diffrents logiciels de recherche de pics (A) Tableau rcapitula-

    tif des principales mthodes (B) Reprsentation des pics obtenus parces diffrentes mthodes une position donne du gnome (Adapt de[Wilbanks & Facciotti, 2010]) . . . . . . . . . . . . . . . . . . . . . . . . . . 240

    5.14 Principales tapes du pipeline danalyse des donnes de Chromatine Immuno-Prcipitation (ChIP-seq) sur la plateforme TGML . . . . . . . . . . . . . . . . 244

    5.15 Principe de lalgorithme et pipeline danalyse du programme de dtection depics dvelopp au laboratoire TAGC . . . . . . . . . . . . . . . . . . . . . . . 245

  • Liste des tables

    1.1 Tableau comparatif des principales technologies de squenage trs haut d-bit Les cellules grises correspondent des technologies trs haut dbit dedernire gnration (NGS) qui seront dcrites plus tard dans ce manuscrit. Les * pointent les modles de squenceurs de paillasse (de petite taille) faible dbit, mais trs rapides . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    1.2 Caractristiques des trois modles de squenceurs les plus rpandus . . . . . . 351.3 Applications et avantages du paired-end pour les techniques de squenage

    trs haut dbit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431.4 Les principales applications du squenage trs haut dbit. En gras figure

    lapplication qui sera dveloppe plus en dtail dans le chapitre 5 de ce manuscrit 481.5 Paradigmes associs aux langages utiliss durant cette thse . . . . . . . . . . . 54

    2.1 Synthse des principaux outils permettant lanalyse des donnes de puces ADN de technologie AgilentTM. En gris, le logiciel commercial dvelopp parAgilent et en gras, les caractristiques de notre librairie R, AgiND . . . . . . . 72

    3.1 Liste des principales annotations contenues dans loutil DAVID knowledgebase,regroupes par domaine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

    4.1 Bilan des avances du projet entre sa publication en 2008 et maintenant . . . . 2094.2 Autres approches de mta-analyses de donnes de puces ADN provenant de

    GEO, en gras loutil que jai dvelopp. Les cellules grises correspondent auxoutils non gratuits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

    5.1 comparaison des techniques de ChIP-on-chip et de ChIP-seq. Le * corres-pond lutilisation du kit MAGnifyTM . . . . . . . . . . . . . . . . . . . . . . 217

    5.2 Les principaux formats de donnes du squenage trs haut dbit . . . . . . . 235

  • Liste des abrviationsLes abrviations indiques ci-dessous sont en anglais, car ce sont celles communment ad-

    mise par la communaut scientifique.

    AFE Agilent Feature Extraction softwareANOVA ANalysis Of VArianceChIP Chromatin ImmunoPrecipitationFDR False Discovery RateGb GigabytesGEO Gene Expression OmnibusHTS High Thoughput SequencingICS Instrument Controler SoftwareLOWESS LOcaly WEighted Scatterplot Smoothingnt NucleotidePCR Polymerase Chain ReactionPET Paired-End TagRNA RiboNucleic Acid (ou ARN en franais)SAM Significant Analysis of MicroarraysSETS SOLiD Experimental Tracking SoftwareSNP Small Nucleotide PolymorphismSOLiD Sequencing by Oligonucleotide Ligation and DetectionTb TerabytesTS TranscriptomeBrowsers Transcriptional SignatureTSS Transcription Start Site

  • Rsum de la thse

    Suite des tudes en biologie effectues lIUT Gnie Biologie (Analyses Biologiques etBiochimiques) puis lUniversit de Toulon et du Var, jai dbut ma formation en bioinfor-matique en 2006 en intgrant le master 1 mention Bioinformatique, Biochimie Structuraleet Gnomique (BBSG) la Facult des Sciences de Luminy (Universit de la Mditerrane,AixMarseille II). Lors de ce cursus jai ralis deux stages en bioinformatique au sein de lunitmixte Inserm/Universit de la Mditerrane UMR_S 928 intitul Technologies Avances pourle Gnome et la Clinique (TAGC) sous la direction du Dr Denis Puthier puis en co-directionavec le Dr Jean Imbert, qui a rejoint le TAGC en juillet 2007.

    Le laboratoire TAGC mne des projets de recherche dans les domaines de la gnomique etde la bioinformatique avec pour la plupart une application mdicale, et accueille une plateformede Transcriptomique et de Gnomique lablise IBiSA base sur la technologie des puces ADN et du squenage trs haut dbit, intitule Transcriptome Gnomique Marseille Luminy(TGML). Ces projets combinent des analyses portant sur la rgulation transcriptionnellenotamment dans le cancer du sein, les lymphomes, les glioblastomes, ou encore dans le sepsis.Ce laboratoire effectue galement des recherches fondamentales sur le contrle du cyclecellulaire, de la diffrenciation et de lactivation des lymphocytes T chez les mammifres. Cesprojets combinent des analyses portant sur la transcription et la rgulation de lexpression desgnes, et impliquent le dveloppement doutils danalyse et dapproches bioinformatiques.

    Les stages pr-doctoraux mont permis dacqurir une exprience dans (1) lanalyse dedonnes de puces ADN avec le dveloppement dune librairie R permettant le contrle qualitet la normalisation des puces sur lame de verre AgilentTM, et (2) la mta-analyse de donnesde puces ADN provenant de Gene Expression Omnibus (GEO) avec ma participation auprojet TranscriptomeBrowser initi en 2007 par le Docteur Denis Puthier. Ce dernier projetma permis dtudier la co-expression de gnes et leur rgulation dans le cadre de lactivationet de la diffrenciation des lymphocytes T. Suite lobtention en Juillet 2008 dune boursedallocataire de recherche MRT, jai souhait poursuive mes travaux de recherche au TAGC.Jai ainsi effectu ma thse en co-direction avec les docteurs Jean Imbert et Denis Puthier.

    Dans la continuit de mes travaux de master, ma thse a eu pour objet le dveloppementdoutils et de mthodes bioinformatiques permettant la caractrisation des mcanismesimpliqus dans diverses maladies par une approche transcriptomique pan-gnomique, maisgalement pigntique et par ltude de la rgulation transcriptionnelle de lexpression desgnes.

    Jai valu la qualit des donnes de puces ADN AgilentTM, je les ai normaliseset analyses dans le cadre de collaborations avec dautres quipes de recherche. Jai ainsitravaill avec le Dr. Patricia Paris de lInstitut de Mdecine Tropicale du Service de Sant desArmes (IMTSSA, Marseille) sur la dengue, infection virale, et avec le Dr. El Chrif Ibrahimdu NICN CNRS UMR 6184 (Facult de Mdecine Nord, Marseille) sur ltude dune maladieorpheline et neurodgnrative, la dysautonomie familiale. Ces collaborations ont fait lobjetde trois publications : deux dans PLoS ONE et une dans Human Mutation (voir Chapitres

  • 2 et 3).

    Le projet TranscriptomeBrowser, publi en dcembre 2008 dans PLoS ONE, a tpoursuivi. Jai ainsi dvelopp de nouvelles fonctionnalits, mais galement restructur,optimis et mis jour notre base de donnes. Ces travaux font lobjet dun article acceptdans BMC Bioinformatics et dun autre en prparation (voir Chapitre 4).

    En avril 2009, lvolution technologique marque par larrive dun squenceur trshaut dbit SOLiDTMv3 sur la plateforme TGML ma permis de dvelopper un pipelinedanalyse pour des expriences dImmunoPrcipitation de la Chromatine (ChIP-seq)(voir Chapitre 5). Ce dveloppement bioinformatique ma ensuite permis de collaborer lanalyse dexpriences ciblant de facteurs de transcription impliqus dans le cancer du seinou les glioblastomes, respectivement avec lquipe du Dr Daniel Birnbaum du Centre deRecherche en Cancrologie de Marseille (CRCM) et le Dr Thierry Virolle de lunit InsermU898 stem cells, development and cancer de Nice.

    Enfin, le pipeline et les scripts dvelopps ont galement t utiliss dans le cadre de lana-lyse de donnes de positionnement des nuclosomes par une approche dveloppe par le DrSalvatore Spicuglia de lquipe du Dr Pierre Ferrier au CIML en collaboration avec notre labo-ratoire. Cette technique nomme Mnase-Cap fait lobjet dun article en prparation.

  • Chapitre 1

    Introduction gnrale

    Sommaire1.1 tude des pathologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.2 Le transcriptome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    1.2.1 Principe des puces ADN . . . . . . . . . . . . . . . . . . . . . . . . . 211.2.2 Cas particulier des puces ADN de technologie AgilentTM . . . . . . . . 22

    1.3 Rgulation de lexpression des gnes . . . . . . . . . . . . . . . . . . . . . . . 241.3.1 La transcription basale . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.3.2 Les squences rgulatrices et les facteurs de transcription squences-

    spcifiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.3.3 La chromatine : histones et marques pigntiques . . . . . . . . . . . . 251.3.4 Les ARN non codants . . . . . . . . . . . . . . . . . . . . . . . . . . . 271.3.5 Epigntique et pignomes . . . . . . . . . . . . . . . . . . . . . . . . 29

    1.4 Les techniques de squenage trs haut dbit . . . . . . . . . . . . . . . . . 311.4.1 Principes du squenage trs haut dbit . . . . . . . . . . . . . . . . . 321.4.2 Techniques danalyses bases sur le squenage HTS . . . . . . . . . . . 45

    1.5 Apports des techniques de puces ADN et de squenage trs haut dbit . 511.6 Langages de programmation pour lanalyse de donnes . . . . . . . . . . . . 53

    1.1 tude des pathologiesLa pathologie est une partie de la mdecine qui a pour objet ltude des maladies et

    notamment leurs causes, leurs mcanismes, leurs dveloppements et leurs symptmes. Un abusde langage relativement rcent et populaire consiste faire du mot pathologie un synonymedu mot maladie , en lutilisant ainsi pour toute altration pathologique dun mcanisme oudun processus biologique.

    La plupart des maladies sont multifactorielles, cest--dire quelles possdent plusieurs alt-rations ou causes. Leur occurrence dpend de lenvironnement (dans le cas de linfection parexemple), du vcu de lindividu, mais aussi des prdispositions que lui confre son patrimoinegntique pour des maladies hrditaires. Dans ce cas, les facteurs gntiques ne font que pr-disposer un individu au dclenchement et au dveloppement particulier dune pathologie, maisnimpliquent en aucun cas son apparition.

    Ces maladies complexes sont diverses, telles que : obsit, diabte, asthme, cancer, maladiesauto-immunes, maladies neurodgnratives, etc. Des examens mdicaux, comme des prises

  • 20 Chapitre 1. Introduction gnrale

    de sang et autres examens cliniques, permettent de les dtecter et de suivre leur volution, tantau niveau dun tissu ou organe donn que de tout lorganisme. En effet, toutes les maladies ontdes volutions et des pronostics diffrents.

    Les travaux de recherche sur ces maladies visent la comprhension de leurs perturbations.Ainsi, ltude grande chelle de lexpression des gnes permet de dterminer des gnes diff-rentiellement exprims pouvant expliquer les perturbations observes. Ces travaux conduisent,entre autres, des analyses fonctionnelles au niveau du produit de ces gnes et de la rgulationde leur expression. Plus on en connat sur une maladie, mieux on peut la combattre ou du moinslimiter ses consquences.

    Ltude du transcriptome et des rgulations transcriptionnelles sont donc un des aspectstrs importants de ltude des pathologies. De plus en plus de publications portent par exemplesur ltude des Acides RiboNucliques (ARN, ou RNA en anglais) non-codants comme lesmicroRNA, ou bien encore les Long intergenic non-coding RNA (lincRNA), et leurs impli-cations dans des pathologies (voir partie 1.5).

    1.2 Le transcriptome

    Le transcriptome est lensemble des ARN issus de lexpression dune partie des gnesdu gnome dun type cellulaire ou dun tissu un moment et dans des conditions donnes.Initialement focalise sur lensemble des ARN messagers, cette dfinition a t tendue auxARN non codants comme les microRNA, les ARN ribosomaux, les ARN de transfert ou bienencore les lincRNA suite la mise en vidence rcente, grce au squenage haut dbit, queplus de 80% des nuclotides dun gnome peuvent tre transcrit. Cependant, cette transcriptiongnralise nimplique pas ncessairement une fonction associe chacun des produits. Nousretiendrons donc le terme de transcriptome pour dsigner lensemble des transcrits, codant ounon codant, associs une fonction dans un organisme.

    La caractrisation et la quantification du transcriptome dans un modle biologique (tissu,organisme, cellule ou ligne cellulaire) permettent didentifier les gnes transcrits dans uncontexte donn et ainsi de dterminer les mcanismes de rgulation dexpression des gnes(co-expression) et de dfinir leurs rseaux de rgulation (voies de signalisation impliques). Lameilleure connaissance du niveau dexpression dun gne dans diffrentes situations constitueune avance vers la comprhension de sa fonction, mais galement vers le criblage de nouvellesmolcules et lidentification de nouveaux mdicaments et de nouveaux outils de diagnostic.

    Introduite dans les annes 1980, la technique haut dbit des puces ADN permet demesurer simultanment le niveau dexpression dun large ensemble dARN messagers conte-nus dans un chantillon, ce qui en fait un outil de choix pour ltude du transcriptome. Cettemthode est de nos jours encore couramment utilise dans les laboratoires de recherche pourdiverses applications telles que lidentification de cibles thrapeutiques, de biomarqueurs oude voies de signalisation impliques dans une pathologie, la caractrisation des mcanismes dersistance une drogue, ou encore lidentification de signatures transcriptionnelles dans divers

  • 1.2. Le transcriptome 21

    contextes biologiques. Son utilisation intensive a entran le dveloppement de nombreusestechnologies permettant lacquisition des donnes. De plus, elle a ncessit le dveloppementde nombreux outils et mthodes bioinformatiques et statistiques ddis au traitement de lamasse de donnes ainsi obtenue.

    Actuellement, avec le dveloppement du squenage trs haut dbit, de nouvellestechniques dtudes du transcriptome ont vu le jour : le RNA-seq et le SAGE-seq. Cestechniques dtailles plus loin ne sont pas celles que jai utilises durant ma thse.

    1.2.1 Principe des puces ADN

    Le principe des puces ADN, encore appeles biopuces ou microarrays, repose surlhybridation dun chantillon de squences dADN ou dARN complmentaires (ADNc,ARNc) marqu avec des brins dADN plus courts, complmentaires, ou des oligonuclotidessynthtiques, fixs sur un support solide. Les premires puces, cres au milieu des annes1980, utilisaient une membrane de nylon et un marquage radioactif (appeles parfois macroar-rays par opposition aux microarrays actuels). Elles ont ensuite t supplantes dans les annes90 par la technologie sur lame de verre avec un marquage fluorescent. La miniaturisationsur support solide, lutilisation de marqueurs fluorescents et les progrs de la robotiquepermettent aujourdhui de fabriquer des puces comportant une trs haute densit dunitsdhybridations ou spots . Chaque spot est constitu de sondes cest--dire doligonuclotides(dune longueur de quelques dizaines de nuclotides) ou de produits PCR (pour PolymeraseChain Reaction , ADNc dune longueur de quelques centaines de nuclotides). Ces sondescorrespondent des squences dADN spcifiques dun transcrit codants connu ou prdit.Les oligonuclotides synthtiss sont issus de banques de donnes telles que GenBank oudbEST et correspondent donc des squences non redondantes spcifiques dun transcrit donn.

    A lheure actuelle, les avances technologiques ayant permis une augmentation spectacu-laire de la densit des spots, les puces les plus frquemment utilises sont pangnomiques,cest--dire que les sondes interrogent tous les transcrits connus dun gnome ainsi quequelques squences non annotes. En plus des squences dARN messagers, elles comportentparfois celles correspondant des lincRNAs.

    On distingue diffrents formats et types de puces (encore appeles plateformes) selon ladensit des spots, la nature et le mode de fabrication des sondes (synthse in situ par photoli-thographie ou impression jet dencre ), la nature des cibles, les mthodes dhybridation etle champ dapplication. Plusieurs socits commerciales ont ainsi dvelopp des puces ADNparmi lesquelles Agilent Technologies, Affymetrix, GE Healthcare, Life Technologies (AppliedBiosystems) ou encore Illumina. Le choix de lUnit UMR_S 928 TAGC stant port en 2007sur linstallation dune plateforme transcriptome commerciale AgilentTM, celle-ci sera dcriteci-aprs.

  • 22 Chapitre 1. Introduction gnrale

    1.2.2 Cas particulier des puces ADN de technologie AgilentTM

    La technologie dveloppe dans les annes 90 par Agilent Technologies utilise un supportdhybridation rigide de type lame de verre, qui permet le dpt dune densit leve de sondesgrce une technique dimpression de type jet dencre . Dans un premier temps, desARNc marqus avec un fluorochrome obtenues la suite dune transcription inverse et dunetranscription in vitro des ARN de lchantillon. Ces ARNc sont ensuite incubs avec la puceafin de permettre leur hybridation avec les sondes prsentes sur la celle-ci (Figure 1.1).

    Figure 1.1 Procdure damplification des ARNc pour une exprience bi-canale : pour uneexprience mono-canale, seuls les chantillons marqus au Cy3 ( B ) seront utiliss (Extraitdu manuel dAgilentTM One-Color Microarray-Based Gene Expression Analysis (Low InputQuick Amp Labeling) Protocol )

    Ces puces comportent des sondes longs oligonuclotides (60 nuclotides) contraire-ment la technologie AffymetrixTMdans laquelle les sondes sont beaucoup plus courtes (25nuclotides). Lacquisition des donnes de fluorescence pour chaque spot est ralise avecun scanner Agilent (G2565CA) quip dun systme de balayage laser permettant dexciterchaque fluorochrome sa longueur donde spcifique. Limage de la puce gnre est par lasuite traite par un logiciel de quantification afin de calculer lintensit de chaque spot, cest

  • 1.2. Le transcriptome 23

    dire le niveau dexpression de chaque transcrit reprsent sur la puce.

    De nombreux formats de puces pangnomiques sont disponibles en version mono etbi-canale (jemploierai par la suite les termes anglais one-color et two-colors qui sontprfrentiellement utiliss dans le milieu scientifique), pour les principaux organismes modlestels que lhomme, la souris, le rat et la levure. Leurs identifiants sont composs du nombredchantillons multipli par le nombre de sondes en milliers ( k ) voire aujourdhui en mil-lions ( m ). Ces formats sont diffrents en fonction du type dimpression : les SurePrint HD(8x15k, 4x44k, 2x105k, 1x244k) mais galement la nouvelle gnr ation de puces contenantdes lincRNAs, les SurePrint G3 (8x60k, 4x180k, 2x400k, 1x1m). Il est galement possibledobtenir des puces ADN faon pour tudier le transcriptome despces atypiques laidedu logiciel eArray.

    Il existe galement dautres types de puces, chacune ayant une application bien dfinie,telles que : les puces CGH ( Comparative Genomic Hybridation ) pour tudier les amplifi-cations et les dltions gnomiques sur lensemble du gnome ([Solinas-Toldo et al., 1997],[Snijders et al., 2001]), les puces recouvrant lentiret du gnome par fragments chevauchants( tiling arrays ) pour des applications comme le ChIP-on-chip (voir partie 5.1.1), lespuces de gnotypage SNP ( Small Nucleotide Polymorphism ) permettant lanalyse despolymorphismes ([Pastinen et al., 2000]).

    Une exprience de puces ADN se droule selon les tapes suivantes : conception du plandexprience, marquage et hybridation, acquisition et traitement des donnes, analyse et inter-prtation des rsultats (Figure 1.2). Les particularits de lacquisition, de la correction, de lanormalisation des donnes de technologie AgilentTM seront prsentes et discutes dansles chapitre 2 et 3 de ce manuscrit. La mta-analyse de donnes de puces sera prsenteau travers du projet TranscriptomeBrowser dvelopp au TAGC et auquel jai contribu(voir Chapitre 4).

    Figure 1.2 Droulement dune exprience de puces ADN, du dessin de lexprience austockage des donnes, en passant par leur traitement et leur analyse. Chacune de ces tapes ancessit le dveloppement doutils bioinformatiques qui seront dtaills dans les chapitres 2 4 de ce manuscrit

  • 24 Chapitre 1. Introduction gnrale

    1.3 Rgulation de lexpression des gnes

    La rgulation de lexpression des gnes est un processus important chez les organismesvivants. Dans le cas des organismes pluricellulaires, toutes les cellules possdent a priorile mme patrimoine gntique. Le nombre de gnes du gnome humain est fixe, cest largulation qui permet aux cellules dexprimer diffremment leurs gnes et de se diffrencierau cours de lembryogense pour donner diffrents tissus. De mme, ces tissus possdent descaractristiques et une rgulation particulire au niveau des gnes et de la structure mme de laconformation de lADN.

    La rgulation de lexpression des gnes comprend lensemble des mcanismes de rgulationmis en oeuvre pour passer de linformation gntique incluse dans une squence dADN unproduit fonctionnel (ARN ou protine). Elle comporte plusieurs niveaux : transcriptionnel,post-transcriptionnel, traductionnel et post-traductionnel.

    Seules les rgulations transcriptionnelles seront dcrites ci-aprs, compte tenu de mestravaux de thse portant sur ltude de lexpression des gnes et de leur rgulation parlanalyse de la fixation de facteurs de transcription.

    Lexpression des gnes est le rsultat de linteraction de plusieurs processus : (1) latranscription basale par les ARN polymrases et les facteurs de transcription gnraux, (2)la modulation de celle-ci par des facteurs de transcription squences-spcifiques, (3) ladynamique de la chromatine par la modulation des marques pigntiques, et (4) la rgulationpar les ARN non codants.

    1.3.1 La transcription basale

    La transcription basale de lADN en ARN seffectue sous linfluence des ARN poly-mrases et de nombreux facteurs de transcription gnraux. Les ARN polymrases sontdits ADN dpendants et leur type permet la transcription dARN diffrents. Ainsi, le type I est lorigine des ARN ribosomiques, alors que le type II est lorigine des ARN messagers, de laplupart des small nuclar RNA (snRNA), des small nucleolar RNA (snoRNA) et des microRNA([Kornberg, 1999], [Sims et al., 2004]) ; enfin, le type III est lorigine de la synthse desARN de transfert ainsi que de lARN ribosomique 5S. Quant aux facteurs de transcriptiongnraux, comme la famille TFII (TFIIA, TFIIB, TFIID, TFIIE, TFIIF, TFIIH et TFIIS)([Lee & Young, 2000]), ils sont requis pour permettre le recrutement de lARN polymraseII (PolII) aux promoteurs, formant ainsi le complexe de pr-initiation de la transcription([Orphanides et al., 1996]) (Figure 1.3).

    Les gnes des eucaryotes possdent des squences rgulatrices prsentes proximit dusite dinitiation de la transcription (ou TSS pour Transcription Start Site ) constituant lepromoteur proximal. Celui-ci est le lieu de formation du complexe de pr-initiation de latranscription. La modulation de la transcription de lADN par la PolII est effectue par desfacteurs de transcription spcifiques. Leur liaison non-covalente au niveau de lADN seffectue

  • 1.3. Rgulation de lexpression des gnes 25

    au niveau de sites spcifiques, appels sites de fixation de facteurs de transcription (TFBS, Transcription Factor Binding Site ), afin dactiver ou dinhiber lexpression dun gne donn.

    1.3.2 Les squences rgulatrices et les facteurs de transcriptionsquences-spcifiques

    La modulation de lexpression des gnes est rendue possible par lassemblage de protines,tel que les facteurs de transcription lis lADN au niveau des squences rgulatrices. Cecontrle spatiotemporel de lexpression des gnes au sein de lorganisme permet la mise enplace et le maintien de la spcificit tissulaire, impliquant de nombreuses voies de signalisationet rseaux de rgulation transcriptionnelle ([Naef & Huelsken, 2005], [Zhang et al., 2004],[Visel et al., 2009a]).

    Ces rgions rgulatrices sont de plusieurs types : (1) les promoteurs lorsquils sont situs proximit du site dinitiation de la transcription de la rgion codante, (2) les enhancersquand ils se localisent distance du site dinitiation de la transcription et quils potentialisentlaction du promoteur, (3) des silencers lorsquils se situent comme les enhancers distancedu gne mais quils le rpriment, et (4) les insulateurs qui correspondent une squencergulatrice affectant linteraction entre lenhancer et le promoteur ([Geyer & Corces, 1992],[Kellum & Schedl, 1992]). Ces rgions rgulatrices sont particulirement conserves lors delvolution, car elles sont composes de courtes squences de 6 15 paires de bases (pb),appeles lments rgulateurs (RE, Regulatory Element ) permettant le recrutementspcifique des facteurs de transcription sur lADN (Figure 1.3).

    Les facteurs de transcription nagissent pas de manire indpendante, mais formentdes complexes avec dautres facteurs de transcription et des cofacteurs protiques, commecest galement le cas pour les facteurs de transcription gnraux ([Fedorova & Zink, 2008],[Ravasi et al., 2010]). Ces facteurs de transcription se lient leur sites de liaison spcifiquessouvent regroups en modules cis-rgulateurs.

    1.3.3 La chromatine : histones et marques pigntiquesLa chromatine est compose de lenroulement de la double-hlice dADN chromosomique

    autour des nuclosomes dhistones et des protines non histones. La chromatine est ainsi unpolymre de nuclosomes dont le degr de condensation affecte laccessibilit de la machi-nerie transcriptionnelle lADN. Les nuclosomes sont des octamres dhistones constitusde deux htrodimres H2A/H2B et H3/H4 autour desquels 146 paires de bases (pb) dADNsont enrouls (Figure 1.4 A). Lhistone linker H1, est localise entre 2 nuclosomes et permetune condensation supplmentaire de la chromatine. La chromatine est prsente sous deuxtats : lhtrochromatine sous forme compacte et inaccessible aux activits enzymatiques, etleuchromatine sous forme dcondense laissant ainsi accessible lADN la machinerie desARN polymrases. Laccessibilit de la chromatine est un excellent indicateur de la capacitde liaison des facteurs de transcription et de la dynamique des nuclosomes participant la

  • 26 Chapitre 1. Introduction gnrale

    Figure 1.3 Reprsentation schmatique des rgions rgulatrices permettant la modulationtranscriptionnelle de lexpression des gnes (Adapt de [Wasserman & Sandelin, 2004])

    rgulation de lexpression des gnes.

    La modulation de cette accessibilit est directement dpendante de la structure dynamiquede, qui par intgration de signaux spcifiques joue un rle important dans la rgulation delexpression des gnes ([Li et al., 2007]). Le remodelage de la chromatine permettant lesprincipaux mcanismes cellulaires exige une grande plasticit controle par des modificationsbiochimiques de sa structure laide des mcanismes pigntiques tels que les modificationsdes histones, leur substitution par des variants et la mthylation de lADN au niveau des dinu-clotides CG souvent concentrs dans des courtes rgions (>200 bp, [CpG]>60%), appelesilots CpG (Figures 1.4 et 1.5). En effet chez lhomme, on observe une sous-reprsentationglobale des dinuclotides CpG (environ 20% de la frquence attendu) et une surreprsentationlocale proximit des rgions promotrices et des enhancers (29 000 ilots CpG prdits danslensemble du gnome humain).

    La mthylation de lADN est une modification pigntique transmissibles. Sa prsenceest gnralement associe la rpression de la transcription gniques. Elle se localise principa-lement au niveau des ilots CpG proximit des gnes (Figure 1.5).

    Le degr de condensation de la chromatine est contrl par des modifications des extr-mits N-terminales des histones, comme des phosphorylations, actylations, mthylations,

  • 1.3. Rgulation de lexpression des gnes 27

    ubiquitinations, sumoylations ([Kouzarides, 2007]) (Figure 1.4 B et C). Toutes ces modifica-tions sont catalyses par des enzymes spcifiques. Les modifications covalentes des histonesagiraient soit directement en modifiant la compaction de lenroulement dADN autour desnuclosomes, soit indirectement en constituant des marques permettant le recrutementde protines capables de remodeler localement la structure de la chromatine. Le modle desmodifications covalentes des histones agissant comme un code (le code des histones ) at propos par Strahl et Allis en 2000 ([Strahl & Allis, 2000], [Jenuwein & Allis, 2001]).Ce code est loin dtre universel. Il serait plus ou moins spcifique selon les gnes et lescellules considrs, mais semblerait tre volutivement stable au sein des mammifres([Lee & Mahadevan, 2009]). Cependant, le rle des marques pigntiques dans le maintien delidentit cellulaire nest pas encore clairement dfini ([Natoli, 2011]).

    Leffet fonctionnel des principales marques dhistones dpend au moins en partie de leurlocalisation. Ainsi, ltude de leur profil le long des gnes mais galement de leurs squencesrgulatrices a pu montrer que les promoteurs actifs prsentent des modifications du typeH3K4me3 et H3K27ac, tandis que les enhancers actifs seraient plutt sujets H3K4me1 etH3K27ac. Les gnes transcrits possderaient des modifications de type H3K36me3, alors quelhtrochromatine inaccessible aux lments de rgulation prsenterait des marques H3K9me3et H3K27me3 ([Visel et al., 2009b], [Heintzman et al., 2009]).

    Il existe galement des variants dhistones qui jouent des rles majeurs dans diffrentsprocessus tels que la rparation de lADN ([Klose & Zhang, 2007], [Billon & Ct, 2011]),lorganisation centromrique ([Foltz et al., 2009]), linactivation du chromosome sexuel([Fernandez-Capetillo et al., 2003]) et une condensation spcifique des cellules gamtes mles([Okada et al., 2005], [Govin et al., 2004]). Ces variants ont une squence qui diffre de celledes histones conventionnelles sur quelques rsidus seulement ou sur des portions plus impor-tantes de la protine.

    1.3.4 Les ARN non codants

    De rcentes analyses transcriptomiques trs haut dbit ont mis en vidence que plus de90% du gnome est transcrit, mais que seuls 1 2 % de ces transcrits coderaient pour desprotines ; les autres constitueraient une catgorie de transcrits appels ARN non-codants(ncRNA pour non-coding RNA). Parfois bien conservs lors de lvolution, ce qui suggre uneimportance fonctionnelle, ils sont cependant gnralement moins fortement exprims que lesARN messagers.

    Ces ncRNA peuvent tre diviss en 2 groupes : les ncRNA dinfrastructure, incluant lesARN ribosomiques, les ARN de transfert et les petits ARN de type small nuclear, et lesncRNA de rgulation, comme les micro ARN (miRNA), les small interfering RNA (siRNA)et les long non-coding RNA (lncRNA) ([Ponting et al., 2009]). Au-del de leur rle dans ladgradation dun ARNm cible, les miRNA et les siRNA et les ont ainsi t identifis, ainsi quele lncRNA, comme pouvant jouer un rle dans la rgulation de lexpression des gnes par leciblage des promoteurs et lactivation de la traduction ([Krol et al., 2010], [Place et al., 2008],[Kim et al., 2008]).

  • 28 Chapitre 1. Introduction gnrale

    Figure 1.4 Reprsentation des modifications covalentes dhistones avec en (A) la structurede la chromatine avec ces octamres dhistones (adapt de http://www.mun.ca/biology/scarr/Histone_Protein_Structure.html), en (B) la structure tridimensionnelle dun nuclosome avecle positionnement des principales modifications dhistones (extrait de [Wolffe & Hayes, 1999])et enfin en (C) les diverses modifications N-terminales des histones H2A, H2B, H3 et H4 (adaptde [Lacoste & Ct, 2003])

    http://www.mun.ca/biology/scarr/Histone_Protein_Structure.htmlhttp://www.mun.ca/biology/scarr/Histone_Protein_Structure.html

  • 1.3. Rgulation de lexpression des gnes 29

    La majorit des lncRNA sont de taille suprieure 200nt. Rcemment, trois nou-velles classes de lncRNA ont t dcrites : les long intergenic non-coding RNA (lin-cRNA), enhancer RNA (eRNA) et les promoter-associated RNA (PAR) ([Kim et al., 2010],[De Santa et al., 2010], [ rom et al., 2010]).

    Les lincRNA auraient une signature chromatinienne identique celle des gnes actifs. Ilspossdent donc des marques pigntiques telles que H3K4me3 au niveau de leur promoteuret H3K36me3 le long de la rgion transcrite. On pense quils jouent le rle de guide desmodifications de la chromatine participant ainsi ltablissement dun tat pigntiquespcifique pour chaque type cellulaire ([Khalil et al., 2009], [Guttman et al., 2009]).

    La taille des eRNA varie entre 100 et 900 nt ([De Santa et al., 2010], [ rom et al., 2010]).Contrairement aux lincRNA, les eRNA possdent les caractristiques pigntiques spcifiquesdes enhancers, do leur nom. En effet, ceux-ci sont enrichis en marques de H3K4me1 et sonttranscrits par lARN polymrase II (contrairement aux autres ARN non codants transcrits parlARN polymrase III), et de co-rgulateurs tels que le co-activateur p300. En revanche, ilssont faiblement enrichis en H3K4me3.

    Enfin, les PAR sont une catgorie de plus petite taille comprise entre 16 et 200nt. Ces ncRNAsont caractriss par leur localisation ; certains sont exprims proximit des TSS, alors quedautres le sont au niveau des promoteurs. Un nombre croissant dtudes semble indiquer que lesPAR jouent un rle dans la rgulation de lexpression des gnes aussi bien dans leur activationque dans leur rpression ([Morris et al., 2008], [Wang et al., 2008], [Kaikkonen et al., 2011]).

    1.3.5 Epigntique et pignomes

    Linformation contenue dans le gnome est ainsi spcifiquement rgule par les marquespigntiques de manire spatio-temporelle pour permettre aux processus biologiques de seproduire dans un type cellulaire donn et au stade dveloppemental appropri ; tel est le rlede la rgulation pigntique. Ce terme, dont la dfinition initiale fut introduite en 1942 parConrad H. Waddington, dfinit les modifications transmissibles et rversibles de la chromatinene saccompagnant pas de changements de la squence nuclotidique de lADN.

    Il est cependant important de ne pas confondre pigntique et pignome. En effet,lpignome est ltat pigntique de la cellule. Un pignome fait donc rfrence auxcaractristiques pigntiques dune cellule donne telles que la mthylation de lADN, lesmodifications dhistones et laccessibilit de la chromatine permettant laccs au gnome etainsi lexpression dARN messagers et non-codants ([Bernstein et al., 2010]). Chaque typecellulaire un tat de diffrenciation donn possde ainsi son pignome, qui dfinit sonprogramme dexpression gnique.

    Une meilleure comprhension des mcanismes de rgulation pigntiques et des pig-nomes a t rendue possible par le dveloppement du squenage trs haut dbit, dcrit dansla partie suivante de ce chapitre. Lutilisation de ces approches dans une varit des tissus a ainsi

  • 30 Chapitre 1. Introduction gnrale

    Figure 1.5 Interaction de la mthylation de lADN, des modifications dhistones, du posi-tionnement des nuclosomes et des autres facteurs permettant la rgulation de lexpression desgnes comme des facteurs de transcription et les small RNA. Les rgions deuchromatine sontmarques par H3K9me2 et H3K9me3, qui servent la liaison de HP1 (Heterochromatic pro-tein 1). Les small RNA sont impliqus dans le maintien de lhtrochromatine.La mthylationde lADN est prsente tout le long du gnome mais est absente gnralement au niveau des r-gions rgulatrices des gnes actifs ou activables). La modification H3K27me3 marque les gnesinactifs tandis que H3K4me3, H3K4me2, H3K4me1, lactylation des histones et le variant delhistone H2A (H2A.Z) marquent la rgion dinitiation de la transcription des gnes actifs. Lesmono-mthylations de H3K4, H3K9, H3K27, H4K20 et H2BK5 sont localises au niveau desrgions transcrites avec un pic en 5 du gne, alors que H3K36me3 marque galement les r-gions transcrites mais avec un pic en 3 du gne (Extrait de [Schones & Zhao, 2008])

  • 1.4. Les techniques de squenage trs haut dbit 31

    permis davoir une vue globale lchelle du gnome de lactivit des lments cis-rgulateurs,de la fonction des facteurs de transcription et des processus pigntiques impliqus dans lecontrle de lexpression des gnes.

    1.4 Les techniques de squenage trs haut dbit

    Les techniques de squenage trs haut dbit (HTS pour High Thoughput Sequen-cing ), communment, et improprement, appeles NGS pour Next Generation Sequencing ,connaissent un dveloppement spectaculaire depuis leur apparition commerciale au dbut 2006([Margulies et al., 2005], [Shendure et al., 2005], [Hutchison, 2007], [Chan, 2005]). Ellesconstituent la troisime gnration de squenage aprs les mthodes de Sanger, et de Maxamet Gilbert en 1977 et le pyrosquencage en 1988.

    Le squenage de lADN a t invent dans la deuxime moiti des annes 1970. Deuxmthodes ont t dveloppes indpendamment : une mthode de dgradation chimiqueslective par lquipe de Walter Gilbert ([Maxam & Gilbert, 1977]) et une mthode de synthseenzymatique slective par Frederick Sanger ([Sanger et al., 1977], [Prober et al., 1987]). Puisle pyrosquenage a t dvelopp et reste encore aujourdhui une technique trs utilise carelle est plus rapide que les mthodes classiques ([Hyman, 1988], [Ronaghi et al., 1998]). Cestlune des raisons pour lesquelles cette technique a t choisie par une des technologies du HTSqui sera brivement dcrite plus tard dans ce manuscrit.

    la diffrence des premires gnrations de squenceurs capillaires, ces les squenceurs trs haut dbit actuels permettent le squenage massif en parallle de plusieurs millions defragments dADN, ceci trs rapidement et en diminuant les cots et avec une moindre quantitde matriel biologique. Cette avance a ncessit des dveloppements technologiques constanttant au niveau biologique (automatisation, rvision et amlioration des ractifs, des protocoles)quau niveau informatique (algorithmes, logiciels, ferme de calcul, mmoire, stockage).

    Grce aux techniques du HTS, des tudes qui ntaient pas envisageables pour diversesraisons (trop longues, pas assez de matriel biologique, trop coteuses) ont pu tre ralises([Hillier et al., 2008], [Srivatsan et al., 2008]). Il est dornavant possible de squencer plusieurscentaines de giga-bases (Gb) du gnome avec une couverture suffisante permettant des tudesde liaison gntiques telles que la recherche des polymorphismes spcifiques par exemple,des SNP, pour Single Nucleotide Polymorphisms), prsents chez plusieurs patients. Jusque-len effet, lexprimentateur tait contraint de slectionner des gnes dintrt et de squencerspcifiquement de courtes rgions de quelques centaines de bases pralablement identifies.Ainsi, le Projet Gnome Humain, entrepris en 1990 avec pour mission de dterminer lasquence du gnome humain par la mthode de Sanger, na pu tre achev quen avril 2003,avec tout de mme deux ans davance sur la date prvue. La ralisation de ce projet a ncessitlintervention dun nombre important de biologistes pour le squenage et de bioinformaticienspour lassemblage des squences ainsi que pour le dveloppement et lutilisation de puissantsmoyens informatiques.

  • 32 Chapitre 1. Introduction gnrale

    Avec les HTS, le squenage de-novo ou le re-squenage du gnome humain est possibleen seulement quelques jours dans les grands centres de squenage (Figure 1.6 C). En effet,lautomatisation de tous les processus exprimentaux et lutilisation dun pipeline danalyseautomatique permettent un squenage et une analyse extrmement rapides des chantillons. Deplus, des compagnies ddies un type danalyse spcifique ont t cres ; elles fonctionnent24h/24 et 7j/7 et produisent de lordre dun milliard de squences par jour (par exemple,Complete Genomics ou le BGI).

    1.4.1 Principes du squenage trs haut dbit

    Depuis 2005, diverses technologies ont t mises au point pour permettre le squenage trs haut dbit de plusieurs millions de squences dADN en parallle. On peut distinguertrois technologies principales proposes par diffrents fournisseurs, chacune possdant descaractristiques particulires et ayant recours des techniques spcifiques : Roche Diagnostics/454 Life Sciences, Illumina/Solexa et Life Technologies/Applied Biosystems (ABI) (Table1.1) ([Metzker, 2010], [Suzuki et al., 2011]).

    A lheure actuelle, plus de 1 800 squenceurs de nouvelle gnration ont t vendus travers le monde (Figure 1.6 A), 93,3% appartiennent lune de ces quatre technologies,dont plus de la moiti correspondant un modle Illumina (Figure 1.6 B). Des centres desquenage de renomme internationale se sont quips dun nombre important de squenceurs trs haut dbit (Figure 1.6 C) ([Hum, 2010]).

    La gamme de squenceurs en dveloppement stend trs rapidement ; ainsi, seules lestechniques et les modles les plus couramment utiliss seront dcrits.

    Pendant ma thse, la plateforme TGML a fait le choix de squiper dun squenceur trs haut dbit. Jai ainsi particip aux discussions avec les divers fournisseurs. Cestpourquoi je prsenterai ci-aprs les trois principales chimies de squenage. La plate-forme sest finalement quip en avril 2009 dun squenceur trs haut dbit de typeSOLiDTM. Jai particip de nombreuses collaborations sur lanalyse de donnes pro-venant dexpriences de Chromatine ImmunoPrcipitation (ChIP-seq). Leurs analysesau niveau de la plateforme a ncessit le dveloppement dun pipeline de traitement desdonnes spcifique du squenceur SOLiDTM. Tous ces rsultats seront prsents dans lechapitre 5 de ce manuscrit.

    1.4.1.1 Chimie

    Bien que les trois principales technologies de squenage possdent chacune une chimie etdes caractristiques de squenage diffrentes (Table 1.2), elles permettent toutes de squencer,en parallle, des fragments dADN obtenus aprs une tape damplification (Figure 1.7)([Suzuki et al., 2011], [Borgstrm et al., 2011], [Shendure et al., 2005]).

  • 1.4. Les techniques de squenage trs haut dbit 33

    Socit Support Amplification Technique desquenage

    Modle Anne

    Lame de verre EmulsionPCR

    Ligation SOLiD v2 2007

    Life SOLiD v3 2008Technologies SOLiD v3.5 2009

    SOLiD v4 2010SOLiD 5500 XL 2011

    Puce semi-conductrice

    - Diffrentiel depotentiel lec-trique

    Ion Torrent * 2010

    Lame de verre Pontagesur phasesolide

    Synthse GA I 2007

    Illumina GA IIx 2008HiScanSQ 2009HiSeq 1000 2009HiSeq 2000 2010MiSeq * 2011

    Roche Diagnostics

    Plaque pico-titration ( Pi-coTiterPlate ,PTP)

    EmulsionPCR

    Pyrosquencage GS20 2006

    GS FLX 2007GS FLX Titanium 2008GS Junior * 2011

    Table 1.1 Tableau comparatif des principales technologies de squenage trs haut dbit Lescellules grises correspondent des technologies trs haut dbit de dernire gnration (NGS)qui seront dcrites plus tard dans ce manuscrit. Les * pointent les modles de squenceurs de paillasse (de petite taille) faible dbit, mais trs rapides

  • 34 Chapitre 1. Introduction gnrale

    Figure 1.6 Rpartition des diffrentes technologies de squenage trs haut dbit dans lemonde en dcembre 2011. (A) Rpartition gographique, (B) Distribution en nombre et enpourcentage des principaux modles de squenceurs trs haut dbit (nombre total : 1670), et(C) Principaux centres de squenage (source : http://pathogenomics.bham.ac.uk/hts)

    http://pathogenomics.bham.ac.uk/hts)

  • 1.4. Les techniques de squenage trs haut dbit 35

    Caractristiques Life Technologies(SOLiD v4)

    Illumina (Hi-Seq2000)

    Roche 454 (GS FLXTitanium)

    Support Billes + lame Lame Billes + plaque depico-titration (PTP)

    Nombredchantillonspar support

    1, 4, 8 8 2, 4, 8, 16

    Techniquedamplifica-tion

    mulsion PCR Par pontage surphase solide

    mulsion PCR

    Technique desquenage

    Par ligation Par synthse (SBS) Par synthse (Pyro-squenage)

    Longueur deslectures (ennuclotides) :fragment /paired-end

    50 (F3) / 50 (F3) et35 (F5)

    100 / 2 x 100 400 / 2 x 400

    multiplexage 4 96 chantillonssur une lame

    1, 2, 4, 8, 16 (132)

    Nombre dereads

    0.7x109 3x109 0.5x109

    Temps desquenage/chantillon(fragment)

    7 jours 8.5 jours 10 heures

    Table 1.2 Caractristiques des trois modles de squenceurs les plus rpandus

    Le modle GS FLX Titanium de Roche permet ainsi de squencer des fragments dADNlongs, de 400 nuclotides, alors que les autres technologies squencent des fragments courtsde 50 100 nuclotides. Cependant, le volume de squences produites (ou reads ) est pluslimit. Cette technologie est donc largement utilise pour le squenage de-novo des gnomesde grande taille. La longueur de ces reads permet un assemblage plus facile du gnomedintrt bien que la couverture obtenue (i.e ; le nombre de fois o une base est squence)reste relativement faible.

    En revanche, les squenceurs Illumina et SOLiDTMgnrent des reads de courte taille entrs grand nombre. Cette particularit est trs utile pour les applications qui ncessitent un plusgrand nombre de lectures par position (cest--dire une grande couverture), telles que ltudequantitative du transcriptome, la dtection spcifique de polymorphismes ou des marquespigntiques.

  • 36 Chapitre 1. Introduction gnrale

    Figure 1.7 Amplification monoclonale des fragments dADN pour la constitution de librairies(Adapt de [Metzker, 2010])

    Gnralits Aprs rparation des extrmits non cohsives des squences dADN doublebrins obtenues par fragmentation dADN gnomique ou dADNc, la premire tape pourpermettre le squenage consiste en lajout dun couple de squences adaptatrices. Cesadaptateurs permettent la fixation sur bille ou sur lame des fragments dADN en vue de leuramplification par PCR ( Polymerase Chain Reaction ) en mulsion ou par pontage surphase solide (Figure 1.7). Leur squence ne saligne pas sur celle du gnome, ce qui permetune amplification PCR spcifique des squences cibles que lon souhaite squencer. Lesfragments dADN sont ensuite slectionns en fonction de leur taille.

    On peut galement utiliser des adaptateurs particuliers possdant, en plus de la squenceadaptatrice, une courte squence didentification spcifique. Cette courte squence de 5nuclotides est appele code barre ( barcode ). En utilisant un jeu de code-barres uniquepour chaque chantillon, cette technique appele multiplexage permet de squencer plusieurschantillons dans la mme cellule ou dans la mme piste. cette tape, on ne parle plusdchantillons mais de librairies. Ces librairies sont enfin squences simultanment lors duncycle de squenage (ou run ). Les reads obtenus sont ensuite raffects automatiquement chaque chantillon, grce lidentification informatique du code barre.

  • 1.4. Les techniques de squenage trs haut dbit 37

    Figure 1.8 Principe des trois technologies majeures de squenage trs haut dbit (Adaptde [Metzker, 2010])

  • 38 Chapitre 1. Introduction gnrale

    Principe de la chimie du GS FLX Titanium de Roche La technique commercialise par lasocit Roche est base sur lamplification par PCR en mulsion de lADN fix sur des billes,suivie de pyrosquenage ([Margulies et al., 2005], [Rothberg & Leamon, 2008]) dans uneplaque de pico-titration permettant une lecture en parallle des millions de fragments dADN squencer (Figure 1.8). Le modle le plus puissant actuellement commercialis est le GS FLXTitanium.

    Les librairies, constitues de fragments dADN simple brin auxquels sont fixs les adap-tateurs, sont mises en prsence de billes magntiques sur lesquelles sont fixes des milliersde copies de la squence complmentaire de ladaptateur 1. Une mulsion en concentrationlimitante dADN permet de fixer un seul fragment dADN par bille qui sera par la suiteamplifi par PCR. Une fois les fragments prsents en de multiples copies monoclonales surles billes, celles-ci sont places dans des mini-racteurs, des plaques de pico-titration. Cesplaques permettent une lecture indpendante de chaque bille, donc de chaque squence parpyrosquenage ([Rougemont et al., 2008], [Droege & Hill, 2008]).

    Lors du pyrosquenage, les nuclotides sont rajouts successivement contrairement auxractions de squenage usuelles o les nuclotides sont rajouts simultanment, chacun tantmarqu laide dun fluorochrome diffrent. Si le nuclotide prsent dans le milieu ractionnelest celui attendu par lADN polymrase, il est incorpor dans le brin dADN en cours de syn-thse librant ainsi un pyrophosphate (PPi). Ce PPi permet la transformation de ladnosine 5phosphosulfate (APS) en adnosine tri-phosphate (ATP) par lATPsulfurylase. Cette molculedATP va se coupler la lucifrine pour permettre la lucifrase de transformer la lucifrine enoxylucifrine. Cette dernire raction met un signal lumineux qui va tre capt par le scannerdu squenceur. Les nuclotides en surplus dans le milieu ractionnel sont alors dgrads par uneapyrase ce qui permet la lecture de la base suivante ([Ronaghi et al., 1998]). Il est noter que lataille des squences lues par cette technique reste faible (infrieure 400 nuclotides), lactivitenzymatique diminuant au cours du squenage ([Ahmadian et al., 2006], [Ronaghi, 2001]).

    Principe de la chimie du HiSeq2000 dIllumina La technologie True-Seq commer-cialise par la socit Illumina repose sur lutilisation dune lame de verre divise en 8 pisteslinaires dans lesquelles sont fixes, haute densit, deux courtes squences dADN de manirealatoire. Ces deux squences correspondent aux squences complmentaires des adaptateurs. la diffrence des deux autres technologies qui ont recours lamplification par mulsionPCR couple lutilisation de billes magntiques, les fragments dADN possdant les deuxadaptateurs vont shybrider la lame de manire homogne (Figure 1.7). Lamplification estensuite obtenue laide damorces spcifiques des adaptateurs. Cette amplification permet laconstitution par pontage dun groupe ( cluster ) de squences amplifies. Le squenagepar synthse ( Sequencage By Synthesis ou SBS, Figure 1.8) de ces clusters va permettrela lecture de lincorporation dun fluorochrome spcifique dune base chaque ligation, par laprise dune image trs haute rsolution de la lame. Aprs reprage des clusters, il est possiblede reconstituer les squences ADN pour chacun dentre eux.

  • 1.4. Les techniques de squenage trs haut dbit 39

    La socit Illumina commercialise actuellement plusieurs modles de squenceurs ayantla mme chimie de squenage, mais offrant des caractristiques de squenage toujoursplus comptitives (capacit et configuration). La majorit des donnes de squenage trshaut dbit tant issue de technologie Illumina (980 squenceurs / 1670), un grand nombrede programmes danalyse de donnes ont initialement t dvelopps pour cette technologie([Kircher et al., 2011], [Goldfeder et al., 2011], [Kircher et al., 2009]).

    Principe de la chimie du SOLiDTMde Life Technologies La technologie du SOLiDTM(pour Sequencing by Oligonucleotide Ligation and Detection ) dveloppe par Life Technologiesest base sur une amplification par PCR en mulsion de la mme faon que pour le modlecommercialis par Roche. Les billes sont, dans ce cas, simplement fixes sur une lame deverre. Loriginalit de cette technologie repose sur un squenage de fragments en parallle et trs haut dbit, par ligation de di-bases couples un fluorochrome. Ainsi, la lecture dunfluorochrome ne code pas pour une base comme pour la SBS, mais pour la ligation de deuxbases successives.

    La plateforme IBiSA TGML du laboratoire TAGC Inserm UMR_S 928 tant quipedun squenceur de technologie SOLiDTMdepuis avril 2009, cette technologie est dcriteplus en dtail dans ce manuscrit.

    Le squenage du fragment dADN est ralis par lhybridation dune amorce compl-mentaire de la squence de ladaptateur P1 (Figure 1.8) et lajout de sondes dune taille de 8nuclotides couples un fluorochrome.

    Les bases dgnres correspondent un mlange quimolaire des 4 nuclotides parposition (Figure 1.9). Les sondes de 8 nuclotides sont complmentaires sur 5 nuclotides, ilexiste donc 45 sondes possibles soit 1024 sondes au total. Linclusion de nuclotides universelsdans les sondes permet un squenage efficace et rapide de squences nuclotidiques pluslongues.

    Aprs la ligation dune sonde, le signal mis par chaque bille est dtect (photographie haute rsolution). Puis les sondes sont clives en position 5 pour permettre une nouvelleligation. La lecture des deux premires positions du fragment dADN cible est ainsi obtenue.Cette tape est rpte 10 fois, afin de constituer une squence incomplte de 50 nuclotides(cas du mode fragment et de la lecture de 50 nuclotides). Puis 4 autres cycles de 10 ligationssont raliss partir damorces shybridant galement sur ladaptateur P1 en position n-1,n-2, n-3 et enfin n-4. La combinaison des 5 squences partielles en code couleur permet dereconstituer la squence de 50 nuclotides.

    1.4.1.2 Le code couleur du SOLiDTM : avantages et inconvnients

    Une des particularits du squenage SOLiDTMest que chaque nuclotide est squenc 2fois. En effet, ce squenceur ne lit pas base par base comme les modles dclins par Roche ou

  • 40 Chapitre 1. Introduction gnrale

    Figure 1.9 Les sondes de la technologie SOLiDTM. Chaque sonde de 8 nuclotides est compo-se de 2 bases complmentaires la squence cible (positions 1 et 2) puis de 3 bases dgnres(n) et enfin de trois bases universelles (z)

    Illumina, mais dfinit la squence cible par la lecture de di-bases (Figure 1.10). Cette stratgieest particulirement adapte la dtection de SNP ( Single Nucleotide Polymorphisms )qui ne diffrent du gnome de rfrence que par un nuclotide. On peut ainsi aismentdistinguer une erreur de squenage (changement dune seule couleur), ou mismatch ,dun vritable SNP qui sera dtect par le changement successif de deux couleurs (Figure 1.11).

    Ainsi, partir de la succession de fluorochromes observs lors du squenage, pour chaquebille, le SOLiDTMgnre une squence en code couleur (au format csfasta ; voir partie5.3.1), dont la premire lettre correspond la dernire base de ladaptateur P1 (position n ;Figure 1.8).

    Figure 1.10 Conversion des reads SOLiDTMen squences nuclotidiques. Chaque couleurcode pour un nombre entre 0 et 3 permettant laide de la dernire base de ladaptateur (danscet exemple T ) de reconstituer la squence gnomique

  • 1.4. Les techniques de squenage trs haut dbit 41

    Figure 1.11 Principe de la dtection de SNP et small indels par la technologie SOLiDTM

    Il est noter que ce format prsente un inconvnient : ds quune erreur de squenage seproduit, le reste de la squence est erron (Figure 1.11). Cest pourquoi, afin damliorer laqualit des squences et de visualiser toute erreur, les alignements sont effectus sur la base ducode couleur et non directement sur linterprtation du code couleur en nuclotides.

    1.4.1.3 Mode de squenage

    En fonction des projets et du type dexprience, le mode de squenage des librairies leplus adapt sera choisi. En effet, il existe 3 modes de squenage possibles dun fragmentdADN : fragment , paired-end et mate-pair . Chaque mode requiert des protocolesexprimentaux diffrents afin de gnrer les librairies correspondantes. La figure 3.12 (A)reprsente ces 3 types de librairies dans le cas dun squenage de type SOLiD v4.

  • 42 Chapitre 1. Introduction gnrale

    Except pour le mode mate-pair, il est galement possible de multiplexer les chantillons laide de code-barres rajouts dans la squence de ladaptateur P2.

    Fragment Comme le montre la figure 1.12 (A), ce mode de squenage relativementsimple consiste squencer, de 5 en 3, 50 nuclotides des fragments dADN partir deladaptateur P1. Cela permet le comptage des fragments dADN et peut donc tre utilis pourdes applications telles que ltude du transcriptome.

    Paired-end De plus en plus utilis lheure actuelle, cette technique permet un meilleuralignement des squences par le squenage de 2 fragments dADN spars par 100 300nuclotides. Ainsi, pour le squenceur de type SOLiD, les fragments dADN sont squencssur 50 nuclotides de 5 en 3 des fragments dADN partir de ladaptateur P1 et sur 35nuclotides de 5 en 3 partir de ladaptateur P2 (Figure 1.12 A). La distance approximativeentre les fragments F3 et F5 correspond la taille des fragments dADN gnrs lors de lafragmentation par ultrasons et peut tre dtermine par migration sur gel ou par lutilisationde puces haute sensibilit du Bioanalyzer (Agilent Technologies). On peut ainsi dfinir unintervalle de taille de fragment. En effet, il est important dvaluer ces distances afin de prvoir,lors de lalignement, lintgration dvnements de type insertion, dltion, inversion (Figure1.12 B).

    Lutilisation du squenage en paired-end (ou PET, pour Paired-End Tag ) prsentedivers avantages en fonction du type dapplication souhait (Table 1.3). Ainsi, pour la techniquedImmunoprcipitation de la Chromatine (ChIP, Chromatin ImmunoPrecipitation ), on parlede ChIP-seq quand les librairies sont en fragments et de ChIP-PET ([Wei et al., 2006]) quandcelles-ci sont en paired-end. Cette technique permet daccrotre la spcificit et la dmarcationdes sites de fixation des facteurs de transcription.

    Comme le montre la table 1.3, ce mode de squenage est couramment utilis pour diversesapplications puisquil permet une nette amlioration de lefficacit et de la qualit dalignementdes reads .

    Mate-pair Ce mode de squenage permet de squencer 2 fragments de mme taille (50nuclotides) et loigns sur le gnome de 1 10 kb soit une distance dpassant la tailledes fragments ncessaires pour la construction des librairies. Il permet le re-squenage desgnomes (Re-seq) afin dtudier les remaniements grande distance ([Shendure et al., 2005]),tels que les indels (insertions ou dltions), les grandes duplications et dltions, lesinversions, les translocations ou encore les anomalies de plodie. La construction de librairiesen mate-pair permet ainsi le squenage orient de larges fragments dADN.

  • 1.4. Les techniques de squenage trs haut dbit 43

    Application Avantage du PET Technique et rfrence

    Alignement des readsAugmentation de lefficacit lors delalignement

    Paired-end ditag (PET)[Ng et al., 2005],[Wei et al., 2006]

    Diminution du cot de squenagedes chantillons

    Paired-end se-quencing (PES)[Holt & Jones, 2008]

    Apport dinformations par rapportaux distances entre les deux frag-ments squencs et leur relation(dltion, insertion, inversion)

    Paired-end map-ping (PEM)[Korbel et al., 2007],Mate-pairs([Shendure et al., 2005]),Paired-end genomic si-gnature tags (PE-GST)[Dunn et al., 2007]

    TranscriptomeIdentification des 5 et 3 UTR Gene identification

    signature (GIS-PET)[Ng et al., 2005]

    Identification de TSS alternatifs Gene ScanningCAGE (GSC-PET)[Carninci et al., 2005]

    Epigntique Amlioration de la spcificit etde la dmarcation des fragmentscontenant le site dintrt

    ChIP-PET[Wei et al., 2006]

    Variation de la struc-ture du gnome

    Requis pour le squenage de novo DNA-PET[Hillmer et al., 2011]

    Table 1.3 Applications et avantages du paired-end pour les techniques de squenage trshaut dbit

  • 44 Chapitre 1. Introduction gnrale

    Figure 1.12 (A) Les diffrents modes de squenage : fragment , paired-end et mate-pair (B) Apport du mode paired-end pour la dtection dvnements dinsertion, de dl-tion ou dinversion

  • 1.4. Les techniques de squenage trs haut dbit 45

    1.4.1.4 Les nouvelles gnrations de squenceurs haut dbit

    Avec les dveloppements technologiques permanents est apparue la quatrime gnrationde techniques de squenage ([Glenn, 2011]). Elle regroupe les nouvelles technologies tellesque PacBio RS (Pacific Bioscience Inc.) et Ion Torrent (Life Technologies). Bases sur lesquenage par synthse, elles utilisent deux nouvelles chimies.

    PacBio RS repose sur lanalyse de molcule unique par des ractions de squenageen temps rel ( Single Molecule Real Time ou SMRTTM) (Figure 1.13). Elle utilise leprocessus trs efficace et prcis de rplication de lADN par lADN polymrase. Cette enzyme,fixe au fond des puits, se lie un unique fragment dADN squencer. Cependant, elle nepeut intgrer que quelques nuclotides marqus avant de sarrter cause de lencombrementstrique de ces nuclotides. Pour y remdier, la mthode SMRTTMutilise un nuclotide marqunon pas au niveau de la base mais au niveau de la chane phosphate. Le systme de dtectionenregistre un film chronologique de ces vnements la diffrence des systmes antrieursbass sur lanalyse dimages trs haute rsolution.

    Quant la technologie Ion Torrent, elle est base sur des puces semi-conductrices consti-tues de puits (Figure 1.13) ([Rothberg et al., 2011]). Elle suit le principe, publi en 1968,selon lequel un proton est relargu ds lors quun nuclotide est incorpor dans lADN par lapolymrase ([Narurkar et al., 1968]). Il en rsulte un changement de pH local, mesur par undtecteur sensible la variation dions. Cette dernire technologie ne ncessite ni camra, niscanner, ni cascade enzymatique, ni fluorochrome ou chimioluminescence. Elle diffre en celade toutes les autres bases sur la dtection dun signal lumineux, do la dnomination anglaisede post light sequencing technology .

    De plus, avec la course lamlioration des technologies de squenage, les principauxfournisseurs ont eux aussi dvelopp ou acquis de nouveaux appareils de paillasse pouvantsquencer trs rapidement des librairies avec nanmoins un dbit moins important : MiSeq(Illumina), Ion Torrent (acquis en octobre 2010 par Life Technologies), GS Junior System(Roche).

    1.4.2 Techniques danalyses bases sur le squenage HTS

    La technologie de squenage trs haut dbit offre de nombreuses applications allant deltude de lpigntique au transcriptome en passant par la gnomique (Figure 1.14 et Table1.4).

    Cependant, le cot dutilisation du squenage trs haut dbit reste particulirementlev, ce qui explique que, pour ltude du transcriptome, lutilisation de puces ADNpangnomiques dcrites prcdemment est encore trs rpandue. Cependant, lutilisation duRNA-seq par Whole Transcriptome Shotgun Sequencing (WTSS) ou Serial Analysis ofGene Expression (SAGE-seq) est utile pour ltude globale des transcrits (mRNA, snRNA,lincRNA, miRNA), la dtection de transcrits alternatifs et de nouveaux gnes.

  • 46 Chapitre 1. Introduction gnrale

    Figure 1.13 La nouvelle gnration de squenceurs. (A) La technologie de Pacific Bios-ciences sur le principe de SMRTTM(B) LIon Torrent et sa puce semi-conductrice pour la lecturedun diffrentiel de pH (Adapt de [Metzker, 2010] et [Rothberg et al., 2011])

    Figure 1.14 Les diffrentes tudes rendues possibles par le HTS avec divers niveaux dabs-traction (adapt de [Fullwood et al., 2009])

  • 1.4. Les techniques de squenage trs haut dbit 47

    Lutilisation du squenage trs haut dbit ncessite encore de nombreuses mises aupoint exprimentales et bioinformatiques pour une analyse performante et aboutie des rsultatsgnrs. En effet, les donnes produites reprsentent plusieurs Gigabytes (Gb) par chantillon,dont lexploitation requiert de puissants ordinateurs de calcul, et dont larchivage ncessite degrandes capacits de stockage.

    Le choix de la technologie de squenage sera opr en fonction des applications sou-haites. Ainsi, le modle de Roche sera choisi pour le squenage de-novo, en raison de lataille plus importante des reads ce qui facilite lassemblage des gnomes. Les technologiesde type SOLiDTMet Illumina seront prfres pour les tudes pigntiques et la dtection depolymorphismes tels que les SNP, les insertions et dltions.

    1.4.2.1 Etude de la rgulation pigntique

    Le contrle de la structure dynamique de la chromatine est une composante essentielle dela rgulation transcriptionnelle dans les cellules eucaryotes. Diverses techniques trs hautdbit ont t mises au point pour ltude de la rgulation pigntique du gnome diffrentsniveaux : la conformation des chromosomes (3C-seq), louverture de la chromatine (FAIRE-seqou traitement la DNAse I), la position des nuclosomes (MNase-seq), les modifications deshistones et la liaison des facteurs de transcription (ChIP-seq) ou bien encore la mthylation delADN (methyl-seq). Il est noter que, pour la technique du ChIP-seq, une liaison covalentedes protines lADN ( cross-link ) ralise par un traitement de fixation au formaldhydeest requise, afin de pouvoir cartographier les sites de liaison des facteurs de transcription (voirpartie 5.1.2).

    Lexpression dun gne peut tre contrle par linteraction directe de son promoteur avecdes lments de rgulation localiss une longue distance sur le chromosome, ou dans derares cas sur dautres chromosomes. La technique du 3C-seq permet ainsi la Capture de laConformation des Chromosomes ( Capture Chromosome Conformation ou 3C). Elle a tdveloppe pour lanalyse de la chromatine une chelle suprieure. Les rgions du gnomebien quloignes peuvent alors tre juxtaposes par bouclage de la chromatine et deviennentainsi contigus, condition que la chromatine soit ouverte.

    En effet, louverture de la chromatine permet la liaison de protines rgulatrices lADN. Elle peut tre tudie par la technique appele couramment Formaldehyde-AssistedIsolation of Regulatory Elements (FAIRE) ([Giresi et al., 2007], [Song et al., 2011],[Nammo et al., 2011]). Le FAIRE-seq permet de cartographier certaines rgions ouvertes dela chromatine, et ainsi de dfinir des rgions rgulatrices. En effet, seul 1 2% du gnomeest compos de rgions ouvertes de la chromatine dans un type cellulaire donn et dans desconditions particulires ([Song et al., 2011]). On obtient alors des informations sur des rgionsrgulatrices sur lesquelles des facteurs de transcription peuvent venir se lier lADN oubien encore des sites pour lesquels les histones nuclosomales subissent de