Gestion Budgétaire par Objectif: le séquençage des reformes de la gestion des finances publiques
Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ......
Transcript of Séquençage à haut débit - BoisvertPartie 1 Technologies de séquençage de l'ADN. 5 ......
Date: Jeudi le 6 octobre 2011Heure: 9h00 à 12h00Durée: 3 heuresLieu: salle de conférence du 3e étage (T3-61),bloc T du Centre de recherche du CHUL-CHUQ
Séquençage à haut débit
Auxiliaire d'enseignement à l'Université Laval
Préparation et présentation du cours: Sébastien Boisvert
Avant de commencer
“Tour de classe”
==> Votre programme d'études
==> Vos projets
==> Vos attentes par rapport à ce cours
Plan
● Technologies de séquençage de l'ADN● Applications et types d'analyse● Algorithmie et informatique
Partie 1
Technologies de séquençage de l'ADN
5
Pourquoi on séquence l'ADN?
Expliquer et guérir les maladies génétiques Nature Genetics
Détecter les agents infectieux Journal of Clinical Microbiology
Étudier l'évolution
Étudier la spéciation
Lier le protéome au génome
Étudier l'épissage
De manière générale: étudier la variation des génomes
La structure de l'ADN
Watson JD, Crick FH.Molecular structure of nucleic acids; a structure for deoxyribose nucleic acid.Nature. 1953 Apr 25;171(4356):737-8. http://www.nature.com/nature/dna50/archive.html
© 2011 Nature Publishing Group
Technologies parallèles des acides nucléiques
Détection
Quantification
Décodage
Plusieurs cibles sont détectées ou quantifiées ou décodées en parallèle
Jian-Bing Fan, Mark S. Chee & Kevin L. GundersonHighly parallel genomic assaysNature Reviews Genetics 7, 632-644 (August 2006) | doi:10.1038/nrg190http://www.nature.com/nrg/journal/v7/n8/full/nrg1901.html
Vidéo sur les puces Affymetrix
Durée: 1 minute, 16 secondesLangue: anglais
Source:
tpaparountas sur YouTubehttp://www.youtube.com/watch?v=MuN54ecfHPw
Vidéo éducatif
Pourquoi séquencer l'ADN?
Expliquer et guérir les maladies génétiques
Étudier l'évolution
Étudier la spéciation
Lier le protéome au génome
Étudier l'épissage
Étudier la variation des génomes
Quantifier l'expression des ARNs messagers en séquençant l'ADN complémentaire
Idées générales
• Pour séquencer un polymère, on doit détecter le monomère à chaque position
• L'ADN a 4 monomères
• La méthode intuitive: détecter le monomère à chaque position itérativement
exemple: ATTCGGGACTAGGGCAT
• La méthode par compression: détecter le “déroulement de la séquence”
exemple: 1A 2T 1C 3G 1A 1C 1T 1A 3G 1C 1A 1T
TerminateurQuatre réactions de séquençage – unepour chaque base
deoxynucléotides and dideoxynucléotides (terminateurs)
Fin aléatoire de la polymérisation
Pour chaque base (A,T, C et G), nous avons toutes les sous-chaînes finissant par celle-ci,triées par longueur (sur gel)
L'analyse pénible est faite manuellement
Sanger F, Nicklen S, Coulson AR.DNA sequencing with chain-terminating inhibitors.Proc Natl Acad Sci U S A. 1977 Dec;74(12):5463-7.http://www.pnas.org/content/74/12/5463.abstract
Copyright ©2011 by the National Academy of Sciences
Cette méthode était fastidieuse
AutomatisationBasée sur la méthode de Sanger
Les réactions sont combinées
électrophorèse capillaire & fluorescence
Réception automatique desdonnées & analyse automatique
Commercialisée par Applied Biosystems
Le séquençeur du CRCHUL est comme ça
Smith LM et al..Fluorescence detection in automated DNA sequence analysis.Nature. 1986 Jun 12-18;321(6071):674-9.http://dx.doi.org/10.1038/321674a0
Le problème principale de cette méthode est la présence de terminateurs
Une molécule d'ADN peut être vue comme une chaîne de caractères
Avec cette méthode, il faut générer dans un tube toutes les sous-chaînes de caractères
Vidéo sur la méthode de Sanger
Durée: 1 minute, 7 secondesLangue: anglais
Source:
PHG Foundationhttp://www.youtube.com/watch?v=oYpllbI0qF8
Vidéo éducatif
Pyrosequençage
Pas de terminaison aléatoire, Séquençage par synthèse
Détection lors de l'incorporation des nucléotides
Problème majeur avec les homopolymères (AAAA versus AAAAA, 4A vs 5A)
Ronaghi M, Uhlén M, Nyrén P.A sequencing method based on real-time pyrophosphate.Science. 1998 Jul 17;281(5375):363, 365http://www.sciencemag.org/content/281/5375/363.long
© 2011 American Association for the Advancement of Science
Avec le pyroséquençage, il n'y a pas de terminateurs
La nouvelle génération
Jay Shendure & Hanlee JiNext-generation DNA sequencingNature Biotechnology 26, 1135 - 1145 (2008) http://www.nature.com/nbt/journal/v26/n10/full/nbt1486.html
Lecture parallèle de l'ADN
© 2011 Nature Publishing Group
Tout comme la technologie d'Affymetrix, les nouvelles technologies de séquençage utilisent des matrices d'échantillons
En général, les nouvelles technologies de séquençage filment les réactions qui se déroulent en parallèle
Les images sont analysées par ordinateur et on obtient beaucoup de données génétiques
Version parallèle
Basée sur une technologie à flux sur cellule
Developpée by 454, acheté by Roche
Margulies M et al.Genome sequencing in microfabricated high-density picolitre reactors.Nature. 2005 Sep 15;437(7057):376-80.http://www.nature.com/nature/journal/v437/n7057/abs/nature03959.html
© 2011 Nature Publishing Group
Avantage de la technologie 454: longue lectures (430)
Désavantage: beaucoup d'erreurs dans les homopolymères
Vidéo sur la technologie 454
Durée: 4 minutes, 33 secondesLangue: anglais
Source:
DaftPunkCA sur YouTubehttp://www.youtube.com/watch?v=bFNjxKHP8Jc
Vidéo éducatif
Par ligation
Pas de polymérase
Utilise une ligase
Belle technologie, compliquée
Applied Biosystems SOLiD
Shendure J, Porreca GJ, Reppas NB, Lin X, McCutcheon JP, Rosenbaum AM, Wang MD, Zhang K, Mitra RD, Church GM.Accurate multiplex polony sequencing of an evolved bacterial genome.Science. 2005 Sep 9;309(5741):1728-32.http://www.sciencemag.org/content/309/5741/1728.abstract
© 2011 American Association for the Advancement of Science
Stephen M. Rumble, Phil Lacroute, Adrian V. Dalca, Marc Fiume, Arend Sidow, Michael BrudnoSHRiMP: Accurate Mapping of Short Color-space ReadsPLoS Comput Biol 5(5): e1000386. doi:10.1371/journal.pcbi.1000386http://www.ploscompbiol.org/article/info:doi/10.1371/journal.pcbi.1000386
L'espace de couleursLa technologie SOLiD génère des lectures colorées
Exemple: vert veut dire A si le nucléotide précédent était un C
© 2009 Rumble et al., Creative Commons Attribution License
Vidéo sur la technologie SOLiD
Durée: 4 minutes, 45 secondesLangue: anglais
Source:
KingofBiotech sur YouTubehttp://www.youtube.com/watch?v=nlvyF8bFDwM
Vidéo éducatif
Le retour des terminateurs
Developpée par Solexa
Achetée par Illumina
Terminateurs réversibles
Pas de problème avec les homopolymères
Séquences en paires
Succès commercial
Bentley DR, et al.Accurate whole human genome sequencing using reversible terminator chemistry.Nature. 2008 Nov 6;456(7218):53-9.http://www.nature.com/nature/journal/v456/n7218/abs/nature07517.html
© 2011 Nature Publishing Group
Illumina a environ 70% du marché de l'analyse génétique
Madalina IacobIllumina: Shining In Dreary Times Forbes, FastTech, 01.29.09, 06:00 PM ESThttp://www.forbes.com/2009/01/29/illumina-biotech-equities-technology-breakthroughs-0129_illumina.html
Bentley DR, et al.Accurate whole human genome sequencing using reversible terminator chemistry.Nature. 2008 Nov 6;456(7218):53-9.http://www.nature.com/nature/journal/v456/n7218/abs/nature07517.html
Séquences en pairesFabrication des librairies en paires
a petites distances
d longues distances
© 2011 Nature Publishing Group
Permet d'obtenir des paires de séquences dont la distance qui les séparent est approximativement connue
Vidéo sur la technologie d'Illumina
Durée: 1 minute, 37 secondesLangue: anglais
Source:
Aidan Flynn sur YouTubehttp://www.youtube.com/watch?v=77r5p8IBwJk
Vidéo éducatif
Une molecule
Une molécule à la fois
Developpée par Helicos
Harris TD et al.Single-molecule DNA sequencing of a viral genome.Science. 2008 Apr 4;320(5872):106-9.http://www.sciencemag.org/content/320/5872/106.short
© 2011 American Association for the Advancement of Science
Vidéo sur la technologie d'Hélicos
Durée: 4 minutes, 2 secondesLangue: anglais
Source:
WIRED sur YouTubehttp://www.youtube.com/watch?v=TboL7wODBj4
Vidéo éducatif
En temps réel
Le décodage est fait pendant que la polymérase fait son travail
Developpée par Pacific Biosciences
Eid J et al.Real-time DNA sequencing from single polymerase molecules.Science. 2009 Jan 2;323(5910):133-8.http://www.sciencemag.org/content/323/5910/133.abstract
© 2011 American Association for the Advancement of Science
Vidéo sur la technologie de Pacific Biosciences
Durée: 4 minutes, 4 secondesLangue: anglais
Source:
Pacific Bioscienceshttp://www.pacificbiosciences.com/sites/default/files/video_gallery/Pacbio%20Lg.flv
Vidéo éducatif
Ion Torrent
La technologie de Ion Torrent
Utilise des semi-conducteurs, nanotechnologie
Achetée par Life Technologies (Life Technologies = Applied Biosystems + Invitrogen)
Vidéo sur la technologie d'Ion Torrent
Durée: 2 minutes, 36 secondesLangue: anglais
Source:
IonTorrent sur YouTubehttp://www.youtube.com/watch?v=yVf2295JqUg
Vidéo éducatif
Daniel Branton et al.The potential and challenges of nanopore sequencingNature Biotechnology 26, 1146 - 1153 (2008) doi:10.1038/nbt.1495http://www.nature.com/nbt/journal/v26/n10/full/nbt.1495.html
Séquençagepar
nanopore
© 2011 Nature Publishing Group
Illumina et Oxford Nanopore
2008
Oxford Nanopore signe une attente exclusive avec Illumina pour la distribution des machines
Source: WIRED
12 janvier 2009
Illumina a pris une participation de 18,0 millions de dollars dans Oxford Nanopore
Source: http://investor.illumina.com/
1 février 2010
Illumina joint un investissement de 28,0 millions de dollars dans Oxford Nanopore
Source: Xconomy
Vidéo éducatif
Vidéo sur la technologie de Oxford Nanopore
Durée: 3 minutes, 20 secondesLangue: anglais
Source:
Oxford Nanopore sur YouTubehttp://www.youtube.com/watch?v=HbjAMJehSlg
Le déluge
Nicole RuskTorrents of sequenceNature Methods 8, 44 (2011) doi:10.1038/nmeth.f.330http://www.nature.com/nmeth/journal/v8/n1/full/nmeth.f.330.html
Il y a plusieurs technologies à surveiller en 2011
© 2011 Nature Publishing Group
41
Même General Electric est là!
General Electric Healthcare MegaBACE
Un four General Electric
Partie 2
Applications et types d'analyse
43
Types d'analyse
• Assemblage de novo (sans référence)
• Alignements pour le reséquençage (avec référence)
• Chip-Seq (immunoprécipitation suivi d'un séquençage)
• RNA-Seq (séquençage de l'ARN)
• Analyse fonctionnelle des gènes présents
• Diversité génétique
• Expression génique
• Nombre de copies (CNV)
• Autres
Deux types d'analyse
Paul Flicek & Ewan BirneySense from sequence reads: methods for alignment and assembly.Nature Methods 6, S6 - S12 (2009) http://www.nature.com/nmeth/journal/v6/n11s/abs/nmeth.1376.html
•Assemblage avec référence•Assemblage sans référence
Enrichir des régions
Andreas Gnirk et al.Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencingNature Biotechnology 27, 182 - 189 (2009) | doi:10.1038/nbt.1523http://www.nature.com/nbt/journal/v27/n2/abs/nbt.1523.html
© 2011 Nature Publishing Group
Lorsque l'on n'est pas intéressé par tout le génome
Sélectionner des régions d'intérêt
Les enrichir
Les séquencer
Analyses en génomique humaine
Surtout avec une référence: la séquence du génome humain
Avec ou sans enrichissement
La réaction en chaîne de la polymérase (PCR) est une méthode d'enrichissement !
Sarah B. Ng et al.Targeted capture and massively parallel sequencing of 12 human exomesNature 461, 272-276 (10 September 2009) | doi:10.1038/nature08250http://www.nature.com/nature/journal/v461/n7261/full/nature08250.html
Capturer et
séquencer les exons
© 2011 Nature Publishing Group
Seulement les variations dans les exons sont étudiées
The 1000 Genomes Project ConsortiumA map of human genome variation from population-scale sequencingNature 467, 1061–1073 (28 October 2010) doi:10.1038/nature09534 http://www.nature.com/nature/journal/v467/n7319/full/nature09534.html
1000 genomes humains
© 2011 Nature Publishing Group
Cole Trapnell & Steven L SalzbergHow to map billions of short reads onto genomesNature Biotechnology 27, 455 - 457 (2009) doi:10.1038/nbt0509-455http://www.nature.com/nbt/journal/v27/n5/abs/nbt0509-455.html
Assemblageavec une référence
Chaque lecture est placée à la bonne place sur le génome humain en utilisant une sorte de table des matières
Deux algorithmes principaux:
•Graines espacées•Burrows-Wheeler
© 2011 Nature Publishing Group
Assemblagesans uneréférence
Paul Flicek & Ewan BirneySense from sequence reads: methods for alignment and assembly.Nature Methods 6, S6 - S12 (2009) http://www.nature.com/nmeth/journal/v6/n11s/abs/nmeth.1376.html
On trouve des chevauchements petits entre les lectures d'ADN et on construit un consensus
© 2011 Nature Publishing Group
Vidéo sur le séquençage “shotgun”
Durée: 59 secondesLangue: anglais
Source:
HHMIhttp://www.youtube.com/watch?v=vg7Y5EeZsjk
Vidéo éducatif
Ewan BirneyAssemblies: the good, the bad, the uglyNature Methods 8, 59–60 (2011) doi:10.1038/nmeth0111-59http://www.nature.com/nmeth/journal/v8/n1/abs/nmeth0111-59.html
Erreurs d'assemblage
“The low cost of short-read sequencing has motivated the development of de novo assemblies from only short-read data; impressively, assemblies for large mammalian genomes are now available. However, this is still a developing field, and these de novo assemblies have many artifacts, as do all de novo assemblies.
” -- Ewan Birney
RNA-Seq
Zhong Wang, Mark Gerstein & Michael SnyderRNA-Seq: a revolutionary tool for transcriptomicsNature Reviews Genetics 10, 57-63 (January 2009) | doi:10.1038/nrg2484http://www.nature.com/nrg/journal/v10/n1/abs/nrg2484.html
Quantifier l'expression des gènes en utilisant le séquençage à haut débit
© 2011 Nature Publishing Group
Séquençage direct de l'ARN
Pas de conversion de l'ARN en ADNc, compréhension sans biais des transcriptomes
Ozsolak F et al.Direct RNA sequencing.Nature. 2009 Oct 8;461(7265):814-8.http://www.nature.com/nature/journal/v461/n7265/full/nature08390.html
© 2011 Nature Publishing Group
Microbiome humain
Peter J. Turnbaugh, Ruth E. Ley, Micah Hamady, Claire M. Fraser-Liggett, Rob Knight & Jeffrey I. GordonThe Human Microbiome ProjectNature 449, 804-810 (18 October 2007) | doi:10.1038/nature06244http://www.nature.com/nature/journal/v449/n7164/full/nature06244.html
© 2011 Nature Publishing Group
Le microbiome humain est un métagénome – un ensemble formé de plusieurs génomes
Il est variable
Microbiome humain
Junjie Qin et al.A human gut microbial gene catalogue established by metagenomic sequencingNature 464, 59-65 (4 March 2010) | doi:10.1038/nature08821http://www.nature.com/nature/journal/v464/n7285/full/nature08821.html
Les malades ont un microbiome différent
© 2011 Nature Publishing Group
Partie 3
Algorithmie et informatique
Conseils
● Chercher sur Internet (en général: Google)● Lire les manuels des logiciels● Apprendre par soi-même● Utiliser GNU/Linux (exemple: Ubuntu
GNU/Linux)
59
Lire l'ADN
• {A,T,C,G}* est l'ensemble de toutes les séquences composées de ces lettres.
• Une molécule d'ADN appartient à {A,T,C,G}*
• Le séquençage lit l'ADN
• Les séquences obtenues sont dans {A,T,C,G,N}* – car certaine bases demeurent inconnues parfois
60
Idées générales
• Pour séquencer un polymère, on doit détecter les lettres à chaque position
• L'ADN a 4 “lettres”
• La méthode intuitive: détecter la lettre à chaque position itérativement
exemple: ATTCGGGACTAGGGCAT
• La méthode par compression: détecter le “déroulement de la séquence”
exemple: 1A 2T 1C 3G 1A 1C 1T 1A 3G 1C 1A 1T
61
Décoder les génomes
• Le génome est fragmenté
• On séquence les fragments
$ head Streptococcus-pneumoniae-R6.fasta>gi|25307955|gb|AE007317.1| Streptococcus pneumoniae R6, complete genomeTTGAAAGAAAAACAATTTTGGAATCGTATATTAGAATTTGCACAAGAAAGACTGACTCGATCCATGTATGATTTCTATGCTATTCAAGCTGAACTTATCAAGGTAGAGGAAAATGTTGCCACTATATTTCTACCTCGCTCTGAAATGGAAATGGTCTGGGAAAAACAACTAAAAGATATTATTGTAGTAGCTGGTTTTGAAATTTATGACGCTGAAATAACTCCCCACTATATTTTCACCAAACCTCAAGATACGACTAGCTCACAAGTTGAAGAAGCTACAAATTTAACTCTTTATGACTATAGTCCAAAGTTAGTATCTATTCCTTATTCAGATACGGGATTAAAAGAAAAGTATACCTTTGATAACTTTATTCAAGGGGATGGAAATGTTTGGGCTGTATCAGCCGCTTTAGCTGTCTCTGAAGATTTGGCTCTGACCTATAACCCTCTTTTTATCTATGGAGGACCAGGCCTTGGTAAGACTCACTTATTAAACGCTATTGGAAATGAAATTCTAAAAAATATTCCTAATGCGCGTGTTAAATATATCCCTGCCGAAAGCTTTATTAATGACTTTCTTGATCACCTAAGACTTGGGGAAATGGAAAAGTTTAAAAAGACCTATCGT
62
Séquences “normales”
• Séquences seules: “Single-end read”, “shotgun reads”, “reads”
• Un fragment du génome qui a été décodé au complet.
63
Exemple
● Des séquences de 50 lettres
$ head 50xStreptococcus-pneumoniae-R6.fasta_fragments.fasta>r_823947_0_1TAGATATTGTAGAAAACGGTATGGAAATCTTGGTTTTAGACGCCTCTGCG>r_21187_1_1GAAGCCACCAATAATCTCATCAAACTTATCAAGCACAATGCCTTTGGTTT>r_1977491_2_1TCGTTTTACAGACACAAGTGAAGTAGGATTACTTCAATCTGTCGTTTTCT>r_32384_3_1GGATTTCTTAGAAAAAACATCTCTGAGAGTTTATGACTTTAAGAAGGTTA>r_1793603_4_1CAATAGGGGTTGCGCTCGTTGCGGGACTTAACCCAACATCTCACGACACG
64
Séquences en paires
• Séquences en paires: “Paired-end”, “paired reads”, “mate pairs”, “PE reads”
• Un fragment du génome dont on a séquencé les deux extrémités, mais pas le milieu
• On obtient deux séquences, qui correspondent aux bouts d'un plus gros fragment, et la longueur du fragment
65
Exemple● Exemple de fragments de 200 lettres, dont on a
séquencé 50 lettres à chaque extrémités (gauche: _1, droit: _2)
$ head 200xStreptococcus-pneumoniae-R6.fasta_fragments_1.fasta >r_835213_0_1TGGAGGACAATTTGGTCTTGGTTGTGAAATGGGGATTTCTACTCAGAAAT>r_795475_1_1CTTAACTGTCATTCTATATGGAGGTTCTATGCGTTTTAATCAATATAGTT>r_207924_2_1CAACAGTTTCTGGTAAAATTCGTAAAAACTATATTCGTATTTTAGCGGGA>r_1328225_3_1CTTACTATTTTATCAAATTTCAGCTAAATTGCAAGTGTTTTACAACGTTT
$ head 200xStreptococcus-pneumoniae-R6.fasta_fragments_2.fasta >r_835213_0_2TCTGCAAGACAGATTTTGCCAAGCTAGCACCCATATTCCCCAAACCGATA>r_795475_1_2GGATAGAAAGTGGGTAGTTGGTGTCTTGATAAGTGAAAAAGAAACGACGT>r_207924_2_2ACGACGAATAACTTTACAGTATTCGCAAATTGGTTTGACCGATGGTCTTA>r_1328225_3_2CCTATTCTTGTTTCATTTTACTATATAAACCAGAGACTGTTTACATTTTC
66
Limites
La couverture des séquences sur le génome n'est pas uniforme
Certaines erreurs sont reproductibles – comme les insertions et déletions dans le 454 dans les homopolymères (5A versus 6A)
Contaminations Les séquences sont très courtes par rapport
aux génomesTechnologie Longueur des séquences (en bases)
Sanger 800
Roche/454 600
Illumina 101
67
Les algorithmes
• Il faut une recette pour faire un bon pain
• Il faut un algorithme pour assembler un génome
• Un algorithme est comme une recette
• Un génome n'est pas un pain...
• Pour traiter des données, il faut se doter des bonnes structures, et avoir des algorithmes qui peuvent traiter ces structures
68
Les types de données
• Les nombres entiers (exemple: 9)
• Les nombres flottants (exemple: 9.8)
• Les ensembles (exemple: {A,T,C,G})
• Les séquences: (exemple: ATGCAT)
• Les graphes (on va les voir!)
• Et tous les autres!
69
Bioinformatique
• Les structures et algorithmes sont beaucoup utilisés en bioinformatique.
• Il faut des algorithmes qui s'exécutent rapidement.
• Les nouvelles technologies produisent beaucoup de données.
• Les “nouveaux” algorithmes doivent être rapides.
70
Les types d'algorithmes
• Itératif (exemple: additionner les nombres de 1 à 10)
• Récursif (exemple: faire les factoriels) 4!=4*3!=4*3*2!=4*3*2*1!=4*3*2*1
• Dynamique (exemple: calculer la suite de Fibonacci)u
0 = u
1 = 1, u
n = u
n-1 + u
n-2
Ses premiers termes sont donc : 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89 ...
• Exaustif (exemple: énumérer tous les chemins entre Québec et Montréal et choisir le plus court)
• Vorace (exemple: intelligence artificielle aux échecs)
• Et les autres...
71
L'assemblage de novo
Prendre toutes les séquences, et les mettre ensemble pour reconstruire le génome au complet!
Analogue à faire un casse-tête Régions répétées sont difficiles à assembler Un assembleur prend des séquences et
produit des contigs (séquences contigus)Genome assembly reborn: recent computational challenges.Pop M.Brief Bioinform. 2009 Jul;10(4):354-66.
72
Qu'est-ce qu'un graphe?
• Sommets: {1,2,3,4,5,6}
• Arêtes: {(1,2),(1,5),...}
73
Graphes dirigés
Les arêtes sont dirigées, on les appelle “arcs”
sommets: {A,B,C,D}arcs: {(A,B),(A,D),(A,C),(C,D)}
A
B
C
D
74
Trouver sa voie
● Un chemin de A à Z: <A,1,*,w,Z>
A
_
1
-
*
w
Z
+E
75
Chevauchement
• ATCGAGTCGATGCTGA
• ATGCTGATGCGATCAG
• Chevauchement:
ATCGAGTCGATGCTGA
ATGCTGATGCGATCAG
76
Le graphe à chevauchements
• Les sommets sont les séquences
• Les arcs sont les chevauchements
• Permettent d'assembler des séquences!
• Il faut trouver des chemins dans ce graphe
• Fonctionne bien quand les séquences sont longues
• Inutilisable lors que l'on a trop de séquences, parce qu'il y a trop de chevauchements possibles, et trop de sommets
77
Composition en sous-séquences
• ATCGATCAATGCATCTGCATGAC
• Quelles sont les sous-séquences d'exactement 3 lettres?
• {ATC,TCG,CGA,GAT,ATC,TCA,...}
• Astuce: prendre une fenêtre de 3 lettres, et “marcher” sur la séquence
78
Graphe ”de Bruijn”Sommets: des séquences de taille k
Les arcs: chevauchements de k-1
Séquence: ATCGGACTA
Le graphe de Bruijn correspondant (avec k=3)
Un ensemble de séquences peuvent être naturellement transformée en graph de Bruijn
Est-ce applicable à l'assemblage? Si oui, comment feriez-vous?
79
La guerre des graphes
• Chevauchements contre “de Bruijn”
• Les graphes de Bruijn sont plus beaux
• Le nombre de sommets est borné par la taille du génome (il y a une séquence de longueur k à chaque position du génome)
• Les séquences sont des chemins dans le graphe de Bruijn
• Le génome aussi!, il faut maintenant le trouver...
• La méthode “de Bruijn” donne une meilleure résolution
• elle fonctionne avec les “k-mers” plutôt qu'avec les séquences obtenues par les séquençeurs
80
Chemin Eulérien
• Un chemin passant par tous les arcs une et une seule fois
81
La méthode de Pevzner
• graphe de Bruijn
• Trouve des chemins Eulériens
• Ne gère pas les erreurs de séquençage
• Nom du logiciel: EULER
An Eulerian path approach to DNA fragment assembly.Pevzner PA, Tang H, Waterman MS.Proc Natl Acad Sci U S A. 2001 Aug 14;98(17):9748-53.
82
La méthode de Zerbino
• Construit le graphe de Bruijn
• Corrige le graphe
• Fait des simplifications
• Fonctionne bien sur des données Illumina
• Nom du logiciel: VelvetVelvet: algorithms for de novo short read assembly using de Bruijn graphs.Zerbino DR, Birney E.Genome Res. 2008 May;18(5):821-9
83
Observation
• Chaque assembleur est créé pour une technologie en particulier.
• Chaque technologie est vendue par une compagnie
• Chaque compagnie est meilleure que les autres
84
Indexage
• ATCGGACTAGCCTCTAGCAT
• Dans une structure, on met à quelle position on observe certaines sous-séquences
• ATC -> {1}
• TAG -> {8,15}
• On peut changer la taille des sous-séquences indexés
• On peut choisir quelles sous-séquences on garde, et quelles positions sont importantes
• Ensuite, on peut “chercher” rapidement dans le tas
85
Alignements
• ATCAGACTCGATCAGCAGC
• ATGAGACTTGCACGATCAGCGGC
Identification of common molecular subsequences.Smith TF, Waterman MS.J Mol Biol. 1981 Mar 25;147(1):195-7.
1 ATCAGACT----CGATCAGCAGC 19 ||.||||| ||||||||.|| 1 ATGAGACTTGCACGATCAGCGGC 23
A general method applicable to the search for similarities in the amino acid sequence of two proteins.Needleman SB, Wunsch CD.J Mol Biol. 1970 Mar;48(3):443-53.
86
Aligner rapidement
• Avec l'indexage, on peut trouver des chevauchements, des alignements, et d'autres résultats intéressants
87
BLAST – vous le connaissez?
• 30977 citations (Google Scholar)
• Simplement un indexage suivi d'un alignement...
• Peut être utiliser pour aligner des séquences
• Nom du logiciel: BLAST
Gapped BLAST and PSI-BLAST: a new generation of protein database search programs.Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ.Nucleic Acids Res. 1997 Sep 1;25(17):3389-402.
88
BLAT
• Blast-Like Alignment Tool
• Blast revisité
• Spécialité: aligner des ARNm
• Nom du logiciel: BLAT
BLAT--the BLAST-like alignment tool.Kent WJ.Genome Res. 2002 Apr;12(4):656-64.
89
Reséquençage
• Quand le génome est trop complexe
• Quand on s'intéresse seulement aux changements locaux
• On aligne les séquences sur un génome de référence
• On observe les différences
What would you do if you could sequence everything?Kahvejian A, Quackenbush J, Thompson JF.Nat Biotechnol. 2008 Oct;26(10):1125-33.
90
MAQ – un “BLAST” pour les courtes séquences
• MAQ fonctionne comme BLAST
• Il indexe le génome de référence.
• Il peut aligner les séquences en paires
• Il fonctionne sur Illumina et SOLiD
• Nom du logiciel: MAQ
• Très utilisé
Mapping short DNA sequencing reads and calling variants using mapping quality scores.Li H, Ruan J, Durbin R.Genome Res. 2008 Nov;18(11):1851-8.
91
Alignements
● SSAHA fonctionne sur le 454● Nom du logiciel: SSAHA
SSAHA: a fast search method for large DNA databases.Ning Z, Cox AJ, Mullikin JC.Genome Res. 2001 Oct;11(10):1725-9.
92
Les arbres
● Un arbre est un graphe
AB
A
C1 454
G ZTT
93
Arbres à suffixes
● On représente une séquence sous forme d'arbre
● Une forme d'indexage
94
Alignement de génomes
● Utilise des arbres à suffixes ● Pour comparer des génomes● Rapide● Calcule les “MUM” -- Maximum Unique
Matches● Nom du logiciel: MUMmer
Versatile and open software for comparing large genomes.Kurtz S et al.Genome Biol. 2004;5(2):R12.
95
Compression
• Avez-vous déjà utilisé ZIP?
• GNU tar?
• Bunzip2?
• Permet de réduire l'espace utilisé
96
Alignements par compression
Ultrafast and memory-efficient alignment of short DNA sequences to the human genome.Langmead B, Trapnell C, Pop M, Salzberg SL.Genome Biol. 2009;10(3):R25.
Nom du logiciel: Bowtie
97
Exemple d'analyse
● Exemple...
98
Conseils
• Linux est votre ami
• Google est votre ami
• N'ayez pas peur d'essayer
• Utilisez la “ligne de commande”
• Créez des scripts “BASH”
Liens utiles
Nature Newshttp://www.nature.com/news/index.html
The Human Genome at Ten – Naturehttp://www.nature.com/humangenome
GenomeWebhttp://www.genomeweb.com/
Strunk, William, Jr. 1918. The Elements of Stylehttp://www.bartleby.com/141/