Alexis DereeperFormation Bio-informatique Apimet 2013 Recherche et analyse de polymorphismes SNP.
-
Upload
ludivine-renou -
Category
Documents
-
view
102 -
download
0
Transcript of Alexis DereeperFormation Bio-informatique Apimet 2013 Recherche et analyse de polymorphismes SNP.
Alexis Dereeper Formation Bio-informatique Apimet 2013
Recherche et analysede polymorphismes SNP
• Connaître et manipuler des packages/outils disponibles pour la recherche de SNP et INDEL à partir de données NGS (assemblage de données NGS)
• Réfléchir sur les difficultés rencontrées liées aux nouvelles technologies de séquençage(différencier erreur de séquençage, paralogues et variation allélique)
• Détecter les SNP et pouvoir affecter les génotypes aux différentes positions polymorphes
• Exploiter simplement les données de polymorphismes via une application Web(diversité génétique, DL)
• Obtenir un jeu de données exploitables à envoyer pour le design d’une puce SNP haut-débit(technologie Illumina VeraCode)
Short reads Solexa
Mapping SAM
Exploitation des données de polymorphismes
Design de puces Illumina
Assignation des génotypes
Ind1 ATTGTGTCGTAACGTATGTCATGTCGTInd2 ATTGTGTCGGAACGTATGTCATGTCGTInd3 ATTGTGTCGKAACGTATGTCATGTCGT
Variations alléliques
Liste de SNP1
A/G1998
T/C2341
T/G
But du TP
Alexis Dereeper
Tablet
• Outil graphique de visualisation d’assemblage de données NGS
• Accepte différents formats:ACE, SAM, BAM
Formation Bio-informatique Apimet 2013
Alexis Dereeper
GATK (Genome Analysis ToolKit)
• Librairie logicielle pour l'analyse de données NGS.
• Développé pour l'analyse des projets de reséquençage médical chez l'Humain (1000 Génomes, The Cancer Genome Atlas)
• Inclut des outils d'analyse de profondeur, recalibrateur de score de qualité, détection de SNP/InDel
• Complémentaire des 2 autres packages: SamTools, PicardTools
PREPROCESS:
* Index human genome (Picard), we used HG18 from UCSC. * Convert Illumina reads to Fastq format * Convert Illumina 1.6 read quality scores to standard Sanger scores
FOR EACH SAMPLE:
1. Align samples to genome (BWA), generates SAI files. 2. Convert SAI to SAM (BWA) 3. Convert SAM to BAM binary format (SAM Tools) 4. Sort BAM (SAM Tools) 5. Index BAM (SAM Tools) 6. Identify target regions for realignment (Genome Analysis Toolkit) 7. Realign BAM to get better Indel calling (Genome Analysis Toolkit) 8. Reindex the realigned BAM (SAM Tools) 9. Call Indels (Genome Analysis Toolkit) 10. Call SNPs (Genome Analysis Toolkit) 11. View aligned reads in BAM/BAI (Integrated Genome Viewer)
Formation Bio-informatique Apimet 2013
Alexis Dereeper
Détection automatique de SNP à partir d’assemblage SAM
SAM assembly
FastQ Groomer
Mapping BWA GATK
PicardTools
FastqExemple de chaine de traitement réalisable avec Galaxy SouthGreen:
IndelRealigner
UnifiedGenotyper
VCF file
Formation Bio-informatique Apimet 2013
DepthOfCoverage
Add or Replace Groups
BAM assembly including ReadGroups
Depth file
Global BAM with read group
FastQ Groomer
Mapping BWA
IndelRealigner
UnifiedGenotyper
VCF file
Fastq (RC1)
BAM with read group
FastQ Groomer
Mapping BWA
Fastq (RC2)
BAM with read group
FastQ Groomer
Mapping BWA
Fastq (RC3)
BAM with read group
FastQ Groomer
Mapping BWA
Fastq (RC4)
BAM with read group
….
mergeSam
Add or Replace GroupsAdd or Replace Groups Add or Replace Groups Add or Replace Groups
DepthOfCoverage
Depth file
Alexis Dereeper
Format VCF (Variant Call Format)
##fileformat=VCFv4.0##fileDate=20090805##source=myImputationProgramV3.1##reference=1000GenomesPilot-NCBI36##phasing=partial##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">##FILTER=<ID=q10,Description="Quality below 10">##FILTER=<ID=s50,Description="Less than 50% of samples have data">##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,5120 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3
Avantages: description des variations pour chaque position + assignation aux génotypes
Formation Bio-informatique Apimet 2013
Global BAM with read group
FastQ Groomer
Mapping BWA
IndelRealigner
UnifiedGenotyper
VCF file
Fastq (RC1)
BAM with read group
FastQ Groomer
Mapping BWA
Fastq (RC2)
BAM with read group
FastQ Groomer
Mapping BWA
Fastq (RC3)
BAM with read group
FastQ Groomer
Mapping BWA
Fastq (RC4)
BAM with read group
….
mergeSam
Add or Replace GroupsAdd or Replace Groups Add or Replace Groups Add or Replace Groups
DepthOfCoverage
Depth fileReadBackedPhasing
VariantFiltration
Phased VCF
Filtered VCF
Alexis Dereeper
Autres fonctionalités GATK• Module DepthOfCoverage:Permet de renseigner de la profondeur de séquençage pour chaque gène, chaque position et chaque individu
• Module ReadBackedPhasing:Permet de définir dans la mesure du possible les associations d’allèles (phase ou haplotype) quand il y a hétérozygotie…
Et non AGGGGA
Formation Bio-informatique Apimet 2013
Alexis Dereeper
SNiPlay: application Web pour l’analyse du polymorphisme
http://sniplay.cirad.fr
Formation Bio-informatique Apimet 2013
Global BAM with read group
FastQ Groomer
Mapping BWA
IndelRealigner
UnifiedGenotyper
VCF file
Fastq (RC1)
BAM with read group
FastQ Groomer
Mapping BWA
Fastq (RC2)
BAM with read group
FastQ Groomer
Mapping BWA
Fastq (RC3)
BAM with read group
FastQ Groomer
Mapping BWA
Fastq (RC4)
BAM with read group
….
mergeSam
Add or Replace GroupsAdd or Replace Groups Add or Replace Groups Add or Replace Groups
DepthOfCoverage
Depth file
Options de SNiPlay
Cocher format VCF
Charger fichier VCFCharger référence
Sélectionner génome du Riz
Charger fichier de profondeur
Alexis Dereeper
Coordonnées cartésiennes
Fichier de génotypage
Fichier de soumission pour Illumina
Analyse avec le logiciel BeadStudio
Design de puces Illumina
Formation Bio-informatique Apimet 2013
Alexis Dereeper
Individu, groupInd1, TableInd2, TableInd3, TableInd4, EastInd5, EastInd6, EastInd7, EastInd8, West
External file (optional)
Partage d’allèles entre groupes
Formation Bio-informatique Apimet 2013
Alexis Dereeper
Annotation des SNPs
Formation Bio-informatique Apimet 2013
Alexis Dereeper
Annotation des SNPs
Formation Bio-informatique Apimet 2013
Alexis Dereeper
@DARwin 5.0 - ALLELIC - 233 20N° 50 50 122 122 218 218 245 245 261 261 290 290 3561 1 1 1 1 3 3 3 3 4 4 2 2 22 1 1 1 1 3 3 1 3 4 4 2 2 23 1 1 1 1 3 3 3 3 4 4 2 2 24 1 1 1 1 3 3 3 3 4 4 2 2 2
3310P 49 121 217 244 260 289SSSSSSSSSS#cARBA A G G T C C A T TA A G G T C C A T T#cSYRA A G A T C C A T CA A G G T C C A T T
• Format PED
• Format DARwin
• Format .inp pour Phase • Format pour TASSEL (génétique d’association)
cARB 1 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4cSYR 2 0 0 1 0 1 1 1 1 3 3 1 3 4 4 2 2 2 2 1 1 4 4 2 4cARA 3 0 0 1 0 1 1 1 1 3 3 3 3 4 4 2 2 2 2 1 1 4 4 4 4
33 10:250 122 218 245 261 290 356 461 467 560cARB A:A A:A G:G G:G T:T C:C C:C A:A T:T T:TcSYR A:A A:A G:G A:G T:T C:C C:C A:A T:T C:TcARA A:A A:A G:G G:G T:T C:C C:C A:A T:T T:TcORL A:A A:A G:G G:G T:T C:C C:C A:A T:T T:TcLAR A:G A:G A:G A:G C:T C:C C:C A:A T:T C:T
Fichiers alléliques
Formation Bio-informatique Apimet 2013
Librairie SeqLib
Analyse de diversité
Alexis Dereeper
Réseaux d’haplotypes
Haplotypes fréquents
Haplotype peufréquent
Distribution des groupesAu sein de cet haplotype
Distance séparant les 2 haplotypes (nb de mutations)
Formation Bio-informatique Apimet 2013