Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences...

Post on 04-Apr-2015

103 views 0 download

Transcript of Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences...

L’algorithme de Kandel et al. pour la génération de séquences génomiques

aléatoires.

Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Alain Denise et Stéphane Vialette

Université Paris-Sud 11

Introduction : motivations et généralités

G G C 5’C 5’T T AAA A TTC C GGC C GGC C GGA A TTT T AAC C GGA A TT

MT

3’3’

Structure de l’ADN

Promoteur Origine de réplication

ARNtARNrIntrons...

Analyse d’un génome

5’ 3’

Gène protéique

ARNm

Protéine

transcription

traduction

• Faire l’inventaire du contenu génétique. • Puis comprendre son organisation, les relations entre structure et fonction de l’information, les processus qui permettent son expression.

CACCACAATTGCAAAACTCCCAAGCCCGTCCACAAAAGAAGGACGGATTCTCACAGTTCATGCCATCTGCAACTACGAAGAACCCATATGCCCAGTAACTCGACCGACTGGTTGTAATTTTACAAAAAGAGAGACAATTAAGAAAAGAAACAAGCGCCAGGCTTCCGTATCCCAGTTTTTCATCTCACTTTCTGGGCACGATTGTAATAATACTTCATGATAATAACTAAACTATATAAGTAGTGTCTCATCCGTAAATATACATTTAGACAGATTCTTGTATTTTCTCCGGGCAATTTTTAACTTTTTTTCTGTTAGGGCACATGACACTTGCCTATTATGGACAGCCAGTAAAGATGTGCCCATATATTGCCCCCTTTACGCTCTCTGCCAGTATTAGTGGGAAAAAAAAAACTGAAAAAAAAAAATCGCAGGACTACTAATAATCACGTGATATTTCTTTTCACTCTCTTCATAAAGTTGCTAAAAACACACAATCGAATGAGCCTCTGAGCAGTATAAATTGTACTTCAAAGCACTATGCATGAAAAACGCTTACATTAGTTCAGTTTGTCAAGGTTATGCTATTACTTGTACTTATTTCTTGCTATTGTTAGTGGCTCCCCACATTGACGTATTTTCACGTGATGCGCCTCACTGCGGAAGGCGCCACACATTGCCTGCAAAAAATTGTGGATGCACTCATTTGATAGTAAACTAAGTCATGTTAATCGTTTGGATTTGGCACACACCCACAAATATACACATTACATATATATATATATTCAAAATACAGCTGCGTCCAATAGATGAGCTTCCGCTTCGTTGTACAACCTACCTGCTATCTTGTTCACGGATATTTCTTGCTTTTAATAAACAAAAGTAACTCTAGAACAGTCAAGTCTTCGATAATTTTTTTAGTCACAGGGTCCGTCTAAAGTTTCTCTTTATTTGGAATAATAGAAAAGAAAGAAAAAAACGTAGTATAAAAGGAATGTCGCATACTTTAAAATCGAAAACGCTCCAAGAGCTGGACATTGAGGAGATTAAGGAAACTAACCCATTGCTCAAACTAGTTCAAGGGCAGAGGATTGTTCAAGTTCCGGAACTAGTGCTTGAGTCTGGCGTGGTCATAAATAATTTCCCTATTGCTTATAAGACGTGGGGTACACTGAATGAAGCTGGTGATAATGTTCTGGTAATTTGTCATGCCTTGACTGGGTCCGCAGATGTTGCTGACTGGTGGGGCCCTCTTCTGGGTAACGACTTAGCATTCGACCCATCAAGGTTTTTTATCATATGTTTAAACTCTATGGGCTCTCCATATGGGTCTTTTTCGCCATTAACGATAAATGAGGAGACGGGCGTTAGATATGGACCCGAATTCCCATTATGTACTGTGCGCGATGACGTTAGAGCTCACAGAATTGTTCTGGATTCTCTGGGAGTAAAGTCAATAGCCTGTGTTATTGGTGGCTCTATGGGGGGGATGCTGAGTTTGGAATGGGCTGCCATGTATGGTAAGGAATATGTGAAGAATATGGTTGCTCTGGCGACATCAGCAAGACATTCTGCCTGGTGCATATCGTGGTCTGAGGCTCAAAGACAATCGATTTACTCAGATCCCAACTACTTGGACGGGTACTATCCGGTAGAGGAGCAACCTGTGGCCGGACTATCGGCTGCACGTATGTCTGCATTGTTGACGTACAGGACAAGAAACAGTTTCGAGAACAAATTCTCCAGAAGATCTCCTTCAATAGCACAACAACAAAAAGCTCAAAGGGAGGAGACACGCAAACCATCTACTGTCAGCGAACACTCCCTACAAATCCACAATGATGGGTATAAAACAAAAGCCAGCACTGCCATCGCTGGCATTTCTGGGCAAAAAGGTCAAAGCGTGGTGTCCACCGCATCTTCTTCGGATTCATTGAATTCTTCAACATCGATGACTTCGGTAAGTTCTGTAACGGGTGAAGTGAAGGACATAAAGCCTGCGCAGACGTATTTTTCTGCACAAAGTTACTTGAGGTACCAGGGCACAAAGTTCATCAATAGGTTCGACGCCAATTGTTACATTGCCATCACACGTAAACTGGATACGCACGATTTGGCAAGAGACAGAGTAGATGACATCACTGAGGTCCTTTCTACCATCCAACAACCATCCCTGATCATCGGTATCCAATCTGATGGACTGTTCACATATTCAGAACAAGAATTTTTGGCTGAGCACATACCGAAGTCGCAATTAGAAAAAATTGAATCTCCCGAAGCCACGATGCCTTCCTATTGGAGTTTAAGCTGATAAACAAACTGATAGTACAATTTTTAAAAACCAACTGCAAGGCCATTACCGATGCCGCTCCAAGAGCTTGGGGAGGCGACGTTGGTAACGATGAAACGAAGACGTCTGTCTTTGGTGAGGCCGAAGAAGTTACCAACTGGTAGGGATAGATACCACACATACCTCAGGCATAACATAGATAAACCAGTACATGTATATCTATATCTATATTTATATATAGACAAACAGCATTAATTAACTATAACAAAGTTTCTAGTAACACTAACGGTAGTTAATTTCTCTTTTTTGTCCTCGTTGTTGAAAAACGAAAGAAGAATGAAAAAAAAAAAAACAAAAGAGTAATAGCTAGTGTTTTAGAGCTTTTCCACATTCTGACCGCACTTGTAGACAGCCACTCTTTGCATTGCCACTCGACATTACATGAACGACTGTTCTTCTCCCTGTCGCCTTAGCTTACTTCTTTGAAAAAAGCAAATCGCCCTTTTATGTAGGGACAAGTAACTTTTAGATC...

Phase d’inventaire

1. Alignements. Aligner sur la séquence• des ARN messagers de l’organisme en question• des séquences codantes d’autres organismes.

2. Segmentation (approche « ab initio ») : modèles de Markov cachés, …

A : 3/10C : 2/10G : 2/10T : 3/10

A : 1/10C : 4/10G : 4/10T : 1/10

2/10

1/10

8/10 9/10

Non codant Codant

Modèle de Markov caché : principes

Pr(ATTGAC) = 3/10 × 2/10 × 1/10 × 9/10 × 1/10 × …

Trouver la segmentation la plus probable d’une séquence :

Pr(ATTGAC) = 3/10 × 8/10 × 3/10 × 2/10 × 1/10 × …

Raffinements : fréquences d’oligonucléotides, phases du codant, caractères syntaxiques (Start, Stop, …)

1. Alignements.• on ne détecte que des gènes déjà connus par ailleurs,

ou des ARN fortement exprimés.• problèmes d’ordre technique : contamination par des

ARN pré-messagers…• Imprécision des algorithmes d’alignement.

2. Segmentation. Dans A. thaliana, moins d’un gène sur deux est correctement reconnu ; deux gènes prédits sur trois sont faux. [Reese et al. 2000]

Phase d’inventaire : problèmes

On prédit mal, et on ne prédit que ce que l’on connaît déjà.

Des différences observées entre séquences biologiques et séquences aléatoires, on peut déduire des faits biologiques.

Exemple : si un motif apparaît avec des fréquences très différentes dans une séquence réelle et dans une séquence aléatoire, alors il a probablement une fonctionnalité biologique.

Paradigme : comparaison biologie/aléatoire

Paradigm : biological vs. random sequences

TTCATTATCTCCATTCGCTGGTGGGCAAGGACTTGAGCTATCGCCCTTTC...GCATAAAGTTATTCATAAACTGTCAGGGGTTCGGTTGCCGCTGGTGGAAC...AGGCTGGTGGACGCCTACGTTATTTTGCTGGTGGACTGGAAATCATCTAG...TCCAACGAAATAGCTGGTGGTCTACACTCATATCGTTATTAACAAACGAA...AGAAACTAATGGGTGTCACAGCTGGTGGGCTCGTATTTTGTAGGAGGTCA...

Biological sequence :

ATATATATATTTATCTTGCAACTCGGAGAATTCTATTAATATATGAACGA...ACGTAGATGACAACAATTAGCATGTGGATTTGTAAGGTAAGTTTCTTGTG...CGTTGGTTGGTCATCGATGCAATGAATGAGTCGTTTAAAATAAGACTCGA...TTGTCTCTCAAGTTTTTTTTGCATTACCATTCTAAGCTGGTGGATATAGG...GTTTACAAGTTTTAACCTTTTGTCACTCGTCACCTTATGTGTGGCTTTAA...

Random sequence :

Chi motif in E. coli.

Searching for overrepresented motifs

>MET1 MET1 upstream sequence, from -702 to -1, size 702TTTTGACCCA……TCTCTTTCTAGAAATGCCATTATGCACGTGACATTACAAATTGTGGTGAAAAAAGG……TTCAAAAGA>MET2 MET2 upstream sequence, from -800 to -1, size 800GGGCACGATT……GACTACTAATAATCACGTGATAT……CCCCACATTGACGTATTTTCACGTGATGCGC……AGCGCCACA>MET3 MET3 upstream sequence, from -800 to -1, size 800AAGAGTACAA……AAAAAAGGTCACGTGACCAGAAAAGTCACGTGTAATTTTGTAACTCACCGCATTCT……ATAATTAAC>MET6 MET6 upstream sequence, from -222 to -1, size 222GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGAAAAAAAAATTCTATATAAGTGA……TTCAATATT>MET14 MET14 upstream sequence, from -800 to -1, size 800TATTTTTTTA……AGACCGTGCCACTAATTTCACGTGATCAATATATTTACAAGCCACCTCAAAAAATG……AATTATTTC>ZWF1 MET19 upstream sequence, from -558 to -1, size 558GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCACAAACTGTGTGTATCAAGTACAT……TAAATAATA>MET17 MET25 upstream sequence, from -800 to -1, size 800TATACTAGAA……GCAAATGGCACGTGAAGCTGTCGATATTGGGGAACTGTGGTGGTTGGCAAATGACT……ATCCATACA>MET30 MET30 upstream sequence, from -800 to -1, size 800CCATTGCTGC……GTGTGTGGTACAATGTGTGTGTTTTAATGTAGAAATGAGGTTGTAGCACGTGATCG……GAGAAGGGC>MUP3 MUP3 upstream sequence, from -61 to -1, size 61TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCTCAAAATAAGTAAAA>SAM1 SAM1 upstream sequence, from -548 to -1, size 548AATATATATTTCTATTACTAAGTACTCGGATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAA……CCTACTAGT

Extraction de promoteurs

Régions en amont de 10 gènes de S. cerevisiae. [J. van Helden]

La probabilité d’une telle représentation de CACGTG dans des séquences aléatoires serait environ égale à 10-9

Paradigm : biological vs. random sequences

Assessing significance of alignment scores

HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL

HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRandomB1 QVGAKDLNALDGKVAHDMPAAVALGSAAHVDLSTNSKHHKLRandomB2 VAHSDLDAVKGDMPNGSAKKVAAQAAHGLSLTNHAHKLLVD…RandomBK HVDDMTNAGKKVPNAGSAQADAVADLHAHKLLVKGHLSALS

HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLRandomA1 HLSEKVLGTNLKGTGKFSDGCDKLLKAHNPKVLAGAFALHDRandomA2 KATEFATKVDGAFSDLSLLAHGKKVGGHLGNLPNLKHCDKL…RandomAK GTKKHGFSELPKVAHGNLDNDGHCGLAFSADKLVLATLKLK

Score130

Average score

25

Z-value and p-value

)(

)()()(

XV

AScoreXEAZ

))(Pr()( AScoreXAPval

X = random variable, score of an alignment with a random sequence.

Alignments

X = random variable, number of occurrences of M in a random sequence.

)(

)(#)()(

XV

MoccXEMZ

))(#Pr()( MoccXMPval

Motifs

Choix du modèle de séquences aléatoires

TTCGTTGTCTCCGTTCGCTGGTGGGCGGGGGCTTGGGCTGTCGCCCTTTC...GCGTGGGGTTGTTCGTGGGCTGTCGGGGGTTCGGTTGCCGCTGGTGGGGC...GGGCTGGTGGGCGCCTGCGTTGTTTTGCTGGTGGGCTGGGGGTCGTCTGG...TCCGGCGGGGTGGCTGGTGGTCTGCGCTCGTGTCGTTGTTGGCGGGCGGG...GGGGGCTGGTGGGTGTCGCGGCTGGTGGGCTCGTGTTTTGTGGGGGGTCG...

Séquence biologique :

TTAATTATATAAATTAGCTGGTGGCAAACCAATTCACATATACAAATTTA...CAATAAACTTATTAATAAAATCTAACCCCTTACCTTCAAGCTGGTGGAAA...ACGCTGGTGGAACAATAACTTATTTTGCTGGTGGAATCCAAATAATATAC...TAAAAACAAATAGCTGGTGGTCTACAATAATATACTTATTAAAAAAACAA...ACAAAATAATCCCTTTAAAAGCTGGTGGCATACTATTTTCTACCACCTAA...

Séquence biologique :

Etonnant !

Moins étonnant !

AACGACGTGCCGTGCGCTCGACGT

Modèles classiques de séquences aléatoires [Fitch 83]

AACG : 1

Séquence biologique :

Occurrences :

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1ACGA : 1

Séquence biologique :

Occurrences :

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1ACGA : 1CGAC : 1

Séquence biologique :

Occurrences :

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1ACGA : 1CGAC : 1GACG : 1

Séquence biologique :

Occurrences :

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Séquence biologique :

Occurrences :

Modèle markovien

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Occurrences :

Séquences ayant en moyenne les mêmes nombres d’occurrences de nucléotides que la séquence de référence.

Pr(G|AAC) = 1 Pr(T|GCG) = 1/2

Modèle exact (shuffling)

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Occurrences :

Séquences ayant exactement les mêmes nombres d’occurrences de nucléotides que la séquence de référence.

Génération aléatoire de séquences génomiques selon le modèle exact (« shuffling »)

Génération en fréquences exactes

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Chemin eulérien dans le graphe suivant :

[Kandel, Matias, Unger, Winkler 96]

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Chemineulérien

Anti-arbrecouvrant

ordre des arcs adjacentsà un même sommet=

[Aardenne-Ehrenfest, de Bruijn 51]

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Chemineulérien

arbrecouvrant

ordre des arcs adjacentsà un même sommet=

1

2

1

1

2

AACGACGTGCGCTCGACGTGCGT

[Aardenne-Ehrenfest, de Bruijn 51]

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Chemineulérien

arbrecouvrant

ordre des arcs adjacentsà un même sommet=

1

2

1

1

2

AACGTGCGCTCGACGACGTGCGT

[Aardenne-Ehrenfest, de Bruijn 51]

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder][Wilson]

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder][Wilson]

Engendrer un arbre couvrant aléatoire uniformément

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder][Wilson]

Engendrer un arbre couvrant aléatoire uniformément

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder][Wilson]

Engendrer un arbre couvrant aléatoire uniformément

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder 90][Wilson 97]

Engendrer un arbre couvrant aléatoire uniformément

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]