Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences...

40
L’algorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. ences (L3) parcours Bioinformatique et Biostatistiques 2006-2 Alain Denise et Stéphane Vialette Université Paris-Sud 11

Transcript of Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences...

Page 1: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

L’algorithme de Kandel et al. pour la génération de séquences génomiques

aléatoires.

Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007

Alain Denise et Stéphane Vialette

Université Paris-Sud 11

Page 2: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Introduction : motivations et généralités

Page 3: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

G G C 5’C 5’T T AAA A TTC C GGC C GGC C GGA A TTT T AAC C GGA A TT

MT

3’3’

Structure de l’ADN

Page 4: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Promoteur Origine de réplication

ARNtARNrIntrons...

Analyse d’un génome

5’ 3’

Gène protéique

ARNm

Protéine

transcription

traduction

• Faire l’inventaire du contenu génétique. • Puis comprendre son organisation, les relations entre structure et fonction de l’information, les processus qui permettent son expression.

Page 5: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

CACCACAATTGCAAAACTCCCAAGCCCGTCCACAAAAGAAGGACGGATTCTCACAGTTCATGCCATCTGCAACTACGAAGAACCCATATGCCCAGTAACTCGACCGACTGGTTGTAATTTTACAAAAAGAGAGACAATTAAGAAAAGAAACAAGCGCCAGGCTTCCGTATCCCAGTTTTTCATCTCACTTTCTGGGCACGATTGTAATAATACTTCATGATAATAACTAAACTATATAAGTAGTGTCTCATCCGTAAATATACATTTAGACAGATTCTTGTATTTTCTCCGGGCAATTTTTAACTTTTTTTCTGTTAGGGCACATGACACTTGCCTATTATGGACAGCCAGTAAAGATGTGCCCATATATTGCCCCCTTTACGCTCTCTGCCAGTATTAGTGGGAAAAAAAAAACTGAAAAAAAAAAATCGCAGGACTACTAATAATCACGTGATATTTCTTTTCACTCTCTTCATAAAGTTGCTAAAAACACACAATCGAATGAGCCTCTGAGCAGTATAAATTGTACTTCAAAGCACTATGCATGAAAAACGCTTACATTAGTTCAGTTTGTCAAGGTTATGCTATTACTTGTACTTATTTCTTGCTATTGTTAGTGGCTCCCCACATTGACGTATTTTCACGTGATGCGCCTCACTGCGGAAGGCGCCACACATTGCCTGCAAAAAATTGTGGATGCACTCATTTGATAGTAAACTAAGTCATGTTAATCGTTTGGATTTGGCACACACCCACAAATATACACATTACATATATATATATATTCAAAATACAGCTGCGTCCAATAGATGAGCTTCCGCTTCGTTGTACAACCTACCTGCTATCTTGTTCACGGATATTTCTTGCTTTTAATAAACAAAAGTAACTCTAGAACAGTCAAGTCTTCGATAATTTTTTTAGTCACAGGGTCCGTCTAAAGTTTCTCTTTATTTGGAATAATAGAAAAGAAAGAAAAAAACGTAGTATAAAAGGAATGTCGCATACTTTAAAATCGAAAACGCTCCAAGAGCTGGACATTGAGGAGATTAAGGAAACTAACCCATTGCTCAAACTAGTTCAAGGGCAGAGGATTGTTCAAGTTCCGGAACTAGTGCTTGAGTCTGGCGTGGTCATAAATAATTTCCCTATTGCTTATAAGACGTGGGGTACACTGAATGAAGCTGGTGATAATGTTCTGGTAATTTGTCATGCCTTGACTGGGTCCGCAGATGTTGCTGACTGGTGGGGCCCTCTTCTGGGTAACGACTTAGCATTCGACCCATCAAGGTTTTTTATCATATGTTTAAACTCTATGGGCTCTCCATATGGGTCTTTTTCGCCATTAACGATAAATGAGGAGACGGGCGTTAGATATGGACCCGAATTCCCATTATGTACTGTGCGCGATGACGTTAGAGCTCACAGAATTGTTCTGGATTCTCTGGGAGTAAAGTCAATAGCCTGTGTTATTGGTGGCTCTATGGGGGGGATGCTGAGTTTGGAATGGGCTGCCATGTATGGTAAGGAATATGTGAAGAATATGGTTGCTCTGGCGACATCAGCAAGACATTCTGCCTGGTGCATATCGTGGTCTGAGGCTCAAAGACAATCGATTTACTCAGATCCCAACTACTTGGACGGGTACTATCCGGTAGAGGAGCAACCTGTGGCCGGACTATCGGCTGCACGTATGTCTGCATTGTTGACGTACAGGACAAGAAACAGTTTCGAGAACAAATTCTCCAGAAGATCTCCTTCAATAGCACAACAACAAAAAGCTCAAAGGGAGGAGACACGCAAACCATCTACTGTCAGCGAACACTCCCTACAAATCCACAATGATGGGTATAAAACAAAAGCCAGCACTGCCATCGCTGGCATTTCTGGGCAAAAAGGTCAAAGCGTGGTGTCCACCGCATCTTCTTCGGATTCATTGAATTCTTCAACATCGATGACTTCGGTAAGTTCTGTAACGGGTGAAGTGAAGGACATAAAGCCTGCGCAGACGTATTTTTCTGCACAAAGTTACTTGAGGTACCAGGGCACAAAGTTCATCAATAGGTTCGACGCCAATTGTTACATTGCCATCACACGTAAACTGGATACGCACGATTTGGCAAGAGACAGAGTAGATGACATCACTGAGGTCCTTTCTACCATCCAACAACCATCCCTGATCATCGGTATCCAATCTGATGGACTGTTCACATATTCAGAACAAGAATTTTTGGCTGAGCACATACCGAAGTCGCAATTAGAAAAAATTGAATCTCCCGAAGCCACGATGCCTTCCTATTGGAGTTTAAGCTGATAAACAAACTGATAGTACAATTTTTAAAAACCAACTGCAAGGCCATTACCGATGCCGCTCCAAGAGCTTGGGGAGGCGACGTTGGTAACGATGAAACGAAGACGTCTGTCTTTGGTGAGGCCGAAGAAGTTACCAACTGGTAGGGATAGATACCACACATACCTCAGGCATAACATAGATAAACCAGTACATGTATATCTATATCTATATTTATATATAGACAAACAGCATTAATTAACTATAACAAAGTTTCTAGTAACACTAACGGTAGTTAATTTCTCTTTTTTGTCCTCGTTGTTGAAAAACGAAAGAAGAATGAAAAAAAAAAAAACAAAAGAGTAATAGCTAGTGTTTTAGAGCTTTTCCACATTCTGACCGCACTTGTAGACAGCCACTCTTTGCATTGCCACTCGACATTACATGAACGACTGTTCTTCTCCCTGTCGCCTTAGCTTACTTCTTTGAAAAAAGCAAATCGCCCTTTTATGTAGGGACAAGTAACTTTTAGATC...

Page 6: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Phase d’inventaire

1. Alignements. Aligner sur la séquence• des ARN messagers de l’organisme en question• des séquences codantes d’autres organismes.

2. Segmentation (approche « ab initio ») : modèles de Markov cachés, …

Page 7: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

A : 3/10C : 2/10G : 2/10T : 3/10

A : 1/10C : 4/10G : 4/10T : 1/10

2/10

1/10

8/10 9/10

Non codant Codant

Modèle de Markov caché : principes

Pr(ATTGAC) = 3/10 × 2/10 × 1/10 × 9/10 × 1/10 × …

Trouver la segmentation la plus probable d’une séquence :

Pr(ATTGAC) = 3/10 × 8/10 × 3/10 × 2/10 × 1/10 × …

Raffinements : fréquences d’oligonucléotides, phases du codant, caractères syntaxiques (Start, Stop, …)

Page 8: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

1. Alignements.• on ne détecte que des gènes déjà connus par ailleurs,

ou des ARN fortement exprimés.• problèmes d’ordre technique : contamination par des

ARN pré-messagers…• Imprécision des algorithmes d’alignement.

2. Segmentation. Dans A. thaliana, moins d’un gène sur deux est correctement reconnu ; deux gènes prédits sur trois sont faux. [Reese et al. 2000]

Phase d’inventaire : problèmes

On prédit mal, et on ne prédit que ce que l’on connaît déjà.

Page 9: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Des différences observées entre séquences biologiques et séquences aléatoires, on peut déduire des faits biologiques.

Exemple : si un motif apparaît avec des fréquences très différentes dans une séquence réelle et dans une séquence aléatoire, alors il a probablement une fonctionnalité biologique.

Paradigme : comparaison biologie/aléatoire

Page 10: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Paradigm : biological vs. random sequences

TTCATTATCTCCATTCGCTGGTGGGCAAGGACTTGAGCTATCGCCCTTTC...GCATAAAGTTATTCATAAACTGTCAGGGGTTCGGTTGCCGCTGGTGGAAC...AGGCTGGTGGACGCCTACGTTATTTTGCTGGTGGACTGGAAATCATCTAG...TCCAACGAAATAGCTGGTGGTCTACACTCATATCGTTATTAACAAACGAA...AGAAACTAATGGGTGTCACAGCTGGTGGGCTCGTATTTTGTAGGAGGTCA...

Biological sequence :

ATATATATATTTATCTTGCAACTCGGAGAATTCTATTAATATATGAACGA...ACGTAGATGACAACAATTAGCATGTGGATTTGTAAGGTAAGTTTCTTGTG...CGTTGGTTGGTCATCGATGCAATGAATGAGTCGTTTAAAATAAGACTCGA...TTGTCTCTCAAGTTTTTTTTGCATTACCATTCTAAGCTGGTGGATATAGG...GTTTACAAGTTTTAACCTTTTGTCACTCGTCACCTTATGTGTGGCTTTAA...

Random sequence :

Chi motif in E. coli.

Searching for overrepresented motifs

Page 11: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

>MET1 MET1 upstream sequence, from -702 to -1, size 702TTTTGACCCA……TCTCTTTCTAGAAATGCCATTATGCACGTGACATTACAAATTGTGGTGAAAAAAGG……TTCAAAAGA>MET2 MET2 upstream sequence, from -800 to -1, size 800GGGCACGATT……GACTACTAATAATCACGTGATAT……CCCCACATTGACGTATTTTCACGTGATGCGC……AGCGCCACA>MET3 MET3 upstream sequence, from -800 to -1, size 800AAGAGTACAA……AAAAAAGGTCACGTGACCAGAAAAGTCACGTGTAATTTTGTAACTCACCGCATTCT……ATAATTAAC>MET6 MET6 upstream sequence, from -222 to -1, size 222GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGAAAAAAAAATTCTATATAAGTGA……TTCAATATT>MET14 MET14 upstream sequence, from -800 to -1, size 800TATTTTTTTA……AGACCGTGCCACTAATTTCACGTGATCAATATATTTACAAGCCACCTCAAAAAATG……AATTATTTC>ZWF1 MET19 upstream sequence, from -558 to -1, size 558GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCACAAACTGTGTGTATCAAGTACAT……TAAATAATA>MET17 MET25 upstream sequence, from -800 to -1, size 800TATACTAGAA……GCAAATGGCACGTGAAGCTGTCGATATTGGGGAACTGTGGTGGTTGGCAAATGACT……ATCCATACA>MET30 MET30 upstream sequence, from -800 to -1, size 800CCATTGCTGC……GTGTGTGGTACAATGTGTGTGTTTTAATGTAGAAATGAGGTTGTAGCACGTGATCG……GAGAAGGGC>MUP3 MUP3 upstream sequence, from -61 to -1, size 61TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCTCAAAATAAGTAAAA>SAM1 SAM1 upstream sequence, from -548 to -1, size 548AATATATATTTCTATTACTAAGTACTCGGATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAA……CCTACTAGT

Extraction de promoteurs

Régions en amont de 10 gènes de S. cerevisiae. [J. van Helden]

La probabilité d’une telle représentation de CACGTG dans des séquences aléatoires serait environ égale à 10-9

Page 12: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Paradigm : biological vs. random sequences

Assessing significance of alignment scores

HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL

HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRandomB1 QVGAKDLNALDGKVAHDMPAAVALGSAAHVDLSTNSKHHKLRandomB2 VAHSDLDAVKGDMPNGSAKKVAAQAAHGLSLTNHAHKLLVD…RandomBK HVDDMTNAGKKVPNAGSAQADAVADLHAHKLLVKGHLSALS

HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLRandomA1 HLSEKVLGTNLKGTGKFSDGCDKLLKAHNPKVLAGAFALHDRandomA2 KATEFATKVDGAFSDLSLLAHGKKVGGHLGNLPNLKHCDKL…RandomAK GTKKHGFSELPKVAHGNLDNDGHCGLAFSADKLVLATLKLK

Score130

Average score

25

Page 13: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Z-value and p-value

)(

)()()(

XV

AScoreXEAZ

))(Pr()( AScoreXAPval

X = random variable, score of an alignment with a random sequence.

Alignments

X = random variable, number of occurrences of M in a random sequence.

)(

)(#)()(

XV

MoccXEMZ

))(#Pr()( MoccXMPval

Motifs

Page 14: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Choix du modèle de séquences aléatoires

TTCGTTGTCTCCGTTCGCTGGTGGGCGGGGGCTTGGGCTGTCGCCCTTTC...GCGTGGGGTTGTTCGTGGGCTGTCGGGGGTTCGGTTGCCGCTGGTGGGGC...GGGCTGGTGGGCGCCTGCGTTGTTTTGCTGGTGGGCTGGGGGTCGTCTGG...TCCGGCGGGGTGGCTGGTGGTCTGCGCTCGTGTCGTTGTTGGCGGGCGGG...GGGGGCTGGTGGGTGTCGCGGCTGGTGGGCTCGTGTTTTGTGGGGGGTCG...

Séquence biologique :

TTAATTATATAAATTAGCTGGTGGCAAACCAATTCACATATACAAATTTA...CAATAAACTTATTAATAAAATCTAACCCCTTACCTTCAAGCTGGTGGAAA...ACGCTGGTGGAACAATAACTTATTTTGCTGGTGGAATCCAAATAATATAC...TAAAAACAAATAGCTGGTGGTCTACAATAATATACTTATTAAAAAAACAA...ACAAAATAATCCCTTTAAAAGCTGGTGGCATACTATTTTCTACCACCTAA...

Séquence biologique :

Etonnant !

Moins étonnant !

Page 15: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AACGACGTGCCGTGCGCTCGACGT

Modèles classiques de séquences aléatoires [Fitch 83]

AACG : 1

Séquence biologique :

Occurrences :

Page 16: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1ACGA : 1

Séquence biologique :

Occurrences :

Page 17: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1ACGA : 1CGAC : 1

Séquence biologique :

Occurrences :

Page 18: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1ACGA : 1CGAC : 1GACG : 1

Séquence biologique :

Occurrences :

Page 19: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Modèles classiques de séquences aléatoires [Fitch 83]

AACGACGTGCCGTGCGCTCGACGT

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Séquence biologique :

Occurrences :

Page 20: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Modèle markovien

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Occurrences :

Séquences ayant en moyenne les mêmes nombres d’occurrences de nucléotides que la séquence de référence.

Pr(G|AAC) = 1 Pr(T|GCG) = 1/2

Page 21: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Modèle exact (shuffling)

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Occurrences :

Séquences ayant exactement les mêmes nombres d’occurrences de nucléotides que la séquence de référence.

Page 22: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Génération aléatoire de séquences génomiques selon le modèle exact (« shuffling »)

Page 23: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Génération en fréquences exactes

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

AACG : 1 CGTG : 2 CGCT : 1ACGA : 1 GTGC : 2 GCTC : 1CGAC : 2 TGCG : 2 CTCG : 1GACG : 2 GCGT : 1 TCGA : 1ACGT : 2 GCGC : 1

Chemin eulérien dans le graphe suivant :

[Kandel, Matias, Unger, Winkler 96]

Page 24: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Chemineulérien

Anti-arbrecouvrant

ordre des arcs adjacentsà un même sommet=

[Aardenne-Ehrenfest, de Bruijn 51]

Page 25: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Chemineulérien

arbrecouvrant

ordre des arcs adjacentsà un même sommet=

1

2

1

1

2

AACGACGTGCGCTCGACGTGCGT

[Aardenne-Ehrenfest, de Bruijn 51]

Page 26: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Chemineulérien

arbrecouvrant

ordre des arcs adjacentsà un même sommet=

1

2

1

1

2

AACGTGCGCTCGACGACGTGCGT

[Aardenne-Ehrenfest, de Bruijn 51]

Page 27: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder][Wilson]

Page 28: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder][Wilson]

Engendrer un arbre couvrant aléatoire uniformément

Page 29: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder][Wilson]

Engendrer un arbre couvrant aléatoire uniformément

Page 30: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder][Wilson]

Engendrer un arbre couvrant aléatoire uniformément

Page 31: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

[Aldous, Broder 90][Wilson 97]

Engendrer un arbre couvrant aléatoire uniformément

Page 32: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 33: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 34: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 35: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 36: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 37: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 38: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 39: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.

AAC ACG CGA TCG

GTG CGT GAC CTC

TGC GCG CGC GCT

Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément[Aldous, Broder 90][Wilson 97]

Page 40: Lalgorithme de Kandel et al. pour la génération de séquences génomiques aléatoires. Licences (L3) parcours Bioinformatique et Biostatistiques 2006-2007.