IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

36
IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes

Transcript of IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Page 1: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

IFT3295Démonstration

16 novembre 2011

Arbres des suffixes

Page 2: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Plan

• Applications des arbres des suffixes

– Reconnaissance de sites de restriction

– Alignement de génomes complets

Page 3: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Les enzymes sont des protéines qui catalysent des réactions chimiques dans les cellules

• Certaines molécules d'ARN peuvent aussi catalyser des réactions chimiques (ribozymes)

• Presque toutes les réactions chimiques se produisant dans les cellules ont besoin d'enzymes pour atteindre une vitesse nécessaire à la survie

Page 4: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Les enzymes de restriction, ou endonucléases de restriction, permettent de couper des molécules double brin d'ADN

• Chaque enzyme de restriction coupe l'ADN à un site spécifique (site de restriction)

• Deux coupures sont faites par l'enzyme, c'est-à-dire une sur chaque brin (pas nécessairement au même endroit)

Page 5: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• On retrouve des enzymes de restriction chez les bactéries

• Elles jouent un rôle dans la défense des bactéries contre les virus elles permettent de couper l'ADN étranger

• L'ADN de la bactérie est méthylé afin de la protéger de l'action de ses propres enzymes de restriction

Page 6: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Exemples :

EcoRI

GAATTC

CTTAAG

SmaI

CCCGGG

GGGCCC

BamHI

GGATCC

CCTAGG

HindIII

AAGCTT

TTCGAA

Page 7: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Exemples :

EcoRI

GAATTC

CTTAAG

SmaI

CCCGGG

GGGCCC

BamHI

GGATCC

CCTAGG

HindIII

AAGCTT

TTCGAA

Extrémités cohésives

Extrémités franches

Page 8: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Les enzymes de restriction sont des outils utilisés abondamment en biochimie– clonage de gènes– production de protéines recombinantes– clivage d'ADN avant de faire une électrophorèse sur

gel– reconnaissance de SNPs

Page 9: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Les enzymes de restriction sont des outils utilisés abondamment en biochimie– clonage de gènes– production de protéines recombinantes– clivage d'ADN avant de faire une électrophorèse sur

gel– reconnaissance de SNPs

Page 10: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Production de protéines recombinantes :

– Les protéines recombinantes sont des protéines produites à partir d'ADN recombinant, c'est-à-dire de l'ADN qui est une combinaison de séquences provenant de différentes sources

– Puisque l'ADN de toutes les espèces possèdent les même propriétés chimiques, il est possible de créer de l'ADN recombinant en utilisant les enzymes de restriction

Page 11: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Production de protéines recombinantes :

– Les extrémités cohésives de molécules d'ADN clivées par des enzymes de restriction peuvent être "recollées" avec n'importe quelle autre molécule clivée par la même enzyme

– On va souvent utiliser des bactéries comme usines de production de protéines recombinantes

– Les bactéries possèdent des chromosomes circulaires appelés "plasmides"

Page 12: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Production de protéines recombinantes :

plasmide

Page 13: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Production de protéines recombinantes :

plasmide

Page 14: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Production de protéines recombinantes :

plasmide

Page 15: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Production de protéines recombinantes :

plasmide

gène étranger

Page 16: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Production de protéines recombinantes :

– Un bon exemple est celui de la production d'insuline pour traiter le diabète

– Pendant longtemps, l'insuline était recueilli à partir de pancréas de porcs ou de bovins

– Il est maintenant produit dans des bactéries (E. coli) ou des levures et prochainement dans des plantes

Page 17: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Les sites de restriction forment des palindromes complémentaires

BamHI

GGATCC

CCTAGG

GGA TCC

Page 18: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Les sites de restriction forment des palindromes complémentaires

BamHI

GGATCC

CCTAGG

GGA TCC

complément inverse

GGA

Page 19: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Enzymes de restriction

• Les sites de restriction forment des palindromes complémentaires

• Les palindromes complémentaires sont de longueur paire

BamHI

GGATCC

CCTAGG

GGA TCC

complément inverse

GGA

Page 20: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Reconnaissance de sites de restriction

• Le problème revient à identifier tous les palindromes complémentaires maximaux (puisque les autres palindromes seront contenus à l'intérieur)

• Une sous-séquence s[i..j] d'une séquence s de longueur n est un palindrome complémentaire maximal si– s[i..j] est un palindrome complémentaire et– s[i-1] n'est pas complémentaire à s[j+1] OU si i = 1 et

j = n

Page 21: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Reconnaissance de sites de restriction

• Soit 2k, la longueur d'un palindrome, k est le rayon du palindrome

• Le centre du palindrome se situe entre les positions k et k+1 du palindrome

• Le nombre de centres possibles dans une séquence de taille n est égal à n-1 (équivalent au nombre total de palindromes maximaux possibles)

Page 22: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Reconnaissance de sites de restriction

• Tous les palindromes complémentaires maximaux peuvent être identifiés dans une séquence d'ADN en temps linéaire en utilisant un arbre des suffixes généralisé

Page 23: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Reconnaissance de sites de restriction

• Soit la séquence s et sr, la séquence complément inverse de s

• On construit un arbre des suffixes généralisé pour les séquences s et sr

• Prétraitement de l'arbre pour enregistrer les profondeurs de "strings" et pour trouver les lca en temps constant

Page 24: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Reconnaissance de sites de restriction

• Le rayon du palindrome complémentaire maximal centré entre s[i] et s[i+1] est donnée par la longueur du plus long préfixe entre suff i+1 de s et suffn-i+1 de sr

• Ceci équivaut à la longueur de string du nœud lca((s, i+1), (sr, n-i+1)), qui peut être calculée en temps constant grâce au prétraitement

Page 25: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Reconnaissance de sites de restriction

• Tous les palindromes complémentaires maximaux sont identifiés en temps linéaire en regardant tous les centres possibles

Page 26: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Reconnaissance de sites de restriction• s = TAGAGCTCA, sr = TGAGCTCTA

S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

Page 27: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Reconnaissance de sites de restriction• s = TAGAGCTCA, sr = TGAGCTCTA• Pour i = 5, lca((s, 6), (sr, 5)) = v

S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

Page 28: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Reconnaissance de sites de restriction• s = TAGAGCTCA, sr = TGAGCTCTA• Pour i = 5, lca((s, 6), (sr, 5)) = v

S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

Page 29: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Alignement de génomes complets

• Aligner des séquences complètes de génomes est intéressant pour identifier les régions conservées entre différentes espèces

• Étant donné que les séquences complètes sont très grandes, des algorithmes efficaces doivent exister pour réaliser un alignement global rapidement

Page 30: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Alignement de génomes complets

• Le logiciel MUMmer utilise une approche basée sur les arbres des suffixes pour aligner des génomes complets

• MUMmer identifie d'abord les MUMs (maximal unique matches)

Page 31: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Alignement de génomes complets

• Un MUM entre deux séquences s1 et s2 est une paire de sous-séquences sans mismatch s1[i..i+k] = s2[i'..i'+k] qui ne peut pas être allongée dans aucune direction

• De plus, chaque MUM doit être unique, c'est-à-dire qu'il doit se retrouver une seule fois dans s1 et dans s2

Page 32: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Alignement de génomes complets

• L'idée est qu'un long MUM fait probablement partie de l'alignement optimal des deux séquences

• Étapes de MUMmer :1) Identification de tous les MUMs

2) Identification des plus longues séquences de MUMs qui se retrouvent dans le même ordre dans les deux séquences

3) Alignement des régions entre ces MUMs

Page 33: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Alignement de génomes complets

• Un arbre des suffixes généralisé contenant les deux séquences complètes est utilisé pour identifier les MUMs

Page 34: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Alignement de génomes complets

• Lcp(suffi1, suffi'

2) est un MUM s'il est unique dans les deux séquences et que s1[i-1] != s2[i'-1]

• Soit v, le nœud interne dont le chemin correspond à Lcp(suffi

1, suffi'2)

• Le MUM est unique si v ne possède que 2 fils (un dans chaque séquence)

• Tous les nœuds internes correspondant à des MUMs sont identifiés par un parcours de l'arbre

Page 35: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Alignement de génomes complets

• s1 = GATCG$1 et s2 = CTTCG$2

S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)

Page 36: IFT3295 Démonstration 16 novembre 2011 Arbres des suffixes.

Alignement de génomes complets

• s1 = GATCG$1 et s2 = CTTCG$2

S. Aluru. Handbook of Computational Molecular Biology. Chapman & Hall/CRC (2006)