Com
paraison et alignement
de séquences
Sophie Pasek
sophie.pasek@upm
c.fr
LV348 -BI
Comm
ent comparer
deux séquences ?
Le Dot-Plot
Tableau indexé par les caractères des deux séquences
Identité : N
on Identité:
Maizel et L
enk 1981 – S
taden
1982
Les similarités (ressem
blances locales) apparaissent le longdes segm
ents diagonaux
TAT
ACT
Le Dot-Plot (en pratique ...)
Beaucoup de « bruit »
U
tiliser une fenêtre pour « lisser »
Choisir un seuil au dessus duquel la sim
ilarité dans la fenêtre génère un point
=> Trouver un équilibre en faisant varier la taille de la fenêtre et le seuil
GA
TC
TA
CG
*T
**
T*
*C
**
T*
*G
*C
**
A*
*Sans fenêtre
Le Dot-Plot (en pratique ...)
GA
TC
TA
CGTT
*C
*TGCA
Fenêtre de taille 2
Le Dot-Plot (en pratique ...)
GA
TC
TA
CGTT
*CTGCA
Fenêtre de taille 3
Le Dot-Plot (en pratique ...)
GA
TC
TA
CG
*T
*T
*C
*T
*GCA
Fenêtre de taille 3,
Seuil identité >= 2/3
Le Dot-Plot (en pratique ...)
Le Dot-Plot (en pratique ...)
A
utre critère de « bruit » = nature des séquences.
A
DN
4 lettres => beaucoup de bruit.
Protéines 20 aa => moins de bruit.
En protéines, m
utations silencieuses non visibles ne « bruitent » pas l’alignem
ent.
Le Dot-Plot : exem
ple
Diagonale = 2 séquences
« identiques » Pavés som
bres = répétitions
AD
N ?
Le Dot-Plot : exem
ple
Orientation différente =
une inversion.
Moins de point si
protéique, et/ou si fenêtre plus grande et seuil plus haut.
Pas d'inversion en protéines
Avantages et inconvénients du D
ot-Plot
Sim
ple et rapide, graphique mais ...
L’interprétation visuelle rend im
possible l’utilisation du D
ot-Plot dans le cadre d’une « com
paraison massive »
i.e., une séquence protéique versus la banque U
niProtKB qui contient environ 21 m
illions de protéines (02-Avril-
12)
Alignem
ent de séquences 2 à 2
(nucléotides ou acides am
inés)
Alignem
ent
Mise en correspondance de deux séquences
(AD
N ou protéines) pour faire apparaître
les similarités, i.e., segm
ents comm
uns
AAAATT
TTTTGGCCT
TTAA et AAA
AGCCCAA
AAAATT
TTTTGGCCT
TTAA
AAAAGC
CCAA
AAAATT
TTTTGGCCT
TTAA
AAAA
GCCC
AA
Alignem
ent
Mise en correspondance de deux séquences
(AD
N ou protéines) pour faire apparaître
les similarités, i.e., segm
ents comm
uns
AAAATT
TTTTGGCCT
TTAA et AAA
AGCCCAA
AAAATT
TTTTGGCCT
TTAA
AAAAGC
CCAA
AAAATT
TTTTGGCCT
TTAA
AAAA
GCCC
AA
Alignem
ent
M
ise en correspondance de deux séquences (A
DN
ou protéines)
ACGGCTAT|| | |||ACTG-TAT
ACGGCTAT
ACTGTAT
ACGG
CTAT
|| |
ACTG
TAT-
3 événem
ents élémentaires :
Correspondance (m
atch)
Substitution (mism
atch)
Indel (Insertion/Délétion)
Alignem
ent
Le score de l’alignement est la som
me des
scores des événements élém
entaires
Chaque alignem
ent a 1 Score
Il dépend des « pénalités » fixées pour les événem
ents élémentaires
Par exem
ple :
Correspondance/Match : +2
Substitution/M
ismatch : -1
Indel : -2
Alignem
ent
A
lignement des deux séquences
nucléiques ACGGCTAT et A
CTGTAT
Correspondance: +2, Substitution: -1, Indel: -2
ACGGCTA
T|| |
|||
ACTG-TA
T
ACGGCTA
T|| |ACTG
TAT-
Score = 2+2-1+2-1-1-1-2 = 0
Score = 2+2-1+2-2+2+2+2 = 9
Alignem
ent Global
But : Evaluation d’une ressem
blance globale entre deux séquences = sur toute la longueur
Problèm
e :
Quel est l’alignem
ent de score maxim
al ?
Need
leman
& W
un
sch - 1970
Algorithm
e de « programm
ation dynam
ique »
2 séq A = (a1,...,an) et B(b1,...,bm
) Si,j = score m
aximum
entre 2 séquences alignées du début jusqu'aux résidus ai et bj tel que :
Si-1,j-1+w(ai,bj) Si,j = m
ax Si-1,j+g Si,j-1+g
Récurrence
T A T G T C AT
AT
CG
GC
A
a b
c ?
? = MA
X a + Subs. ou Corresp.
b + Indelc + Indel
Exem
ple
AC
GG
CT
AT
ACTGTAT
Exem
ple : Initialisation
T A T G
-14-12-10 -8 -6
T-4
C-2
A-16
-14-12
-10-8
-6-4
-20
TA
TC
GG
CA
Indel = -2Indel = -2
Exem
ple : Rem
plissage ligne par ligne
-14T
-12A
-10T
-8G
-6T
-4C
-12-10
-8-6
-4-2
02
-2A
-16-14
-12-10
-8-6
-4-2
TA
TC
GG
CA
max [
]0+2 = 2
0
Correspondance=2 ou substitution=-1
-2-2= -4
Indel=-2
-2-2= -4
Indel=-2
Exem
ple : Rem
plissage ligne par ligne95
40
-1-2
-6-10
-14T
57
32
10
-4-8
-12A
13
54
32
-2-6
-10T
-3-1
13
54
0-4
-8G
-4-2
0-1
13
2-2
-6T
-8-6
-4-2
02
40
-4C
-12-10
-8-6
-4-2
02
-2A
-16-14
-12-10
-8-6
-4-2
0T
AT
CG
GC
A
Correspondance=2 ou substitution=-1
Indel=-2Indel=-2
Exem
ple : Recherche du chem
in des scores m
aximaux
AC
GG
CT
AT
0-2
-4-6
-8-10
-12-14
-16A
-22
0-2
-4-6
-8-10
-12C
-40
42
0-2
-4-6
-8T
-6-2
23
1-1
0-2
-4G
-8-4
04
53
1-1
-3T
-10-6
-22
34
53
1A
-12-8
-40
12
37
5T
-14-10
-6-2
-10
45
9
ACGGCTAT|| | |||ACTG-TAT
Correspondance=2 ou substitution=-1
Indel=-2Indel=-2
Sensibilité aux paramètres
ACGGC
T-ATC
|| |
| ||
ACTG-
TAATG
Correspondance : +2
Substitution : -1
Indel : -1
ACGGC
TATC
|| |
||
ACTGT
AATG
Correspondance : +1
Substitution : -1
Indel : -2
L’alignement optim
al dépend de :• la m
atrice de similarité
• des pénalités pour les indels, etc.
Am
élioration du modèle : les gaps
Gap : succession d’indels
Pénalités :
Pénalité fixe (exemple -5)
Pénalité linéaire :
Pénalité d’ouverture de gap (exemple -5)
Pénalité d’extension de gap (exem
ple -0.5)
RDISLV---KNAGI| | || || ||RNI-LVSDAKNVGI
Score = 5+1+4-5+4+4-5-0.5-0.5+5+6+0+6+4 = 28
Score = 5+1+4-5+4+4-5-5-5+5+6+0+6+4 = 19
Am
élioration du modèle : les gaps
Si les séquences ont des tailles très différentes ?O
n peut décider de ne pas pénaliser les gaps aux extrém
ités de la plus grande séquence :
A
lgorithme « End Gap Free » ou
« Bestfit »
NW
S en live ...
➢python
➢im
port aligne➢
import alignem
ent➢
alignement.N
WS("A
TCG","CATG")
➢alignem
ent.EGF("AA
AA
TCGTTGG","CATG")
Algorithm
e global « End G
ap Free » ou « B
estfit »
Reprend NW
S sans pénaliser les gaps aux extrém
ités de la plus grande des 2 séquences
...
Alignem
ent Local
Problèm
e :
Q
uelles sont les régions de forte similarité
entre les 2 séquences ?
Alignem
ent Local
Deux séquences :
GGCT
GAC
CACC
TT e
t GATCACTTCCATG
A
lignement global :
A
lignement local :
1 GG
CTGACCACC-TT 13 | | || || |
1 GA
-TCACTTCCATG 13
5 GA
CCACCTT 13 || ||| ||
1 GA
TCAC-TT 8
Corresp.: 2, Substi.: -1, Indel: -2
Score = 5
Score = 11
Alignem
ent Local: Smith &
Waterm
an
L ’algorithm
e d’alignement local de Sm
ith & W
aterman (1981) est basé sur l’algorithm
e introduit par N
eedleman & W
unsch
Score max ou rem
ise à zéro
Traceback à partir du meilleur score dans
toute la matrice
AC
GG
CT
AT
00
00
00
00
0A
02
00
00
02
1G
00
12
20
00
1C
00
20
14
20
0T
00
01
02
64
2T
00
00
00
45
6T
00
00
00
23
7C
00
20
02
01
5
max [
]Local : R
emplissage ligne par ligne
0+2 = 20-2= -2
0-2= -20
M=2
MM
=-1
Indel=-2
Indel=-2
AC
GG
CT
AT
00
00
00
00
0A
02
00
00
02
1G
00
12
20
00
1C
00
20
14
20
0T
00
01
02
64
2T
00
00
00
45
6T
00
00
00
23
7C
00
20
02
01
5
max [
]Local : R
emontée
0+2 = 2-2-2= -4
-2-2= -40
M=2
MM
=-1
Indel=-2
Indel=-2
Score = 2+2+2-1+2=7
Score alignem
ent = Σ scores événem
ents élém
entaires (Match, M
ismatch, Indel)
A
mélioration du m
odèle : pénalité linéaire des gaps (gap open et gap extend)
A
mélioration du m
odèle : les matrices de
substitution (= Mism
atch) => toutes les substitutions ne sont pas équivalentes et donc pénalisées différem
ment
Score d'un alignement
Les matrices de substitution des acides
nucléiques
A
lphabet à 4 lettres : A,C,G,T
M
atrice identité => pas d'am
élioration du modèle,
non adapté à l'évolution des séq nucléiques
M
atrice transition/transvertion => pénalise davantage les transversions (purines <=> pyrim
idines)que les transitions (pur <=> pur, pyr <=> pyr)
AC
GT
A1
00
0C
01
00
G0
01
0T
00
01
AC
GT
A3
01
0C
03
01
G1
03
0T
01
03
Les matrices de substitution des acides
aminés
A
u cours de l’évolution:
Des acides am
inés sont remplacés
« préférentiellement » par d’autres
Ils possèdent par exem
ple des propriétés physico-chim
iques proches
Des acides am
inés sont plus conservés que d’autres
Ils sont par exem
ple essentiels dans la structure 3D des
protéines (comm
e Tryptophane/W/Trp)
Les matrices de substitution des acides
aminés
M
atrices basées sur les propriétés physico-chim
ique des aam
atrices d'hydrophobicitém
atrices des structures secondairesm
atrices basées sur comparaisons de protéines paratgeant la m
ême
structure 3-D
M
atrices basées sur les substitutions entre aa au cours de l'évolution
Les « log odds » : Sij = log [ qij / (pi.pj) ] qij = fréquence de la substitution i vers j pi = probabilité norm
alisée d’apparition du résidu i pi . pj = probabilité que les résidus i et j soient alignés par hasard
Les matrices de substitution des acides
aminés
M
atrices basées sur les substitutions entre aa au cours de l'évolution
Les « log odds » : Sij = log [ qij / (pi.pj) ] qij = fréquence de la substitution i vers j pi = probabilité norm
alisée d’apparition du résidu i pi . pj = probabilité que les résidus i et j soient alignés par hasard
Pénalités des Substitutions :Sij > 0 <=> rem
placement considéré fréquent
Sij < 0 <=> remplacem
ent rare, peu probable entre protéines homologues
Les matrices de substitution des acides
aminés
M
atrices de Substitution construites à partir de l'observation des fréquences de substitution entre séquences « apparentées »
M
atrices PAM
= Point Accepted M
utation(D
ayhoff 1979)
M
atrices BLOSU
M = BLO
cks SUbstitution M
atrix (H
enikoff & Henikoff 1992)
Les matrices B
LOSU
M
A
partir de Blocs = alignement m
ultiple local sans insertion-délétion pour une fam
ille de protéines
Calcul des scores Sij = log [ qij / (pi.pj) ]
• qij nombre de substitutions i <=> j / nom
bre total de paires• pi fréquence d’apparition du résidu i(=nom
bre d’apparition de i / nombre total de résidus)
• pj fréquence d’apparition de j
~2000 blocs, 500 familles de protéines
Les matrices B
LOSU
M
Regroupem
ent des séquences au sein de leur bloc– Regroupem
ent en fonction d’un seuil d’identité• Seuil = 80%
<=> BLOSU
M80
• Seuil = 60% <=> BLO
SUM
60
Calcul des scores par cluster => diminue la redondance liée
au nombre de paires identiques (sur-représentation de certaines
séquences par exemple)
BLO
SUM
62
RDISLV---
KNAGI| |
|| || ||
RNI-LVSDA
KNVGIScore = 5+1+4-5+4+4-5-5-5+5+6+0+6+4 = 19
A
lignement des deux séquences protéiques
RDISLVKN
AGI et RNIL
VSDAKNVG
I avec « BLO
SUM
62 »
Correspondance et Substitution: cf. BLOSU
M, Indel: -5
Les matrices PA
MBasées sur alignem
ent multiple global de séquences
très similaires (>85%
identité), mutations dites acceptées car ne
changent pas significativement la fonction de la protéine.
1) alignement de séquences (71 fam
illes de protéines (1300 séquences))2) Com
ptage des substitutions, comparaison paire par paire A
ij3) Calcul m
utabilité : mi= Σ
jAij /fi (pour chaque aa i, fi fréquence
d'apparition)4) Calcul des scores Rij=M
ij/fi avec Mij=m
iAij/Σ
iAij et N
ormalisation tq
ΣRij=1
=> matrices de m
utation MD
M (M
utation Data M
atrix)5) Extrapolation pour séquences plus éloignées N
DM
-n = (ND
M-1)^n
(1-PAM
= 1 mutation acceptée pour 100 résidus)
6) Transformation en m
atrice « log odds » : PAM
-n = log(ND
M-n)
Matrice PA
M
Extrapolation « 1->n » basée sur hypothèse forte que le « taux de m
utation » est constant et équiprobable sur toute la longueur des séquences
Biais d ‘échantillonnage :
1978 : ensemble des séquences pas représentatif
(1300 séquences, 71 familles)
1992 : réactualisation : 16 130 séquences, 2 621 fam
illes
Poin
t Accepted
Mu
tation
PAM
10A
7
R
-10 9
N
-7 -9
9
D
-6 -17
-1 8
C
-10 -11
-17 -21
10
Q
-7 -4
-7 -6
-20 9
E -5
-15 -5
0 -20
-1 8
G
-4 -13
-6 -6
-13 -10
-7 7
H
-11 -4
-2 -7
-10 -2
-9 -13
10
I -8
-8 -8
-11 -9
-11 -8
-17 -13
9
L -9
-12 -10
-19 -21
-8 -13
-14 -9
-4 7
K
-10 -2
-4 -8
-20 -6
-7 -10
-10 -9
-11 7
M
-8 -7
-15 -17
-20 -7
-10 -12
-17 -3
-2 -4
12
F -12
-12 -12
-21 -19
-19 -20
-12 -9
-5 -5
-20 -7
9
P -4
-7 -9
-12 -11
-6 -9
-10 -7
-12 -10
-10 -11
-13 8
S -3
-6 -2
-7 -6
-8 -7
-4 -9
-10 -12
-7 -8
-9 -4
7
T -3
-10 -5
-8 -11
-9 -9
-10 -11
-5 -10
-6 -7
-12 -7
-2 8
W
-20 -5
-11 -21
-22 -19
-23 -21
-10 -20
-9 -18
-19 -7
-20 -8
-19 13
Y
-11 -14
-7 -17
-7 -18
-11 -20
-6 -9
-10 -12
-17 -1
-20 -10
-9 -8
10
V
-5 -11
-12 -11
-9 -10
-10 -9
-9 -1
-5 -13
-4 -12
-9 -10
-6 -22
-10 8
A
R
N
D
C
Q
E
G
H
I L
K
M
F P
S T
W
Y
V
Matrices PA
M
Choix de la m
atrice N en fonction de l’évolution
supposée des séquences
Plus « N
» est élevé, plus la matrice est adaptée à la
comparaison de séquences divergentes
Si la divergence n’est pas connue (ce qui est généralem
ent le cas), faire plusieurs essais
Rque : N>100 si un résidu est m
uté plusieurs fois
Matrice B
LOSU
M
Choix de la m
atrice N en fonction du
pourcentage d’identité supposé des séquences
Plus « N
» est élevé, plus la matrice est adaptée à la
comparaison de séquences de forte identité
Si l’identité n’est pas connue (ce qui est généralem
ent le cas), faire plusieurs essais
Quelle m
atrice de score utiliser ?
« Faible divergence/Forte identité » :
PAM
40 ou BLOSU
M 80
« M
oyenne divergence/Moyenne identité »:
PA
M 120 ou BLO
SUM
62
« Forte divergence/Faible identité » :
PAM
250 ou BLOSU
M 45
Il n’y a pas de matrice parfaite !
Les algorithm
es (NW
S, SW) perm
ettent de trouver l'alignem
ent de score optimal
M
ais un alignement de score x est-il
pertinent ?
Le score augmente avec la taille de
l'alignement (favorise les longs
alignements)
=> Nécessité d'évaluer l'alignem
ent
Significativité du score d'alignement
%
identité 2 protéines de plus de 100 aa possédant plus de 25%
d'identité entre elles <=> ancêtre com
mun
2 séquences nucléiques de plus de 100 bases et identiques à 50% <=> pas de relation biologique systém
atique Pb taille alignem
ent
Zscore (Statistique de M
onte-Carlo)=> indépendant de la taille de l'alignem
ent
Significativité du score d'alignement
%
identité2 protéines de plus de 100 aa possédant plus de 25%
d'identité entre elles <=> ancêtre com
mun
2 séquences nucléiques de plus de 100 bases et identiques à 50% <=>
pas de relation biologiquesystém
atiquePb taille alignem
ent
Zscore (Statistique de M
onte-Carlo)=> indépendant de la taille de l'alignem
ent
Significativité du score d'alignement
Statistique de Monte-Carlo : 2 séq A
et B
1) « Shuffle » = Mélange de la séq B (en conservant sa
composition)
2) calcul des scores puis moyenne et écart-type pour tous les
couples séq A / séq issues du shuffle de B
3) Zscore = (score – moyenne)/écart-type, pour chaque
alignement
Le score « authentique » est significativement plus grand que
le score moyen (14 fois l’écart type) => significativité de
l'alignement (Zscore >= 14)
Significativité du score d'alignement
Statistique de Monte-Carlo , inconvénient :
Basée sur une distribution des scores aléatoires suivant une loi norm
ale (pas forcément vérifié) => pb significativité
seuil
M
éthode coûteuse en temps de calcul (m
inimum
100 scores par distribution)
Significativité du score d'alignement
Similarité : V
aut-il mieux com
parer A
DN
ou protéines ?A
vantage des protéines : Séquences A
DN
, alphabet de 4 lettres => ¼ chances d'avoir les deux m
êmes lettres alignées par hasard,
Protéines 20 acides aminés, il y a m
oins de chance que 2 acides aminés
soient alignés par hasard. M
atrices de substitution des aa pour l’alignement des séquences
protéines permettent de prendre en com
pte des ressemblances plus
lointaines que les matrices pour l’A
DN
qui sont forcément sim
ples. M
utations silencieuses ne sont pas visibles en aa et ne « bruitent » pas l’alignem
ent
Avantage A
DN :
Si elles sont très proches ou si on cherche des informations spécifiques
(répétitions dans l’AD
N…).
Exposition du problèm
e
Le fait: je viens de séquencer un génome et
d ’identifier ses ORF (gènes potentiels)
La question: existe-t-il des gènes annotés stockés dans les banques qui ressem
blent (entièrement ou en
partie) à «mes» O
RF ?
J’espère que les annotations dans les banques m
e donneront des indications sur « mes »
gènes
H
ypothèse: je suppose que les gènes qui se ressem
blent partagent des « propriétés comm
unes » (e.g., fonction(s) proche(s))
Exposition du problèm
e
Pourquoi les gènes de différents organism
es se ressemblent-ils ?
H
omologie
Convergence
Transfert horizontal
Exposition du problèm
e
Hom
ologie
Les gènes sont transm
is à la descendance lors des spéciations (gènes orthologues)
Les gènes se dupliquent au sein d’un m
ême
génome (gènes paralogues)
Les orthologues et les paralogues sont des gènes apparentés (i.e., ils dérivent d’un ancêtre com
mun)
D
es gènes apparentés sont dits homologues
O
RTHOLOGIE
Gène et Hom
ologieExem
ple orthologues
ORTHOLOGIE
Exposition du problèm
e
Hom
ologie
Les gènes sont transm
is à la descendance lors des spéciations (gènes orthologues)
Les gènes se dupliquent au sein d’un m
ême
génome (gènes paralogues)
Les orthologues et les paralogues sont des gènes apparentés (i.e., ils dérivent d’un ancêtre com
mun)
D
es gènes apparentés sont dits homologues
O
RTHOLOGIE
Gène et Hom
ologieExem
ple paralogues
ORTHOLOGIE
PARALOGIE
Gène et Hom
ologie D
ivergence + Fluidité ORTH
OLO
GUES ?
PARA
LOGU
ES ?
Exposition du problèm
e
Convergence
D
es gènes non apparentés finissent par se ressem
bler du fait d’une « convergence évolutive »
M
ême si elle est avérée, la convergence est un
considérée comm
e un phénomène
« minoritaire » par rapport aux cas précédents
(orthologues, paralogues)
De fait, quand des gènes se ressem
blent, on suppose généralem
ent qu’ils sont homologues
(i.e., ils dérivent d’un ancêtre comm
un)
Taupe (vertébré)Grillon-taupe (invertébré)
Convergence morphologique au niveau des pattes (form
e de pelle)du fait d’une fonction identique (creuser)
Exposition du « problèm
e »
Transfert horizontal
3 m
odes de transferts:
Conjugaison
Transformation
Transduction
Phénom
ène majeur chez les bactéries
Gène et Transfert horizontal
Tout dépend de ce qu'on cherche :
Si but = annotation fonctionnelle, la sim
ilarité est un bon critère
Si but = trouver histoire évolutive, la sim
alarité seule ne permet pas de
conclure
Conclusion
Top Related