Download - .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Com

paraison et alignement

de séquences

Sophie Pasek

sophie.pasek@upm

c.fr

LV348 -BI

Comm

ent comparer

deux séquences ?

Le Dot-Plot

Tableau indexé par les caractères des deux séquences

Identité : N

on Identité:

Maizel et L

enk 1981 – S

taden

1982

Les similarités (ressem

blances locales) apparaissent le longdes segm

ents diagonaux

TAT

ACT

Le Dot-Plot (en pratique ...)

Beaucoup de « bruit »

U

tiliser une fenêtre pour « lisser »

Choisir un seuil au dessus duquel la sim

ilarité dans la fenêtre génère un point

=> Trouver un équilibre en faisant varier la taille de la fenêtre et le seuil

GA

TC

TA

CG

*T

**

T*

*C

**

T*

*G

*C

**

A*

*Sans fenêtre


GA

TC

TA

CGTT

*C

*TGCA

Fenêtre de taille 2


GA

TC

TA

CGTT

*CTGCA

Fenêtre de taille 3


GA

TC

TA

CG

*T

*T

*C

*T

*GCA

Fenêtre de taille 3,

Seuil identité >= 2/3



A

utre critère de « bruit » = nature des séquences.

A

DN

4 lettres => beaucoup de bruit.

Protéines 20 aa => moins de bruit.

En protéines, m

utations silencieuses non visibles ne « bruitent » pas l’alignem

ent.

Le Dot-Plot : exem

ple

Diagonale = 2 séquences

« identiques » Pavés som

bres = répétitions

AD

N ?

Le Dot-Plot : exem

ple

Orientation différente =

une inversion.

Moins de point si

protéique, et/ou si fenêtre plus grande et seuil plus haut.

Pas d'inversion en protéines

Avantages et inconvénients du D

ot-Plot

Sim

ple et rapide, graphique mais ...

L’interprétation visuelle rend im

possible l’utilisation du D

ot-Plot dans le cadre d’une « com

paraison massive »

i.e., une séquence protéique versus la banque U

niProtKB qui contient environ 21 m

illions de protéines (02-Avril-

12)

Alignem

ent de séquences 2 à 2

(nucléotides ou acides am

inés)

Alignem

ent

Mise en correspondance de deux séquences

(AD

N ou protéines) pour faire apparaître

les similarités, i.e., segm

ents comm

uns

AAAATT

TTTTGGCCT

TTAA et AAA

AGCCCAA

AAAATT

TTTTGGCCT

TTAA

AAAAGC

CCAA

AAAATT

TTTTGGCCT

TTAA

AAAA

GCCC

AA

Alignem

ent

M

ise en correspondance de deux séquences (A

DN

ou protéines)

ACGGCTAT|| | |||ACTG-TAT

ACGGCTAT

ACTGTAT

ACGG

CTAT

|| |

ACTG

TAT-

3 événem

ents élémentaires :

Correspondance (m

atch)

Substitution (mism

atch)

Indel (Insertion/Délétion)

Alignem

ent

Le score de l’alignement est la som

me des

scores des événements élém

entaires

Chaque alignem

ent a 1 Score

Il dépend des « pénalités » fixées pour les événem

ents élémentaires

Par exem

ple :

Correspondance/Match : +2

Substitution/M

ismatch : -1

Indel : -2

Alignem

ent

A

lignement des deux séquences

nucléiques ACGGCTAT et A

CTGTAT

Correspondance: +2, Substitution: -1, Indel: -2

ACGGCTA

T|| |

|||

ACTG-TA

T

ACGGCTA

T|| |ACTG

TAT-

Score = 2+2-1+2-1-1-1-2 = 0

Score = 2+2-1+2-2+2+2+2 = 9

Alignem

ent Global

But : Evaluation d’une ressem

blance globale entre deux séquences = sur toute la longueur

Problèm

e :

Quel est l’alignem

ent de score maxim

al ?

Need

leman

& W

un

sch - 1970

Algorithm

e de « programm

ation dynam

ique »

2 séq A = (a1,...,an) et B(b1,...,bm

) Si,j = score m

aximum

entre 2 séquences alignées du début jusqu'aux résidus ai et bj tel que :

Si-1,j-1+w(ai,bj) Si,j = m

ax Si-1,j+g Si,j-1+g

Récurrence

T A T G T C AT

AT

CG

GC

A

a b

c ?

? = MA

X a + Subs. ou Corresp.

b + Indelc + Indel

Exem

ple

AC

GG

CT

AT

ACTGTAT

Exem

ple : Initialisation

T A T G

-14-12-10 -8 -6

T-4

C-2

A-16

-14-12

-10-8

-6-4

-20

TA

TC

GG

CA

Indel = -2Indel = -2

Exem

ple : Rem

plissage ligne par ligne

-14T

-12A

-10T

-8G

-6T

-4C

-12-10

-8-6

-4-2

02

-2A

-16-14

-12-10

-8-6

-4-2

TA

TC

GG

CA

max [

]0+2 = 2

0

Correspondance=2 ou substitution=-1

-2-2= -4

Indel=-2

-2-2= -4

Indel=-2

Exem

ple : Rem

plissage ligne par ligne95

40

-1-2

-6-10

-14T

57

32

10

-4-8

-12A

13

54

32

-2-6

-10T

-3-1

13

54

0-4

-8G

-4-2

0-1

13

2-2

-6T

-8-6

-4-2

02

40

-4C

-12-10

-8-6

-4-2

02

-2A

-16-14

-12-10

-8-6

-4-2

0T

AT

CG

GC

A


Indel=-2Indel=-2

Exem

ple : Recherche du chem

in des scores m

aximaux

AC

GG

CT

AT

0-2

-4-6

-8-10

-12-14

-16A

-22

0-2

-4-6

-8-10

-12C

-40

42

0-2

-4-6

-8T

-6-2

23

1-1

0-2

-4G

-8-4

04

53

1-1

-3T

-10-6

-22

34

53

1A

-12-8

-40

12

37

5T

-14-10

-6-2

-10

45

9

ACGGCTAT|| | |||ACTG-TAT


Indel=-2Indel=-2

Sensibilité aux paramètres

ACGGC

T-ATC

|| |

| ||

ACTG-

TAATG

Correspondance : +2

Substitution : -1

Indel : -1

ACGGC

TATC

|| |

||

ACTGT

AATG

Correspondance : +1

Substitution : -1

Indel : -2

L’alignement optim

al dépend de :• la m

atrice de similarité

• des pénalités pour les indels, etc.

Am

élioration du modèle : les gaps

Gap : succession d’indels

Pénalités :

Pénalité fixe (exemple -5)

Pénalité linéaire :

Pénalité d’ouverture de gap (exemple -5)

Pénalité d’extension de gap (exem

ple -0.5)

RDISLV---KNAGI| | || || ||RNI-LVSDAKNVGI

Score = 5+1+4-5+4+4-5-0.5-0.5+5+6+0+6+4 = 28

Score = 5+1+4-5+4+4-5-5-5+5+6+0+6+4 = 19

Am

élioration du modèle : les gaps

Si les séquences ont des tailles très différentes ?O

n peut décider de ne pas pénaliser les gaps aux extrém

ités de la plus grande séquence :

A

lgorithme « End Gap Free » ou

« Bestfit »

NW

S en live ...

➢python

➢im

port aligne➢

import alignem

ent➢

alignement.N

WS("A

TCG","CATG")

➢alignem

ent.EGF("AA

AA

TCGTTGG","CATG")

Algorithm

e global « End G

ap Free » ou « B

estfit »

Reprend NW

S sans pénaliser les gaps aux extrém

ités de la plus grande des 2 séquences

...

Alignem

ent Local

Problèm

e :

Q

uelles sont les régions de forte similarité

entre les 2 séquences ?

Alignem

ent Local

Deux séquences :

GGCT

GAC

CACC

TT e

t GATCACTTCCATG

A

lignement global :

A

lignement local :

1 GG

CTGACCACC-TT 13 | | || || |

1 GA

-TCACTTCCATG 13

5 GA

CCACCTT 13 || ||| ||

1 GA

TCAC-TT 8

Corresp.: 2, Substi.: -1, Indel: -2

Score = 5

Score = 11

Alignem

ent Local: Smith &

Waterm

an

L ’algorithm

e d’alignement local de Sm

ith & W

aterman (1981) est basé sur l’algorithm

e introduit par N

eedleman & W

unsch

Score max ou rem

ise à zéro

Traceback à partir du meilleur score dans

toute la matrice

AC

GG

CT

AT

00

00

00

00

0A

02

00

00

02

1G

00

12

20

00

1C

00

20

14

20

0T

00

01

02

64

2T

00

00

00

45

6T

00

00

00

23

7C

00

20

02

01

5

max [

]Local : R

emplissage ligne par ligne

0+2 = 20-2= -2

0-2= -20

M=2

MM

=-1

Indel=-2

Indel=-2

AC

GG

CT

AT

00

00

00

00

0A

02

00

00

02

1G

00

12

20

00

1C

00

20

14

20

0T

00

01

02

64

2T

00

00

00

45

6T

00

00

00

23

7C

00

20

02

01

5

max [

]Local : R

emontée

0+2 = 2-2-2= -4

-2-2= -40

M=2

MM

=-1

Indel=-2

Indel=-2

Score = 2+2+2-1+2=7

Score alignem

ent = Σ scores événem

ents élém

entaires (Match, M

ismatch, Indel)

A

mélioration du m

odèle : pénalité linéaire des gaps (gap open et gap extend)

A

mélioration du m

odèle : les matrices de

substitution (= Mism

atch) => toutes les substitutions ne sont pas équivalentes et donc pénalisées différem

ment

Score d'un alignement

Les matrices de substitution des acides

nucléiques

A

lphabet à 4 lettres : A,C,G,T

M

atrice identité => pas d'am

élioration du modèle,

non adapté à l'évolution des séq nucléiques

M

atrice transition/transvertion => pénalise davantage les transversions (purines <=> pyrim

idines)que les transitions (pur <=> pur, pyr <=> pyr)

AC

GT

A1

00

0C

01

00

G0

01

0T

00

01

AC

GT

A3

01

0C

03

01

G1

03

0T

01

03


aminés

A

u cours de l’évolution:

Des acides am

inés sont remplacés

« préférentiellement » par d’autres

Ils possèdent par exem

ple des propriétés physico-chim

iques proches

Des acides am

inés sont plus conservés que d’autres

Ils sont par exem

ple essentiels dans la structure 3D des

protéines (comm

e Tryptophane/W/Trp)


aminés

M

atrices basées sur les propriétés physico-chim

ique des aam

atrices d'hydrophobicitém

atrices des structures secondairesm

atrices basées sur comparaisons de protéines paratgeant la m

ême

structure 3-D

M

atrices basées sur les substitutions entre aa au cours de l'évolution

Les « log odds » : Sij = log [ qij / (pi.pj) ] qij = fréquence de la substitution i vers j pi = probabilité norm

alisée d’apparition du résidu i pi . pj = probabilité que les résidus i et j soient alignés par hasard


aminés

M

atrices basées sur les substitutions entre aa au cours de l'évolution

Les « log odds » : Sij = log [ qij / (pi.pj) ] qij = fréquence de la substitution i vers j pi = probabilité norm

alisée d’apparition du résidu i pi . pj = probabilité que les résidus i et j soient alignés par hasard

Pénalités des Substitutions :Sij > 0 <=> rem

placement considéré fréquent

Sij < 0 <=> remplacem

ent rare, peu probable entre protéines homologues


aminés

M

atrices de Substitution construites à partir de l'observation des fréquences de substitution entre séquences « apparentées »

M

atrices PAM

= Point Accepted M

utation(D

ayhoff 1979)

M

atrices BLOSU

M = BLO

cks SUbstitution M

atrix (H

enikoff & Henikoff 1992)

Les matrices B

LOSU

M

A

partir de Blocs = alignement m

ultiple local sans insertion-délétion pour une fam

ille de protéines

Calcul des scores Sij = log [ qij / (pi.pj) ]

• qij nombre de substitutions i <=> j / nom

bre total de paires• pi fréquence d’apparition du résidu i(=nom

bre d’apparition de i / nombre total de résidus)

• pj fréquence d’apparition de j

~2000 blocs, 500 familles de protéines

Les matrices B

LOSU

M

Regroupem

ent des séquences au sein de leur bloc– Regroupem

ent en fonction d’un seuil d’identité• Seuil = 80%

<=> BLOSU

M80

• Seuil = 60% <=> BLO

SUM

60

Calcul des scores par cluster => diminue la redondance liée

au nombre de paires identiques (sur-représentation de certaines

séquences par exemple)

BLO

SUM

62

RDISLV---

KNAGI| |

|| || ||

RNI-LVSDA

KNVGIScore = 5+1+4-5+4+4-5-5-5+5+6+0+6+4 = 19

A

lignement des deux séquences protéiques

RDISLVKN

AGI et RNIL

VSDAKNVG

I avec « BLO

SUM

62 »

Correspondance et Substitution: cf. BLOSU

M, Indel: -5

Les matrices PA

MBasées sur alignem

ent multiple global de séquences

très similaires (>85%

identité), mutations dites acceptées car ne

changent pas significativement la fonction de la protéine.

1) alignement de séquences (71 fam

illes de protéines (1300 séquences))2) Com

ptage des substitutions, comparaison paire par paire A

ij3) Calcul m

utabilité : mi= Σ

jAij /fi (pour chaque aa i, fi fréquence

d'apparition)4) Calcul des scores Rij=M

ij/fi avec Mij=m

iAij/Σ

iAij et N

ormalisation tq

ΣRij=1

=> matrices de m

utation MD

M (M

utation Data M

atrix)5) Extrapolation pour séquences plus éloignées N

DM

-n = (ND

M-1)^n

(1-PAM

= 1 mutation acceptée pour 100 résidus)

6) Transformation en m

atrice « log odds » : PAM

-n = log(ND

M-n)

Matrice PA

M

Extrapolation « 1->n » basée sur hypothèse forte que le « taux de m

utation » est constant et équiprobable sur toute la longueur des séquences

Biais d ‘échantillonnage :

1978 : ensemble des séquences pas représentatif

(1300 séquences, 71 familles)

1992 : réactualisation : 16 130 séquences, 2 621 fam

illes

Poin

t Accepted

Mu

tation

PAM

10A

7

R

-10 9

N

-7 -9

9

D

-6 -17

-1 8

C

-10 -11

-17 -21

10

Q

-7 -4

-7 -6

-20 9

E -5

-15 -5

0 -20

-1 8

G

-4 -13

-6 -6

-13 -10

-7 7

H

-11 -4

-2 -7

-10 -2

-9 -13

10

I -8

-8 -8

-11 -9

-11 -8

-17 -13

9

L -9

-12 -10

-19 -21

-8 -13

-14 -9

-4 7

K

-10 -2

-4 -8

-20 -6

-7 -10

-10 -9

-11 7

M

-8 -7

-15 -17

-20 -7

-10 -12

-17 -3

-2 -4

12

F -12

-12 -12

-21 -19

-19 -20

-12 -9

-5 -5

-20 -7

9

P -4

-7 -9

-12 -11

-6 -9

-10 -7

-12 -10

-10 -11

-13 8

S -3

-6 -2

-7 -6

-8 -7

-4 -9

-10 -12

-7 -8

-9 -4

7

T -3

-10 -5

-8 -11

-9 -9

-10 -11

-5 -10

-6 -7

-12 -7

-2 8

W

-20 -5

-11 -21

-22 -19

-23 -21

-10 -20

-9 -18

-19 -7

-20 -8

-19 13

Y

-11 -14

-7 -17

-7 -18

-11 -20

-6 -9

-10 -12

-17 -1

-20 -10

-9 -8

10

V

-5 -11

-12 -11

-9 -10

-10 -9

-9 -1

-5 -13

-4 -12

-9 -10

-6 -22

-10 8

A

R

N

D

C

Q

E

G

H

I L

K

M

F P

S T

W

Y

V

Matrices PA

M

Choix de la m

atrice N en fonction de l’évolution

supposée des séquences

Plus « N

» est élevé, plus la matrice est adaptée à la

comparaison de séquences divergentes

Si la divergence n’est pas connue (ce qui est généralem

ent le cas), faire plusieurs essais

Rque : N>100 si un résidu est m

uté plusieurs fois

Matrice B

LOSU

M

Choix de la m

atrice N en fonction du

pourcentage d’identité supposé des séquences

Plus « N

» est élevé, plus la matrice est adaptée à la

comparaison de séquences de forte identité

Si l’identité n’est pas connue (ce qui est généralem

ent le cas), faire plusieurs essais

Quelle m

atrice de score utiliser ?

« Faible divergence/Forte identité » :

PAM

40 ou BLOSU

M 80

« M

oyenne divergence/Moyenne identité »:

PA

M 120 ou BLO

SUM

62

« Forte divergence/Faible identité » :

PAM

250 ou BLOSU

M 45

Il n’y a pas de matrice parfaite !

Les algorithm

es (NW

S, SW) perm

ettent de trouver l'alignem

ent de score optimal

M

ais un alignement de score x est-il

pertinent ?

Le score augmente avec la taille de

l'alignement (favorise les longs

alignements)

=> Nécessité d'évaluer l'alignem

ent

Significativité du score d'alignement

%

identité 2 protéines de plus de 100 aa possédant plus de 25%

d'identité entre elles <=> ancêtre com

mun

2 séquences nucléiques de plus de 100 bases et identiques à 50% <=> pas de relation biologique systém

atique Pb taille alignem

ent

Zscore (Statistique de M

onte-Carlo)=> indépendant de la taille de l'alignem

ent


%

identité2 protéines de plus de 100 aa possédant plus de 25%

d'identité entre elles <=> ancêtre com

mun

2 séquences nucléiques de plus de 100 bases et identiques à 50% <=>

pas de relation biologiquesystém

atiquePb taille alignem

ent

Zscore (Statistique de M

onte-Carlo)=> indépendant de la taille de l'alignem

ent


Statistique de Monte-Carlo : 2 séq A

et B

1) « Shuffle » = Mélange de la séq B (en conservant sa

composition)

2) calcul des scores puis moyenne et écart-type pour tous les

couples séq A / séq issues du shuffle de B

3) Zscore = (score – moyenne)/écart-type, pour chaque

alignement

Le score « authentique » est significativement plus grand que

le score moyen (14 fois l’écart type) => significativité de

l'alignement (Zscore >= 14)


Statistique de Monte-Carlo , inconvénient :

Basée sur une distribution des scores aléatoires suivant une loi norm

ale (pas forcément vérifié) => pb significativité

seuil

M

éthode coûteuse en temps de calcul (m

inimum

100 scores par distribution)


Similarité : V

aut-il mieux com

parer A

DN

ou protéines ?A

vantage des protéines : Séquences A

DN

, alphabet de 4 lettres => ¼ chances d'avoir les deux m

êmes lettres alignées par hasard,

Protéines 20 acides aminés, il y a m

oins de chance que 2 acides aminés

soient alignés par hasard. M

atrices de substitution des aa pour l’alignement des séquences

protéines permettent de prendre en com

pte des ressemblances plus

lointaines que les matrices pour l’A

DN

qui sont forcément sim

ples. M

utations silencieuses ne sont pas visibles en aa et ne « bruitent » pas l’alignem

ent

Avantage A

DN :

Si elles sont très proches ou si on cherche des informations spécifiques

(répétitions dans l’AD

N…).

Exposition du problèm

e

Le fait: je viens de séquencer un génome et

d ’identifier ses ORF (gènes potentiels)

La question: existe-t-il des gènes annotés stockés dans les banques qui ressem

blent (entièrement ou en

partie) à «mes» O

RF ?

J’espère que les annotations dans les banques m

e donneront des indications sur « mes »

gènes

H

ypothèse: je suppose que les gènes qui se ressem

blent partagent des « propriétés comm

unes » (e.g., fonction(s) proche(s))


e

Pourquoi les gènes de différents organism

es se ressemblent-ils ?

H

omologie

Convergence

Transfert horizontal


e

Hom

ologie

Les gènes sont transm

is à la descendance lors des spéciations (gènes orthologues)

Les gènes se dupliquent au sein d’un m

ême

génome (gènes paralogues)

Les orthologues et les paralogues sont des gènes apparentés (i.e., ils dérivent d’un ancêtre com

mun)

D

es gènes apparentés sont dits homologues

O

RTHOLOGIE

Gène et Hom

ologieExem

ple orthologues

ORTHOLOGIE


e

Hom

ologie

Les gènes sont transm

is à la descendance lors des spéciations (gènes orthologues)

Les gènes se dupliquent au sein d’un m

ême

génome (gènes paralogues)

Les orthologues et les paralogues sont des gènes apparentés (i.e., ils dérivent d’un ancêtre com

mun)

D

es gènes apparentés sont dits homologues

O

RTHOLOGIE

Gène et Hom

ologieExem

ple paralogues

ORTHOLOGIE

PARALOGIE

Gène et Hom

ologie D

ivergence + Fluidité ORTH

OLO

GUES ?

PARA

LOGU

ES ?


e

Convergence

D

es gènes non apparentés finissent par se ressem

bler du fait d’une « convergence évolutive »

M

ême si elle est avérée, la convergence est un

considérée comm

e un phénomène

« minoritaire » par rapport aux cas précédents

(orthologues, paralogues)

De fait, quand des gènes se ressem

blent, on suppose généralem

ent qu’ils sont homologues

(i.e., ils dérivent d’un ancêtre comm

un)

Taupe (vertébré)Grillon-taupe (invertébré)

Convergence morphologique au niveau des pattes (form

e de pelle)du fait d’une fonction identique (creuser)

Exposition du « problèm

e »

Transfert horizontal

3 m

odes de transferts:

Conjugaison

Transformation

Transduction

Phénom

ène majeur chez les bactéries

Gène et Transfert horizontal

Tout dépend de ce qu'on cherche :

Si but = annotation fonctionnelle, la sim

ilarité est un bon critère

Si but = trouver histoire évolutive, la sim

alarité seule ne permet pas de

conclure

Conclusion