.fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des...

70
Comparaison et alignement de séquences Sophie Pasek [email protected] LV348 -BI

Transcript of .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des...

Page 1: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Com

paraison et alignement

de séquences

Sophie Pasek

sophie.pasek@upm

c.fr

LV348 -BI

Page 2: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Comm

ent comparer

deux séquences ?

Page 3: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Le Dot-Plot

Tableau indexé par les caractères des deux séquences

Identité : N

on Identité:

Maizel et L

enk 1981 – S

taden

1982

Les similarités (ressem

blances locales) apparaissent le longdes segm

ents diagonaux

TAT

ACT

Page 4: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Le Dot-Plot (en pratique ...)

Beaucoup de « bruit »

U

tiliser une fenêtre pour « lisser »

Choisir un seuil au dessus duquel la sim

ilarité dans la fenêtre génère un point

=> Trouver un équilibre en faisant varier la taille de la fenêtre et le seuil

Page 5: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

GA

TC

TA

CG

*T

**

T*

*C

**

T*

*G

*C

**

A*

*Sans fenêtre

Le Dot-Plot (en pratique ...)

Page 6: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

GA

TC

TA

CGTT

*C

*TGCA

Fenêtre de taille 2

Le Dot-Plot (en pratique ...)

Page 7: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

GA

TC

TA

CGTT

*CTGCA

Fenêtre de taille 3

Le Dot-Plot (en pratique ...)

Page 8: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

GA

TC

TA

CG

*T

*T

*C

*T

*GCA

Fenêtre de taille 3,

Seuil identité >= 2/3

Le Dot-Plot (en pratique ...)

Page 9: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Le Dot-Plot (en pratique ...)

A

utre critère de « bruit » = nature des séquences.

A

DN

4 lettres => beaucoup de bruit.

Protéines 20 aa => moins de bruit.

En protéines, m

utations silencieuses non visibles ne «  bruitent  » pas l’alignem

ent.

Page 10: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Le Dot-Plot : exem

ple

Diagonale = 2 séquences

« identiques » Pavés som

bres = répétitions

AD

N ?

Page 11: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Le Dot-Plot : exem

ple

Orientation différente =

une inversion.

Moins de point si

protéique, et/ou si fenêtre plus grande et seuil plus haut.

Pas d'inversion en protéines

Page 12: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Avantages et inconvénients du D

ot-Plot

Sim

ple et rapide, graphique mais ...

L’interprétation visuelle rend im

possible l’utilisation du D

ot-Plot dans le cadre d’une « com

paraison massive »

i.e., une séquence protéique versus la banque U

niProtKB qui contient environ 21 m

illions de protéines (02-Avril-

12)

Page 13: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Alignem

ent de séquences 2 à 2

(nucléotides ou acides am

inés)

Page 14: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Alignem

ent

Mise en correspondance de deux séquences

(AD

N ou protéines) pour faire apparaître

les similarités, i.e., segm

ents comm

uns

AAAATT

TTTTGGCCT

TTAA et AAA

AGCCCAA

AAAATT

TTTTGGCCT

TTAA

AAAAGC

CCAA

AAAATT

TTTTGGCCT

TTAA

AAAA

GCCC

AA

Page 15: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Alignem

ent

Mise en correspondance de deux séquences

(AD

N ou protéines) pour faire apparaître

les similarités, i.e., segm

ents comm

uns

AAAATT

TTTTGGCCT

TTAA et AAA

AGCCCAA

AAAATT

TTTTGGCCT

TTAA

AAAAGC

CCAA

AAAATT

TTTTGGCCT

TTAA

AAAA

GCCC

AA

Page 16: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Alignem

ent

M

ise en correspondance de deux séquences (A

DN

ou protéines)

ACGGCTAT|| | |||ACTG-TAT

ACGGCTAT

ACTGTAT

ACGG

CTAT

|| |

ACTG

TAT-

3 événem

ents élémentaires :

Correspondance (m

atch)

Substitution (mism

atch)

Indel (Insertion/Délétion)

Page 17: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Alignem

ent

Le score de l’alignement est la som

me des

scores des événements élém

entaires

Chaque alignem

ent a 1 Score 

Il dépend des « pénalités » fixées pour les événem

ents élémentaires

Par exem

ple :

Correspondance/Match : +2

Substitution/M

ismatch : -1

Indel : -2

Page 18: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Alignem

ent

A

lignement des deux séquences

nucléiques ACGGCTAT et A

CTGTAT

Correspondance: +2, Substitution: -1, Indel: -2

ACGGCTA

T|| |

|||

ACTG-TA

T

ACGGCTA

T|| |ACTG

TAT-

Score = 2+2-1+2-1-1-1-2 = 0

Score = 2+2-1+2-2+2+2+2 = 9

Page 19: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Alignem

ent Global

But : Evaluation d’une ressem

blance globale entre deux séquences = sur toute la longueur

Problèm

e :

Quel est l’alignem

ent de score maxim

al ?

Need

leman

& W

un

sch - 1970

Page 20: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Algorithm

e de « programm

ation dynam

ique »

2 séq A = (a1,...,an) et B(b1,...,bm

) Si,j = score m

aximum

entre 2 séquences alignées du début jusqu'aux résidus ai et bj tel que :

Si-1,j-1+w(ai,bj) Si,j = m

ax Si-1,j+g Si,j-1+g

Page 21: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Récurrence

T A T G T C AT

AT

CG

GC

A

a b

c ?

? = MA

X a + Subs. ou Corresp.

b + Indelc + Indel

Page 22: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Exem

ple

AC

GG

CT

AT

ACTGTAT

Page 23: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Exem

ple : Initialisation

T A T G

-14-12-10 -8 -6

T-4

C-2

A-16

-14-12

-10-8

-6-4

-20

TA

TC

GG

CA

Indel = -2Indel = -2

Page 24: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Exem

ple : Rem

plissage ligne par ligne

-14T

-12A

-10T

-8G

-6T

-4C

-12-10

-8-6

-4-2

02

-2A

-16-14

-12-10

-8-6

-4-2

TA

TC

GG

CA

max [

]0+2 = 2

0

Correspondance=2 ou substitution=-1

-2-2= -4

Indel=-2

-2-2= -4

Indel=-2

Page 25: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Exem

ple : Rem

plissage ligne par ligne95

40

-1-2

-6-10

-14T

57

32

10

-4-8

-12A

13

54

32

-2-6

-10T

-3-1

13

54

0-4

-8G

-4-2

0-1

13

2-2

-6T

-8-6

-4-2

02

40

-4C

-12-10

-8-6

-4-2

02

-2A

-16-14

-12-10

-8-6

-4-2

0T

AT

CG

GC

A

Correspondance=2 ou substitution=-1

Indel=-2Indel=-2

Page 26: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Exem

ple : Recherche du chem

in des scores m

aximaux

AC

GG

CT

AT

0-2

-4-6

-8-10

-12-14

-16A

-22

0-2

-4-6

-8-10

-12C

-40

42

0-2

-4-6

-8T

-6-2

23

1-1

0-2

-4G

-8-4

04

53

1-1

-3T

-10-6

-22

34

53

1A

-12-8

-40

12

37

5T

-14-10

-6-2

-10

45

9

ACGGCTAT|| | |||ACTG-TAT

Correspondance=2 ou substitution=-1

Indel=-2Indel=-2

Page 27: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Sensibilité aux paramètres

ACGGC

T-ATC

|| |

| ||

ACTG-

TAATG

Correspondance : +2

Substitution : -1

Indel : -1

ACGGC

TATC

|| |

||

ACTGT

AATG

Correspondance : +1

Substitution : -1

Indel : -2

L’alignement optim

al dépend de :• la m

atrice de similarité

• des pénalités pour les indels, etc.

Page 28: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Am

élioration du modèle : les gaps

Gap : succession d’indels

Pénalités :

Pénalité fixe (exemple -5)

Pénalité linéaire :

Pénalité d’ouverture de gap (exemple -5)

Pénalité d’extension de gap (exem

ple -0.5)

RDISLV---KNAGI| | || || ||RNI-LVSDAKNVGI

Score = 5+1+4-5+4+4-5-0.5-0.5+5+6+0+6+4 = 28

Score = 5+1+4-5+4+4-5-5-5+5+6+0+6+4 = 19

Page 29: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Am

élioration du modèle : les gaps

Si les séquences ont des tailles très différentes ?O

n peut décider de ne pas pénaliser les gaps aux extrém

ités de la plus grande séquence :

A

lgorithme « End Gap Free » ou

« Bestfit »

Page 30: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

NW

S en live ...

➢python

➢im

port aligne➢

import alignem

ent➢

alignement.N

WS("A

TCG","CATG")

➢alignem

ent.EGF("AA

AA

TCGTTGG","CATG")

Page 31: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Algorithm

e global « End G

ap Free » ou « B

estfit »

Reprend NW

S sans pénaliser les gaps aux extrém

ités de la plus grande des 2 séquences

...

Page 32: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Alignem

ent Local

Problèm

e :

Q

uelles sont les régions de forte similarité

entre les 2 séquences ?

Page 33: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Alignem

ent Local

Deux séquences :

GGCT

GAC

CACC

TT e

t GATCACTTCCATG

A

lignement global :

A

lignement local :

1 GG

CTGACCACC-TT 13 | | || || |

1 GA

-TCACTTCCATG 13

5 GA

CCACCTT 13 || ||| ||

1 GA

TCAC-TT 8

Corresp.: 2, Substi.: -1, Indel: -2

Score = 5

Score = 11

Page 34: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Alignem

ent Local: Smith &

Waterm

an

L ’algorithm

e d’alignement local de Sm

ith & W

aterman (1981) est basé sur l’algorithm

e introduit par N

eedleman & W

unsch

Score max ou rem

ise à zéro

Traceback à partir du meilleur score dans

toute la matrice

Page 35: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

AC

GG

CT

AT

00

00

00

00

0A

02

00

00

02

1G

00

12

20

00

1C

00

20

14

20

0T

00

01

02

64

2T

00

00

00

45

6T

00

00

00

23

7C

00

20

02

01

5

max [

]Local : R

emplissage ligne par ligne

0+2 = 20-2= -2

0-2= -20

M=2

MM

=-1

Indel=-2

Indel=-2

Page 36: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

AC

GG

CT

AT

00

00

00

00

0A

02

00

00

02

1G

00

12

20

00

1C

00

20

14

20

0T

00

01

02

64

2T

00

00

00

45

6T

00

00

00

23

7C

00

20

02

01

5

max [

]Local : R

emontée

0+2 = 2-2-2= -4

-2-2= -40

M=2

MM

=-1

Indel=-2

Indel=-2

Score = 2+2+2-1+2=7

Page 37: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Score alignem

ent = Σ scores événem

ents élém

entaires (Match, M

ismatch, Indel)

A

mélioration du m

odèle : pénalité linéaire des gaps (gap open et gap extend)

A

mélioration du m

odèle : les matrices de

substitution (= Mism

atch) => toutes les substitutions ne sont pas équivalentes et donc pénalisées différem

ment

Score d'un alignement

Page 38: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Les matrices de substitution des acides

nucléiques

A

lphabet à 4 lettres : A,C,G,T

M

atrice identité => pas d'am

élioration du modèle,

non adapté à l'évolution des séq nucléiques

M

atrice transition/transvertion => pénalise davantage les transversions (purines <=> pyrim

idines)que les transitions (pur <=> pur, pyr <=> pyr)

AC

GT

A1

00

0C

01

00

G0

01

0T

00

01

AC

GT

A3

01

0C

03

01

G1

03

0T

01

03

Page 39: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Les matrices de substitution des acides

aminés

A

u cours de l’évolution:

Des acides am

inés sont remplacés

« préférentiellement » par d’autres

Ils possèdent par exem

ple des propriétés physico-chim

iques proches

Des acides am

inés sont plus conservés que d’autres

Ils sont par exem

ple essentiels dans la structure 3D des

protéines (comm

e Tryptophane/W/Trp)

Page 40: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Les matrices de substitution des acides

aminés

M

atrices basées sur les propriétés physico-chim

ique des aam

atrices d'hydrophobicitém

atrices des structures secondairesm

atrices basées sur comparaisons de protéines paratgeant la m

ême

structure 3-D

M

atrices basées sur les substitutions entre aa au cours de l'évolution

Les « log odds » : Sij = log [ qij / (pi.pj) ] qij = fréquence de la substitution i vers j pi = probabilité norm

alisée d’apparition du résidu i pi . pj = probabilité que les résidus i et j soient alignés par hasard

Page 41: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Les matrices de substitution des acides

aminés

M

atrices basées sur les substitutions entre aa au cours de l'évolution

Les « log odds » : Sij = log [ qij / (pi.pj) ] qij = fréquence de la substitution i vers j pi = probabilité norm

alisée d’apparition du résidu i pi . pj = probabilité que les résidus i et j soient alignés par hasard

Pénalités des Substitutions :Sij > 0 <=> rem

placement considéré fréquent

Sij < 0 <=> remplacem

ent rare, peu probable entre protéines homologues

Page 42: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Les matrices de substitution des acides

aminés

M

atrices de Substitution construites à partir de l'observation des fréquences de substitution entre séquences « apparentées »

M

atrices PAM

= Point Accepted M

utation(D

ayhoff 1979)

M

atrices BLOSU

M = BLO

cks SUbstitution M

atrix (H

enikoff & Henikoff 1992)

Page 43: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Les matrices B

LOSU

M

A

partir de Blocs = alignement m

ultiple local sans insertion-délétion pour une fam

ille de protéines

Calcul des scores Sij = log [ qij / (pi.pj) ]

• qij nombre de substitutions i <=> j / nom

bre total de paires• pi fréquence d’apparition du résidu i(=nom

bre d’apparition de i / nombre total de résidus)

• pj fréquence d’apparition de j

~2000 blocs, 500 familles de protéines

Page 44: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Les matrices B

LOSU

M

Regroupem

ent des séquences au sein de leur bloc– Regroupem

ent en fonction d’un seuil d’identité• Seuil = 80%

<=> BLOSU

M80

• Seuil = 60% <=> BLO

SUM

60

Calcul des scores par cluster => diminue la redondance liée

au nombre de paires identiques (sur-représentation de certaines

séquences par exemple)

Page 45: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

BLO

SUM

62

Page 46: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

RDISLV---

KNAGI| |

|| || ||

RNI-LVSDA

KNVGIScore = 5+1+4-5+4+4-5-5-5+5+6+0+6+4 = 19

A

lignement des deux séquences protéiques

RDISLVKN

AGI et RNIL

VSDAKNVG

I avec « BLO

SUM

62 »

Correspondance et Substitution: cf. BLOSU

M, Indel: -5

Page 47: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Les matrices PA

MBasées sur alignem

ent multiple global de séquences

très similaires (>85%

identité), mutations dites acceptées car ne

changent pas significativement la fonction de la protéine.

1) alignement de séquences (71 fam

illes de protéines (1300 séquences))2) Com

ptage des substitutions, comparaison paire par paire A

ij3) Calcul m

utabilité : mi= Σ

jAij /fi (pour chaque aa i, fi fréquence

d'apparition)4) Calcul des scores Rij=M

ij/fi avec Mij=m

iAij/Σ

iAij et N

ormalisation tq

ΣRij=1

=> matrices de m

utation MD

M (M

utation Data M

atrix)5) Extrapolation pour séquences plus éloignées N

DM

-n = (ND

M-1)^n

(1-PAM

= 1 mutation acceptée pour 100 résidus)

6) Transformation en m

atrice « log odds » : PAM

-n = log(ND

M-n)

Page 48: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Matrice PA

M

Extrapolation « 1->n » basée sur hypothèse forte que le « taux de m

utation » est constant et équiprobable sur toute la longueur des séquences

Biais d ‘échantillonnage :

1978 : ensemble des séquences pas représentatif

(1300 séquences, 71 familles)

1992 : réactualisation : 16 130 séquences, 2 621 fam

illes

Poin

t Accepted

Mu

tation

Page 49: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

PAM

10A

7

R

-10 9

N

-7 -9

9

D

-6 -17

-1 8

C

-10 -11

-17 -21

10

Q

-7 -4

-7 -6

-20 9

E -5

-15 -5

0 -20

-1 8

G

-4 -13

-6 -6

-13 -10

-7 7

H

-11 -4

-2 -7

-10 -2

-9 -13

10

I -8

-8 -8

-11 -9

-11 -8

-17 -13

9

L -9

-12 -10

-19 -21

-8 -13

-14 -9

-4 7

K

-10 -2

-4 -8

-20 -6

-7 -10

-10 -9

-11 7

M

-8 -7

-15 -17

-20 -7

-10 -12

-17 -3

-2 -4

12

F -12

-12 -12

-21 -19

-19 -20

-12 -9

-5 -5

-20 -7

9

P -4

-7 -9

-12 -11

-6 -9

-10 -7

-12 -10

-10 -11

-13 8

S -3

-6 -2

-7 -6

-8 -7

-4 -9

-10 -12

-7 -8

-9 -4

7

T -3

-10 -5

-8 -11

-9 -9

-10 -11

-5 -10

-6 -7

-12 -7

-2 8

W

-20 -5

-11 -21

-22 -19

-23 -21

-10 -20

-9 -18

-19 -7

-20 -8

-19 13

Y

-11 -14

-7 -17

-7 -18

-11 -20

-6 -9

-10 -12

-17 -1

-20 -10

-9 -8

10

V

-5 -11

-12 -11

-9 -10

-10 -9

-9 -1

-5 -13

-4 -12

-9 -10

-6 -22

-10 8

A

R

N

D

C

Q

E

G

H

I L

K

M

F P

S T

W

Y

V

Page 50: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Matrices PA

M

Choix de la m

atrice N en fonction de l’évolution

supposée des séquences

Plus « N

 » est élevé, plus la matrice est adaptée à la

comparaison de séquences divergentes

Si la divergence n’est pas connue (ce qui est généralem

ent le cas), faire plusieurs essais

Rque : N>100 si un résidu est m

uté plusieurs fois

Page 51: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Matrice B

LOSU

M

Choix de la m

atrice N en fonction du

pourcentage d’identité supposé des séquences

Plus « N

 » est élevé, plus la matrice est adaptée à la

comparaison de séquences de forte identité

Si l’identité n’est pas connue (ce qui est généralem

ent le cas), faire plusieurs essais

Page 52: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Quelle m

atrice de score utiliser ?

« Faible divergence/Forte identité » :

PAM

40 ou BLOSU

M 80

« M

oyenne divergence/Moyenne identité »:

PA

M 120 ou BLO

SUM

62

« Forte divergence/Faible identité » :

PAM

250 ou BLOSU

M 45

Il n’y a pas de matrice parfaite !

Page 53: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Les algorithm

es (NW

S, SW) perm

ettent de trouver l'alignem

ent de score optimal

M

ais un alignement de score x est-il

pertinent ?

Le score augmente avec la taille de

l'alignement (favorise les longs

alignements)

=> Nécessité d'évaluer l'alignem

ent

Significativité du score d'alignement

Page 54: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

%

identité 2 protéines de plus de 100 aa possédant plus de 25%

d'identité entre elles <=> ancêtre com

mun

2 séquences nucléiques de plus de 100 bases et identiques à 50% <=> pas de relation biologique systém

atique Pb taille alignem

ent

Zscore (Statistique de M

onte-Carlo)=> indépendant de la taille de l'alignem

ent

Significativité du score d'alignement

Page 55: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

%

identité2 protéines de plus de 100 aa possédant plus de 25%

d'identité entre elles <=> ancêtre com

mun

2 séquences nucléiques de plus de 100 bases et identiques à 50% <=>

pas de relation biologiquesystém

atiquePb taille alignem

ent

Zscore (Statistique de M

onte-Carlo)=> indépendant de la taille de l'alignem

ent

Significativité du score d'alignement

Page 56: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Statistique de Monte-Carlo : 2 séq A

et B

1) « Shuffle » = Mélange de la séq B (en conservant sa

composition)

2) calcul des scores puis moyenne et écart-type pour tous les

couples séq A / séq issues du shuffle de B

3) Zscore = (score – moyenne)/écart-type, pour chaque

alignement

Le score « authentique » est significativement plus grand que

le score moyen (14 fois l’écart type) => significativité de

l'alignement (Zscore >= 14)

Significativité du score d'alignement

Page 57: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Statistique de Monte-Carlo , inconvénient :

Basée sur une distribution des scores aléatoires suivant une loi norm

ale (pas forcément vérifié) => pb significativité

seuil

M

éthode coûteuse en temps de calcul (m

inimum

100 scores par distribution)

Significativité du score d'alignement

Page 58: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Similarité : V

aut-il mieux com

parer A

DN

ou protéines ?A

vantage des protéines : Séquences A

DN

, alphabet de 4 lettres => ¼ chances d'avoir les deux m

êmes lettres alignées par hasard,

Protéines 20 acides aminés, il y a m

oins de chance que 2 acides aminés

soient alignés par hasard. M

atrices de substitution des aa pour l’alignement des séquences

protéines permettent de prendre en com

pte des ressemblances plus

lointaines que les matrices pour l’A

DN

qui sont forcément sim

ples. M

utations silencieuses ne sont pas visibles en aa et ne «  bruitent  » pas l’alignem

ent

Avantage A

DN :

Si elles sont très proches ou si on cherche des informations spécifiques

(répétitions dans l’AD

N…).

Page 59: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Exposition du problèm

e

Le fait: je viens de séquencer un génome et

d ’identifier ses ORF (gènes potentiels)

La question: existe-t-il des gènes annotés stockés dans les banques qui ressem

blent (entièrement ou en

partie) à «mes» O

RF ?

J’espère que les annotations dans les banques m

e donneront des indications sur « mes »

gènes

H

ypothèse: je suppose que les gènes qui se ressem

blent partagent des « propriétés comm

unes » (e.g., fonction(s) proche(s))

Page 60: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Exposition du problèm

e

Pourquoi les gènes de différents organism

es se ressemblent-ils ?

H

omologie

Convergence

Transfert horizontal

Page 61: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Exposition du problèm

e

Hom

ologie

Les gènes sont transm

is à la descendance lors des spéciations (gènes orthologues)

Les gènes se dupliquent au sein d’un m

ême

génome (gènes paralogues)

Les orthologues et les paralogues sont des gènes apparentés (i.e., ils dérivent d’un ancêtre com

mun)

D

es gènes apparentés sont dits homologues

Page 62: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

O

RTHOLOGIE

Gène et Hom

ologieExem

ple orthologues

ORTHOLOGIE

Page 63: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Exposition du problèm

e

Hom

ologie

Les gènes sont transm

is à la descendance lors des spéciations (gènes orthologues)

Les gènes se dupliquent au sein d’un m

ême

génome (gènes paralogues)

Les orthologues et les paralogues sont des gènes apparentés (i.e., ils dérivent d’un ancêtre com

mun)

D

es gènes apparentés sont dits homologues

Page 64: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

O

RTHOLOGIE

Gène et Hom

ologieExem

ple paralogues

ORTHOLOGIE

PARALOGIE

Page 65: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Gène et Hom

ologie D

ivergence + Fluidité ORTH

OLO

GUES ?

PARA

LOGU

ES ?

Page 66: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Exposition du problèm

e

Convergence

D

es gènes non apparentés finissent par se ressem

bler du fait d’une « convergence évolutive » 

M

ême si elle est avérée, la convergence est un

considérée comm

e un phénomène

« minoritaire » par rapport aux cas précédents

(orthologues, paralogues)

De fait, quand des gènes se ressem

blent, on suppose généralem

ent qu’ils sont homologues

(i.e., ils dérivent d’un ancêtre comm

un)

Page 67: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Taupe (vertébré)Grillon-taupe (invertébré)

Convergence morphologique au niveau des pattes (form

e de pelle)du fait d’une fonction identique (creuser)

Page 68: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Exposition du « problèm

e »

Transfert horizontal

3 m

odes de transferts:

Conjugaison

Transformation

Transduction

Phénom

ène majeur chez les bactéries

Page 69: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Gène et Transfert horizontal

Page 70: .fr asek de séquences · Le Dot-Plot (en pratique ...) Autre critère de « bruit » = nature des séquences. ADN 4 lettres => beaucoup de bruit. Protéines 20 aa => moins de bruit.

Tout dépend de ce qu'on cherche :

Si but = annotation fonctionnelle, la sim

ilarité est un bon critère

Si but = trouver histoire évolutive, la sim

alarité seule ne permet pas de

conclure

Conclusion