1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN)...

41
1. L’ADN et l’information génétique

Transcript of 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN)...

Page 1: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

1. L’ADN et l’information génétique

Page 2: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

l’ADNl’information génétique est contenue dans l’ADN

(ARN)(ADN)

A G T C U

Page 3: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

traductionl’information génétique est organisée par triplets (codons)

Page 4: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

1 triplet= 1 codon = 3 lettres= 1 acide aminé

le code génétique

Page 5: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

le gèneunité de l’information génétique

gène

introns : non codants exons : codants

Page 6: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

le gène

gène

unité de l’information génétique

Page 7: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

le génomeorganisation de l’information génétique

chez la bactérie : Escherichia Coli

4938920 bps4732 gènes

Page 8: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

le génomeorganisation de l’information génétique

codant

séquences répétées

non codant

pseudogènes

chez l’homme :

•3 milliards de pbs

•~20000 gènes

•< 2 % d’ADN codant !

Page 9: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

le génomepourcent d’ADN noncodant et « complexité »des organismes

quantité d’ADN codant en fonction de la taille du génome

Page 10: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

ADN codant et non codant

ADN « poubelle »

exons

introns

pourquoi autant d’ADN non codant ?peut-on en comprendre le rôle ?

en résumé :

Page 11: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

2. étudier les séquences d’ADN

comparaison entre séquences / alignement de séquences :

• recherche de gènes

• recherche de similarités entre espèces - évolution

• recherches de motifs répétés - régulation, organisation

à la recherche de caractéristiques « globales » :

• différencier les régions codantes et non codantes

• rechercher un « ordre » dans le désordre apparent…

approche « déterministe » :

approche statistique :

Page 12: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

analyse statistiques des séquences

mesurer l’ordre dans l’ADN

qu’est-ce qui différencie les séquences d’ADN de simples séquences aléatoires ?

1. information mutuelle

2. fonction de corrélation / densité spectrale de puissance

3. techniques basées sur la « marche ADN »

4. …

Page 13: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

de la séquence symbolique à une séquence numérique

choisir un code binaire : par exemple

A

T

G

C

A

G

T

C

double liaisonhydrogène

triple liaisonhydrogène

ou

purines

pyrimidines

+1

-1

+1

-1

n=1 2 3 4 5 6 7 8 9 10… A T C G G T C A T A… n= +1 +1 -1 -1 -1 +1 -1 +1 +1 +1…

on peut donc étudier la variable numérique binaire

n = 1 où n = position

on obtient :

Page 14: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

le signal n (ADN)

signal aléatoire

signal déterministe

signal corrélé

Page 15: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

3. fonction de corrélation et densité spectrale de puissance

(DSP)

xx() Sxx( f )

T

1/T

Page 16: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

fonction de corrélation

soit (t) signal aléatoire fonction du temps t, stationnaire :

1. on peut définir la fonction de corrélation de (t)

2. si « ergodique », on peut remplacer la moyenne d’ensemble par une moyenne sur le temps :

chaque t0 initial considéré comme une nouvelle réalisation

ϕ (τ ) = ξ (t) − ξ( ) ⋅ ξ (t +τ ) − ξ( )ensemble

ϕ (τ ) = ξ (t0 + t) − ξ( ) ⋅ ξ (t0 + t +τ ) − ξ( )t0

Page 17: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

fonction de corrélation

fonction de corrélation

Signal temporel Périodicités cachées

Signal musical (Strauss) :

La fonction de corrélationprésente de pics pour des

retards multiples du « tempo »

(msec

)

t (sec)

Page 18: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

fonction de corrélation

fonction de corrélationSignal temporel

Signaux persistants : la fonction de corrélation décroît plus lentement pour des signaux qui ont tendance à varier lentement

Une mesure de la « mémoire » du signal

Page 19: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

(bruit blanc)Signal « sans mémoire » : chaque valeur est indépendante de la précédente

fonction de corrélation• bb() = ()

d’où b2 = bb() = +

b(t)

• b(t) signal stationnaire,

• b(t) = 0 (centré),

Page 20: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

effet du bruit

Page 21: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

densité spectrale de puissance (DSP)

3. on peut passer à la représentation en fréquence par transformée

de Fourier (TF) : on obtient la densité spectrale de puissance

4. Théorème de Wiener-Khintchine :

Sξξ ( f ) =def

TF ϕ ξξ (τ )[ ] = limT → ∞

1

TTF ξ T (t)[ ]

2

Sξξ ( f ) =def

TF ϕ ξξ (τ )[ ]

T (t) = ξ (t)où limitée à l’intérvalle [0, T]

5. On peut alors évaluer S( f ) directement à partir du signal :

estimateur de la DSP d’un signal réel :

Sξξ ( f ) ≅1

TTF ξ T (t)[ ]

2

ensemble

Page 22: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

() ~ exp(- /a) exponentielle

S ( f ) ~ 1/( 1+(2 a f )2 ) lorentzienne

f

largeur de bande

2. échelle de « mémoire » = a largeur de bande 1/a

1. périodicité « cachée » = T pic à la fréquence 1/T

xx() Sxx( f )

fT

1/T

Fonction de corrélation et DSP

ϕ (τ ) dτ0

∫ ≈ a

Page 23: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

4. corrélation à longue portée

http://www.scholarpedia.org/article/1/f_noise

Page 24: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

si l’échelle de mémoire est infinie (xx() n’est pas intégrable)

on parle de corrélation à longue portée.

Typiquement, loi de puissance :

corrélation à longue portée

0 < β ≤10 <α ≤1 β =1− α

limτ → ∞

ϕ ξξ (τ )∝1

τ α

limf → ∞

Sξξ ( f )∝1

f β

(échelle log)

)

(éch

elle

log

)

pente 1/α

f (échelle log)

S(f)

(éch

elle

log

)pente 1/β

Page 25: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

5. corrélation et ADN

Page 26: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

ADN : résultat 1 – périodicité 3périodicité dans la fonction de corrélation

positions n = 3i

positions n = 3i+1, 3i+2

d

C(d

)

lié à la structure en triplets (codons) du code génétique ;mais comment ? pourquoi ?

Page 27: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

résultat 2 – corrélation à longue portée

R. F. V

oss, P

RL, 1

99

2

(variation de la méthode :construction de 4 sous-séquences0/1 pour A, T, C, G)

résultat 1 : pic à f = 1/3

cytomégalovirus, 230000 pbs

(codant)

résultat 2 : DSP 1/f β β1

β

le résultatsembleplutôt général…

(non codant)

échelle log-log : log(DSP) -β log(f)

f=1/3

Page 28: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

pour l’ADN codantdes résultats controversés :

pas de corrélation ?(Stanley group, 1992-1995)

L’ADN codant est sans doute moins corrélé que le non codant

Page 29: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

positions n = 3i

positions n = 3i+1, 3i+2

d

C(d

)

revenons à la fonction de corrélationpour bien analyser les résultats obtenus :

comment évolue l’amplitude des pics en position 3i ?

on la reporte en échelle log : décroissance en dα corrélation longue portée pour « une base sur trois » ?

d

C(d

)séquence codante

Page 30: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

dégénérescencesur la troisièmelettre du codon

séquences codantes : la dégénérescence du code laisse « passer »

un peu de corrélation longue portée H

calc

ulé

su

r d

iffére

nte

s éch

elle

s q

introns : H≈0.6

position 1 du codon : H≈0.55

position 2 du codon : H≈0.55

position 3 du codon : H≈0.58

Arnéodo group, 1995-1996

la position 3du codon, plus libre,peut suivrela contrainte« globale »

Page 31: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

pourquoi une mémoire étendue ?procaryotes (bactéries et archea)

ADN : un filament hautement compacté

4 600 000 bps 2 cm d’ADNtaille de la cellule 1 m

ratio = 5 10-5

Page 32: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

pourquoi une mémoire étendue ?eucaryotes : CHROMATINE !

Goodsell

nucléosomes

DNA

histones

nucléosomes

fibre de chromatine

chromatine

DNA

fibre de chromatine

boucles

noyau cellulaire

parties verrouilléesparties transcritesparties verrouilléesparties transcrites

une structure fonctionnelle hautement organisée

Page 33: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

d’autres images

Page 34: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

un rôle pour les séquences non codantes

les séquences non codantes montrent toujours

une corrélation à longue portée

l’ADN « poubelle » participe à l’établissement d’un

arrangement fonctionnel de l’ADN dans le noyau/la cellule !

la corrélation à longue portée indique

la présence d’un ordre global ;

Page 35: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

interprétation

•rôle de la fonction biologique :

codage d’une protéine :

représente une contrainte sur le choix

des bases, lié à la bonne séquence d’a.a.

corrélation longue portée :

en général,reflet d’une contrainte

sur l’ordre globalde l’ADN

séquences non codantes séquences codantessoumises à deux contraintes :

peut-on les « simuler » ?

Page 36: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

signal discret fonction de corrélation de n n = 1 2 3 4 5 6 7 8 9 10

11… A T C G G T C A T A C… n= +1 +1 -1 -1 -1 +1 -1 +1 +1 +1 -1…n signal aléatoire discret

fonction de la position n plutôt que du temps t :

si <n>=0 (autrement, on soustrait la moyenne)

alors la fonction de corrélation s’écrit

d = distance entre 2 sites le long de la séquence

moyenne d’ensemble moyenne sur n

C(d) = n n+d =1N

n n+dn=1

N

Page 37: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

fonction de corrélation de n en pratique :

sur un ordinateur, le signal est toujours discret !

z(t) (z1, z2, z3, z4,… zN) = z

pour nous, le signal est intrinsèquement discret (pas=1), car c’est la séquence.

sous scilab, il donc d’utiliser la fonction :

corr : corr(z, dmax) = fonction de corrélation de x, en fonction de la distance d,

pour d = 0, 1, 2,… dmax-1

sous scilab, corr soustrait automatiquement la moyenne de z

Page 38: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

DSP de n – 1. calculer la TF : x(t)

t

|X(f)|

f

SpectreSignal

Signal échantillonné ∆t Spectre périodique de période ƒe = 1/∆t

Signal echantillonné :

xk = k t de 0 à Te = N ∆T

tk

xk

f-fefe/20

FFT du signal :

ƒn = n ƒ de 0 à ƒe = N ∆ƒ

Transformée de Fourier Rapide :FFT

Page 39: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

DSP de n – 2. déduire la DSP:

Wiener-Khintchine : estimateur DSP =

d’où |fft(z)|2 / N ≈ DSP de z

1

TTF ξ T (t)[ ]

2

ensemble

sous scilab, commencer par soustraire la moyenne de z

FFT = transformée de Fourier Rapide

sous scilab :

fft : fft(z, -1) = fft(z) = TF de z donne la TF pour f = 0, ∆f, 2∆f,… fe-1

Page 40: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

fin

Page 41: 1. LADN et linformation génétique. lADN linformation génétique est contenue dans lADN (ARN) (ADN) A G T C U.

1. information mutuelle

probabilité jointe d’avoir les symboles i et j à distance d

probabilités d’avoir les symboles i et j (densités)

zéro si indépendants car Pij(d)=PiPj

remarque :

en thermo, S = -kB∑pilnpi … c’est une mesure d’entropie!

voir « entropie de Shannon »