[PPT]Codage et expression de l’information...

Post on 30-Apr-2018

233 views 6 download

Transcript of [PPT]Codage et expression de l’information...

Codage et expression de l’information génétique

Pascale Giraudetwww.univ-tln.fr/~giraudet

Séminaire GRIM 4 mars 2003

Plan de l’exposé

• Introduction : qu’est-ce que l’information génétique ?

I. Codage et transmission de l’information génétique

II. Expression de l’information génétiqueIII. Génétique et informatique

Qu’est-ce que l’information génétique ?

• Chaque individu présente des caractères propres– Certains sont acquis (musculature, …)– D’autres héréditaires (couleur des yeux, groupe

sanguin, …) transmis d’une génération à l’autre information génétique

• Introduction : qu’est-ce que l’information génétique ?

I. Codage et transmission de l’information génétique

1. Localisation de l’information génétique2. Support de l’information génétique3. Codage de l’information génétique sur l’ADN4. Transmission de l’information génétique

II. Expression de l’information génétiqueIII. Génétique et informatique

Expérience de Gurdon (1960)

-Noyau cellule grenouille B-Œuf énucléé grenouille A

-> obtention d’un clone de la grenouille B

I.1) Localisation de l’information génétique

I.2) Support de l’information génétique

CelluleG: *1000N = 1013

ChromosomeG: *10 000N = 2*23

ADNG: *107

L 2 m

I.2) Support de l’information génétique

Paires de basesG: *107

N 3 * 109

Watson et Crick,1953

I.2) Support de l’information génétique

Bases puriques (R) Bases pyrimidiques (Y)

(A) (G) (T) (C)

-> ADN Succession de 3 * 109 lettres d’un alphabet quaternaire

I.3) Codage de l’information génétique sur l’ADN

• Succession presque linéaire de 3*109 lettres d’un alphabet moléculaire quaternaire (A,C,G,T)– Seule non-linéarité : ADN porté par 2n chromosomes (n=23

chez l’homme)

– Le brin complémentaire n’apporte aucun complément d’information (stabilité chimique)

– Il existe de l’ADN hors du noyau : ADN mitochondrial (104 paires de bases)

I.4) Transmission de l’information génétique

• Transmission conforme : la réplication lors de la division cellulaire

• Brassage génétique lors de la reproduction sexuée

Cellule du père2n chromosomes

Cellule de la mère2n chromosomes

Gamète du pèren chromosomes

Gamète du pèren chromosomes

Gamète de la mèren chromosomes

Gamète de la mèren chromosomes

Cellule oeufn+n chromosomes

Génération N

Génération N+1

méiose

fécondation

I.4) Transmission de l’information génétique

• Erreurs de copie : les mutations• Substitution aléatoire d’une

lettre par une autre lettre de l’alphabet

• Insertion aléatoire d’une lettre (ou d’un groupe de lettres)

• Suppression aléatoire d’une lettre (ou d’un groupe de lettres)

• Sélection des mutants

…ACCTGC…

…ACTTGC…

…ACCTGC…

…ACCATGC…

…ACCTGC…

…AGC…

• IntroductionI. Codage et transmission de l’information

génétiqueII. Expression de l’information génétique

1. Principes de l’expression : les protéines2. De l’ADN à la protéine3. Transcription4. Traduction et code génétique5. Régulations de l’expression génétique

III. Génétique et informatique

II.1) Principes de l’expression : les protéines

ADN Protéinessécrétées

Protéines constitutives

Enzymes(protéines)

MétabolismePhysiologie

Développement

ProductionDe glucides

ProductionDe lipides

Génotype Protéines Phénotype

II.1) Principes de l’expression : les protéines

II.2) De l’ADN à la protéine

Transcription

Traduction

ADN

ARN m

Protéine

II.3) Transcription

Épissage

II.4) Traduction et code génétique

Bilan

• Notion de gène• Un gène une protéine (excision des introns)• Un gène : du codon départ au codon STOP• Ensemble des gènes zone exprimée de l’ADN

• 35 000 gènes chez l’Humain• 1,5 % de l’ADN -> à quoi sert le reste ??

• Similitude entre les gènes des êtres vivants• 40 % de nos gènes commun avec une plante• 80 % avec un Mammifère• 98,5 % avec un Chimpanzé• 99,9 % avec un autre Humain

• Linéarité apparente de l’expression génétique• Codage quasi-linéaire de l’information génétique sur l’ADN• Transcription : bijection de {A, T, C, G} sur {A, U, C, G}• Traduction : surjection de {A, U, C, G}3 sur {Phe, Leu, Ile, Met, Val, Ser,

Pro, Thr, Ala, Tyr, His, Gln, Asn, Lys, Asp, Glu, Cys, Trp, Arg, Gly}

Bilan

• Pourtant variabilité de l’expression• Dans l’espace :

• Toutes les cellules n’ont pas la même forme• Toutes les cellules n’ont pas la même fonction

• Dans le temps :• Activité cellulaire dépendant du stade de développement

• Selon l’environnement : • Activité cellulaire dépendant de son environnement chimique

• Réorganisation de l’information génétique lors de son expression par régulations multiples

II.5) Régulations de l’expression génétiquegène

pré-ARNm

ARNm

ARNm

protéine

protéine modifiée

protéine active

protéine dégradée

transcription

épissage

traduction

noya

u

Organisation structurale de l’ADNFacteurs de régulation de la transcription

Epissage alternatif

Maturation, transport, adressage des ARNmDurée de vie des ARNm

Contrôle de la traduction des ARNm

Modifications post-traductionnelles

Adressage, et régulation de l’activité

Contrôle de la dégradation protéique

gène

pré-ARNm

ARNm

ARNm

protéine

protéine modifiée

protéine active

protéine dégradée

transcription

épissage

traduction

noya

u Facteurs de régulation de la transcription

Produits de l’activité protéique Environnement

Epissage alternatif

II.5) Régulations de l’expression génétique

Un exemple de la régulation de la transcription chez les Procaryotes : l’opéron tryptophane

Gènes codants pour les enzymes nécessaires à la synthèse du tryptophane

Un exemple eucaryote : les gènes homéotiques

Epissage alternatif

• Introduction : qu’est-ce que l’information génétique ?

I. Codage et transmission de l’information génétique

II. Expression de l’information génétiqueIII. Génétique et informatique

1. Apports de l’informatique à la génétique2. L’inspiration génétique en informatique

III.1) Apports de l’informatique à la génétique

• Analyse de séquences de bases• Identification de motifs• Localisation de motifs connus• Détection de régularités, périodicités

• Comparaison de séquences• Recherche des similarités• Recherche des mutations• Calcul de taux de divergence

• Élaboration de modèles d’évolution• Élaboration d’arbres phylogénétiques• Modélisation de la structure 3d de protéines

• Analyse de séquences de bases• Identification de motifs• Localisation de motifs connus• Détection de régularités, périodicités

• Comparaison de séquences• Recherche des similarités• Recherche des mutations• Calcul de taux de divergence

• Élaboration de modèles d’évolution• Élaboration d’arbres phylogénétiques• Modélisation de la structure 3d de protéines

III.1) Apports de l’informatique à la génétique

POS: 1 2 3 TOTAL A 24% 31% 23% 26% C 25% 21% 26% 24% G 34% 22% 24% 27% T 18% 26% 27% 24%

Phe TTT 1.7 Ser TCT 1.6 Tyr TAT 1.2 Cys TGT 0.8 Phe TTC 2.0 Ser TCC 0.5 Tyr TAC 1.7 Cys TGC 1.3 Leu TTA 0.9 Ser TCA 0.9 *** TAA 1.2 *** TGA 0.9 Leu TTG 0.6 Ser TCG 0.7 *** TAG 0.2 Trp TGG 1.4 Leu CTT 1.4 Pro CCT 0.9 His CAT 1.3 Arg CGT 3.8 Leu CTC 1.0 Pro CCC 0.3 His CAC 1.4 Arg CGC 1.9 Leu CTA 0.4 Pro CCA 1.0 Gln CAA 1.4 Arg CGA 1.1 Leu CTG 4.0 Pro CCG 2.2 Gln CAG 2.1 Arg CGG 0.7 Ile ATT 2.3 Thr ACT 1.0 Asn AAT 1.0 Ser AGT 0.4Ile ATC 2.3 Thr ACC 1.5 Asn AAC 2.5 Ser AGC 1.8Ile ATA 0.3 Thr ACA 0.9 Lys AAA 3.9 Arg AGA 0.8 Met ATG 1.9 Thr ACG 0.8 Lys AAG 1.7 Arg AGG 0.3 Val GTT 2.7 Ala GCT 1.9 Asp GAT 2.5 Gly GGT 2.6 Val GTC 1.1 Ala GCC 1.5 Asp GAC 2.5 Gly GGC 2.8 Val GTA 1.5 Ala GCA 2.1 Glu GAA 4.7 Gly GGA 0.9 Val GTG 1.9 Ala GCG 2.8 Glu GAG 1.9 Gly GGG 0.7

Fréq

uenc

e (%

) des

bas

es su

r le

mêm

e gè

ne

de 2

594

codo

nsFréquence des bases sur un gène de 7784 pb

IDENTIFICATION DE MOTIFS (PROGICIEL SQX, SITE INFOBIOGEN)

DÉTECTION DE PÉRIODICITÉS (LAB INFO DE l’IGM)

1. Proba d’apparition de GTC n bases après CGC en phase de lecture -> périodicité 0 [3]

2. Proba d’apparition de TCG n bases après ATC en phase de lecture -> périodicité 1 [3]

3. Proba d’apparition de CGT n bases après CCC en phase de lecture -> périodicité 2 [3]

Proba 1

nProba 3Proba 2

n n

•T0 •AAA •AAC •AAT •ACC •ATC •ATT •CAG •CTC •CTG •GAA •GAC

•GAG •GAT •GCC •GGC •GGT •GTA •GTC •GTT •TAC •TTC •TTT

•T1 •AAG •ACA •ACG •ACT •AGC •AGG •ATA •ATG •CCA •CCC •CCG

•GCG •GTG •TAG •TCA •TCC •TCG •TCT •TGC •TTA •TTG

•T2 •AGA •AGT •CAA •CAC •CAT •CCT •CGA •CGC •CGG •CGT •CTA

•CTT •GCA •GCT •GGA •GGG •TAA •TAT •TGA •TGG •TGT

Classement des trinucléotides en fonction de leur phase d'apparition préférentielle

Propriétés de ces 3 classes de trinucléotides d'un point de vue théorie des codes:- ces 3 classes de trinucléotides s'échangent par permutation circulaire,- ce sont, toutes les trois, des codes circulaires maximaux, - ces 3 codes possèdent une propriété de complémentarité : auto-complémentarité pour T0, et échange de T1 et T2 par complémentarité,- codes non triviaux ( codes obtenus par des techniques classiques de génération).

Hypothèse biologique : gènes primitifs = mots du langage To ?

•Phase de lecture repérable automatiquement -> ne nécessite pas de codon initiateur

•Auto-complémentarité -> codage simultané et en phase des deux brins de l’ADN

•Modélisation de l’évolution de ce langage selon mutations

CALCUL DE TAUX DE DIVERGENCE

• Comparaison de 2 séquences :

• Définition des opérations élémentaires pour passer de l’une à l’autre = mutations (substitution, insertion, suppression)

• Attribution d’un coût à chaque opération élémentaire (w1,w2,w3)

• Calcul du coût total minimal d pour passer d’une chaîne à l’autre :

d(ai,bj)=min[d(ai-1,bj-1)+ w1* (aibj), d(ai,bj-1)+ w2, d(ai-1,bj) + w3]

d(,)=0 d(, bj)=d(, bj-1)+ w2 d(ai,)= d(ai-1, )+ w3

… ou autres méthodes plus rapides (réseaux systoliques)

• Alignement pour coût total minimal = distance entre les deux séquences

• But : élaboration d’un arbre phylogénétique

ÉLABORATION D’ARBRES PHYLOGÉNÉTIQUES

• Distance augmentant linéairement avec le temps depuis divergence (horloge biologique)

• Dépend de la base utilisée

• Dépend du choix de la distance d’une feuille à un nœud non terminal

III.2) L’inspiration génétique en informatique

Inspiration génétique

Support de l’information

génétique

Codage et transmission de l’information

génétique

Applications

Enroulement de l’ADN et théorie

des nœuds

Algorithmes génétiques

Ordinateurs génétiques

ENROULEMENT DE L’ADN ET THÉORIE DES NŒUDS

Double hélice d’ADN :Transcription -> sur-enroulement en amont, et sous-enroulement en aval -> activité des topo-isomérasesChez Procaryotes, chromosome circulaire inspirant un parallèle avec la théorie des nœuds

• Nœuds topologiquement équivalents si on peut passer de l’un à l’autre sans topo-isomérase• Une topo-isomérase est responsable d’une transformation mathématique élémentaire (flip, décroisement…)

• Prennent en compte :• Codage et transmission de l’information génétique• Aspects aléatoires des mutations• Sélection naturelle des meilleurs résultats

• Ne prennent pas en compte :• Modularité de l’expression

ORDINATEURS GÉNÉTIQUES

merci…

… et à la prochaine fois pour le codage neuronal ?