STRUCTURE DES GÈNES - major.iric.ca · eucaryotes. Traditionnellement, ce taxon s'oppose aux...

19
IFT3295 - A10 François Major STRUCTURE DES GÈNES 1

Transcript of STRUCTURE DES GÈNES - major.iric.ca · eucaryotes. Traditionnellement, ce taxon s'oppose aux...

IFT3295 - A10François Major

STRUCTURE DES GÈNES

1

IFT3295 - A10François Major

INTRODUCTION

• Un génome est comme un livre où les lettres correspondent aux nucléotides, les phrases aux gènes et les livres dʼun encyclopédie aux chromosomes.

• Un des plus grands défis de la bioinformatique est de découvrir les signes de ponctuation dʼun génome, soit les signes qui marquent le début et la fin des gènes :– Comment identifier les gènes (codants*) dʼun

génome?

* Car il y a aussi des gènes d’ARN non-codants.

2

IFT3295 - A10François Major

ET SI C’ÉTAIT UNIQUEMENT PAR LE CODON DÉBUT?

Quelle est la probabilité, p, d’oberver un codon dans un séquence aléatoire ?

Soit le génome de Mycoplasma genitalium de 0.58 Mb, selon votre p, quel serait le nombre de gènes ?

Comparez votre réponse avec le nombre de gènes dans Mycoplasma genitalium, soit de 470.

Faites le même exercice pour les gènomes de : - Bacillus subtilis qui possède 4100 gènes - Escherichia coli qui possède 4288 gènes

3

IFT3295 - A10François Major

POUR S’AIDER À RÉPONDRE À LA QUESTION... ON VA REGARGER LA STRUCTURE DU GÉNOME DANS LES PROCARYOTES

(ORGANISMES SIMPLES)

Un procaryote (du latin pro, « avant » et du grec caryon, « noyau ») est un être vivant unicellulaire dont la structure cellulaire ne comporte pas de noyau. Les procaryotes ne possèdent que très rarement des organites.

Dans la classification du vivant en trois règnes, les procaryotes regoupent les archées et les eubactéries. On considère que l'un et/ou l'autre de ces deux taxons est à l'origine du troisième règne, les eucaryotes.

Traditionnellement, ce taxon s'oppose aux eucaryotes, caractérisés par la présence d'un noyau, cette division du vivant en deux étant la plus simpliste en termes de classification des espèces.

Les premiers procaryotes étaient peut-être déjà présents lors de l'Éoarchéen (ère de l'Archéen), soit il y a plus de 3 600 millions d'années.

4

IFT3295 - A10François Major

GÉNOMES DES PROCARYOTES

• La réponse aux stimuli est au coeur de la vie.• Les procaryotes sont les organismes vivants les plus simples offrant une

opportunité intéressante pour étudier ces stimuli.• Les réponses aux stimuli dans les procaryotes impliquent invariablement

une altération des niveaux dʼexpression génétique.• La possibilité dʼanalyser des génomes bactériens complets (mais aussi

dʼautres organismes modèles) est utile pour étudier les éléments minimaux et essentiels à la vie.

• La grande majorité dʼun génome procaryote sert à:– Maintenir lʼinfrastructure de base de la cellule et son habilité à répliquer son

ADN (~32 gènes)– Fabriquer de protéines (100 à 150 gènes)– Obtenir et stocker de lʼénergie (~30 gènes)

• Le premier génome séquencé, Haemophilus influenzae, en contient un peu plus que ce minimum de 250 à 300.

• Des procaryotes avec plus de gènes utilisent cette information pour mieux utiliser les ressources de leurs environnements.

5

IFT3295 - A10François Major

EUCARYOTES

Le domaine des Eukaryota ou eucaryotes1 (du grec eu, bien et karuon, noyau) regroupe, selon la nomenclature de Whittaker, tous les organismes compris dans quatre grands règnes du monde du vivant : les animaux, les champignons, les plantes et les protistes. Ils sont caractérisés principalement par des cellules qui possèdent un noyau. Ils constituent donc un très large groupe d'organismes, uni- ou pluricellulaires, définis par leur structure cellulaire.

6

IFT3295 - A10François Major

STRUCTURE DES GÈNES PROCARYOTES

• Structure simple.• Ponctuations pour expression: début et fin des régions à transcrire et

à traduire.• Séquences des ponctuations sont relativement courtes

comparativement aux séquences codantes.• Les régions en amont et en aval de lʼORF sont respectivement

appellées régions 5ʼ et 3ʼ non-traduites (5ʻUTR et 3ʻUTR; UTR = UnTranslated Region).

DébutTraduction

(AUG)

FinTraduction

Fintranscription

Débuttranscription

Cadre de lecture (ORF)

RégionPromoteur

(polymérase ARN)

SéquenceOpérateur(protéine

régulatrice)

7

IFT3295 - A10François Major

ÉLÉMENTS PROMOTEURS

• Polymérases ARN procaryotes sont en réalité des assemblages de protéines ayant des rôles distincts.

• Toute polymérase ARN procaryote compte sur la protéine βʼ pour se lier à lʼADN, β pour relier les nucléotides, α pour garder les sous-unités ensemble et σ pour reconnaître les promoteurs.

• Les trois premières sont assez bien conservées et similaires dʼune bactérie à lʼautre.

• La dernière est moins bien conservée et plusieurs variants sont trouvés dans une cellule donnée.

8

IFT3295 - A10François Major

FACTEURS σ

• Le rôle des facteurs σ est dʼactiver et de désactiver lʼexpression dʼensembles de gènes.

• E. coli possède 7 facteurs σ différents; Bacillus subtilis en possède 10.• Les facteurs σ se lient à lʼADN sur les séquences -35 et -10 pour aider

les polymérases ARN à faire leur travail (certaines séquences sont encore mal caractérisées).

• Les noms sont dérivés des poids moléculaires en kilo daltons.

Facteur σ Famille gènes Séquence -35 Séquence -10

σ70 Général TTGACA TATAAT

σ32 (σH) « heat shock » TCTCNCCCTTGAA CCCCATNTA

σ54 (σN) Stresse azote CTGGCAC TTGCA

σ28 (σF) Synthèse des flagelles CTAAA CCGATAT

σ38 (σS) Gène de l’état stationnaire CGTCAA CTNNTATAAT

σ20 (σFecl) Transport du fer-dicitrate TGGAAA TGTAAT

σ24 (σE) Protéines extracytoplasmiques GAACTTC TCTGA

9

IFT3295 - A10François Major

FACTEURS σ À L’ACTION

• Lorsquʼune demande survient, par exemple lors dʼune hausse de température subite (heat shock), la polymérase ARN qui contient σ32 cherche et trouve les gènes qui contiennent les promoteurs σ32.

• Environ 70% des gènes sont nécessaires en tout temps. Le rôle dʼexprimer ces gènes est accompli par les polymérases ARN qui contiennent σ70.

• La reconnaissance est dʼautant bonne que les séquences -35 et -10 se comparent aux séquences consensus des facteurs σ.

10

IFT3295 - A10François Major

GÈNES PROCARYOTES

• 83% des gènes de E. coli commencent par AUG; les 17% restant avec UUG et GUG (exception à toute règle!)

• Si aucune séquence promotrice nʼest trouvée en amont du codon début et après la fin du codon fin du gène précédent, on assume que le gène fait partie dʼun opéron (provenant de transcrits polycistroniques).– Ceci nʼest pas la règle générale.

• Présence dʼune séquence particulière conservée pour charger le ribosome (Shine-Delgarno): 5ʼ-AGGAGGU-3ʼ.

• Une mutation dans cette séquence empêche la traduction du gène.

11

IFT3295 - A10François Major

TRADUCTION CONCEPTUELLE

• On traduit les séquences génétiques en protéines à lʼaide dʼun ordinateur.

• Popularisée dans les années 70 et 80 alors que le séquençage était plus coûteux.

12

IFT3295 - A10François Major

SÉQUENCES DE TERMINAISON

• >90% des gènes possèdent des signaux spécifiques de terminaison appelés terminateurs intrinsèques.

• Deux caractéristiques: 1) inclusion dʼun palindrome (5ʼ-CGGATG | CATCCG-3ʼ) et 2) six U à la suite du palindrome.

• On voit normalement la séquence dʼARN comme un brin simple/linéaire sans structure. Cependant, il est possible pour eux dʼadopter une structure stable due aux appariements (comme dans lʼADN) de leurs régions palindromiques, quʼon appelle structure secondaire.

• La structure secondaire est stable relativement à la longueur des palindromes et du contenu G/C vs. A/U.

13

IFT3295 - A10François Major

EFFET DE LA STRUCTURE SECONDAIRE DANS L’ARN MESSAGER

• La présence de structure secondaire a été prouvé expérimentalement et il a été montré quʼelle pouvait pauser lʼaction des polymérases en moyenne 1 minute, ce temps est très long comparativement à la transcription dʼune 100aine de nucléotides par seconde autrement.

• Lorsque la pause survient dans la région riche en U, la faiblesse des appariements créés permet aux deux polynucléotides de se dissocier et ainsi de terminer la transcription.

14

IFT3295 - A10François Major

TERMINATEUR INTRINSÈQUE TRP DE E. coli(exemple de régulation négative avec terminateur)

>TRPLeader E. coli************************************************************************************........AGGUUGGUGGCGCACUUCCUGAAACGGGCAGUGUAUUCACCAUGCGUAAAGCAAUCAGAUACCCAGCCCGCCUAAUGAGCGGGCUUUUUUUU(((((((((((((((((((((...)))))))))).)))))))((((...)))).......)))).((((((((..)).))))))........ -75.33

................********************************************************************........AGGUUGGUGGCGCACUUCCUGAAACGGGCAGUGUAUUCACCAUGCGUAAAGCAAUCAGAUACCCAGCCCGCCUAAUGAGCGGGCUUUUUUUU................(((((((((((((((((((((((..(((((...)))))))).)))))))))))))))))))).............. -57.17

GC-rich region

Queue de U simple-brin

Blocage en absence d’aa TRP. Un changementconformationnel causé par des interactionsavec des cofacteurs en présence d’aa TRP(principe de “switch” intrinsèque)

Terminateur qui engendreune terminaison normale, soitl’arrêt de la traduction.

Anti-terminateur qui engendre l’arrêt de la traduction par manque de TRP.

15

IFT3295 - A10François Major

CONTENU GC DES GÉNOMES PROCARYOTES

• Lʼévolution des bactéries se fait beaucoup par acquisition de gènes dʼautres organismes (par acquisition de fragments de génomes de dizaines et de centaines de milliers de nucléotides).– Ce processus se nomme transfert horizontal.

16

IFT3295 - A10François Major

DENSITÉ D’UN GÈNE PROCARYOTE

Organisme Taille du génome (MB) #gènes

Mycoplasma genitalium 0.58 470

Helicobacter pylori 1.66 1590

Haemophilus inflenzae 1.83 1727

Bacillus subtilis 4.21 4100

Escherichia coli 4.60 4288

Mesorhizobium loti 7.04 6752

• Pour E. coli, la longueur moyenne des gènes est de 950 bp, donc une densité de (4288 x 950)/4.6MB = 88.5%

• Les gènes sont espacés dʼenviron 118 bp.• Il existe plusieurs théories sur cette densité de gènes: 1)

minimisation de la réplication de lʼADN durant la division cellulaire, et 2) acquisition et deletions de régions sont équiprobables => régions survivantes sont essentielles.

17

IFT3295 - A10François Major

TROUVER UN GÈNE PROCARYOTE

• ORF de 60 ou + codons.• Présence de séquences promotrices simples

(-35, -10).• Signal de terminaison reconnaissable

(palindrome et U répétés).• Comparaison des séquences de protéines avec

dʼautres organismes.

18

IFT3295 - A10François Major

GÉNOMES EUCARYOTES

• + complexe.• Membranes permettent des environnements

chimiques différents pour chaque cellule.• Chaque type ou lignée cellulaire possède ses

propres jeux dʼexpression génétique même si chaque type possède les mêmes instructions!

• Pas de contraintes de tailles.• Complexité + flexibilité => défis dʼanalyse et

dʼannotation.

19