Élodie BoulierNhu Ha Vo
Sharon Harel
Genome-wide computational prediction of transcriptional regulatory modules reveals new
insights into human gene expression
Blanchette & al, 2006
Rappel sur la transcription et la traduction d’un gène
Régulation de l’expression
des gènes
Croissance cellulaire
Différentiation
Division
Adaptation à l’environnement
Expression des gènes
Régulée au niveau de la TRANSCRIPTIONOutils : Site de liaison des Facteurs de transcription
(TFBS)Acteurs : Facteurs de transcription (TF)
Facteurs de transcriptionActivateurs
Facteurs de transcriptionRépresseurs
TRANSCRIPTION
+ -
Structure d’un gène
Structure d’un gène (suite)
PROMOTEUR
Structure d’un gène (suite)
1kb en amont du début de site de la transcription
Facteurs de transcription
http://www.wellesley.edu/Chemistry/chem227/nucleicfunction/transcription/lac%20operon/06eukaryotes.jpg
Les Facteurs de Transcription (suite)
Lient :
Des séquences dégénérées d’ ADN (5–15 pb)
Des motifs consensus
Position-weighted matrices (PWM)
PWM
Sites de liaison de facteurs de transcription (TFBS)
Régions de régulation
+ Motifs courts dégénérés
-Taille du génome -
ACGTACGTACGAATGC
Probabilité de retrouver une base à une position
TF1
Méthodes de prédictions existantes
Sensibilité à la DNAse I
Algorithmes basés sur les séquencesIdentification de motifs surreprésentés dans la séquence du promoteur
Nécessitant l’entrée de données : PWM de facteurs de transcription d’intérêts
Genome wide et de novo : prédit des région ayant un potentiel régulatoire
Modules cis-régulateur (CRM)CRM
TF
PROMOTEUR
CRM
ADN
TFBS
TF1TF2 TF4 TF3 TF5 (1à 5 TF)
Modules cis-régulateur (CRM) …suite
Reconnaître de nouveaux modules
Utilisation de caractéristiques de CRM connus :
1.Plusieurs sites de liaison pour peu de TF ≠
2.Sites de liaisons plus conservés que les régions intergéniques
3.Les gènes régulés par un lot de TF commun a tendance à être co-exprimés
17
Fonction de l’algorithme Identifier les régions importantes de
régulation d’expression de gènesPrédire quel facteur de transcription se lie à
quelle région
18
DonnéesDonnées provenant de Transfac
481 PWM (Position Weight Matrices)229 familles TF (Transcription Factor)
Données provenant de Alignement Multiz Alignement Humain – Souris – Rat
34 % du génome humain
19
Prédiction TFBS pour chaque espèceTrouver le hitScore pour chaque espèceFenêtre de 100, 200, 500, 1000, 2000 bpCalcul:
Pour chacun des 481 PWM (m) Pour chaque colonne (p) de la
séquenceCalcul hitScoreHum (m, p)
Calcul hitScoreSouris (m, p)
Calcul hitScoreRat (m, p)
20
Prédiction TFBS conservée
Trouver le hitScore d’alignement conservée
Calcul:hitScorealn (m, p) = hitScoreHum (m, p) +
½ max (0, hitScoreSouris (m, p) + hitScoreRat (m, p))
21
Sélection tags plus significatifs• Seul les hitScorealn (m, p) > 10 sont
retenu pour construire les modules.
22
Total tags score
TotalScore(m, p1…p2) = max {H ⊆ Hm tel que H (Hit) non chevauché } ∑ h € H hitScore(m, p)
23
P-ValueP-Value est assigné au TotalScoreP-Value dépend :
longueur de la régioncontenu en GC de la régionfréquence et distribution en hitScore prédit
pour cette matrice dans le génome
24
Module score
Choisir 1 à 5 TF (PWM) non chevauché donc le P-Value est le plus élevé
Calcul:moduleScore(p1…p2) = max{k = 1…5} – log
(pValueMaxUnif(k, 481, Πi = 1…k pValue(totalScore(tagk, p1…p2))))
25
Résultats118 402 Modules Couvrant 2.88% du génome humain58 % des modules sont moins que 500 bpLongueur moyenne de 635 bp par moduleMoyen de 3.1 tags par Module
26
Résultats (suite) Tag le plus sélectionné :
E2F (5401 fois sur les 118 402 modules)
2 sets de tags les plus sélectionnés Facteur de transcription associé au
promoteur (E2F, ZF5, TBP)
Facteur de transcription homeobox(famille NKX, famille POU, etc)
27
Comparaison
28
Comparaison « Regulatory potential » Kolbe et al. 2004 and King et al. (2005)
Prédiction de CRMApplique au génome de l’humain ainsi que le
bléPermet identifier les séquences et les
conservations entre espècesPermet distinguer les ensembles de régions
de régulation connu et régions non fonctionnelRésultat :
Plus de 25 % des bases de pCRM est dans King et al.
9 fois plus que prédiction aléatoire
Validation expérimentale des prédictions de novo
Permet de définir la spécificité du prédicteur
Spécificité= Performance
Définition: Efficacité à prédire une interaction réelle entre un TF et un pCRM, non recensé dans la littérature
ChIP on Chip
Spécificité de novo du prédicteur
3% de validation des pCRM pour le TF ER
17% de validation des pCRM pour le TF E2F4
Sous-estimation de la spécificité
Facteurs contribuant à la faible spécificité du prédicteur
1 seule lignée cellulaire/TF
Lignée cellulaire cancéreuse
Facteurs contribuant à la faible spécificité du prédicteur
1 seule condition d’induction de la transcription
Facteurs contribuant à la faible spécificité du prédicteur
Autre méthode d’évaluation de la spécifité
ER lie 55 modules
E2F4 lie 433 modules
Étude par un autre groupe: 57 modules lient ER et 14 avaient été prédit par Blanchette et al.
24 des 55 avaient été sélectionnés pour lier ER Donc 44% de spécificité
236 des 433 avaient été sélectionnés pour lier E2F4 Donc 54% de spécificité
Amélioration Possible
Cellules, Tissus, Conditions physiologiques
HAIRE
Distribution des pCRM sur le génome
Informations sur nouveaux gènesEnhancersTranscrits non-codants TSS alternatifsDéfinition du rôle de gènes peu caractériser
Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668
Figure 3. Distribution of pCRMs along a region of chromosome 11
Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668
Figure 4. Distribution of pCRMs relative to specific regions of genes
Région promotrice
Promoteur ou mode activation alternatif
Enhancer ou transcrit antisense
DNA-Looping
[Adaptée de Freeman, Biological Sciences 2002]
Régulation par Transcrit antisense
ARN codant
ARN antisense
Inhibition post-transcriptionnelle
Distribution des pCRMs pour un TF individuel
Figure 5. Many TFs preferentially bind to specific regions relative to the TSS of their target genes
Autres observations2 modules rapproché : ↑ probabilité de
contenir les TFBS pour les mêmes TFLa plupart des TF de longue portée
présente une corrélation situés >10kb en amont des TSS
pCRM voisins contenant des TFBS pour des TF similaires sont situés dans des régions intergéniques ou introniques proches de gènes codant pour des TF
pCRMs tissus spécifique1 Famille TF gènes potentiellement
régulé (1 pCRM 10kb en amont du TSS)
Corrélation (paire wise Pearson) entre les niveaux d’expression de ces gènes dans 79tissus humains
27 familles présente une corrélation d’expression tissulaire
pCRM tissus spécifiquespaire TF = famille génes
potentiellement régulésCorrélation entre l’expression tissulaire et
la co-liaison de la paire de TF595 paires de TF présentent une corrélation
d’expression tissulaire.EX: OCT1 caractérisé et exprimé dans le
cerveau BACH1 est associé à OCT1, mais non
caractérisé
ConclusionPrédiction avec spécificité acceptable entre
24 et 54%Sensibilité des prédictions de 34%
(TransFac)Grand potentiel de développement des
connaissances sur la régulation génique Découverte de nouveaux gènes codant et
de fonctions biologiquesÉlucidation du rôle de TF: expression
tissulaire
Questions
La base de données des pCRM est disponible sur le site genomequebec.mcgill.ca/PReMod
Top Related