RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure...

66
RNA sampler RNA sampler : un nouvel algorithme basé : un nouvel algorithme basé sur l’échantillonnage pour la prédiction sur l’échantillonnage pour la prédiction de la structure secondaire commune & de la structure secondaire commune & l’alignement structural l’alignement structural Par : Karima BELKAHLA Zahra FONDOU Amel LOUHIBI Professeur : Abdoulay Banéro DIALLO BIF 7001 BIF 7001

Transcript of RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure...

Page 1: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

RNA samplerRNA sampler: un nouvel algorithme basé sur : un nouvel algorithme basé sur l’échantillonnage pour la prédiction de la l’échantillonnage pour la prédiction de la

structure secondaire commune & l’alignement structure secondaire commune & l’alignement structuralstructural

Par : Karima BELKAHLA

Zahra FONDOU

Amel LOUHIBI

Professeur : Abdoulay Banéro DIALLO

BIF 7001BIF 7001

Page 2: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

1.Introduction L’ARN, est composé de ribose, de phosphate,

d'adénine, de cytosine, de guanine et d'uracile. les ARN servent d’intermédiaire dans la synthèse

protéique avec les ARN messagers. Il existe néanmoins d’autres types d’ARN, issus de la

transcription, mais qui ne subissent pas de traduction. Ces ARN sont fonctionnels par eux-mêmes, sans

codercoder pour une protéinepour une protéine. Pour les distinguer des ARN messagers, on les appelle

des ARN non-codants (ARNnc).

Page 3: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Elles sont souvent caractérisées par l’évolution des structures secondaires conservées qui sont critiques à leurs fonctions.

La prédiction des structures secondaires d’ARN, est l’un des grands problèmes challenges de la bioinformatique.

Mfold et RNAfold utilisent la programmation dynamique, pour calculer la structure secondaire d’ARN, avec un minimum d’énergie libre pour une seule séquence.

PKNOTS est une extension de Mfold, pour la prédiction des stucture d’ARN avec noeuds.

Page 4: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Une approche plus fiable consiste à utiliser l'analyse comparative pour prédire les structures secondaires d’ARN consensus connexes à partir de plusieurs séquences.

Une stratégie est d’aligner les séquences fiables en premier, puis établir l’alignement.

RNAalifold utilise la stabilité thermodinamique et la covariation de séquences ensemble pour prédire la structure communes des alignements.

La matrice de poids max (MWM) une approche graphique etait introduite pour prédire les structures secondaires communes autorisant les noeuds.

Page 5: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Une autre stratégie (Sankoff 1985) est de simultanément aligner et répertorier les séquences d’ARN (sa compléxité, non pratique pour plus 2 séquences).

Foldalign et Dynalign rendent l’algo de Sankoff plus pratique pour les séquences courtes mais reste toujours lent.

Une troisième stratégie est de prédire les structures des séquences individuelles séparemment et ensuite aligner les structures (implémentée dans RNAshapes & MARNA).

Page 6: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

•comRNA utilse un différent shéma appliqué dans les approches des théories de graphes pour comparer et trouver les brins conservés des séquences multiples, ensuite assemble les blocks de brins conservés pour former les structures consensus ou les noeuds sont autorisés.

•Nous présentons un nouveau algorithme, de prédiction de structures communes dans les séquences multiples non alignées, qui adopte l’idéé d’assemblage de brins de comRNA et combine les probabilités de pairage de bases intraséquenceprobabilités de pairage de bases intraséquence & prob d’alignement de base interséquenceprob d’alignement de base interséquence pour mesurer la conservation de brins.

Page 7: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Emploi procédure itérative, pour l’alignement probabiliste de paire de brins compatibles & met à jour les prob basées sur les structures en brin, jusqu’a convergence.

Extension algo pour séquences multiples, par méthode basée sur cohérence.

L’algo n’a pas de limite pour prédiction des noeuds. Dans tests approfondis sur données de séquences réelles, il est meilleurs que d’autres progs, du point de vue sensibilité & spécificité avec une vitesse raisonable.

Page 8: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

2.METHODE

Page 9: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

La structure secondaire d’ARN :1) Tiges (stems) : Empilage (stacking) des paires de bases A-U,G-C et G-U2) Boucles (Loops) : régions simples brins.

Page 10: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Principe:La prédiction  de la structure secondaire commune d’ARN pour plusieurs séquences peut être simplement de trouver les tiges conservées compatibles entre les séquences.•Les paires de tiges conservées = un bon pairage des bases dans leurs séquences individuelles, mais aussi s’alignent bien entre elles (entre les séquences).•Mesure de la conservation des tiges = En combinant les probabilités de pairages des bases intra séquences et les probabilités d’alignements des bases inter séquences .

Page 11: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

L’algorithme RNA sampler:

Entrée : Deux séquences et plus d’ARN

Sortie : Structure secondaire d’ARN commune entre les séquences.

Principalement en deux étapes:

Initialisation

Itération

Page 12: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.
Page 13: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

A) Étape d’initialisation:1.Calcule des probabilités d’alignements de bases PAB(ai,bk) ou

PAB(aj,bl)  : Les probabilités initiales  de l’alignement des bases possibles entre deux séquences

en utilisant une méthode basée sur la fonction de partition.

2. Calcule des probabilités de pairage des bases DA(ai,aj) ou DB(bk,bl):

Les probabilités initiales de pairage des bases pour toutes les paires de bases possibles dans chaque séquence.

RNAfold (une méthode basée sur la fonction de partition) CONTRAfold (posterior probabilities)

3. Générer la liste de toutes les tiges possibles pour chaque séquence :

sl : Une longueur minimum d’une tige (3 par défaut) ou 4 pour les longues séquences ou des séquences avec pseudo-nœud.

Aucune boucle ni bulge n’est permis dans une tige. La combinaison variable de ses tiges peut former une structure d’ARN différente.

Page 14: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

B) Étape d’itération :1.Un block est une paire de tiges alignées : On peut générer une série d’alignement  entre deux tiges en glissant une tige (séquence A) le long de l’autre (séquence B).Les paires de bases constitutives de  l’une des tiges sont alignées avec celles des autres tiges. Un alignement consiste à deux moitiés correspondantes avec des largeurs égales. The 5’arm et 3’arm

Page 15: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

  : Alignement entre deux tiges u et v des séquences A et B.Déduire le score de Conservation (W).

: paires de bases complémentaires de la tige u de la séquence A et la tige v de la séquence B

: Bases alignées dans les 2 arms 3’ et 5’

: Probabilités d’alignements des bases intersequences

: Probabilités de pairages des bases intrasequences

Page 16: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Un block : L’alignement de deux tiges u et v qui donne un grand score de conservation (W)

Page 17: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

2. Générer une liste de blocks:Une liste complète de blocks est produite en alignant chaque tige de la séquence A, aux différentes tiges de la séquence B.Les blocks se composant des paires de tiges avec de meilleurs scores de conservations réciproques sont considérés .

Un paramètre d : la distance maximum de décalage entre les positions alignées des deux tiges .But : Réduire la complexité informatique

Page 18: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

3.Échantillon de blocks compatibles pour générer la structure commune:Approche d’échantillonnage probabiliste : sélectionner les blocks compatibles basés sur leurs scores de conservation et les assemblés dans une structure commune.La chance pour que le block B soit échantillonner est défini avec la probabilité:

Les blocks avec un haut score de conservation ont plus de chance à être sélectionnés.L’échantillonnage est répété S fois (S est la taille de l’échantillon et S structures communes sont générées dans chaque itération)

Page 19: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

4. Mise à jour itératives des probabilités d’alignements et de pairages des bases:Calculer la fréquence d’apparition des paires de bases dans S (structures communes) pour chaque séquence, qui nous donne une nouvelle probabilité de pairage.

Page 20: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Calculer la fréquence d’alignement des bases dans S(structure commune) entre deux séquences, qui nous donne une nouvelle probabilité d’alignement :

Page 21: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Les étapes 2, 3 et 4 sont répétées pour des itérations multiples. Les probabilités de pairage et d’alignements des bases sont misent à jour, elles sont employées pour recalculer les scores de conservation des blocks et de leurs probabilités à être prélever dans l'itération suivante.

les blocks qui sont constitués des tiges conservées obtiennent des scores de conservation intensifiés. Ils ont des chances de plus en plus élevées d'être prélevés, alors que d'autres blocks tendent à avoir leurs scores de conservation atténués. Les structures prélevées tendent à converger dans des ensembles de blocks conservés compatibles.

Page 22: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Exemple: Les probabilités de pairages et d’alignement initiales et  convergés entre deux séquences de tRNA, RL6371 et RE2140.

Page 23: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

C) Structure commune entre deux séquences:Un algorithme vorace est utilisé pour assembler les blocks convergés dans la structure consensus finale.Les blocks avec haut score de conservation sont sélectionnés aucun block ne reste

ClustalW pour aligner les régions simples brins, qui sont assemblées avec les blocks conservés pour générer l’alignement structural final.

Page 24: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

D) De deux séquences d’ARN à plusieurs:

Étape d’initialisation (idem)

Étape d’itération :•Échantillon de la structure commune entre toutes les paires de séquences.•Une méthode basée sur la cohérence est appliquée pour les mise à jour des probabilités et le recalcule des scores de conservations.•Dans chaque itération , S structures sont échantillonnés entre chaque paire de séquence.•Chaque séquence est impliquée dans (N-1)S structures échantillons.

Page 25: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Les probabilités d’alignement (idem 2 séquences)À la fin de chaque itération, le score de conservation de tous les blocks et leurs probabilités à être échantillonner dans les itérations suivantes sont misent à jour, en utilisant les nouvelles probabilités de pairage et d’alignement. Les itérations continuent jusqu’à ce que le nombre des structures échantillonnées entre chaque paire de séquences converges.

Les probabilités de pairage de la séquence A est calculée comme suit:

Page 26: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

E. La structure commune des séquences multiplesla structure commune finale partagée par des séquences multiples est rapportée en assemblant des ensembles de tiges conservées compatibles en utilisant un algorithme vorace.Tous les blocks entre les paires de séquences sont rangés, en se basant sur leurs scores finals de conservation.Le block avec un haut score de conservation devient une graine(seed), et tous les blocks qui contiennent une des tiges dans le block graine sont collectés.Une nouvelle tige à partir du block avec un haut score de conservation dans le sous-enssemble est ajoutée à la graine.Le processus se répète aucun block ne reste.ClustalW pour aligner les tiges conservées et les régions simples brins, qui sont assemblées pour donner un alignement structural final.

Page 27: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

3. RESULTATS L’algorithme est implémenté en langage C

L’algorithme est testé dans différents ensembles de données,

contenant deux ou plusieurs séquences réelles

Sa performance a été comparée à d’autres méthodes de

prédiction de structures secondaires comme:

- CARNAC - Stemloc

- ARNalifold - FoldalignM

Page 28: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

RESULTATS Le coefficient de corrélation (CC) définit par Mathews et

Turner, est utilisé pour évalué la précision de la prédiction

qui est estimée comme la moyenne géométrique de la

sensibilité et la spécificité :

CC = √(SEN . SPE)

0 ≤ cc ≤ 1

SEN : est la fraction de la paire de bases rèelles qui sont

prédits correctement

SPE : est fraction de la paire de bases prédits réellement.

Page 29: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

3.1 Prédiction des structures communes

L’algorithme a été testé sur des données réelles

- sur 10 motifs d’ARN régulateur

ou - sur des familles du gène ncRNA

Extraits de la base de données Rfam.

Rfam : base de données de protéines

Y compris ces données:

Cobolamin, gcvT, glmS, purine, REN, sbox THI,

ARNt, U1 et yyb P-ykoY

Page 30: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

Ces ensembles de données ont été utilisées dans d’autres

études

Page 31: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

Pour la famille d’ARN de la B.D. Rfam, l’alignement a été

corrigé manuellement et aussi les structures communes

correspondantes qui sont utilisées pour déterminer exactement

les paires de base dans des séquences individuelles

Page 32: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

1. L’algorithme d’échantillonnage d’ARN est testé sur

un ensemble de deux séquences, générées à partir

de toutes les séquences uniques dans l’alignement

de chaque famille d’ARN.

Le test effectué consistait à calculer (cc)

La moyenne calculée cc = 0.60 dans un interval

[0.42..0.82]

Page 33: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

Cette valeur est très proche de la moyenne de la

méthode Dynalign cc=0.61, qui était la plus

performante par rapport à d’autres méthodes

La performance des programmes Stemloc et

RNAalifold est comparable a celle de l’algorithme

par échantillonnage d’ARN dans certains familles et

mauvaise dans d’autres.

Page 34: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Moyenne de cc, sen et spe de la prédiction de la structure secondaire commune

CC :coefficient de correlation

SEN: sensibilité

SPE: spécificité

Page 35: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Graphe

Comparaison entre les différentes méthodes en calculant la

moyenne de CC, SEN et SPE sur des ensembles de 10 familles

d’ARN de séquences-multiples

Page 36: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

L’algorithme d’échantillonnage

Dynalign

Stemloc

RNAalifold

Toutes ces méthodes donnent un (cc) meilleur que celui de la

méthode CARNAC

Page 37: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

Entre tous les programmes testés la méthode

d’échantillonnage donne une meilleure performance et une

vitesse plus rapide

Page 38: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

2. l’algorithme d’échantillonnage et les autres méthodes ont été

testés sur un ensemble de 10 familles d’ARN à multiple

séquences

Pour chaque famille d’ARN des ensembles de 100

séquences sont générées

Cinq séquences uniques sont sélectionnées aléatoirement à

partir de la BD Rfam de la graine d’alignement

Page 39: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

La précision de la prédiction par échantionnage d’ARN est

nettement améliorée sur plusieurs rapport par rapport à deux

séquences

En général, la méthode de prédiction par échantillonnage

d’ARN, donne une meilleure prédiction dans les dix familles

d’ARN avec une moyenne de :

CC = 0.72, SEN = 0.73, SPE = 0.72

Page 40: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

Cette méthode est la plus performante parmi toutes

les autres méthodes testées.

CARNAC : prédit seulement les structures

partiellement correctes, ce qui conduit à une faible

sensibilité et relativement à une bonne spécificité

Page 41: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

Stemloc: sa faible performance est donc due partiellement à la

faible valeur de (-nf) utilisé comme option dans le test

(-nf=100)

Les valeurs supérieures de (-nf) exigent plus d’espace

mémoire, ce qui rendu l’exécution plus lente et souvent la

mémoire ‘crasch ’

Page 42: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

RNAalifold : exige un alignement fiable pour une

bonne prédiction

(clustalw est utilisé pour l’alignement)

Ce programme a une bonne performance dans

l’ensemble de famille RFN qui a une identification

de séquence très élevée, et une faible performance

dans une faible identification de séquences.

Page 43: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

La méthode de prédiction par échantillonnage, a une bonne

performance dans la famille RFN et donne de bons résultats

Page 44: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

Dynalign donne la même ou légèrement une meilleure

sensibilité que la méthode de prédiction par échantillonnage

dans les familles de :

qcvT, sbox, yybp-ykoY et U1

Mais la méthode de prédiction montre une meilleure

sensibilité et en générale une performance dans d’autres

familles

Elle est plus rapide que Dynalign

Page 45: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

FoldalignM: a la 2ème meilleure performance après la méthode

de prédiction, et montre une aussi bonne prédiction sur les

familles:

Sbox, THI, RNAt et yybp-ykoY

Une faible sensibilité dans les autres familles

Page 46: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

La prédiction a été évaluée au niveau de la tige quand

la sensibilité (SEN) est la fraction des véritables tiges

qui se chevauchent avec les tiges prédits, et la

spécificité (SPE) est la fraction des tiges prédits qui

se chevauchent avec les tiges réelles .

Page 47: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

Avec ces mesures la moyenne CC, SEN et SPE la prédiction

échantillonnage d’ARN des dix familles augmentent de 0.72,

0.73, 0.72 au niveau de la paire de base jusqu’à 0.77, 0.80,

0.76 respectivement.

Page 48: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Prédiction des structures communes

Les autres méthodes sont presque similaires au niveau de la

paire de base.

Page 49: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

3.2 Prédiction d’alignements structuraux

Emploi et extension de méthode proposée dans étude ultérieure de l’alignement structural de deux séquences pour évaluer la perfomance de RNA Sampler sur un alignement structural de séquence multiple à travers un large rang de séquences identités.

Page 50: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Utiliser score des sommes des paires (SPS) la fraction des paires de bases alignées dans l’alignement référence, correctement aligné dans la prédiction d’alignement pour mesurer l’exactitude des alignements structuraux à un niveau de paires de bases.

L’index de conservation structural(SCI) calculé par RNAz, utilisé pour mesurer l’info de la structure conservée, contenue dans l’alignement prédit.(0 & 1)

Page 51: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Pour chacunes des 10 familles d’ARN, Génération aléatoire des ensembles de séquences multiples qui couvrent éventuellement un large éventail de paires de séquences identités significatives (entre 40% & 80%).

<40% famille ARNt. >80% famille de U1.

Page 52: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Utiliser l’alignement résultat de Rfarm, et les structures communes comme références pour comparer les alignements et les prédictions de structures (RNA Sampler et FoldalignM), ainsi que les résultats de RNAalifold(entrée:align de ClustalW)

Déterminer CC, SPS et SCI comme fonctions de la paire de séquences identités principales pour chaque famille d’ARN.

Page 53: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

CC : coefficient de corrélation

SEN : sensibilité

SPE : spécificité

Page 54: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Déterminer CC, SPS et SCI comme fonctions de la principale identité de paires de séquences, pour chaque famille d’ARN.

Le résultat de CC, montre que ARNsampler donne en général une meilleure prédiction de structure que FoldalignM par 10% à 20%.

D’autres part, la séquence identité entière varie exeptionnellement au dessus de 40% sur l’ensemble de données de ARNt.

Page 55: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

ARNsampler donne nettement de meilleures prédictions que RNAalifold dans l'ensemble de l'identité (au dessous de 80%), spécialement dans les régions à basse identité.

et donne de bonnes prédictions sur RNAalifold comme séquence fixe des identités au-dessus de 80%, les ensembles U1.

Page 56: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Les courbes SPS de RNAsampler, FoldalignM et ClustalW montrent une tendance similaire: les scores SPS ont tendance à diminuer avec la baisse des séquences identités.

Page 57: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Bien que les alignements structurels par RNAsampler et FoldalignM ne correspond pas tout à la référence Rfam alignements, la SCI donne de hauts scores proches de ceux des alignements de référence dans l'ensemble de l'identité de gamme, ce qui indique que leurs alignements ont en effet pris la structure de l'information conservée.

RNAsampler fait le mieux que FoldalignM, avec des scores SCI plus élevés dans les 40% -70% identité gamme.

Page 58: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

3.3 Prédiction des structures de Noeuds

RNA sampler peut prédire les structures à noeuds, si l’utilisateur autorise la formation de croisements de blocks de brins.

Paramétre X : nbre max de croisements autorisés dans structure.

RNAsampler testé sur des strctures de noeuds connues (séquences chefs de mRNA de 10 bactéries opéron α et 8 bactéries S15)

Page 59: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

RNAsampler ne prédit correctement que 46% des paires connues sur l’ensemble d’opérons α.

Mais 2 brins formant le noyau de la structure de noeuds etaient correctement prédits.

Les séquences chefs S15 peuvent former 2 structures alternatives:

1. Une contient des noeuds.2. L’autre est une structure de boucles de

tiges sans noeuds.

Page 60: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Au niveau des paires de bases, RNAsampler a donné une sensibilité de 0.74% et 0.76% pour les 2 alternatives de structures.

Il manquait qlques paires de base pour les longues tiges puisque les gonflements (ernies) et les boucles n’etaient pas autorisés dans les tiges.

Au niveau des tiges, RNAsampler prédit correctement ttes les tiges complétes des structures à noeuds est aussi dans une alternative de structure de boucle de tige quand les croisement sont autorisés.

Page 61: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

Les performances de RNAsampler sur ces ensembles de données sont moins bons que comRNA, mais meilleurs que les autres prgs testés dans l’étude de comRNA.

Le temps d’exécution de RNAsampler sur ces données est de 4 à 10mn.

Page 62: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

3.4 complexité de l’algorithme

La vitesse de l’algorithme est limité par l’étape d’itération.

Pour chaque itération, il prend O(m.n)pour générer m.n blocks possibles en comparant tous les m brins de la séquence A, et tous les n brins de la séquence B.

Page 63: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

complexité de l’algorithme

Le paramètre d est introduit, est le maximum de la

distance autorisée dans le block entre deux tiges, et la

contrainte de recueillir uniquement les tiges paires

avec un meilleur score réciproque de conservation

Réduit le nombre total des blocks des échantillons de

m.n à n (m≤n).

Page 64: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

complexité de l’algorithme

La procédure d’échantillonnage prend O(m) temps

pour éliminer les blocks en conflit en comparant les

blocks avec celui choisi.

Cependant la complexité du temps pour prédire une

structure commune entre deux séquences est de

l’ordre de O(m².r.S)

(r:nbre total d’itération, S:taille de échantillon ie nbre

de structure échantillonné pour chaque itération).

Page 65: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

complexité de l’algorithme

Pour 1 ensemble de séq multiples, RNA sampler échantillonne les structures communes entre ttes les paires de séq et la compléxité du temps devient O(m2.r.S.N2) (N:nbre de séquences)

Sur une données de 5 séq(long de 70 à 200nt), RNAsampler prend 6-180s pour compléter la prédiction de structure.

Page 66: RNA sampler: un nouvel algorithme basé sur léchantillonnage pour la prédiction de la structure secondaire commune & lalignement structural Par : Karima.

complexité de l’algorithme

CARNAC, RNAalifold et Stemloc ont un temps d’execution meilleur ou similaire à RNAsampler, mais ce dernier est plus exacte.

RNAsampler s’exécute plus rapidement que Dynalign et FoldalignM et donne les prédictions les plus éxactes.