Prédiction markovienne in silico des régions constantes et variables des lentivirus

61

description

Prédiction markovienne in silico des régions constantes et variables des lentivirus. Aurélia Boissin-Quillon. UMR754 « Rétrovirus et pathologie comparée » UMR5208 « Institut Camille Jordan ». Directeurs de thèse : Dr Caroline Leroux (DR,INRA) Pr Didier Piau (PR, Université Grenoble 1). - PowerPoint PPT Presentation

Transcript of Prédiction markovienne in silico des régions constantes et variables des lentivirus

Page 1: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus
Page 2: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Prédiction markovienne in silico des régions constantes et

variables des lentivirus

Aurélia Boissin-Quillon

Directeurs de thèse : Dr Caroline Leroux (DR,INRA)

Pr Didier Piau (PR, Université Grenoble 1)

UMR754 « Rétrovirus et pathologie comparée »UMR5208 « Institut Camille Jordan »

Page 3: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Famille des Retroviridae Virus enveloppés à ARN Génome constitué de deux copies d’ARN simple brin

Les rétrovirus

gag

pol

env

SU TM

LTR

LTR

Page 4: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Le genre lentivirus

Un genre de la famille des Retroviridae Composé de HIV, EIAV, SRLV, SIV, FIV, BIV Grande variabilité génétique générée lors de la synthèse du matériel génétique

Page 5: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Répartition des mutations le long du génome des lentivirus

Mutations pas réparties de manière homogène Principalement gène env, notamment dans la partie codant la glycoprotéine de surface (SU). SU constituée d'une successionsuccession de régionsde régions constantes (constantes (pas ou peu de variabilité génétique) et de régionset de régions variablesariables (nombreuses mutations).

Page 6: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Réference1234567891011121314

QEYQCKKVNLNSSDSSNPVR------VEDVMNTTEYWGFKWLEC..........T--------------------D......................T--------------------D......................T--------------------D.I....................TT-------------------.......................M--------------------.......................M--------------------.......................M--------------------.................................------......................................------......................................------....I..............................T..------....I.................................------............................TA.N..IS.S------GKGERD..................E...TLKS.NSSIPPIHVED...EG.IM.F........

ENEMVNIND........G........G........V......ND-...............................................................................SV........-

TDTWIPKGCNETWAN.............N.............N.............N............PN.............N........................................................N........................................NG............N...T.........

QPPFFLVQEKGIANTSRIGNCGPTIFL........G.E........................G.E.D......................GE.........................G...T...K..................G..........................G..............................................................................................................................................................................................E..S.......................RVN..A...........

175|

269 295 | |

248 |

V V V

NQTENFKTILVP.........V.......L..............................................................................................................................

............ .....L......

C C C C

Page 7: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Identification de régions C et V chez tous les lentivirus

BIV

V1 V2 V3 V4 V5 V6

(550 aa)

C1 C2 C3 C4 C5 C6 C7

EIAV

V1 V2 V3 V4 V5 V6 V7 V8

(440 aa)C1 C2 C3 C4 C5 C6 C7 C8 C9

SIV

V1 V2 V3 V4 V5

(530 aa)

C1 C2 C3 C4 C5 C6

Page 8: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Le contexte biologique

Grande variabilité de tous les génomes lentiviraux entraîne des modifications de la biologie des virus : Échappement à la réponse immunitaire, virulence, tropisme cellulaire…

L’accumulation de mutations dans les régions variables peut provenir de :

• Taux de mutations localement élevé• Mécanismes de sélection• Combinaison de ces deux phénomènes

Page 9: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Déterminer s’il existe des signatures spécifiques des régions constantes et variables des lentivirus

Objectif

Page 10: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Méthode :Utiliser des outils mathématiques capables de segmenter les séquences en régions constantes et variables afin d’en extraire des caractéristiques de chacun de ces deux types de régions.

Page 11: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Le contexte biologique

Les outils mathématiques

Modèles prédictifs des régions constantes et variables d’EIAV

Extension des modèles aux autres lentivirus

Extraction de mots caractéristiques

Une autre application des modèles

Conclusions et perspectives

Plan

Page 12: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Un peu de vocabulaire…

TAC

Séquence

Lettre Mot

ACTATATT

Alphabet à 4 lettres : A={A,C,G,T}

Nucléotides Acides aminés

WYI

Alphabet à 20 lettres : A={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}

Lettre Mot

LASHMRDP

Page 13: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Nombreuses méthodes de segmentation des séquences :

Modèles de rupture

Modèles de Markov cachés

Comment segmenter lesséquences (nt ou aa)?

Page 14: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Les modèles de Markov cachés

Chaîne de Chaîne de Markov 1Markov 1

Chaîne de Chaîne de Markov 2Markov 2

Chaîne de Chaîne de Markov 2Markov 2

Chaîne de Chaîne de Markov 1Markov 1

La succession des états cachés est décrite par une chaîne de Markov inobservable : la chaîne cachée

Une séquence hétérogène est considérée comme une succession de régions statistiquement homogènes appelées états cachés.

V1 V2C1 C2

Page 15: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Les différents modèles de Markov cachés

• Le modèle M1-M0 :Le modèle M1-M0 :

C

C C C V V C

A C T

Chaîne des états

Chaîne des observations

G

• Le modèle M1-M1 :Le modèle M1-M1 :• Le modèle M1-M5 :Le modèle M1-M5 :

C

T

Page 16: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Les paramètres des modèles de Markov cachés

Un modèle de Markov caché M1-Mm est entièrement défini par :

Le nombre N d’états cachés qui correspond au nombre de types de régions

Le nombre M de lettres différentes dans la séquence Les lois initiales qui permettent de modéliser ce qui se passe au début de la séquence au niveau des états et au niveau des observations

La matrice de transition T de la chaîne des états

La matrice d’émission E de la chaîne des observations

Page 17: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Les matrices de transition T et d’émission E

La matrice de transition TElle modélise la relation entre les états (passage d’un type de région à l’autre)

T(k,l)=P(Si+1=l | Si=k) pour k,l Є S avec ∑l ЄS T(k,l)=1

La matrice d’émission EElle modélise la relation entre les observations et les états.

Soit xi:j = (xi,xi+1,…,xj), alors, pour a1:m+1 Є A et k Є S :

E(k ,a1:m,am+1)=P(Xi+1=am+1 | Xi-m+1:i =a1:m, Si+1=k )

avec ∑am+1 Є A E(k ,a1:m, am+1) = 1

E =

MC

MV

Page 18: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Estimation des paramètres

Soient X(1),..,X(p) p séquences nucléotidiques ou déduites en acides aminés.Soit θ= {T,E} l’ensemble des paramètres du modèle à estimer.

On cherche : θ = argmax P(X(1),…,X(p) | θ)

Deux situations : La séquence des états cachés est connue (alignement) Comptage direct La séquence des états cachés est inconnue Algorithme de Baum-Welch

^

Page 19: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Algorithme de Baum-Welch

Algorithme de Baum-Welch = cas particulier de l’algorithme EM

Algorithme itératif consistant en l’alternance de deux phases:

• Phase E : Estimation de la séquence des états cachés • Phase M : Maximisation de la vraisemblance

A chaque itération, un nouvel ensemble de paramètres θ’ augmentant la vraisemblance est défini.

(expectation-maximisation)

Convergence vers un maximum local

Page 20: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Reconstruction de la séquence des états cachés

Séquence des états cachés les plus probables

Pour tout 1 ≤ i ≤ n et tout k Є S, on calcule : P(Si=k | X)

A C G T G C C TAA A TC TTG

C C C C V V V CCV C VC VVV

A C G T G C C TAA A TC TTG

1 1 1 1 2 2 2 111 2 22 222

Séquence des observations

Séquence des états cachés

Régions C et V

Page 21: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Le contexte biologique

Les outils mathématiques

Modèles prédictifs des régions constantes et variables d’EIAV

Extension des modèles aux autres lentivirus

Extraction de mots caractéristiques

Une autre application des modèles

Conclusions et perspectives

Plan

Page 22: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Le matériel utilisé

EIAV

V1 V2 V3 V4 V5 V6 V7 V8

187 séquences (GenBank)1200 nt ou 400 aa

Échantillon d’apprentissage : 94

Échantillon de test : 93

Page 23: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Quels modèles de Markov cachés?

Alphabet4 lettres (nt)

20 lettres (aa)

Nombre d’états cachés N

Deux types de régions : C et V N=2

Ordre du modèle mPas de procédure statistique bien définie augmentation progressive

Page 24: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

V5V1 V2 V6 V7 V8V3 V4

200 400 800 1000 12000 600

État 2

État 1

nucléotides

Modèle M1-M5 sur les séquences nucléotidiques

Oscillation de la séquence des états cachés

Page 25: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Amélioration de l’estimation de la matrice d’émission Introduction d’une information supplémentaire

La matrice d’émission E va être estimée par comptage direct.

La matrice de transition T va être estimée par une variante de l’algorithme de Baum-Welch.

Algorithme de Baum-Welch avec matrice d’émission fixée

Définition d’un nouvel algorithme

Page 26: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Estimation des matrices d’émission sur chaque type de régions par comptage direct après alignement des séquences d’entraînement

Estimation de la matrice de transition T avec l’algorithme de Baum-Welch dont la phase M a été modifiée pour garder la matrice d’émission E à sa valeur estimée

Assemblage des matrices d’émission de chaque type de régions pour former un estimateur de la matrice E

Description de l’algorithme de Baum-Welch avec matrice d’émission fixée

Page 27: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Influence de l’ordre sur la qualité prédictive

Modèle M1-M0 sur les séquences nucléotidiques

V5V1 V2 V6 V7 V8V3 V4

200 400 800 1000 12000 600

État 2

État 1

nucléotides

V5V1 V2 V6 V7 V8V3 V4

Page 28: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Influence de l’ordre sur la qualité prédictive

Modèle M1-M1 sur les séquences nucléotidiques

V5V1 V2 V6 V7 V8V3 V4

200 400 800 1000 12000 600

État 2

État 1

nucléotides

V5V1 V2 V6 V7 V8V3 V4

Page 29: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Les régions C et V d’EIAV ont des compositions en mots de nucléotides différentes

200 400 800 1000 12000 600

État 2

État 1

nucléotides

V5V1 V2 V6 V7 V8V3 V4

Modèle M1-M5 sur les séquences nucléotidiques

Page 30: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

100 200 4000 300

État 2

État 1

acides aminés

V5V1 V2 V6 V7 V8V3 V4

Les régions C et V d’EIAV ont des compositions en mots d’acides aminés différentes

Modèle M1-M1 sur les séquences déduites en acides aminés

Page 31: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Pour résumer :Il existe des modèles de Markov cachés d’ordre 5 sur les nucléotides ou d’ordre 1 sur les acides aminés capables de différencier avec une grande précision les régions C et V d’EIAV

Les régions C d’EIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état

Les régions V d’EIAV possèdent des propriétés statistiques suffisamment similaires pour être reconnues par un seul état, tout en ayant chacune un profil statistique qui lui est propre

Il existe des différences statistiques entre les compositions en mots de nucléotides ou d’acides aminés des régions C et V

Page 32: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

V5V1 V2 V6 V7 V8V3 V4

État 5

État 8

État 9

État 6

État 7

État 3

État 4

État 2

État 1

200 400 800 1000 12006000

Modèle M1-M5 sur les séquences nucléotidiques

nucléotides

Les régions V d’EIAV ont des compositions en mots de nucléotides différentes

Page 33: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Un biais possible : le surentraînement

Exemple de séquence d’apprentissage : séquence précoce

Exemple de séquence de test : séquence tardive

V1 V2 V3 V4

V1 V2 V3 V4

jours post- infection

37 -

38 -

39 -

40 -

41 -

42 -

- 50

- 100

- 150

- 200

- 250

- 0

- 10

0

- 20

0

- 30

0

- 60

0

- 50

0

- 40

0

- 70

0

- 80

0

- 90

0

- 10

00

Tem

per

atur

e °C

séquence tardiveséquence précoce

CKRVNLKKVNLTSSDSSIRVEDVGNTTEYWG

CKEVYWG

Page 34: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Les modèles ne sont pas surentraînés

V5V1 V2 V6 V7 V8V3 V4

État 5

État 8

État 9

État 6

État 7

État 3

État 4

État 2

État 1

200 400 800 1000 12006000

Modèle M1-M5 sur les séquences nucléotidiques

nucléotides

Page 35: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Un autre biais possible : influence de l’ordre et de la position des régions variables

Exemple de séquence d’apprentissage

Exemple de séquence de test

V1 V2 V3 V7 V8

V1 V2 V3 V7 V8V7’

Page 36: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Les modèles ne sont pas influencés par l’ordre ou la position des régions variables

V5V1 V2 V6 V7 V8V3 V4

État 5

État 8

État 9

État 6

État 7

État 3

État 4

État 2

État 1

200 400 800 1000 12006000

nucléotides

V7’

Page 37: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Il est possible de différencier les régions C et V d’EIAV à l’aide de modèles de Markov cachés.

Ces modèles ne sont basés ni sur un alignement de séquences, ni sur l’identification de grands motifs, ni sur l’ordre, la position ou la longueur des différentes régions.

Ces modèles s’appuient sur la composition en mots de nucléotides ou d’acides aminés de chaque type de région.

Il existe des différences statistiques entre les compositions en mots de nucléotides ou d’acides

aminés des régions C et V

Pour résumer :

Page 38: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Quantification de la séparationdes régions C et V d’EIAV

Définition d’une « distance » entre matrices d’émission :

Soient P et Q les matrices de transition de deux chaînes de Markov et π la mesure stationnaire associée à P.

H(P|Q) = ∑(i,j) π(i) P(i,j) logP(i,j)

Q(i,j)

δ(P,Q)=H(P|Q)+H(Q|P)

Entropie relative :

Entropie relative symétrisée :

Page 39: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Il existe une séparation entre le groupe des régions constantes et le groupe des régions variables.

Test statistique il existe une différence significative entre les régions constantes et variables chaque région possède une signature qui lui est propre.

Etude de la séparation des régions C et V d’EIAV

Etude de la distance entre les régions constantes et variables d’EIAV :

δ(Ci,C) < δ(Ci,Vj) pour tous i et j

δ(Vi,V) < δ(Vi,Cj) pour tous i et j

Page 40: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Le contexte biologique

Les outils mathématiques

Modèles prédictifs des régions constantes et variables d’EIAV

Extension des modèles aux autres lentivirus

Extraction de mots caractéristiques

Une autre application des modèles

Conclusions et perspectives

Plan

Page 41: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus

Exemple : HIV-1

Modèle M1-M5 sur les séquences nucléotidiques

nucléotides

Page 42: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Définition de modèles de Markov cachés prédictifs des régions C et V des autres lentivirus

Exemple : HIV-1

Modèle M1-M1 sur les séquences déduites en acides aminés

acides aminés

Page 43: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Performance des modèles

Lentivirus% d’acides aminés

bien étiquetés

EIAV 96

HIV-1 94

SIV 89

SRLV 96

Page 44: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Un modèle capable de différencier les régions C et V d’HIV-2?

V1/V2 V3 V4 V5

0 100 200 300 400 500

Etat 1

Etat 2

acides aminés

Modèle M1-M1 sur les séquences déduites en acides aminés

Page 45: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Définition des régions C et V d’HIV-2

V1/V2 V3 V4 V5

V1/V2 V3 V4 V5

V1/V2 V3 V4 V5

HIV-1

Homologie

Alignement

Page 46: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Il existe des régions C et V d’HIV-2 qui possèdent des caractéristiques statistiques différentes

0 100 200 300 400 500

Etat 1

Etat 2

acides aminés

Modèle M1-M1 sur les séquences déduites en acides aminés

V1/V2 V3 V4 V5

Page 47: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Il est possible de définir des modèles de Markov cachés capables de différencier

avec une bonne précision les régions constantes et variables des lentivirus

EIAV, HIV, SIV et SRLV.

Page 48: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Les régions C et V possèdent des propriétés statistiques communes

acides aminés

Modèle M1-M1 sur les séquences déduites en acides aminés

Page 49: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

acides aminésacides aminésacides aminés

Page 50: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Le contexte biologique

Les outils mathématiques

Modèles prédictifs des régions constantes et variables d’EIAV

Extension des modèles aux autres lentivirus

Extraction de mots caractéristiques

Une autre application des modèles

Conclusions et perspectives

Plan

Page 51: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Analyse en Composantes Principales

Page 52: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Extraction de mots caractéristiques des régions C et V des lentivirus

Mot caractéristique = mot qui apparaît fréquemment dans un type de région

Méthode d’extraction :

MC = {w / FreqC(w) ≥ sC} MV = {w / FreqV(w) ≥ sV}

On veut définir :

et

séquences constantes (SeqC) majorité de mots MCséquences variables (SeqV) majorité de mots MV

tels que

On maximise P = P(majorité MC | SeqC) + P(majorité MV | SeqV)

Page 53: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Exemples de mots caractéristiques

Extraction de mots de 2 acides aminés caractéristiques des régions C et V de l’ensemble des lentivirus à partir du modèle combiné M1-M1 : (sc,sv)=(75,45)

MC

(216)

AE, AG, AV, AW, AY, CA, CC, CD, CG, CH, CL, CP, CQ, CR, CW, DA, DF, DG, DH, DM, HY, IE, IF, IH, IV, IW, IY, KA, KC, LE, LG, LH, RF, RH, RM, RR, RS, RV, SC, SE, SF, SL, SP, SV, SW, WM, WN, WP, YQ, YV, YY…

MV

(85)

AD, AL, AN, CE, GK, GN, GT, HH, HI, HV, IC, ID, IN, KG, KI, KK, KM, LD, LF, MD, MG, NS, NT, NY, PH, PK, PN, PR, QG, QN, RI, RK, SN, SR, SS, ST, TA, TD, TK, TL, TM, TN, WG, WI, WT, YA, YL, YN, YR, YW…

Extraction de mots de 6 nucléotides caractéristiques des régions C et V de l’ensemble des lentivirus à partir du modèle combiné M1-M5 : (sc,sv)=(75,45)

MC

(2080)

AAAACC, AAAAGC, AAAATT, AAACAG, AAACAT, AAACCC, AATCTA, AATCTC, AATCTG, AATGCC, AATGCG, CGGTTT, CGTATT, CGTCAG, CGTCAT, CGTCCA, CGTCTG, GCCTTT, GCGACA, GCGACC, GCGACG, GCGCAT, GCGCCC, GCGCCT, GCGCTC, GCGCTG, GCGGAA, GCGGCA, GCGGCT, GCGGGT, GCGGTA, TAATTT, TACACA, TTGTGA, TTGTGC, TTGTGG, TTGTTG, TTTAAA, TTTAAC, TTTAAG…

MV

(1007)

AACTAT, AACTCT, AACTGA, AACTGT, AACTTT, AAGACG, CCGTCA, CCTAAC, CCTAAG, CCTACA, CCTAGA, CTAGGT, CTAGTG, CTAGTT, CTGTCG, CTGTTC, CTGTTT, GATATA, GATCTT, GATGAC, GGGATT, GGGCGA, GGGCGC, GGGTAG, GTCGGC, TTAGTC, TTATAA, TTATTG, TTCAAC, TTCAGA...

Page 54: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Le contexte biologique

Les outils mathématiques

Modèles prédictifs des régions constantes et variables d’EIAV

Extension des modèles aux autres lentivirus

Extraction de mots caractéristiques

Une autre application des modèles

Conclusions et perspectives

Plan

Page 55: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Une reconstruction phylogénétique possible

Une distance entre virus :

Soit d(N|M) le pourcentage d’erreurs commises par le modèle M sur des séquences du virus N.

D(N,M)=d(N|M) + d(M|N)

HIV2

SIV

HIV1

SRLV

EIAV

5EIAV

SRLV

HIV-1

HIV-2

SIV

5

Page 56: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Le contexte biologique

Les outils mathématiques

Modèles prédictifs des régions constantes et variables d’EIAV

Extension des modèles aux autres lentivirus

Extraction de mots caractéristiques

Une autre application des modèles

Conclusions et perspectives

Plan

Page 57: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Conclusions

Mise au point d’une variante de l’algorithme de Baum-Welch permettant une segmentation fine des séquences

Différenciation des régions C et V de tous les lentivirus grâce à leur composition en mots de nucléotides ou d’acides aminés.

Existence une signature spécifique des régions V commune à l’ensemble des lentivirus.

Mise en évidence de mots caractéristiques des régions C et V des lentivirus.

Page 58: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus

Perspectives

Analyser en détails les motifs caractéristiques des régions constantes et variables

Développer un logiciel permettant d’identifier les régions constantes et variables de nouvelles séquences de lentivirus sans avoir besoin d’aligner ces séquences avec des séquences connues.

Etendre les modèles à d’autres régions du génome ou à d’autres virus ou à la recherche d’autres hétérogénéités « fines »

Page 59: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus
Page 60: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus
Page 61: Prédiction markovienne  in silico  des régions constantes et variables des lentivirus