Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b...

133
Analyse des séquences génomiques : Identification des ARNs circulaires et calcul de l’information négative Soutenance de Thèse de Alice Héliou Encadrée par Mireille Régnier (LIX) et co-encadrée par Hubert Becker (LOB) LOB Alice Héliou 1 / 39

Transcript of Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b...

Page 1: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Analyse des séquences génomiques :Identification des ARNs circulaires et calcul de

l’information négative

Soutenance de Thèse de Alice Héliou

Encadrée par Mireille Régnier (LIX) et co-encadrée par HubertBecker (LOB)

LOB

Alice Héliou 1 / 39

Page 2: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

1972Début du séquençage

Sanger et Gilbert

1973Arbre des suffixes

Weiner

Alice Héliou 2 / 39

Page 3: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

1972Début du séquençage

Sanger et Gilbert

1990

Dévelopement des PCRRéaction Polymérase en chaine

1973Arbre des suffixes

Weiner

1990

Table des suffixesManber et Myers

&BLAST, Altschul

Alice Héliou 2 / 39

Page 4: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

1972Début du séquençage

Sanger et Gilbert

1990

Dévelopement des PCRRéaction Polymérase en chaine

2000-2001

génome HumainAssemblage

1973Arbre des suffixes

Weiner

1990

Table des suffixesManber et Myers

&BLAST, Altschul

1994Transformée de

Burrows-Wheeler

Alice Héliou 2 / 39

Page 5: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

1972Début du séquençage

Sanger et Gilbert

1990

Dévelopement des PCRRéaction Polymérase en chaine

2000-2001

génome HumainAssemblage

2006

Début des NGSNext Generation Sequencing

1973Arbre des suffixes

Weiner

1990

Table des suffixesManber et Myers

&BLAST, Altschul

1994Transformée de

Burrows-Wheeler

2009

Bowtie etc ...Langmead et al.

Alice Héliou 2 / 39

Page 6: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

1972Début du séquençage

Sanger et Gilbert

1990

Dévelopement des PCRRéaction Polymérase en chaine

2000-2001

génome HumainAssemblage

2006

Début des NGSNext Generation Sequencing

20123ème générationSingle Molecule

Sequencing

1973Arbre des suffixes

Weiner

1990

Table des suffixesManber et Myers

&BLAST, Altschul

1994Transformée de

Burrows-Wheeler

2009

Bowtie etc ...Langmead et al.

2012

BarraCUDA, Klus et al. etc ...

Parallélisation del’alignement

Alice Héliou 2 / 39

Page 7: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée

1 Ma structure de données préféréeLa BWT et la table des suffixesLa table des LCPLes applicationsLa compression des meta-data

2 Et si les absents avaient raison ?

3 Les cercles qui ne rentrent pas dans le moule

Alice Héliou 3 / 39

Page 8: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

Rotations de S triées

Alice Héliou 4 / 39

Page 9: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

Rotations de S triées

Alice Héliou 4 / 39

Page 10: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

Rotations de S triées

Alice Héliou 4 / 39

Page 11: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

Rotations de S triées

Alice Héliou 4 / 39

Page 12: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

Rotations de S triées

Alice Héliou 4 / 39

Page 13: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

Rotations de S triées

Alice Héliou 4 / 39

Page 14: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

Rotations de S triées

Alice Héliou 4 / 39

Page 15: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

7 C # A A C A C A C

Rotations de S triées

Alice Héliou 4 / 39

Page 16: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

7 C # A A C A C A C

2 C A C A C C # A A

Rotations de S triées

Alice Héliou 4 / 39

Page 17: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

7 C # A A C A C A C

2 C A C A C C # A A

4 C A C C # A A C A

Rotations de S triées

Alice Héliou 4 / 39

Page 18: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

7 C # A A C A C A C

2 C A C A C C # A A

4 C A C C # A A C A

6 C C # A A C A C A

Rotations de S triées

Alice Héliou 4 / 39

Page 19: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.Si SA[i]>0 alors BWT[i]=S[SA[i]-1], sinon BWT[i]=#

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

BWT(S)=C#ACCCAAA, and SA(S)=[8,0,1,3,5,7,2,4,6]

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

SA BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

7 C # A A C A C A C

2 C A C A C C # A A

4 C A C C # A A C A

6 C C # A A C A C A

Rotations de S triées

Alice Héliou 4 / 39

Page 20: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

Alice Héliou 5 / 39

Page 21: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= #8

Alice Héliou 5 / 39

Page 22: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C7

#8

Alice Héliou 5 / 39

Page 23: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C7

#8

Alice Héliou 5 / 39

Page 24: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C6

C7

#8

Alice Héliou 5 / 39

Page 25: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C6

C7

#8

Alice Héliou 5 / 39

Page 26: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A5

C6

C7

#8

Alice Héliou 5 / 39

Page 27: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A5

C6

C7

#8

Alice Héliou 5 / 39

Page 28: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Page 29: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Page 30: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Page 31: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Page 32: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Page 33: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Page 34: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A1

C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Page 35: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A1

C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Page 36: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Page 37: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Page 38: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Page 39: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La table des LCP

Suffix Array Manber& Myers 1990 and Burrows-Wheeler Transform 1994

Suffix Array : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.LCP : Le plus long préfixe commun entre deux lignes.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C #

2 C A C A C C #

3 A C A C C #

4 C A C C #

5 A C C #

6 C C #

7 C #

8 #

Suffixes de S

LCP SA BWT0 8 # C

0 0 A A C A C A C C #

1 1 A C A C A C C # A

4 3 A C A C C # C

2 5 A C C # C

0 7 C # C

1 2 C A C A C C # A

3 4 C A C C # A

1 6 C C # A

Suffixes de S triés

Alice Héliou 6 / 39

Page 40: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée Les applications

Les applications

Compression sans perte des données,Recherche de motifs en combinant la table des suffixes et laBWT.

Alignement des données de séquençage sur le génome, BWA Liand Durbin 2009, Bowtie Langmead et al. 2009 etc ...

Alice Héliou 7 / 39

Page 41: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée Les applications

Les applications

Compression sans perte des données,Recherche de motifs en combinant la table des suffixes et laBWT.

Alignement des données de séquençage sur le génome, BWA Liand Durbin 2009, Bowtie Langmead et al. 2009 etc ...

Alice Héliou 7 / 39

Page 42: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La compression des meta-data

The Population BWT,Dolle et al. 2017

Pour chaque lecture ilsstockent (4 bytes) :

Le groupe de la lecture(2 bytes),Le nombre de basescorrigées (1 byte),Le nombre de bases defaibles qualités (1 byte).

Notre objectif était de sto-cker ( ? bytes) :

L’identifiant del’échantillon (1 byte),La lecture appariée ( ?).

Alice Héliou 8 / 39

Page 43: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La compression des meta-data

The Population BWT,Dolle et al. 2017

Pour chaque lecture ilsstockent (4 bytes) :

Le groupe de la lecture(2 bytes),Le nombre de basescorrigées (1 byte),Le nombre de bases defaibles qualités (1 byte).

Notre objectif était de sto-cker ( ? bytes) :

L’identifiant del’échantillon (1 byte),La lecture appariée ( ?).

Alice Héliou 8 / 39

Page 44: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Ma structure de données préférée La compression des meta-data

Nos résultats :

Il faut changer l’ordre des lec-tures.→ Perte d’espace pour laBWT.→ Gain d’espace importantpour les méta-données.→ Estimation d’une divisionpar deux de l’espace total.

Alice Héliou 8 / 39

Page 45: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ?

1 Ma structure de données préférée

2 Et si les absents avaient raison ?DefinitionLes applicationsLe lien avec les répétitions maximalesLes calculs des mots absents minimauxMots absents minimaux sur une fenêtre glissante

3 Les cercles qui ne rentrent pas dans le moule

Alice Héliou 9 / 39

Page 46: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.

Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Page 47: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Page 48: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Page 49: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Page 50: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Page 51: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Page 52: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Page 53: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Les applications

Les applications

Biologie3 séquences (TTTCGCCCGACT, TACGCCCTATCG, CCTACGCGCAAA),retrouvées dans des régions codantes de souches d’Ebola, sontabsentes du génome humain ( Silva et al. 2015).

BioInformatiqueDistance basée sur les mots absents minimaux→ Phylogénie (Chairungsee et al., 2012, Crochemore et al,2016).

InformatiqueCompression des donnés avec les anti-dictionnaires (Crochemoreet al., 2000, Fiala and Holub, 2008).

Alice Héliou 11 / 39

Page 54: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Les applications

Les applications

Biologie3 séquences (TTTCGCCCGACT, TACGCCCTATCG, CCTACGCGCAAA),retrouvées dans des régions codantes de souches d’Ebola, sontabsentes du génome humain ( Silva et al. 2015).

BioInformatiqueDistance basée sur les mots absents minimaux→ Phylogénie (Chairungsee et al., 2012, Crochemore et al,2016).

InformatiqueCompression des donnés avec les anti-dictionnaires (Crochemoreet al., 2000, Fiala and Holub, 2008).

Alice Héliou 11 / 39

Page 55: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Les applications

Les applications

Biologie3 séquences (TTTCGCCCGACT, TACGCCCTATCG, CCTACGCGCAAA),retrouvées dans des régions codantes de souches d’Ebola, sontabsentes du génome humain ( Silva et al. 2015).

BioInformatiqueDistance basée sur les mots absents minimaux→ Phylogénie (Chairungsee et al., 2012, Crochemore et al,2016).

InformatiqueCompression des donnés avec les anti-dictionnaires (Crochemoreet al., 2000, Fiala and Holub, 2008).

Alice Héliou 11 / 39

Page 56: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de S

Alice Héliou 12 / 39

Page 57: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de S

Alice Héliou 12 / 39

Page 58: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de S

Alice Héliou 12 / 39

Page 59: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de S

plus long préfixe de A : aw

plus long préfixe de Aa w

Alice Héliou 12 / 39

Page 60: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de Splus long préfixe de A

a w

plus long suffixe de A : wb

plus long suffixe de Abw

Alice Héliou 12 / 39

Page 61: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de Splus long préfixe de A

a wplus long suffixe de A

bw

w ba

ij

Alice Héliou 12 / 39

Page 62: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Le lien avec les répétitions maximales

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

LCP SA BWT0 8 C #

0 0 # A A C A C A C C

1 1 A A C A C A C C #

4 3 C A C A C C #

2 5 C A C C #

0 7 C C #

1 2 A C A C A C C #

3 4 A C A C C #

1 6 A C C #

Alice Héliou 13 / 39

Page 63: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Le lien avec les répétitions maximales

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

LCP SA BWT0 8 C #

0 0 # A A C A C A C C

1 1 A A C A C A C C #

4 3 C A C A C C #

2 5 C A C C #

0 7 C C #

1 2 A C A C A C C #

3 4 A C A C C #

1 6 A C C #

Alice Héliou 13 / 39

Page 64: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Les autres algorithmes de calcul des mots absents minimaux

Références Structures InconvénientsCrochemore et al., 1998 Automate

des suffixesTrop couteux enespace

Belazzougui et al. 2013 BWT compactbidirectionelle

Non implémenté

Ota et al. 2014 Arbre des suffixes, ap-proche dynamique

Quadratique entemps

Belazzougui et al. 2015 BWT & structuressupplémentaires

Non implémenté

Alice Héliou 14 / 39

Page 65: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Linear-time computation of minimal absent words using suffix array. BMC Bioinformatics, 2014

Pré-calculTable des suffixes, temps et espace linéaires 2003,Table des LCP, temps et espace linéaires avec la table dessuffixes et la séquence en entrée.

CalculOn traverse deux fois ces tables, pour construire l’ensemble delettres qui apparaissent avant chaque répétition maximale àdroite.On en déduit l’ensemble des mots absents minimaux.

PerformancesPour l’ensemble du génome humain :' 9000s avec 130GB de mémoire interne.

Alice Héliou 15 / 39

Page 66: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Linear-time computation of minimal absent words using suffix array. BMC Bioinformatics, 2014

Pré-calculTable des suffixes, temps et espace linéaires 2003,Table des LCP, temps et espace linéaires avec la table dessuffixes et la séquence en entrée.

CalculOn traverse deux fois ces tables, pour construire l’ensemble delettres qui apparaissent avant chaque répétition maximale àdroite.On en déduit l’ensemble des mots absents minimaux.

PerformancesPour l’ensemble du génome humain :' 9000s avec 130GB de mémoire interne.

Alice Héliou 15 / 39

Page 67: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Linear-time computation of minimal absent words using suffix array. BMC Bioinformatics, 2014

Pré-calculTable des suffixes, temps et espace linéaires 2003,Table des LCP, temps et espace linéaires avec la table dessuffixes et la séquence en entrée.

CalculOn traverse deux fois ces tables, pour construire l’ensemble delettres qui apparaissent avant chaque répétition maximale àdroite.On en déduit l’ensemble des mots absents minimaux.

PerformancesPour l’ensemble du génome humain :' 9000s avec 130GB de mémoire interne.

Alice Héliou 15 / 39

Page 68: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Les calculs des mots absents minimaux

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

LCP SA BWT0 8 C #

0 0 # A A C A C A C C

1 1 A A C A C A C C #

4 3 C A C A C C #

2 5 C A C C #

0 7 C C #

1 2 A C A C A C C #

3 4 A C A C C #

1 6 A C C #

Alice Héliou 16 / 39

Page 69: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Améliorations et compromis des performances de calcul

Parallelising the Computation of Minimal Absent Words, PPAM 2105Parallélisation efficace,Calcul pour le génome humain : ' 5000s avec 4 coeurs et130GB de mémoire interne.

Computing Minimal Absent Words in External Memory,Bioinformatics 2017Calcul pour le génome humain :' 8000s avec 8GB de mémoire interne,' 12000s avec 1GB de mémoire interne.

Les implémentations sont disponibles là :https://github.com/solonas13/maw

Alice Héliou 17 / 39

Page 70: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Améliorations et compromis des performances de calcul

Parallelising the Computation of Minimal Absent Words, PPAM 2105Parallélisation efficace,Calcul pour le génome humain : ' 5000s avec 4 coeurs et130GB de mémoire interne.

Computing Minimal Absent Words in External Memory,Bioinformatics 2017Calcul pour le génome humain :' 8000s avec 8GB de mémoire interne,' 12000s avec 1GB de mémoire interne.

Les implémentations sont disponibles là :https://github.com/solonas13/maw

Alice Héliou 17 / 39

Page 71: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Améliorations et compromis des performances de calcul

Parallelising the Computation of Minimal Absent Words, PPAM 2105Parallélisation efficace,Calcul pour le génome humain : ' 5000s avec 4 coeurs et130GB de mémoire interne.

Computing Minimal Absent Words in External Memory,Bioinformatics 2017Calcul pour le génome humain :' 8000s avec 8GB de mémoire interne,' 12000s avec 1GB de mémoire interne.

Les implémentations sont disponibles là :https://github.com/solonas13/maw

Alice Héliou 17 / 39

Page 72: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante

Calcul des mots absents minimaux sur une fenêtre glissante

Une séquence S de taille n, sur un alphabet de taille constante,Une fenêtre glissante de taille m sur S : S [i . . i + m − 1].

Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.

· · · S · · ·i i + m − 1

M(S [i . . i + m − 1])

Alice Héliou 18 / 39

Page 73: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante

Calcul des mots absents minimaux sur une fenêtre glissante

Une séquence S de taille n, sur un alphabet de taille constante,Une fenêtre glissante de taille m sur S : S [i . . i + m − 1].

Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.

· · · S · · ·i i + m − 1

M(S [i . . i + m − 1])

Alice Héliou 18 / 39

Page 74: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante

Application à la recherche de motifs

Mots absents minimaux dans une fenêtre glissantePour une sequence S de taille n et une fenêtre de taille m on calcule :∀i , 0 ≤ i ≤ n −m,M(S [i . . i + m − 1]),en temps O(n) et en espace O(m)

Length Weighted Index (LWI), introduit par Chairungsee en 2012

Mesure basée sur la différence symétrique des ensembles de motsabsents minimaux.

LWI(M(x),M(y)) =∑

w∈M(x)4M(y)

1|w |2 .

→ On obtient la position de distance minimale.

Alice Héliou 19 / 39

Page 75: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante

Application à la recherche de motifs

Mots absents minimaux dans une fenêtre glissantePour une sequence S de taille n et une fenêtre de taille m on calcule :∀i , 0 ≤ i ≤ n −m,M(S [i . . i + m − 1]),en temps O(n) et en espace O(m)

Length Weighted Index (LWI), introduit par Chairungsee en 2012

Mesure basée sur la différence symétrique des ensembles de motsabsents minimaux.

LWI(M(x),M(y)) =∑

w∈M(x)4M(y)

1|w |2 .

→ On obtient la position de distance minimale.

Alice Héliou 19 / 39

Page 76: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante

Application à la recherche de motifs

Mots absents minimaux dans une fenêtre glissantePour une sequence S de taille n et une fenêtre de taille m on calcule :∀i , 0 ≤ i ≤ n −m,M(S [i . . i + m − 1]),en temps O(n) et en espace O(m)

Length Weighted Index (LWI), introduit par Chairungsee en 2012

Mesure basée sur la différence symétrique des ensembles de motsabsents minimaux.

LWI(M(x),M(y)) =∑

w∈M(x)4M(y)

1|w |2 .

→ On obtient la position de distance minimale.

Alice Héliou 19 / 39

Page 77: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Et si les absents avaient raison ? conclusion

Algorithmes de calcul des mots absents minimauxAvec C. Barton, L. Mouchard, S. P. Pissis et S. Puglisi :

Calcul en temps et espace linéaires avec la table des suffixes,BMC Bioinformatics 2014,Calcul parallèle, PPAM 2015,Calcul en mémoire externe, Bioinformatics, 2017.

Avec M. Crochemore, G. Kucherov, L. Mouchard, S. P. Pissis et Y.Ramusat :

Calcul sur une fenêtre glissante et recherche de motifs, FCT2017.

Alice Héliou 20 / 39

Page 78: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule

1 Ma structure de données préférée

2 Et si les absents avaient raison ?

3 Les cercles qui ne rentrent pas dans le mouleLes ARNs circulairesL’alignment des lectures provenant d’ARNs circulairesLe cas de Pyrococcus AbyssiL’analyse d’autres organismes

Alice Héliou 21 / 39

Page 79: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Les ARNs circulaires

Les ARNs circulaires

CaractéristiquesPas d’extrémités → stabilité accrue,Découverts dans tous les domainesdu vivant,Très étudiés grâce au séquençagehaut débit.

FonctionsModifications post-transcriptionnelles pour la maturationd’ARNs,Éponges à ARNmi → régulation de l’expression des gènes,...

Alice Héliou 22 / 39

Page 80: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Les ARNs circulaires

Les ARNs circulaires

CaractéristiquesPas d’extrémités → stabilité accrue,Découverts dans tous les domainesdu vivant,Très étudiés grâce au séquençagehaut débit.

FonctionsModifications post-transcriptionnelles pour la maturationd’ARNs,Éponges à ARNmi → régulation de l’expression des gènes,...

Alice Héliou 22 / 39

Page 81: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Les ARNs circulaires

Figure adaptée de Meng et al. Briefings in Bioinformatics, 2016

Alice Héliou 23 / 39

Page 82: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule L’alignment des lectures provenant d’ARNs circulaires

L’alignement des lectures provenant d’ARNs circulairesGenome

Linear RNATranscription

Circularization

Sequencingand

Alignment

Circular RNA

match 1 match 2

≥ 3 ≥ 3≥ 0

≤ 10, 000

match 1match 2Genome

Circularizationjunction

Rnase HIIIFragmentation

Putativecircular read

LinearRead

Alice Héliou 24 / 39

Page 83: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule L’alignment des lectures provenant d’ARNs circulaires

Les critères de sélection

Annotations

Fenêtrede 100kb

Jonctions GT-AG

Danan et al.2012

CIRIGao et al. 2015

find_circMemczak et al.

2013

circRNA_finderWestholm et al.

2014circExplorerZhang et al. 2014

MapSpliceWang et al. 2010

SegemehlHoffmann et al.

2009,2014

Alice Héliou 25 / 39

Page 84: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Le cas de Pyrococcus Abyssi

Figure: PDB de PAB1020

L’équipe de H.Myllykallio a montré quel’enzyme PAB1020 est capable de circu-lariser :

Des petits ARNs synthétiques invitro (Brooks et al., 2009),Trois ARNs in vivo (ARNr 5S, deuxARN à boites C/D).

Objectifs des analyses des données de séquençage :Confirmer l’implication de la ligase dans la circularisation,Identifier les ARNs circulaires.

Alice Héliou 26 / 39

Page 85: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Le cas de Pyrococcus Abyssi

Figure: PDB de PAB1020

L’équipe de H.Myllykallio a montré quel’enzyme PAB1020 est capable de circu-lariser :

Des petits ARNs synthétiques invitro (Brooks et al., 2009),Trois ARNs in vivo (ARNr 5S, deuxARN à boites C/D).

Objectifs des analyses des données de séquençage :Confirmer l’implication de la ligase dans la circularisation,Identifier les ARNs circulaires.

Alice Héliou 26 / 39

Page 86: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Les expériences de sequençage

ProtéineARNADN

PontagecovalentProtéine-ARN

Extrac6ondesARNDégrada6ondeslinéaires

Extrac6ondesARN

Extrac6ondesARN&Dégrada6ondeslinéaires

Culture

SéquençageExpA

SéquençageExpB

SéquençageExpC

Alice Héliou 27 / 39

Page 87: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

genome· · · · · ·

cas 1 : la lecture s’aligne linéairement

lecture

match global

Alice Héliou 28 / 39

Page 88: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

genome· · · · · ·

cas 1 : la lecture s’aligne linéairement

lecture

match global

genome· · · · · ·

cas 2 : lecture circulaire avec deux matchs inversés

match 2 match 1

lecture

≥ 11 ≥ 11

≤ 10000

Alice Héliou 28 / 39

Page 89: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

genome· · · · · ·

cas 1 : la lecture s’aligne linéairement

lecture

match global

genome· · · · · ·

cas 2 : lecture circulaire avec deux matchs inversés

match 2 match 1

lecture

≥ 11 ≥ 11

≤ 10000

genome· · · · · ·

cas 3 : lecture avec un long match incomplet

≤ 10000

match partiel

≥ 11

lecture

< 11

recherche naïve du complémentaire

Alice Héliou 28 / 39

Page 90: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

A B C0

20

40

60

80

100

Ratio lectures alignees et non alignees

aligneesnon alignees

73.8% 11.5% 82.5%

A) Ligase-ARNB) Ligase-ARN sans linéairesC) ARN totaux sans linéaires

A B C0

20

40

60

80

100

Ratio circulaires et lineaires parmi les lectures alignees

circulaireslineaires

8.6% 14.4% 11.3%

· · · · · ·

linéaire

· · · · · ·

circulaire

Alice Héliou 29 / 39

Page 91: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

A B C0

20

40

60

80

100

Ratio lectures alignees et non alignees

aligneesnon alignees

73.8% 11.5% 82.5%

A) Ligase-ARNB) Ligase-ARN sans linéairesC) ARN totaux sans linéaires

A B C0

20

40

60

80

100

Ratio circulaires et lineaires parmi les lectures alignees

circulaireslineaires

8.6% 14.4% 11.3%

· · · · · ·

linéaire

· · · · · ·

circulaire

Alice Héliou 29 / 39

Page 92: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Visualisation de l’alignement deslectures circulaires sur l’ARN à boite

C/D sR53

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,

au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Page 93: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Uniquement les premiers matchs→ ils commencent tous à la même

position

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,

au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Page 94: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Uniquement les seconds matchs→ ils finissent tous à la mêmeposition (à 3 nucléotides près)

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,

au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Page 95: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Jonction sur l’ARN à boite C/D sR53

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,

au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Page 96: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Jonction sur l’ARN à boite C/D sR53

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Page 97: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Jonction sur l’ARN à boite C/D sR53

Visualisation de l’alignement deslectures circulaires sur l’ARNr 16S→ pas de jonction identifiable

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Page 98: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Loci contenant une jonction identifiéeARNsno à boites C/D Intron du ARNt-Trp

ARNr

ARN codant pourune protéine

ARN non annoté

Alice Héliou 31 / 39

Page 99: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

H.F. Becker, A. Héliou, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio, RNA Biology 2017

Diagramme de Venn des jonctions identifiées dans nos expériences

1 tRNA, 3 NA,

32 C/D,

1 tRNA, 3 rRNA,

1 NA, 15 Protein

2 rRNA,

1NA,

11 Protein

6 C/D,

3 NA

32 Protein

4 Protein

Ligase-ARN A

3 tRNA,

4 NA,

9 Protein

Ligase-ARN sans lineaires

B

ARN totaux

sans lineairesC

1 rRNA,

1NA

Les jonctions entourées sont enrichies en circulaires avec le traitement RNase R (dégrade leslinéaires).

Alice Héliou 32 / 39

Page 100: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

H.F. Becker, A. Héliou, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio, RNA Biology 2017

Diagramme de Venn des jonctions identifiées dans nos expériences

1 tRNA, 3 NA,

32 C/D,

1 tRNA, 3 rRNA,

1 NA, 15 Protein

2 rRNA,

1NA,

11 Protein

6 C/D,

3 NA

32 Protein

4 Protein

Ligase-ARN A

3 tRNA,

4 NA,

9 Protein

Ligase-ARN sans lineaires

B

ARN totaux

sans lineairesC

1 rRNA,

1NA

Les jonctions entourées sont enrichies en circulaires avec le traitement RNase R (dégrade leslinéaires).

Alice Héliou 32 / 39

Page 101: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes

Analyse des ARNs chez d’autres organismes

ProtéineOrganisme Caractéristique homolgue

à Pab1020Natrialba magadii Archée halophile ouiHaloferax volcanii Archée halophile nonAquifex aeolicus Bactérie hyperthermophile oui

Halorhodospira halophila Bactérie halophile oui

Alice Héliou 33 / 39

Page 102: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes

Nos premiers résultats, quantification par lociHaloferax volcanii (65)

49%

Codant pour Protéine (32)

31%

Non-annoté (20)

11%

ARNt (7)

8% ARNr (5)1%

ARN non codant (1)

Aquifex aeolicus (71)

48%

Codant pour Protéine (34)

13%Non-annoté (9)

4%

ARNtm (3)18%

ARNt (13)

16%ARNr (11)

1%Gene sans fonctionconnue (1)

Pyrococcus abyssi (133)

28%

Boite C/D (38)

53%Codant pourProtéine (71) 9%

Non-annoté (13)

3%ARNt (5)

4% ARNr (6)

Alice Héliou 34 / 39

Page 103: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes

Nos premiers résultats, quantification par lociHaloferax volcanii (65)

49%

Codant pour Protéine (32)

31%

Non-annoté (20)

11%

ARNt (7)

8% ARNr (5)1%

ARN non codant (1)

Aquifex aeolicus (71)

48%

Codant pour Protéine (34)

13%Non-annoté (9)

4%

ARNtm (3)18%

ARNt (13)

16%ARNr (11)

1%Gene sans fonctionconnue (1)

Pyrococcus abyssi (133)

28%

Boite C/D (38)

53%Codant pourProtéine (71) 9%

Non-annoté (13)

3%ARNt (5)

4% ARNr (6)

Alice Héliou 34 / 39

Page 104: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes

Analyse de la fonction de la ligase in vivo

Chez Thermococcus barophilus, Archée hyperthermophile.

Inactivation du gène codant pour la ligase, collaboration avecl’Ifremer (Brest).RNA-seq, et analyse des données de séquençage.

→ Comparaison des populations d’ARN circulaires avec et sans laligase.→ L’ARN ligase de la famille Rnl3 est-elle indispensable à lacircularisation ?

Alice Héliou 35 / 39

Page 105: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes

Analyse de la fonction de la ligase in vivo

Chez Thermococcus barophilus, Archée hyperthermophile.

Inactivation du gène codant pour la ligase, collaboration avecl’Ifremer (Brest).RNA-seq, et analyse des données de séquençage.

→ Comparaison des populations d’ARN circulaires avec et sans laligase.→ L’ARN ligase de la famille Rnl3 est-elle indispensable à lacircularisation ?

Alice Héliou 35 / 39

Page 106: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Conclusion

Identification des ARNs circulairesAvec H.F. Becker, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio,

"Hight-Throughput Sequencing Reveals Circular Substrates for an ArchaealRNA ligase", RNA Biology, 2017

Algorithmes de calcul des mots absents minimauxAvec C. Barton, L. Mouchard, S. P. Pissis et S. Puglisi

Calcul avec la table des suffixes, BMC Bioinformatics, 2014

Calcul parallèle, PPAM, 2015

Calcul en mémoire externe, Bioinformatics, 2017

Avec M. Crochemore, G. Kucherov, L. Mouchard, S. P. Pissis et Y. Ramusat

Calcul sur une fenêtre glissante et recherche de motifs, FCT 2017

Alice Héliou 36 / 39

Page 107: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Conclusion

Identification des ARNs circulairesAvec H.F. Becker, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio,

"Hight-Throughput Sequencing Reveals Circular Substrates for an ArchaealRNA ligase", RNA Biology, 2017

Algorithmes de calcul des mots absents minimauxAvec C. Barton, L. Mouchard, S. P. Pissis et S. Puglisi

Calcul avec la table des suffixes, BMC Bioinformatics, 2014

Calcul parallèle, PPAM, 2015

Calcul en mémoire externe, Bioinformatics, 2017

Avec M. Crochemore, G. Kucherov, L. Mouchard, S. P. Pissis et Y. Ramusat

Calcul sur une fenêtre glissante et recherche de motifs, FCT 2017

Alice Héliou 36 / 39

Page 108: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Perspectives

Perspectives

Algorithmes de calcul des mots absents minimauxImplémenter l’algorithme sur une fenêtre glissante.Comparer l’alignement de lectures avec cette méthode et lesalgorithmes classiques.

Identification des ARNs circulairesSéquencer d’autres organismes procaryotes et comparer leursARNs circulaires.Étendre la méthode aux organismes avec épissage.→ Utiliser un algorithme d’alignement plus approprié :

STAR (Dobin et al., 2013), BWA-MEM (Li et al, 2013), ...

Alice Héliou 37 / 39

Page 109: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Perspectives

Perspectives

Algorithmes de calcul des mots absents minimauxImplémenter l’algorithme sur une fenêtre glissante.Comparer l’alignement de lectures avec cette méthode et lesalgorithmes classiques.

Identification des ARNs circulairesSéquencer d’autres organismes procaryotes et comparer leursARNs circulaires.

Étendre la méthode aux organismes avec épissage.→ Utiliser un algorithme d’alignement plus approprié :

STAR (Dobin et al., 2013), BWA-MEM (Li et al, 2013), ...

Alice Héliou 37 / 39

Page 110: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Perspectives

Perspectives

Algorithmes de calcul des mots absents minimauxImplémenter l’algorithme sur une fenêtre glissante.Comparer l’alignement de lectures avec cette méthode et lesalgorithmes classiques.

Identification des ARNs circulairesSéquencer d’autres organismes procaryotes et comparer leursARNs circulaires.Étendre la méthode aux organismes avec épissage.→ Utiliser un algorithme d’alignement plus approprié :

STAR (Dobin et al., 2013), BWA-MEM (Li et al, 2013), ...

Alice Héliou 37 / 39

Page 111: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements

Alice Héliou 38 / 39

Page 112: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements

LOBHubert BeckerHannu MyllykallioRoxane LestiniYoann Collienet tous les autres

LIXMireille RégnierYann PontyPhilippe ChassignetAmélie HéliouAfaf SaaidiJuraj Michaliket tous les autres

Université de RouenLaurent Mouchard

King’s College LondonSolon PissisCarl Barton

Université d’HelsinkiSimon PuglisiUniversité Paris EstMaxime CrochemoreGregory Kucherov

ENS ParisYann Ramusat

Institut SangerThomas KeaneDirk Dolle

Alice Héliou 39 / 39

Page 113: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements

Nos premiers résultats, quantification par lectures alignées

Haloferax volcanii (1540)

19%

Codant pourProtéine (295)

68%Non-annoté(1046)

7.5%ARNt (100)

4% ARNr (61)1.5%

ARN non codant (24)

Aquifex aeolicus (3795)

6% Codant pourProtéine (220)

4%Non-annoté (143)20%

ARNtm (743)

8%

ARNt (310)

63%

ARNr (2377)

Pyrococcus abyssi (28279)

53%

Boite C/D (15074)

Codant pourProtéine (917)

3%

1%Non-annoté (515) 33%

ARNt (9359)

8% ARNr (2414)

Alice Héliou 39 / 39

Page 114: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements

Nos premiers résultats, quantification par lectures alignées

Haloferax volcanii (1540)

19%

Codant pourProtéine (295)

68%Non-annoté(1046)

7.5%ARNt (100)

4% ARNr (61)1.5%

ARN non codant (24)

Aquifex aeolicus (3795)

6% Codant pourProtéine (220)

4%Non-annoté (143)20%

ARNtm (743)

8%

ARNt (310)

63%

ARNr (2377)

Pyrococcus abyssi (28279)

53%

Boite C/D (15074)

Codant pourProtéine (917)

3%

1%Non-annoté (515) 33%

ARNt (9359)

8% ARNr (2414)

Alice Héliou 39 / 39

Page 115: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Un mot y de taille n, sur un alphabet de taille constante.Une fenêtre glissante de taille m sur y : y [i . . i + m − 1]

Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.

· · · y · · ·i i + m − 1

M(y [i . . i + m − 1])

Alice Héliou 39 / 39

Page 116: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Un mot y de taille n, sur un alphabet de taille constante.Une fenêtre glissante de taille m sur y : y [i . . i + m − 1]

Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.

· · · y · · ·i i + m − 1

M(y [i . . i + m − 1])

Alice Héliou 39 / 39

Page 117: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Lemme

La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).

→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).

Théoreme

La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|

est O(n).

→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.

Alice Héliou 39 / 39

Page 118: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Lemme

La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).

→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).

Théoreme

La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|

est O(n).

→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.

Alice Héliou 39 / 39

Page 119: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Lemme

La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).

→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).

Théoreme

La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|

est O(n).

→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.

Alice Héliou 39 / 39

Page 120: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Lemme

La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).

→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).

Théoreme

La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|

est O(n).

→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.

Alice Héliou 39 / 39

Page 121: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements L’arbre des suffixes

L’arbre des suffixes : une structure plus couteuse en espace mais dynamique

8

0

1 3

5

7

2 4

6

A

A. .C# C

C#

AC

ACC# C

#

C

C#

AC

ACC# C

#

#

S=A0A1C2A3C4A5C6C7#8

LCP SA0 80 01 14 32 50 71 23 41 6

Alice Héliou 39 / 39

Page 122: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements L’arbre des suffixes

L’arbre des suffixes : une structure plus couteuse en espace mais dynamique

8

0

1 3

5

7

2 4

6

A

A. .C# C

C#

AC

ACC# C

#

C

C#

AC

ACC# C

#

#

S=A0A1C2A3C4A5C6C7#8

LCP SA0 80 01 14 32 50 71 23 41 6

Alice Héliou 39 / 39

Page 123: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements Fenêtre glissante

L’arbre des suffixes pour une fenêtre glissante

Construction dynamique de l’arbre des suffixesWeiner en 1973 propose une construction de gauche à droiteMcCreight en 1976 propose une construction de droite à gaucheUkkonen en 1995 simplifie l’algorithme de Weiner

L’arbre des suffixes pour une fenêtre glissante, Senft 2005Enlever la lettre la plus à gauche,Mettre à jour les étiquettes des branches

Alice Héliou 39 / 39

Page 124: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements Fenêtre glissante

L’arbre des suffixes pour une fenêtre glissante

Construction dynamique de l’arbre des suffixesWeiner en 1973 propose une construction de gauche à droiteMcCreight en 1976 propose une construction de droite à gaucheUkkonen en 1995 simplifie l’algorithme de Weiner

L’arbre des suffixes pour une fenêtre glissante, Senft 2005Enlever la lettre la plus à gauche,Mettre à jour les étiquettes des branches

Alice Héliou 39 / 39

Page 125: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements Fenêtre glissante

Les mots absents minimaux pour une fenêtre glissante

Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.

Ajout sur l’arbre de l’information contenue dans la BWT.Ajout sur l’arbre des mots absent minimaux

La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.

Alice Héliou 39 / 39

Page 126: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements Fenêtre glissante

Les mots absents minimaux pour une fenêtre glissante

Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.

Ajout sur l’arbre de l’information contenue dans la BWT.

Ajout sur l’arbre des mots absent minimaux

La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.

Alice Héliou 39 / 39

Page 127: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements Fenêtre glissante

Les mots absents minimaux pour une fenêtre glissante

Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.

Ajout sur l’arbre de l’information contenue dans la BWT.Ajout sur l’arbre des mots absent minimaux

La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.

Alice Héliou 39 / 39

Page 128: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements Fenêtre glissante

Les mots absents minimaux pour une fenêtre glissante

Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.

Ajout sur l’arbre de l’information contenue dans la BWT.Ajout sur l’arbre des mots absent minimaux

La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.

Alice Héliou 39 / 39

Page 129: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements Fenêtre glissante

4

2 0

5 3 1

6

A(0,0)

C(1,1)

A(2,2)

GC(6,7)

AGC(5,7)

CAAGC(3,7)

AGC(5,7)

CAAGC(3,7)

CA(1,2)A

GC(5,7) G

C(6,7)

S =A0C1A2C3A4A5G6C7

Alice Héliou 39 / 39

Page 130: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements Fenêtre glissante

4

2 0

5 3 1

6

A(0,0)

C(1,1)

A(2,2)

GC(6,7)

AGC(5,7)

CAAGC(3,7)

AGC(5,7)

CAAGC(3,7)

CA(1,2)A

GC(5,7) G

C(6,7)

z0 =A0C1A2C3A4A5G6C7

M(z0)= {AAA,GA,AAC,CACAC,CAG,CC,GCA,CG,GG}

B= {C}M= {A}

B= {A,C}

M= {G}

B= {A}

M= {C,G+}

B= {C}M= ∅

B= ∅M= {C}

B= {A}M= {C}

B= {A}M= ∅

B= {A}M= ∅

B= {C}M= {A}

B= {A}M= {C,G}

Alice Héliou 39 / 39

Page 131: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements Fenêtre glissante

4

2 0

5 3 1

6

A(0,0)

CA(1,2)

GCA(6,8)

AGCA(5,8)

CAAGCA(3,8)

AGCA(5,8)

CAAGCA(3,8)

CA(1,2)A

GCA(5,8) G

CA(6,8)

z0 · A =A0C1A2C3A4A5G6C7A8

M(z0 · A)= {AAA,GA,AAC,CACAC,CAG,CC,GCAA,GCAC,CG,GG}

B= {C}M= {A}

B= {A,C}

M= {G}

B= {A,G}

M= {C,G}

B= {C}M= ∅

B= ∅M= {C}

B= {A}M= {C}

B= {A}M= {G}

B= {A}M= {G}

B= {C}M= {A}

B= {A}M= {C,G}

Alice Héliou 39 / 39

Page 132: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements Fenêtre glissante

4

2 0

5 3 1

6

A(0,0)

CA(1,2)

GCA(6,8)

AGCA(5,8)

CAAGCA(3,8)

AGCA(5,8)

CAAGCA(3,8)

CA(1,2)A

GCA(5,8) G

CA(6,8)

A · z1 =A0C1A2C3A4A5G6C7A8

M(A · z1)\M(z1)= {CACAC}

B= {C}M= {A}

B= {A,C}

M= {G}

B= {A,G}

M= {C}

B= {C}M= ∅

B= ∅M={C}

B= {A}M= {C}

B= {A}M= {G}

B= {A}M= {G}

B= {C}M= {A}

B= {A}M= {C,G}

Alice Héliou 39 / 39

Page 133: Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b L:a L2ti :2M2` iBQM a2[m2M+BM; RNdj `#`2 /2b bm{t2b q2BM2` RNNy h #H2 /2b bm{t2b J

Remerciements Fenêtre glissante

4 2 5 3 1

6

A(0,0)

CA(1,2)

GCA(6,8)

AGCA(5,8)

CAAGCA(3,8)

CAAGCA(4,8)

AGCA(5,8) G

CA(6,8)

z1 = C1A2C3A4A5G6C7A8

M(z1)= {AAA,GA,AAC,CAG,CC,GCAA,ACAC,GCAC,CG,GG}

B= {C}M= {A}

B= {A,C}

M= {G}

B= {A,G}

M= {C}

B= {C}M= {A}

B= {A}M= {C}

B= {A}M= {G}

B={A}M= {A,G}

B= {A}M= {C,G}

Alice Héliou 39 / 39