Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b...

Post on 17-Aug-2020

5 views 0 download

Transcript of Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b...

Analyse des séquences génomiques :Identification des ARNs circulaires et calcul de

l’information négative

Soutenance de Thèse de Alice Héliou

Encadrée par Mireille Régnier (LIX) et co-encadrée par HubertBecker (LOB)

LOB

Alice Héliou 1 / 39

1972Début du séquençage

Sanger et Gilbert

1973Arbre des suffixes

Weiner

Alice Héliou 2 / 39

1972Début du séquençage

Sanger et Gilbert

1990

Dévelopement des PCRRéaction Polymérase en chaine

1973Arbre des suffixes

Weiner

1990

Table des suffixesManber et Myers

&BLAST, Altschul

Alice Héliou 2 / 39

1972Début du séquençage

Sanger et Gilbert

1990

Dévelopement des PCRRéaction Polymérase en chaine

2000-2001

génome HumainAssemblage

1973Arbre des suffixes

Weiner

1990

Table des suffixesManber et Myers

&BLAST, Altschul

1994Transformée de

Burrows-Wheeler

Alice Héliou 2 / 39

1972Début du séquençage

Sanger et Gilbert

1990

Dévelopement des PCRRéaction Polymérase en chaine

2000-2001

génome HumainAssemblage

2006

Début des NGSNext Generation Sequencing

1973Arbre des suffixes

Weiner

1990

Table des suffixesManber et Myers

&BLAST, Altschul

1994Transformée de

Burrows-Wheeler

2009

Bowtie etc ...Langmead et al.

Alice Héliou 2 / 39

1972Début du séquençage

Sanger et Gilbert

1990

Dévelopement des PCRRéaction Polymérase en chaine

2000-2001

génome HumainAssemblage

2006

Début des NGSNext Generation Sequencing

20123ème générationSingle Molecule

Sequencing

1973Arbre des suffixes

Weiner

1990

Table des suffixesManber et Myers

&BLAST, Altschul

1994Transformée de

Burrows-Wheeler

2009

Bowtie etc ...Langmead et al.

2012

BarraCUDA, Klus et al. etc ...

Parallélisation del’alignement

Alice Héliou 2 / 39

Ma structure de données préférée

1 Ma structure de données préféréeLa BWT et la table des suffixesLa table des LCPLes applicationsLa compression des meta-data

2 Et si les absents avaient raison ?

3 Les cercles qui ne rentrent pas dans le moule

Alice Héliou 3 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

7 C # A A C A C A C

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

7 C # A A C A C A C

2 C A C A C C # A A

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

7 C # A A C A C A C

2 C A C A C C # A A

4 C A C C # A A C A

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

pos BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

7 C # A A C A C A C

2 C A C A C C # A A

4 C A C C # A A C A

6 C C # A A C A C A

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994

Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.Si SA[i]>0 alors BWT[i]=S[SA[i]-1], sinon BWT[i]=#

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

BWT(S)=C#ACCCAAA, and SA(S)=[8,0,1,3,5,7,2,4,6]

0 A A C A C A C C #

1 A C A C A C C # A

2 C A C A C C # A A

3 A C A C C # A A C

4 C A C C # A A C A

5 A C C # A A C A C

6 C C # A A C A C A

7 C # A A C A C A C

8 # A A C A C A C C

Rotations de S

SA BWT8 # A A C A C A C C

0 A A C A C A C C #

1 A C A C A C C # A

3 A C A C C # A A C

5 A C C # A A C A C

7 C # A A C A C A C

2 C A C A C C # A A

4 C A C C # A A C A

6 C C # A A C A C A

Rotations de S triées

Alice Héliou 4 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= #8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A1

C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S= A1

C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La BWT et la table des suffixes

La réversibilité de la BWT

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

SA P BWT8 # C

0 A #

1 A A3 A C5 A C7 C C2 C A4 C A6 C A

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

Alice Héliou 5 / 39

Ma structure de données préférée La table des LCP

Suffix Array Manber& Myers 1990 and Burrows-Wheeler Transform 1994

Suffix Array : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.LCP : Le plus long préfixe commun entre deux lignes.

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

0 A A C A C A C C #

1 A C A C A C C #

2 C A C A C C #

3 A C A C C #

4 C A C C #

5 A C C #

6 C C #

7 C #

8 #

Suffixes de S

LCP SA BWT0 8 # C

0 0 A A C A C A C C #

1 1 A C A C A C C # A

4 3 A C A C C # C

2 5 A C C # C

0 7 C # C

1 2 C A C A C C # A

3 4 C A C C # A

1 6 C C # A

Suffixes de S triés

Alice Héliou 6 / 39

Ma structure de données préférée Les applications

Les applications

Compression sans perte des données,Recherche de motifs en combinant la table des suffixes et laBWT.

Alignement des données de séquençage sur le génome, BWA Liand Durbin 2009, Bowtie Langmead et al. 2009 etc ...

Alice Héliou 7 / 39

Ma structure de données préférée Les applications

Les applications

Compression sans perte des données,Recherche de motifs en combinant la table des suffixes et laBWT.

Alignement des données de séquençage sur le génome, BWA Liand Durbin 2009, Bowtie Langmead et al. 2009 etc ...

Alice Héliou 7 / 39

Ma structure de données préférée La compression des meta-data

The Population BWT,Dolle et al. 2017

Pour chaque lecture ilsstockent (4 bytes) :

Le groupe de la lecture(2 bytes),Le nombre de basescorrigées (1 byte),Le nombre de bases defaibles qualités (1 byte).

Notre objectif était de sto-cker ( ? bytes) :

L’identifiant del’échantillon (1 byte),La lecture appariée ( ?).

Alice Héliou 8 / 39

Ma structure de données préférée La compression des meta-data

The Population BWT,Dolle et al. 2017

Pour chaque lecture ilsstockent (4 bytes) :

Le groupe de la lecture(2 bytes),Le nombre de basescorrigées (1 byte),Le nombre de bases defaibles qualités (1 byte).

Notre objectif était de sto-cker ( ? bytes) :

L’identifiant del’échantillon (1 byte),La lecture appariée ( ?).

Alice Héliou 8 / 39

Ma structure de données préférée La compression des meta-data

Nos résultats :

Il faut changer l’ordre des lec-tures.→ Perte d’espace pour laBWT.→ Gain d’espace importantpour les méta-données.→ Estimation d’une divisionpar deux de l’espace total.

Alice Héliou 8 / 39

Et si les absents avaient raison ?

1 Ma structure de données préférée

2 Et si les absents avaient raison ?DefinitionLes applicationsLe lien avec les répétitions maximalesLes calculs des mots absents minimauxMots absents minimaux sur une fenêtre glissante

3 Les cercles qui ne rentrent pas dans le moule

Alice Héliou 9 / 39

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.

Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Et si les absents avaient raison ? Definition

Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.

La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).

Crochemore et al. 1998, Mignosi et al. 2002

S=A0

A1

C2

A3

C4

A5

C6

C7

AAA, AACACC, AACC, CAA, CACACA, CCA, CCC

Alice Héliou 10 / 39

Et si les absents avaient raison ? Les applications

Les applications

Biologie3 séquences (TTTCGCCCGACT, TACGCCCTATCG, CCTACGCGCAAA),retrouvées dans des régions codantes de souches d’Ebola, sontabsentes du génome humain ( Silva et al. 2015).

BioInformatiqueDistance basée sur les mots absents minimaux→ Phylogénie (Chairungsee et al., 2012, Crochemore et al,2016).

InformatiqueCompression des donnés avec les anti-dictionnaires (Crochemoreet al., 2000, Fiala and Holub, 2008).

Alice Héliou 11 / 39

Et si les absents avaient raison ? Les applications

Les applications

Biologie3 séquences (TTTCGCCCGACT, TACGCCCTATCG, CCTACGCGCAAA),retrouvées dans des régions codantes de souches d’Ebola, sontabsentes du génome humain ( Silva et al. 2015).

BioInformatiqueDistance basée sur les mots absents minimaux→ Phylogénie (Chairungsee et al., 2012, Crochemore et al,2016).

InformatiqueCompression des donnés avec les anti-dictionnaires (Crochemoreet al., 2000, Fiala and Holub, 2008).

Alice Héliou 11 / 39

Et si les absents avaient raison ? Les applications

Les applications

Biologie3 séquences (TTTCGCCCGACT, TACGCCCTATCG, CCTACGCGCAAA),retrouvées dans des régions codantes de souches d’Ebola, sontabsentes du génome humain ( Silva et al. 2015).

BioInformatiqueDistance basée sur les mots absents minimaux→ Phylogénie (Chairungsee et al., 2012, Crochemore et al,2016).

InformatiqueCompression des donnés avec les anti-dictionnaires (Crochemoreet al., 2000, Fiala and Holub, 2008).

Alice Héliou 11 / 39

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de S

Alice Héliou 12 / 39

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de S

Alice Héliou 12 / 39

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de S

Alice Héliou 12 / 39

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de S

plus long préfixe de A : aw

plus long préfixe de Aa w

Alice Héliou 12 / 39

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de Splus long préfixe de A

a w

plus long suffixe de A : wb

plus long suffixe de Abw

Alice Héliou 12 / 39

Et si les absents avaient raison ? Le lien avec les répétitions maximales

Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :

w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].

LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .

Séquence S

A un mot absent minimal de Splus long préfixe de A

a wplus long suffixe de A

bw

w ba

ij

Alice Héliou 12 / 39

Et si les absents avaient raison ? Le lien avec les répétitions maximales

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

LCP SA BWT0 8 C #

0 0 # A A C A C A C C

1 1 A A C A C A C C #

4 3 C A C A C C #

2 5 C A C C #

0 7 C C #

1 2 A C A C A C C #

3 4 A C A C C #

1 6 A C C #

Alice Héliou 13 / 39

Et si les absents avaient raison ? Le lien avec les répétitions maximales

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

LCP SA BWT0 8 C #

0 0 # A A C A C A C C

1 1 A A C A C A C C #

4 3 C A C A C C #

2 5 C A C C #

0 7 C C #

1 2 A C A C A C C #

3 4 A C A C C #

1 6 A C C #

Alice Héliou 13 / 39

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Les autres algorithmes de calcul des mots absents minimaux

Références Structures InconvénientsCrochemore et al., 1998 Automate

des suffixesTrop couteux enespace

Belazzougui et al. 2013 BWT compactbidirectionelle

Non implémenté

Ota et al. 2014 Arbre des suffixes, ap-proche dynamique

Quadratique entemps

Belazzougui et al. 2015 BWT & structuressupplémentaires

Non implémenté

Alice Héliou 14 / 39

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Linear-time computation of minimal absent words using suffix array. BMC Bioinformatics, 2014

Pré-calculTable des suffixes, temps et espace linéaires 2003,Table des LCP, temps et espace linéaires avec la table dessuffixes et la séquence en entrée.

CalculOn traverse deux fois ces tables, pour construire l’ensemble delettres qui apparaissent avant chaque répétition maximale àdroite.On en déduit l’ensemble des mots absents minimaux.

PerformancesPour l’ensemble du génome humain :' 9000s avec 130GB de mémoire interne.

Alice Héliou 15 / 39

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Linear-time computation of minimal absent words using suffix array. BMC Bioinformatics, 2014

Pré-calculTable des suffixes, temps et espace linéaires 2003,Table des LCP, temps et espace linéaires avec la table dessuffixes et la séquence en entrée.

CalculOn traverse deux fois ces tables, pour construire l’ensemble delettres qui apparaissent avant chaque répétition maximale àdroite.On en déduit l’ensemble des mots absents minimaux.

PerformancesPour l’ensemble du génome humain :' 9000s avec 130GB de mémoire interne.

Alice Héliou 15 / 39

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Linear-time computation of minimal absent words using suffix array. BMC Bioinformatics, 2014

Pré-calculTable des suffixes, temps et espace linéaires 2003,Table des LCP, temps et espace linéaires avec la table dessuffixes et la séquence en entrée.

CalculOn traverse deux fois ces tables, pour construire l’ensemble delettres qui apparaissent avant chaque répétition maximale àdroite.On en déduit l’ensemble des mots absents minimaux.

PerformancesPour l’ensemble du génome humain :' 9000s avec 130GB de mémoire interne.

Alice Héliou 15 / 39

Et si les absents avaient raison ? Les calculs des mots absents minimaux

S=A0

A1

C2

A3

C4

A5

C6

C7

#8

LCP SA BWT0 8 C #

0 0 # A A C A C A C C

1 1 A A C A C A C C #

4 3 C A C A C C #

2 5 C A C C #

0 7 C C #

1 2 A C A C A C C #

3 4 A C A C C #

1 6 A C C #

Alice Héliou 16 / 39

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Améliorations et compromis des performances de calcul

Parallelising the Computation of Minimal Absent Words, PPAM 2105Parallélisation efficace,Calcul pour le génome humain : ' 5000s avec 4 coeurs et130GB de mémoire interne.

Computing Minimal Absent Words in External Memory,Bioinformatics 2017Calcul pour le génome humain :' 8000s avec 8GB de mémoire interne,' 12000s avec 1GB de mémoire interne.

Les implémentations sont disponibles là :https://github.com/solonas13/maw

Alice Héliou 17 / 39

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Améliorations et compromis des performances de calcul

Parallelising the Computation of Minimal Absent Words, PPAM 2105Parallélisation efficace,Calcul pour le génome humain : ' 5000s avec 4 coeurs et130GB de mémoire interne.

Computing Minimal Absent Words in External Memory,Bioinformatics 2017Calcul pour le génome humain :' 8000s avec 8GB de mémoire interne,' 12000s avec 1GB de mémoire interne.

Les implémentations sont disponibles là :https://github.com/solonas13/maw

Alice Héliou 17 / 39

Et si les absents avaient raison ? Les calculs des mots absents minimaux

Améliorations et compromis des performances de calcul

Parallelising the Computation of Minimal Absent Words, PPAM 2105Parallélisation efficace,Calcul pour le génome humain : ' 5000s avec 4 coeurs et130GB de mémoire interne.

Computing Minimal Absent Words in External Memory,Bioinformatics 2017Calcul pour le génome humain :' 8000s avec 8GB de mémoire interne,' 12000s avec 1GB de mémoire interne.

Les implémentations sont disponibles là :https://github.com/solonas13/maw

Alice Héliou 17 / 39

Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante

Calcul des mots absents minimaux sur une fenêtre glissante

Une séquence S de taille n, sur un alphabet de taille constante,Une fenêtre glissante de taille m sur S : S [i . . i + m − 1].

Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.

· · · S · · ·i i + m − 1

M(S [i . . i + m − 1])

Alice Héliou 18 / 39

Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante

Calcul des mots absents minimaux sur une fenêtre glissante

Une séquence S de taille n, sur un alphabet de taille constante,Une fenêtre glissante de taille m sur S : S [i . . i + m − 1].

Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.

· · · S · · ·i i + m − 1

M(S [i . . i + m − 1])

Alice Héliou 18 / 39

Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante

Application à la recherche de motifs

Mots absents minimaux dans une fenêtre glissantePour une sequence S de taille n et une fenêtre de taille m on calcule :∀i , 0 ≤ i ≤ n −m,M(S [i . . i + m − 1]),en temps O(n) et en espace O(m)

Length Weighted Index (LWI), introduit par Chairungsee en 2012

Mesure basée sur la différence symétrique des ensembles de motsabsents minimaux.

LWI(M(x),M(y)) =∑

w∈M(x)4M(y)

1|w |2 .

→ On obtient la position de distance minimale.

Alice Héliou 19 / 39

Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante

Application à la recherche de motifs

Mots absents minimaux dans une fenêtre glissantePour une sequence S de taille n et une fenêtre de taille m on calcule :∀i , 0 ≤ i ≤ n −m,M(S [i . . i + m − 1]),en temps O(n) et en espace O(m)

Length Weighted Index (LWI), introduit par Chairungsee en 2012

Mesure basée sur la différence symétrique des ensembles de motsabsents minimaux.

LWI(M(x),M(y)) =∑

w∈M(x)4M(y)

1|w |2 .

→ On obtient la position de distance minimale.

Alice Héliou 19 / 39

Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante

Application à la recherche de motifs

Mots absents minimaux dans une fenêtre glissantePour une sequence S de taille n et une fenêtre de taille m on calcule :∀i , 0 ≤ i ≤ n −m,M(S [i . . i + m − 1]),en temps O(n) et en espace O(m)

Length Weighted Index (LWI), introduit par Chairungsee en 2012

Mesure basée sur la différence symétrique des ensembles de motsabsents minimaux.

LWI(M(x),M(y)) =∑

w∈M(x)4M(y)

1|w |2 .

→ On obtient la position de distance minimale.

Alice Héliou 19 / 39

Et si les absents avaient raison ? conclusion

Algorithmes de calcul des mots absents minimauxAvec C. Barton, L. Mouchard, S. P. Pissis et S. Puglisi :

Calcul en temps et espace linéaires avec la table des suffixes,BMC Bioinformatics 2014,Calcul parallèle, PPAM 2015,Calcul en mémoire externe, Bioinformatics, 2017.

Avec M. Crochemore, G. Kucherov, L. Mouchard, S. P. Pissis et Y.Ramusat :

Calcul sur une fenêtre glissante et recherche de motifs, FCT2017.

Alice Héliou 20 / 39

Les cercles qui ne rentrent pas dans le moule

1 Ma structure de données préférée

2 Et si les absents avaient raison ?

3 Les cercles qui ne rentrent pas dans le mouleLes ARNs circulairesL’alignment des lectures provenant d’ARNs circulairesLe cas de Pyrococcus AbyssiL’analyse d’autres organismes

Alice Héliou 21 / 39

Les cercles qui ne rentrent pas dans le moule Les ARNs circulaires

Les ARNs circulaires

CaractéristiquesPas d’extrémités → stabilité accrue,Découverts dans tous les domainesdu vivant,Très étudiés grâce au séquençagehaut débit.

FonctionsModifications post-transcriptionnelles pour la maturationd’ARNs,Éponges à ARNmi → régulation de l’expression des gènes,...

Alice Héliou 22 / 39

Les cercles qui ne rentrent pas dans le moule Les ARNs circulaires

Les ARNs circulaires

CaractéristiquesPas d’extrémités → stabilité accrue,Découverts dans tous les domainesdu vivant,Très étudiés grâce au séquençagehaut débit.

FonctionsModifications post-transcriptionnelles pour la maturationd’ARNs,Éponges à ARNmi → régulation de l’expression des gènes,...

Alice Héliou 22 / 39

Les cercles qui ne rentrent pas dans le moule Les ARNs circulaires

Figure adaptée de Meng et al. Briefings in Bioinformatics, 2016

Alice Héliou 23 / 39

Les cercles qui ne rentrent pas dans le moule L’alignment des lectures provenant d’ARNs circulaires

L’alignement des lectures provenant d’ARNs circulairesGenome

Linear RNATranscription

Circularization

Sequencingand

Alignment

Circular RNA

match 1 match 2

≥ 3 ≥ 3≥ 0

≤ 10, 000

match 1match 2Genome

Circularizationjunction

Rnase HIIIFragmentation

Putativecircular read

LinearRead

Alice Héliou 24 / 39

Les cercles qui ne rentrent pas dans le moule L’alignment des lectures provenant d’ARNs circulaires

Les critères de sélection

Annotations

Fenêtrede 100kb

Jonctions GT-AG

Danan et al.2012

CIRIGao et al. 2015

find_circMemczak et al.

2013

circRNA_finderWestholm et al.

2014circExplorerZhang et al. 2014

MapSpliceWang et al. 2010

SegemehlHoffmann et al.

2009,2014

Alice Héliou 25 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Le cas de Pyrococcus Abyssi

Figure: PDB de PAB1020

L’équipe de H.Myllykallio a montré quel’enzyme PAB1020 est capable de circu-lariser :

Des petits ARNs synthétiques invitro (Brooks et al., 2009),Trois ARNs in vivo (ARNr 5S, deuxARN à boites C/D).

Objectifs des analyses des données de séquençage :Confirmer l’implication de la ligase dans la circularisation,Identifier les ARNs circulaires.

Alice Héliou 26 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Le cas de Pyrococcus Abyssi

Figure: PDB de PAB1020

L’équipe de H.Myllykallio a montré quel’enzyme PAB1020 est capable de circu-lariser :

Des petits ARNs synthétiques invitro (Brooks et al., 2009),Trois ARNs in vivo (ARNr 5S, deuxARN à boites C/D).

Objectifs des analyses des données de séquençage :Confirmer l’implication de la ligase dans la circularisation,Identifier les ARNs circulaires.

Alice Héliou 26 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Les expériences de sequençage

ProtéineARNADN

PontagecovalentProtéine-ARN

Extrac6ondesARNDégrada6ondeslinéaires

Extrac6ondesARN

Extrac6ondesARN&Dégrada6ondeslinéaires

Culture

SéquençageExpA

SéquençageExpB

SéquençageExpC

Alice Héliou 27 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

genome· · · · · ·

cas 1 : la lecture s’aligne linéairement

lecture

match global

Alice Héliou 28 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

genome· · · · · ·

cas 1 : la lecture s’aligne linéairement

lecture

match global

genome· · · · · ·

cas 2 : lecture circulaire avec deux matchs inversés

match 2 match 1

lecture

≥ 11 ≥ 11

≤ 10000

Alice Héliou 28 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

genome· · · · · ·

cas 1 : la lecture s’aligne linéairement

lecture

match global

genome· · · · · ·

cas 2 : lecture circulaire avec deux matchs inversés

match 2 match 1

lecture

≥ 11 ≥ 11

≤ 10000

genome· · · · · ·

cas 3 : lecture avec un long match incomplet

≤ 10000

match partiel

≥ 11

lecture

< 11

recherche naïve du complémentaire

Alice Héliou 28 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

A B C0

20

40

60

80

100

Ratio lectures alignees et non alignees

aligneesnon alignees

73.8% 11.5% 82.5%

A) Ligase-ARNB) Ligase-ARN sans linéairesC) ARN totaux sans linéaires

A B C0

20

40

60

80

100

Ratio circulaires et lineaires parmi les lectures alignees

circulaireslineaires

8.6% 14.4% 11.3%

· · · · · ·

linéaire

· · · · · ·

circulaire

Alice Héliou 29 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

A B C0

20

40

60

80

100

Ratio lectures alignees et non alignees

aligneesnon alignees

73.8% 11.5% 82.5%

A) Ligase-ARNB) Ligase-ARN sans linéairesC) ARN totaux sans linéaires

A B C0

20

40

60

80

100

Ratio circulaires et lineaires parmi les lectures alignees

circulaireslineaires

8.6% 14.4% 11.3%

· · · · · ·

linéaire

· · · · · ·

circulaire

Alice Héliou 29 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Visualisation de l’alignement deslectures circulaires sur l’ARN à boite

C/D sR53

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,

au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Uniquement les premiers matchs→ ils commencent tous à la même

position

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,

au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Uniquement les seconds matchs→ ils finissent tous à la mêmeposition (à 3 nucléotides près)

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,

au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Jonction sur l’ARN à boite C/D sR53

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,

au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Jonction sur l’ARN à boite C/D sR53

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Identification des jonctions

Jonction sur l’ARN à boite C/D sR53

Visualisation de l’alignement deslectures circulaires sur l’ARNr 16S→ pas de jonction identifiable

On regroupe les expériences.Une jonction doit être soute-nue par :

au moins 3 lecturesvenant d’au moins 2expériences,au moins la moitié deslectures circulairesdans la jonction.

Alice Héliou 30 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

Loci contenant une jonction identifiéeARNsno à boites C/D Intron du ARNt-Trp

ARNr

ARN codant pourune protéine

ARN non annoté

Alice Héliou 31 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

H.F. Becker, A. Héliou, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio, RNA Biology 2017

Diagramme de Venn des jonctions identifiées dans nos expériences

1 tRNA, 3 NA,

32 C/D,

1 tRNA, 3 rRNA,

1 NA, 15 Protein

2 rRNA,

1NA,

11 Protein

6 C/D,

3 NA

32 Protein

4 Protein

Ligase-ARN A

3 tRNA,

4 NA,

9 Protein

Ligase-ARN sans lineaires

B

ARN totaux

sans lineairesC

1 rRNA,

1NA

Les jonctions entourées sont enrichies en circulaires avec le traitement RNase R (dégrade leslinéaires).

Alice Héliou 32 / 39

Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi

H.F. Becker, A. Héliou, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio, RNA Biology 2017

Diagramme de Venn des jonctions identifiées dans nos expériences

1 tRNA, 3 NA,

32 C/D,

1 tRNA, 3 rRNA,

1 NA, 15 Protein

2 rRNA,

1NA,

11 Protein

6 C/D,

3 NA

32 Protein

4 Protein

Ligase-ARN A

3 tRNA,

4 NA,

9 Protein

Ligase-ARN sans lineaires

B

ARN totaux

sans lineairesC

1 rRNA,

1NA

Les jonctions entourées sont enrichies en circulaires avec le traitement RNase R (dégrade leslinéaires).

Alice Héliou 32 / 39

Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes

Analyse des ARNs chez d’autres organismes

ProtéineOrganisme Caractéristique homolgue

à Pab1020Natrialba magadii Archée halophile ouiHaloferax volcanii Archée halophile nonAquifex aeolicus Bactérie hyperthermophile oui

Halorhodospira halophila Bactérie halophile oui

Alice Héliou 33 / 39

Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes

Nos premiers résultats, quantification par lociHaloferax volcanii (65)

49%

Codant pour Protéine (32)

31%

Non-annoté (20)

11%

ARNt (7)

8% ARNr (5)1%

ARN non codant (1)

Aquifex aeolicus (71)

48%

Codant pour Protéine (34)

13%Non-annoté (9)

4%

ARNtm (3)18%

ARNt (13)

16%ARNr (11)

1%Gene sans fonctionconnue (1)

Pyrococcus abyssi (133)

28%

Boite C/D (38)

53%Codant pourProtéine (71) 9%

Non-annoté (13)

3%ARNt (5)

4% ARNr (6)

Alice Héliou 34 / 39

Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes

Nos premiers résultats, quantification par lociHaloferax volcanii (65)

49%

Codant pour Protéine (32)

31%

Non-annoté (20)

11%

ARNt (7)

8% ARNr (5)1%

ARN non codant (1)

Aquifex aeolicus (71)

48%

Codant pour Protéine (34)

13%Non-annoté (9)

4%

ARNtm (3)18%

ARNt (13)

16%ARNr (11)

1%Gene sans fonctionconnue (1)

Pyrococcus abyssi (133)

28%

Boite C/D (38)

53%Codant pourProtéine (71) 9%

Non-annoté (13)

3%ARNt (5)

4% ARNr (6)

Alice Héliou 34 / 39

Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes

Analyse de la fonction de la ligase in vivo

Chez Thermococcus barophilus, Archée hyperthermophile.

Inactivation du gène codant pour la ligase, collaboration avecl’Ifremer (Brest).RNA-seq, et analyse des données de séquençage.

→ Comparaison des populations d’ARN circulaires avec et sans laligase.→ L’ARN ligase de la famille Rnl3 est-elle indispensable à lacircularisation ?

Alice Héliou 35 / 39

Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes

Analyse de la fonction de la ligase in vivo

Chez Thermococcus barophilus, Archée hyperthermophile.

Inactivation du gène codant pour la ligase, collaboration avecl’Ifremer (Brest).RNA-seq, et analyse des données de séquençage.

→ Comparaison des populations d’ARN circulaires avec et sans laligase.→ L’ARN ligase de la famille Rnl3 est-elle indispensable à lacircularisation ?

Alice Héliou 35 / 39

Conclusion

Identification des ARNs circulairesAvec H.F. Becker, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio,

"Hight-Throughput Sequencing Reveals Circular Substrates for an ArchaealRNA ligase", RNA Biology, 2017

Algorithmes de calcul des mots absents minimauxAvec C. Barton, L. Mouchard, S. P. Pissis et S. Puglisi

Calcul avec la table des suffixes, BMC Bioinformatics, 2014

Calcul parallèle, PPAM, 2015

Calcul en mémoire externe, Bioinformatics, 2017

Avec M. Crochemore, G. Kucherov, L. Mouchard, S. P. Pissis et Y. Ramusat

Calcul sur une fenêtre glissante et recherche de motifs, FCT 2017

Alice Héliou 36 / 39

Conclusion

Identification des ARNs circulairesAvec H.F. Becker, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio,

"Hight-Throughput Sequencing Reveals Circular Substrates for an ArchaealRNA ligase", RNA Biology, 2017

Algorithmes de calcul des mots absents minimauxAvec C. Barton, L. Mouchard, S. P. Pissis et S. Puglisi

Calcul avec la table des suffixes, BMC Bioinformatics, 2014

Calcul parallèle, PPAM, 2015

Calcul en mémoire externe, Bioinformatics, 2017

Avec M. Crochemore, G. Kucherov, L. Mouchard, S. P. Pissis et Y. Ramusat

Calcul sur une fenêtre glissante et recherche de motifs, FCT 2017

Alice Héliou 36 / 39

Perspectives

Perspectives

Algorithmes de calcul des mots absents minimauxImplémenter l’algorithme sur une fenêtre glissante.Comparer l’alignement de lectures avec cette méthode et lesalgorithmes classiques.

Identification des ARNs circulairesSéquencer d’autres organismes procaryotes et comparer leursARNs circulaires.Étendre la méthode aux organismes avec épissage.→ Utiliser un algorithme d’alignement plus approprié :

STAR (Dobin et al., 2013), BWA-MEM (Li et al, 2013), ...

Alice Héliou 37 / 39

Perspectives

Perspectives

Algorithmes de calcul des mots absents minimauxImplémenter l’algorithme sur une fenêtre glissante.Comparer l’alignement de lectures avec cette méthode et lesalgorithmes classiques.

Identification des ARNs circulairesSéquencer d’autres organismes procaryotes et comparer leursARNs circulaires.

Étendre la méthode aux organismes avec épissage.→ Utiliser un algorithme d’alignement plus approprié :

STAR (Dobin et al., 2013), BWA-MEM (Li et al, 2013), ...

Alice Héliou 37 / 39

Perspectives

Perspectives

Algorithmes de calcul des mots absents minimauxImplémenter l’algorithme sur une fenêtre glissante.Comparer l’alignement de lectures avec cette méthode et lesalgorithmes classiques.

Identification des ARNs circulairesSéquencer d’autres organismes procaryotes et comparer leursARNs circulaires.Étendre la méthode aux organismes avec épissage.→ Utiliser un algorithme d’alignement plus approprié :

STAR (Dobin et al., 2013), BWA-MEM (Li et al, 2013), ...

Alice Héliou 37 / 39

Remerciements

Alice Héliou 38 / 39

Remerciements

LOBHubert BeckerHannu MyllykallioRoxane LestiniYoann Collienet tous les autres

LIXMireille RégnierYann PontyPhilippe ChassignetAmélie HéliouAfaf SaaidiJuraj Michaliket tous les autres

Université de RouenLaurent Mouchard

King’s College LondonSolon PissisCarl Barton

Université d’HelsinkiSimon PuglisiUniversité Paris EstMaxime CrochemoreGregory Kucherov

ENS ParisYann Ramusat

Institut SangerThomas KeaneDirk Dolle

Alice Héliou 39 / 39

Remerciements

Nos premiers résultats, quantification par lectures alignées

Haloferax volcanii (1540)

19%

Codant pourProtéine (295)

68%Non-annoté(1046)

7.5%ARNt (100)

4% ARNr (61)1.5%

ARN non codant (24)

Aquifex aeolicus (3795)

6% Codant pourProtéine (220)

4%Non-annoté (143)20%

ARNtm (743)

8%

ARNt (310)

63%

ARNr (2377)

Pyrococcus abyssi (28279)

53%

Boite C/D (15074)

Codant pourProtéine (917)

3%

1%Non-annoté (515) 33%

ARNt (9359)

8% ARNr (2414)

Alice Héliou 39 / 39

Remerciements

Nos premiers résultats, quantification par lectures alignées

Haloferax volcanii (1540)

19%

Codant pourProtéine (295)

68%Non-annoté(1046)

7.5%ARNt (100)

4% ARNr (61)1.5%

ARN non codant (24)

Aquifex aeolicus (3795)

6% Codant pourProtéine (220)

4%Non-annoté (143)20%

ARNtm (743)

8%

ARNt (310)

63%

ARNr (2377)

Pyrococcus abyssi (28279)

53%

Boite C/D (15074)

Codant pourProtéine (917)

3%

1%Non-annoté (515) 33%

ARNt (9359)

8% ARNr (2414)

Alice Héliou 39 / 39

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Un mot y de taille n, sur un alphabet de taille constante.Une fenêtre glissante de taille m sur y : y [i . . i + m − 1]

Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.

· · · y · · ·i i + m − 1

M(y [i . . i + m − 1])

Alice Héliou 39 / 39

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Un mot y de taille n, sur un alphabet de taille constante.Une fenêtre glissante de taille m sur y : y [i . . i + m − 1]

Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.

· · · y · · ·i i + m − 1

M(y [i . . i + m − 1])

Alice Héliou 39 / 39

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Lemme

La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).

→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).

Théoreme

La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|

est O(n).

→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.

Alice Héliou 39 / 39

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Lemme

La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).

→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).

Théoreme

La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|

est O(n).

→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.

Alice Héliou 39 / 39

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Lemme

La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).

→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).

Théoreme

La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|

est O(n).

→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.

Alice Héliou 39 / 39

Remerciements

Calcul des mots absents minimaux sur une fenêtre glissante

Lemme

La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).

→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).

Théoreme

La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|

est O(n).

→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.

Alice Héliou 39 / 39

Remerciements L’arbre des suffixes

L’arbre des suffixes : une structure plus couteuse en espace mais dynamique

8

0

1 3

5

7

2 4

6

A

A. .C# C

C#

AC

ACC# C

#

C

C#

AC

ACC# C

#

#

S=A0A1C2A3C4A5C6C7#8

LCP SA0 80 01 14 32 50 71 23 41 6

Alice Héliou 39 / 39

Remerciements L’arbre des suffixes

L’arbre des suffixes : une structure plus couteuse en espace mais dynamique

8

0

1 3

5

7

2 4

6

A

A. .C# C

C#

AC

ACC# C

#

C

C#

AC

ACC# C

#

#

S=A0A1C2A3C4A5C6C7#8

LCP SA0 80 01 14 32 50 71 23 41 6

Alice Héliou 39 / 39

Remerciements Fenêtre glissante

L’arbre des suffixes pour une fenêtre glissante

Construction dynamique de l’arbre des suffixesWeiner en 1973 propose une construction de gauche à droiteMcCreight en 1976 propose une construction de droite à gaucheUkkonen en 1995 simplifie l’algorithme de Weiner

L’arbre des suffixes pour une fenêtre glissante, Senft 2005Enlever la lettre la plus à gauche,Mettre à jour les étiquettes des branches

Alice Héliou 39 / 39

Remerciements Fenêtre glissante

L’arbre des suffixes pour une fenêtre glissante

Construction dynamique de l’arbre des suffixesWeiner en 1973 propose une construction de gauche à droiteMcCreight en 1976 propose une construction de droite à gaucheUkkonen en 1995 simplifie l’algorithme de Weiner

L’arbre des suffixes pour une fenêtre glissante, Senft 2005Enlever la lettre la plus à gauche,Mettre à jour les étiquettes des branches

Alice Héliou 39 / 39

Remerciements Fenêtre glissante

Les mots absents minimaux pour une fenêtre glissante

Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.

Ajout sur l’arbre de l’information contenue dans la BWT.Ajout sur l’arbre des mots absent minimaux

La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.

Alice Héliou 39 / 39

Remerciements Fenêtre glissante

Les mots absents minimaux pour une fenêtre glissante

Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.

Ajout sur l’arbre de l’information contenue dans la BWT.

Ajout sur l’arbre des mots absent minimaux

La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.

Alice Héliou 39 / 39

Remerciements Fenêtre glissante

Les mots absents minimaux pour une fenêtre glissante

Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.

Ajout sur l’arbre de l’information contenue dans la BWT.Ajout sur l’arbre des mots absent minimaux

La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.

Alice Héliou 39 / 39

Remerciements Fenêtre glissante

Les mots absents minimaux pour une fenêtre glissante

Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.

Ajout sur l’arbre de l’information contenue dans la BWT.Ajout sur l’arbre des mots absent minimaux

La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.

Alice Héliou 39 / 39

Remerciements Fenêtre glissante

4

2 0

5 3 1

6

A(0,0)

C(1,1)

A(2,2)

GC(6,7)

AGC(5,7)

CAAGC(3,7)

AGC(5,7)

CAAGC(3,7)

CA(1,2)A

GC(5,7) G

C(6,7)

S =A0C1A2C3A4A5G6C7

Alice Héliou 39 / 39

Remerciements Fenêtre glissante

4

2 0

5 3 1

6

A(0,0)

C(1,1)

A(2,2)

GC(6,7)

AGC(5,7)

CAAGC(3,7)

AGC(5,7)

CAAGC(3,7)

CA(1,2)A

GC(5,7) G

C(6,7)

z0 =A0C1A2C3A4A5G6C7

M(z0)= {AAA,GA,AAC,CACAC,CAG,CC,GCA,CG,GG}

B= {C}M= {A}

B= {A,C}

M= {G}

B= {A}

M= {C,G+}

B= {C}M= ∅

B= ∅M= {C}

B= {A}M= {C}

B= {A}M= ∅

B= {A}M= ∅

B= {C}M= {A}

B= {A}M= {C,G}

Alice Héliou 39 / 39

Remerciements Fenêtre glissante

4

2 0

5 3 1

6

A(0,0)

CA(1,2)

GCA(6,8)

AGCA(5,8)

CAAGCA(3,8)

AGCA(5,8)

CAAGCA(3,8)

CA(1,2)A

GCA(5,8) G

CA(6,8)

z0 · A =A0C1A2C3A4A5G6C7A8

M(z0 · A)= {AAA,GA,AAC,CACAC,CAG,CC,GCAA,GCAC,CG,GG}

B= {C}M= {A}

B= {A,C}

M= {G}

B= {A,G}

M= {C,G}

B= {C}M= ∅

B= ∅M= {C}

B= {A}M= {C}

B= {A}M= {G}

B= {A}M= {G}

B= {C}M= {A}

B= {A}M= {C,G}

Alice Héliou 39 / 39

Remerciements Fenêtre glissante

4

2 0

5 3 1

6

A(0,0)

CA(1,2)

GCA(6,8)

AGCA(5,8)

CAAGCA(3,8)

AGCA(5,8)

CAAGCA(3,8)

CA(1,2)A

GCA(5,8) G

CA(6,8)

A · z1 =A0C1A2C3A4A5G6C7A8

M(A · z1)\M(z1)= {CACAC}

B= {C}M= {A}

B= {A,C}

M= {G}

B= {A,G}

M= {C}

B= {C}M= ∅

B= ∅M={C}

B= {A}M= {C}

B= {A}M= {G}

B= {A}M= {G}

B= {C}M= {A}

B= {A}M= {C,G}

Alice Héliou 39 / 39

Remerciements Fenêtre glissante

4 2 5 3 1

6

A(0,0)

CA(1,2)

GCA(6,8)

AGCA(5,8)

CAAGCA(3,8)

CAAGCA(4,8)

AGCA(5,8) G

CA(6,8)

z1 = C1A2C3A4A5G6C7A8

M(z1)= {AAA,GA,AAC,CAG,CC,GCAA,ACAC,GCAC,CG,GG}

B= {C}M= {A}

B= {A,C}

M= {G}

B= {A,G}

M= {C}

B= {C}M= {A}

B= {A}M= {C}

B= {A}M= {G}

B={A}M= {A,G}

B= {A}M= {C,G}

Alice Héliou 39 / 39