Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b...
Transcript of Analysedesséquencesgénomiques ...€¦ · BM2 kyyy@kyyR;ûMQK2 >mK BM bb2K#H ;2 kyye.û#mi /2b...
Analyse des séquences génomiques :Identification des ARNs circulaires et calcul de
l’information négative
Soutenance de Thèse de Alice Héliou
Encadrée par Mireille Régnier (LIX) et co-encadrée par HubertBecker (LOB)
LOB
Alice Héliou 1 / 39
1972Début du séquençage
Sanger et Gilbert
1973Arbre des suffixes
Weiner
Alice Héliou 2 / 39
1972Début du séquençage
Sanger et Gilbert
1990
Dévelopement des PCRRéaction Polymérase en chaine
1973Arbre des suffixes
Weiner
1990
Table des suffixesManber et Myers
&BLAST, Altschul
Alice Héliou 2 / 39
1972Début du séquençage
Sanger et Gilbert
1990
Dévelopement des PCRRéaction Polymérase en chaine
2000-2001
génome HumainAssemblage
1973Arbre des suffixes
Weiner
1990
Table des suffixesManber et Myers
&BLAST, Altschul
1994Transformée de
Burrows-Wheeler
Alice Héliou 2 / 39
1972Début du séquençage
Sanger et Gilbert
1990
Dévelopement des PCRRéaction Polymérase en chaine
2000-2001
génome HumainAssemblage
2006
Début des NGSNext Generation Sequencing
1973Arbre des suffixes
Weiner
1990
Table des suffixesManber et Myers
&BLAST, Altschul
1994Transformée de
Burrows-Wheeler
2009
Bowtie etc ...Langmead et al.
Alice Héliou 2 / 39
1972Début du séquençage
Sanger et Gilbert
1990
Dévelopement des PCRRéaction Polymérase en chaine
2000-2001
génome HumainAssemblage
2006
Début des NGSNext Generation Sequencing
20123ème générationSingle Molecule
Sequencing
1973Arbre des suffixes
Weiner
1990
Table des suffixesManber et Myers
&BLAST, Altschul
1994Transformée de
Burrows-Wheeler
2009
Bowtie etc ...Langmead et al.
2012
BarraCUDA, Klus et al. etc ...
Parallélisation del’alignement
Alice Héliou 2 / 39
Ma structure de données préférée
1 Ma structure de données préféréeLa BWT et la table des suffixesLa table des LCPLes applicationsLa compression des meta-data
2 Et si les absents avaient raison ?
3 Les cercles qui ne rentrent pas dans le moule
Alice Héliou 3 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C # A
2 C A C A C C # A A
3 A C A C C # A A C
4 C A C C # A A C A
5 A C C # A A C A C
6 C C # A A C A C A
7 C # A A C A C A C
8 # A A C A C A C C
Rotations de S
⇒
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C # A
2 C A C A C C # A A
3 A C A C C # A A C
4 C A C C # A A C A
5 A C C # A A C A C
6 C C # A A C A C A
7 C # A A C A C A C
8 # A A C A C A C C
Rotations de S
⇒
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C # A
2 C A C A C C # A A
3 A C A C C # A A C
4 C A C C # A A C A
5 A C C # A A C A C
6 C C # A A C A C A
7 C # A A C A C A C
8 # A A C A C A C C
Rotations de S
⇒
pos BWT8 # A A C A C A C C
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C # A
2 C A C A C C # A A
3 A C A C C # A A C
4 C A C C # A A C A
5 A C C # A A C A C
6 C C # A A C A C A
7 C # A A C A C A C
8 # A A C A C A C C
Rotations de S
⇒
pos BWT8 # A A C A C A C C
0 A A C A C A C C #
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C # A2 C A C A C C # A A
3 A C A C C # A A C
4 C A C C # A A C A
5 A C C # A A C A C
6 C C # A A C A C A
7 C # A A C A C A C
8 # A A C A C A C C
Rotations de S
⇒
pos BWT8 # A A C A C A C C
0 A A C A C A C C #
1 A C A C A C C # A
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C # A
2 C A C A C C # A A
3 A C A C C # A A C4 C A C C # A A C A
5 A C C # A A C A C
6 C C # A A C A C A
7 C # A A C A C A C
8 # A A C A C A C C
Rotations de S
⇒
pos BWT8 # A A C A C A C C
0 A A C A C A C C #
1 A C A C A C C # A
3 A C A C C # A A C
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C # A
2 C A C A C C # A A
3 A C A C C # A A C
4 C A C C # A A C A
5 A C C # A A C A C6 C C # A A C A C A
7 C # A A C A C A C
8 # A A C A C A C C
Rotations de S
⇒
pos BWT8 # A A C A C A C C
0 A A C A C A C C #
1 A C A C A C C # A
3 A C A C C # A A C
5 A C C # A A C A C
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C # A
2 C A C A C C # A A
3 A C A C C # A A C
4 C A C C # A A C A
5 A C C # A A C A C
6 C C # A A C A C A
7 C # A A C A C A C8 # A A C A C A C C
Rotations de S
⇒
pos BWT8 # A A C A C A C C
0 A A C A C A C C #
1 A C A C A C C # A
3 A C A C C # A A C
5 A C C # A A C A C
7 C # A A C A C A C
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C # A
2 C A C A C C # A A3 A C A C C # A A C
4 C A C C # A A C A
5 A C C # A A C A C
6 C C # A A C A C A
7 C # A A C A C A C
8 # A A C A C A C C
Rotations de S
⇒
pos BWT8 # A A C A C A C C
0 A A C A C A C C #
1 A C A C A C C # A
3 A C A C C # A A C
5 A C C # A A C A C
7 C # A A C A C A C
2 C A C A C C # A A
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C # A
2 C A C A C C # A A
3 A C A C C # A A C
4 C A C C # A A C A5 A C C # A A C A C
6 C C # A A C A C A
7 C # A A C A C A C
8 # A A C A C A C C
Rotations de S
⇒
pos BWT8 # A A C A C A C C
0 A A C A C A C C #
1 A C A C A C C # A
3 A C A C C # A A C
5 A C C # A A C A C
7 C # A A C A C A C
2 C A C A C C # A A
4 C A C C # A A C A
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C # A
2 C A C A C C # A A
3 A C A C C # A A C
4 C A C C # A A C A
5 A C C # A A C A C
6 C C # A A C A C A7 C # A A C A C A C
8 # A A C A C A C C
Rotations de S
⇒
pos BWT8 # A A C A C A C C
0 A A C A C A C C #
1 A C A C A C C # A
3 A C A C C # A A C
5 A C C # A A C A C
7 C # A A C A C A C
2 C A C A C C # A A
4 C A C C # A A C A
6 C C # A A C A C A
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
Table des suffixes (SA), 1990 et Transformée de Burrows-Wheeler (BWT), 1994
Table des suffixes : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.Si SA[i]>0 alors BWT[i]=S[SA[i]-1], sinon BWT[i]=#
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
BWT(S)=C#ACCCAAA, and SA(S)=[8,0,1,3,5,7,2,4,6]
0 A A C A C A C C #
1 A C A C A C C # A
2 C A C A C C # A A
3 A C A C C # A A C
4 C A C C # A A C A
5 A C C # A A C A C
6 C C # A A C A C A
7 C # A A C A C A C
8 # A A C A C A C C
Rotations de S
⇒
SA BWT8 # A A C A C A C C
0 A A C A C A C C #
1 A C A C A C C # A
3 A C A C C # A A C
5 A C C # A A C A C
7 C # A A C A C A C
2 C A C A C C # A A
4 C A C C # A A C A
6 C C # A A C A C A
Rotations de S triées
Alice Héliou 4 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= #8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= C4
A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= C4
A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= A3
C4
A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= A3
C4
A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= C2
A3
C4
A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= C2
A3
C4
A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= A1
C2
A3
C4
A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S= A1
C2
A3
C4
A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La BWT et la table des suffixes
La réversibilité de la BWT
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
SA P BWT8 # C
0 A #
1 A A3 A C5 A C7 C C2 C A4 C A6 C A
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
Alice Héliou 5 / 39
Ma structure de données préférée La table des LCP
Suffix Array Manber& Myers 1990 and Burrows-Wheeler Transform 1994
Suffix Array : Index pour localiser des motifs.BWT : Permutation réversible utilisée pour la compression et l’indexation.LCP : Le plus long préfixe commun entre deux lignes.
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
0 A A C A C A C C #
1 A C A C A C C #
2 C A C A C C #
3 A C A C C #
4 C A C C #
5 A C C #
6 C C #
7 C #
8 #
Suffixes de S
⇒
LCP SA BWT0 8 # C
0 0 A A C A C A C C #
1 1 A C A C A C C # A
4 3 A C A C C # C
2 5 A C C # C
0 7 C # C
1 2 C A C A C C # A
3 4 C A C C # A
1 6 C C # A
Suffixes de S triés
Alice Héliou 6 / 39
Ma structure de données préférée Les applications
Les applications
Compression sans perte des données,Recherche de motifs en combinant la table des suffixes et laBWT.
Alignement des données de séquençage sur le génome, BWA Liand Durbin 2009, Bowtie Langmead et al. 2009 etc ...
Alice Héliou 7 / 39
Ma structure de données préférée Les applications
Les applications
Compression sans perte des données,Recherche de motifs en combinant la table des suffixes et laBWT.
Alignement des données de séquençage sur le génome, BWA Liand Durbin 2009, Bowtie Langmead et al. 2009 etc ...
Alice Héliou 7 / 39
Ma structure de données préférée La compression des meta-data
The Population BWT,Dolle et al. 2017
Pour chaque lecture ilsstockent (4 bytes) :
Le groupe de la lecture(2 bytes),Le nombre de basescorrigées (1 byte),Le nombre de bases defaibles qualités (1 byte).
Notre objectif était de sto-cker ( ? bytes) :
L’identifiant del’échantillon (1 byte),La lecture appariée ( ?).
Alice Héliou 8 / 39
Ma structure de données préférée La compression des meta-data
The Population BWT,Dolle et al. 2017
Pour chaque lecture ilsstockent (4 bytes) :
Le groupe de la lecture(2 bytes),Le nombre de basescorrigées (1 byte),Le nombre de bases defaibles qualités (1 byte).
Notre objectif était de sto-cker ( ? bytes) :
L’identifiant del’échantillon (1 byte),La lecture appariée ( ?).
Alice Héliou 8 / 39
Ma structure de données préférée La compression des meta-data
Nos résultats :
Il faut changer l’ordre des lec-tures.→ Perte d’espace pour laBWT.→ Gain d’espace importantpour les méta-données.→ Estimation d’une divisionpar deux de l’espace total.
Alice Héliou 8 / 39
Et si les absents avaient raison ?
1 Ma structure de données préférée
2 Et si les absents avaient raison ?DefinitionLes applicationsLe lien avec les répétitions maximalesLes calculs des mots absents minimauxMots absents minimaux sur une fenêtre glissante
3 Les cercles qui ne rentrent pas dans le moule
Alice Héliou 9 / 39
Et si les absents avaient raison ? Definition
Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.
Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.
La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).
Crochemore et al. 1998, Mignosi et al. 2002
S=A0
A1
C2
A3
C4
A5
C6
C7
AAA, AACACC, AACC, CAA, CACACA, CCA, CCC
Alice Héliou 10 / 39
Et si les absents avaient raison ? Definition
Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.
La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).
Crochemore et al. 1998, Mignosi et al. 2002
S=A0
A1
C2
A3
C4
A5
C6
C7
AAA, AACACC, AACC, CAA, CACACA, CCA, CCC
Alice Héliou 10 / 39
Et si les absents avaient raison ? Definition
Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.
La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).
Crochemore et al. 1998, Mignosi et al. 2002
S=A0
A1
C2
A3
C4
A5
C6
C7
AAA, AACACC, AACC, CAA, CACACA, CCA, CCC
Alice Héliou 10 / 39
Et si les absents avaient raison ? Definition
Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.
La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).
Crochemore et al. 1998, Mignosi et al. 2002
S=A0
A1
C2
A3
C4
A5
C6
C7
AAA, AACACC, AACC, CAA, CACACA, CCA, CCC
Alice Héliou 10 / 39
Et si les absents avaient raison ? Definition
Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.
La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).
Crochemore et al. 1998, Mignosi et al. 2002
S=A0
A1
C2
A3
C4
A5
C6
C7
AAA, AACACC, AACC, CAA, CACACA, CCA, CCC
Alice Héliou 10 / 39
Et si les absents avaient raison ? Definition
Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.
La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).
Crochemore et al. 1998, Mignosi et al. 2002
S=A0
A1
C2
A3
C4
A5
C6
C7
AAA, AACACC, AACC, CAA, CACACA, CCA, CCC
Alice Héliou 10 / 39
Et si les absents avaient raison ? Definition
Definition : Mot Absent MinimalUn mot est absent d’une séquence lors qu’il n’y apparait pas.Un mot absent est minimal lorsque tous ses facteurs propres (le pluslong préfixe et le plus long suffixe) apparaissent dans la séquence.
La borne haute pour le nombre de mots absents minimaux d’uneséquence de taille n est O(n).
Crochemore et al. 1998, Mignosi et al. 2002
S=A0
A1
C2
A3
C4
A5
C6
C7
AAA, AACACC, AACC, CAA, CACACA, CCA, CCC
Alice Héliou 10 / 39
Et si les absents avaient raison ? Les applications
Les applications
Biologie3 séquences (TTTCGCCCGACT, TACGCCCTATCG, CCTACGCGCAAA),retrouvées dans des régions codantes de souches d’Ebola, sontabsentes du génome humain ( Silva et al. 2015).
BioInformatiqueDistance basée sur les mots absents minimaux→ Phylogénie (Chairungsee et al., 2012, Crochemore et al,2016).
InformatiqueCompression des donnés avec les anti-dictionnaires (Crochemoreet al., 2000, Fiala and Holub, 2008).
Alice Héliou 11 / 39
Et si les absents avaient raison ? Les applications
Les applications
Biologie3 séquences (TTTCGCCCGACT, TACGCCCTATCG, CCTACGCGCAAA),retrouvées dans des régions codantes de souches d’Ebola, sontabsentes du génome humain ( Silva et al. 2015).
BioInformatiqueDistance basée sur les mots absents minimaux→ Phylogénie (Chairungsee et al., 2012, Crochemore et al,2016).
InformatiqueCompression des donnés avec les anti-dictionnaires (Crochemoreet al., 2000, Fiala and Holub, 2008).
Alice Héliou 11 / 39
Et si les absents avaient raison ? Les applications
Les applications
Biologie3 séquences (TTTCGCCCGACT, TACGCCCTATCG, CCTACGCGCAAA),retrouvées dans des régions codantes de souches d’Ebola, sontabsentes du génome humain ( Silva et al. 2015).
BioInformatiqueDistance basée sur les mots absents minimaux→ Phylogénie (Chairungsee et al., 2012, Crochemore et al,2016).
InformatiqueCompression des donnés avec les anti-dictionnaires (Crochemoreet al., 2000, Fiala and Holub, 2008).
Alice Héliou 11 / 39
Et si les absents avaient raison ? Le lien avec les répétitions maximales
Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :
w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].
LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .
Séquence S
A un mot absent minimal de S
Alice Héliou 12 / 39
Et si les absents avaient raison ? Le lien avec les répétitions maximales
Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :
w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].
LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .
Séquence S
A un mot absent minimal de S
Alice Héliou 12 / 39
Et si les absents avaient raison ? Le lien avec les répétitions maximales
Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :
w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].
LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .
Séquence S
A un mot absent minimal de S
Alice Héliou 12 / 39
Et si les absents avaient raison ? Le lien avec les répétitions maximales
Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :
w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].
LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .
Séquence S
A un mot absent minimal de S
plus long préfixe de A : aw
plus long préfixe de Aa w
Alice Héliou 12 / 39
Et si les absents avaient raison ? Le lien avec les répétitions maximales
Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :
w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].
LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .
Séquence S
A un mot absent minimal de Splus long préfixe de A
a w
plus long suffixe de A : wb
plus long suffixe de Abw
Alice Héliou 12 / 39
Et si les absents avaient raison ? Le lien avec les répétitions maximales
Définition : Paire de répétitions maximaleUne paire de répétitions maximale dans S est un triplet (i , j ,w) tq :
w apparait dans S aux positions i et j ,S [i − 1] 6= S [j − 1],S [i + |w |] 6= S [j + |w |].
LemmeSi awb est un mot absent minimal de S , alors il existe des positions iet j telles que (i , j ,w) est une paire de répétitions maximale de S .
Séquence S
A un mot absent minimal de Splus long préfixe de A
a wplus long suffixe de A
bw
w ba
ij
Alice Héliou 12 / 39
Et si les absents avaient raison ? Le lien avec les répétitions maximales
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
LCP SA BWT0 8 C #
0 0 # A A C A C A C C
1 1 A A C A C A C C #
4 3 C A C A C C #
2 5 C A C C #
0 7 C C #
1 2 A C A C A C C #
3 4 A C A C C #
1 6 A C C #
Alice Héliou 13 / 39
Et si les absents avaient raison ? Le lien avec les répétitions maximales
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
LCP SA BWT0 8 C #
0 0 # A A C A C A C C
1 1 A A C A C A C C #
4 3 C A C A C C #
2 5 C A C C #
0 7 C C #
1 2 A C A C A C C #
3 4 A C A C C #
1 6 A C C #
Alice Héliou 13 / 39
Et si les absents avaient raison ? Les calculs des mots absents minimaux
Les autres algorithmes de calcul des mots absents minimaux
Références Structures InconvénientsCrochemore et al., 1998 Automate
des suffixesTrop couteux enespace
Belazzougui et al. 2013 BWT compactbidirectionelle
Non implémenté
Ota et al. 2014 Arbre des suffixes, ap-proche dynamique
Quadratique entemps
Belazzougui et al. 2015 BWT & structuressupplémentaires
Non implémenté
Alice Héliou 14 / 39
Et si les absents avaient raison ? Les calculs des mots absents minimaux
Linear-time computation of minimal absent words using suffix array. BMC Bioinformatics, 2014
Pré-calculTable des suffixes, temps et espace linéaires 2003,Table des LCP, temps et espace linéaires avec la table dessuffixes et la séquence en entrée.
CalculOn traverse deux fois ces tables, pour construire l’ensemble delettres qui apparaissent avant chaque répétition maximale àdroite.On en déduit l’ensemble des mots absents minimaux.
PerformancesPour l’ensemble du génome humain :' 9000s avec 130GB de mémoire interne.
Alice Héliou 15 / 39
Et si les absents avaient raison ? Les calculs des mots absents minimaux
Linear-time computation of minimal absent words using suffix array. BMC Bioinformatics, 2014
Pré-calculTable des suffixes, temps et espace linéaires 2003,Table des LCP, temps et espace linéaires avec la table dessuffixes et la séquence en entrée.
CalculOn traverse deux fois ces tables, pour construire l’ensemble delettres qui apparaissent avant chaque répétition maximale àdroite.On en déduit l’ensemble des mots absents minimaux.
PerformancesPour l’ensemble du génome humain :' 9000s avec 130GB de mémoire interne.
Alice Héliou 15 / 39
Et si les absents avaient raison ? Les calculs des mots absents minimaux
Linear-time computation of minimal absent words using suffix array. BMC Bioinformatics, 2014
Pré-calculTable des suffixes, temps et espace linéaires 2003,Table des LCP, temps et espace linéaires avec la table dessuffixes et la séquence en entrée.
CalculOn traverse deux fois ces tables, pour construire l’ensemble delettres qui apparaissent avant chaque répétition maximale àdroite.On en déduit l’ensemble des mots absents minimaux.
PerformancesPour l’ensemble du génome humain :' 9000s avec 130GB de mémoire interne.
Alice Héliou 15 / 39
Et si les absents avaient raison ? Les calculs des mots absents minimaux
S=A0
A1
C2
A3
C4
A5
C6
C7
#8
LCP SA BWT0 8 C #
0 0 # A A C A C A C C
1 1 A A C A C A C C #
4 3 C A C A C C #
2 5 C A C C #
0 7 C C #
1 2 A C A C A C C #
3 4 A C A C C #
1 6 A C C #
Alice Héliou 16 / 39
Et si les absents avaient raison ? Les calculs des mots absents minimaux
Améliorations et compromis des performances de calcul
Parallelising the Computation of Minimal Absent Words, PPAM 2105Parallélisation efficace,Calcul pour le génome humain : ' 5000s avec 4 coeurs et130GB de mémoire interne.
Computing Minimal Absent Words in External Memory,Bioinformatics 2017Calcul pour le génome humain :' 8000s avec 8GB de mémoire interne,' 12000s avec 1GB de mémoire interne.
Les implémentations sont disponibles là :https://github.com/solonas13/maw
Alice Héliou 17 / 39
Et si les absents avaient raison ? Les calculs des mots absents minimaux
Améliorations et compromis des performances de calcul
Parallelising the Computation of Minimal Absent Words, PPAM 2105Parallélisation efficace,Calcul pour le génome humain : ' 5000s avec 4 coeurs et130GB de mémoire interne.
Computing Minimal Absent Words in External Memory,Bioinformatics 2017Calcul pour le génome humain :' 8000s avec 8GB de mémoire interne,' 12000s avec 1GB de mémoire interne.
Les implémentations sont disponibles là :https://github.com/solonas13/maw
Alice Héliou 17 / 39
Et si les absents avaient raison ? Les calculs des mots absents minimaux
Améliorations et compromis des performances de calcul
Parallelising the Computation of Minimal Absent Words, PPAM 2105Parallélisation efficace,Calcul pour le génome humain : ' 5000s avec 4 coeurs et130GB de mémoire interne.
Computing Minimal Absent Words in External Memory,Bioinformatics 2017Calcul pour le génome humain :' 8000s avec 8GB de mémoire interne,' 12000s avec 1GB de mémoire interne.
Les implémentations sont disponibles là :https://github.com/solonas13/maw
Alice Héliou 17 / 39
Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante
Calcul des mots absents minimaux sur une fenêtre glissante
Une séquence S de taille n, sur un alphabet de taille constante,Une fenêtre glissante de taille m sur S : S [i . . i + m − 1].
Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.
· · · S · · ·i i + m − 1
M(S [i . . i + m − 1])
Alice Héliou 18 / 39
Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante
Calcul des mots absents minimaux sur une fenêtre glissante
Une séquence S de taille n, sur un alphabet de taille constante,Une fenêtre glissante de taille m sur S : S [i . . i + m − 1].
Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.
· · · S · · ·i i + m − 1
M(S [i . . i + m − 1])
Alice Héliou 18 / 39
Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante
Application à la recherche de motifs
Mots absents minimaux dans une fenêtre glissantePour une sequence S de taille n et une fenêtre de taille m on calcule :∀i , 0 ≤ i ≤ n −m,M(S [i . . i + m − 1]),en temps O(n) et en espace O(m)
Length Weighted Index (LWI), introduit par Chairungsee en 2012
Mesure basée sur la différence symétrique des ensembles de motsabsents minimaux.
LWI(M(x),M(y)) =∑
w∈M(x)4M(y)
1|w |2 .
→ On obtient la position de distance minimale.
Alice Héliou 19 / 39
Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante
Application à la recherche de motifs
Mots absents minimaux dans une fenêtre glissantePour une sequence S de taille n et une fenêtre de taille m on calcule :∀i , 0 ≤ i ≤ n −m,M(S [i . . i + m − 1]),en temps O(n) et en espace O(m)
Length Weighted Index (LWI), introduit par Chairungsee en 2012
Mesure basée sur la différence symétrique des ensembles de motsabsents minimaux.
LWI(M(x),M(y)) =∑
w∈M(x)4M(y)
1|w |2 .
→ On obtient la position de distance minimale.
Alice Héliou 19 / 39
Et si les absents avaient raison ? Mots absents minimaux sur une fenêtre glissante
Application à la recherche de motifs
Mots absents minimaux dans une fenêtre glissantePour une sequence S de taille n et une fenêtre de taille m on calcule :∀i , 0 ≤ i ≤ n −m,M(S [i . . i + m − 1]),en temps O(n) et en espace O(m)
Length Weighted Index (LWI), introduit par Chairungsee en 2012
Mesure basée sur la différence symétrique des ensembles de motsabsents minimaux.
LWI(M(x),M(y)) =∑
w∈M(x)4M(y)
1|w |2 .
→ On obtient la position de distance minimale.
Alice Héliou 19 / 39
Et si les absents avaient raison ? conclusion
Algorithmes de calcul des mots absents minimauxAvec C. Barton, L. Mouchard, S. P. Pissis et S. Puglisi :
Calcul en temps et espace linéaires avec la table des suffixes,BMC Bioinformatics 2014,Calcul parallèle, PPAM 2015,Calcul en mémoire externe, Bioinformatics, 2017.
Avec M. Crochemore, G. Kucherov, L. Mouchard, S. P. Pissis et Y.Ramusat :
Calcul sur une fenêtre glissante et recherche de motifs, FCT2017.
Alice Héliou 20 / 39
Les cercles qui ne rentrent pas dans le moule
1 Ma structure de données préférée
2 Et si les absents avaient raison ?
3 Les cercles qui ne rentrent pas dans le mouleLes ARNs circulairesL’alignment des lectures provenant d’ARNs circulairesLe cas de Pyrococcus AbyssiL’analyse d’autres organismes
Alice Héliou 21 / 39
Les cercles qui ne rentrent pas dans le moule Les ARNs circulaires
Les ARNs circulaires
CaractéristiquesPas d’extrémités → stabilité accrue,Découverts dans tous les domainesdu vivant,Très étudiés grâce au séquençagehaut débit.
FonctionsModifications post-transcriptionnelles pour la maturationd’ARNs,Éponges à ARNmi → régulation de l’expression des gènes,...
Alice Héliou 22 / 39
Les cercles qui ne rentrent pas dans le moule Les ARNs circulaires
Les ARNs circulaires
CaractéristiquesPas d’extrémités → stabilité accrue,Découverts dans tous les domainesdu vivant,Très étudiés grâce au séquençagehaut débit.
FonctionsModifications post-transcriptionnelles pour la maturationd’ARNs,Éponges à ARNmi → régulation de l’expression des gènes,...
Alice Héliou 22 / 39
Les cercles qui ne rentrent pas dans le moule Les ARNs circulaires
Figure adaptée de Meng et al. Briefings in Bioinformatics, 2016
Alice Héliou 23 / 39
Les cercles qui ne rentrent pas dans le moule L’alignment des lectures provenant d’ARNs circulaires
L’alignement des lectures provenant d’ARNs circulairesGenome
Linear RNATranscription
Circularization
Sequencingand
Alignment
Circular RNA
match 1 match 2
≥ 3 ≥ 3≥ 0
≤ 10, 000
match 1match 2Genome
Circularizationjunction
Rnase HIIIFragmentation
Putativecircular read
LinearRead
Alice Héliou 24 / 39
Les cercles qui ne rentrent pas dans le moule L’alignment des lectures provenant d’ARNs circulaires
Les critères de sélection
Annotations
Fenêtrede 100kb
Jonctions GT-AG
Danan et al.2012
CIRIGao et al. 2015
find_circMemczak et al.
2013
circRNA_finderWestholm et al.
2014circExplorerZhang et al. 2014
MapSpliceWang et al. 2010
SegemehlHoffmann et al.
2009,2014
Alice Héliou 25 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
Le cas de Pyrococcus Abyssi
Figure: PDB de PAB1020
L’équipe de H.Myllykallio a montré quel’enzyme PAB1020 est capable de circu-lariser :
Des petits ARNs synthétiques invitro (Brooks et al., 2009),Trois ARNs in vivo (ARNr 5S, deuxARN à boites C/D).
Objectifs des analyses des données de séquençage :Confirmer l’implication de la ligase dans la circularisation,Identifier les ARNs circulaires.
Alice Héliou 26 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
Le cas de Pyrococcus Abyssi
Figure: PDB de PAB1020
L’équipe de H.Myllykallio a montré quel’enzyme PAB1020 est capable de circu-lariser :
Des petits ARNs synthétiques invitro (Brooks et al., 2009),Trois ARNs in vivo (ARNr 5S, deuxARN à boites C/D).
Objectifs des analyses des données de séquençage :Confirmer l’implication de la ligase dans la circularisation,Identifier les ARNs circulaires.
Alice Héliou 26 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
Les expériences de sequençage
ProtéineARNADN
PontagecovalentProtéine-ARN
Extrac6ondesARNDégrada6ondeslinéaires
Extrac6ondesARN
Extrac6ondesARN&Dégrada6ondeslinéaires
Culture
SéquençageExpA
SéquençageExpB
SéquençageExpC
Alice Héliou 27 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
genome· · · · · ·
cas 1 : la lecture s’aligne linéairement
lecture
match global
Alice Héliou 28 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
genome· · · · · ·
cas 1 : la lecture s’aligne linéairement
lecture
match global
genome· · · · · ·
cas 2 : lecture circulaire avec deux matchs inversés
match 2 match 1
lecture
≥ 11 ≥ 11
≤ 10000
Alice Héliou 28 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
genome· · · · · ·
cas 1 : la lecture s’aligne linéairement
lecture
match global
genome· · · · · ·
cas 2 : lecture circulaire avec deux matchs inversés
match 2 match 1
lecture
≥ 11 ≥ 11
≤ 10000
genome· · · · · ·
cas 3 : lecture avec un long match incomplet
≤ 10000
match partiel
≥ 11
lecture
< 11
recherche naïve du complémentaire
Alice Héliou 28 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
A B C0
20
40
60
80
100
Ratio lectures alignees et non alignees
aligneesnon alignees
73.8% 11.5% 82.5%
A) Ligase-ARNB) Ligase-ARN sans linéairesC) ARN totaux sans linéaires
A B C0
20
40
60
80
100
Ratio circulaires et lineaires parmi les lectures alignees
circulaireslineaires
8.6% 14.4% 11.3%
· · · · · ·
linéaire
· · · · · ·
circulaire
Alice Héliou 29 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
A B C0
20
40
60
80
100
Ratio lectures alignees et non alignees
aligneesnon alignees
73.8% 11.5% 82.5%
A) Ligase-ARNB) Ligase-ARN sans linéairesC) ARN totaux sans linéaires
A B C0
20
40
60
80
100
Ratio circulaires et lineaires parmi les lectures alignees
circulaireslineaires
8.6% 14.4% 11.3%
· · · · · ·
linéaire
· · · · · ·
circulaire
Alice Héliou 29 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
Identification des jonctions
Visualisation de l’alignement deslectures circulaires sur l’ARN à boite
C/D sR53
On regroupe les expériences.Une jonction doit être soute-nue par :
au moins 3 lecturesvenant d’au moins 2expériences,
au moins la moitié deslectures circulairesdans la jonction.
Alice Héliou 30 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
Identification des jonctions
Uniquement les premiers matchs→ ils commencent tous à la même
position
On regroupe les expériences.Une jonction doit être soute-nue par :
au moins 3 lecturesvenant d’au moins 2expériences,
au moins la moitié deslectures circulairesdans la jonction.
Alice Héliou 30 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
Identification des jonctions
Uniquement les seconds matchs→ ils finissent tous à la mêmeposition (à 3 nucléotides près)
On regroupe les expériences.Une jonction doit être soute-nue par :
au moins 3 lecturesvenant d’au moins 2expériences,
au moins la moitié deslectures circulairesdans la jonction.
Alice Héliou 30 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
Identification des jonctions
Jonction sur l’ARN à boite C/D sR53
On regroupe les expériences.Une jonction doit être soute-nue par :
au moins 3 lecturesvenant d’au moins 2expériences,
au moins la moitié deslectures circulairesdans la jonction.
Alice Héliou 30 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
Identification des jonctions
Jonction sur l’ARN à boite C/D sR53
On regroupe les expériences.Une jonction doit être soute-nue par :
au moins 3 lecturesvenant d’au moins 2expériences,au moins la moitié deslectures circulairesdans la jonction.
Alice Héliou 30 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
Identification des jonctions
Jonction sur l’ARN à boite C/D sR53
Visualisation de l’alignement deslectures circulaires sur l’ARNr 16S→ pas de jonction identifiable
On regroupe les expériences.Une jonction doit être soute-nue par :
au moins 3 lecturesvenant d’au moins 2expériences,au moins la moitié deslectures circulairesdans la jonction.
Alice Héliou 30 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
Loci contenant une jonction identifiéeARNsno à boites C/D Intron du ARNt-Trp
ARNr
ARN codant pourune protéine
ARN non annoté
Alice Héliou 31 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
H.F. Becker, A. Héliou, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio, RNA Biology 2017
Diagramme de Venn des jonctions identifiées dans nos expériences
1 tRNA, 3 NA,
32 C/D,
1 tRNA, 3 rRNA,
1 NA, 15 Protein
2 rRNA,
1NA,
11 Protein
6 C/D,
3 NA
32 Protein
4 Protein
Ligase-ARN A
3 tRNA,
4 NA,
9 Protein
Ligase-ARN sans lineaires
B
∅
ARN totaux
sans lineairesC
1 rRNA,
1NA
Les jonctions entourées sont enrichies en circulaires avec le traitement RNase R (dégrade leslinéaires).
Alice Héliou 32 / 39
Les cercles qui ne rentrent pas dans le moule Le cas de Pyrococcus Abyssi
H.F. Becker, A. Héliou, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio, RNA Biology 2017
Diagramme de Venn des jonctions identifiées dans nos expériences
1 tRNA, 3 NA,
32 C/D,
1 tRNA, 3 rRNA,
1 NA, 15 Protein
2 rRNA,
1NA,
11 Protein
6 C/D,
3 NA
32 Protein
4 Protein
Ligase-ARN A
3 tRNA,
4 NA,
9 Protein
Ligase-ARN sans lineaires
B
∅
ARN totaux
sans lineairesC
1 rRNA,
1NA
Les jonctions entourées sont enrichies en circulaires avec le traitement RNase R (dégrade leslinéaires).
Alice Héliou 32 / 39
Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes
Analyse des ARNs chez d’autres organismes
ProtéineOrganisme Caractéristique homolgue
à Pab1020Natrialba magadii Archée halophile ouiHaloferax volcanii Archée halophile nonAquifex aeolicus Bactérie hyperthermophile oui
Halorhodospira halophila Bactérie halophile oui
Alice Héliou 33 / 39
Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes
Nos premiers résultats, quantification par lociHaloferax volcanii (65)
49%
Codant pour Protéine (32)
31%
Non-annoté (20)
11%
ARNt (7)
8% ARNr (5)1%
ARN non codant (1)
Aquifex aeolicus (71)
48%
Codant pour Protéine (34)
13%Non-annoté (9)
4%
ARNtm (3)18%
ARNt (13)
16%ARNr (11)
1%Gene sans fonctionconnue (1)
Pyrococcus abyssi (133)
28%
Boite C/D (38)
53%Codant pourProtéine (71) 9%
Non-annoté (13)
3%ARNt (5)
4% ARNr (6)
Alice Héliou 34 / 39
Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes
Nos premiers résultats, quantification par lociHaloferax volcanii (65)
49%
Codant pour Protéine (32)
31%
Non-annoté (20)
11%
ARNt (7)
8% ARNr (5)1%
ARN non codant (1)
Aquifex aeolicus (71)
48%
Codant pour Protéine (34)
13%Non-annoté (9)
4%
ARNtm (3)18%
ARNt (13)
16%ARNr (11)
1%Gene sans fonctionconnue (1)
Pyrococcus abyssi (133)
28%
Boite C/D (38)
53%Codant pourProtéine (71) 9%
Non-annoté (13)
3%ARNt (5)
4% ARNr (6)
Alice Héliou 34 / 39
Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes
Analyse de la fonction de la ligase in vivo
Chez Thermococcus barophilus, Archée hyperthermophile.
Inactivation du gène codant pour la ligase, collaboration avecl’Ifremer (Brest).RNA-seq, et analyse des données de séquençage.
→ Comparaison des populations d’ARN circulaires avec et sans laligase.→ L’ARN ligase de la famille Rnl3 est-elle indispensable à lacircularisation ?
Alice Héliou 35 / 39
Les cercles qui ne rentrent pas dans le moule L’analyse d’autres organismes
Analyse de la fonction de la ligase in vivo
Chez Thermococcus barophilus, Archée hyperthermophile.
Inactivation du gène codant pour la ligase, collaboration avecl’Ifremer (Brest).RNA-seq, et analyse des données de séquençage.
→ Comparaison des populations d’ARN circulaires avec et sans laligase.→ L’ARN ligase de la famille Rnl3 est-elle indispensable à lacircularisation ?
Alice Héliou 35 / 39
Conclusion
Identification des ARNs circulairesAvec H.F. Becker, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio,
"Hight-Throughput Sequencing Reveals Circular Substrates for an ArchaealRNA ligase", RNA Biology, 2017
Algorithmes de calcul des mots absents minimauxAvec C. Barton, L. Mouchard, S. P. Pissis et S. Puglisi
Calcul avec la table des suffixes, BMC Bioinformatics, 2014
Calcul parallèle, PPAM, 2015
Calcul en mémoire externe, Bioinformatics, 2017
Avec M. Crochemore, G. Kucherov, L. Mouchard, S. P. Pissis et Y. Ramusat
Calcul sur une fenêtre glissante et recherche de motifs, FCT 2017
Alice Héliou 36 / 39
Conclusion
Identification des ARNs circulairesAvec H.F. Becker, K. Djaout, R. Lestini, M. Regnier, H. Myllykallio,
"Hight-Throughput Sequencing Reveals Circular Substrates for an ArchaealRNA ligase", RNA Biology, 2017
Algorithmes de calcul des mots absents minimauxAvec C. Barton, L. Mouchard, S. P. Pissis et S. Puglisi
Calcul avec la table des suffixes, BMC Bioinformatics, 2014
Calcul parallèle, PPAM, 2015
Calcul en mémoire externe, Bioinformatics, 2017
Avec M. Crochemore, G. Kucherov, L. Mouchard, S. P. Pissis et Y. Ramusat
Calcul sur une fenêtre glissante et recherche de motifs, FCT 2017
Alice Héliou 36 / 39
Perspectives
Perspectives
Algorithmes de calcul des mots absents minimauxImplémenter l’algorithme sur une fenêtre glissante.Comparer l’alignement de lectures avec cette méthode et lesalgorithmes classiques.
Identification des ARNs circulairesSéquencer d’autres organismes procaryotes et comparer leursARNs circulaires.Étendre la méthode aux organismes avec épissage.→ Utiliser un algorithme d’alignement plus approprié :
STAR (Dobin et al., 2013), BWA-MEM (Li et al, 2013), ...
Alice Héliou 37 / 39
Perspectives
Perspectives
Algorithmes de calcul des mots absents minimauxImplémenter l’algorithme sur une fenêtre glissante.Comparer l’alignement de lectures avec cette méthode et lesalgorithmes classiques.
Identification des ARNs circulairesSéquencer d’autres organismes procaryotes et comparer leursARNs circulaires.
Étendre la méthode aux organismes avec épissage.→ Utiliser un algorithme d’alignement plus approprié :
STAR (Dobin et al., 2013), BWA-MEM (Li et al, 2013), ...
Alice Héliou 37 / 39
Perspectives
Perspectives
Algorithmes de calcul des mots absents minimauxImplémenter l’algorithme sur une fenêtre glissante.Comparer l’alignement de lectures avec cette méthode et lesalgorithmes classiques.
Identification des ARNs circulairesSéquencer d’autres organismes procaryotes et comparer leursARNs circulaires.Étendre la méthode aux organismes avec épissage.→ Utiliser un algorithme d’alignement plus approprié :
STAR (Dobin et al., 2013), BWA-MEM (Li et al, 2013), ...
Alice Héliou 37 / 39
Remerciements
Alice Héliou 38 / 39
Remerciements
LOBHubert BeckerHannu MyllykallioRoxane LestiniYoann Collienet tous les autres
LIXMireille RégnierYann PontyPhilippe ChassignetAmélie HéliouAfaf SaaidiJuraj Michaliket tous les autres
Université de RouenLaurent Mouchard
King’s College LondonSolon PissisCarl Barton
Université d’HelsinkiSimon PuglisiUniversité Paris EstMaxime CrochemoreGregory Kucherov
ENS ParisYann Ramusat
Institut SangerThomas KeaneDirk Dolle
Alice Héliou 39 / 39
Remerciements
Nos premiers résultats, quantification par lectures alignées
Haloferax volcanii (1540)
19%
Codant pourProtéine (295)
68%Non-annoté(1046)
7.5%ARNt (100)
4% ARNr (61)1.5%
ARN non codant (24)
Aquifex aeolicus (3795)
6% Codant pourProtéine (220)
4%Non-annoté (143)20%
ARNtm (743)
8%
ARNt (310)
63%
ARNr (2377)
Pyrococcus abyssi (28279)
53%
Boite C/D (15074)
Codant pourProtéine (917)
3%
1%Non-annoté (515) 33%
ARNt (9359)
8% ARNr (2414)
Alice Héliou 39 / 39
Remerciements
Nos premiers résultats, quantification par lectures alignées
Haloferax volcanii (1540)
19%
Codant pourProtéine (295)
68%Non-annoté(1046)
7.5%ARNt (100)
4% ARNr (61)1.5%
ARN non codant (24)
Aquifex aeolicus (3795)
6% Codant pourProtéine (220)
4%Non-annoté (143)20%
ARNtm (743)
8%
ARNt (310)
63%
ARNr (2377)
Pyrococcus abyssi (28279)
53%
Boite C/D (15074)
Codant pourProtéine (917)
3%
1%Non-annoté (515) 33%
ARNt (9359)
8% ARNr (2414)
Alice Héliou 39 / 39
Remerciements
Calcul des mots absents minimaux sur une fenêtre glissante
Un mot y de taille n, sur un alphabet de taille constante.Une fenêtre glissante de taille m sur y : y [i . . i + m − 1]
Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.
· · · y · · ·i i + m − 1
M(y [i . . i + m − 1])
Alice Héliou 39 / 39
Remerciements
Calcul des mots absents minimaux sur une fenêtre glissante
Un mot y de taille n, sur un alphabet de taille constante.Une fenêtre glissante de taille m sur y : y [i . . i + m − 1]
Pour tout mot x on note M(x) l’ensemble de ses mots absentsminimaux.
· · · y · · ·i i + m − 1
M(y [i . . i + m − 1])
Alice Héliou 39 / 39
Remerciements
Calcul des mots absents minimaux sur une fenêtre glissante
Lemme
La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).
→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).
Théoreme
La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|
est O(n).
→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.
Alice Héliou 39 / 39
Remerciements
Calcul des mots absents minimaux sur une fenêtre glissante
Lemme
La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).
→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).
Théoreme
La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|
est O(n).
→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.
Alice Héliou 39 / 39
Remerciements
Calcul des mots absents minimaux sur une fenêtre glissante
Lemme
La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).
→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).
Théoreme
La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|
est O(n).
→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.
Alice Héliou 39 / 39
Remerciements
Calcul des mots absents minimaux sur une fenêtre glissante
Lemme
La borne haute den−m∑i=0|M(y [i . . i + m − 1])| est O(nm).
→ On ne peut pas écrire l’ensemble des mots absents minimaux dechaque facteur de taille m en temps O(n).
Théoreme
La borne haute den−m−1∑i=0|M(y [i . . i + m − 1])4M(y [i + 1 . . i + m])|
est O(n).
→ Il nous faut une structure dynamique pour passer d’un ensemble àun autre.
Alice Héliou 39 / 39
Remerciements L’arbre des suffixes
L’arbre des suffixes : une structure plus couteuse en espace mais dynamique
⊥
8
0
1 3
5
7
2 4
6
A
A. .C# C
C#
AC
ACC# C
#
C
C#
AC
ACC# C
#
#
S=A0A1C2A3C4A5C6C7#8
LCP SA0 80 01 14 32 50 71 23 41 6
Alice Héliou 39 / 39
Remerciements L’arbre des suffixes
L’arbre des suffixes : une structure plus couteuse en espace mais dynamique
⊥
8
0
1 3
5
7
2 4
6
A
A. .C# C
C#
AC
ACC# C
#
C
C#
AC
ACC# C
#
#
S=A0A1C2A3C4A5C6C7#8
LCP SA0 80 01 14 32 50 71 23 41 6
Alice Héliou 39 / 39
Remerciements Fenêtre glissante
L’arbre des suffixes pour une fenêtre glissante
Construction dynamique de l’arbre des suffixesWeiner en 1973 propose une construction de gauche à droiteMcCreight en 1976 propose une construction de droite à gaucheUkkonen en 1995 simplifie l’algorithme de Weiner
L’arbre des suffixes pour une fenêtre glissante, Senft 2005Enlever la lettre la plus à gauche,Mettre à jour les étiquettes des branches
Alice Héliou 39 / 39
Remerciements Fenêtre glissante
L’arbre des suffixes pour une fenêtre glissante
Construction dynamique de l’arbre des suffixesWeiner en 1973 propose une construction de gauche à droiteMcCreight en 1976 propose une construction de droite à gaucheUkkonen en 1995 simplifie l’algorithme de Weiner
L’arbre des suffixes pour une fenêtre glissante, Senft 2005Enlever la lettre la plus à gauche,Mettre à jour les étiquettes des branches
Alice Héliou 39 / 39
Remerciements Fenêtre glissante
Les mots absents minimaux pour une fenêtre glissante
Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.
Ajout sur l’arbre de l’information contenue dans la BWT.Ajout sur l’arbre des mots absent minimaux
La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.
Alice Héliou 39 / 39
Remerciements Fenêtre glissante
Les mots absents minimaux pour une fenêtre glissante
Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.
Ajout sur l’arbre de l’information contenue dans la BWT.
Ajout sur l’arbre des mots absent minimaux
La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.
Alice Héliou 39 / 39
Remerciements Fenêtre glissante
Les mots absents minimaux pour une fenêtre glissante
Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.
Ajout sur l’arbre de l’information contenue dans la BWT.Ajout sur l’arbre des mots absent minimaux
La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.
Alice Héliou 39 / 39
Remerciements Fenêtre glissante
Les mots absents minimaux pour une fenêtre glissante
Nous avons adapté l’algorithme de Senft ( 2005 ), aux mots absentminimaux.
Ajout sur l’arbre de l’information contenue dans la BWT.Ajout sur l’arbre des mots absent minimaux
La fonction f est une injectionf : M(z)→ Σ(z)× V (z) définit par f (aub) = (a, vub),où a ∈ Σ et vub est le noeud correspondant à ub.
Alice Héliou 39 / 39
Remerciements Fenêtre glissante
⊥
4
2 0
5 3 1
6
A(0,0)
C(1,1)
A(2,2)
GC(6,7)
AGC(5,7)
CAAGC(3,7)
AGC(5,7)
CAAGC(3,7)
CA(1,2)A
GC(5,7) G
C(6,7)
S =A0C1A2C3A4A5G6C7
Alice Héliou 39 / 39
Remerciements Fenêtre glissante
⊥
4
2 0
5 3 1
6
A(0,0)
C(1,1)
A(2,2)
GC(6,7)
AGC(5,7)
CAAGC(3,7)
AGC(5,7)
CAAGC(3,7)
CA(1,2)A
GC(5,7) G
C(6,7)
z0 =A0C1A2C3A4A5G6C7
M(z0)= {AAA,GA,AAC,CACAC,CAG,CC,GCA,CG,GG}
B= {C}M= {A}
B= {A,C}
M= {G}
B= {A}
M= {C,G+}
B= {C}M= ∅
B= ∅M= {C}
B= {A}M= {C}
B= {A}M= ∅
B= {A}M= ∅
B= {C}M= {A}
B= {A}M= {C,G}
Alice Héliou 39 / 39
Remerciements Fenêtre glissante
⊥
4
2 0
5 3 1
6
A(0,0)
CA(1,2)
GCA(6,8)
AGCA(5,8)
CAAGCA(3,8)
AGCA(5,8)
CAAGCA(3,8)
CA(1,2)A
GCA(5,8) G
CA(6,8)
z0 · A =A0C1A2C3A4A5G6C7A8
M(z0 · A)= {AAA,GA,AAC,CACAC,CAG,CC,GCAA,GCAC,CG,GG}
B= {C}M= {A}
B= {A,C}
M= {G}
B= {A,G}
M= {C,G}
B= {C}M= ∅
B= ∅M= {C}
B= {A}M= {C}
B= {A}M= {G}
B= {A}M= {G}
B= {C}M= {A}
B= {A}M= {C,G}
Alice Héliou 39 / 39
Remerciements Fenêtre glissante
⊥
4
2 0
5 3 1
6
A(0,0)
CA(1,2)
GCA(6,8)
AGCA(5,8)
CAAGCA(3,8)
AGCA(5,8)
CAAGCA(3,8)
CA(1,2)A
GCA(5,8) G
CA(6,8)
A · z1 =A0C1A2C3A4A5G6C7A8
M(A · z1)\M(z1)= {CACAC}
B= {C}M= {A}
B= {A,C}
M= {G}
B= {A,G}
M= {C}
B= {C}M= ∅
B= ∅M={C}
B= {A}M= {C}
B= {A}M= {G}
B= {A}M= {G}
B= {C}M= {A}
B= {A}M= {C,G}
Alice Héliou 39 / 39
Remerciements Fenêtre glissante
⊥
4 2 5 3 1
6
A(0,0)
CA(1,2)
GCA(6,8)
AGCA(5,8)
CAAGCA(3,8)
CAAGCA(4,8)
AGCA(5,8) G
CA(6,8)
z1 = C1A2C3A4A5G6C7A8
M(z1)= {AAA,GA,AAC,CAG,CC,GCAA,ACAC,GCAC,CG,GG}
B= {C}M= {A}
B= {A,C}
M= {G}
B= {A,G}
M= {C}
B= {C}M= {A}
B= {A}M= {C}
B= {A}M= {G}
B={A}M= {A,G}
B= {A}M= {C,G}
Alice Héliou 39 / 39