Bioinformatique modélisation et analyse des données génomiques et post-génomiques François...

Post on 03-Apr-2015

108 views 0 download

Transcript of Bioinformatique modélisation et analyse des données génomiques et post-génomiques François...

Bioinformatiquemodélisation et analyse des données

génomiques et post-génomiques

François Rechenmann

ARN

Transcriptome

ADN

Génome

enzymes

P

O

O

O P

O

O

O P

O

OO

ON

O

N

N

O

N

N

O

ATP

Métabolome

Protéome

Protéinesrégulation

Le codage del’information génomique

• macromolécule d’ADN ≈ enchaînement d’acides nucléiques– adénine : A– thymine : T– cytosine : C– guanine : G

• génome ≈ texte écrit dans l’alphabet de ces quatre lettres

Cellules procaryotes

ADN double brin

chaîne d’acides aminés

traduction

repliement

transcription

messager

Le code génétique

Premièreposition

Deuxième position

Troisièmeposition

UUU Phe (F) UCU Ser (S) UAU Tyr (Y) UGU Cys (C)UUC " UCC " UAC UGCUUA Leu (L) UCA " UAA Ter UGA TerUUG " UCG " UAG Ter UGG Trp

(W)

CUU Leu (L) CCU Pro (P) CAU His (H) CGU Arg (R)CUC " CCC " CAC " CGC "CUA " CCA " CAA Gln (Q) CGA "CUG " CCG " CAG " CGG "

AUU Ile (I) ACU Thr (T) AAU Asn (N) AGU Ser (S)AUC " ACC " AAC " AGC "AUA " ACA " AAA Lys (K) AGA Arg (R)AUG Met (M) ACG " AAG " AGG "

GUU Val (V) GCU Ala (A) GAU Asp (D) GGU Gly (G)GUC " GCC " GAC " GGC "GUA " GCA " GAA Glu (E) GGA "GUG " GCG " GAG " GGG "

U C A G

U

C

A

G

UCAG

UCAG

UCAG

UCAG

Cellules eucaryotes

ARN prémessager

ADN double brin

chaîne d’acides aminés

traduction

repliement

transcription

messager

exonexon exon

intronintron

maturation(excision - épissage)

200 400 600 800 1000 1200M/z0

100

%

F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+

(596.29) F G L (329.16) yMax201.11

187.12

175.09

819.38y2

312.12

330.13b 762.36

y1516.25401.24

932.44y3

825.42

1033.48

1259.57

GATCACCTCACTACGGGTCAGGGGAAGGAAAGGGGAACTGAGAGATTTGTCAGTGTGAGAAGCAGTCCCAGGAGTTAGAAGTAGTGGCTCCATGACTCACAAATTAACTTCCCTTTCAGGCAGGGCTTCTTATTTTCCTTAGCATCCCTGTCTTGATCCCAGCCTGCTCAGACCCCTGCCTCTCACTGCAAGATGTGCTT ARN

Transcriptome

ADN

Génome

enzymes

P

O

O

O P

O

O

O P

O

OO

ON

O

N

N

O

N

N

O

ATP

Métabolome

Protéome

Protéinesrégulation

De très nombreux domaines de recherche en informatique,

automatique et mathématiques appliquées sont concernés

algorithmique sur les séquences, sur les graphes…

statistique, analyse de donnéesapprentissage symbolique et

numériquevisualisation de donnéesmodélisation et simulation dynamiques calcul parallèlebases de données et de connaissances

Le projet HELIX« Informatique et génomique »

• Projet de l’unité de recherche INRIA Rhône-Alpes– à Grenoble (Montbonnot) et Lyon (campus de La

Doua, UMR CNRS UCB 5558)– 40 chercheurs, ingénieurs et doctorants

• Quatre exemples– GenoStar : plate-forme de génomique

exploratoire– Génomique comparative et synténie– Modélisation et simulation de réseaux

d’interactions– PepMap et la bioinformatique de la protéomique

Le consortium Genostar

Les objectifs du consortium

Concevoir et développerune plate–forme bioinformatique

de génomique exploratoire

La plate-forme Genostar

• Des modules interopérables

GenoExpertBacteria

• autour d’un noyau qui assure – la gestion et la persistance des données et des connaissances– l’enchaînement de l’exécution des méthodes d’analyse

La plate-forme Genostar

• Des données structurées dans un modèle à objets et relations

is-located-onchromosomesize

shape

genemnemo

type

is-located-onBasudnaA

is-located-onHepysecG

is-located-onBasusecD

is-located-onBobusecG

Proteinclass

Regulator“is-A”

inheritance

Regulates

association

regulatorregulated-prot roles

Km

associationslots

Compoundeffector

N-aryassociation

s

MWLengthSequence

classslots

La plate-forme Genostar

• Des données structurées dans un modèle à objets et relations

• Un ensemble de méthodes d’analyse et de visualisation

• Des tâches paramétrables enchaînant ces méthodes sur les données

CDS

ORF ORF

RBS

STOP START STOP STOP

Un exemple : la recherche de CDS bactériennes

Recherche de CDS

Recherche des ORF

Recherche des RBS

Enregistrement et visualisation des objets créés

Le consortium Genostar a bénéficié du soutien du Ministère de la Recherche

– Direction de la Recherche : programme

Génomique– Direction de la Technologie :

programme GenHomme

• Genostar est mis à disposition des laboratoires de recherche publics

• Le consortium est ouvert aux partenariats avec les sociétés privées

http://www.genostar.org

Comparative genomics

bioWbioD bioFbioBbioAS.aureus

Gene order conservation: NO

Gene cluster conservation: YES

B.subtilisbioBbioDbioFbioW bioA

Pimelate

Pimeloyl-CoA

8-Amino-7-Oxononanoate

7,8-Diaminonanoate

Dethiobiotin

Biotin

EC 6.2.1.14

EC 2.3.1.47

EC 2.6.1.62

EC 6.3.3.3

EC 2.8.1.6

BioWBioW

BioFBioF

BioABioA

BioBBioB

BioDBioD

A synton is a maximal set of pairs of homolog genes with conserved organization on two chromosomes (two species)

conserved organization = similar relative location on both chromosomes (permutation - insertion/deletion)

Unformal definition of a synton

A

B

A

B

A

B

B

A

B

A

B

A

A

B

a1 a2 a3 a4 a5 a6

b1 b2 b3 b4 b5 b6 b7 b8 b9

A

B

a1 a2 a3 a4 a5 a6

b9

b8

b7

b6

b5

b4

b3

b2

b1

A synthon is a maximal set of homolog gene pairs with conserved gene organizationon both chromosomes

A synton is defined by a double path in the plane

: gap parameter = 0

Aa1 a2 a3 a4 a5 a6

A

B

a1 a2 a3 a4 a5 a6

b1 b2 b3 b4 b5 b6 b7 b8 b9

B

b9

b8

b7

b6

b5

b4

b3

b2

b1

= maximal set of gene couples such that a path exits on A and B axes

A synton is defined by a double path in the plane

A synthon is a maximal set of homolog gene pairs with conserved gene organizationon both chromosomes

(a1,b2)

(a2,b1)

(a3,b8)

(a4,b9)

(a5,b3)

(a6,b4)

(a1,b2)

(a2,b1)

(a3,b8)

(a4,b9)

(a5,b3)

(a6,b4)

A

B

a1 a2 a3 a4 a5 a6

b1 b2 b3 b4 b5 b6 b7 b8 b9

(a1,b2)

(a2,b1)

(a3,b8)

(a4,b9)

(a5,b3)

(a6,b4)

Design of an O(n2)algorithm on graphs

n = number of pairs of homolog genes

A

B

a1 a2 a3 a4 a5 a6

b1 b2 b3 b4 b5 b6 b7 b8 b9

= 0

(a2,b1)

(a1,b2)

(a3,b8) (a4,b9)

(a5,b3)

(a6,b4)

= 2

(a2,b1)

(a1,b2)

(a3,b8) (a4,b9)

(a5,b3)

(a6,b4)

= 3

(a2,b1)

(a1,b2)

(a3,b8) (a4,b9)

(a5,b3)

(a6,b4)

Simulation of gene interaction networks

kinA

-

+

HKinA

+ phospho- relay

Spo0A˜P

+

Spo0A

H A

A H

spo0A

-

sinR sinI

SinI

SinR

SinR/SinI

-

spoIIA H

+

+

hpr (scoR)A

A AabrB

-

-

Hpr

AbrB

spo0E A

sigH(spo0H)

A

-

-

-

Spo0E

H

F

-

+

+

Signal

Regulatory network controling the initiation of sporulation in B.

subtilis

Cellular concentration of gene product i at time-point t represented

by variable xi(t)

Regulatory interactions modeled by differential equations

xi = fi(x) – i xi xi 0, 1 i n.

Piece-wise linear differential equations

xj

s+(xj , ij)

0

1

ij

where fi(x) is the synthesis term and – i xi the degradation

term

Synthesis term fi(x) : sum of products of step functions

s+/-(xj , ij) weighted by rate constants kij > 0

Within a volume, the model simplifies to linear differential equations

i is sum of products of rate constantsxi = i – i xi 1 i n.

max3

33

x3

x2

x1

max212

23

21 31 max10

Equations in shaded volume:

x1 = - 1 x1 x2 = - 2 x2

x3 = k33 - 3 x3

.

.

.

Phase space box and volumes

max3

33

x3

x1

max2

12

23

21 31 max10

x2

Equations in shaded volume vinit :

x1 = - 1 x1 x2 = - 2 x2

x3 = k33 - 3 x3

.

.

.

.

Example of simulation

max3

33

x3

x1

max2

12

23

21 31 max10

x2

.

Example of simulation

Equations in shaded volume :

x1 = - 1 x1

x2 = - 2 x2 x3 = k31 + k33 - 3 x3

.

.

.

max3

33

x3

x1

max2

12

23

21 31 max10

x2

Example of simulation

.

max3

33

x3

x1

max2

12

23

21 31 max10

x2

Example of simulation

.

max3

33

x3

x1

max2

12

23

21 31 max10

x2.

Example of simulation

max3

33

x3

x1

max2

12

23

21 31 max10

x2. x3 = k31 + k33 - 3 x3

Equations in shaded volume :x1 = - 1 x1

x2 = - 2 x2

.

.

.

Example of simulation

max3

33

x3

x1

max2

12

23

21 31 max10

x2.

Example of simulation

max3

33

x3

x1

max2

12

23

21 31 max10

x2

Equations in shaded volume :

x1 = - 1 x1

x2 = - 2 x2

x3 = k31 + k33 - 3 x3

.

.

..

Volume contains a steady state

Example of simulation

GNA : Gene Networks Analyser

Un dernier exemple en protéomique

• Collaboration– CEA– GENOME express– INRIA Rhône-Alpes

• Contexte de la plate-forme protéomique à haut-débit de Rhône-Alpes Genopole

« cocktail » de protéines

étiquettes peptidiques

fragments

200 400 600 800 1000 1200M/z0

100

%

F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+

(596.29) F G L (329.16) yMax201.11

187.12

175.09

819.38y2

312.12

330.13b 762.36

y1516.25401.24

932.44y3

825.42

1033.48

1259.57

spectrométrie de masse

analyse des spectres

digestion

trypsique G L I FmN m

C

masses des séquences adjacentes

courte séquence

peptidique

analyse des spectres

« cocktail » de protéines

étiquettes peptidiques

fragments

200 400 600 800 1000 1200M/z0

100

%

F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+

(596.29) F G L (329.16) yMax201.11

187.12

175.09

819.38y2

312.12

330.13b 762.36

y1516.25401.24

932.44y3

825.42

1033.48

1259.57

spectrométrie de masse

« mapping » sur les chromosomes

recherches en bioinformatique

digestion

trypsique

. . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .

. . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . .

L R T G Q G G L I F T E R F . . .

G L I FmN mC

. . . D H

GAT acide aspartique = Asp = D

code génétiaue

CAC histidine = His = H

G L I FmN mC

. . . D H

. . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .

. . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . .

L R T G Q G G L I F T E R F . . .

200 400 600 800 1000 1200M/z0

100

%

F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+

(596.29) F G L (329.16) yMax201.11

187.12

175.09

819.38y2

312.12

330.13b 762.36

y1516.25401.24

932.44y3

825.42

1033.48

1259.57

1) « mapping » des étiquettes

pb. algorithmique

2) « clustering »

pb. statistique

?

gène ?