Système de représentation et dexploration de données biologiques hétérogènes.

Post on 03-Apr-2015

108 views 0 download

Transcript of Système de représentation et dexploration de données biologiques hétérogènes.

Système de représentation et d’exploration de données biologiques hétérogènes.

Sommaire

GenoLink

Genostar

Démonstration de GenoLink

GenoLink ?

Système de représentation de données bio. hétérogènes

Système d’intégration de données

Moteur de requêtes

Outils de visualisation adaptés à la gestion de graphes

Deux versions du logiciel: autonome et module de Genostar.

Représentation des données

Principe: utilisation d’un graphe

contient domainecode pourinteraction

protéine noeuds

arêtes

gènedomaine

Chaque nœud/arête a un identifiant, type, et peut avoir des attributs.

Notion de voisinage.

GenoLink:Concept:1/3

Modèle de données

Pour décrire formellement les données autorisées dans un graphe, GenoLink s’appuie sur un système de représentation des connaissances orienté objet: AROM (INRIA, Grenoble).

Gene

Identifier

Name

Type de l’entité

attributsIsLocatedOn

fromto

Chromosome

Identifier

Size

Topology

Type et attributsde la relation

GenoLink:Concept:1/3

Modèle de données

HasPhysicalInteractionWith

IsCodingFor ContainsFragment

IsOrthologTo

HasNucleicSimilarityWith

HasPeptidicSimilarityWith

Organism

PeptidicComposite

FragmentPolypeptide

Peptidic

Gene

Nucleic

PeptidicAtomicReplicon

RnaGene ProteinGene

IsLocatedOn

IsRepliconOf

Identifier: string

Name: string

Synonym: string

Description: string

Length: int

Polypeptide

GenoLink:Concept:1/3

Identifier: string

from: int

to: int

IsLocatedOn

Exemple de modèle pour la génomique bactérienne.

Graphe d’instances

Helicobacter pylori 26695NC_000915

HP0072

HP0073

ureB

ureA

IROILO

ILO

ICF

ICFHPIW

HPIW

Identifier:pp15644702

Name:urease beta subunit (urea amidohydrolase) (ureB)

Synonym:GI:15644702,RS:NP_206872,GB:AAD07143

Description:/Note: similar to GB:M60398 GB:X17079 SP:P14917 PID:149011

GB:AE000511 percent identity: 100.00; identified by sequence similarity; putative

Length:569

IRO : IsRepliconOf

ILO : IsLocatedOn

ICF : IsCodingFor

HPIW : HasPhysicalInteractionWith

Génome complet: 6391 arêtes reliant 3197 nœuds (RefSeq:NC000915).

GenoLink:Concept:1/3

Exemple: représentation d ’un génome.

Exploration d’un graphe d’instances

GénoLink ‘voit’ l’information via un graphe

Requête GenoLink = un motif de graphe

GenoLink:Concept:2/3

Exploration d’un graphe : principe

Exemple: rechercher les gènes orthologues chez Helicobacter pylori et Escherichia coli.

Organism Gene OrganismGene

H.pylori E.coliIsOrthologToRequête:

Résultat: H.pylori HP0396 E.coliyigC

H.pylori HP0810 E.coliyhhF

H.pylori HP1247 E.coliholA

...

GenoLink:Concept:2/3

Langage de requête : GQL

GQL = GenoLink-Graph Query Language

Soit Q=(A,Y,GC) un graphe requête

où A={ai}i=1,m un ensemble de variables de noeud

Y={yk}k=0,n un ensemble de variables d’arête

GC une expression sur ai et yk (Global Constraint).

Q ne peut contenir qu’une unique composante connexe,

A et Y définissent la topologie de la requête.

GenoLink:Concept:2/3

Langage de requête : GQL

Déclaration d’une variable de nœud:

Na isa TE [where AE];

Nom de la variable

Expression de type

Expression decontrainte locale

pg isa ProteinGene where Length>600 ;pp isa Polypeptide where Name!:”hypothetical” ;

GenoLink:Concept:2/3

Langage de requête : GQL

Les opérateurs autorisés dans les expressions:

Relationnels: < > <= >= != ==Booléens: and or notArithmétiques: + - * / ( )Pattern-matching: !: :: (GNU RegExp)

GenoLink:Concept:2/3

Langage de requête : GQL

Déclaration d’une variable d’arête:

Ny (Na1, Na2) isa TE [where AE];

Nom de la variable

Expression de type

m (pg,pp) isa IsCodingFor ;

Nom des variables de nœud source (a1) et cible (a2)

GenoLink:Concept:2/3

Expression decontrainte locale

Langage de requête : GQL

Déclaration d’une requête:

query Nq Nx [where GC];

Nom de la requête

Liste de noms de variable

Contrainte globale

query q m;

Langage de requête : GQL

En résumé :

pg isa ProteinGene where Length>600 ;pp isa Polypeptide where Name!:”hypothetical” ;m (pg,pp) isa IsCodingFor ;

query q m;

create graphRes from GenolinkDB with q;

pg ppm

GenoLink:Concept:2/3

Langage de requête : GQL

Requête avec contrainte globale et filtrage des résultats:

p1 isa Polypeptide ;p2 isa Polypeptide ;ppi (p1,p2) isa HasPhysicalInteractionWith ;

query q2 ppi where p1.Length<=250 and p1!=p2;

create graphRes2 from GenolinkDB with q2 distinct p1;

p1 p2ppi

Construction d’une requête GenoLink

GenoLink:Concept:2/3

En pratique: Query Builder.

Algorithme de recherche

Soit: pg isa ProteinGene where Length>600 ; pp isa Polypeptide where Name!:”hypothetical” ; m (pg,pp) isa IsCodingFor ; query q m; create g from GenolinkDB with q distinct pg;

pg ppm

1. Validation du GQL,

PG {pgi}i=1,2

S Øfor all pgi in PG do if solve(pgi)=true then for all neighbours of pgi do s = DFS(query, pgi) if s Ø then if solve(s, query.GC)=true then S.addDistinct(s, DC) end if end if end for end ifend for

3. Résolution:

GenoLink:Concept:2/3

2. Choix de l’amorce: interrogation du graphe d’instances,

pg1 pp1

pg2 pp2

pp3pg2

pg1 pp1

pg2 pp2

pp3

ProteinGene 2 instancesPolypeptide 3 instancesIsCodingFor 3 instances

Opérateurs spéciaux de GQL

Opérateurs sur les ensembles :

union, intersection et différence (de graphes).

GenoLink:Concept:2/3

Nœuds: objets : organisme, molécule (ADN, ARN, protéine), domaine, … groupe d’objets: groupe de gènes orthologues. classifications fonctionnelles.

Arêtes: similitude, interaction, association (appartenance à un groupe, à une classification)

Modèle ouvert, interchangeable

Quelles données ?

Modèle de données pour génomes bactériens

GenoLink:Concept:3/3

Banques de données généralistes/spécialisées GenBank-RefSeq, COG, Domaines InterPro, Gene Ontology, Enzyme Classification, Données PSI

Données calculées Similitudes de séquences (orthologues prédits), Groupes de synténies.

Quelles données ?

GenoLink:Concept:3/3

Processing / Integration

Genomicdata

Interaction data

FunctionalClasses

Domaindata

PG PP PP PP DS PP EC

GenoLink data-graph

PGPP

DSEC

Intégration de données

GenoLink:Concept:3/3

GENOME ExpressHybrigenicsINRIAInstitut Pasteur

développer une plate-forme bioinformatique de génomique exploratoire

But :

Partenaires :

Plus : www.genostar.org

Genostar

Genostar

Genostar est aussi, et avant tout, une plate-forme de développement logicielle multi-OS pour la bioinformatique (Java 1.4.x).

GenoCore, le noyau du système, propose les services logiciels (API):de modélisation et de gestion des données (AROM),de typage complexe (matrice, séquence),de modélisation des tâches (AROM-Task),d’exécution de logiciels externes avec gestion des entrées/sorties (BLAST),d’affichage graphique générique (AROM-GCL) et cartographique,d’interopérabilité,...

Tout module Genostar (GenoAnnot, GenoLink, GenoBool, ...)fonctionne grâce à GenoCore.

Genostar

Genostar 1.x: destinée aux utilisateurs (depuis décembre 2002),

Genostar 2.x: destinée aux utilisateurs/programmeurs (décembre 2003).

Démo...