Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA /...

36
Journées Bioinformatique des génopoles – Lyon -Octobr OUEST Genopole® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore, E. Morin, C. Delamarche, C. Hitte et D. Lavenier

Transcript of Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA /...

Page 1: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

OUEST Genopole®

J. Nicolas IRISA / Inria Rennes

Assisté de O. Colin, H. Leroy, E. Kabore, E. Morin, C. Delamarche, C. Hitte et D. Lavenier

Page 2: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

OUEST-Génopole® : un réseau de 54 unités de recherche

10 CNRS 2 IFREMER 16 INRA 13 INSERM 1 INRIA 1 AFSSA 11 unités de recherche des Univ. d'Angers, Brest, Nantes et Rennes)2000 personnes dont 800 chercheurs

Page 3: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Une histoire récente

Juillet 2000 : Dépôt dossier Génopole Ouest au ministère

Mars 2001 : Expertise sur site de la génopole

Janvier 2002 : Labellisation OUEST-Genopole®

CDDs plate-forme bioinformatique génopole

Septembre 2002 : recrutement 1 an de E. Morin

+recrutement 2ans de E. Kabore (CDD région)

Juillet 2003 : recrutement 1 an de A.-S. Valin

Page 4: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

OUEST-Génopole® : organisation

Composantes Mer – Agronomie – Santé – BioInformatique

Cinq plates-formes technologiques- Séquençage/Génotypage- Transcriptome- Protéome- Exploration fonctionnelle- Bio-informatique

Groupement d'intérêt scientifique (GIS) en 2002

Page 5: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Les plates-formes OUEST-Génopole

Séquençage

Biopuces

Protéomique

Exploration fonctionnelle

Génotypage

Bioinformatique

Page 6: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Chaine d’élaboration des connaissances

Données brutesDonnées élaborées

Information

Connaissances

Informatique - BioInformatique

Stockage Calcul Gestion

RéponsesHypothèses

Biblio

Page 7: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Interactions inter-plate-formes : un modèle 3-tiles

Autre Plate-forme

Plate-forme Bio-Informatique

OutilsProduction

Analyse

ExploitationDonnées

brutes

StockageArchivage

Donnéesélaborées

Gestion

Domaine deRecherche

bioinfo

Méthodes

Prototypes

StockageArchivage

Gestion

Veilleoutilsproblèmes

Page 8: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Logithèque, bases Service web Sécurisation

Ressources informatiques de la plate-forme

• Communications• Calcul distribué Fusion de la puissance de calcul: GénoGRID

Calcul

Réseau

SunFire 6800SunFire 12000Cluster PC40 procs + 10

Nantes

Angers

Rennes

Roscoff

Brest

SunFire 480012 procs

Cluster Compaq36 procs

Pôle de calcul intensif de l'Ouest

Pôle de calcul pour la Mer

Page 9: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Parallélisme et architectures pour la génomique

• Motivation– le volume des données génomique double approximativement tous les ans

(plusieurs centaines de T bytes en 2010)

– la puissance des ordinateurs double tous les 18 mois (loi de Moore)

Les temps de calcul augmentent et, pourcertaines applications, devenir pénalisant ex : base de données ProDom - en 2001 = 31 jours de calcul - en 2002 = 64 jours de calcul

solutionsNouvelles méthodes algorithmiquesUsage des machines parallèlesDéveloppement de machines spécialisées

Page 10: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Parallélisme• Projet GénoGRID (resp. D. Lavenier)

– une grille expérimentale pour la génomique– objectif : mutualiser les ressources (banque de données, machines) sur des

calculs intensifs– deux niveaux de parallélisation

• grille = plusieurs nœuds• nœuds = machines parallèles

» cluster de PC

» supercalculateurs – applications :

• repliement des protéines• comparaison génomes• détection de séquences répétées

Roscoff

Rennes

Brest

Lille

Angers

Rouen

Page 11: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Architecture

• Exploration rapide des banques de données– mise en parallèle d’une batterie de disques– filtrage à la volée de l’information stockée sur disque

Scan du génome humain en moins d’une seconde

Page 12: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Les acteurs de la bioinfo dans l’Ouest

Roscoff

Brest

Rennes

NantesAngers

Organisme porteur:IRISA / INRIA - Rennes

Responsables

O. Collin Roscoff

H. Leroy Rennes

LERIA

U533

Page 13: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Le réseau : animation

Comité d’animation

• Relations inter plate-formes• Stratégie domaine bio-informatique

Comité correspondants

• Relations utilisateurs• Mise en place des actions

Laure Berti-EquilleAudrey BihouéeFrançois BrückerOlivier CollinFrançois CosteChristian DelamarcheDidier Flament Marc FerréGuillaume FertinChristiane GuillouzoNathalie GuittonJin-Kao HaoYannick JacquesEsther KaboréGilles LassalleDominique LavenierJean LégerSandrine LaguarrigueHugues LeroyJérôme MikolajczakEmmanuelle MorinFouzia MoussouniJacques NicolasPhilippe PicouetCharles PineauStéphanie PrioulJean-Michel RicherIrèna RusuMichel SamsonAnne SiegelDominique TessierTranh Vin 

Responsables plate-forme:

O. Collin (SBR) + pôle Mer, CS Genopole et H. Leroy (Irisa) + système, Genogrid

Page 14: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Esther Kaboré (sept 2002) Ingénieur bases de données : gérer les comptes et les moyens de stockage sur le serveur du PCIO. ; accès et mise à jour d’un miroir local des principales banques publiques ; Coordination des choix sur chaque site de développement des bases de données proposition d’outils génériques pour le développement de bases de données

spécialisées dans les laboratoires.

Emmanuelle Morin (sept 2002) Ingénieur en bioinformatique  : choix, gestion et maintenance des logiciels applicatifs nécessaires en particulier

pour l’étude de génomes complets; développement d’interfaces adaptées à un usage direct par les laboratoires de

biologie des chaînes de traitement logiciel; Proposition de formations sur les outils de la plate-forme; intégration des outils de bio-info produits dans le cadre de la Génopole.

Anne-Sophie Valin (juil 2003) Ingénieur en informatique : développement de la plate-forme de recherche et d'extraction de motifs (thème

bioinfo génopole) veille logicielle dans ce domaine Formation aux outils, aide à l’utilisation.

Postes CDD sur Rennes

Page 15: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Plan du site de la plate-formePlan du site de la plate-forme

Accueilprésentation

outils

Accès aux outils locaux

Accès à des outils externes

FAQ

Poser une question

Consulter les questions déjà posées

banques

Description des banques présentes sur le serveur

Procédure de rapatriement

Accès outils liés

Stages

Emplois

Formations

Consulter les demandes

Déposer une demande

Accès / Demande

Page 16: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Outils qui utilisent les ressources de calcul de la plate-formeOutils qui utilisent les ressources de calcul de la plate-forme

Wisconsin package standard

Blast Multiple rare

FastMe rare

GenoFrag exclusif

Plate-forme de recherche exclusif

et découverte de motifs (Smile, Model, Pratt…)

Page 17: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Genbank : version 137.0 (août 2003)PIR : version 77 (juillet 2003)Swiss-Prot : version 41 (février 2003)

Banques de génomes :- 10 génomes eucaryotes- Beaucoup de génomes bactériens

Mise à jour régulièreDéveloppement de banques à façonRsync: mise à jour des sites distants (Ifremer, Roscoff)

Les banques de données publiques

Page 18: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Quelques bases de données de la génopole

• INSERM Rennes : Entrepôt de données « foie »• GERM Rennes : base fédérée Expasy, base de donnée « Reproduction », base de données défensines• INSERM Nantes/Rennes : base de données biopuces• CNRS Rennes : base de données «canaux membranaires »

• INRA : Agena• INRA : Stressgenes

• CNRS Roscoff : Génomer base de données EST

Santé

Agro

Mer

Structuration initiale par domaine puis ouverture progressivePoint clé: sécurisation des donnéesHarmonisation des approches, développement d’outils communs

Page 19: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Exemple d’utilisateur de la plate-forme :Identification et Cartographie de 10,000 gènes

canins

Page 20: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

|================ [ 35 35 35 38 35] (mk_35) EST7A10# 22|==================== [ 33 33 33 33 33] (mk_33) EST3C10-B# 53|================ [ 13 13 13 35 13] (mk_13) BAC_375-K3# 39|================ [ 12 12 12 13 12] (mk_12) BAC_375-F13# 22|======== [ 6 6 51 12 70] (mk_6) BAC_372-E22# 22|============ [ 70 70 70 6 51] (mk_70) VCAM1 54|============ [ 51 51 6 51 6] (mk_51) FH3445# 54|================ [ 48 48 48 70 48] (mk_48) FH3246# 39|================ [ 36 36 36 48 36] (mk_36) FH2119 39|================ [ 28 28 28 36 28] (mk_28) EST17G5# 23|================ [ 34 34 34 28 34] (mk_34) EST4F4-B# 39|================ [ 49 49 49 34 49] (mk_49) FH3282# 39|================ [ 26 26 26 49 26] (mk_26) EST14G8#

TSP variant maps

MLE OCB Mk_#

Consensus map

Mk_Name

Cartographie sur hybrides irradiés : ordonnancement des marqueurs par approche TSP (Hitte et al. J. Hered 2003)

80 100%0 20 40 60

0 20 40 60 80 100%

Phase d’Analyse :Ordonner 100 marqueurs1/2 h (- 5 CPUs PCIO-IDEFIX)

Page 21: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

5909 Dog Sequences

BLASTn et/ou MegaBLAST (PCIO-IDEFIX / gcg - Wisconsin package)

Orthologue humainStructure de l’aligtCoord. génomique

Orthologue murinStructure de l’aligtCoord. génomique

Primer4.prog

Analyses des Séquences

Alignement séquences :BLAST ~16h x 2 (human/mouse)MegaBLAST ~80 hPCIO-IDEFIX -5 CPUs-

GENE92 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE93 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE94 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE95 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE96 tigr_Chr1 Ren_Chr7 MMU-Chr6 GENE97 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE98 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE99 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE100 tigr_Chr1 Ren_Chr1 MMU-Chr4 GENE101 tigr_Chr1 Ren_Chr1 MMU-Chr4

DogSeq# Chr Gene Start End 1 Chr1 ENSG00000174633 594410 5975981 Chr1 ENSG00000174633 594410 5975981 Chr1 ENSG00000174633 594410 5975982 Chr1 ENSG00000127055 708136 7440032 Chr1 ENSG00000127055 708136 744003

Définition d’amorces :~6h-5 CPUs- (PCIO-IDEFIX)

Page 22: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Exemple de développement au niveau d’une plate-forme bio http://www.madtools.org

Ouest Génopole. IFR 26 INSERM U.533

Page 23: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Numerical processingNumerical processing

KDKD

Database•Probes & targets

•Gene sequences

•Array data

Database•Probes & targets

•Gene sequences

•Array data

MADTOOLSMicroarray Data Tools

http://cardioserve.nantes.inserm.fr/mad/

DatabaseDatabase

Page 24: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

From Gene Expression Results to Literature Data

Experimental Clusters

Bibliographical Clusters

GO Functional ClusterWhat co-expressed genes perform similar functions?

What genes are co-citated in literature?

What co-citated genes perform similar functions?

Ouest Génopole. IFR 26 INSERM U.533

Page 25: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Exemple de demande de service ayant conduit à une collaboration puis au développement d’un outilLogiciel de Recherche d'Amorces Optimisées pour l’amplification de Chromosomes Bactériens par PCR Longue Portée

• Nouri BEN ZAKOUR Laboratoire de Microbiologie UMR1055

INRA ENSAR

• Dominique LAVENIERIRISA / CNRS - équipe Symbiose

Page 26: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Amorce sens Amorce antisens

Comparaison des différents profils= Informations sur la plasticité

Approche PCR2

PCR

~10Kb

Souche de référence

Souche non séquencée

~10Kb

PCR

Profil d'amplification

Insertions Délétions

10Kb

Même jeu d'amorces

Page 27: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Validation biologique

2 régions de 2 régions de N315 N315

amplifiées par amplifiées par LR-PCRLR-PCR

BB

AA

Page 28: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Esther Kaboré

Didier Flament

Bases de données spécialisées

Page 29: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Recherche de motifs et de signatures

Cynthia AllandEmmanuelle MorinAnne-Sophie Valin

Page 30: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Les actions de formation

Actions de formation

- oct 2001 : GCG- nov 2002 : GCG

Elaboration d'un catalogue

Page 31: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

L'existant depuis 2000

• DEA GetI • Maîtrise de Biologie• Maîtrise de d'informatique

31 étudiants formés 15 thèses en cours

Page 32: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Promotion 2003

• 12 étudiants • 6 Biologistes• 6 informaticiens

Page 33: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

A partir de 2004

• Licence de Biologie et Informatique• Master de bio-informatique

Page 34: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Le site de OUEST-Génopole®

http://genouest.no-ip.org

Page 35: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003

Perspectives : Une richesse largement inexploitée :Banques de génomes complets

Génomes Eukaryotes: Homo sapiens, Mus musculus, Ratus

Norvegicus, Oryza sativa, Plasmodium falciparum,

Caenorhabditis elegans, Saccharomyces serevisiae, Drosophila

melagongaster, Encephalitozoon cuniculi

Génomes Bactériens: Escherichia coli, Prochloroccocus

marinus, Salmonella typhi, Staphylococcus aureus, vibrio

cholerae, Neisseria meningitidis Yersinia pestis, …

Page 36: Journées Bioinformatique des génopoles – Lyon -Octobre 2003 OUEST Genopole ® J. Nicolas IRISA / Inria Rennes Assisté de O. Colin, H. Leroy, E. Kabore,

Journées Bioinformatique des génopoles – Lyon -Octobre 2003