1.Présentation du concours 2.Présentation des indicateurs 3.Présentation du questionnaire.
Présentation
-
Upload
keane-donovan -
Category
Documents
-
view
31 -
download
0
description
Transcript of Présentation
Présentation
Création d’une application intégrée pour la gestion et
l’analyse de données protéomiques
CONSERVATOIRE NATIONAL DES ARTS ET MÉTIERS
Centre Régional Languedoc-Roussillon
Spécialité : INFORMATIQUE
MÉMOIRE
Cédric Bouttes
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données3.1 Comparaison de séquences3.2 Recherche de motifs3.3 Elimination de la redondance
4 Conclusion et perspectives
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données2.1 Comparaison de séquences2.2 Recherche de motifs2.3 Elimination de la redondance
4 Conclusion et perspectives
INRA
CNRS
IRD
CIRAD
Biogemma
Bioplante
GénoplanteGénoplante, programme fédérateur en génomique végétale1 Contexte et objectifs
INRA
CNRS
IRD
CIRAD
Biogemma
Bioplante
GénoplanteLes données génomiques générées dans Génoplante1 Contexte et objectifs
Données
gène
Chromosome
Position des gènes Cartographie génétiquesthématique
Analyse de séquences / Polymorphisme
thématiqueATTGCACTCCCTAAG
Séquence d’ADN
Structure des gènes
Séquence protéique
ProtéomiquethématiqueI A V P K
Produit d’expression des gènes
GENOPLANTE INFO
bioinformatique
Fonction des gènes
TranscriptomiquethématiqueMesure Expression des gènes
Séquences
Protéomique
Cartographie Génétique
Transcriptome
Polymorphisme génétique
GENOPLANTE INFO
Contexte intégratif
utilisateur
Le SI de GénoplanteLe système d’information de Génoplante
GpiIS (Genoplante-info information system)
1 Contexte et objectifs
Protéomique
GnpProt
Séquences
Protéomique
Cartographie Génétique
Transcriptome
Polymorphisme génétique
GENOPLANTE INFO
Contexte intégratif
utilisateur
Le SI de Génoplante
GpiIS (Genoplante-info information system)
1 Contexte et objectifs
Protéomique
GnpProt
Protéomique
ProteomIs
Laboratoires partenaires
Contexte local
UR1199 Montpellier, URPVI Nantes, UMR 5546 Toulouse, UMR 5019 Grenoble
utilisateur
Un objectif double : Un système intégré (GnpProt) et local (ProteomIs)
Gestion et visualisation des données de laboratoire Liens avec les bases de données publiques Analyse des données de séquences
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données3.1 Comparaison de séquences3.2 Recherche de motifs3.3 Elimination de la redondance
4 Conclusion et perspectives
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données3.1 Comparaison de séquences3.2 Recherche de motifs3.3 Elimination de la redondance
4 Conclusion et perspectives
Interrogation en banque (e.g logiciel Mascot)
Gestion Des DonnéesGel 2D (possible 1D ou Liquid chromatographie)
Echantillon 1 spot
?
Prélèvement
Extrait
Digestion trypsique
Notes papiers
Fichiers Excel Images gels
Fichiers textes :Listes de masses
Fichiers html : Résultats (Mascot)
Analyse par spectrométrie de masse
Supports de stockages
Séparation des protéines
184
Fichiers pdf : publications
Gestion des données protéomiques : Analyse de l’existant2 Gestion et visualisation des données
2.1 Solutions et choix
Scan et analyse de l’image du gel
Echantillons et extraits
ProtocolesSéparation des protéines
Données administratives
Identification des proteines
51 classes
Gestion Des DonnéesGel 2D (possible 1D ou Liquid chromatographie)
Echantillon 1 spot
?
Prélèvement
Extrait
Séparation des protéines
Gestion des données protéomiques : Conception du MCD
Interrogation en banque (e.g logiciel Mascot)
Digestion trypsique
Analyse par spectrométrie de masse
Scan et analyse de l’image du gel
BD ProteomIs/GnpProt
2 Gestion et visualisation des données2.1 Solutions et choix
Gestion des données
Séquences
Protéomique
GnpProt
Cartographie Génétique
Transcriptome
Polymorphisme génétique
Base de données GpiIS
Extraits
Protocoles
Echantillons
Contacts
Séquences
classes communes
Contrainte au niveau de la conception du MCD2 Gestion et visualisation des données
2.1 Solutions et choix
Gestion des données
Interface
Séquences
Protéomique
GnpProt
Cartographie Génétique
Transcriptome
Polymorphisme génétique
Dû à la solution d’intégration des données choisi par Génoplante : approche centralisée BD GpiIS relationnelle
Base de données GpiIS
SQL
Extraits
Protocoles
Echantillons
Contacts
Séquences
Choix imposé au niveau du SGBD
SGBD relationnel Postgres/Oracle
Avantages : robustesse, efficacité du SQL, sécurité et intégrité des données
2 Gestion et visualisation des données2.1 Solutions et choix
Gestion Des DonnéesSAISIE
Format d’échange
Importation (scripts Perl, SQL)
INTERROGATION
VISUALISATION
INTERFACES
consultation
Gestion des données protéomiques : Solution retenue
Saisie ?
Consultation ?
BD relationnelle ProteomIs/GnpProt
répertoire
2 Gestion et visualisation des données2.1 Solutions et choix
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données3.1 Comparaison de séquences3.2 Recherche de motifs3.3 Elimination de la redondance
4 Conclusion et perspectives
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données3.1 Comparaison de séquences3.2 Recherche de motifs3.3 Elimination de la redondance
4 Conclusion et perspectives
Processus de développement
avril 2002
fev 2005 - Livraison GnpProt
avril 2004 - Livraison ProteomIs
Analyse et conception
sept 2002
- Veille technologique (autour des outils existants : Paris, Protic, PPMdb …)
- Cahier des charges (solutions et choix)
- Conception du MCD
- Analyse / cas d’utilisation (saisie, consultation et analyse des données)
- Maquette des interfaces
- Développement des outils d’analyse2 stagiaires
juin 2004
avril 2003 -Développement du format d’échange1 ingénieur
- Développement des interfaces
1 stagiaire
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Maquette des interfaces
Réaliser l’inventaire des interfaces :
- Interface de login (version locale)
- Interfaces d’interrogation
- Interfaces de visualisation des différents objets de la base (extraits, gels, spots, protéines …)
- Interface pour naviguer dans l’image des gels
Réalisation d’une maquette powerpoint
Niveau d’interactivité des interfaces :
- Interface de login, d’interrogation ++
- Interfaces de visualisation +
- Interface pour naviguer dans l’image des gels ++++
Maquettes
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données3.1 Comparaison de séquences3.2 Recherche de motifs3.3 Elimination de la redondance
4 Conclusion et perspectives
Application accessible via Internet (GnpProt)
Utilisant les services d’un SGBD (sur le serveur de Génoplante dans le cas de GnpProt)
Portable (ProteomIs)
Outils de développement gratuit (GnpProt et ProteomIs)
Fonctionnant en multi-utilisateurs (GnpProt et ProteomIs)
Réalisation d’interfaces statiques (textuelles) et interactives
Analyse des besoins
Composant applicatif
Application ServeurApplication client
Base de données (SGBD)
Composant présentation
Java
Implémentation
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Solution retenue
architecture 3-tiers (ou client léger)
Poste utilisateur
Application client
Base de données (SGBD)
Composant présentation
Réseau
Composant applicatif
HTML
java script
applet
JSP/Servlets, CGI, PHP (génère le HTML)
JDBC HTTP
Interfaces de visualisation textuelles
Formulaire d’interrogation
Interface de navigation dans l’image d’un gel
Avantage : - Facilité de déploiement
- Charge client diminué
Inconvenient : - Mode non connecté
Implémentation
Machine(s) serveur
Application serveur
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Développement de l’applet de navigation dans l’image d’un gel
« Viewer » de gel de PPMDB
Applet permettant d’explorer une carte astronomique (source : http://www.aao.gov.au/hdfs/Redshifts/hdfmap.html)
Applet
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Solution retenue
architecture 3-tiers (ou client léger)
Poste utilisateur Machine serveur
Application client
Base de données (SGBD)
Composant présentation
Réseau
Composant applicatif
HTML
java script
applet
JSP/Servlets, CGI, PHP (génère le HTML)
JDBC HTTP
Interfaces de visualisation textuelles
Formulaire d’interrogation
Interface de navigation dans l’image d’un gel
Architecture 3-tiers
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Solution retenue côté serveur : JSP/Servlet
Avantage des Servlets sur la solution Perl/CGI :
- Avantages liés à java
- Servlet + rapide (compilé) qu’un programme Perl (interprété)
- Servlet conservé en mémoire (threads) : meilleures performances, conservation de l’état
Pourquoi des JSP (Java Server Pages) en plus ?
Avantage des JSP :
- Séparation du codage de l’aspect présentation (JSP) des traitements (Java Beans)
- Utilisation de balise spécifique (avantage sur PHP)
Avantages JSP
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Présentation HTML+JavaScript
Traitements Données
Requête utilisateur
Poste client
Serveur de données
Réseau
Serveur Web / Serveur d’application
Programme serveur (CGI/PHP/JSP-servlets)
requête http
Driver (DBI/ /JDBC)
SGBD
Réseau
NAVIGATEUR
html
Applet
Poste utilisateur Application Serveur
Réseau Application client
requêtes HTTP
JDBC Base de données(SGBD)
Interface de visualisation (details)
Vue = JSP
Modèle = Java Beans(couche d’accès aux données)
Interface de visualisation (liste)
Result = 1
Utilisation du modèle MVC (Modèle Vue Contrôleur)
Interface d’interrogation
Result > 1
Contrôleur = Servlet (oriente les requêtes)
basé sur le framework Struts
utilise ehcache du projet Hibernate
MVC
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données3.1 Comparaison de séquences3.2 Recherche de motifs3.3 Elimination de la redondance
4 Conclusion et perspectives
Interface d’interrogation
Analyse et conception
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Interface d’interrogation
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Interface d’interrogation
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Interface d’interrogation
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Interface d’interrogation
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Interface d’interrogation
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Liste de protéines
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Liste de protéines
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Liste de protéines
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Liste de protéines
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Liste de protéines
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Liste de protéines
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Fiche protéine
Demo2 Gestion et visualisation des données
2.2 Réalisation des interfaces
Fiche protéine Liens sur BD publiques
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Demo
Fiche protéine Liens sur BD publiques 2 Gestion et visualisation des données2.2 Réalisation des interfaces
Fiche protéine Liens gels
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Applet de navigation
Demo
2 Gestion et visualisation des données2.2 Réalisation des interfaces
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données3.1 Comparaison de séquences3.2 Recherche de motifs3.3 Elimination de la redondance
4 Conclusion et perspectives
Y V N G F G R I G R L V T
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données3.1 Comparaison de séquences3.2 Recherche de motifs3.3 Elimination de la redondance
4 Conclusion et perspectives
Y V N G F G R I G R L V T
BLASTLa comparaison de séquences
Mon objectif : Fournir un outil permettant de trouver une similarité entre une séquence requête et une des séquences annotées de la base de données ProteomIs
Utilité : Proposer des informations complémentaires
3 Analyse des données3.1 Comparaison de séquences
Séquence requête
Interface de saisie
IAVPKGIAVPKSLGSLSVAEPAMIAECK
BLASTLa comparaison de séquences
Solution retenue :
BLAST
ARSHSGGELESSLGSASVAEPAMIAEES
comparaison
ProteomIs
IAVPKGIAVPKSLGSLSVAEPAMIAECK
ARSHSGGELESSLGSASVAEPAMIAEES
Séquence requête
Séquence de ProteomIs
** * * * *
e-values > 0.1
Interface de visualisation
3 Analyse des données3.1 Comparaison de séquences
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données3.1 Comparaison de séquences3.2 Recherche de motifs3.3 Elimination de la redondance
4 Conclusion et perspectives
Y V N G F G R I G R L V T
Définition :
- D’un point de vue syntaxique, un motif est un segment continu dans une séquence
La recherche de motifs dans les séquences protéiques
Séquence : GKVKVGVNGFGRIGRLVTRAAGRIG
Motif : GRIG de longueur 4
Solution : ensemble de positions {11,22}
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
G K V K V YV N G F G R I G R L V T R A A G R I G
- D’un point de vue biologique, un motif est un élément souvent fonctionnel qui peut-être partagé par toute une famille de protéines
Motif
3 Analyse des données3.2 Recherche de motifs
Thématique du laboratoire : étude des motifs de phosphorylation
Ma mission : construire un outil de recherche des motifs de phosphorylation dans les séquences
La recherche de motifs dans les séquences protéiques
Motif
3 Analyse des données3.2 Recherche de motifs
Solution adoptée : Interfacer deux logiciels dédiés (Netphos et MSDigest)
La recherche de motifs dans les séquences protéiques
18
2
Position
Sites de phosphorylation
Validé expérimentalement
Prédit par MSDigest
Prédit par Netphos
Méthodes
OuiNonOui
NonOuiNon
Tableau comparatif réalisé automatiquementRésultats expérimentaux
seq 1 : 18seq 2 : 20seq 3 : 23seq 4 : 24
Fichier
Séquences
GKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGT
GKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGT
GKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGT
MSDigest
NetPhos
Motif
3 Analyse des données3.2 Recherche de motifs
Séquences
GKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGT
GKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGT
GKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGT
MSDigest
NetPhos
Difficultées rencontrées :Netphos et MSDigest non disponibles en version locale
La recherche de motifs dans les séquences protéiques
Sites de phosphorylation
Méthodes
Position Prédit par Netphos
Prédit par MSDigest
Validé expérimentalement
2 Non Oui Non
18 Oui Non Oui
Tableau comparatif réalisé automatiquementRésultats expérimentaux
seq 1 : 18seq 2 : 20seq 3 : 23seq 4 : 24
Fichier
Netphos
INTERNET
Query Module
BioperlGET
MSDigestredéveloppé en Perl
Motif
3 Analyse des données3.2 Recherche de motifs
Plan
1 Contexte et objectifs
2 Gestion et visualisation des données2.1 Solutions et choix2.2 Réalisation des interfaces
2.2.1 Analyse et conception2.2.2 Choix d’implémentation2.2.3 Résultats
3 Analyse des données3.1 Comparaison de séquences3.2 Recherche de motifs3.3 Elimination de la redondance
4 Conclusion et perspectives
Y V N G F G R I G R L V T
Redondance
BD ProteomIs
Le problème de la redondance des séquences protéiques
Laboratoire 1
Laboratoire 2
accession SWISSPROT : Q9FG34
protein name : Peroxydase 54 [Precursor]
Séquence : GKVKVGVNGFGRIGRLVTRAA
Annotations Laboratoire 1
accession AGI : At5g06730
protein name : Peroxydase
Séquence : GKVKVGVNGFGRIGRLVTRAA
Annotations Laboratoire 2
3 Analyse des données3.3 Elimination de la redondance
Redondance
BD ProteomIs « REDONDANTE »
Le problème de la redondance des séquences protéiques
CLUSTERING
BD ProteomIs
accession SWISSPROT : Q9FG34
protein name : Peroxydase 54 [Precursor]
Séquence : GKVKVGVNGFGRIGRLVTRAA
Annotations Laboratoire 1
accession AGI : At5g06730
protein name : Peroxydase
Séquence : GKVKVGVNGFGRIGRLVTRAA
Annotations Laboratoire 2
accession AGI : At5g06730
Nom protéine : Peroxydase
Références croisées : Q9FG34
Sequence : GKVKVGVNGFGRIGRLVTRAA
Annotations Laboratoire 1
Annotations Laboratoire 2
« NON REDONDANTE »
3 Analyse des données3.3 Elimination de la redondance
Solutions clustering procédure manuelle : contrôle à la soumisssion
Solutions étudiées pour réaliser le clustering3 Analyse des données
3.3 Elimination de la redondance
Solutions clustering procédure automatique
BD ProteomIs « REDONDANTE »
accession SWISSPROT : Q9FG34
protein name : Peroxydase 54 [Precursor]
Séquence : GKVKVGVNGFGRIGRLVTRAA
Annotations Laboratoire 1
accession AGI : At5g06730
protein name : Peroxydase
Séquence : GKVKVGVNGFGRIGRLVTRAA
Annotations Laboratoire 2
Comparaison des noms
Solutions étudiées pour réaliser le clustering3 Analyse des données
3.3 Elimination de la redondance
Solutions clustering procédure automatique
BD ProteomIs « REDONDANTE »
accession SWISSPROT : Q9FG34
protein name : Peroxydase 54 [Precursor]
Séquence : GKVKVGVNGFGRIGRLVTRAA
Annotations Laboratoire 1
accession AGI : At5g06730
protein name : Peroxydase
Séquence : GKVKVGVNGFGRIGRLVTRAA
Annotations Laboratoire 2
Comparaison des séquences
Solutions étudiées pour réaliser le clustering3 Analyse des données
3.3 Elimination de la redondance
Solutions clustering procédure automatique
BD ProteomIs « REDONDANTE »
accession SWISSPROT : Q9FG34
protein name : Peroxydase 54 [Precursor]
Séquence : GKVKVGVNGFGRIGRLVTRAA
Annotations Laboratoire 1
accession AGI : At5g06730
protein name : Peroxydase
Séquence : GKVKVGVNGFGRIGRLVTRAA
Annotations Laboratoire 2
accession SWISSPROT : Q9FG34
protein name : Peroxydase 54 [Precursor]
Références croisées : At5g06730
Séquence : GKVKVGVNGFGRIGRLVTRAA
BD SWISSPROT
Comparaison des accessions
utilisation des références croisées
Solutions étudiées pour réaliser le clustering3 Analyse des données
3.3 Elimination de la redondance
Conclusion 4 Conclusion et perspectives
Les objectifs ont en majeure partie été atteint :
ProteomIs installé dans trois laboratoires permet :
- de gérer et explorer les données protéomiques
- d’effectuer des liens sur les bases de données publiques
- d’analyser les données (en cours de finition)
GnpProt installé sur le serveur privée de Génoplante info accessible sur :
https://genoplante.infobiogen.fr/gnpprot et sur site public fin juillet
Valorisation du projet (poster à JOBIM le 6 juillet)
Conclusion
Perspectives
Entrée des données
Procédure de vérification des données saisies dans le format d’échange
Intéropérabilité :
Liens et interfaces sur les autres modules de GpiIS
Utilisation des ontologies
Outils d’analyse :
Intégration d’autres outils de recherche de motifs
Interface java de visualisation des motifs
séquence
motifs
Perspectives
4 Conclusion et perspectives
Conclusion
Première expérience de responsable de la conduite d’un projet informatique conséquent
Contexte de travail collaboratif :
- réunions à Evry avec les biologistes
- travail d’équipe avec les informaticiens de Génoplante à Evry et 1 ingénieur du campus
- encadrement de stagiaires de DESS bioinformatique
Importance de la veille technologique
Conclusion
4 Conclusion et perspectives