Plan

34
Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE IIDC : Frédéric Durak UMR 8090 : Philippe Froguel

description

Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats Franck De-graeve Master ASE IIDC : Frédéric Durak UMR 8090 : Philippe Froguel. Plan. Présentation et stratégie de recherche du laboratoire Objectifs L’Interface Les analyses - PowerPoint PPT Presentation

Transcript of Plan

Page 1: Plan

Création d’une base de données pour l’intégration de données génétiques et l’aide à la sélection de gènes candidats

Franck De-graeve Master ASE IIDC : Frédéric Durak

UMR 8090 : Philippe Froguel

Page 2: Plan

Plan

1. Présentation et stratégie de recherche du laboratoire

2. Objectifs

3. L’Interface

4. Les analyses

5. Les résultats

6. Conclusions et perspectives

Page 3: Plan

Le laboratoire

• Recherche des gènes de prédisposition au diabète de type II et à l’obésité.

Génomique et physiologie moléculaire des maladies métaboliques UMR 8090 Philippe Froguel

• Équipe de 40 personnes dont l’équipe bioinfo-biostatistique composée de 6 personnes

Page 4: Plan

Sélection de gènes d’intérêts

• Principe de gène candidat

Page 5: Plan

Intégrations des données

200 listes430 000 identifiants

8000 gènes intégrés/ 40000 gènes humains

Rs245895Rs245548Rs224887Rs278415Rs365874

Rs1558474Rs448

PlgPlscr2

InsPon1

Popdc3PrlrProc

Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474

Rs448

INS

Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474

Rs448

Rs245895Rs245548Rs224887Rs278415Rs365874

Rs1558474Rs448

Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474

Rs448

Rs245895Rs245548Rs224887Rs278415Rs365874

Rs1558474Rs448

GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953

GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953

GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953

GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953

PlgPlscr2

InsPon1

Popdc3PrlrProc

PlgPlscr2

InsPon1

Popdc3PrlrProc

Gas2Scd1Ins

Pon1PrlrProc

1557459_at1557820_at

1568619_s_at200043_at

200694_s_at

1557459_at1557820_at

1568619_s_at200043_at

200694_s_at

1557459_at1557820_at

1568619_s_at200043_at

200694_s_at

1557459_at1557820_at

1568619_s_at200043_at

200694_s_at

1557459_at1557820_at

1568619_s_at200043_at

200694_s_at

AF058956AI180687AF031939

Y17345AI845103

AF058956AI180687AF031939

Y17345AI845103

AF058956AI180687AF031939

Y17345AI845103

118316411831651183166118316711831701183171

118316411831651183166118316711831701183171

SGDB

Page 6: Plan

Plan

1. Présentation et stratégie de recherche du laboratoire

2. Objectifs

3. L’Interface

4. Les analyses

5. Les résultats

6. Conclusions et perspectives

Page 7: Plan

• Sélection des gènes candidats qui s'appuie sur une base de données

Objectifs

• Faciliter la navigation parmi les résultats

• Intégration de sources de données très hétérogènes

Page 8: Plan

L’architecture

Apache -> serveur WEB

Php et Mysql -> affichage des pages dynamiques

Perl et Mysql -> traitement et intégration des données

Perl -> filtre et analyse des résultats

R -> statistique, graphique

Page 9: Plan

Plan

1. Présentation et stratégie de recherche du laboratoire

2. Objectifs

3. L’Interface

4. Les analyses

5. Les résultats

6. Conclusions et perspectives

Page 10: Plan

Page d’accueil

Page 11: Plan

Ajout de données

Page 12: Plan

Base de données

Page 13: Plan

Plan

1. Présentation et stratégie de recherche du laboratoire

2. Objectifs

3. L’Interface

4. Les analyses

5. Les résultats

6. Conclusions et perspectives

Page 14: Plan

Les analyses

Page 15: Plan

Récupération de la séquence

• Unification des types de données hétérogènes en séquence • Le choix de la base de données publique dépend de la saisie de l’utilisateur

• Récupération au format standard (fasta):

>em|U03177|FL03177 Insulin

AGATACAAGGAAGTTAGAGGCTAAAACAGGATATCTGTGGTTAAGCACCTGTGAGGCCAAGAACAGTTAAACCCCGGATATAGCTGAAACAGCAGAAGTTTCGCCAGCAGTCTCCAGGCTCCCCA

Page 16: Plan

Position de la séquence sur les chromosomes

• Recherche de la position sur le génome grâce au logiciel BLAT

• Adaptation du programme pour un fonctionnement en local

• Modification de l’étape d’alignement pour une accélération du processus de 20 à 30 fois.

• Récupération des gènes correspondant à cette position

Page 17: Plan

Comparaison de séquence contre une banque de données

• Comparaison grâce au logiciel BLAST

• Utilisation des bases locales

• Synthèse des résultats de BLAT et de BLAST dans un fichier

Page 18: Plan

Les processus

• Temps d’exécution de 1 à 2 jours

• Stockage des opérations dans un fichier

• Système multi-utilisateurs gérés grâce au PID

Page 19: Plan

Plan

1. Présentation et stratégie de recherche du laboratoire

2. Objectifs

3. L’Interface

4. Les analyses

5. Les résultats

6. Conclusions et perspectives

Page 20: Plan

Les résultats

Page 21: Plan

Intégrations des données

200 listes430 000 identifiants

8000 gènes intégrés/ 40000 gènes humains

Rs245895Rs245548Rs224887Rs278415Rs365874

Rs1558474Rs448

PlgPlscr2

InsPon1

Popdc3PrlrProc

Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474

Rs448

INS

Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474

Rs448

Rs245895Rs245548Rs224887Rs278415Rs365874

Rs1558474Rs448

Rs245895Rs245548Rs224887Rs278415Rs365874Rs1558474

Rs448

Rs245895Rs245548Rs224887Rs278415Rs365874

Rs1558474Rs448

GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953

GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953

GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953

GO:0016338 GO:0007299 GO:0000501 GO:0016340 GO:0001953

PlgPlscr2

InsPon1

Popdc3PrlrProc

PlgPlscr2

InsPon1

Popdc3PrlrProc

Gas2Scd1Ins

Pon1PrlrProc

1557459_at1557820_at

1568619_s_at200043_at

200694_s_at

1557459_at1557820_at

1568619_s_at200043_at

200694_s_at

1557459_at1557820_at

1568619_s_at200043_at

200694_s_at

1557459_at1557820_at

1568619_s_at200043_at

200694_s_at

1557459_at1557820_at

1568619_s_at200043_at

200694_s_at

AF058956AI180687AF031939

Y17345AI845103

AF058956AI180687AF031939

Y17345AI845103

AF058956AI180687AF031939

Y17345AI845103

118316411831651183166118316711831701183171

118316411831651183166118316711831701183171

SGDB

Page 22: Plan

Le comptage de bloc (1)

• Comptage par nom de gène ?

• Comptage par position

Identifiant AIdentifiant B

Identifiant AB (gène X)

Page 23: Plan

Le comptage de bloc (2)

Page 24: Plan

Le comptage de bloc (3)

Page 25: Plan

Le format de l’UCSC

• Choix des données par groupes ou individuellement

• Choix des couleurs de piste

Page 26: Plan

Le format de l’UCSC (2)

• http://genome.ucsc.edu/cgi-bin/hgGateway• Position -> chr11:2,131,213-2,145,372

• Récupération du fichier

•Visualisation des blocs

Page 27: Plan

GMOD (1)

• Permet de "naviguer" le long du génome

• Prend en charge le format GFF, stockage dans une base SQL

• Jeux de données présent pour effectuer des tests

• Grande souplesse de configuration

• Données de l’homme disponibles sur le site de l’UCSC

Page 28: Plan

GMOD (2)

Page 29: Plan

Plan

1. Présentation et stratégie de recherche du laboratoire

2. Objectifs

3. L’Interface

4. Les analyses

5. Les résultats

6. Conclusions et perspectives

Page 30: Plan

Conclusions (1)

• Problème de temps de réponse- Optimisation de programmes- Système de cache sur disque- Base de données au lieu de fichier (GMOD)

• Problème de configuration système

- Installation de packages - Problème de droits- Mysql en service

Page 31: Plan

Conclusions (2)

• Travail en interaction avec- Biologiste (utilisateurs)- Équipe bio-informatique- Administrateur système

• Utilisation d’un large panel de technologies- DB (Mysql)- Web (apache, php)- Programmation (perl)- Système (gestion des packages)

Page 32: Plan

Perspectives

• Pondération sur les scores

• Ajout de nouvelles stratégies pour l’identification basée sur des tables de correspondance

• Enrichissement quotidien de la base de données par les utilisateurs

Page 33: Plan

Perspectives

• Développement dans le cadre du projet ANR

Gènes sélectionnés par cet outil seront étudiés par des études génétiques

• Mise en ligne sur Internet avec une publication dans un journal de biologie

Internet Local

Données partielles publiées

Données complètesconfidentielles

Page 34: Plan

Remerciements

Sophie GallinaChristophe WachterDavid Le GuilcherStefan GagetJean-Claude ChèvreAinsi que toute l’équipe du laboratoire