1
Cartographie des connaissances biologiques
Une application à l’analyse de données d’expression de puces ADN
Fabien Jalabert, Michel Crampes, Sylvie Ranwez, Vincent Derozier
{prenom.nom}@ema.fr
Centre de Recherche LGI2P – Ecole des Mines d’Alès
2
• Contexte : cartographie des connaissances• Problématique• Résultat de la visualisation et évaluation
Cartographie des connaissances biologiques
3
Contexte
Projet GEM-BIO / Collaboration Institut Pasteur : Analyse de puces à ADN / Plasmodium Falciparum
Rappel : ADN ARNm Protéine
Données d’expression : On mesure la quantité d’ARN transcrite dans la cellule à un instant donné (expression du gène)
Puces à ADN : technique permettant une analyse haut-débit (densité > 47 000 gènes sur 1 cm²).
Plasmodium Falciparum ≈ 5300 gènes
6
Cartographie des connaissances
• Intégrer des données hétérogènes : – Biologiques,– Bibliographiques, – Ontologiques
• Les visualiser
Un modèle de graphe (typé, valué) : souple et extensible.
7
Approches existantes
Fréquemment, les biologistes emploient un (bi)clustering hiérarchique visualisé sous forme de dendrogrammes.
8
Problématique
Associer un élément à plusieurs classes :
• Un gène (généralement chez les bactéries) peut être associés à plusieurs fonctions ( groupes) (épissage alternatif, polyvalence d’une protéine, fonction différentes dans différents milieux).
• Laisser l’expert décider face à une ambiguïté : les approches courantes imposent l’appartenance à une classe et une seule.
Regroupement flou : un gène est associé à un (ou plusieurs) groupe(s) avec un degré d’appartenance.
9
Problématique
Comparer des regroupements :
• Evaluer cette approche = comparer le regroupement flou avec celui produit par Bozdech sur ses propres données d’expression.
[Bozdech et al., 2003] 1 mesure par heure pendant 48h dont nous avons sélectionné ≈ 370 gènes
• Représenter l’expression d’un génome dans le temps en fonction de plusieurs conditions expérimentales.
Décomposer l’espace multidimensionnel et d’analyser séparément chaque partition de l’espace
10
Problématique
Besoin d’une vision ensembliste
Diagrammes d’Euler
11
Visualisation
Regroupements (carte des connaissances)– Modèle physique (forces) : robuste, souple, dymamique
– Implémentation : Java, librairie Prefuse.
– Fonctionnalités : vue d’ensemble, zoom/pan, distorsions logiques, infobulles, menus contextuels, etc.
Données d’expression (temporelles)– Coordonnées parallèles synchronisées à la carte : aspect temporel, possibilité de lire entre les
lignes (expression + variation de l’expression).
– Implémentation : librairie Parvis
– Fonctionnalités : zoom, filtrage et brushing (degré d’appartenance, angle, etc.)
12
13
14
Evaluation
• Le biologiste n’est pas familiarisé avec ce type de visualisation• Si cette visualisation est souple, dynamique et adaptable, le biologiste doit le
comprendre pour bien la maîtriser; ceci demande un apprentissage.
• L’utilisateur recherche systématiquement une sémantique biologique dans les 2D • Besoin de traçabilité• Le biologiste a été plus exigent avec l’outil qu’avec les outils les plus classiques.
• La vue d’ensemble est très appréciée, l’apprentissage des interactions est rapide.• Si l’évaluation mise en œuvre n’a pas été dans le contexte d’une expérimentation
biologique complète, l’environnement permet rapidement de croiser des informations, et a permis rapidement de mettre en évidence rapidement des anomalies d’annotations dans différentes bases.
15
Cartographie des connaissances biologiquesUne application à l’analyse de données d’expression de puces ADN
Fabien Jalabert, Michel Crampes, Sylvie Ranwez, Vincent Derozier
{prenom.nom}@ema.fr
Centre de Recherche LGI2P – Ecole des Mines d’AlèsParc Scientifique Georges Besse, F 30 035 – Nîmes Cedex 1
Merci
16
Problématique
17
Architecture générale
Données pré-filtrées
Saisie de mots-clés, données expérimentales,
etc.
Filtrage pour le domaine
étudié
Données hétérogènes
PubMedUMLS
GOEntrezGene
etc.
Analyses lexicale et statistique pour
l'extraction des termes candidats et leur mise
en relation
Extraction d'une sous-carte adaptée au
contexte applicatif
Données filtrées mises en forme
Environnement de visualisation
Interaction
Carte personnalisée
18
ContextePuces ADN
Spotting des sondes sur le support
Mise en présence d’un échantillon marqué au fluorochrome
Rinçage
Mise en œuvre de la fluorescence scannée
Hybridation des gènes exprimés avec les sondes qui leur sont spécifiques
19
ContextePuces ADN
Analyse d’image
Prétraitements (normalisation, etc.)
Regroupement automatique
Analyse par l’expert : croisement avec les connaissances du domaine
Top Related