Introduction générale à Galaxy - Université de Lille · 2019. 3. 21. · Qu’est ce que...

Post on 30-Dec-2020

3 views 0 download

Transcript of Introduction générale à Galaxy - Université de Lille · 2019. 3. 21. · Qu’est ce que...

Introduction générale àGalaxy

1

Qu’est ce que Galaxy?• Galaxy est une application WEB pour l’analyse de

données centrée autour d’applications en biologie

• Galaxy offre un terrain d’entente entre biologistes et bioinformaticiens!

2

Pourquoi Galaxy?• “The Galaxy Project: Online bioinformatics analysis for ALMOST everyone”• Permet d’éviter le dogme : bioinformatique = ligne de commande• Se concentrer sur la question biologique et l’analyse et pas sur la syntaxe et l’installation des outils

• Permet de chaîner des outils pour créer des workflows• Permet de suivre et d’archiver toutes analyses • Reproductibilité accrue• Partage facilité

3

Connexion à Galaxy-bilille

• Une machine virtuelle hébergée à la DSI de l’université de Lille• Un espace personnel pour chaque utilisateur•https://thor.univ-lille.fr/dashboard/

4

OUTILS ECRAN PRINCIPAL HISTORIQUE

BANDEAU SUPERIEUR

5

AIDE DE L’OUTIL

OUTILS

PARAMETRAGE DE L’OUTILChargement des données

En cliquant vous ouvrez la catégorie

En cliquant vous ouvrez

l’outil

HISTORIQUE

Options de l’historique

BANDEAU SUPERIEUR

6

TéléchargementInformations

(emplacement, dates, outils)

Rechargement de l’outil

Outils de visualisation

Visualisation du dataset sur écran

principal

Edition des attributs du

datasets Suppression (archivage)

Annotations/Tags

Pré-visualisation

Datasets

7

En file d’attente

En cours d’exécution

Fini avec succès

Fini en erreur

Statuts des datasets

8

Notion de format

• Format tabulé

Séparateur TABULATION

Similaire à Excel

9

Notion de format

• Format Interval

Régions génomiques

Colonne 1 : numéro de chromosomeColonne 2 : position de débutColonne 3 : position de fin…

• Format BED

Régions génomiques

Colonne 1-3 : identique au format IntervalColonne 4 : NomColonne 5 : ScoreColonne 6 : sens

10

Notion de format

• Autres formats :• Fastq, FASTA… : données génomiques• SAM/BAM : données d’alignements• HTML : visualisation

11

Les outils

• Des outils « génériques »• manipulation de fichiers texte, tableur...

• Des outils standard de bioinformatique• outils de DNA-seq, RNA-seq, ChiP-seq, identification de variants,

métagénomique...

12

Les workflows

• Automatisation d’analyses répétitives

• Permet de standardiser des pipelines d’analyses

• Facilité de partage

• Facilité de reproductibilité13

Pourquoi utiliser l’instance Galaxy-bilille

• Outils et workflows spécifiques déployés

• Plus d’espace disque et (surtout) de puissance que sur une station personnelle

• Support rapide et personnalisé

14

Utilisation pérenne de l’instance Galaxy-bilille• Attention à la mémoire disque!

• Soyez patient

• Attention au chargement de données de trop grande taille (> 2Gb)

15