Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars...

31
Initiation à la Initiation à la bioinformatique bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013

Transcript of Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars...

Page 1: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la Initiation à la bioinformatiquebioinformatique

Formation biologie moléculaire / bioinformatique

Mercredi 20 mars 2013

Page 2: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

La La bioinformatique.bioinformatique.C’est quoi ?C’est quoi ?

Page 3: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

La bioinformatique. C’est La bioinformatique. C’est quoi ?quoi ? Ensemble de méthodes, de logiciels et

d’applications en ligne qui permettent de gérer, manipuler, et analyser des données biologiques.

La bioinformatique met en jeu plusieurs champs disciplinaires :

Informatique

Mathématiques

formelles

Statistiques

Biologie

Page 4: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

La La bioinformatique.bioinformatique.Pourquoi ?Pourquoi ?

Page 5: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

La bioinformatique. Pourquoi La bioinformatique. Pourquoi ??

La bioinformatique a différents objectifs et différentes applications :

1-Collecter et stocker des informations dans des bases de données, accessibles en ligne.

Explosion de la quantité de données biologiques nécessitant des outils de stockage adaptés

Page 6: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

La bioinformatique. Pourquoi La bioinformatique. Pourquoi ??

La bioinformatique a différents objectifs et différentes applications :

2-Fournir des outils de comparaison de séquences (protéiques ou nucléotidiques).

Objectifs :-identifier une séquence par rapport à une base de données-déterminer le degré de similitudes entre deux séquences (intérêt en taxonomie)-repérer des motifs structuraux :

-gènes, promoteurs, etc. pour un nucléotide.-zone de repliement, site actif, etc. pour un

polypeptide.

Séquence de référence

Séquence à analyser

Identification ? Points communs ?

Page 7: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

La bioinformatique. Pourquoi La bioinformatique. Pourquoi ??

La bioinformatique a différents objectifs et différentes applications :

3-Fournir des outils de traduction de séquences.

Objectifs :-simplifier les taches de traduction-proposer plusieurs possibilités de protéines pour une même séquence-repérer exons / introns

Séquence nucléotidiq

ue

Séquence polypeptidiqu

e

Traduction

Page 8: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

La bioinformatique. Pourquoi La bioinformatique. Pourquoi ??

La bioinformatique a différents objectifs et différentes applications :

4-Fournir des outils de prédiction

Objectifs :-repérer un opéron-repérer un gène ou une protéine anormale-prévoir la structure 3D d’une protéine-repérer des mutations-prédire une pathologie…

Prédiction physiologique

et fonctionnelle

Prédiction expérimentale

Objectifs :-repérer des sites de restriction-prévoir la digestion d’un nucléotide-prévoir / simuler la migration de fragments nucléotidiques ou protéiques lors d’une électrophorèse…

Page 9: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

La bioinformatique. Pourquoi La bioinformatique. Pourquoi ??

Séquence nucléotidique

Gène Protéine Fonction biochimique

Activité biologique

Analyse de séquences

Prédiction / simulation expérimentale

Biologie in silico

Page 10: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

La bioinformatique.La bioinformatique.Quelques repères Quelques repères historiques…historiques…

Page 11: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Quelques repères Quelques repères historiques…historiques…Années 80 : - Début de la micro-informatique

- Création des premières bases de données (GENBANK)

Années 90 : - Développement de l’internet et des réseaux

- Apparition des logiciels de comparaison

de séquences (FASTA, BLAST)Années 2000 : -Consultation libre en ligne des bases de données-Mutualisation des données avec les projets de séquençages de génomes

Page 12: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Les bases de Les bases de donnéesdonnéesLe cœur de la Le cœur de la bioinformatique…bioinformatique…

Page 13: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Les bases de donnéesLes bases de données Différentes catégories de bases de

données :Bases de données bioinformatiques

Bases généralistes-banque N-banque P

Bases spécialisées

Banques génomiques

Banques fonctionnelles :-transcriptome-protéome-métabolome…

Difficultés !!-Harmoniser le classement des informations-Utiliser un langage commun pour échanger des informations entre toutes ces bases

Page 14: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Les bases de donnéesLes bases de données Harmonisation des fiches de données

Exemple de la fiche GENBANK d’un plasmide d’E.faecalis

Page 15: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Les bases de donnéesLes bases de données Harmonisation des fiches de données

Suite de la fiche GENBANK d’un plasmide d’E.faecalis

Page 16: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Les bases de donnéesLes bases de données Harmonisation des fiches de données

Fin de la fiche GENBANK d’un plasmide d’E.faecalis

Page 17: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Les bases de donnéesLes bases de données Harmonisation des fiches de données

En résumé, une fiche comporte de nombreuses informations :

Locus Identificateur (nom et taille de la séquence)

Definition Description de la séquence

Accession / version Numéro d’accès dans la base

Keyword / Source / Organism / Reference / Authors / Title / Journal

Informations diverses (taxonomie, publications…)

Features Caractéristiques de la séquence / produits d’expression

Origin Séquence (par blocs de caractères / par lignes)

// Fin de l’entrée dans la base

Page 18: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Les bases de donnéesLes bases de données Format commun de manipulation des

données : le format FASTA (Fast – alignment)Objectif : manipuler facilement des séquences dans les

bases de données, à l’aide d’un format universel, compatibles avec les traitements de texte (sous forme de fichier texte), ou par copier – coller.

Exemple de la fiche précédente du plasmide d’E.faecalis en format FASTA :

Page 19: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Les bases de donnéesLes bases de données

Remarques :

-Les bases nucléotidiques ne référencient que des monobrins d’ADN (même si la séquence soumise est de l’ADN bicaténaire ou de l’ARN)

la séquence est toujours dans le sens 5’P – 3’OH

-Les séquences nucléotidiques selon le degré de précision de l’enregistrement seront écrites le plus souvent avec A,T, C et G et/ou avec R,Y (base puRique A et G / base pYrimidique C et T) et/ou K,M (base Keto G et T / base aMino A et C).

-Les bases protéiques sont référencées : avec la séquence dans le sens N vers C

terminal avec le symboles d’acides aminés à 1 lettre

Format commun de manipulation des données :

le format FASTA (Fast – alignment)

Page 20: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Principe de la comparaison de Principe de la comparaison de séquencesséquences

La comparaison de séquences est l’outil central en bioinformatique :Repose sur des calculs matriciels ou des algorithmes complexes qui rendent des résultats sous forme de données statistiques (% match, score, e-value…)

Logiciel d’alignement le plus connu = BLAST (Basic Local Alignment Search Tool)Alignement de séquences

Score de similitude

Degré d’homologie

Identification, prédiction de structure de propriétés, de fonction

Démarche globale :

Page 21: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Principe de la comparaison de Principe de la comparaison de séquencesséquences

Principe du calcul des scores d’alignement :

Séquence de référence : AAA TTT GGG CCC

Score d’alignement = Somme des scores individuels(avec identité (match) = +2, non identité = -1 et gap -8)

Séquence 1 à analyser : AAA CCC GGG CCC

Séquence 2 à analyser : AAA TTT CCC

Alignement : AAA TTT GGG CCCAAA TTT - - - CCC

Score de la séquence 1: 2+2+2-1-1-1+2+2+2+2+2+2 = 15

Score de la séquence 2: 2+2+2-8+2+2+2+2+2+2 = 10

Non identité (mismatch) Non correspondance (gap)

Exemple :

Page 22: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Principe de la comparaison de Principe de la comparaison de séquencesséquences

Principe du calcul des scores d’alignement :

En pratique, plus le score d’alignement est élevé, plus les séquences sont similaires et présenteront des propriétés et des fonctions proches. plus de 70% de similarité permettent d’affirmer qu’il y a homologie

Page 23: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Ou trouver les Ou trouver les outils de outils de bioinformatique ?bioinformatique ?

Page 24: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Où trouver les outils de Où trouver les outils de bioinformatique ?bioinformatique ?

Outils indépendants, autonomes, en accès libre via internet (soit à utiliser en ligne, soit à télécharger sous forme d’installeurs). on les recherche par l’intermédiaire d’un moteur de recherche Portails de bioinformatiques, fonctionnant en ligne, et comportant plusieurs outils en accès libre ou payant. Exemples :- EBI (European Bioinformatics Institute)

http://www.ebi.ac.uk

- NCBI (National Center for Biotechnology Information)http://www.ncbi.nlm.nih.gov

Page 25: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Où trouver les outils de Où trouver les outils de bioinformatique ?bioinformatique ?

Le portail EBI

Page 26: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Où trouver les outils de Où trouver les outils de bioinformatique ?bioinformatique ?

Le portail NCBI

Page 27: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Où trouver les outils de Où trouver les outils de bioinformatique ?bioinformatique ?

Le logiciel BLAST accessible depuis le portail

Page 28: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

La bioinformatique.La bioinformatique.Pour quelles Pour quelles applicationsapplications en STL ? en STL ?

Page 29: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Applications en STL ?Applications en STL ?

Recherche de données bibliographiques

Alignement d’une séquence inconnue pour identification

Analyse d’une séquence à la recherche de zones fonctionnelles

Calcul de Tm, recherche d’amorces, simulation d’électrophorèse

Etude des propriétés physico-chimiques d’une protéine

Modélisation tridimensionnelle

Page 30: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la bioinformatique – 20 mars 2013

Exemple de scénario pédagogiqueExemple de scénario pédagogique

Cas de toxi-infection : présence récurrente d’une protéine inconnue dans un aliment surgelé !!

Identification après alignementavec une base de données

Le gène correspondant à la protéine est-il connu ?

Digestion de l’ADN par des enzymes de restriction et simulation de séparation par électrophorèse

On dispose du matériel pour réaliser la PCR, on veux maintenant, isoler le gène d’intérêt par

électrophorèse

Traduction protéine nucléotide

Le gène est retrouvé chez un taxon connu : on souhaite mettre en place une PCR afin de détecter la souche

productrice dans l’alimentPrévision des amorces nécessaires

Page 31: Initiation à la bioinformatique Formation biologie moléculaire / bioinformatique Mercredi 20 mars 2013.

Initiation à la Initiation à la bioinformatiquebioinformatique

Formation biologie moléculaire / bioinformatique

Mercredi 20 mars 2013