PRÉSENTATION DE LA BIOINFORMATIQUE · 2017. 5. 26. · 07/10/2013 1 PRÉSENTATION DE LA...

65
07/10/2013 1 PRÉSENTATION DE LA BIOINFORMATIQUE O. Collin CNRS – IRISA – GenOuest 7 octobre 2013 Warming session Poser le décor pour les 3 jours Mise en évidence et mise en relation des éléments clés Réflexions sur quelques points importants Tour de table Nom Activité Attente vis-à-vis de cette session d’introduction

Transcript of PRÉSENTATION DE LA BIOINFORMATIQUE · 2017. 5. 26. · 07/10/2013 1 PRÉSENTATION DE LA...

  • 07/10/2013

    1

    PRÉSENTATION DE LA BIOINFORMATIQUEO. CollinCNRS – IRISA – GenOuest7 octobre 2013

    Warming session• Poser le décor pour les 3 jours• Mise en évidence et mise en relation des éléments clés• Réflexions sur quelques points importants

    • Tour de table • Nom

    • Activité

    • Attente vis-à-vis de cette session d’introduction

  • 07/10/2013

    2

    INTRODUCTION

    Définition• Wikipedia

    • Concepts et techniques nécessaires à l’interprétation informatique de l’information biologique

    • Champ de recherche multi-disciplinaire

    • Volet recherche (élaboration de nouvelles méthodes) et volet service (analyse de données assurée par/sur les plates-formes).

  • 07/10/2013

    3

    Histoire de la bioinformatique• Intimement liée à la Biologie Moléculaire• Mais également aux progrès en traitement de

    l’information• http://www.dipity.com/cistronic/BioInformatics/

    Evolution de la bio-informatique Ouzounis. Rise and demise of bioinformatics? Promise and progress. PLoS Comput Biol (2012) vol. 8 (4) pp. e1002487

  • 07/10/2013

    4

    LE PAYSAGE DE LA BIOINFORMATIQUE

    Acteurs de la bioinformatique• Bioinformatics Internship• Bioinformatics Postdoc• Bioinformatics Analyst (I, II, III)• Senior Bioinformatics Analyst• Bioinformatics Analyst Programmer (I, II, III)• Bioinformatics Developer Senior• Bioinformatics Developer• Bioinformatician (I, II, III)• Bioinformatics Expert• Bioinformatics Systems Administrator• Bioinformatics Research Fellow• Bioinformatics Research Assistant• Bioinformatics Research Associate• Bioinformatics Scientist (Researcher)• Bioinformatics Senior (Staff) Scientist• Bioinformatics Project Manager• Director (Head) of Bioinformatics

    http://www.biostars.org/p/398/

  • 07/10/2013

    5

    Acteurs de la bioinformatique

    Biologiste

    Informaticien

    Bio-informaticien Administrateur système

    Bio-informaticien

    Bio-analyste

    Analyse les données produites en amont

    Développe de nouvelles méthodes ou de nouveaux outils

    Installe les outils pour l’analyse et maintient les systèmes de calcul

    Produit les données pour réponde à une question biologique

    Développeur logiciel

    Acteurs de la bioinformatique

    Biologiste

    Informaticien

    Bio-informaticien Administrateur système

    Bio-informaticien

    Bio-analyste

    Analyse les données produites en amont

    Développe de nouvelles méthodes ou de nouveaux outils

    Installe les outils pour l’analyse et maintient les systèmes de calcul

    Produit les données pour réponde à une question biologique

    Développeur logiciel

    R R

    I

    I I

  • 07/10/2013

    6

    La bioinformatique à l’IRISA/INRIA• Symbiose : un centre de ressources en bio-informatique

    – Deux équipes de recherche (Dyliss et Genscale)

    – Une plate-forme bio-informatique : GenOuest

    • Profiter du savoir-faire et de l’infrastructure d’un centre de recherche en informatique.

    • Une association unique en France

    Mission/vocation

    Plate-forme bio-informatique

    Recherche en Biologie

    Recherche en Biologie

    Recherche en informatique

    Recherche en informatique

  • 07/10/2013

    7

    Soutien recherche

    Services

    Infrastructure

    Calcul, DéveloppementHébergement, FormationsTransfert technologique

    Puissance de calcul, logithèqueStockageBanques de données mises à jour

    Rôle central et fédérateur

    Développements technologiques

    e-Biogenouest

    Calcul

    Grille Cloud

    Données

    genocloudGRISBI

    BioMAJ

    Metadonnées

    EMME

    Portail

    MobyleNet

    Web services

    Opal Toolkit

    Galaxy

    Collaboratif

    Elgg

    Cluster

    genocluster

    Workflows BioSide

    BioWIC

    ADT INRIA

    Ontologies

    HubzeroOpenLDAP

    Biologie intégrative

    SeqCrawler

  • 07/10/2013

    8

    GenOuest

    • Plate-forme bioinformatique• Puissance de calcul• Stockage• Banques• Hébergement• Formations

    • Un environnement bioinformatique complet

    GenOuest en chiffres• 2 clusters : 500 CPUs• Stockage : 60 To + 20 To + 60 To• 150 logiciels • 82 banques (5,5 To) • 250 utilisateurs authentifiés• 200 000 jobs par mois en 2011• 12 ingénieurs (développeurs, bioanalystes, sysadmins)• Certifiée ISO9001:2008 depuis 2008

  • 07/10/2013

    9

    Environnement

    Données Logiciel Interface

    Calcul

    Environnement

    Utilisateur

    Machines

    Données Logiciel Interface

    Calcul

  • 07/10/2013

    10

    Environnement

    Banques Utilisateur

    Machines

    Données Logiciel Interface

    Calcul

    BioMAJ

    PHP DRMAA

    Ligne cde

    Mobyle

    Galaxy

    Environnement

    Banques Utilisateur

    Machines

    Données Logiciel Interface

    Calcul

    BioMAJ

    PHP DRMAA

    Ligne cde

    Mobyle

    Galaxy

  • 07/10/2013

    11

    Qu’est-ce qu’un environnement bio-informatique ? • Quelque chose qui offre la possibilité d’analyser ses

    données• Données digitales • Environnement informatique

    • Système d’exploitation

    • Outils et données de référence

    • Possibilité de développer de nouveaux outils

    Données Résultats

    « Bio »

    « Bioinfo »

    « Info »

    Question biologique

  • 07/10/2013

    12

    CONTEXTE Un contexte pas facile mais palpitant…

    ContexteFoisonnement de logiciels et de ressources en bioinformatique

    • Bio-Linux 7 (nov 2012) : plus de 500 logiciels

    • Nucleic Acids Research Database Issue 2013 :• 1512 bases répertoriées par NAR• (Nucl. Acids Res. (1 January 2013)41 (D1): D1-

    D7.doi: 10.1093/nar/gks1297)

    • Bioinformatics links directory (http://bioinformatics.ca/links_directory/)•1459 outils

  • 07/10/2013

    13

    Contexte

    Kahn. On the future of genomic data. Science (2011) vol. 331 (6018) pp. 728-9

    Comment affronter ces problèmes ?• Connaître des logiciels de base• Connaître des banques généralistes et leur mode

    d’interrogation• Automatisation des traitements pour lutter contre l’afflux

    de données• Connaissances d’un environnement adapté (Windows pas

    forcément adapté)

    • Evoluer au sein d’un réseau de compétences• Les problèmes sont trop compliqués pour être affrontés seul(e).

  • 07/10/2013

    14

    CONCEPTS

    Concepts• Analyse de données avec l’outil bioinformatique

    • Enchaînement de programmes

    Données Résultats

    Données RésultatsP1

    Paramètres P1

    Sortie 1 Pn

    Paramètres Pn

    Entrée n…

  • 07/10/2013

    15

    Concepts

    • Problèmes d’utilisation• Enchaînement de programmes : savoir quels programmes utiliser

    • Format des données : outils de conversion

    • Manipulation de fichiers : compliqué si beaucoup de données

    • Automatisation : scripting ou développement

    Données Résultats

    Données RésultatsP1 Sortie 1 PnEntrée n…

    Données : séquences, bases, banques

  • 07/10/2013

    16

    FORMATS DE SÉQUENCES

    Une jungle de formats • Formats « originels »

    • Issus des banques de séquences : GenBank, EMBL, SwissProt, PDB, etc.

    • Formats liés aux outils • Staden, Fasta, Phylip, etc.

    • Formats enrichis • Génome : GFF

    • Nouveaux formats liés aux NGS• BED

    • SAMs

  • 07/10/2013

    17

    Formats « originels » • GenBank• Conçu pour être lisible et pour proposer différentes

    informations sur la séquence : annotations, bibliographie. • Format texte• Identifiants • // à la fin de l’enregistrement

  • 07/10/2013

    18

    Formats liés à un outil• Packages : Staden, GCG• Suite logicielle : Phylip• Programme alignement : ClustalW

    Outil de conversion est indispensable : seqret de la suite Emboss

    GFF3• Annotations génomiques• Format tabulé• 9 colonnes

  • 07/10/2013

    19

    GFF3 : Generic Feature Format 3

    ##gff-version 3##sequence-region ctg123 1 1497228ctg123 . gene 1000 9000 . + . ID=gene00001;Name=EDENctg123 . TF_binding_site 1000 1012 . + . Parent=gene00001ctg123 . mRNA 1050 9000 . + . ID=mRNA00001;Parent=gene00001ctg123 . mRNA 1050 9000 . + . ID=mRNA00002;Parent=gene00001ctg123 . mRNA 1300 9000 . + . ID=mRNA00003;Parent=gene00001ctg123 . exon 1300 1500 . + . Parent=mRNA00003ctg123 . exon 1050 1500 . + . Parent=mRNA00001,mRNA00002ctg123 . exon 3000 3902 . + . Parent=mRNA00001,mRNA00003ctg123 . exon 5000 5500 . + . Parent=mRNA00001,mRNA00002,mRNA00003ctg123 . exon 7000 9000 . + . Parent=mRNA00001,mRNA00002,mRNA00003ctg123 . CDS 1201 1500 . + 0 ID=cds00001;Parent=mRNA00001ctg123 . CDS 3000 3902 . + 0 ID=cds00001;Parent=mRNA00001

    BED• Annotations génomiques• Développé pour le Genome Browser UCSC• 3 champs impératifs• 9 champs optionnels

  • 07/10/2013

    20

    BED

    browser position chr7:127471196-127495720browser hide alltrack name="ItemRGBDemo" description="Item RGB demonstration" visibility=2itemRgb="On"chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255

    SAM : Sequence Alignment/Map• Format pour alignement des reads• Proposé dans le cadre des 1000 génomes• Format tabulé

    • Sa forme indexée = BAM• http://samtools.sourceforge.net/SAM1.pdf

    Li et al. The Sequence Alignment/Mapformat and SAMtools. Bioinformatics(2009) vol. 25 (16) pp. 2078-9

  • 07/10/2013

    21

    Conclusion sur formats• Grande diversité• Evolution constante• Besoin de convertisseurs

    BANQUES

  • 07/10/2013

    22

    Bases et banques• Quantité croissante des banques : 1380 env.

    • NAR : http://www3.oup.co.uk/nar/database/c

    • Multiplicité des bases (et des formats) : défi pour l’intégration des données• Hétérogénéité des données

    • Hétérogénéité de structure des bases

    • Certains champs ou propriétés non interrogeables

    • Métabanques

    Evolution

    0,0020000000,0040000000,0060000000,0080000000,00

    100000000,00120000000,00140000000,00160000000,00

    Feb

    198

    6 M

    ar 1

    988

    Mar

    199

    0 J

    un 1

    992

    Feb

    199

    4 A

    ug 1

    995

    Feb

    199

    7 A

    ug 1

    998

    Apr

    200

    0 O

    ct 2

    001

    Apr

    200

    3 O

    ct 2

    004

    Apr

    200

    6 O

    ct 2

    007

    Apr

    200

    9 O

    ct 2

    010

    Apr

    201

    2

    Entries

    Entries

    0,00

    20000000000,00

    40000000000,00

    60000000000,00

    80000000000,00

    100000000000,00

    120000000000,00

    140000000000,00

    160000000000,00

    Aug

    198

    6 D

    ec 1

    988

    Sep

    199

    1 D

    ec 1

    993

    Oct

    199

    5 A

    ug 1

    997

    Aug

    199

    9 J

    un 2

    001

    Apr

    200

    3 F

    eb 2

    005

    Dec

    200

    6 O

    ct 2

    008

    Aug

    201

    0

    Base Pairs

    Entries

    GenBank : 560 Go

  • 07/10/2013

    23

    Typologie des banques• Banque généraliste :

    • GenBank• SwissProt

    Banque spécialisée :organisme

    • MGD Mouse Genome Database• FlyBase

    Banque spécialisée : thème

    • InterPro• EPD eukaryotic promoter

    database

    • Banque spécialisée : métabolisme

    • KEGG• EcoCyc

    Banque spécialisée :interactions

    • DIP• BIND

    Banque spécialisée : famille

    • PKR: protein kinase resource• RNA 16S

  • 07/10/2013

    24

    Difficultés

    • Le souci principal est l’hétérogénéité des données:• hétérogénéité des données

    • hétérogénéité de structure des bases

    • Certains champs ne sont pas interrogeables.

    Percolation

    ctattcctta attaatgtct acatggctat ttttaatgtt attactgttt gtcactataaaaaaacgctc atttgagaca atactgacat taactgcttc aacttctacg cacggaacttttaattaaat tagcacagga atgttaaatt taatanacaa aaggttattt cgctgtatgataaaaaaaac c

    Une séquence : « Putative dinosaur genomic DNA, partial sequence »XXU41319

    Résultats : Score ESequences producing significant alignments: (bits) Value

    gi|1171159|gb|U41319.1|XXU41319 Putative dinosaur genomic D... 311 3e-82 gi|48994873|gb|U00096.2| Escherichia coli K-12 MG1655 compl... 258 4e-66 gi|1800040|dbj|D90890.1| E.coli genomic DNA, Kohara clone #... 258 4e-66 gi|1800027|dbj|D90889.1| E.coli genomic DNA, Kohara clone #... 258 4e-66 gi|56384585|gb|AE005174.2| Escherichia coli O157:H7, comple... 234 6e-59 gi|47118301|dbj|BA000007.2| Escherichia coli O157:H7 DNA, c... 234 6e-59 gi|11340291|emb|AL359633.15| Human DNA sequence from clone ... 42 0.44 gi|56542470|gb|AE008692.1| Zymomonas mobilis subsp. mobilis... 40 1.8 gi|45381968|emb|AL109844.14|HSJ636L22 Human DNA sequence fr... 40 1.8 gi|42733300|emb|AL929056.20| Zebrafish DNA sequence from cl... 40 1.8 gi|5777575|emb|AL078463.11|HSJ365I19 Human DNA sequence fro... 40 1.8 gi|47115352|emb|CR407567.2| Human DNA sequence from clone R... 40 1.8 gi|32451243|emb|BX537114.2| Human DNA sequence from clone R... 40 1.8

  • 07/10/2013

    25

    Merali et Giles. Databases in peril. Nature (2005) vol. 435 (7045) pp. 1010-1

    Effet silo et autres…

    • Les banques de données biologiques intègrent les données par domaine (verticalement) mais pas entre les domaines (horizontalement).

    • Ce qui est un obstacle à l’intégration des données est également un obstacle à la soumission des données.

    • 1300 bases de données répertoriées dans NAR Database Issue.

    • Plus facile d’obtenir des crédits pour monter une nouvelle base que pour la maintenir….

  • 07/10/2013

    26

    Synthèse

    DONNÉES EXPÉRIMENTALES

  • 07/10/2013

    27

    Meta-données• Organiser la connaissance pour exploiter au mieux les

    données.• (une méta-donnée concerne un ensemble de données)

    • Permettent de pérenniser les données • Ce sont aussi des données qu’il faudra traiter comme

    telles (production, gestion, protection, etc.)

    Métadonnée

    Identifiant

    Structure

    Description

    Admin

    Données

    Localisation et identification garantie par l’unicité de l’id

    Aspects techniques (formats de fichiers), provenance, gestion des droits.

    Organisation des fichiers de données pour constituer un ensemble cohérent.

    Qui, quoi, comment…

  • 07/10/2013

    28

    Ontologies• Une ontologie est une spécification explicite d’une

    conceptualisation (Gruber 1993)• Conceptualisation : vision abstraite et simplifiée du monde • Une description des concepts et des relations entre les

    éléments constituants cette vision abstraite du monde.• Permet le partage et la réutilisation des connaissances

    grâce à un langage commun • Classifier les données et les informations

    Ontologies in Life Science• In life sciences, there is a strong need for semantic

    interoperability of data• OBO ontologies (Open Biomedical Ontologies)

    • Each ontology is specialized in a subdomain: anatomy, sequences, chemicals, processes, etc.

    • Each ontology is built independantly but designed to interoperate

    • No conceptual integration (even if the covered domains are connected from a scientific point of view)

    • Need for an upper level ontology

    http://www.obofoundry.org/

  • 07/10/2013

    29

    Alignements

    Analyse de séquences• Alignement

    • Recherche dans les banques

    • Comparaison de séquences

    • Découverte de motifs

    • Etc.

    • Etape pivot dans les workflows bioinformatiques

  • 07/10/2013

    30

    Alignements• Alignement global

    • Algorithme “Needleman et Wunsch”

    • Utile pour les séquences homologues

    • Chaque base (ou résidu) d'une séquence doit être appariée avec une autre base (ou résidu) ou bien avec un espace (gap)

    • Alignement local• Algorithme “Smith et Waterman”

    • Capable de trouver des domaines ou des motifs même quand les séquences n'ont que très peu de similarité

    • Trouve le meilleur segment d'appariement entre deux séquences sans utiliser pour cela toutes les bases (ou résidus) de la séquence

    Needleman-Wunsch

    • Propose un alignement mathématiquement optimal• Exigeant en calcul : le remplissage de la matrice est

    proportionnel à MN• Séquences de 100 résidus : 10 000 • Séquences de 200 résidus : 40 000

  • 07/10/2013

    31

    Smith-Waterman• Algorithme “Smith et Waterman”• Capable de trouver des domaines ou des motifs même

    quand les séquences n'ont que très peu de similarité• Trouve le meilleur segment d'appariement entre deux

    séquences sans utiliser pour cela toutes les bases (ou résidus) de la séquence

    Qualité des alignements• Landan et Graur. Heads or tails: a simple reliability check

    for multiple sequence alignments. Mol Biol Evol (2007) vol. 24 (6) pp. 1380-3

  • 07/10/2013

    32

    Balibase• Un outil de test des programmes d’alignement de

    séquences• Oxbench, Prefab, SABmark

    UtilisationEdgar et Batzoglou. Multiple sequence alignment. Curr Opin Struct Biol(2006) vol. 16 (3) pp. 368-73

  • 07/10/2013

    33

    Similarité/HomologieSi 2 séquences sont très similaires, on considère qu’elles sont homologues.

    Homologie est une propriété binaire (homologue/non homologue)

    Protéine: 25-30% d’identité -> homologie

    DNA : 70% d’identité -> homologie

    Impact struct primaire/struct secondaire

    > 30% identité -> structure 3D est conservée

    Mais pas toujours…

    Alignements multiples

    Thompson, J. D., F. Plewniak and O. Poch. "A Comprehensive Comparison of Multiple Sequence Alignment Programs." Nucleic Acids Res 27, no. 13 (1999): 2682-90.

    Progressif: ajout des séquences une à une

    Iteratif: raffinage de l’alignement jusqu’à obtention d’un optimal

  • 07/10/2013

    34

    Exemple : Muscle

    Edgar, Robert C. "Muscle: Multiple Sequence Alignment With High Accuracy and High Throughput." NucleicAcids Res 32, no. 5 (2004): 1792-97.

    Alignement multiple

  • 07/10/2013

    35

    Synthèse

    Recherche dans banques• Outils de recherche

    • Fasta

    • Ssearch

    • Blast

  • 07/10/2013

    36

    Blast• Basic Local Alignment Seach Tool• Idée : Si deux séquences sont similaires, elles doivent

    posséder des mots exacts en commun• On cherche donc ces mots exacts (graines) et on étend

    l’alignement• La recherche des mots exacts accélère le processus de

    recherche.

    Blastn ADN/ADN Mapping oligonucléotides, EST, répétitions. Identification transcripts.

    Blastp Prot/Prot Identification régions communes entre protéines. Collecte de protéines pour analyse

    Blastx Prot/Nuc Découverte de gènes codants dans des génomes

    Tblastn Nuc/Nuc Identification des transcripts pour une protéine. Mapper une protéine sur de l’ADN génomique

    Tblastx Nuc/Nuc Prédiction de gènes inter-espèces. Recherche de gènes ayant échappé aux recherches standard.

  • 07/10/2013

    37

    Fonctionnement de Blast• Il utilise une heuristique pour éliminer les séquences non

    pertinentes afin de réduire les temps de recherche. • Le programme cherche au début des mots de longueur

    fixée W (3 acides aminés ou 11 nucléotides) donnant un score T après comparaison avec une matrice de substitution. Les mots trouvés sont ensuite allongés dans les deux directions afin de trouver un alignement dont le score dépasse le score seuil S.

    • Les paramètres W et T sont fixés par l'utilisateur.

    http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/BLAST_algorithm.html

  • 07/10/2013

    38

    Rappel• SW : algorithme précis• Blast : approximatif

    Utilisation de Blast en local• Téléchargement des binaires• Banques pré-formatées• Utilitaire formatdb

    Fichierfasta

    Blastall

    Requête

    Résultats

    Formatdb

    Banque « blastable »

  • 07/10/2013

    39

    Alignements et scores• Problème de l’établissement des scores:• utilisation de matrices pour les protéines

    • PAM (Point Accepted Mutation), Dayhoff• BLOSUM (BLOck Scoring Matrix), Henikoff

    • BLOSUM meilleure pour des alignements locaux

    PAM• Margaret Dayhoff 1978 • PAM: Point Accepted Mutation• Analyse d’alignement de séquences proches (+ de 74%

    d’identité)• Probabilité de substitution • PAM1 = 1% de divergence• PAM40 = 40% de divergence

    • Biais car protéines très proches

  • 07/10/2013

    40

    Blosum62• Produite à partir d’alignement de protéines identiques à

    62%

    • Blosum * : si * grandit alors distance diminue • (contrairement à PAM)

  • 07/10/2013

    41

    Score avec Blosum

    Autres matrices

    http://www.genome.jp/aaindex/AAindex/list_of_matrices

  • 07/10/2013

    42

    Motifs et profilsAlignements de séquences :

    � Représentation par séquence consensus

    �Représentation par signature/motif

    �Représentation par profil

    Pour un alignement, pour chaque colonne on précise la fréquence de chaque résidu

    Exemple : PROSITE, BLOCKS

    Motif

    ADLGAVFALCDRYFQSDVGPRSCFCERFYQADLGRTQNRCDRYYQADIGQPHSLCERYFQ

    [AS]-D-[IVL]-G-x4-{PG}-C-[DE]-R-[FY]2-Q

  • 07/10/2013

    43

    Bases de motifs

    http://prosite.expasy.org//

    http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php

    http://pfam.sanger.ac.uk/

    http://prodom.prabi.fr/prodom/current/html/home.php

    Profils

    L’utilisation des profils est une méthode très sensible pour

    découvrir des relations entre séquences très distantes.

    Par rapport aux méthodes conventionnelles de comparaison de

    séquences, on n’utilise pas qu’une seule séquence pour la

    requête mais un profil élaboré à partir d’une famille de séquences.

    Information d’un profil :

    � résidu / position

    � positions importantes (hautement conservée)

    � régions d’insertion

    Cette description est basé sur un système de scores dépendant des positions. On conserve ainsi l’information sur le degré de conservation pour différentes positions de l’alignement.

  • 07/10/2013

    44

    Recherche/découverte de motifs

    Pattern matching ou recherche de motifs

    Le motif est connu

    On part d’un motif, résultats = séquences contenant le motif

    Appariement avec des séquences.

    Pattern discovery ou découverte de motifs

    Le motif est inconnu

    On part de séquences, résultats = motifs contenu dans les séquences

    Alignement de séquences.

    Expressivité• Niveaux de complexité très différents dans la définition des motifs :

    • Précis, non ambigüe,

    • ex : codon start, site de restriction, etc.

    • Flous, complexes,

    • ex : motif lié à des familles protéiques, les TFBS, etc.

    Le motif sera alors “écrit” de différentes façons ...

  • 07/10/2013

    45

    ExpressivitéComplexité des structures primaires très inégale en acidesnucléiques (alphabet de 4 lettres) et acides aminés (20 lettres)

    Structure primaire souvent suffisante pour les motifs protéiques pour caractériser un site biologiquement actifmême s’il est ambigu à certaines positions. La recherche par similarité dans les banques fonctionne bien pour identifier des motifs protéiques conservés.

    Par contre la faible complexité des motifs nucléiques fait quela définition en terme de structure primaire est souventinsuffisante. Il y a souvent besoin de plus d'informations pour décrire ces motifs : utilisation des représentations de motifs les plus expressives

    Motifs nucléiques

    Séquence consensus

    T A A CCCC T T T T AAAA TTTT A AA AA AA A TTTT G G GG G GG G GG G G C

  • 07/10/2013

    46

    Motifs nucléiques

    [TCG] [ATG] [AC] C [AT] [AT] [AT] [ATC] [ATG] [AT] G G [TCG] [AC]

    Motif (séquence) consensusUtilisation du code IUPAC

    Motifs nucléiques

    31/05/07 92

    Pour mieux voir la conservation des colonnes de l’alignement avec WebLOGO.

  • 07/10/2013

    47

    PWM et PSSM• PWM : Position Weight Matrix = Table de fréquence• PSSM : Position Specific Matrix = Profil

    prend en compte les différentes fréquences des bases pour chaque position.

    définit la probabilité d'apparition des bases pour chaque position du motif

    Utilisées dans les banques Transfac ou Jaspar.

  • 07/10/2013

    48

    Bioinformatique structurale

  • 07/10/2013

    49

    Objectif Méthodes Outils

    Initiation d’une classification et d’une modélisation

    Prédiction de structure secondaire

    JPred, Predict-Protein

    Vérifier l’aptitude d’une séquence à présenter un repliement connu, identification homologies structurales éloignées

    Threading 3D-PSSM, PhD, 123D+

    Construction d’un modèle grâce à une homologie avec des structures déjà connues

    Modélisation par homologie

    Modeller, SWISS-MODEL

    Vérification de l’exactitude du modèle par rapport à la séquence

    Vérification du modèle VERIFY-3D, PROCHECK, WHAT IF

    Prédire une structure 3D à partir de la séquence (car pas d’homologue)

    Modélisation ab-initio ROSETTA, RAMP

    Structure secondaire• Hélice alpha• Feuillet bêta• Boucle (loop)• Coil

  • 07/10/2013

    50

    Prédiction structure IIaire• Méthodes statistiques

    • Probabilité pour qu’un résidu soit dans la structure secondaire considérée.

    • Méthode Chou-Fasman

    • Méthodes stats + informations additionnelles• Propriétés physico-chimiques des résidus

    • Méthodes d’apprentissage• Réseaux de neurones

  • 07/10/2013

    51

    Penser aux protéines désordonnées• N’adoptent pas de structure à l’état natif• Adoptent une structure avec leur ligand

  • 07/10/2013

    52

    Structure tertiaire• Ab initio (forget it)• Détermination de la structure par threading• Détermination de la structure par homologie

  • 07/10/2013

    53

    Threading• Utilisation de bibliothèques de repliement

    • SCOP, CATH

    • PDB : 35000 structures• 750-1500 structures différentes

    Nombre de nouveaux repliements identifiés dans SCOPRouge : nombre totalBleu : nouveaux

  • 07/10/2013

    54

    Homologie• Un bon alignement est le point de départ…

  • 07/10/2013

    55

    Automatisation

  • 07/10/2013

    56

    “mes séquences”

    Fichier SéquencenomFichier nomSequence

    effaceFichier() analyseSequence()deplaceFichier()

    Système d'exploitationUnix, Windows, MacOS Programme bioinformatique

    formatSequence

    Bien identifier les choses

  • 07/10/2013

    57

    Démarche 1• Savoir ce qu'on veut faire :

    - enchaînement des traitements• Savoir ce qu'on peut faire :

    - lire les documentations (RTFM ;-) • Connaître les programmes

    - utilisation de la ligne de commande- connaissance des paramètres

    • Savoir se débrouiller dans un environnement non graphique- commande du DOS- shell Unix- connaître un éditeur

    • Expérimenter et déboguer à petite échelle

    Démarche 2• Savoir ce qu'on veut faire :

    • enchaînement des traitements

    • Savoir ce qu'on peut faire :• lire les documentations (RTFM ;-)

    • Connaître les programmes• connaissance des paramètres

    • Utiliser un portail et des workflows

  • 07/10/2013

    58

    Workflow• Objectifs du workflow scientifique

    • Automatiser les tâches répétitives de gestion et d’analyse des données

    • Quelques actions fréquemment trouvées dans les workflows • Accès aux données, planification, génération, transformation,

    aggrégation, analyse, visualisation• Conception, test, partage, déploiement, exécution, reutilisation

    Workflows scientifiques

    • Transformation de données• Caractéristiques des données: volume, complexité,

    heterogenéité• Caractère distribué

    • Du calcul

    • Des données

    • Intégration des données, des outils et des analyses

  • 07/10/2013

    59

    Besoins

    • Outils de conception pour des utilisateurs finaux• Facilité – Interface simple d’emplois qui masque les

    opérations complexes • Réutilisabilité des workflows • Suffisamment générique pour servir différentes

    communautés mais suffisamment spécifique pour bienservir un domaine.

    • Utilisable par un expert également : possibilitésd’extension

    • Enregistement et publication des données et des résultatsainsi que les workflows : traçabilité et provenance

    Propriétés

    • Détection d’erreurs et récupération sur erreur• Journalisation pour chaque workflow• Permettre la gestion des données et leur intégration• Permettre en temps réel de vérifier l’état des workflows

    ainsi que leur mise à jour• Visualisation• Accès aux données grâce à des metadonnées• Certification, confiance, sécurité

  • 07/10/2013

    60

    Interface utilisateur• Evite l’apprentissage d’un langage de programmation• Représentation visuelle des tâches du workflow• Permet de suivre l’exécution du workflow• Permet d’interagir avec le workflow • Permet le partage des workflows

    GESTION DE PROJET BIOINFORMATIQUE

  • 07/10/2013

    61

    Généralités• Projet

    • Une tâche devant être réalisée avec des ressources limitées en un temps donné

    • Un objectif bien précis• Des ressources• Un délai

    Projet bioinformatique• Visualiser le projet• Décomposer• Ressources à affecter• Boîte à outils

  • 07/10/2013

    62

    Visualiser le projet • Avoir une vue d’ensemble du projet pour pouvoir le

    subdiviser en tâches ou groupes de tâches élémentaires • Mindmapping : cartes heuristiques

    • Exemple : Logiciel gratuit Freemind

    • Utilisation de gestionnaires de projet • Diagrammes de Gantt

    Décomposer le projet• Décomposer le projet en tâches

    • Plus facile à gérer

    • Pipelines élémentaires • Input > Traitement > Output > Extraction de connaissance

    • Penser au contrôle qualité

  • 07/10/2013

    63

    Identifier et affecter les ressources• Affecter une ressource à chaque tâche

    • Ressource = RH

    • Ressource = équipement

    • Ressource = Logiciel

    Boîte à outils logicielle• Construire sa boîte à outil logicielle

    • Programmes

    • Scripts

    • Penser « générique » et réutilisation• Organiser son environnement

  • 07/10/2013

    64

    Avantage du mode gestion de projet• Eviter de se noyer• Conserver le cap

    • Référence intéressante :Noble, W. S. A quick guide to organizing computational biology projects. PLoS computational biology 5, e1000424 (2009).

    • Référence amusante • http://ivory.idyll.org/blog/data-management.html

    CONCLUSION

  • 07/10/2013

    65

    Conclusion• La biologie évolue• La bio-informatique devient un outil• Les projets deviennent de plus en plus ambitieux• Il faut intégrer la bioinformatique au cœur des projets

    Références

    Understanding bioinformaticsZvelebil & BaumGarland Science Publishing 2008