Bio-informatique et applications
-
Upload
sara-si-moussi -
Category
Science
-
view
26 -
download
0
Transcript of Bio-informatique et applications
Bio-informatique: Concepts et applications
Widad BENCHAIBSara SI-MOUSSI
3CSSIQ – G04
Master ESI 2016/2017Introduction à la Méthodologie de Recherche
“Computers are to biology what mathematics is to physics.”
— Harold Morowitz
2
Sommaire
IntroductionI. Bio-informatiqueII. Historique de la bio-informatiqueIII. Etat de l’art sur la bio-informatiqueIV. Problématiques d’actualitéV. Challenges de rechercheVI. Solutions proposées Conclusion et perspectivesBibliographie, Crédits PhotosAnnexes
3
Introduction
100 Milliard cellules
ADN à base de 4 lettres (nucléotides) : A C G T
ADN (gènes) fonctionscellulaires
Exemple motivant
4
D’après (Hogeweg, Hesper, 1978), « la bio-informatique est l’étude des processus informatiques (acquisition,
traitement et restitution) dans les systèmes biotiques. »
1. Qu’est ce que la bio-informatique ? (1)
Utilisation des ordinateurs dans la biologie.
De l’informatique appliquée aux processus biologiques
L’informatique réduite à l’outil ordinateur
« Champs multidisciplinaire impliquant la biologie, l’informatique, les mathématiques, les statistiques dont l’objectif est d’analyser les séquences biologiques et de prédire la structure et la fonction des macromolécules. »(4)
I. Bio-informatique
5
2. Une transformation de la biologie(3)
I. Bio-informatique
• Biologie : science basée sur l’observation une science déductive.• Données de masse et qui continue d’exploser en taille; d’après A.Lesk (3)
o La taille approximative d’un génome humain est de 3.2 x 109 lettres unité HUman Genom Equivalents (HUGE).
o 1 huge équivaut au nombre de caractères en 6 ans de publications du New York Times.o La banque de données des séquences de nucléotide contient 16 * 109 bases (16 Gbp) = 5 huges.o La base de données des structures macromoléculaires contient 16000 entrées=coordonnées
tridimensionnelles complètes des protéines de longueur moyenne=400
• Combine le raisonnement top-down de l’informatique à l’approche bottom-up de la biologie.
6
3. Biologie computationnelle(4)
I. Bio-informatique
« Approche formelle de développement d’algorithmes efficaces permettant de résoudre un problème biologique donné. »(4)
Objectif: Maintenir un certain niveau de précision tout en gardant le problème solvable.
Question biologique
Problème informatique
(modèle)
Algorithme
Résultats expérimentaux
Formalisation
RésolutionExécution
Interprétation
Modélisation fidèle au
problème ?
Solution existante ?Est-ce efficace
?
Ont-ils du sens ? Information manipulée
ADN (Génome)• Séquences de nucleotides• Séquence de genes• Banques de donnéesARN (Transcriptome) • Séquence• StructureProtéines (Protéome)• Séquence • Structure• Réseaux d’intéraction
7
II. Historique
1950-1970 1971-1980
1981-1990 1991-2000 2001-
20161971: Premier travaux sur le repliement des ARNs (J. Ninio). 1973: "Génie Génétique" 1974: "Prediction of Protein Conformation" 1977: Séquençage d'ADN (Sanger, Maxam, Gilbert). 1977: Premier "package" Bioinformatique 1978: Bases de données: ACNUC, PIR, EMBL, GenBank.
1951: Première séquence protéique 1960: Lien entre séquence & structure 1965: La divergence et la convergence évolutionnaire dans les protéines 1967: La construction des arbres phylogénétiques Fitch & Margoliash. 1970:programme d'alignement global de deux sequences
1981: Los Alamos-GenBank: 270 séquences, 370.000 nucléotides. 1981: Programme d'alignement local 1985:Programme "Fasta" 1990: Programme "Blast" 1990: Clonage positionnel et séquençage de NF-1.
2000 : Séquençage du 1er génome de plante, Arabidopsis thaliana. 2001: Séquençage ("premier jet") complète du génome humain. 2006-2012 : reprogrammation génétique (cellule IPS)
1991: "Grail", programme performant pour localiser les gènes 1991: Étiquettes d'ADNc "EST" 1992: Séquençage complet du chromosome III de levure. 1995: Première séquence complète d'un micro-organisme 1996: Séquence complète de la levure 1997: Programme "Gapped Blast" 1997: 11 génomes bactériens disponibles. 1998: Séquençage du 1er organisme pluricellulaire, Caenorhabditis elegans (100 Mb).
8
3. Etat de l’art sur la bio-informatique Technologies et méthodes utilisées
• Traitement d’une grande masse de données pour l’identification de l'organisation des gènes
• La théorie des langages et l'algorithmique• Les réseaux de neurones• l’analyse discriminante• Méthode d’analyse des données Monte-Carlo , chaînes de Markov• Application :
GENSCAN : un programme général de prédiction de séquences codantes à partir de séquences d’A.D.N. génomique ;
FASTA (Lipman, Pearson, 1985 ; Pearson, Lipman, 1988), servant à trouver des séquences dans des bases de données et à identifier des structures périodiques basées sur des similarités de séquences locales ;
BLAST (Altschul, Gish et al., 1990), as permet de comparer des séquencesdonnées à des séquences connues.
Bio-informatiqu
e de séquences
9
3. Etat de l’art sur la bio-informatique Technologies et méthodes utilisées
• La prédiction des structures tridimensionnelles des (macro-)moléculesbiologiques, comme par exemple l’A.D.N., l’A.R.N., les protéines ou encore les morphogènes ou hormones
• La géométrie « computationnelle » , l’algorithmique afin de développer les protocoles efficaces pour l’analyse des données
• Application et études : Développement parallèle des méthodes de géométrie des
distances (Moré, Wu, 1999 ; Liberti, Lavor et al., 2008) et d’optimisation (Cutello, Narzisi, 2006).
Etude de repliement de l’ARN d’une structure primaire vers une structure secondaire.
Visualisation et la manipulation des séquences issues des bases de données, la prédiction des caractéristiques de repliement des structures primaires menant à la compréhension de leurs structures secondaires et tertiaires.
Application du aspects de la combinatoire analytique.
Bio-informatiqu
e de structure
10
3. Etat de l’art sur la bio-informatique Technologies et méthodes utilisées
• Interactions des régulations génétiques• Application et étude :• Régulations génétiques fonctionnelles :
l’opéron lactose de la bactérie Escherichia Coli par Jacob et Monod, qui permet notamment de comprendre leséchanges de gènes entre bactéries.
• Représentions formelle sous forme de réseau, permettantd’expliquer le « système lactose » ( JACOB & MONOD ,prix de Nobel 1965 )
Bio-informatiqu
e des réseaux
11
3. Etat de l’art sur la bio-informatique Technologies et méthodes utilisées
• La masse de données accumulée en biologie depuis des décennies
• Stockage & organisation • Aspect syntaxique du traitement des données et aspect
sémantique du traitement• Technologies et concepts :
Base de données Datamining Algorithmique, l’apprentissage automatique et statistique, la
représentation (visualisation) des connaissances...
Traitement de
l’information
biologique
12
IV. Problématiques résolues, d’actualité
L'analyse, la compréhension et l'organisation d'une masse de données biologiques
Décodage l’information contenue dans les séquences d’ADN et de protéine
Génomique structurale et fonctionnelle
L’acquisition et le stockage des données
Traitements systématiques des séquences
Elaboration de stratégies
Evaluation des différentes approches existantes dans le but de les valider
13
V. Challenges de la recherche
Biologie
• Dépendance vs contingence historique
• Problèmes complexes à modéliser et à résoudre
• Ethique
Nature des données
• Fragmentée• Incomplète• Bruitée• Redondante
(structure de l’ADN
• Insignifiance
Exigences générales des programmes
informatiques
• Efficacité• Sécurité• Fiabilité• Mise à
l’échelle• IHM• Réseau pour
le partage
14
VI. Solutions envisagées
Outils du Big Data Web sémantique & ontologies Data mining
Principes Evolutionnaires Intelligence Artificielle
15
Conclusion et perspectivesTransdisciplinarité
Révolution biologique
Approches différentes, réflexion/modélisation
commune
Capitalisation de connaissances informatiques
Reprogrammation génétique vs clonage
Implication de la médecine publique,
écologie …etc.
Est-ce juste une question de performances ?Manipule-t-on les bonnes données ?Toutes les réponses se trouvent-elles ici ? Vers une plus grande pluridisciplinarité
17
Bibliographie1. Barlovatz-meimon, G., & Sené, S. (2012). Méthodes informatiques en biologie, 2018.
2. Cohen, J. (2004). Bioinformatics---an introduction for computer scientists. ACM Computing Surveys, 36(2), 122–158. https://doi.org/10.1145/1031120.1031122
3. Lesk, A. (2013). Introduction to bioinformatics. BOOK, Oxford University Press.
4. El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000.
5. Ohn C. Wooley and Herbert S. Lin Computing and biology ISBN: 0-309-54937-X, 468 pages, 8 1/2 x 11, (2005) .
18
Crédits photos1. Slide 7 : « Modifier l'ADN : une réalité possible, pour le meilleur... et pour le pire ? » - TOP-
Santé.COM (22/04/2015) 2. Slide 4, 13 : freepik3. Slide 3 : El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000
19
Annexe (1) : taille des données
Croissance exponentielle des séquences de nucléotides et d’AA dans les banques de données biologiques : • 10.640.515 protéines• Présentement dans RefSeq (NCBI):
o Plus de 1200 génomes de procaryotes et 460 génomeso 10.728 espèces d’eucaryotes complètement séquencés.
20
Annexe (2) : banques de données
• RefSeq (NCBI),• NAR (Nucleids Acid Research),• ACNUC,• PIR,• EMBL,• GenBank.
21
Technologies et méthodes utilisées(2)
Techniques de conception d’algorithmes• Brute force• Branch & Bound• Greedy Rules• Dynamic Programming• Divide & conquer• Machine learning
Comparer des
séquences
Suppression
Insertion
Remplacement
DAG
Dynamic Programming
Phylogénétique
Arbres
Groupement par similarité
Raisonnement sur évolution
Détection de patterns
(schémas)
Recherche de gènes dans l’ADN
ML
Réseaux de neurones
Grammaire probabilistique
HMM
THL, Chomsky grammars
Déterminer les structures 3D des
protéines depuis les séquences d’AA
Algorithmes à complexité
cubique, non résolu
Inférer le modèle de régulation des
cellules
Données expérimentales
Microarrays
Reverse engineering
Autre
Scripting langages
Déterminer fonctions des protéines et
chemins métaboliques
Assemblage d’ADN
Annexe (3)
22
4. De plus grandes ambitions (3)
Annexe (4): Bio-informatique
• Comprendre la biologie des organismes dans toute sa complexité.
• Relier les séquences et structures complexes des protéines et acides nucléiques à leur fonction
• Expliquer des phénomènes passés et prédire l’évolution future des espèces
• Supporter des applications en médecine, agriculture et autres champs de recherche.