Bio-informatique et applications

Bio-informatique: Concepts et applications

Widad BENCHAIBSara SI-MOUSSI

3CSSIQ – G04

Master ESI 2016/2017Introduction à la Méthodologie de Recherche

“Computers are to biology what mathematics is to physics.”

— Harold Morowitz

2

Sommaire

IntroductionI. Bio-informatiqueII. Historique de la bio-informatiqueIII. Etat de l’art sur la bio-informatiqueIV. Problématiques d’actualitéV. Challenges de rechercheVI. Solutions proposées Conclusion et perspectivesBibliographie, Crédits PhotosAnnexes

3

Introduction

100 Milliard cellules

ADN à base de 4 lettres (nucléotides) : A C G T

ADN (gènes) fonctionscellulaires

Exemple motivant

4

D’après (Hogeweg, Hesper, 1978), « la bio-informatique est l’étude des processus informatiques (acquisition,

traitement et restitution) dans les systèmes biotiques. »

1. Qu’est ce que la bio-informatique ? (1)

Utilisation des ordinateurs dans la biologie.

De l’informatique appliquée aux processus biologiques

L’informatique réduite à l’outil ordinateur

« Champs multidisciplinaire impliquant la biologie, l’informatique, les mathématiques, les statistiques dont l’objectif est d’analyser les séquences biologiques et de prédire la structure et la fonction des macromolécules. »(4)

I. Bio-informatique

5

2. Une transformation de la biologie(3)

I. Bio-informatique

• Biologie : science basée sur l’observation une science déductive.• Données de masse et qui continue d’exploser en taille; d’après A.Lesk (3)

o La taille approximative d’un génome humain est de 3.2 x 109 lettres unité HUman Genom Equivalents (HUGE).

o 1 huge équivaut au nombre de caractères en 6 ans de publications du New York Times.o La banque de données des séquences de nucléotide contient 16 * 109 bases (16 Gbp) = 5 huges.o La base de données des structures macromoléculaires contient 16000 entrées=coordonnées

tridimensionnelles complètes des protéines de longueur moyenne=400

• Combine le raisonnement top-down de l’informatique à l’approche bottom-up de la biologie.

6

3. Biologie computationnelle(4)

I. Bio-informatique

« Approche formelle de développement d’algorithmes efficaces permettant de résoudre un problème biologique donné. »(4)

Objectif: Maintenir un certain niveau de précision tout en gardant le problème solvable.

Question biologique

Problème informatique

(modèle)

Algorithme

Résultats expérimentaux

Formalisation

RésolutionExécution

Interprétation

Modélisation fidèle au

problème ?

Solution existante ?Est-ce efficace

?

Ont-ils du sens ? Information manipulée

ADN (Génome)• Séquences de nucleotides• Séquence de genes• Banques de donnéesARN (Transcriptome) • Séquence• StructureProtéines (Protéome)• Séquence • Structure• Réseaux d’intéraction

7

II. Historique

1950-1970 1971-1980

1981-1990 1991-2000 2001-

20161971: Premier travaux sur le repliement des ARNs (J. Ninio). 1973: "Génie Génétique" 1974: "Prediction of Protein Conformation" 1977: Séquençage d'ADN (Sanger, Maxam, Gilbert). 1977: Premier "package" Bioinformatique 1978: Bases de données: ACNUC, PIR, EMBL, GenBank.

1951: Première séquence protéique 1960: Lien entre séquence & structure 1965: La divergence et la convergence évolutionnaire dans les protéines 1967: La construction des arbres phylogénétiques Fitch & Margoliash. 1970:programme d'alignement global de deux sequences

1981: Los Alamos-GenBank: 270 séquences, 370.000 nucléotides. 1981: Programme d'alignement local 1985:Programme "Fasta" 1990: Programme "Blast" 1990: Clonage positionnel et séquençage de NF-1.

2000 : Séquençage du 1er génome de plante, Arabidopsis thaliana. 2001: Séquençage ("premier jet") complète du génome humain. 2006-2012 : reprogrammation génétique (cellule IPS)

1991: "Grail", programme performant pour localiser les gènes 1991: Étiquettes d'ADNc "EST" 1992: Séquençage complet du chromosome III de levure. 1995: Première séquence complète d'un micro-organisme 1996: Séquence complète de la levure 1997: Programme "Gapped Blast" 1997: 11 génomes bactériens disponibles. 1998: Séquençage du 1er organisme pluricellulaire, Caenorhabditis elegans (100 Mb).

8

3. Etat de l’art sur la bio-informatique Technologies et méthodes utilisées

• Traitement d’une grande masse de données pour l’identification de l'organisation des gènes

• La théorie des langages et l'algorithmique• Les réseaux de neurones• l’analyse discriminante• Méthode d’analyse des données Monte-Carlo , chaînes de Markov• Application :

GENSCAN : un programme général de prédiction de séquences codantes à partir de séquences d’A.D.N. génomique ;

FASTA (Lipman, Pearson, 1985 ; Pearson, Lipman, 1988), servant à trouver des séquences dans des bases de données et à identifier des structures périodiques basées sur des similarités de séquences locales ;

BLAST (Altschul, Gish et al., 1990), as permet de comparer des séquencesdonnées à des séquences connues.

Bio-informatiqu

e de séquences

9


• La prédiction des structures tridimensionnelles des (macro-)moléculesbiologiques, comme par exemple l’A.D.N., l’A.R.N., les protéines ou encore les morphogènes ou hormones

• La géométrie « computationnelle » , l’algorithmique afin de développer les protocoles efficaces pour l’analyse des données

• Application et études : Développement parallèle des méthodes de géométrie des

distances (Moré, Wu, 1999 ; Liberti, Lavor et al., 2008) et d’optimisation (Cutello, Narzisi, 2006).

Etude de repliement de l’ARN d’une structure primaire vers une structure secondaire.

Visualisation et la manipulation des séquences issues des bases de données, la prédiction des caractéristiques de repliement des structures primaires menant à la compréhension de leurs structures secondaires et tertiaires.

Application du aspects de la combinatoire analytique.

Bio-informatiqu

e de structure

10


• Interactions des régulations génétiques• Application et étude :• Régulations génétiques fonctionnelles :

l’opéron lactose de la bactérie Escherichia Coli par Jacob et Monod, qui permet notamment de comprendre leséchanges de gènes entre bactéries.

• Représentions formelle sous forme de réseau, permettantd’expliquer le « système lactose » ( JACOB & MONOD ,prix de Nobel 1965 )

Bio-informatiqu

e des réseaux

11


• La masse de données accumulée en biologie depuis des décennies

• Stockage & organisation • Aspect syntaxique du traitement des données et aspect

sémantique du traitement• Technologies et concepts :

Base de données Datamining Algorithmique, l’apprentissage automatique et statistique, la

représentation (visualisation) des connaissances...

Traitement de

l’information

biologique

12

IV. Problématiques résolues, d’actualité

L'analyse, la compréhension et l'organisation d'une masse de données biologiques

Décodage l’information contenue dans les séquences d’ADN et de protéine

Génomique structurale et fonctionnelle

L’acquisition et le stockage des données

Traitements systématiques des séquences

Elaboration de stratégies

Evaluation des différentes approches existantes dans le but de les valider

13

V. Challenges de la recherche

Biologie

• Dépendance vs contingence historique

• Problèmes complexes à modéliser et à résoudre

• Ethique

Nature des données

• Fragmentée• Incomplète• Bruitée• Redondante

(structure de l’ADN

• Insignifiance

Exigences générales des programmes

informatiques

• Efficacité• Sécurité• Fiabilité• Mise à

l’échelle• IHM• Réseau pour

le partage

14

VI. Solutions envisagées

Outils du Big Data Web sémantique & ontologies Data mining

Principes Evolutionnaires Intelligence Artificielle

15

Conclusion et perspectivesTransdisciplinarité

Révolution biologique

Approches différentes, réflexion/modélisation

commune

Capitalisation de connaissances informatiques

Reprogrammation génétique vs clonage

Implication de la médecine publique,

écologie …etc.

Est-ce juste une question de performances ?Manipule-t-on les bonnes données ?Toutes les réponses se trouvent-elles ici ? Vers une plus grande pluridisciplinarité

17

Bibliographie1. Barlovatz-meimon, G., & Sené, S. (2012). Méthodes informatiques en biologie, 2018.

2. Cohen, J. (2004). Bioinformatics---an introduction for computer scientists. ACM Computing Surveys, 36(2), 122–158. https://doi.org/10.1145/1031120.1031122

3. Lesk, A. (2013). Introduction to bioinformatics. BOOK, Oxford University Press.

4. El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000.

5. Ohn C. Wooley and Herbert S. Lin Computing and biology ISBN: 0-309-54937-X, 468 pages, 8 1/2 x 11, (2005) .

https://doi.org/10.1145/1031120.1031122

18

Crédits photos1. Slide 7 : « Modifier l'ADN : une réalité possible, pour le meilleur... et pour le pire ? » - TOP-

Santé.COM (22/04/2015) 2. Slide 4, 13 : freepik3. Slide 3 : El-mabrouk, N. (n.d.). Introduction à la Bio-Informatique IFT3295/IFT6291/BIN6000

19

Annexe (1) : taille des données

Croissance exponentielle des séquences de nucléotides et d’AA dans les banques de données biologiques : • 10.640.515 protéines• Présentement dans RefSeq (NCBI):

o Plus de 1200 génomes de procaryotes et 460 génomeso 10.728 espèces d’eucaryotes complètement séquencés.

20

Annexe (2) : banques de données

• RefSeq (NCBI),• NAR (Nucleids Acid Research),• ACNUC,• PIR,• EMBL,• GenBank.

21

Technologies et méthodes utilisées(2)

Techniques de conception d’algorithmes• Brute force• Branch & Bound• Greedy Rules• Dynamic Programming• Divide & conquer• Machine learning

Comparer des

séquences

Suppression

Insertion

Remplacement

DAG

Dynamic Programming

Phylogénétique

Arbres

Groupement par similarité

Raisonnement sur évolution

Détection de patterns

(schémas)

Recherche de gènes dans l’ADN

ML

Réseaux de neurones

Grammaire probabilistique

HMM

THL, Chomsky grammars

Déterminer les structures 3D des

protéines depuis les séquences d’AA

Algorithmes à complexité

cubique, non résolu

Inférer le modèle de régulation des

cellules

Données expérimentales

Microarrays

Reverse engineering

Autre

Scripting langages

Déterminer fonctions des protéines et

chemins métaboliques

Assemblage d’ADN

Annexe (3)

22

4. De plus grandes ambitions (3)

Annexe (4): Bio-informatique

• Comprendre la biologie des organismes dans toute sa complexité.

• Relier les séquences et structures complexes des protéines et acides nucléiques à leur fonction

• Expliquer des phénomènes passés et prédire l’évolution future des espèces

• Supporter des applications en médecine, agriculture et autres champs de recherche.

Bio-informatique et applications

Science

Transcript of Bio-informatique et applications