MCB 19-20 janvier 2006 Exploragénome Bienvenue !.

of 65 /65
MCB 19-20 janvier 2006 Exploragénome Bienvenue !

Embed Size (px)

Transcript of MCB 19-20 janvier 2006 Exploragénome Bienvenue !.

  • Page 1
  • MCB 19-20 janvier 2006 Exploragnome Bienvenue !
  • Page 2
  • MCB 19-20 janvier 2006 Exploragnome Formation continue du 19 et 20 janvier 2006 Exploragnomes Contact: [email protected]
  • Page 3
  • MCB 19-20 janvier 2006 Exploragnome Quelques concepts utiles pour apprhender les banques de donnes dans le domaine des Sciences de la Vie
  • Page 4
  • MCB 19-20 janvier 2006 Exploragnome Explosion des donnes en biologie Nouvelles techniques de biologie molculaires et nouvelles approches Exemples: squenage de gnomes complets, microarrays ->quantits importantes de donnes -> quantits importantes de donnes (squences, informations gnomiques et biologiquesetc) quil faut grer, stocker et accder en retour ->banques de donnes -> les banques de donnes: encyclopdies informatiques Les banques de donnes sont devenus des outils indispensables pour les biologistes au mme titre que les publications scientifiques.
  • Page 5
  • MCB 19-20 janvier 2006 Exploragnome Banques de donnes en biologie Il existe plus d'un millier de banques de donnes dans le domaine des sciences de la vie. Afin d'y voir plus clair -> classification Exemples: * squences en acides nucliques (DNA et mRNA); * squences en acides amins (protines); * rfrences bibliographiques; * informations gnrales sur les gnes et/ou les maladies; * informations sur la structure tridimensionnelle des protines ou de l'ADN;
  • Page 6
  • MCB 19-20 janvier 2006 Exploragnome Important: Banques de donnes sources (muses, compltes, remises jour rgulirement, sur la duremais pas facile daccs.) Banques de donnes jolies (facile daccs, maispas compltes, dure de vie plus courte.)
  • Page 7
  • MCB 19-20 janvier 2006 Exploragnome Quelques noms de banques de donnes: * squences en acides nucliques (DNA et mRNA); EMBL, GenBank, RefSeq * squences en acides amins (protines); Swiss-Prot, RefSeq * rfrences bibliographiques; PubMed * informations gnrales sur les gnes et/ou les maladies; EntrezGene, OMIM, HMGD * informations sur la structure tridimensionnelle des protines ou de l'ADN; PDB Il existe aussi des banques spcialises, comme Newt, qui donne des informations sur la classification des espces
  • Page 8
  • MCB 19-20 janvier 2006 Exploragnome 20 Sep 2005 200000 organisms; EMBL/GenBank/DDBJ
  • Page 9
  • MCB 19-20 janvier 2006 Exploragnome 25 oct 2005 EMBL/GenBank/DDBJ http://www3.ebi.ac.uk/Services/DBStats/ The more representated species are also the more redundant
  • Page 10
  • MCB 19-20 janvier 2006 Exploragnome Celles que vous allez dcouvrir aujourdhui * squences en acides nucliques: DNA et mRNA; EMBL, GenBank, RefSeq * squences en acides amins (protines); Swiss-Prot, RefSeq * rfrences bibliographiques; PubMed * informations gnrales sur les gnes et les maladies associes: EntrezGene, OMIM, HMGD * informations sur la structure tridimensionnelle des protines ou de lADN; PDB Il existe aussi des banques spcialies, comme Newt, qui donne des informations sur la classification des espces.
  • Page 11
  • MCB 19-20 janvier 2006 Exploragnome Ben dis doncy a du boulot !
  • Page 12
  • MCB 19-20 janvier 2006 Exploragnome Quelques remarques 1.Il nexiste pas une banque centrale qui contient toutes les infos: il est toujours ncessaire de grapiller les infos dans diffrentes banques. 2. Les donnes s'accroissent quotidiennement (il y a en moyenne un nouveau gnome squenc toutes les semaines) et sont continuellement remises jour: le rsultats de vos requtes peut donc tre diffrent d'un jour l'autre (contenu, liens ou look) !
  • Page 13
  • MCB 19-20 janvier 2006 Exploragnome -> -> 3. Beaucoup de chercheurs travaillent sur un mme sujet -> un gne, plusieurs squences -> redondance. Ces squences peuvent tre diffrentes (erreurs de squenage ou mutations, longueurs variables). -> 4. Les banques de donnes sont lies entre elles (links, cross- rfrences -> rseau). Ces liens ne sont pas toujours bidirectionnels ! 5. Les banques de donnes contiennent des erreurs !
  • Page 14
  • MCB 19-20 janvier 2006 Exploragnome Cest pas fini
  • Page 15
  • MCB 19-20 janvier 2006 Exploragnome Comment accder aux banques de donnes ? -> moteur de recherche spcialis ou Google Comment accder aux donnes qui se trouvent dans les banques de donnes ? -> portail daccs
  • Page 16
  • OMIM Entrez Gene RefSeq Serveur du NCBI (USA) PubMed Gene associated with color blindness .
  • Page 17
  • OMIM Entrez Gene RefSeq Serveur du NCBI (USA) PubMed Gene associated with color blindness Moteurs de recherche spcialiss Mapviewer Gene and Diseases Entrez .
  • Page 18
  • Moteur de recherche spcialis OMIM Entrez Gene RefSeq Serveur du NCBI (USA) PubMed Mapviewer Gene associated with color blindness
  • Page 19
  • Moteur de recherche spcialis OMIM Entrez Gene RefSeq Serveur du NCBI (USA)Rseau PubMed Mapviewer Gene associated with color blindness
  • Page 20
  • Moteur de recherche spcialis OMIM Entrez Gene RefSeq Serveur du NCBI (USA)Logos Mapviewer 26522652 Hs *303800 NM_000513NM_000513 NT_025965NT_025965 NP_000504.1
  • Page 21
  • Moteur de recherche spcialis OMIM Entrez Gene RefSeq Serveur du NCBI (USA) Numro daccession PubMed Mapviewer Gene assNT_02 5965. ociated with color blindnessNT_02 5965 Gene associated with color blindness 26522652 Hs *303800 NP_000504.1 NM_000513 Gene assNT_02 5965. ociated with color blindnessNT_02 5965 Gene assNT_02 5965. ociated with color blindnessNT_02 5965 Gene assNT_02 5965. ociated with color blindnessNT_02 5965
  • Page 22
  • Swiss-Prot Protein Knowledgebase OMIM Newt PDB Serveur ExPASy (Genve) Rseau depuis la banque de donne Swiss-Prot PubMed EMBL Liens vers plus de 100 banques de donnes
  • Page 23
  • MCB 19-20 janvier 2006 Exploragnome
  • Page 24
  • Quelques dfinitions Linformation gntique est stocke dans les chromosomes qui se trouvent dans un compartiment particulier de la cellule, appel noyau. noyau Une cellule vue en coupe
  • Page 25
  • A T G C T A A T Un chromosome est comme une pelote de laine dont le fil est lADN Cellule Noyau Chromosome ADN Linformation gntique est stocke dans les chromosomes
  • Page 26
  • Cellule Noyau Chromosome ADN A T G C T A A T Un chromosome est comme une pelote de laine dont le fil est lADN
  • Page 27
  • Cellule Noyau Chromosome ADN LADN est une chane compose de 4 molcules diffrentes symbolises par les lettres A T G C A T G C T A A T
  • Page 28
  • A T G C T A A T Cellule Noyau Chromosome ADN tgctgccatctacatttttgggactcgggaattatgtgagtaccgaaactactta gcttatggtaggtgtaccacacgcacagggaaagaattgcgtttatgtgggacag tgaaaacaatcgcaaaaaagcaatggaaagggctttgagagtaatttatcttctg acatatgcaatatggcaacttctaaatggtgagagggagtctctctaaagcaatc atttgaagattggttggacaaacaatgggaaagtcattgtcttagcagaattaag tcatactttttttttttttttttttttgctaactctagaagcttttctgttatct ctgtagctcagacgaaaatgcattctcaccagatgactgtttttggttaatcgat ctgaatgcgctttgtgtggactgtcgaatttcaaagatttaccgtatgaccaaga gcacctgatgctacaagtataaataggggaacaaatgctttctgttcttcctcgg taaggaggtagaggtggaggcggagccggatgtcagaggtcctgaaatagtcacc tgggggaaaatgatccgcctgctgttgaagcccccttctcattccgatcgctttt ggccttgatgatttgaaaataagtcctgttgcaccaggtaagtggacccaggtga gactctgtgatttctgcccataccctcatgtaggtgaccaatgtgactagctgtc ctgtgggggaaatatctccccagccattctgacacccacaggctggacacctgca ttccctagatctgcagaatctcagggagaaggggcattggagaggggatcgtttc ttaagccctttgctctctccctggagaccggtgttttcttctcttgttggaggtt tcagagactggggctccacaattgtcctgtcaatcctgaaggaggtcagatcctg gccaggaaatctctgagtcctccaggaagtcctgagaagcagtggccac 3 milliards de caractres Oupsa fait 2 m.dADN par cellule ! C A T G C T A A T
  • Page 29
  • tgctgccatctacatttttgggactcgggaattatgtgagtaccgaaactactta gcttatggtaggtgtaccacacgcacagggaaagaattgcgtttatgtgggacag tgaaaacaatcgcaaaaaagcaatggaaagggctttgagagtaatttatcttctg acatatgcaatatggcaacttctaaatggtgagagggagtctctctaaagcaatc atttgaagattggttggacaaacaatgggaaagtcattgtcttagcagaattaag tcatactttttttttttttttttttttgctaactctagaagcttttctgttatct ctgtagctcagacgaaaatgcattctcaccagatgactgtttttggttaatcgat ctgaatgcgctttgtgtggactgtcgaatttcaaagatttaccgtatgaccaaga gcacctgatgctacaagtataaataggggaacaaatgctttctgttcttcctcgg taaggaggtagaggtggaggcggagccggatgtcagaggtcctgaaatagtcacc tgggggaaaatgatccgcctgctgttgaagcccccttctcattccgatcgctttt ggccttgatgatttgaaaataagtcctgttgcaccaggtaagtggacccaggtga gactctgtgatttctgcccataccctcatgtaggtgaccaatgtgactagctgtc ctgtgggggaaatatctccccagccattctgacacccacaggctggacacctgca ttccctagatctgcagaatctcagggagaaggggcattggagaggggatcgtttc ttaagccctttgctctctccctggagaccggtgttttcttctcttgttggaggtt tcagagactggggctccacaattgtcctgtcaatcctgaaggaggtcagatcctg gccaggaaatctctgagtcctccaggaagtcctgagaagcagtggccac Chez lhomme, Linformation gntique est forme par un texte de 3 milliards de caractres unique pour chaque individu: le gnome humain une squence dADN
  • Page 30
  • Cellule Noyau Chromosome ADN Un gne
  • Page 31
  • MCB 19-20 janvier 2006 Exploragnome Pre-mRNA hnRNA protine exon intron DNA (gnomique) AUG/Met Stop mRNA (cDNA, EST) AUG/MetStop transcription Splicing (pissage) traduction Un gne eucaryotique
  • Page 32
  • 1-1002 1084 - 1304 1407 - 1451 1662 - 1913 Les introns sont reprsents en rouge DNA gnomique En noir, la squence codante (CDS en anglais)
  • Page 33
  • MCB 19-20 janvier 2006 Exploragnome mRNA virtuel Traduction en protine
  • Page 34
  • MCB 19-20 janvier 2006 Exploragnome Met STOP intron
  • Page 35
  • MCB 19-20 janvier 2006 Exploragnome Notions de mRNA, cDNA
  • Page 36
  • MCB 19-20 janvier 2006 Exploragnome Dfinition (text book): La RNA polymerase lit le brin anti-sens (template, non-codant, complmentaire) dans la direction 3 -> 5 Le mRNA a la mme squence que le brin DNA sens (codant)
  • Page 37
  • MCB 19-20 janvier 2006 Exploragnome Coding strand Complementary strand Dfinition (text book): La RNA polymerase lit le brin anti-sens (template, non-codant, complmentaire) dans la direction 3 -> 5 Le mRNA (cDNA) a la mme squence que le brin DNA sens (codant)
  • Page 38
  • MCB 19-20 janvier 2006 Exploragnome
  • Page 39
  • MCB 19-20 janvier 2006 Exploragnome Les protines: quelques chiffres Chez lhomme, on pense quil existe environ 25000 recettes ou gnes; On sait que la photocopie de la recette et/ou la protine peuvent tre modifies: il y aurait plus de 1 million de protines diffrentes ! Bienvenue au Royaume des protines !
  • Page 40
  • From Genome to Proteome Proteome Alternative splicing of mRNA Post-translational protein modification (PTM) Definition of PTM: Any modification of a polypeptide chain that involves the formation or breakage of a covalent bond. Increase in complexity 10-42 % 5 to 10 fold Genome Human: about 25000 genes Human: about one million of different proteins; several proteomes After ribosomes
  • Page 41
  • MCB 19-20 janvier 2006 Exploragnome The shortest sequence is GWA_SEPOF (P83570): 2 amino acids. The longest sequence is SNE1_HUMAN (Q8NF91): 8797 amino acids. Q8WZ42: 34350 amino acids. http://www.expasy.org/sprot/relnotes/relstat.html
  • Page 42
  • MCB 19-20 janvier 2006 Exploragnome Multiple alignment of the end of the available GCR sequences Annotation of the sequence differences
  • Page 43
  • MCB 19-20 janvier 2006 Exploragnome
  • Page 44
  • MCB 19-20 janvier 2006 Exploragnome La bioinformatique, cest quoi ? Lutilisation de linformatique pour lanalyse de lADN et des protines de tous les tres vivants.
  • Page 45
  • MCB 19-20 janvier 2006 Exploragnome Acqurir puis stocker les informations biologiques sous la forme dencyclopdies appeles bases de donnes; Visualiser: dvelopper des programmes pour visualiser la structure en trois dimensions des protines et de lADN, pour shmatiser des voies mtaboliques ou des arbres phylogntiques. Dvelopper des programmes de prdiction et danalyse en utilisant les informations contenues dans les bases de donnes; Analyser/Interprter/Prdire: utiliser ces programmes pour analyser de nouvelles donnes biologiques et prdire in silico par exemple la fonction potentielle dune protine;
  • Page 46
  • MCB 19-20 janvier 2006 Exploragnome Bioinformatique - application 1: acquisition de donnes Exemples: lecture dimages de gels 2D, spectromtrie de masse (MS), squenage ADN... Dtection de signaux ou dimages Absence de contexte biologique.
  • Page 47
  • MCB 19-20 janvier 2006 Exploragnome Squenage dADN Informatique instrumentale Programme pour analyser les donnes dun squenceur ADN Exemple: pregap4 de Rodger Staden https://sourceforge.net/projects/staden.
  • Page 48
  • MCB 19-20 janvier 2006 Exploragnome Bioinformatique - application 2: Assemblage des squences dADN Les mthodes actuelles de squenage ne permettent pas dobtenir des squences fiables de plus de 1000 bp ! Nature 409, 860-921 (2001)
  • Page 49
  • MCB 19-20 janvier 2006 Exploragnome Bioinformatique - application 2: Assemblage des squences dADN -> Reconstruire la squence complte dun gnome ou dun morceau de chromosome ( contig ) partir de squences de 1000 bp; Pas du tout trivial parce que: (a) il y a des erreurs de squence; (b) il y a des rgions rptitives. Celera-generated shotgun data set consisted of 27 million sequencing reads Whole-genome shotgun assembly and comparison of human genome assemblies. PNAS 101(7):1916-21 (2004)
  • Page 50
  • MCB 19-20 janvier 2006 Exploragnome CCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTGCGGG GGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGCTGTG ACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTATAATG AAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTGCAGC GCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTGGACG CCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAGTACG TGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGAGGGGGGCGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCCGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAACCTCG ACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGCTACG TGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAGGAGC TGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGGAGAG GCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGGGGTC AGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCTTAGA GAGGCGGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTGTAGG AGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCAACAC TCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTCTCCC TATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCAGCCTCTCCACAGACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATGGCGA GGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGCTCGA CACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCTAGTG TGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCCCCTCAACCCTGGCGAGCA CCGACCTGCCTGCAGGGACCACTAGAGTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCCCAGT GGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATACTCT TCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATAGTGC CCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGAGGGT TAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGAGTAT CGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAGGCTC TGCCGCCAAGCTATCCCTATCCCTGCTGCTCTTTTGGGCTAGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCGCGGC GTCAATAGTCCTTGGCTACCTGGCGGACAGGCTAGGCTACCGCTTACCCCTGGCCCTGGGCCTGTTTGAGGCTGGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGCTGGGGCTGCGTCGCTAGTCTACGCCCT CTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGCTCCT AGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGGCCTT GGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTGTGGC AGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTGAGAG GAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCCTGGC CGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCCCTGC CTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTAGACC TCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTCCTTG GCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTAGCGC GCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCGCGTT GAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATGAGGC GGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGAGGGCGGCCCATGCGCTGTCTGCGGCGGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGGAGGA GGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGGGAGGTGGG CAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAAGCCA GGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGCCCAT GATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTGCGAG GGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGAGGCG GAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGGAGGC TGTGTGTATAGAGCTCGACGTGGTGTGGGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAAGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGCTGTT GAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAACCGT GGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGGAGTA GGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCTGGGA CGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACACGAG ATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAGACAG CCCCGCCCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCAGGGT CTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGTTACC GTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGTGGAC TCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAGGGAG GACTTCTTCGTGGAGTTCTTCAACGTGGCCGAGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAAGAAG ATTCTGAAGATAGACCCCGCAGAGGCCCTGGCCGAGAAGATAATGGAGGAGATAGAGTGTAGGGACACTGTGAAATACTACTTCTTCGTCGAGCCCTGCGACCCCTCCAAGCCCTACCTAGGCTACACGGAGAGGATGTGGAAGGCCTATGCC Gnome humain 3.2 milliards de pb 2.7 milliards de $ (cot en 2000) 100 $ (cot en 2008 ?)
  • Page 51
  • MCB 19-20 janvier 2006 Exploragnome Le gnome humain (3me version) contient actuellement encore 341 trous (essentiellement vers les centromres/tlomres, rgions rptitives) Nature (oct 2004), 431, 931
  • Page 52
  • MCB 19-20 janvier 2006 Exploragnome Contenu des banques de donnes de squences en acides nucliques EMBL/GenBank/DDBJ http://www.ebi.ac.uk/embl/index.html Octobre 2004 Craig Venter Ex: mer des Sargasses 1 milliard pb/semaine http://www3.ebi.ac.uk/Services/DBStats/
  • Page 53
  • MCB 19-20 janvier 2006 Exploragnome We have applied "whole-genome shotgun sequencing" to microbial populations collected en masse on tangential flow and impact filters from seawater samples collected from the Sargasso Sea near Bermuda. A total of 1.045 billion base pairs of nonredundant sequence was generated, annotated, and analyzed to elucidate the gene content, diversity, and relative abundance of the organisms within these environmental samples. These data are estimated to derive from at least 1800 genomic species based on sequence relatedness, including 148 previously unknown bacterial phylotypes. We have identified over 1.2 million previously unknown genes represented in these samples, including more than 782 new rhodopsin-like photoreceptors. Variation in species present and stoichiometry suggests substantial oceanic microbial diversity. Science 304:66-74(2004).
  • Page 54
  • MCB 19-20 janvier 2006 Exploragnome http://www.ncbi.nlm.nih.gov/Genomes/index.html Tous ces sites sont constamment remis jour ! http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi
  • Page 55
  • MCB 19-20 janvier 2006 Exploragnome
  • Page 56
  • MCB 19-20 janvier 2006 Exploragnome Une protine: comment cest fabriqu ?
  • Page 57
  • MCB 19-20 janvier 2006 Exploragnome Noyau de la cellule = Bibliothque Chromosomes (ADN) = Livres de recettes (23 x 2 chez lhomme) Une cellule
  • Page 58
  • MCB 19-20 janvier 2006 Exploragnome Noyau = Bibliothque 1 recette pour 1 protine = 1 gne Chromosomes (ADN) = Livres de recettes Une cellule
  • Page 59
  • MCB 19-20 janvier 2006 Exploragnome Noyau = Bibliothque Chromosomes (ADN) = Livres 1 gne = 1 recette Photocopie de la recette (ARN) Une cellule
  • Page 60
  • MCB 19-20 janvier 2006 Exploragnome Noyau Chromosomes (ADN) 1 gne = 1 recette Photocopie de la recette (ARN) Une cellule
  • Page 61
  • MCB 19-20 janvier 2006 Exploragnome Noyau Chromosomes (ADN) 1 gne Photocopie (ARN) Machine fabriquer les protines (ribosomes) Une cellule
  • Page 62
  • MCB 19-20 janvier 2006 Exploragnome Photocopie (ARN) Machine fabriquer les protines Une cellule
  • Page 63
  • MCB 19-20 janvier 2006 Exploragnome Photocopie de la recette Machine fabriquer les protines Une cellule
  • Page 64
  • MCB 19-20 janvier 2006 Exploragnome
  • Page 65
  • Real life of a protein sequence TrEMBL Genpept CoDing Sequences provided by submitters cDNAs, ESTs, genomes, EMBL, GenBank, DDBJ Data not submitted to public databases, delayed or cancelled Swiss-Prot CoDing Sequences provided by submitter and de novo gene prediction RefSeq XP_NNNNN UniProt: Swiss-Prot + TrEMBL + (PIR) NCBI-nr: Swiss-Prot + GenPept + (PIR) + RefSeq + PDB + PRF Manually annotated PRF Scientific publications derived sequences with or without annotated CDS 3D structures