Post on 04-Apr-2015
MCB19-20 janvier 2006
Exploragénome
Bienvenue !
MCB19-20 janvier 2006
Exploragénome
Formation continue du 19 et 20 janvier 2006
“Exploragénomes”
Contact: Marie-Claude.Blatter@isb-sib.ch
MCB19-20 janvier 2006
Exploragénome
Quelques concepts utiles pour appréhender
les banques de donnéesdans le domaine des Sciences de la Vie
MCB19-20 janvier 2006
Exploragénome
Explosion des données en biologie
• Nouvelles techniques de biologie moléculaires et nouvelles approches
Exemples: séquençage de génomes complets, microarrays
->-> quantités importantes de donnéesquantités importantes de données (séquences, informations génomiques et biologiques…etc) qu’il faut gérer , stocker et accéder en retour…
->-> les banques de donnéesbanques de données: encyclopédies informatiques
Les banques de données sont devenus des outils indispensables pour les biologistes au même titre que les publications scientifiques.
MCB19-20 janvier 2006
Exploragénome
Banques de données en biologie
Il existe plus d'un millier de banques de données dans le domaine des sciences de la vie.
Afin d'y voir plus clair -> classification
Exemples:
* séquences en acides nucléiques (DNA et mRNA); * séquences en acides aminés (protéines);
* références bibliographiques;
* informations générales sur les gènes et/ou les maladies;
* informations sur la structure tridimensionnelle des protéines ou de l'ADN;
MCB19-20 janvier 2006
Exploragénome
Important:Important:
Banques de données ‘sources’ (musées, complètes, remises à jour régulièrement, ‘sur la durée’…mais pas facile d’accès….)
Banques de données ‘jolies’(facile d’accès, mais…pas complètes, durée de vie plus courte….)
MCB19-20 janvier 2006
Exploragénome
Quelques noms de banques de données:
* séquences en acides nucléiques (DNA et mRNA); EMBL, GenBank, RefSeq * séquences en acides aminés (protéines); Swiss-Prot, RefSeq
* références bibliographiques; PubMed
* informations générales sur les gènes et/ou les maladies; EntrezGene, OMIM, HMGD
* informations sur la structure tridimensionnelle des protéines ou de l'ADN; PDB
Il existe aussi des banques spécialisées, comme Newt, qui donne des informations sur la classification des espèces
MCB19-20 janvier 2006
Exploragénome
20 Sep 2005
200’000 organisms;
EMBL/GenBank/DDBJ
MCB19-20 janvier 2006
Exploragénome
25 oct 2005
EMBL/GenBank/DDBJ http://www3.ebi.ac.uk/Services/DBStats/
The more representated species are also the more redundant
MCB19-20 janvier 2006
Exploragénome
Celles que vous allez découvrir aujourd’hui…
* séquences en acides nucléiques: DNA et mRNA; EMBL, GenBank, RefSeq * séquences en acides aminés (protéines); Swiss-Prot, RefSeq
* références bibliographiques; PubMed
* informations générales sur les gènes et les maladies associées: EntrezGene, OMIM, HMGD
* informations sur la structure tridimensionnelle des protéines ou de l‘ADN; PDB
Il existe aussi des banques spécialiées, comme Newt, qui donne des informations sur la classification des espèces.
MCB19-20 janvier 2006
Exploragénome
Ben dis donc…y a
du boulot !
MCB19-20 janvier 2006
Exploragénome
Quelques remarques
1. Il n’existe pas une “banque centrale” qui contient toutes les infos: il est toujours nécessaire de grapiller les infos dans différentes banques.
2. Les données s'accroissent quotidiennement (il y a en moyenne un nouveau génome séquencé toutes les semaines) et sont continuellement remises à jour: le résultats de vos requêtes peut donc être différent d'un jour à l'autre (contenu, liens ou “look”) !
MCB19-20 janvier 2006
Exploragénome
3. Beaucoup de chercheurs travaillent sur un même sujet ->-> un gène, plusieurs séquences ->-> redondance.
Ces séquences peuvent être différentes (erreurs de séquençage ou mutations, longueurs variables).
4. Les banques de données sont liées entre elles (“links”, cross-références ->-> réseau). Ces liens ne sont pas toujours bidirectionnels !
5. Les banques de données contiennent des erreurs !
MCB19-20 janvier 2006
Exploragénome
C’est pas fini…
MCB19-20 janvier 2006
Exploragénome
Comment accéder aux banques de données ?
-> moteur de recherche spécialisé ou Google
Comment accéder aux données qui se trouvent dans les banques de données ?
-> portail d’accès
OMIM
Entrez Gene
RefSeq
Serveur du NCBI (USA)
PubMed
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
…….
OMIM
Entrez Gene
RefSeq
Serveur du NCBI (USA)
PubMed
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Moteurs de recherche spécialisés« Mapviewer » « Gene and Diseases » « Entrez »
…….
Moteur de recherche spécialisé
OMIM
Entrez Gene
RefSeq
Serveur du NCBI (USA)
PubMed
Mapviewer
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Moteur de recherche spécialisé
OMIM
Entrez Gene
RefSeq
Serveur du NCBI (USA)RéseauRéseau
PubMed
Mapviewer
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Moteur de recherche spécialisé
OMIM
Entrez GeneRefSeq
Serveur du NCBI (USA)LogosLogos
Mapviewer
2652 Hs
*303800
NM_000513 NT_025965
NP_000504.1
Moteur de recherche spécialisé
OMIM
Entrez Gene
RefSeq
Serveur du NCBI (USA)Numéro d’accessionNuméro d’accession
PubMed
Mapviewer
Gene assNT_025965. ociated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
Gene associated with color blindness
2652 Hs
*303800
NP_000504.1NM_000513
Gene assNT_025965. ociated with color blindness
Gene assNT_025965. ociated with color blindness
Gene assNT_025965. ociated with color blindness
Swiss-Prot« Protein Knowledgebase »
OMIM
Newt
PDB
Serveur ExPASy (Genève)Réseau depuis la banque de donnée Swiss-ProtRéseau depuis la banque de donnée Swiss-Prot
PubMed
EMBL
Liens vers
plus de 100 banques de données
MCB19-20 janvier 2006
Exploragénome
Quelques définitions
L’information génétique est stockée dans les chromosomes qui se trouvent dans un
compartiment particulier de la cellule, appelé noyau.noyau
Une cellule vue en coupe
AT GC TA A
T
Un chromosome est comme une pelote de lainedont le fil est l’ADN
Cellule
Noyau Chromosome
ADN
L’information génétique est stockée dans les chromosomes
Cellule
Noyau Chromosome
ADN
AT GC TA A
T
Un chromosome est comme une pelote de lainedont le fil est l’ADN
Cellule
Noyau Chromosome
ADN L’ADN est une chaîne composée de 4 « molécules » différentes
symbolisées par les lettres A T G C
AT GC TA A
T
AT GC TA A
T
Cellule
Noyau Chromosome
ADN
tgctgccatctacatttttgggactcgggaattatgtgagtaccgaaactacttagcttatggtaggtgtaccacacgcacagggaaagaattgcgtttatgtgggacagtgaaaacaatcgcaaaaaagcaatggaaagggctttgagagtaatttatcttctgacatatgcaatatggcaacttctaaatggtgagagggagtctctctaaagcaatcatttgaagattggttggacaaacaatgggaaagtcattgtcttagcagaattaagtcatactttttttttttttttttttttgctaactctagaagcttttctgttatctctgtagctcagacgaaaatgcattctcaccagatgactgtttttggttaatcgatctgaatgcgctttgtgtggactgtcgaatttcaaagatttaccgtatgaccaagagcacctgatgctacaagtataaataggggaacaaatgctttctgttcttcctcggtaaggaggtagaggtggaggcggagccggatgtcagaggtcctgaaatagtcacctgggggaaaatgatccgcctgctgttgaagcccccttctcattccgatcgcttttggccttgatgatttgaaaataagtcctgttgcaccaggtaagtggacccaggtgagactctgtgatttctgcccataccctcatgtaggtgaccaatgtgactagctgtcctgtgggggaaatatctccccagccattctgacacccacaggctggacacctgcattccctagatctgcagaatctcagggagaaggggcattggagaggggatcgtttcttaagccctttgctctctccctggagaccggtgttttcttctcttgttggaggtttcagagactggggctccacaattgtcctgtcaatcctgaaggaggtcagatcctggccaggaaatctctgagtcctccaggaagtcctgagaagcagtggccac
3 milliards de « caractères »…
Oups…ça fait 2
m.d’ADN par
cellule !CA
T GC TA A
T
tgctgccatctacatttttgggactcgggaattatgtgagtaccgaaactacttagcttatggtaggtgtaccacacgcacagggaaagaattgcgtttatgtgggacagtgaaaacaatcgcaaaaaagcaatggaaagggctttgagagtaatttatcttctgacatatgcaatatggcaacttctaaatggtgagagggagtctctctaaagcaatcatttgaagattggttggacaaacaatgggaaagtcattgtcttagcagaattaagtcatactttttttttttttttttttttgctaactctagaagcttttctgttatctctgtagctcagacgaaaatgcattctcaccagatgactgtttttggttaatcgatctgaatgcgctttgtgtggactgtcgaatttcaaagatttaccgtatgaccaagagcacctgatgctacaagtataaataggggaacaaatgctttctgttcttcctcggtaaggaggtagaggtggaggcggagccggatgtcagaggtcctgaaatagtcacctgggggaaaatgatccgcctgctgttgaagcccccttctcattccgatcgcttttggccttgatgatttgaaaataagtcctgttgcaccaggtaagtggacccaggtgagactctgtgatttctgcccataccctcatgtaggtgaccaatgtgactagctgtcctgtgggggaaatatctccccagccattctgacacccacaggctggacacctgcattccctagatctgcagaatctcagggagaaggggcattggagaggggatcgtttcttaagccctttgctctctccctggagaccggtgttttcttctcttgttggaggtttcagagactggggctccacaattgtcctgtcaatcctgaaggaggtcagatcctggccaggaaatctctgagtcctccaggaagtcctgagaagcagtggccac
Chez l’homme, L’information génétique est formée parun texte de 3 milliards de caractères
unique pour chaque individu:
« le génome humain »
une séquence d’ADN…
Cellule
Noyau Chromosome
ADN
Un gène
MCB19-20 janvier 2006
Exploragénome
Pre-mRNAhnRNA
protéine
exon exonexonintron intronDNA(génomique)
AUG/Met Stop
mRNA (cDNA, EST)
AUG/Met Stop
transcription
Splicing (épissage)
traduction
Un gène eucaryotique
1-1002
1084 - 1304
1407 - 1451
1662 - 1913
Les introns sont représentés en rouge
DNA génomique
En noir, la séquence codante (CDS en anglais)
MCB19-20 janvier 2006
Exploragénome
mRNA virtuel
Traduction en ‘protéine’
MCB19-20 janvier 2006
Exploragénome
Met STOPintron
MCB19-20 janvier 2006
Exploragénome
Notions de mRNA, cDNA
MCB19-20 janvier 2006
Exploragénome
Définition (text book):
La RNA polymerase lit le brin anti-sens (template, non-codant, complémentaire) dans la direction 3’ -> 5’
Le mRNA a la même séquence que le brin DNA sens (codant)
MCB19-20 janvier 2006
Exploragénome
Coding strandComplementary strand
Définition (text book):
La RNA polymerase lit le brin anti-sens (template, non-codant, complémentaire) dans la direction 3’ -> 5’
Le mRNA (cDNA) a la même séquence que le brin DNA sens (codant)
MCB19-20 janvier 2006
Exploragénome
MCB19-20 janvier 2006
Exploragénome
Les protéines: quelques chiffres
Chez l’homme, on pense qu’il existe environ 25’000 recettes ou gènes;
On sait que la photocopie de la recette et/ou la protéine peuvent être modifiées: il y aurait plus de
1 million de protéines différentes !
Bienvenue au Royaume des protéines !
From Genome to Proteome
ProteomeProteome
Alternative splicingof mRNA
Post-translational
proteinmodification
(PTM)Definition of PTM:Any modification of a polypeptide chain
that involves the formation or breakage ofa covalent bond.
Incre
ase
in co
mp
lexity
10
-42
%5
to 1
0 fo
ld
GenomeGenome
Human: about 25’000 genes
Human: about one million of ‘different’ proteins; several proteomes
« After ribosomes »
MCB19-20 janvier 2006
Exploragénome
The shortest sequence is GWA_SEPOF (P83570): 2 amino acids. The longest sequence is SNE1_HUMAN (Q8NF91): 8’797 amino acids.
Q8WZ42: 34’350 amino acids.
http://www.expasy.org/sprot/relnotes/relstat.html
MCB19-20 janvier 2006
Exploragénome
Multiple alignment of the end of the available GCR sequences
Annotation of the sequence differences
MCB19-20 janvier 2006
Exploragénome
MCB19-20 janvier 2006
Exploragénome
La bioinformatique, c’est quoi ?
L’utilisation de l’informatique pour l’analyse de l’ADN et des protéines de tous les êtres vivants.
MCB19-20 janvier 2006
Exploragénome
Acquérir puis stocker les informations biologiques sous la forme d’encyclopédies appelées bases de données;
Visualiser: développer des programmes pour visualiser la structure en trois dimensions des protéines et de l’ADN, pour shématiser des voies métaboliques ou des arbres phylogénétiques.
Développer des programmes de prédiction et d’analyse en utilisant les informations contenues dans les bases de données;
Analyser/Interpréter/Prédire: utiliser ces programmes pour analyser de ‘nouvelles’ données biologiques et prédire in silico par exemple la fonction potentielle d’une protéine;
MCB19-20 janvier 2006
Exploragénome
Bioinformatique - application 1:acquisition de données
• Exemples: lecture d’images de gels 2D, spectrométrie de masse (MS), séquençage ADN...
• Détection de signaux ou d’images• Absence de contexte biologique.
MCB19-20 janvier 2006
Exploragénome
Séquençage d’ADNInformatique instrumentale
Programme pour analyser les données
d’un séquenceur ADN
Exemple: pregap4 de Rodger Staden https://sourceforge.net/projects/staden.
MCB19-20 janvier 2006
Exploragénome
Bioinformatique - application 2:Assemblage des séquences d’ADN
• Les méthodes actuelles de séquençage ne permettent pas d’obtenir des séquences fiables de plus de 1000 bp !
Nature 409, 860-921 (2001)
MCB19-20 janvier 2006
Exploragénome
Bioinformatique - application 2:Assemblage des séquences d’ADN
• -> Reconstruire la séquence complète d’un génome ou d’un morceau de chromosome (« contig ») à partir de séquences de 1000 bp;
• Pas du tout trivial parce que: (a) il y a des erreurs de séquence; (b) il y a des régions répétitives.
“Celera-generated shotgun data set consisted of 27 million sequencing reads …”Whole-genome shotgun assembly and comparison of human genome assemblies.PNAS 101(7):1916-21 (2004)
MCB19-20 janvier 2006
Exploragénome
CCCCTGACGACCGATTCAAAAACCACTTTCCTCTTTTACGGCGCCCTAGCGCTATGGCGGTGAAGACTGCTTGACATTAACATGCCTGTTGAGGCTAGAGAATCCATGCGAAGGCGGTTCGGAAACTGCTTCGAAGGCGTGGGGTGGTGCGGGGGGTGGGATTTGAACCCACGCAGGCCTACGCCATCGGGTCCTAAGCCCGACCCCTTTGGCCAGGCTCGGGCACCCCCGCACCGTGTAGTCTTTAGGTTTAGCTTTCAGGGTTAAAACGGTTTAACACTCATGAGTATCACTGGGCTGGCTGTGACTGGGCTCTGCATTCCCGAGGCCATGCTGCCCGTGAGGAATAACGGGTCTGAGGAGCCGTTGACAGGTTGCCATTTGGCCTTGCCCCCAAAAGTGATGCTGTGGATCACGACCTCCTCGGAGGAGGGGAGCCTCAGCATACACTTTATAATGAAGGCTTTAAGGGTTTAGCCGGATAATGTTGTTGGGGCGTGCAGCGGCAAGTGCTGCAGCTCATGGGTATGGTATGCGGCTTTGCCTGGTGATGCGGTTTGGCCCCCGTTGTCTGCGACGTCTGCGGTGTTAGGAGGGCTGTGGTGCTGCAGCGCCACACGGGAAGGCGGCTCTGCAGGGAGTGCTTTAGGGAGGATATAGTGGGGAGGGTCAGGAGGGAGGTTGAGAGGTGGGGGATGATAGGCCCTGGGGAGACGGTCCTCCTAGGCCTGAGCGGCGGTAAGGACAGCTATGTCCTGCTGGACGCCCTCTCCGAGATAGTCGGGCCCTCGAGGCTGGTGGCGGTGTCTATAGTGGAGGGCATACCGGGGTACAACAGGGAGGGAGATATCGAGAAGATCAGGAGGGTGGCCGCGGCTAGGGGCGTCGACGTGATAGTGACGAGCATAAGGGAGTACGTGGGGGCCAGCCTCTATGAGATATACTCCAGGGCCCGAGGGAGGGGGGCGGGCCACGCCGCCTGCACCTACTGCGGCATAAGCAGGAGGAGGATACTTGCCCTCTACGCCCGCCTCTACGGCGCCCACAAGGTCGCTACGGCCCACAACCTCGACGACGAGGCGCAGACAGCTATAGTGAACTTCCTCAGGGGGGACTGGGTTGGCATGCTGAAAACACACCCCCTCTACAGGAGCGGGGGCGAGGACCTGGTTCCAAGGATAAAGCCTCTTAGGAAAGTCTACGAGTGGGAGACGGCCAGCTACGTGGTACTCCACCGCTACCCCATCCAGGAGGCTGAATGCCCCTTCATAAACATGAACCCAACCCTCAGGGCGAGGGTGAGGACGGCCCTGAGGGTGCTAGAGGAGAGGAGCCCGGGCACCCTGCTCAGGATGATGGAGAGGCTCGACGAGGAGCTGAGGCCGCTGGCCCAGGCCATGAAGCCCTCCTCCCTAGGCAGGTGCGAGAGATGCGGGGAGCCGACCAGCCCGAAGAGGAGGCTCTGCAAGCTCTGCGAGCTCCTGGAGGAGGCCGGGTTCCAGGAGCCCATCTACGCGATCGCAGGGAGAGGCAAGAGATTAAGGCTTCAGAGCCCCACCGCTAGCCCTGGGTGAACGCGCTATGGCAAAGCCAAAGGTTAGCCTGCCGGAGGATGTGGAGCCCCCCAAGGCTATAGTCAAGAAGCCTAGGCTAGTGAAGCTAGGCCCCGTAGACCCGGGGGTCAGGAGGGGAAGGGGGTTCAGCCTAGGCGAGCTCGCGGAGGCTGGGCTAGACGCTAAAAAGGCGAGGAAGCTTGGCCTGCACGTGGACACGAGGAGGAGGACGGTCCACCCGTGGAACGTGGAGGCCCTCAAGAAGTATATAGAGAGGCTTAGAGAGGCGGGCGTAGAGGTCTAGACCCCGGGGCTATATACTACCACTTCGCCCTCCCCATTATACTATCCACATCCACCCTGGCCCTCCCCACCTCCAGGACCTCAATATCCCCCTCAGCCCTGGTGTACACGCTCAAAGACGGCTCCCTGTAGGAGGCCCTGGTCACCACCCCCACGTGAATCACCCCTCCCGCGTGTACGGCGGCTATAAGCCCCCTCTCCCAGCCCTCCCGGAGGACGCGGAGCCCGGAGCCTACTCCGACCCTACCGCCCCTCCTCGCCACAACCACTATGTCCCCGTCAACACTCTCACCATAGAGGGCGGCTGGGTGTAGGGCCTTGAGGGCCTCGTGGGCCAGAGGCTCCCCCCGGAATATCGGCGCGCCAACTATCTCGGCCTCGCCGGGCCTGACCCTCCTCTCCCTCCCTCCCGAGGTCCTAAGGGCTATCAGCCTCTCCCTATGAAGAGCCCTCTCCCCCCGGCTCTTGCCCGCCTCTCCAGCCAGCCTCTCCACAGACAGAGTGTCAAGCCCCCACACCCTCTCGAGCAGCCTGGCCCGTCGGCTGGCTATGCCCACCGCGACTACAAGCCTTGCTCTAGAGGCTATGGCGAGGGCTGCCTTAGACTCGAGCCCCTCCCACAGTGATATCCAGCCATCTGTATCCACTACCACCTGGCTGGCCAGTGAGGCCAATCTAGATGCGCAGGCGAGGTAGCGGGACTCCGACCCCCGGGGGGTGAAGCCGCCGACGAAACACGGCTCGACACTCGAGAACGAGTCGTCTAGGCCCGGGACGGCCACGCCCTGTGGAGACGCCAGCGCCATAAACCCCGGGGCGAAGACCTCGTTCTGGCCTATATCCGCCGACAGCAGTCTATACCCACCACCGCCCCTGTTAACTATCCAAGCCGCTAGTGTGCTCTTACCGGAGTCGCTCGGCCCCACAATAGCCACCCTGCCCCGCTGAGAGGCCTCCCTGGCTATGGAGTCGAACCTGTTGTAAGCCTCCTCCACGCCCCCTGTGGAGACTACACCGGACACAATAGCCCTCCCCTCAACCCTGGCGAGCACCGACCTGCCTGCAGGGACCACTAGAGTAGAGCCCTCCCCCAGCCTTCCACCCAAAACCTCTGCAGCACCCTCTACAACCTCTATCCTCCCCGGGCCGCGGACTAGCGCCGAGCCCCATGCAATCTCCACAGGCAAAGCTTTAAACCCCCAGTGGTAAGATATGTGAACCGGGCCGCGGTAGTATAGCCTGGACTAGTATGCGGGCCTGTCAAGGGCCCCGCCTCCGCCCCACCCTCATTCTACTACACGCTTATCAGGATAAACAGCCGGGCAAACGTTTTTAACCCCGCCGAAATTCATACTCTTCCCGGGGCGGAGGCGGGCCTGCGGAGAGCCCGTGACCCGGGTTCAAATCCCGGCCGCGGCGCCAATAATCCTCGCGGCCCGCCTTCAAGACTCACTAAACCCCGGTTGAGCACCCGCAGCATCGATGCTAAGGCTCGAGCCATGCATAGTGCCCGCGGGGGGTGGGGGGATTTGGCGAGGCCTGTTGAGGCGGTAAAGAGGCTGCTGGAGAGGTGGCTGGAGGGTAGGAGGAGGGGTTATGTCCTTACGCTTGTAGCTCTTAGAAGGCTTGAGGAGAGGGGGGAGGAGGCTACTGTAGAGAGGGTTAGGGAGGAGGGCCTGAGGATTCTGGAGAGGACGGAGGGGAGGATAGACTGGGGTGTTACTAGGGATGAGTACACTGTCAACATGGTCTCCAGCGTTCTTCGCGAGCTGGCCGAGAGCGGCCTTGTCGAGATGGTGGACGGCGGGAGGAGTATCGTCAGGTACAGGATAGCGAGGGATGCTGAGGAGGAGTTCCTCTCCAGCTTCGGCCACCTCCTGCAGCTTGTGAGGATGCCGAAGTAGCGTTAAAGCCCTAGGTGCCAGAGGCCGCCGGAGGCTAAGAGGCCGATGAAGGCCTTGAGAGGCTCTGCCGCCAAGCTATCCCTATCCCTGCTGCTCTTTTGGGCTAGCTACTCGATCTACTACACTATAACGAGGCGTGCTGTAGAGGAGGGCCTAGGAGAGGGATCCTACCTCCTGGGCGTCTTGATGTCGGGGGCTGAGGAGGCGCCGCTCGCGGCGTCAATAGTCCTTGGCTACCTGGCGGACAGGCTAGGCTACCGCTTACCCCTGGCCCTGGGCCTGTTTGAGGCTGGGCTGGTCGCTGCAATGGCCTTCACCCCCCTAGAGACCTACCCCATACTGGCTGGGGCTGCGTCGCTAGTCTACGCCCTCTCATACTCCGCCCTAATGGGCCTCGTCCTGGGTGAGAGCGGGGGGAGCGGCTTCAGGTACAGTGTTATAGCAGCCTTCGGCAGCCTTGGCTGGGCTCTCGGCGGGTTGGCGGGGGGAGCGGCTTACTCCCGCCTGGGGTCACTGGGGCTCCTAGTGGCCGCAGCCCTCATGGCCGCCTCATACCTAGTCGCCCTCTCAGCCTCGCCCCCCCGCGGCGGCGCGGCGCCCAGTGTGGGGGAGACGATAACCGCTCTGAAGGGGGTTCTGCCCCTATTTGCAAGCCTCTCAACCAGCTGGGCGGCCTTGGGCTTCTTCTTCGGGGCTGCCAGCATAAGGCTTAGCGAGGCGCTCGAGAGCCCTATCGCCTACGGGCTAGTGCTGACCACCGTCCCCGCACTCCTAGGCTTCCTGGCGAGGCCTGCGGCGGGCAGGCTGGTCGACAAGGCCGGGGCTGTGGCAGTGCTTGCGTTGTCCAACGCGGCATACTCCCTTCTCGCCCTAGTTTTCGGCCTGCCCACCAGTCCGGCCCTGCTGGCCCTTGCATGGAGCCTGCCCCTATACCCCTTTAGGGATGCCGCCGCGGCCATCGCAGTTAGCAGCAGGCTTGAGAGGAGGCTGCAGGCGACGGCCGCGGGGCTGCTCTCAGCGAGCGAGAGCGTCGGCGGCGCTGCAACCCTTGCCCTGGCACTGCTCCTGGATGGGGGGTTTAGGGAGATGATGACGGCTTCAATAGCCCTTATGCTCCTCTCCACCCTACTCCTGGCCGCAGACCACTCTACGGCTCCACGCCGAGAGCCCTGTCCCCGGCGTCGCCAAGGCCCGGCACTATGAAGTAGTTCTCGTCCAGCTCGGGGTCTAGGGCTAGCGTGTATATGGGGGTGTCGCCGTAGAGGGATGATATGTACTCGACGCCCTGCCTGGACGCTATTATAGAGCCTATAACGACCTTGCTGGCCCCCCTGTCTCTGGCCAGCCTCACGGCCTCCGCCACAGTCTTGCCCGTGGCCAGCATCGGGTCTAGAACGACGGCGGGGCCGTCGAACATGCGGGGTAGCCTGGAGTAGTAGACCTCTATCTTGAGCCTGCCCGGCTCCTCGACCCTCCTGGCTGCTACGAGGGCTATCCTCGCCTCCGGCATCATCGAGGCGAAACCCTCTACCATGGGGAGGCTAGCCCCGAGTATCCCTACGAGGTAGACGGGCCCCGCTGGCGCCAGCTCCTTGGCCTTAGCCCCCAGGGGGGTCTCCACCTCCTCCTCCACCCACCCGAGCTCGCCCGCAATGTACACCGCCAGTATGGAGCCCGCTATCCTGACGTACCTCCTAAACTCCGGGAACCCGGTTGTCCGGTCCCTGAGAACCTTGAGGACGTAGCGCGCTAGGGGTGTTTCGCCCCCAATAACCCTAACTGCCGCCACCATGGGAACCTCTAGGTAGTGGTTGAGGCTCCGGAGCTTAAGAGGGTTAAACTCCAGGATGGCCACCTGGGTGCCGCCGGGGATTGGACAGTAGGGTTCTAGAGTCCGCGTTGAGAGCCCTATCCCGCTACCCCCTCTGCGACCGCTGCCTCGGCAGGCTCTTCGCTAGGCTTGGGAGAGGCTGGAGCAATAGGGAGCGGGGAGAGGCTGTCAAGAGGGTTCTGGTGATGGAGCTTCACAGGAGGGTCCTCGAGGGGGATGAGGCGGCGTTGAAAACCCTGGTCTCTGCAGCTCCGAACATAGGGGAGGTGGCAAGGGATGTCGTGGAGCACCTCTCCCCAGGTTCCTACAGGGAGGGCGGCCCATGCGCTGTCTGCGGCGGGCGGCTGGAGAGTGTTATAGCCTCAGCGGTGGAGGAGGGGTACAGGCTGCTAAGGGCTTACGATATCGAGAGGTTCGTAGTCGGGGTCCGGCTAGAGAGAGGTGTTGCCATGGCTGAGGAGGAGGTAAAGCTGGCCGCCGGCGCCGGGTACGGCGAGTCCATTAAGGCTGAGATCAGGAGGGAGGTGGGCAAGCTCCTGGTGAGCCGGGGTGGAGTGACCGTGGACTTCGACAGCCCTGAAGCGACCCTAATGGTGGAGTTCCCCGGGGGCGGGGTTGACATACAGGTCAACAGCCTGCTCTACAAGGCTAGGTACTGGAAGCTTGCCAGGAACATAAGCCAGGCATACTGGCCCACGCCAGAGGGGCCGAGGTACTTCAGCGTGGAGCAGGCTCTATGGCCGGTTCTAAAGCTCACTGGGGGGGAGAGGCTGGTTGTACACGCTGCTGGCAGGGAGGATGTAGACGCCAGGATGCTGGGCAGCGGGAGGCCCATGATAGTCGAGGTCAAGTCGCCTAGGCGCAGGAGGATCCCGCTTGAGGAGCTGGAGGCGGCCGCCAACGCCGGCGGGAAGGGGCTGGTTAGGTTCAGGTTCGAGACGGCTGCCAAGCGTGCCGAGGTCGCGCTTTACAAGGAGGAGACTGCGAGGGTTAGGAAGGTGTACCGCGCCCTGGTAGCGGTGGAGGGTGGTGTTAGTGAGGTGGATGTTGAAGGGTTGAGGAGGGCTCTCGAGGGCGCGGTTATAATGCAGAGGACGCCCTCCAGGGTCCTCCATAGGAGGCCGGATATACTGAGGAGGCGGAGGCTCTACAGCCTAGACTGCAGCCCCCTGGAGGGGGCGCCTCTGATGGAGTGCATATTGGAGGCGGAAGGGGGTCTCTACATCAAGGAGCTGGTCAGCGGTGATGGCGGGAGAACCAGGCCAAGCTTCGCTGAGGTCCTCGGCAGGGAGGCTGTGTGTATAGAGCTCGACGTGGTGTGGGTGGAGCATGAAGCTCCAGCCGCACCCGGCTAAAGCTAAATTAAGCTGGGCTGAGCAAAATACCGGGGGGAGCGTAGGTTGGTCAAGGCACCTAGAGGCTATAGGAACAGGACTAGGAGGCTGTTGAGGAAGCCTGTGAGGGAGAAGGGCAGCATACCCAGGCTCAGCACCTACCTTAGGGAGTACAGGGTGGGCGATAAGGTGGCTATAATCATAAACCCCTCCTTCCCAGACTGGGGCATGCCCCACAGGAGGTTCCACGGGCTGACGGGAACCGTGGTGGGGAAGAGGGGCGAGGCCTACGAGGTAGAGGTCTATCTGGGTAGGAAGAGGAAGACCCTCTTCGTCCCCCCCGTGCACCTCAAACCCCTCAGCACAGCCGCCGAGAGGCGGGGCAGCTAGAGCTGTCCCCACGGTTCCACGCTGGAGTAGGGGGTGCTAGTGTTGGAGAGGAGGATCCTAGAGTATAAGGCGGTGCCCTACCAGGTAGCCAAGAAGTATATGTACGAGAGGGTTAGGGAGGGCGACATAATATCGATACAGGAGTCGACTTGGGAGTACTTCAGGAAGGTAGTGTTCTGGGACGACCCGGAGGCTGCCTCCGAGCTTGTTGAGGAGATTGTGAAGGAGGGTGTCAGCCGTGAGGCGCGGCGAACATCGCGAGCATATGCCCCAAGACCGAGGGCGAGCTCAGGAGCATTCTCGAGATGGACAGGAGCATAACCTCCGTACACGAGATGGCTAGCAAACTGTACCCCATAGTTTCCAAATACTGCAAGGACTAGACCCCGCCCCCCTTCAGCCCGGGGATTAACAGTTTAATCTCCGCGTCCCAACCATATTTATGTTGATAGCGGCTGTACGGAGAGTGTTGAGAAGTGTCTAGACAGCCCCGCCCCCGCGACAGGAAGCCCCCCCACCAGGGGAGGCCGCAGCCCCACATCGCCGCCCTTGAGGTGGAGGCTATAGTTCTGGACTACATACCCGAGGGCTACCCGAGAGACCCCCACAGGGAGCACCGCAGTAAGCCCGTCGTTCAGGGTCTCGGGGTTAGGAGGCTGCACCTAGTCGACGGTGTCCCCCTCCATGAGGTCGATATACTGGAGCGGGTCACCCTGGCTAGGGAGGTTGTGTATAGCGTCCCCATAGTGGCCCGGCTCCCCGGGGGGGTCGAGAGGAGGGTGAAAAGTGTTACCGTCGCGGTAACATGCCTCCCCGGCCAGGCGCGGGAGGGCGGGGTCAGGGAGATATACTGCTACCCCCTCTCCTACGCCGACCAGGCGACCCTGGAGGCGCTGCAGCAGCTCCTGGGTGAGGGGGACGAGAGGCACAGGTATATACTTGTGGACTCCCCCGACAAGCTCTCCGAGGTGGCCAGAGGTCACGGCCTCTCGGGGAAGATAGTGAGCACGCCCAGAGACCCTATATCCTACCAGGACCTCACCGACGTCGCCAGGGCTACGCTGCCGGACGCTGTGAGGAAGCTGGTCAGGGAGAGGGAGGACTTCTTCGTGGAGTTCTTCAACGTGGCCGAGCCGATAAACATAAGGATACACGCGCTGGAGGCCCTAAAGGGTGTGGGTAAGAAGATGGCTAGGCACCTCCTCCTCGAGAGGGAGAGGCGTAGGTTCACGAGTTTCGAGGAGGTGAAGAAGATTCTGAAGATAGACCCCGCAGAGGCCCTGGCCGAGAAGATAATGGAGGAGATAGAGTGTAGGGACACTGTGAAATACTACTTCTTCGTCGAGCCCTGCGACCCCTCCAAGCCCTACCTAGGCTACACGGAGAGGATGTGGAAGGCCTATGCC
Génome humain
3.2 milliards de pb
2.7 milliards de $ (coût en 2000)
100 $ (coût en 2008 ?)
MCB19-20 janvier 2006
Exploragénome
Le génome humain (3ème version) contient actuellement encore 341 « trous »
(essentiellement vers les centromères/télomères, régions répétitives)
Nature (oct 2004), 431, 931
MCB19-20 janvier 2006
Exploragénome
Contenu des banques de données de séquences en acides nucléiques
EMBL/GenBank/DDBJhttp://www.ebi.ac.uk/embl/index.html
Octobre 2004
Craig VenterEx: mer des Sargasses1 milliard pb/semainehttp://www3.ebi.ac.uk/Services/DBStats/
MCB19-20 janvier 2006
Exploragénome
We have applied "whole-genome shotgun sequencing" to microbial populations collected en masse on tangential flow and impact filters from seawater samples collected from the Sargasso Sea near Bermuda. A total of 1.045 billion base pairs of nonredundant sequence was generated, annotated, and analyzed to elucidate the gene content, diversity, and relative abundance of the organisms within these environmental samples. These data are estimated to derive from at least 1800 genomic species based on sequence relatedness, including 148 previously unknown bacterial phylotypes. We have identified over 1.2 million previously unknown genes represented in these samples, including more than 782 new rhodopsin-like photoreceptors. Variation in species present and stoichiometry suggests substantial oceanic microbial diversity.
Science 304:66-74(2004).
MCB19-20 janvier 2006
Exploragénomehttp://www.ncbi.nlm.nih.gov/Genomes/index.html
Tous ces sites sont constamment remis à jour !
http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi
MCB19-20 janvier 2006
Exploragénome
MCB19-20 janvier 2006
Exploragénome
Une protéine: comment c’est fabriqué ?
MCB19-20 janvier 2006
Exploragénome
Noyau de la cellule=
Bibliothèque
Chromosomes (ADN)=
Livres de recettes(23 x 2 chez l’homme)
Une cellule
MCB19-20 janvier 2006
Exploragénome
Noyau = Bibliothèque
1 recette pour 1 protéine =
1 gène
Chromosomes (ADN) =
Livres de recettes
Une cellule
MCB19-20 janvier 2006
Exploragénome
Noyau = Bibliothèque
Chromosomes (ADN)= Livres
1 gène = 1 recette
Photocopie de la recette (ARN)
Une cellule
MCB19-20 janvier 2006
Exploragénome
Noyau
Chromosomes (ADN)
1 gène = 1 recette
Photocopie de la recette (ARN)
Une cellule
MCB19-20 janvier 2006
Exploragénome
NoyauChromosomes (ADN)
1 gène
Photocopie (ARN)
Machine à fabriquer les protéines (ribosomes)
Une cellule
MCB19-20 janvier 2006
Exploragénome
Photocopie (ARN)
Machine à fabriquer les protéines
Une cellule
MCB19-20 janvier 2006
Exploragénome
Photocopie de la recette
Machine à fabriquer les protéines
Une cellule
MCB19-20 janvier 2006
Exploragénome
Real life of a protein sequence …
TrEMBL Genpept
CoDing Sequences provided by submitters
cDNAs, ESTs, genomes, …
EMBL, GenBank, DDBJ
Data not submitted to public databases, delayed or cancelled…
Swiss-Prot
CoDing Sequences provided by submitter
and« de novo » gene prediction
RefSeqXP_NNNNN
UniProt: Swiss-Prot + TrEMBL + (PIR)NCBI-nr: Swiss-Prot + GenPept + (PIR) + RefSeq + PDB + PRF
Manually annotated
PRF
Scientific publications derived sequences
with or without annotated CDS
3D structures