INTRODUCTION À LA BIOINFORMATIQUE

13
Biologie moléculaire-2019 1 INTRODUCTION À LA BIO-INFORMATIQUE Dans cette section, on désire vous donner une introduction sur l’utilisation du site web du National Center for Biotechnology Information (NCBI) pour obtenir de l’information au sujet de différentes séquences. Lien au site web de NCBI : http://www.ncbi.nlm.nih.gov/ RECHERCHE GÉNÉRALE 1. Le premier outil que nous allons explorer est l’engin de recherche général. Semblable à Google, vous pouvez entrer une combinaison de termes de recherche, ou le numéro d’accession spécifique de la séquence d'intérêt, dans la zone de recherche. Vous pouvez également spécifier sur quelle base de données effectuer la recherche dans le menu déroulant as à gauche de la boîte de recherche. 2. Disons que nous sommes intéressés à trouver des informations relatives à la myosine, une protéine musculaire. Entrez le mot « myosin » dans la zone de recherche, puis cliquez sur « Search ». Une nouvelle page sera affichée, telle que sur la page suivante, indiquant le nombre de fichier trouvés dans les différentes bases de données.

Transcript of INTRODUCTION À LA BIOINFORMATIQUE

Page 1: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

1

INTRODUCTION À LA BIO-INFORMATIQUE

Dans cette section, on désire vous donner une introduction sur l’utilisation du site web du

National Center for Biotechnology Information (NCBI) pour obtenir de l’information au

sujet de différentes séquences.

Lien au site web de NCBI : http://www.ncbi.nlm.nih.gov/

RECHERCHE GÉNÉRALE 1. Le premier outil que nous allons explorer est l’engin de recherche général. Semblable à

Google, vous pouvez entrer une combinaison de termes de recherche, ou le numéro

d’accession spécifique de la séquence d'intérêt, dans la zone de recherche. Vous pouvez

également spécifier sur quelle base de données effectuer la recherche dans le menu

déroulant as à gauche de la boîte de recherche.

2. Disons que nous sommes intéressés à trouver des informations relatives à la myosine,

une protéine musculaire. Entrez le mot « myosin » dans la zone de recherche, puis

cliquez sur « Search ». Une nouvelle page sera affichée, telle que sur la page suivante,

indiquant le nombre de fichier trouvés dans les différentes bases de données.

Page 2: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

2

3. Les bases de données le plus fréquemment utilisées dans ce cours sont celles des

nucléotides et des protéines. Cliquez sur la base de données de nucléotides pour obtenir

la page suivante

4. Pour préciser votre recherche, vous pouvez alors choisir parmi les menus sur la gauche

l'espèce, le type de molécule ou le taxon spécifique parmi les organismes les plus

communs dans le menu de droite. Pour cet exemple, nous allons d'abord choisir l'ARNm

Page 3: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

3

du menu de type de molécule. Ensuite, à partir de la nouvelle fenêtre qui apparaît, nous

allons choisir des dossiers spécifiques pour le poisson zèbre (Danio rerio) à partir du

menu des taxons.

5. Une liste des fichiers correspondant à vos critères de recherche sera alors affichée. De là,

vous pouvez rechercher et accéder au fichier spécifique d'intérêt. L'information qui peut

être obtenu à partir de ces fichiers sera expliquée plus loin dans cet exercice.

6. Pour votre devoir, utiliser cette approche pour trouver le numéro d’accession protéique

pour l’enzyme BglII. Cette protéine provient de quel organisme.

7. Utilisez l’engin de recherche général pour obtenir le fichier qui correspond au numéro

d'accession M68489.

8. Une fois que vous avez obtenu ce fichier, répondez aux questions suivantes pour votre

devoir.

Est-ce que ce fichier correspond à une séquence nucléotidique ou protéique ?

Cette séquence provient de quel organisme ?

Quel est le nom du gène qui correspond à cette séquence ?

Page 4: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

4

RECHERCHE AVEC UNE SÉQUENCE NUCLÉOTIDIQUE 1. L’engin de recherche le plus couramment utilisé soit avec des séquences nucléotidiques

ou protéiques est le « Basic Local Alignment Search Tool » (BLAST). Vous pouvez

accéder à cet engin de recherche à partir du menu des ressources populaires sur la droite,

ou par le biais du lien « Resource list (A-Z) » dans le menu à gauche.

2. « Resource List (A-Z) » : Sur cette page se retrouve la majorité des liens que vous

utiliserez durant l'année.

Page 5: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

5

3. Explorons Blast. Cliquer sur le lien Blast. Vous devriez obtenir la page suivante :

«BLAST » est une collection d’engins de recherches de similarités conçus pour examiner

toutes les bases de données de séquences indépendamment qu’elle soit protéine ou ADN.

« Nucleotide blast » compare une séquence nucléique d’intérêt aux séquences d’une base de

données d’acides nucléiques.

« Protein blast » compare une séquence d’acides aminés d’intérêt aux séquences d’une base

de données de protéines.

« Blastx » compare une séquence nucléique d’intérêt traduite dans tous les cadres de lecture

aux séquences d’une banque de données de protéines. Vous pourriez utiliser cette option pour

trouver les produits de traduction d’une séquence nucléique inconnue.

« Tblastn » compare une séquence d’acides aminés d’intérêt aux séquences d’une base de

données d’acides nucléiques dont la traduction a été faite dans tous les cadres de lecture.

« Tblastx » compare les traductions dans les six cadres de lectures d’une séquence nucléique

d’intérêt aux séquences d’une base de données d’acides nucléiques traduites.

Page 6: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

6

En premier lieu, nous utiliserons ce programme pour obtenir de l’information sur différentes

séquences avec lesquelles vous allez travailler. Notez, une de ces séquences représente

celle de l’insertion que vous devez vérifier dans l’exercice de laboratoire No2.

4. Cliquer sur l’option « Nucleotide blast" (blastn) ». Vous devriez obtenir la page

suivante:

5. Avant de pouvoir faire l’entrée de la séquence d’intérêt, vous devez vous assurer que le

format de celle-ci est compatible avec le logiciel. La majorité des logiciels qui traitent

des séquences peuvent comprendre un format appelé FASTA. Le format FASTA est un

fichier texte dépourvu de chiffres ou toute autre annotation qui est précédée par une ligne

descriptive de texte. Voici un exemple :

>John’s sequence123 (Pesez « enter » après cette ligne)

AACGTCGGATTCAGGTACCCAGGAAAACTACATCTC

La première ligne de votre fichier doit débuter avec le symbole suivant : « > ». Ce symbole

informe le logiciel que cette ligne est descriptive seulement et que l’information au sujet de

la séquence débute sur la prochaine ligne. Vous pouvez écrire quoi que ce soit sur cette ligne

pour identifier la séquence.

La prochaine ligne représente la séquence.

6. Obtenir le document texte des séquences inconnues disponible sur la page web de

BIO3551, en suivant le lien: Séquences>Gènes inconnus. Ce document contient cinq

séquences numérotées de 1-5. Convertir chacune des séquences au format FASTA. Vous

pouvez faire cela dans « NOTEPAD »

Page 7: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

7

7. Copier et coller la séquence dans la boite de requête de « Nucleotide blast ». Choisir la

banque de données sur laquelle la recherche sera exécutée dans le menu « Choose

Search Set ». Choisir « other » puisque les séquences ne sont pas d’origine humaine ou

de souris et « nucleotide collection (nr/nt) ». (Voir l’image ci-dessous)

8. Maintenant, choisir le logiciel qui fera la recherche à partir du menu « Program

Selection ». Choisir «Somewhat similar sequences (blastn) »

9. Cliquer sur BLAST. Une nouvelle page apparaîtra vous indiquant d’attendre pour que la

requête soit complétée. Cela pourrait être très rapide ou très long en fonction de la

charge sur le serveur de NCBI.

Page 8: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

8

10. Une fois que votre requête aura été complétée, une nouvelle page sera ouverte indiquant

les résultats de votre recherche.

11. Avant de procéder avec l’analyse des résultats, nous allons changer les options du

format. Cliquer sur « Formatting options » au haut de la page. Un nouveau menu

apparaitra tel qu’illustré ci-dessous: choisir l’option « Old view » et ensuite cliquer sur

« Reformat ».

Page 9: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

9

12. Les correspondances à votre séquence sont présentées sous trois formats.

Un format graphique tel que celui-ci :

Plus bas sur la page, un format textuel comme celui-ci :

Page 10: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

10

Et encore plus bas, les alignements des séquences :

Pour cet exercice, le format qui nous intéresse c'est la liste des différents fichiers obtenus qui

représentent des correspondances.

Parmi l'information qui peut être retrouvée sont les valeurs suivantes :

« Query coverage » : Cette valeur indique l’étendue de la séquence (de requête) qui

correspond à la séquence trouvée. Par exemple, si la requête est de 631 nucléotides et

BLAST peut aligner tous les 631 nucléotides de cette requête à une correspondance, alors

cela serait une couverture de 100%. Rappelez-vous, « Query coverage » ne prends pas en

considération la longueur de la séquence retrouvée, mais seulement le pourcentage de la

requête qui s’aligne avec la correspondance.

La valeur prévue (« Expect ») (E) représente le nombre de correspondances (HITS) que

vous devriez trouver lors d’une recherche d’une base de données de séquences aléatoires.

Lorsque les valeurs E sont inférieures à 1, elles sont équivalentes à la probabilité que deux

séquences ont une certaine correspondance. Cela signifierait que si nous avons une « valeur

E » de 0,01, il y a 1% de chances qu’on trouverait une correspondance dans une base de

données de séquences aléatoires. Souvent, les valeurs E sont très faibles.

En fait, si nous avons une correspondance parfaite, la "valeur E" peut être donnée comme

zéro. Deux facteurs supplémentaires ont une forte influence sur les valeurs E. Ce sont la

longueur de la séquence et la taille de la base de données. C'est parce qu'il est plus facile de

trouver une correspondance parfaite à une séquence plus courte.

Il est également plus facile de trouver une correspondance dans une base de données plus

grande.

Page 11: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

11

« Ident. » : BLAST calcule le pourcentage d'identité entre la requête et le résultat pour un

alignement de nucléotide à nucléotide. Comment expliquez-vous le fait que plus d'une

séquence possède une identité de 100%?

Notez que certaines des séquences représentent des séquences du génome entier! Par

exemple, la première séquence de cette recherche. Pour cet exercice, vous souhaitez obtenir

la séquence du gène et non celle du génome. Celles-ci sont parfois suivies de la lettre « G »

et parfois d’autres lettres. Ignorer ces autres lettres. Notez dans l'exemple ci-dessus que le

fichier suivi d'un « G » indique 100% d'identité, mais seulement une couverture de 42%.

Qu'est-ce que cela veut dire?

13. Cliquer sur le numéro d’accession pour visualiser la fiche. Vous devriez obtenir un

fichier semblable à celui-ci :

To convert to FASTA

1

2

4

3

5 6

7 8

Page 12: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

12

14. L’information qui peut être obtenue d’un fichier nucléotidique:

La définition (#1): Fournit une brève description de la séquence, qui inclut de

l’information telle que l’organisme source, le nom du gène/nom de la protéine ou une

description de la fonction de la séquence.

Le numéro d’accession (#2): Un identificateur unique du fichier de la séquence.

L’organisme (#3): Le nom formel scientifique pour l’organisme source (genre et

espèce).

La source: (#4): L’information inclut une forme abrégée du nom de l’organisme

parfois suivi du type de molécule.

.

CDS (#5): Séquence codante; région de nucléotides qui correspond à la séquence

d’acides aminés de la protéine (inclut sont les codons « Start » et « Stop »). En

cliquant sur ce lien vous pourriez obtenir la séquence de l’ARNm du codon « Start »

au codon « Stop ».

o Gene = (#6): Le nom du gène.

o Product = (#7): Le nom du produit du gène.

o Protein_id. (#8): Ceci est le numéro d’accession de la protéine. En cliquant

sur ce lien vous pouvez obtenir le fichier de la protéine.

15. Dans plusieurs des exercices ultérieurs, vous devrez obtenir et sauvegarder ces séquences

sous format FASTA. Afin de changer la présentation à FASTA, choisir FASTA au haut

de la page. Vous devriez être redirigé à une page semblable à celle-ci :

Page 13: INTRODUCTION À LA BIOINFORMATIQUE

Biologie moléculaire-2019

13

16. Vous pourriez maintenant sélectionner et copier la description qui est précédée par le

symbole « > » ainsi que la séquence et la collée dans le programme de votre choix, ou

dans « Notepad » si vous désiriez sauvegarder la séquence sous ce format.

17. Pour votre devoir, obtenir les informations suivantes pour chacune des séquences

inconnues disponible sur la page web de ce cours (Séquences > Gènes inconnus):

Numéro d’accession

« Coverage »

Ident.

Valeur E

La définition

L’organisme duquel cette séquence a été obtenue

Le nom du gène

Le nom du produit du gène

Le numéro d’accession de la protéine