4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A,...

22
4.9 Cartographie génétique appliquée à H. sapiens 4.9.1 Maladies transmises de manière mendélienne ... cad causées par une mutation dans un seul gène : on va alors rechercher de marqueurs génétiques qui ségrégent avec la maladie maladie récessive maladie dominante But principal ? Identifier les gènes associés aux maladies génétiques. Deux cas de figure doivent être considérés.

Transcript of 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A,...

Page 1: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

64

4.9 Cartographie génétique appliquée à H. sapiens

4.9.1 Maladies transmises de manière mendélienne

... cad causées par une mutation dans un seul gène : on va alors rechercher de marqueurs génétiques qui ségrégent avec la maladie

maladie récessive maladie dominante

But principal ? Identifier les gènes associés aux maladies génétiques. Deux cas de figure doivent être considérés.

Page 2: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

Années 90s : identification de nombreux SSLPs dans le génome humain (et celui de la souris) qui sont ensuite positionnés les uns par rapport aux autres le long des chromosomes en examinant leur transmission au sein des membres d’un grand nombre de familles. En parallèle, construction de cartes physiques du génome humain et de celui de la souris.

65

Grâce à l’établissement de ces cartes génétiques, et à la

cartographie physique du génome humain, la plupart des gènes responsables de maladies à

transmission mendélienne ont pu être identifiés. Comment ?

Page 3: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

66

M1(B,C)

M1(A,C) M1(A,C) M1(A,C) M1(B,B) M1(B,B) M1(B,C)

I

II

III

Ex. maladie provoquée par une mutation dominante : les membres des la famille sont génotypéspour les différents marqueurs, afin d’en trouver un qui est transmis avec la maladie.

Ex., génotypage par un marqueur SSLP particulier (M1) à 3 allèles (A, B et C) :

Pour tester cette hypothèse, on examine le génotype des individus III.1 à 6 : la maladie est-elle transmise avec M1A ? Le résultat suggère qu’il n’y a pas de liaison étroite entre le SSLP M1 et le gène car parmi les individus III qui ont développé la maladie (1, 3, 4, 6), il y en a autant qui ont reçu M1B au lieu de M1A, et il en est de même pour ceuxqui ne sont pas malades (2, 5)

M1(A,B) M1(A,C)

M1(A,B)

On teste l’hypothèse que le gène responsable de la maladie est proche de ce SSLP, ce qui implique qu’il aurait été transmis à II.1 avec l’allèle A de ce marqueur (M1) :

M1A x

M1A

M1B

x

Hypothèse testée > individu II.1 :

1 2 3 4 5 6

1 2

Page 4: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

67

M89(B,C) M89(A,C)

M89(A,B) M89(C,D)

M89(A,C) M89(B,C) M89(A,D) M89(A,C) M89(B,D) M89(B,D)

I

II

III

III1,3,4M89A

M89B

xIII2,5

M89A

M89Bx III6

Génotypage de la même famille par un autre marqueur SSLP (M89) à 4 allèles (A, B, C et D) :

Hypothèse -> le gène responsable de la maladie est-il lié à ce marqueur M89 ?

L’hypothèse est envisageable (M89A semble lié à la maladie), à condition de supposer que lors de la méiose chez l’individu II 1 qui a fourni le gamète menant à l’individu III 6, un c/o se soit produit entre M89 et le gène.

Néanmoins, une autre hypothèse estque l’apparente association entre M89et le gène responsable de la maladiesoit fortuite (due au hasard).

Il convient dès lors de mesurer le degré de vraisemblance de cette apparente liaison génétique.

Hypothèse testée > individu II.1 :

1 2 3 4 5 6

1 2

xc/o

gamètes parentauxgamète

recombinant

Page 5: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

68

La notion de “lod score” : mesure du degré de vraisemblance d’une liaison génétique

probabilité que la transmission observée ait lieu si le marqueur est lié au gène

probabilité que la transmission observée ait lieu si le marqueur n’est pas lié au gène

“lod score” (Z) = log10 “odd score”

Si la valeur de Z est proche de 0 (odd score proche de 1), probablement pas de liaison

Si Z nettement > 0, liaison probable

=“odd score” (1)

ƟR . (1- Ɵ)P

(0.5)(P+R)=

Ɵ = probabilité de transmission d’un gamète recombinant (ou fréq. des recombinants)R = nbre de gamètes recombinants transmis (R = 1 dans l’ex. de la p. 67)1- Ɵ = probabilité de transmission d’un gamète parentalP = nbre de gamètes parentaux transmis (P = 5 dans l’exemple de la p. 67)P + R = nbre total de gamètes transmis, donc de descendants

(1) score de probabilité

On ne connait pas la valeur de Ɵ, on saitjuste qu’elle est comprise entre 0 et 0,5. Onpeut donc calculer la valeur du odd scorepour différentes valeurs de Ɵ.

Page 6: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

69

Calcul du “lod score” pour l’exemple considéré (p. 68) :

Ɵ

Z

Il est difficile de déterminer de manière statistiquement significative si le gène est véritablement lié au marqueur X en examinant une seule descendance (score Z trop faible).

En pratique, les généticiens qui étudient une pathologie génétique donnée examine plusieurs familles touchées par la même maladie -> les valeurscalculées de Z sont ensuite additionnées :

Le score Z le plus élevé (env. 0,64, ce qui reste faible, car proche de 0) est obtenu pour une fréquence de recombinants de env. 0,15 (ou PR = 15%)

Autrement dit, en considérant le cas le plus favorable (PR = 15%), on a environ 4,36 fois plus de chances que la transmission observée soit due à une liaison génétique qu’à une non-liaison (car pour Z = 0,64, le odd score = 4,36 )

Page 7: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

70

Pour chaque famille, on calcule la valeur de Z, puis on somme les valeurs : si Z ≈ 0, pas de liaison, si Z ≽ 3, il y a une forte probabilité de liaison. Dans ce cas, on recherche ensuite le gène d’intérêt dans la zone cartographiée (p. 61 - 63 : carte physique, séquence, ...).

Page 8: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

71

4.9.2 Maladies multifactorielles (“complex diseases”)

- Beaucoup de maladies communes (diabète, m. cardio-vasculaire, m. de Crohn, schizophrénie, ...) sont multifactorielles : le risque de développer ces maladies dépend de plusieurs gènes (1) et parfois aussi de facteurs environnementaux

- La méthode de cartographie basée sur l’analyse de marqueurs de type SSLP n’est pas efficace pour identifier les gènes conférant une certaine susceptibilité de développer (ou ne pas développer) ce type de maladie

- Méthode de choix : rechercher des marqueurs génétiques qui sont statistiquement associés plus fréquemment aux personnes développant ces maladies : “genome-wideassociation studies”, GWA

- Ces analyses GWA ont été rendues possibles grâce au développement d’un autre type de marqueur génétique : SNP (single nucleotide polymorphism) recensé par séquençage. La densité de ces marqueurs est beaucoup plus élevée que celle des SSLPs.

- Tout récemment, de nouvelles études GWA se basent sur le séquençage du génome complet des individus (atteints par une maladie)

(1) en fait, ce sont certains allèles de ces gènes qui augmentent le risque de développer la maladie (!)

Page 9: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

Une fois le génome d’une espèce séquencé, on isole l’ADN d’individus de la mêmeespèce pour en séquencer un maximum de fragments (aléatoire). Les séquences ainsiobtenues sont comparées à la séquence génomique complète de référence et lesSNPs sont ainsi identifiés et répertoriés le long de chaque chromosome(cartographie au nucléotide près).

Les SNPs intéressants pour le généticien sont ceux qu’on retrouve à une fréquencesuffisamment élevée parmi les individus de l’espèce (f ³ 1%). Chez H. sapiens, lenombre de SNPs de ce type est d’environ 10 millions, cad 1 SNP tous les 300 pb enmoyenne.

4.9.2.1 Comment établir une carte génétique de SNPs ?

allèle 1

allèle 2

…AGTCAGAAATC……TCAGTCTTTAG…

en général, 2 allèles / SNP

…AGTCAAAAATC……TCAGTTTTTAG…

72

Rappel : SNP = Single Nucleotide Polymorphism

Page 10: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

Liste des SNPsrépertoriés et validés dans la région codante (ORF) du gène.

Par ex., au codon 25, le 3ème nucléotide est G dans la séq. de référence (-> valine) mais peut aussi être A (-> méthionine),

Pour chaque gène humain, la liste des SNPs est aujourd’hui accessible sur internet:

ex. liste des SNPs pour le gène humain

UBE2I« coding » SNP

73

Page 11: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

4.9.2.2 Inventaire des haplotypes humains (projet international HAPMAP)

hot spot

Etablir l’inventaire des SNPs humains, c’est bien. Mais établir l’inventaire des haplotypes (projet HAPMAP), et par la même occasion de la position des "hot spots" de crossing-over, c’est mieux.

Comment? Génotypage de 90 individus et leurs deux parents (donc 270 au total) provenant du Niger, USA, Chine, Japon, EU, .. pour un ensemble de 3,2.106 de SNPs communs.

Il existe un nombre limité de versions (haplotypes) de chacune de ces régions chromosomiques, selon les combinaisons de SNPsprésentes 74

Page 12: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

Technique de génotypage des SNPs ? biopuces d'ADN ("microarrays", ou microdamiers)

-> permet de génotyper rapidement une personne pour un très grand nombre de SNPs répartis dans tout le génome

75

500.000 cases par biopuce

biopuce

chaque case contient des millionsd’exemplaires identiques d’un

oligonucléotide (25 nt)

Page 13: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

25 nt

allèle A

allèle B

Les deux allèles d’un SNP peuvent être représentés par quatre oligonucléotides sur la biopuce (PM = perfect match):

PMA

PMB

Quatre oligonucléotides supplémentaires, comprenant une substitution au niveau du SNP (mismatch), servent de contrôles :

MMA

MMB

sensantisens

sensantisens

sensantisens

sensantisens

Aucun de ces 4 oligonucléotides n'est parfaitement complémentaire aux allèles A et B, ils ne devraient donc pas s'y hybrider

25 nt Le MMA sens ne peut s'hybrider à l'allèle A antisens

76

GGATACCATGAGAATCGACCACTAGCCTATGGTACTCTTAGCTGGTGATC

GGATACCATGAGCATCGACCACTAGCCTATGGTACTCGTAGCTGGTGATC

GGATACCATGAGTATCGACCACTAGCCTATGGTACTCATAGCTGGTGATC

GGATACCATGAGGATCGACCACTAGCCTATGGTACTCCTAGCTGGTGATC

Page 14: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

Principe de l’expérience de génotypage

L'ADN d'un individu est purifié, découpé en petits fragments, marqués (par une molécule fluorescente), dénaturé et enfin hybridé à la biopuce. On détecte ensuite, au niveau de chaque case de la biopuce, la présence de molécules fluorescentes (haque case blanche = un oligonucléotide de la biopuce ayant hybridé à l'ADN marqué).

Dans l’exemple de ce SNP, la mère est homozygote pour l’allèle A, le père est homozygote pour l’allèle B, et l’enfant est hétérozygote A/B. AA BB AB

77

Deux SNPs proches dans la séquence sont bien entendus génétiquement liés (tendance à la co-transmission). S’ils ne sont jamais séparés par un crossing-over (c/o) malgré la distance qui les sépare, ils font partie du même haplotype.

Page 15: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

Donc, grâce au projet HapMap, on a établi le recensement des principaux haplotypes de l’espèce humaine et défini des tSNPs correspondants (> placés sur les biopuces d'ADN pour le génotypage des individus)

Cette région du chr. 2 est représentée par sept principaux haplotypes au sein de la population humaine mondiale (chacun à une fréquence particulière).

Pour chaque haplotype, on peut définir un SNP marqueur ou indicateur ("tag SNP", tSNP) : ex. si le 4ème SNP chez un individu est la base « T », il s’agit de l'haplotype n°1. Ces tSNPs sont très utiles, il suffit de génotyperces tSNPs (pas les 36) pour déterminer l'haplotype (donc le génotype).

rem : les " tag SNPs " colorés permettent de distinguer les haplotypes 4 à 7

1

2

3

4

5

6

7

Il est possible de reconstruire la phylogénie des haplotypes

78

Ex. : région du chr. 2 de 8477 pb précédée et suivie de "hot spots " de c/o. Cette région comporte 36 SNPs (cf. bases indiquées) :

Les haplotypes 4 à 7 apparaissent comme

évolutivement proches

Les haplotypes 2 et 3 apparaissent comme

évolutivement proches

cM/kpb

Page 16: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

Grâce à l’emploi de biopuces pour génotyper cette fois les tSNPs, cad les haplotypes

79

4.9.2.3 Analyse GWAS (genome-wide association studies)

Principe ?

Si une variation génétique particulière au sein du génome humain, même rare,augmente le risque de développer une maladie particulière, on peut s’attendreà retrouver cette variation à une fréquence plus élevée parmi les individusatteints de cette maladie (par rapport à ceux qui ne la développent pas),étant entendu que tous les individus malades ne possèdent pasnécessairement cette variation.

Or, cette variation génétique sera située dans un haplotype. On va doncrechercher des haplotypes particuliers qui apparaissent plus fréquemmentchez les personnes touchées par cette maladie, dans le but de localisercette variation.

Page 17: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

Emploi d’une biopuce pour analyser uniquement les tSNPs (tag SNPs).

L’ADN d’un grand nombre de personnes souffrant par ex. d’une maladie multifactorielle particulière et d’un groupe témoin (personnes saines) est génotypé pour les tSNPs régulière-ment espacés tout le long du génome.

On teste ainsi si la fréquence de chaque haplotype est significativement différente entre les deux groupes (ex. cas du tSNP vert ®hypothèse: un gène - ou plutôt un allèleparticulier de ce gène – au sein de ce haplotype est associé à la maladie.

f = fréquence d’un haplotype

80

Hypothèses

la mutation (rare) est survenue au sein de l’haplotype

ou elle correspond à un SNP particulier de cet haplotype

?

?

haplotype identifié

Page 18: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

On constate qu’une dizaine de groupes d’haplotypes, répartis sur diff. chromosomes, sontgénétiquement liés à un risque accru de développer la maladie de Crohn. Dans plusieurs cas,l’haplotype “tombe” au sein d’un gène bien précis (ex. IL23R sur le chr. I ou CARD15 sur lechr. 16). Cela signifie que certains allèles de ces gènes (dont des SNPs !) confèrent un risqueaccru de développer la maladie.

Pour chaque tSNP ou haplotype, on teste si la liaison à la maladie est statistiquementsignificative (si valeur de SL ³5 , alors la liaison est considérée comme hautementsignificative).

chaque point corres-pond à un tSNP

Ex. de maladie polygénique : maladie de Crohn

81

Page 19: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

Le tSNP le plus significatif (rs11209032) correspond à un haplotype assez rare (f = 0,067) qui contient un polymorphisme unique (G > A) provoquant le remplacementd’un aa arginine (Arg) par une glutamine (Gln) au codon n°381 du gène ILR23R. Hypothèse : cette mutation augmente le risque de développer la maladie de Crohn

Le gène IL23R(récepteur de l’interleukine 23) contient un trèsgrand nombre de SNP (629 dansl’unité de trans-cription) et présente qqesdizaines d'haplo-types (points = t-SNP) entre deux hot spots de recombinai-son (graphe en bleu)

82

Page 20: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

83

Page 21: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

139 associations génétiques recensées (fin 2008) 84

Page 22: 4.9 Cartographie génétique appliquée à H. sapiens · a autant qui ont reçu M1B au lieu de M1A, et il en est de m ême pour ceux qui ne sont pas malades (2, 5) M1(A,B) M1(A,C)

85

4.9.2.4 Dernière tendance : analyse GWAS (genome-wide association studies) par séquençage NGS

Le génome de toutes les personnes(groupe test et groupe témoin) estséquencé (méthod NGS), et les analyses bioinformatiques recherchent les variations génétiques associées, de manière statistiquement significative, au groupe de malades.

Etudes actuellement en cours :

Ex. projet UK10K (www.uk10k.org): séquençage du génome de 10.000 individus : 4000 individus sains, 6000 individus porteurs de pathologies diverses

http://www.uk10k.org

différentes pathologies