Mémoire de stage .DEA de génétique multifactorielle de l'université d'Orsay Paris XI, ......

download Mémoire de stage .DEA de génétique multifactorielle de l'université d'Orsay Paris XI, ... analyses

of 42

  • date post

    14-Sep-2018
  • Category

    Documents

  • view

    212
  • download

    0

Embed Size (px)

Transcript of Mémoire de stage .DEA de génétique multifactorielle de l'université d'Orsay Paris XI, ......

  • Mmoire de stage long d'Anne-Sophie Carpentier

    Etude et comparaison de mthodes statistiques pour l'analyse de donnes de transcriptome

    DEA de gntique multifactorielle de l'universit d'Orsay Paris XI, cohabilit avec Paris VI, VII et l'INA P-G

    Anne 2001-2002 Equipe d'accueil : Laboratoire "Gnome et Informatique"

    CNRS/Universit d'Evry Tour Evry2, 523 Place des Terrasses 91034 EVRY

    Responsables de stage: Alain Hnaut et Jean-Loup Risler

  • Rsum La plupart des travaux en gnomique fonctionnelle utilisent les puces ADN pour dterminer les variations d'expression des gnes en fonction des conditions exprimentales. Ces puces gnrent des volumes de donnes importants qui posent des problmes d'analyse statistique. Aucun consensus n'existe jusqu' prsent sur les mthodes employer pour analyser les donnes obtenues. L'objet de ce stage est de rechercher des mthodes d'analyse statistique la fois robustes et sensibles et de comparer ces diffrentes mthodes sur deux jeux de donnes : une exprience sur le mtabolisme du soufre de Bacillus subtilis et une exprience de transcriptome sur le cycle circadien de la souris. Cette tude porte sur quatre mthodes : des mthodes exploratoires comme lanalyse en composantes principales (ACP) et lanalyse en composantes indpendantes (ACI) et des analyses plus diriges comme lanalyse de variance (ANOVA) et la rgression par la mthode des moindres carrs partiels (PLS). Par ailleurs, deux mthodes complmentaires de reprsentation des profils d'expression ont t abordes : la classification hirarchique et l'ACP. La comparaison des mthodes se fonde essentiellement sur lexprience sur Bacillus subtilis, car lorganisation en oprons des gnes fournit un tmoin interne de la cohrence des rsultats. LANOVA donne les rsultats les plus cohrents dans la mesure o elle classe peu prs de la mme faon la plupart des gnes dun opron. Elle prsente aussi lavantage de fournir une bonne approximation de la signification statistique des rsultats. Cependant, elle ncessite un plan d'exprience complet et le plus rgulier possible. LACI et la PLS font ressortir, elles aussi, des oprons. Toutefois, leurs rsultats sont, en gnral, moins cohrents quavec lANOVA. LACI prsente nanmoins lintrt dtre une technique exploratoire, susceptible de dceler des profils dexpressions inattendus. LACP na pas donn de rsultats satisfaisants pour la recherche de gnes diffrentiellement exprims. En revanche, elle est intressante pour reprsenter les profils d'expression obtenus (particulirement dans le cas des sries temporelles).

  • Sommaire

    1 INTRODUCTION ....................................................................................................................................... 2

    2 PRESENTATION DES DONNEES UTILISEES DANS CE RAPPORT .............................................. 4

    2.1 DONNEES DUNE ETUDE DU METABOLISME DU SOUFRE DE BACILLUS SUBTILIS......................................... 4 2.2 DONNEES DUNE ETUDE DU RYTHME CIRCADIEN DE LA SOURIS................................................................. 4 2.3 TRANSFORMATIONS PRELIMINAIRES.......................................................................................................... 5

    3 METHODES EXPLORATOIRES TYPE ACP, ACI............................................................................... 6

    3.1 UNE METHODE CLASSIQUE DE VISUALISATION DU NUAGE PAR SA PROJECTION SUR LES AXES DINERTIE : LACP................................................................................................................................................................. 6

    3.1.1 Expos de la mthode ..................................................................................................................... 6 3.1.2 Rsultats obtenus............................................................................................................................ 7

    3.2 UNE METHODE DE RECHERCHE DES AXES MAXIMISANT LECART A LA NORMALITE : LACI...................... 9 3.2.1 Principe de la mthode ................................................................................................................... 9 3.2.2 Ralisation concrte...................................................................................................................... 10 3.2.3 Rsultats obtenus.......................................................................................................................... 11

    4 METHODES DIRIGEES.......................................................................................................................... 13

    4.1 LANALYSE DE LA VARIANCE ANOVA ................................................................................................ 13 4.1.1 Expos de la mthode ................................................................................................................... 13 4.1.2 Rsultats obtenus.......................................................................................................................... 15

    4.2 PLS ......................................................................................................................................................... 17 4.2.1 Expos de la mthode ................................................................................................................... 17 4.2.2 Rsultats obtenus.......................................................................................................................... 17

    5 LA REPRESENTATION DES PROFILS DEXPRESSION ................................................................ 19

    5.1 LA CLASSIFICATION HIERARCHIQUE ........................................................................................................ 19 5.1.1 Expos de la mthode ................................................................................................................... 19 5.1.2 Rsultats obtenus.......................................................................................................................... 20

    5.2 LANALYSE DES SERIES TEMPORELLES PAR ACP..................................................................................... 20 5.2.1 Expos de la mthode ................................................................................................................... 20 5.2.2 Rsultats obtenus.......................................................................................................................... 21

    6 SYNTHESE : COMPARAISON DES DIFFERENTES METHODES................................................. 22

    7 AMELIORATIONS ENVISAGEABLES................................................................................................ 24

    8 BIBLIOGRAPHIE .................................................................................................................................... 25

    ANNEXE : IMPLICATION DE L'ARGININE DANS LES VOIES METABOLIQUE DU SOUFRE DE B. SUBTILIS............................................................................................................................................................. 27

    1

  • 1 Introduction La dernire dcennie du vingtime sicle a vu un changement radical de la recherche en biologie : des analyses de lexpression de gnes isols, nous sommes passs ltude simultane de nombreux gnes ou protines. Cette avance na pu se raliser qu partir de progrs technologiques importantes et de la mise en place de squenages systmatiques de gnomes. Bien que la majorit des travaux concernent les bactries (90 % des gnomes connus sont des gnomes bactriens et 60 % des programmes en cours portent encore sur des bactries), les observations saccumulent sur les organismes pluricellulaires, depuis une mouche (Drosophila melanogaster) jusqu lHomme en passant par les plantes (Arabidopsis thaliana). De nombreuses plantes dintrt agronomique sont en cours de squenage comme le riz (presque achev), le mas, le tournesol ou encore le coton. La gnralisation du squenage systmatique a ouvert une nouvelle re de recherche : la gnomique fonctionnelle. Lobjectif est maintenant de dterminer le rle des gnes identifis par le squenage et de dceler leurs interactions afin de comprendre le fonctionnement du gnome dans son ensemble. Les donnes exprimentales proviennent principalement de la mesure des niveaux intracellulaires des ARN (le transcriptome), des protines (le protome) et des mtabolites (le mtabolome). En raison dune relative facilit, la plupart des travaux portent actuellement sur la mesure des concentrations intracellulaires des ARN. Le principe de la mthode est bas sur lhybridation spcifique dun fragment dun gne et de lARN correspondant. Plusieurs techniques coexistent actuellement (dpts sur des membranes de nylon ou sur des lames de verres, utilisation de la radioactivit ou de la fluorescence, fragments de gnes de petite ou de grande taille), mais ceci a peu dinfluence en pratique sur les rsultats. Les objectifs des travaux peuvent tre classs en ordre de complexit croissante :

    1. obtenir des profils dexpression ayant une valeur diagnostique, 2. dterminer les variations dexpression des gnes en fonction des conditions

    physiologiques, 3. dceler les covariations afin den infrer les units de rgulation et leurs rseaux

    dinteraction. Lanalyse du transcriptome se distingue radicalement des expriences classiques en biologie par le volume de donnes quelle gnre. Chaque extraction dARN total donne au minimum une mesure pour chaque gne alors quil y a de quelques milliers quelques dizaines de milliers de gnes dans un gnome. Les problmes statistiques varient selon les tapes. Il est possible de distinguer plusieurs tapes en fonction des outils utiliss :

    le traitement des images et la quantification (passage des pixels aux niveaux dexpression),

    la transformation des donnes (filtres, normali