Sujet de stage : Classification de Galaxieslpc2e.cnrs-orleans.fr/~theureau/Nezha_ElBakri_1.pdf ·...

32
UNIVERSITE D’ ORLEANS Année 2004-2005 Rapport de stage de Master 1 Mathématiques Spécialité : Mathématiques pour l’Aide à la Décision Mémoire présenté par Nezha  EL BAKRI Sujet de stage : Classification de Galaxies 1

Transcript of Sujet de stage : Classification de Galaxieslpc2e.cnrs-orleans.fr/~theureau/Nezha_ElBakri_1.pdf ·...

UNIVERSITE D’ ORLEANSAnnée 2004­2005

Rapport de stage de Master 1 MathématiquesSpécialité : Mathématiques pour l’Aide à la Décision

Mémoire présenté par Nezha  EL BAKRI

Sujet de stage :   Classification de Galaxies

1

2

Remerciements      :  

Je tiens tout d’ abord à remercier Pierre­Louis Blelly, directeur du LPCE, pour m’ avoir accueilli ausein de son établissement.

Je remercie grandement  Gilles Theureau, mon responsable de stage, pour son encadrement, sesexplications en astronomie et sa disponibilité, je le remercie également pour m’ avoir permis d’ assisterà un séminaire sur l’ astronomie.

Merci à Ismaël Cognard pour son aide technique.

Un grand merci à Jean­Pierre Lamarche, mon enseignant responsable, qui a répondu à toutes mesquestions durant mon stage.

Je souhaite remercier  Richard Emilion pour m’ avoir proposé le stage, et pour ses explicitations enprobabilités et statistiques.

Enfin, je remercie l’ ensemble du personnel du LPCE, en particulier le secrétariat pour leurenthousiasme et leur efficacité. 

                   

3

4

                         Table des matières      :     

Présentation du laboratoire d’ accueil...................................................7

Introduction..........................................................................................9

1­Généralités.......................................................................................11          1.1 Contexte scientifique et présentation des données..............11          1.2 Méthodes mathématiques utilisées.....................................12          1.3 Logiciels..............................................................................13                 2­Analyse en composantes principales................................................15          2.1­Analyse de l’ échantillon 1...................................................15          2.2­Analyse de l’ échantillon 2...................................................22          2.3­Analyse de l’ échantillon 3­spirales.....................................26          2.4­Analyse de l’ échantillon 3­elliptiques.................................27

3­Méthodes de classification...............................................................31          3.1­Classification morphologique.............................................31          3.2­Classifications hiérarchique et automatique.......................52

4­Méthode paramétrique : Estimation d’un  mélange de lois… ..........61

Conclusion..........................................................................................71

Bibliographie......................................................................................73

Annexes..............................................................................................75

5

6

PRESENTATION DU LABORATOIRE D’ACCUEIL

Situation géographique.

Le stage s’e st déroulé dans le Laboratoire de Physique et Chimie de l’ environnement (LPCE) qui estune Unité Mixte de Recherche du Centre National de Recherche Scientifique (CNRS) et del’ Université d’ Orléans ; il est rattaché au département des Sciences de l’ Univers du CNRS. Il estlocalisé sur le campus CNRS d’ Orléans. Le LPCE collabore avec de nombreux instituts et partenairesindustriels du monde entier.

Activités du laboratoire

Le LPCE développe l’in strumentation nécessaire à ses recherches et mène donc en parallèle desétudes de recherche et Développement, en particulier sur des capteurs électriques et magnétiques etl’é lectronique associée. Il joue ainsi un rôle de leader dans l’ axe régional de la microélectronique.Les activités de recherches sont basées sur le développement et l’ exploitation scientifiqued’ instruments utilisés au sol (études de laboratoire, grands instruments), à bord de satellites et desondes spatiales.Les recherches effectuées au LPCE  ont pour objectif d'identifier et de modéliser les processuschimiques et physiques se produisant dans les environnements spatiaux.Ces recherches à caractère fondamental se répartissent en quatre axes majeurs :

Physico­chimie de l’atmo sphère Physique des plasmas spatiauxPhysico­chimie des environnements planétaires

       Astrophysique

L’équipe Astrophysique Le LPCE collabore avec l'Observatoire de Paris Meudon, qui exploite la Station de Radioastronomiede Nançay. Il s'est engagé dans l'utilisation du Grand Radiotélescope de Nançay pour l'étude dedifférents objets célestes émetteurs d'ondes radio (pulsars, galaxies).Un des thèmes de recherche est la simulation numérique des structures de l’univ ers local, qui  consisteà modéliser numériquement la formation de structures telle que  les galaxies et les amas de galaxies.

7

8

INTRODUCTION

                      La classification des galaxies, historiquement basée sur l’ observation à l’ œi l des images, n’ estpas adaptée au grand nombre d’obj ets présents dans les bases de données actuelles (plusieurs millionsde galaxies). Mon stage consiste à mettre en place des outils de classement, sur la base de méthodesmathématiques, permettant de décrire les galaxies de manière objective et automatique à  partir deparamètres physiques mesurés. 

               L’ objectif scientifique est d’obt enir une nouvelle classification qui complète la classificationmorphologique classique et qui permettrait une meilleure compréhension de la formation des galaxieset   de   l’o rigine   de   leur   diversité.   Le   sujet   du   stage   s’in scrivant   dans   un   cadreMathématique/Astronomie, mon travail a donc été  répartit entre deux laboratoires : le laboratoire deMathématiques de l’ Université d’ Orléans et le LPCE. 

          Du point de vue de l'étude mathématique, une large partie concernera l’a nalyse de données deséchantillons, en particulier l’ analyse en composantes principales. Les algorithmes de classification lesplus   fréquemment   utilisés :   les   nuées   dynamiques,   la   classification   hiérarchique,   viendrontapprofondir   et   compléter   l’ analyse   en   composantes   principales.   Ce   stage   sera   aussi   l’o ccasiond’ expérimenter une classification paramétrique basée sur des méthodes de Monte Carlo  par chaînesde Markov (MCMC) qui sont utilisées, en autre, pour estimer la loi de probabilité d’un  système. Unalgorithme MCMC sera simulé sous le logiciel scilab. 

               Dans la première partie,  je présenterai  le contexte scientifique,  les  logiciels,  ainsi  que lesméthodes utilisées. La deuxième partie sera axée sur l’ analyse de données des échantillons. Dans latroisième partie,   j’ appliquerai  des méthodes de classification générales.  Pour  finir,  un programmeimplémentant l’ algorithme de Monte Carlo sera testé sur l’ échantillon 2.

9

10

1­ GENERALITES

           1.1 Contexte scientifique et présentation des données

           La classification des données

                   Une galaxie est  un ensemble  indépendant d’é toiles,  de gaz et  de poussières.  Depuis  ladécouverte des galaxies en tant que telle par Hubble en 1924, les galaxies ont toujours été classéesselon   leur   morphologie.   La   classification   était   uniquement   basée   sur   les   observations   et   lareconnaissance visuelle de caractéristiques plus ou moins clairement définies : présence de bras, debarre, d’a nneau, rapport bulbe sur disque...etc. Les types morphologiques se divisent principalementen trois classes :  elliptiques (E),  spirales (S) et  irrégulières (Irr).  Des subdivisions plus fines danschaque   catégorie   caractérisent   le   type   morphologique.   Ce   classement   est   représenté   par   le« diapason » de Hubble (cf. ci­dessous). 

                                 Le schéma de classification de De Vaucouleurs (1959) est aussi fréquemment utilisé ;   ilintroduit des types intermédiaires et des classifications plus fines.           Une galaxie doit être considérée dans son environnement ; ce dernier étant un facteur importantcar il agit sur la morphologie et  sur l’ évolution d’ une galaxie à travers les fusions (« merging ») et parla formation stellaire plus ou moins importante selon le contexte où se situe la galaxie.

11

Par  conséquent,   les   types  morphologiques  sont   reliés   au  degré  d’ évolution  d’ une  galaxie  et   sontcorrélés avec certaines caractéristiques physiques et chimiques.                La formation et l’ évolution des galaxies sont encore peu connues et nécessitent d’ étudier deséchantillons plus profonds et de taille importante (plusieurs milliers). La méthode de classificationactuelle n’ est pas adaptée à l’ étude de tels échantillons ; en effet, il serait impossible d’ étudier chaquegalaxie séparément.La   recherche  de  nouvelles  méthodes  de  classification  objectives,   indépendantes  des  observations,devient nécessaire.          

Les données

         Les données sont constituées de quatre échantillons de galaxies extraites de la base de donnéesHyperleda qui compile les paramètres astrophysiques de 2.7 millions de galaxies de l’univ ers proche.L’échantillon   1  (51737   galaxies)   est   constitué   de   toutes   les   galaxies   possédant   un   typemorphologique. L’échantillon 2 (30597 galaxies) est un sous ensemble de l’é chantillon 1, pour lequelon   a   la   distance ;   ce   qui   permet   d’obt enir   plus   de   paramètres   intrinsèques   et   notamment   desparamètres  photométriques.  Les  échantillons  3­spirales  et   3­elliptiques  (respectivement  7158   et2070 galaxies) sont des sous ensembles de l’ échantillon 2 ; des paramètres ont été rajoutés : la  vitesse(vitesse de rotation pour les spirales et vitesse de dispersion pour les elliptiques), qui caractérise lamasse. On distingue deux types de paramètres pour une galaxie :                ­ Les paramètres apparents, dépendants de la distance.                ­ Les paramètres intrinsèques, liés à la physique des objets, indépendants de la distance.                  Ils donnent les caractéristiques absolues d’ une galaxie.

Un paramètre de classe  « typ » donne le type de la séquence morphologique classique deHubble. La variable typ prend des valeurs comprises entre :   ­5   et   ­2 pour  les elliptiques   ­2  et   1   pour les lenticulaires    1   et  10  pour  les spirales

Pour l’ étude des galaxies, seuls les paramètres intrinsèques seront utilisés.

            1.2 Méthodes mathématiques utilisées

                 Une   première  étape   dans   la   classification   de   galaxies   est   d’ effectuer   une  analyse   encomposantes principale  ACP sur chaque échantillon.L’ACP   permet   dans   un   premier   temps,   de   réduire   l’e space   des   données   tout   en   conservant   lemaximum de l’in formation. Ainsi, sur un espace à 2 ou 3 dimensions, est représenté un pourcentageélevé de l’ information (en générale >50%). L’  ACP permet également de repérer les variables les   plus importantes et la formation d’é ventuelsclasses d’ individus.Les données sont sous la forme d’un t ableau du type  individus * variables quantitatives.Dans la plupart des cas, les variables sont hétérogènes : elles ne sont pas exprimées dans les mêmesunités. Ainsi, l’An alyse en Composantes Principales est en générale effectuée sur les données centréeset réduites : on parle alors d’a nalyse en composantes principales normée (ACPN).         Dans l’esp ace des individus, la distance utilisée est la distance euclidienne usuelle.Les plans de projections issus de  l’ACPN,  seront utilisés pour représenter la distribution des points.

12

         Une deuxième étape consiste à appliquer des algorithmes de classification classiques, commepar exemple les nuées dynamiques, la classification hiérarchique.                 Enfin, on expérimentera des techniques de type « mélange de lois » avec l’ algorithme de MonteCarlo Markov Chain (MCMC). Cet algorithme donne une estimation des paramètres d’un m élangede lois caractérisant la distribution des points dans un espace donné.  Schéma d’un m odel de mélange :                                     x1, x2,.., xm   ~  [p1*f(x / E1) + … +pN *f(x / En) ]                            (Observations)                 (Combinaison convexe de lois de probabilités f                                                                        de paramètres E)    

    

1.3  Logiciels 

Les logiciels utilisés pour l’e nsemble de l’ étude des échantillons seront :­ Scilab : c’ est un logiciel qui permet d’ effectuer toutes les opérations en calculs numériques.­ SAS : c’ est un logiciel de traitements statistiques.

       Le logiciel SAS                        L’ analyse en composante principale  (ACPN) se   fera sur  SAS,  qui  possède des  fonctionsprédéfinies pour l’ analyse de données. Je ne vais ici décrire que les principales étapes d’ut ilisation etde programmation sous SAS, certaines  procédures sont détaillées en annexe.Pour être exploitée, la base de donnée doit être enregistrée sous le format SAS. C’est l’étape DATACette étape crée une table SAS temporaire qui sera détruite à la fin de la session. Il est cependantpossible   d’e nregistrer   une   table   SAS   pour   pouvoir   l’ut iliser   ultérieurement   (voir   programme   enannexe).

Pour effectuer des opérations sur ces données SAS, on utilise des procédures :  c’est l’étape PROC.Les principales procédures utilisées sont données ci­dessous :  

  La procédure PRINCOMP effectue une ACPN ; les principales sorties affichées sont les statistiquesdescriptives, les valeurs propres et les coordonnées des variables sur les axes crées. Pour obtenir lesgraphiques de projections des galaxies et des variables, indispensables à l’i nterprétation, il faudraprogrammer. La procédure DISCRIM effectue une analyse discriminante.

La classification hiérarchique se fera avec la procédure CLUSTER.

La classification par nuées dynamique (classification automatique) se fera avec la procédureFASTCLUS.

Remarque : Sur SAS, les données sont considérées uniquement comme des tableaux ; pour pouvoirfaire des calculs matriciels sur les données, il faut utiliser la procédure IML. IML permet d’ effectuer des produits scalaires, produit terme à terme, concaténation de matrices…

13

       Le logiciel  Scilab 

Scilab ne sera utilisé que pour effectuer une simulation de l’ algorithme MCMC (voir en annexe).

14

2­ANALYSE EN COMPOSANTES PRINCIPALES            2.1­ ANALYSE DE L’ECHANTILLON 1

L’é chantillon 1 est composé de 51737 galaxies. Pour chacune d’ elle, 21 paramètres  ont été mesurés,dont 11 paramètres intrinsèques.

  ­bi, bj, jk : Indices de couleurs (différences de flux entre 2  longueurs d’ondes (B­I, B­J,                        J­K)

                 ­spi: index spectral. C’est également un paramètre de couleur pour une galaxie.         Les paramètres bj et spi sont donc fortement corrélés.

  ­sbb, sbj, sbh, sbk : Brillances de surface  dans les longueurs d’ondes  B, J, H, K.                                    Ils caractérisent la densité moyenne d’étoiles.                                      ­c31j, c31h, c31k : Indice de concentration de la luminosité au centre de la galaxie.                                 Ils mesurent la luminosité au centre de la galaxie.

2.1.1 Statistiques  descriptives     

bi                            bj                        jk                       spi

MoyenneEcart­type

1.573411939        2.243125440       0.8825214698       ­4.4911208640.570430192       0.860923983       0.1504932828        1.468580887

 sbb                           sbj                      sbh                       sbk

MoyenneEcart­type

4.729411516         3.953320428        3.325343517         3.0708179642.594278983         2.591780434         2.591960381         2.570996381

c31j                       c31h                       c31k

MoyenneEcart­type

0.5764541039        0.5813584401       0.57818886390.1100560094        0.1117512086       0.1147472359

   

15

2.1.2 Matrice des corrélations

bi           bj           jk          spi         sbb         sbj         sbh        sbk        c31j        c31h        c31k

 bi bj jk spi sbb sbj sbh sbk c31j c31h c31k

1.000     0.598     0.364    ­.492    0.131     ­.119      0.132      ­.141      0.356      0.331      0.3260.598     1.000     0.386    ­.986    0.277     ­.287     ­.3001     ­.312       0.440      0.433      0.4280.364     0.386    1.000     ­.464    0.400       0.166     0.141     0.109     0.295      0.271      0.240­.492     ­.986      ­.464     1.000    ­.314       0.259     0.275      0.288     ­.435      ­.428       ­.4210.131     0.277    0.400     ­.314     1.000     0.786     0.778     0.769      0.004      ­.019      ­.060­.119      ­.287     0.166     0.259    0.786     1.000     0.999      0.998     ­.214      ­.238        ­.288­.132      ­.301    0.141     0.275     0.778     0.999    1.000      0.999     ­.225     ­.248        ­.298­.141     ­.312      0.109    0.288     0.769     0.998     0.999      1.000     ­.233      ­.256      ­.3040.356     0.440    0.295    ­.435     0.004     ­.214     ­.225     ­.233      1.000       0.912      0.8790.331    0.433    0.272    ­.428     ­.019    ­.238      ­.248      ­.256      0.912        1.000     0.8780.326    0.428     0.240    ­.421    ­.060     ­.288     ­.298      ­.304      0.879       0.878      1.000

2.1.3 Etude des valeurs propres de la matrice des corrélations

Il y a 11 valeurs propres au total. A chaque valeur propre est associé un vecteur propre ; ces vecteurspropres sont les vecteurs directeurs des 11 axes sur lesquels on projette les galaxies. 

Le seuil de significativité pour un axe est de (100/11) %  soit environ 9.09% .Le pourcentage del’ inertie de chaque valeur propre représente la part d’ information portée par l’ axe qui lui correspond.Ainsi, on dira  qu’ un axe est significatif si sa part d’ information, est supérieure à 9.09%.  

                   Valeur               axe de                          Propre              l’ACPN                  Différence        Proportion     Cumulée

          1    4.68916155           axe 1                     1.36835072        0.4263              0.4263          2    3.32081084           axe 2                     1.84687407        0.3019              0.7282          3    1.47393677           axe 3                     0.83720498        0.1340              0.8622          4    0.63673179           axe 4                     0.03432706        0.0579              0.9201          5    0.60240473           axe 5                     0.47304536        0.0548              0.9748          6    0.12935937           axe 6                     0.04211308        0.0118              0.9866          7    0.08724630           axe 7                     0.02755745        0.0079              0.9945          8    0.05968885           axe 8                     0.05903691        0.0054              0.9999          9    0.00065194           axe 9                     0.00064569        0.0001              1.0000         10    0.00000625          axe 10                   0.00000463        0.0000              1.0000         11    0.00000162          axe 11                                              0.0000              1.0000

16

D’ après le tableau des valeurs propres, les axes 1 et 2 de l’ ACPN possèdent respectivement 42.63%et  30.19%  de l’ information totale. L’ information est donc principalement  concentrée sur  les axes 1et 2. L’a xe 3  ayant un pourcentage de l’ inertie totale égale à 13.4%, il sera également étudié. 

Les galaxies seront donc projetées sur ces 3 premiers axes qui représentent 86.22% del’information. L’analyse en Composantes Principales nous a permis de passer d’un espace à 11dimensions à un espace de dimension 3 avec 86.22% de l’information conservée.

Par la suite, on étudiera dans un premier temps les projections des galaxies  sur le plan formé par lesaxes 1 et 2, puis sur le plan formé par les axes  1 et 3.

2.1.4 Représentation des variables sur les  axes 1 et 2

Les coordonnées d’une   variable  sont les coefficients de corrélation de cette variable avec les axes. Cegraphique nous permet donc de donner la signification des axes.

y

- 1

0

1

x

- 1 0 1

Les variables qui  expliquent le plus l’ axe 1 sont :­ sbj, sbh, sbk (les brillances de surface). Plus la valeur en ces variables est élevée et plus la

brillance de surface  est faible dans les longueurs d’ond e J, H, K. On observe de plus, que les brillances selon J, H, K, sont indépendantes de la brillance de surfaceen B. En d’ autres termes, la luminosité moyenne dans le rouge est faible. La galaxie sera plutôtbleue. 

17

­ b­j (différence de couleurs  « bleu – rouge »). C’ est la différence entre la quantité de  lumièrebleue et la quantité de lumière rouge mesurées pour une galaxie. Plus sa valeur est grande et plusla galaxie est rouge c'est­à­dire qu’e lle est majoritairement composée  d’ étoiles « rouges » doncvieilles. 

        ­ spi (index spectral). Plus sa valeur est élevée et plus la galaxie est formée d’ étoiles  « bleues »

donc jeunes.

­ c31j, c31h, c31k (indice de concentration).Plus il est élevé et plus la luminosité au centre de lagalaxie est élevée. Ainsi, une valeur élevée dans ces 3 paramètres signifiera

                Soit que la galaxie possède un bulbe important (si la galaxie est une spirale)                Soit que la galaxie est une elliptique.

Les variables qui expliquent le plus l’ axe 2 sont :­ sbb (brillance de surface en B). Plus sa valeur est grande et plus la brillance moyenne dans le

bleu est faible. La galaxie sera plutôt rouge.­ spi

On peut donc en déduire la signification des axes 1 et 2 :

                                                               

Galaxies à faible brillance de surface en J, H, K. (+)

Axe 2

Galaxies à faiblebrillance de surface en B. (+)

                                                                         Galaxies à                                          couleur rouge.                                           Luminosité concentrée                                                au centre.                                                                               

                                                                Axe 1

Galaxies les plus bleues. (+)

18

  Les 3 morphologies (spirales, lenticulaires, elliptiques) se différencient principalement par l’a xe descouleurs (direction des variables bj ou spi). On remarque que le type morphologique de Hubble est engrande partie expliqué par les couleurs des galaxies (paramètres spi et bj).    Chaque morphologie se disperse selon les axes des brillances de surface.

2.1.5 Projections des galaxies sur les axes 1 et 2

Chaque type morphologique est représenté par une couleur :   ­vert : spirales (typ compris entre 1 et 10)   ­bleu : lenticulaires (typ compris entre ­2 et 1)   ­rouge : elliptiques (typ compris entre ­5 et ­2)

y

- 1 3

- 1 2

- 1 1

- 1 0

- 9

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

6

x

- 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9

      

                                Projections des spirales sur les axes 1 et 2

19

                

y

- 1 3

- 1 2

- 1 1

- 1 0

- 9

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

x

- 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9

                

                                   Projections des  lenticulaires  sur les axes 1 et 2

 

 

                                        Projections des  elliptiques  sur les axes 1 et 2

20

b

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

a

- 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8

                         

e

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

6

d

- 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9

                   

L’é tude simultanée des projections des variables et des galaxies, nous donne un axe de répartition destypes morphologiques (spirales, lenticulaires, elliptiques).

                  Les elliptiques ont un index spectral faible  et une forte concentration de luminosité au centre. C’ esten moyenne les galaxies les plus rouges donc comportant les populations d’ étoiles les plus vieilles.  Les spirales forment une population plus hétérogène. Certaines possèdent les mêmes caractéristiquesque les elliptiques ; on retrouve parmi les spirales, les galaxies les plus bleues donc contenant des générations récentes d’ étoiles. Elles sont  caractérisées par un bulbe peuimportant, et un  disque dominant formé de bras spiraux.  Les lenticulaires sont une famille intermédiaire ayant  une morphologie ambiguë.  Les elliptiques sont différenciées par les axes des brillances de surface : sbb, sbj, sbh, sbk. 

21

                      2.1.6 Projection sur les axes 1 et 3

La projection sur les axes 1 (abscisses)  et 3 (ordonnées) conserve 56.03% de l’ information totale.       

y

- 1

0

1

x

- 1 0 1

Les variables qui contribuent le plus à l’a xe 3 sont :                ­c31j, c31h, c31k (concentration de la luminosité  au centre de la galaxie) :18%               ­spi, bj (couleurs de la galaxie) : 15%.(Les contributions sont proportionnelles  aux coordonnées sur l’ axe)

L’a xe 3  est donc l’ axe qui représente  l’ importance du bulbe et la couleur de la galaxie.

              

y

- 1 0

- 9

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

6

7

8

9

x

- 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9

         Le nuage de points étant peu étalé sur l’a xe 3, il n’ est pas nécessaire de l’ étudier d’ avantage.

22

2.2­ ANALYSE DE L’ECHANTILLON 2

 L’é chantillon 2 est composé de 30597 galaxies mais seules 4014 d’ entres elles sont étudiées enraisons des valeurs manquantes. Toutes les galaxies proviennent  de l’ échantillon 1, et 8 autresparamètres ont été rajoutés, donnant des informations sur la luminosité, la taille, l’e nvironnement, ladistance.

  ­bi, bj, jk : indices de couleurs (B­I, B­J, J­K)  ­spi : index spectral  ­sbb, sbj, sbh, sbk : brillances de surface  dans les longueurs d’ondes  B, J, H, K  ­c31j, c31h, c31k : indices de concentration de la luminosité au centre de la galaxie

Les nouveaux paramètres sont :  ­ mb, mi, mj, mh, mk : magnitudes absolues dans les 5 longueurs d’ondes. (Luminositésintrinsèques de  la galaxie). ­logda : log du diamètre absolu.  ­dens : densité  de l’environnement de la galaxie (nombre de galaxie / unité de volume). C’estun paramètre qui décrit l’environnement de la galaxie (galaxie isolée ou située dans un amas).  ­dk : distance (pas utilisé ici car paramètre non intrinsèque)

2.2.1 Etude des valeurs propres de la matrice des corrélations.

                              Valeur       Axe      Propre        Différence   Proportion     Cumulée

          1    8.39601728    5.12061647        0.4664      0.4664          2    3.27540081    1.20503085        0.1820      0.6484          3    2.07036995    0.43392043        0.1150      0.7634          4    1.63644952    0.70435894        0.0909      0.8543          5    0.93209058    0.13134555        0.0518      0.9061          6    0.80074504    0.23591021        0.0445      0.9506          7    0.56483483    0.41795252        0.0314      0.9820          8    0.14688231    0.07681082        0.0082      0.9902          9    0.07007149    0.00600023        0.0039      0.9940         10    0.06407126    0.02230450        0.0036      0.9976         ...Les 4 premiers axes  possèdent un pourcentage d’ information significatif (> 5.56%), mais seuls les 2premiers  seront étudiés.

23

2.2.2 Projections des variables sur les axes 1 et 2

 La projection sur les 2 premiers axes représente  64.8% de l’ information totale.

              

y

- 1

0

1

x

- 1 0 1

Les variables qui contribuent le plus à l’a xe 1 sont :  ­mj, mh, mk : (10.5%).Plus ces valeurs sont grandes et plus la magnitude absolue dans la longueurd’ond e correspondante est faible (la galaxie est  globalement moins lumineuse ou plus bleue).   ­sbj, sbh, sbk : (7.7%). Plus ces valeurs sont grandes et plus la brillance moyenne dans la longueurd’ond e correspondante est faible.   ­logda : donne la taille d’ une galaxie.

Les mesures suivant les  longueurs d’ond es J, H, K, caractérisent la galaxie dans son ensemble. Enrevanche  les mesures suivant la longueur d’ond e B caractérisent principalement les jeunespopulations stellaires et seront donc plus significatives pour les spirales.

  ­mi : (7.17%)  ­bj : (5.9%)  ­spi : index spectral (5.9%)

 L’a xe 1 est l’a xe des luminosités, il différencie les galaxies selon leurs magnitudes absolues et leursbrillances de surface.

Les variables qui contribuent le plus à l’a xe 2 sont :  ­c31j, c31h, c31k : (environ 10­11%)  ­ mb : magnitude absolue dans la longueur d’ onde B (10%)  ­sbb : Brillance de surface moyenne en B  (11%)  ­ bi, bj, jk : (5.5%)  ­spi : (5.5%)

24

L’a xe 2 caractérise l’impor tance de la  concentration de luminosité au centre d’un e galaxie. Il donneégalement une information sur l’a ge moyen des populations stellaires.

Ainsi, on peut déduire la signification des zones du plan formé par les axes  1 et 2.              

     On remarque que la densité de l’ environnement, donnée par la variable dens,  joue un rôle peuimportant dans la  différenciation des galaxies. Or dans les observations empiriques, la densité est unfacteur qui est très corrélé avec le type morphologique : les spirales sont généralement isolées (ontdonc une densité faible), les elliptiques se trouvent souvent dans les amas de galaxies (ont une densitéen moyenne élevée).

     

Grande concentration de la luminosité au centre. Galaxies  rouges (+)

Axe 2

                                Galaxie à bulbe                                        important et rouge.

                                     

                                    Galaxies à disque                                     important  et bleue (+)

                                                                                                                  Axe  1

Galaxies à diamètre important. (+)                                             Galaxies bleues

                                              

25

2.2.3 Projections des galaxies sur les axes 1 et 2 

             

y

- 1 0

- 9

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

6

x

- 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2

Le nuage est centré à l’or igine, aucun groupe ne se forme. On peut cependant distinguer la netteséparation entre les spirales (en verts) et les elliptiques (en rouges) ; il est donc possible d’ isoler ces 2populations.

    

26

2.3­ ANALYSE DE L’ECHANTILLON 3­SPIRALES

L’é chantillon 3­Spirales  est composé de 7158 galaxies mais seules 1503 d’ entres elles sont étudiéesen raisons des valeurs manquantes, dues essentiellement au paramètre m21 (masse d’hyd rogènecontenue dans la galaxie). Toutes les galaxies sont issues de l’ échantillon 2. Les paramètres del’é chantillon 2 sont tous présents, et deux nouvelles variables ont été rajoutées : ­ logvm : vitesse de rotation  de la galaxie.­ m21 : masse d’hydrogène.

On effectue une ACPN sur l’é chantillon 3­spirales, puis on projette les galaxies sur les 2 premiersaxes qui représentent 55% de l’ information totale.

2.3.1 Etude des valeurs propres                                         Eigenvalues of the Correlation Matrix

                   Valeur        Axe      propre    Différence    Proportion     Cumulée

          1    7.76450913    4.60548700        0.3882      0.3882          2    3.15902213    0.36831144        0.1580      0.5462          3    2.79071069    0.57117655        0.1395      0.6857          4    2.21953414    1.05584455        0.1110      0.7967          5    1.16368959    0.27106665        0.0582      0.8549          6    0.89262294    0.22377280        0.0446      0.8995          7    0.66885014    0.15131360        0.0334      0.9329          8    0.51753654    0.05618808        0.0259      0.9588          9    0.46134846    0.32379716        0.0231      0.9819         10    0.13755130    0.04340814        0.0069      0.9888           ...

2.3.2 Projections des variables sur les axes 1 et 2 

        

y

- 1

0

1

x

- 1 0 1

27

Les axes 1 et 2 ont la même signification que ceux obtenus avec l’ACPN  sur l’é chantillon 2.La vitesse de rotation logvm  est corrélée avec les magnitudes absolues (loi de Tully­Fisher) et avec lataille (logda).La masse d’ hydrogène m21 apparaît comme indépendante des autres variables.

2.3.3 Projections des galaxies sur les axes 1 et 2 

            

y

- 9

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

6

x

- 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9 1 0 1 1

Le nuage est surtout dispersé le long de l’a xe 1 : les spirales se différencient surtout par les couleurs etla luminosité (magnitudes absolues, et brillances de surface).  

      2.4­ ANALYSE DE L’ECHANTILLON 3­ELLIPTIQUES

L’é chantillon 3­elliptiques  est composé de 2070 galaxies à majorité elliptiques, plus quelques spiraleset lenticulaires. Toutes les galaxies sont issues de l’ échantillon 2. Certains paramètres de  l’ échantillon2 ont été supprimés : brillances de surface, magnitudes absolues, diamètre intrinsèque. De nouvellesvariables on été rajoutées pour permettre une meilleure analyse des caractéristiques physiques deselliptiques. 

Les variables sont donc :­  bi, bj, jk, spi­ c31j, c31h, c31k­ typ, dens, dk

­  rj, rh, rk : rayons effectifs (rayon contenant la moitié de la luminosité totale).­ srj, srh, srk : brillances de surface effectives ­logsv : vitesse d’agitation des étoiles dans le potentiel de la galaxie.

On effectue une ACPN sur l’é chantillon 3­elliptiques, puis on projette les galaxies sur les 2 premiersaxes qui représentent 52% de l’ information totale.

28

2.4.1 Tableau des valeurs propresIl y a 16 valeurs propres en tout, le seuil de significativité est donc de 100/16 = 6.25%.

                   Valeur        axe      propre    Différence         Proportion     Cumulée

          1    5.30929448    2.20283576        0.3318      0.3318          2    3.10645872    1.14066434        0.1942      0.5260          3    1.96579438    0.64101948        0.1229      0.6488          4    1.32477490    0.17784015        0.0828      0.7316          5    1.14693475    0.26114367        0.0717      0.8033          6    0.88579108    0.03701313        0.0554      0.8587          7    0.84877794    0.19152119        0.0530      0.9117          8    0.65725676    0.10758917        0.0411      0.9528          9    0.54966758    0.46475719        0.0344      0.9875          10    0.08491040    0.01449336        0.0053      0.9925          ...D’après les valeurs propres, les 5 premiers axes sont significatifs.L’information étant plus diluée, il est nécessaire d’étudier plusieurs axes afin d’extraire lemaximum de l’information. Nous étudierons donc les axes 1 à 5.

2.4.2 Projections des variables sur les axes 1 et 2                                               

y

- 1

0

1

x

- 1 0 1

Signification des axes      1 et 2:   

 AXE 1Les variables qui contribuent le plus à l’a xe1 sont : ­ srj, srh, srk (12­13% de contribution) ­ c31j, c31h, c31k (10­11% de contribution)

29

L’a xe 1 est donc l’ axe de la luminosité. Il sépare les galaxies à forte concentration de luminosité, desgalaxies à faible brillance de surface effective (galaxies globalement moins lumineuses).Les variables de concentration et de brillance de surface sont très corrélées. Les 2 variables sont doncéquivalentes.

AXE 2Les variables qui contribuent le plus à l’a xe2 sont : ­ rj, rh, rk (22% de contribution)L’a xe 2 divise  les galaxies selon leur rayon effectif, i.e principalement selon leur taille. 

2.4.3 Projections des galaxies sur les axes 1 et 2

       

y

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

x

- 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8

La dispersion des galaxies est la plus grande selon les axes de la luminosité et du rayon effectif(taille).

2.4.4 Projection des variables sur les axes 1 et 3

Les variables qui contribuent le plus à l’a xe 3 sont :spi : (11%) index spectralbj : (12%) indice de couleurs B­J.                                     L’a xe 3 est donc l’ axe des couleurs.

2.4.5 Projection des variables sur les axes 1 et 4

Les variables qui contribuent le plus à l’a xe 4 sont :dens : (33%) le densité de l’ environnement.bj, jk : ( 17 et 13%) indice de couleurs.

L’a xe  4 est donc principalement l’ axe des densités.

30

2.4.6 Projection des variables sur les axes 1 et 5

Les variables qui contribuent le plus à l’a xe 5 sont :Logsv : (11%) vitesse d’ agitation des étoiles.bj : (11%) indice de couleursc31j, c31h, c31k : (12%) 

                  

y

- 1

0

1

x

- 1 0 1

Les variables de concentration et la variable logsv sont opposées sur l’a xe 5 : une vitesse d’ agitationélevée correspond à une faible concentration de la luminosité au centre d’un e galaxie. 

Les paramètres jouant un rôle important dans la différenciation des elliptiques sont la luminosité(brillance de surface et concentration), et la taille (donnée par le rayon effectif).On remarque que la variable logsv contribue très peu aux premiers axes; l’i nformation portée par cettevariable se retrouve sur l’a xe 5. L’ analyse en composantes principales ne met pas en évidencel’ importance de la vitesse d’ agitation des étoiles dans les elliptiques.  

CONCLUSION GENERALEL’analyse en composante principale permet, d’une part de visualiser les galaxies sur un plancontenant un maximum d’information car il fait apparaître tous les paramètres ; d’autre part,de donner les variables les plus importantes dans la différenciation des galaxies. Certains plansde projection issus de l’ACPN seront utilisés comme références dans la classification desgalaxies.

31

32