Sujet de stage : Classification de Galaxieslpc2e.cnrs-orleans.fr/~theureau/Nezha_ElBakri_1.pdf ·...

UNIVERSITE D’ ORLEANSAnnée 20042005

Rapport de stage de Master 1 MathématiquesSpécialité : Mathématiques pour l’Aide à la Décision

Mémoire présenté par Nezha EL BAKRI

Sujet de stage : Classification de Galaxies

1

Remerciements :

Je tiens tout d’ abord à remercier PierreLouis Blelly, directeur du LPCE, pour m’ avoir accueilli ausein de son établissement.

Je remercie grandement Gilles Theureau, mon responsable de stage, pour son encadrement, sesexplications en astronomie et sa disponibilité, je le remercie également pour m’ avoir permis d’ assisterà un séminaire sur l’ astronomie.

Merci à Ismaël Cognard pour son aide technique.

Un grand merci à JeanPierre Lamarche, mon enseignant responsable, qui a répondu à toutes mesquestions durant mon stage.

Je souhaite remercier Richard Emilion pour m’ avoir proposé le stage, et pour ses explicitations enprobabilités et statistiques.

Enfin, je remercie l’ ensemble du personnel du LPCE, en particulier le secrétariat pour leurenthousiasme et leur efficacité.

3

Table des matières :

Présentation du laboratoire d’ accueil...................................................7

Introduction..........................................................................................9

1Généralités.......................................................................................11 1.1 Contexte scientifique et présentation des données..............11 1.2 Méthodes mathématiques utilisées.....................................12 1.3 Logiciels..............................................................................13 2Analyse en composantes principales................................................15 2.1Analyse de l’ échantillon 1...................................................15 2.2Analyse de l’ échantillon 2...................................................22 2.3Analyse de l’ échantillon 3spirales.....................................26 2.4Analyse de l’ échantillon 3elliptiques.................................27

3Méthodes de classification...............................................................31 3.1Classification morphologique.............................................31 3.2Classifications hiérarchique et automatique.......................52

4Méthode paramétrique : Estimation d’un mélange de lois… ..........61

Conclusion..........................................................................................71

Bibliographie......................................................................................73

Annexes..............................................................................................75

5

PRESENTATION DU LABORATOIRE D’ACCUEIL

Situation géographique.

Le stage s’e st déroulé dans le Laboratoire de Physique et Chimie de l’ environnement (LPCE) qui estune Unité Mixte de Recherche du Centre National de Recherche Scientifique (CNRS) et del’ Université d’ Orléans ; il est rattaché au département des Sciences de l’ Univers du CNRS. Il estlocalisé sur le campus CNRS d’ Orléans. Le LPCE collabore avec de nombreux instituts et partenairesindustriels du monde entier.

Activités du laboratoire

Le LPCE développe l’in strumentation nécessaire à ses recherches et mène donc en parallèle desétudes de recherche et Développement, en particulier sur des capteurs électriques et magnétiques etl’é lectronique associée. Il joue ainsi un rôle de leader dans l’ axe régional de la microélectronique.Les activités de recherches sont basées sur le développement et l’ exploitation scientifiqued’ instruments utilisés au sol (études de laboratoire, grands instruments), à bord de satellites et desondes spatiales.Les recherches effectuées au LPCE ont pour objectif d'identifier et de modéliser les processuschimiques et physiques se produisant dans les environnements spatiaux.Ces recherches à caractère fondamental se répartissent en quatre axes majeurs :

Physicochimie de l’atmo sphère Physique des plasmas spatiauxPhysicochimie des environnements planétaires

Astrophysique

L’équipe Astrophysique Le LPCE collabore avec l'Observatoire de Paris Meudon, qui exploite la Station de Radioastronomiede Nançay. Il s'est engagé dans l'utilisation du Grand Radiotélescope de Nançay pour l'étude dedifférents objets célestes émetteurs d'ondes radio (pulsars, galaxies).Un des thèmes de recherche est la simulation numérique des structures de l’univ ers local, qui consisteà modéliser numériquement la formation de structures telle que les galaxies et les amas de galaxies.

7

INTRODUCTION

La classification des galaxies, historiquement basée sur l’ observation à l’ œi l des images, n’ estpas adaptée au grand nombre d’obj ets présents dans les bases de données actuelles (plusieurs millionsde galaxies). Mon stage consiste à mettre en place des outils de classement, sur la base de méthodesmathématiques, permettant de décrire les galaxies de manière objective et automatique à partir deparamètres physiques mesurés.

L’ objectif scientifique est d’obt enir une nouvelle classification qui complète la classificationmorphologique classique et qui permettrait une meilleure compréhension de la formation des galaxieset de l’o rigine de leur diversité. Le sujet du stage s’in scrivant dans un cadreMathématique/Astronomie, mon travail a donc été répartit entre deux laboratoires : le laboratoire deMathématiques de l’ Université d’ Orléans et le LPCE.

Du point de vue de l'étude mathématique, une large partie concernera l’a nalyse de données deséchantillons, en particulier l’ analyse en composantes principales. Les algorithmes de classification lesplus fréquemment utilisés : les nuées dynamiques, la classification hiérarchique, viendrontapprofondir et compléter l’ analyse en composantes principales. Ce stage sera aussi l’o ccasiond’ expérimenter une classification paramétrique basée sur des méthodes de Monte Carlo par chaînesde Markov (MCMC) qui sont utilisées, en autre, pour estimer la loi de probabilité d’un système. Unalgorithme MCMC sera simulé sous le logiciel scilab.

Dans la première partie, je présenterai le contexte scientifique, les logiciels, ainsi que lesméthodes utilisées. La deuxième partie sera axée sur l’ analyse de données des échantillons. Dans latroisième partie, j’ appliquerai des méthodes de classification générales. Pour finir, un programmeimplémentant l’ algorithme de Monte Carlo sera testé sur l’ échantillon 2.

9

1 GENERALITES

1.1 Contexte scientifique et présentation des données

La classification des données

Une galaxie est un ensemble indépendant d’é toiles, de gaz et de poussières. Depuis ladécouverte des galaxies en tant que telle par Hubble en 1924, les galaxies ont toujours été classéesselon leur morphologie. La classification était uniquement basée sur les observations et lareconnaissance visuelle de caractéristiques plus ou moins clairement définies : présence de bras, debarre, d’a nneau, rapport bulbe sur disque...etc. Les types morphologiques se divisent principalementen trois classes : elliptiques (E), spirales (S) et irrégulières (Irr). Des subdivisions plus fines danschaque catégorie caractérisent le type morphologique. Ce classement est représenté par le« diapason » de Hubble (cf. cidessous).

Le schéma de classification de De Vaucouleurs (1959) est aussi fréquemment utilisé ; ilintroduit des types intermédiaires et des classifications plus fines. Une galaxie doit être considérée dans son environnement ; ce dernier étant un facteur importantcar il agit sur la morphologie et sur l’ évolution d’ une galaxie à travers les fusions (« merging ») et parla formation stellaire plus ou moins importante selon le contexte où se situe la galaxie.

11

Par conséquent, les types morphologiques sont reliés au degré d’ évolution d’ une galaxie et sontcorrélés avec certaines caractéristiques physiques et chimiques. La formation et l’ évolution des galaxies sont encore peu connues et nécessitent d’ étudier deséchantillons plus profonds et de taille importante (plusieurs milliers). La méthode de classificationactuelle n’ est pas adaptée à l’ étude de tels échantillons ; en effet, il serait impossible d’ étudier chaquegalaxie séparément.La recherche de nouvelles méthodes de classification objectives, indépendantes des observations,devient nécessaire.

Les données

Les données sont constituées de quatre échantillons de galaxies extraites de la base de donnéesHyperleda qui compile les paramètres astrophysiques de 2.7 millions de galaxies de l’univ ers proche.L’échantillon 1 (51737 galaxies) est constitué de toutes les galaxies possédant un typemorphologique. L’échantillon 2 (30597 galaxies) est un sous ensemble de l’é chantillon 1, pour lequelon a la distance ; ce qui permet d’obt enir plus de paramètres intrinsèques et notamment desparamètres photométriques. Les échantillons 3spirales et 3elliptiques (respectivement 7158 et2070 galaxies) sont des sous ensembles de l’ échantillon 2 ; des paramètres ont été rajoutés : la vitesse(vitesse de rotation pour les spirales et vitesse de dispersion pour les elliptiques), qui caractérise lamasse. On distingue deux types de paramètres pour une galaxie : Les paramètres apparents, dépendants de la distance. Les paramètres intrinsèques, liés à la physique des objets, indépendants de la distance. Ils donnent les caractéristiques absolues d’ une galaxie.

Un paramètre de classe « typ » donne le type de la séquence morphologique classique deHubble. La variable typ prend des valeurs comprises entre : 5 et 2 pour les elliptiques 2 et 1 pour les lenticulaires 1 et 10 pour les spirales

Pour l’ étude des galaxies, seuls les paramètres intrinsèques seront utilisés.

1.2 Méthodes mathématiques utilisées

Une première étape dans la classification de galaxies est d’ effectuer une analyse encomposantes principale ACP sur chaque échantillon.L’ACP permet dans un premier temps, de réduire l’e space des données tout en conservant lemaximum de l’in formation. Ainsi, sur un espace à 2 ou 3 dimensions, est représenté un pourcentageélevé de l’ information (en générale >50%). L’ ACP permet également de repérer les variables les plus importantes et la formation d’é ventuelsclasses d’ individus.Les données sont sous la forme d’un t ableau du type individus * variables quantitatives.Dans la plupart des cas, les variables sont hétérogènes : elles ne sont pas exprimées dans les mêmesunités. Ainsi, l’An alyse en Composantes Principales est en générale effectuée sur les données centréeset réduites : on parle alors d’a nalyse en composantes principales normée (ACPN). Dans l’esp ace des individus, la distance utilisée est la distance euclidienne usuelle.Les plans de projections issus de l’ACPN, seront utilisés pour représenter la distribution des points.

12

Une deuxième étape consiste à appliquer des algorithmes de classification classiques, commepar exemple les nuées dynamiques, la classification hiérarchique. Enfin, on expérimentera des techniques de type « mélange de lois » avec l’ algorithme de MonteCarlo Markov Chain (MCMC). Cet algorithme donne une estimation des paramètres d’un m élangede lois caractérisant la distribution des points dans un espace donné. Schéma d’un m odel de mélange : x1, x2,.., xm ~ [p1*f(x / E1) + … +pN *f(x / En) ] (Observations) (Combinaison convexe de lois de probabilités f de paramètres E)

1.3 Logiciels

Les logiciels utilisés pour l’e nsemble de l’ étude des échantillons seront : Scilab : c’ est un logiciel qui permet d’ effectuer toutes les opérations en calculs numériques. SAS : c’ est un logiciel de traitements statistiques.

Le logiciel SAS L’ analyse en composante principale (ACPN) se fera sur SAS, qui possède des fonctionsprédéfinies pour l’ analyse de données. Je ne vais ici décrire que les principales étapes d’ut ilisation etde programmation sous SAS, certaines procédures sont détaillées en annexe.Pour être exploitée, la base de donnée doit être enregistrée sous le format SAS. C’est l’étape DATACette étape crée une table SAS temporaire qui sera détruite à la fin de la session. Il est cependantpossible d’e nregistrer une table SAS pour pouvoir l’ut iliser ultérieurement (voir programme enannexe).

Pour effectuer des opérations sur ces données SAS, on utilise des procédures : c’est l’étape PROC.Les principales procédures utilisées sont données cidessous :

La procédure PRINCOMP effectue une ACPN ; les principales sorties affichées sont les statistiquesdescriptives, les valeurs propres et les coordonnées des variables sur les axes crées. Pour obtenir lesgraphiques de projections des galaxies et des variables, indispensables à l’i nterprétation, il faudraprogrammer. La procédure DISCRIM effectue une analyse discriminante.

La classification hiérarchique se fera avec la procédure CLUSTER.

La classification par nuées dynamique (classification automatique) se fera avec la procédureFASTCLUS.

Remarque : Sur SAS, les données sont considérées uniquement comme des tableaux ; pour pouvoirfaire des calculs matriciels sur les données, il faut utiliser la procédure IML. IML permet d’ effectuer des produits scalaires, produit terme à terme, concaténation de matrices…

13

Le logiciel Scilab

Scilab ne sera utilisé que pour effectuer une simulation de l’ algorithme MCMC (voir en annexe).

14

2ANALYSE EN COMPOSANTES PRINCIPALES 2.1 ANALYSE DE L’ECHANTILLON 1

L’é chantillon 1 est composé de 51737 galaxies. Pour chacune d’ elle, 21 paramètres ont été mesurés,dont 11 paramètres intrinsèques.

bi, bj, jk : Indices de couleurs (différences de flux entre 2 longueurs d’ondes (BI, BJ, JK)

spi: index spectral. C’est également un paramètre de couleur pour une galaxie. Les paramètres bj et spi sont donc fortement corrélés.

sbb, sbj, sbh, sbk : Brillances de surface dans les longueurs d’ondes B, J, H, K. Ils caractérisent la densité moyenne d’étoiles. c31j, c31h, c31k : Indice de concentration de la luminosité au centre de la galaxie. Ils mesurent la luminosité au centre de la galaxie.

2.1.1 Statistiques descriptives

bi bj jk spi

MoyenneEcarttype

1.573411939 2.243125440 0.8825214698 4.4911208640.570430192 0.860923983 0.1504932828 1.468580887

sbb sbj sbh sbk

MoyenneEcarttype

4.729411516 3.953320428 3.325343517 3.0708179642.594278983 2.591780434 2.591960381 2.570996381

c31j c31h c31k

MoyenneEcarttype

0.5764541039 0.5813584401 0.57818886390.1100560094 0.1117512086 0.1147472359

15

2.1.2 Matrice des corrélations

bi bj jk spi sbb sbj sbh sbk c31j c31h c31k

bi bj jk spi sbb sbj sbh sbk c31j c31h c31k

1.000 0.598 0.364 .492 0.131 .119 0.132 .141 0.356 0.331 0.3260.598 1.000 0.386 .986 0.277 .287 .3001 .312 0.440 0.433 0.4280.364 0.386 1.000 .464 0.400 0.166 0.141 0.109 0.295 0.271 0.240.492 .986 .464 1.000 .314 0.259 0.275 0.288 .435 .428 .4210.131 0.277 0.400 .314 1.000 0.786 0.778 0.769 0.004 .019 .060.119 .287 0.166 0.259 0.786 1.000 0.999 0.998 .214 .238 .288.132 .301 0.141 0.275 0.778 0.999 1.000 0.999 .225 .248 .298.141 .312 0.109 0.288 0.769 0.998 0.999 1.000 .233 .256 .3040.356 0.440 0.295 .435 0.004 .214 .225 .233 1.000 0.912 0.8790.331 0.433 0.272 .428 .019 .238 .248 .256 0.912 1.000 0.8780.326 0.428 0.240 .421 .060 .288 .298 .304 0.879 0.878 1.000

2.1.3 Etude des valeurs propres de la matrice des corrélations

Il y a 11 valeurs propres au total. A chaque valeur propre est associé un vecteur propre ; ces vecteurspropres sont les vecteurs directeurs des 11 axes sur lesquels on projette les galaxies.

Le seuil de significativité pour un axe est de (100/11) % soit environ 9.09% .Le pourcentage del’ inertie de chaque valeur propre représente la part d’ information portée par l’ axe qui lui correspond.Ainsi, on dira qu’ un axe est significatif si sa part d’ information, est supérieure à 9.09%.

Valeur axe de Propre l’ACPN Différence Proportion Cumulée

1 4.68916155 axe 1 1.36835072 0.4263 0.4263 2 3.32081084 axe 2 1.84687407 0.3019 0.7282 3 1.47393677 axe 3 0.83720498 0.1340 0.8622 4 0.63673179 axe 4 0.03432706 0.0579 0.9201 5 0.60240473 axe 5 0.47304536 0.0548 0.9748 6 0.12935937 axe 6 0.04211308 0.0118 0.9866 7 0.08724630 axe 7 0.02755745 0.0079 0.9945 8 0.05968885 axe 8 0.05903691 0.0054 0.9999 9 0.00065194 axe 9 0.00064569 0.0001 1.0000 10 0.00000625 axe 10 0.00000463 0.0000 1.0000 11 0.00000162 axe 11 0.0000 1.0000

16

D’ après le tableau des valeurs propres, les axes 1 et 2 de l’ ACPN possèdent respectivement 42.63%et 30.19% de l’ information totale. L’ information est donc principalement concentrée sur les axes 1et 2. L’a xe 3 ayant un pourcentage de l’ inertie totale égale à 13.4%, il sera également étudié.

Les galaxies seront donc projetées sur ces 3 premiers axes qui représentent 86.22% del’information. L’analyse en Composantes Principales nous a permis de passer d’un espace à 11dimensions à un espace de dimension 3 avec 86.22% de l’information conservée.

Par la suite, on étudiera dans un premier temps les projections des galaxies sur le plan formé par lesaxes 1 et 2, puis sur le plan formé par les axes 1 et 3.

2.1.4 Représentation des variables sur les axes 1 et 2

Les coordonnées d’une variable sont les coefficients de corrélation de cette variable avec les axes. Cegraphique nous permet donc de donner la signification des axes.

y

- 1

0

1

x

- 1 0 1

Les variables qui expliquent le plus l’ axe 1 sont : sbj, sbh, sbk (les brillances de surface). Plus la valeur en ces variables est élevée et plus la

brillance de surface est faible dans les longueurs d’ond e J, H, K. On observe de plus, que les brillances selon J, H, K, sont indépendantes de la brillance de surfaceen B. En d’ autres termes, la luminosité moyenne dans le rouge est faible. La galaxie sera plutôtbleue.

17

bj (différence de couleurs « bleu – rouge »). C’ est la différence entre la quantité de lumièrebleue et la quantité de lumière rouge mesurées pour une galaxie. Plus sa valeur est grande et plusla galaxie est rouge c'estàdire qu’e lle est majoritairement composée d’ étoiles « rouges » doncvieilles.

spi (index spectral). Plus sa valeur est élevée et plus la galaxie est formée d’ étoiles « bleues »

donc jeunes.

c31j, c31h, c31k (indice de concentration).Plus il est élevé et plus la luminosité au centre de lagalaxie est élevée. Ainsi, une valeur élevée dans ces 3 paramètres signifiera

Soit que la galaxie possède un bulbe important (si la galaxie est une spirale) Soit que la galaxie est une elliptique.

Les variables qui expliquent le plus l’ axe 2 sont : sbb (brillance de surface en B). Plus sa valeur est grande et plus la brillance moyenne dans le

bleu est faible. La galaxie sera plutôt rouge. spi

On peut donc en déduire la signification des axes 1 et 2 :

Galaxies à faible brillance de surface en J, H, K. (+)

Axe 2

Galaxies à faiblebrillance de surface en B. (+)

Galaxies à couleur rouge. Luminosité concentrée au centre.

Axe 1

Galaxies les plus bleues. (+)

18

Les 3 morphologies (spirales, lenticulaires, elliptiques) se différencient principalement par l’a xe descouleurs (direction des variables bj ou spi). On remarque que le type morphologique de Hubble est engrande partie expliqué par les couleurs des galaxies (paramètres spi et bj). Chaque morphologie se disperse selon les axes des brillances de surface.

2.1.5 Projections des galaxies sur les axes 1 et 2

Chaque type morphologique est représenté par une couleur : vert : spirales (typ compris entre 1 et 10) bleu : lenticulaires (typ compris entre 2 et 1) rouge : elliptiques (typ compris entre 5 et 2)

y

- 1 3

- 1 2

- 1 1

- 1 0

- 9

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

6

x

- 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9

Projections des spirales sur les axes 1 et 2

19

y

- 1 3

- 1 2

- 1 1

- 1 0

- 9

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

x

- 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9

Projections des lenticulaires sur les axes 1 et 2

Projections des elliptiques sur les axes 1 et 2

20

b

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

a

- 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8

e

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

6

d

- 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9

L’é tude simultanée des projections des variables et des galaxies, nous donne un axe de répartition destypes morphologiques (spirales, lenticulaires, elliptiques).

Les elliptiques ont un index spectral faible et une forte concentration de luminosité au centre. C’ esten moyenne les galaxies les plus rouges donc comportant les populations d’ étoiles les plus vieilles. Les spirales forment une population plus hétérogène. Certaines possèdent les mêmes caractéristiquesque les elliptiques ; on retrouve parmi les spirales, les galaxies les plus bleues donc contenant des générations récentes d’ étoiles. Elles sont caractérisées par un bulbe peuimportant, et un disque dominant formé de bras spiraux. Les lenticulaires sont une famille intermédiaire ayant une morphologie ambiguë. Les elliptiques sont différenciées par les axes des brillances de surface : sbb, sbj, sbh, sbk.

21

2.1.6 Projection sur les axes 1 et 3

La projection sur les axes 1 (abscisses) et 3 (ordonnées) conserve 56.03% de l’ information totale.

y

- 1

0

1

x

- 1 0 1

Les variables qui contribuent le plus à l’a xe 3 sont : c31j, c31h, c31k (concentration de la luminosité au centre de la galaxie) :18% spi, bj (couleurs de la galaxie) : 15%.(Les contributions sont proportionnelles aux coordonnées sur l’ axe)

L’a xe 3 est donc l’ axe qui représente l’ importance du bulbe et la couleur de la galaxie.

y

- 1 0

- 9

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

6

7

8

9

x

- 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9

Le nuage de points étant peu étalé sur l’a xe 3, il n’ est pas nécessaire de l’ étudier d’ avantage.

22

2.2 ANALYSE DE L’ECHANTILLON 2

L’é chantillon 2 est composé de 30597 galaxies mais seules 4014 d’ entres elles sont étudiées enraisons des valeurs manquantes. Toutes les galaxies proviennent de l’ échantillon 1, et 8 autresparamètres ont été rajoutés, donnant des informations sur la luminosité, la taille, l’e nvironnement, ladistance.

bi, bj, jk : indices de couleurs (BI, BJ, JK) spi : index spectral sbb, sbj, sbh, sbk : brillances de surface dans les longueurs d’ondes B, J, H, K c31j, c31h, c31k : indices de concentration de la luminosité au centre de la galaxie

Les nouveaux paramètres sont : mb, mi, mj, mh, mk : magnitudes absolues dans les 5 longueurs d’ondes. (Luminositésintrinsèques de la galaxie). logda : log du diamètre absolu. dens : densité de l’environnement de la galaxie (nombre de galaxie / unité de volume). C’estun paramètre qui décrit l’environnement de la galaxie (galaxie isolée ou située dans un amas). dk : distance (pas utilisé ici car paramètre non intrinsèque)

2.2.1 Etude des valeurs propres de la matrice des corrélations.

Valeur Axe Propre Différence Proportion Cumulée

1 8.39601728 5.12061647 0.4664 0.4664 2 3.27540081 1.20503085 0.1820 0.6484 3 2.07036995 0.43392043 0.1150 0.7634 4 1.63644952 0.70435894 0.0909 0.8543 5 0.93209058 0.13134555 0.0518 0.9061 6 0.80074504 0.23591021 0.0445 0.9506 7 0.56483483 0.41795252 0.0314 0.9820 8 0.14688231 0.07681082 0.0082 0.9902 9 0.07007149 0.00600023 0.0039 0.9940 10 0.06407126 0.02230450 0.0036 0.9976 ...Les 4 premiers axes possèdent un pourcentage d’ information significatif (> 5.56%), mais seuls les 2premiers seront étudiés.

23

2.2.2 Projections des variables sur les axes 1 et 2

La projection sur les 2 premiers axes représente 64.8% de l’ information totale.

y

- 1

0

1

x

- 1 0 1

Les variables qui contribuent le plus à l’a xe 1 sont : mj, mh, mk : (10.5%).Plus ces valeurs sont grandes et plus la magnitude absolue dans la longueurd’ond e correspondante est faible (la galaxie est globalement moins lumineuse ou plus bleue). sbj, sbh, sbk : (7.7%). Plus ces valeurs sont grandes et plus la brillance moyenne dans la longueurd’ond e correspondante est faible. logda : donne la taille d’ une galaxie.

Les mesures suivant les longueurs d’ond es J, H, K, caractérisent la galaxie dans son ensemble. Enrevanche les mesures suivant la longueur d’ond e B caractérisent principalement les jeunespopulations stellaires et seront donc plus significatives pour les spirales.

mi : (7.17%) bj : (5.9%) spi : index spectral (5.9%)

L’a xe 1 est l’a xe des luminosités, il différencie les galaxies selon leurs magnitudes absolues et leursbrillances de surface.

Les variables qui contribuent le plus à l’a xe 2 sont : c31j, c31h, c31k : (environ 1011%) mb : magnitude absolue dans la longueur d’ onde B (10%) sbb : Brillance de surface moyenne en B (11%) bi, bj, jk : (5.5%) spi : (5.5%)

24

L’a xe 2 caractérise l’impor tance de la concentration de luminosité au centre d’un e galaxie. Il donneégalement une information sur l’a ge moyen des populations stellaires.

Ainsi, on peut déduire la signification des zones du plan formé par les axes 1 et 2.

On remarque que la densité de l’ environnement, donnée par la variable dens, joue un rôle peuimportant dans la différenciation des galaxies. Or dans les observations empiriques, la densité est unfacteur qui est très corrélé avec le type morphologique : les spirales sont généralement isolées (ontdonc une densité faible), les elliptiques se trouvent souvent dans les amas de galaxies (ont une densitéen moyenne élevée).

Grande concentration de la luminosité au centre. Galaxies rouges (+)

Axe 2

Galaxie à bulbe important et rouge.

Galaxies à disque important et bleue (+)

Axe 1

Galaxies à diamètre important. (+) Galaxies bleues

25


y

- 1 0

- 9

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

6

x

- 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2

Le nuage est centré à l’or igine, aucun groupe ne se forme. On peut cependant distinguer la netteséparation entre les spirales (en verts) et les elliptiques (en rouges) ; il est donc possible d’ isoler ces 2populations.

26

2.3 ANALYSE DE L’ECHANTILLON 3SPIRALES

L’é chantillon 3Spirales est composé de 7158 galaxies mais seules 1503 d’ entres elles sont étudiéesen raisons des valeurs manquantes, dues essentiellement au paramètre m21 (masse d’hyd rogènecontenue dans la galaxie). Toutes les galaxies sont issues de l’ échantillon 2. Les paramètres del’é chantillon 2 sont tous présents, et deux nouvelles variables ont été rajoutées : logvm : vitesse de rotation de la galaxie. m21 : masse d’hydrogène.

On effectue une ACPN sur l’é chantillon 3spirales, puis on projette les galaxies sur les 2 premiersaxes qui représentent 55% de l’ information totale.

2.3.1 Etude des valeurs propres Eigenvalues of the Correlation Matrix

Valeur Axe propre Différence Proportion Cumulée

1 7.76450913 4.60548700 0.3882 0.3882 2 3.15902213 0.36831144 0.1580 0.5462 3 2.79071069 0.57117655 0.1395 0.6857 4 2.21953414 1.05584455 0.1110 0.7967 5 1.16368959 0.27106665 0.0582 0.8549 6 0.89262294 0.22377280 0.0446 0.8995 7 0.66885014 0.15131360 0.0334 0.9329 8 0.51753654 0.05618808 0.0259 0.9588 9 0.46134846 0.32379716 0.0231 0.9819 10 0.13755130 0.04340814 0.0069 0.9888 ...


y

- 1

0

1

x

- 1 0 1

27

Les axes 1 et 2 ont la même signification que ceux obtenus avec l’ACPN sur l’é chantillon 2.La vitesse de rotation logvm est corrélée avec les magnitudes absolues (loi de TullyFisher) et avec lataille (logda).La masse d’ hydrogène m21 apparaît comme indépendante des autres variables.


y

- 9

- 8

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

6

x

- 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8 9 1 0 1 1

Le nuage est surtout dispersé le long de l’a xe 1 : les spirales se différencient surtout par les couleurs etla luminosité (magnitudes absolues, et brillances de surface).

2.4 ANALYSE DE L’ECHANTILLON 3ELLIPTIQUES

L’é chantillon 3elliptiques est composé de 2070 galaxies à majorité elliptiques, plus quelques spiraleset lenticulaires. Toutes les galaxies sont issues de l’ échantillon 2. Certains paramètres de l’ échantillon2 ont été supprimés : brillances de surface, magnitudes absolues, diamètre intrinsèque. De nouvellesvariables on été rajoutées pour permettre une meilleure analyse des caractéristiques physiques deselliptiques.

Les variables sont donc : bi, bj, jk, spi c31j, c31h, c31k typ, dens, dk

rj, rh, rk : rayons effectifs (rayon contenant la moitié de la luminosité totale). srj, srh, srk : brillances de surface effectives logsv : vitesse d’agitation des étoiles dans le potentiel de la galaxie.

On effectue une ACPN sur l’é chantillon 3elliptiques, puis on projette les galaxies sur les 2 premiersaxes qui représentent 52% de l’ information totale.

28

2.4.1 Tableau des valeurs propresIl y a 16 valeurs propres en tout, le seuil de significativité est donc de 100/16 = 6.25%.

Valeur axe propre Différence Proportion Cumulée

1 5.30929448 2.20283576 0.3318 0.3318 2 3.10645872 1.14066434 0.1942 0.5260 3 1.96579438 0.64101948 0.1229 0.6488 4 1.32477490 0.17784015 0.0828 0.7316 5 1.14693475 0.26114367 0.0717 0.8033 6 0.88579108 0.03701313 0.0554 0.8587 7 0.84877794 0.19152119 0.0530 0.9117 8 0.65725676 0.10758917 0.0411 0.9528 9 0.54966758 0.46475719 0.0344 0.9875 10 0.08491040 0.01449336 0.0053 0.9925 ...D’après les valeurs propres, les 5 premiers axes sont significatifs.L’information étant plus diluée, il est nécessaire d’étudier plusieurs axes afin d’extraire lemaximum de l’information. Nous étudierons donc les axes 1 à 5.


y

- 1

0

1

x

- 1 0 1

Signification des axes 1 et 2:

AXE 1Les variables qui contribuent le plus à l’a xe1 sont : srj, srh, srk (1213% de contribution) c31j, c31h, c31k (1011% de contribution)

29

L’a xe 1 est donc l’ axe de la luminosité. Il sépare les galaxies à forte concentration de luminosité, desgalaxies à faible brillance de surface effective (galaxies globalement moins lumineuses).Les variables de concentration et de brillance de surface sont très corrélées. Les 2 variables sont doncéquivalentes.

AXE 2Les variables qui contribuent le plus à l’a xe2 sont : rj, rh, rk (22% de contribution)L’a xe 2 divise les galaxies selon leur rayon effectif, i.e principalement selon leur taille.


y

- 7

- 6

- 5

- 4

- 3

- 2

- 1

0

1

2

3

4

5

x

- 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8

La dispersion des galaxies est la plus grande selon les axes de la luminosité et du rayon effectif(taille).

2.4.4 Projection des variables sur les axes 1 et 3

Les variables qui contribuent le plus à l’a xe 3 sont :spi : (11%) index spectralbj : (12%) indice de couleurs BJ. L’a xe 3 est donc l’ axe des couleurs.


Les variables qui contribuent le plus à l’a xe 4 sont :dens : (33%) le densité de l’ environnement.bj, jk : ( 17 et 13%) indice de couleurs.

L’a xe 4 est donc principalement l’ axe des densités.

30


Les variables qui contribuent le plus à l’a xe 5 sont :Logsv : (11%) vitesse d’ agitation des étoiles.bj : (11%) indice de couleursc31j, c31h, c31k : (12%)

y

- 1

0

1

x

- 1 0 1

Les variables de concentration et la variable logsv sont opposées sur l’a xe 5 : une vitesse d’ agitationélevée correspond à une faible concentration de la luminosité au centre d’un e galaxie.

Les paramètres jouant un rôle important dans la différenciation des elliptiques sont la luminosité(brillance de surface et concentration), et la taille (donnée par le rayon effectif).On remarque que la variable logsv contribue très peu aux premiers axes; l’i nformation portée par cettevariable se retrouve sur l’a xe 5. L’ analyse en composantes principales ne met pas en évidencel’ importance de la vitesse d’ agitation des étoiles dans les elliptiques.

CONCLUSION GENERALEL’analyse en composante principale permet, d’une part de visualiser les galaxies sur un plancontenant un maximum d’information car il fait apparaître tous les paramètres ; d’autre part,de donner les variables les plus importantes dans la différenciation des galaxies. Certains plansde projection issus de l’ACPN seront utilisés comme références dans la classification desgalaxies.

31

Sujet de stage : Classification de Galaxieslpc2e.cnrs-orleans.fr/~theureau/Nezha_ElBakri_1.pdf ·...

Documents

Transcript of Sujet de stage : Classification de Galaxieslpc2e.cnrs-orleans.fr/~theureau/Nezha_ElBakri_1.pdf ·...