Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… ·...

32
DESS Informatique Décisionnelle Université Paris Dauphine Projet Datamining Offres de location d’appartements à Paris Encadrant : Mr. DIDAY VILLE Clarisse Mai 2004 VIVIER Julien

Transcript of Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… ·...

Page 1: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

DESS Informatique Décisionnelle Université Paris Dauphine

Projet Datamining Offres de location d’appartements à Paris

Encadrant : Mr. DIDAY VILLE Clarisse Mai 2004 VIVIER Julien

Page 2: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 2/32

SOMMAIRE

INTRODUCTION ................................................................................................................................................. 3

I. PRESENTATION DU DATA MINING ET DU LOGICIEL SODAS .......................................................... 4

1.1 LA NAISSANCE DU DATA MINING ................................................................................................................... 4

1.2 ANALYSE DE DONNEES SYMBOLIQUES ........................................................................................................... 5

1.2.1 La notion de concept et d’individu ........................................................................................................ 5

1.2.2 Les objets symboliques .......................................................................................................................... 5

1.2.3 Les avantages de l’analyse de données symboliques par rapport à l’analyse statistique de données .. 5

1.3 LE LOGICIEL SODAS ....................................................................................................................................... 6

1.3.1 Présentation du logiciel ........................................................................................................................ 6

1.3.2 Utilisation du logiciel ........................................................................................................................... 6

II. ETUDE DES DONNEES ISSUES DES LOCATIONS IMMOBILIERES PARISIENNES ..................... 8

2.1 PRESENTATION DU SUJET ............................................................................................................................... 8

2.1.1 Le projet ................................................................................................................................................ 8

2.1.2 Le recueil des données .......................................................................................................................... 8

2.1.3 La base de données ............................................................................................................................... 8

2.2 REQUETES ................................................................................................................................................... 11

2.3 UTILISATION DES DIVERSES METHODES STATISTIQUES ................................................................................ 16

2.3.1 SOE : Symbolic Object Editor ............................................................................................................ 16

2.3.2 STAT : Histogram and Elementary statistics ...................................................................................... 20

2.3.3 DIV : Divisive Classification .............................................................................................................. 23

2.3.4 PYR : Pyramides ................................................................................................................................. 27

2.3.5 PCM : Principal Component and Factorial Analysis ......................................................................... 28

CONCLUSION .................................................................................................................................................... 32

Page 3: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 3/32

Introduction

Les entreprises exploitent de nos jours des volumes de données de plus en plus importants. Ces données permettent d’effectuer des analyses poussées à l’aide des techniques d’analyses classiques. Cependant, lorsque le volume de données devient trop conséquent, les traitements statistiques classiques atteignent leur limite et l’utilisation du datamining est alors envisageable. Ce dernier utilise des techniques statistiques traditionnelles comme la régression linéaire et logistique ou plus élaborées, telles que l'analyse multi variée, l'analyse en composante principale, les arbres décisionnels et les réseaux de neurones.

Nous manipulerons tout au long de notre analyse des données dites symboliques, permettant de résumer les données par des concepts plus larges (par exemple, on ne s’intéresse plus à un appartement mais à l’arrondissement où il se situe). Cela permettra d’obtenir de nouvelles connaissances et d’aborder les problèmes sous un nouvel angle. Notre étude se portera sur le marché de location immobilière dans Paris. Nous présenterons dans un premier temps le datamining de manière générale, l’analyse de données symboliques ainsi que le logiciel libre SODAS qui nous servira dans notre étude. Par la suite nous détaillerons notre sujet d’application ainsi que la base utilisée. Nous appliquerons sur cette dernière, différentes méthodes proposées par le logiciel SODAS.

Page 4: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 4/32

I. Présentation du Data Mining et du logiciel SODAS

1.1 La naissance du data Mining

Le Data Mining est apparu dans les années 1980, avec l’apparition des grands volumes de données informatiques inutilisables directement par l'entreprise. Le Data Mining consistait alors essentiellement à extraire de l'information de gigantesques bases de données de la manière la plus automatisée possible ; contrairement à aujourd'hui où le Data Mining consiste à rechercher l’information pertinente parmi l’abondance de données. Le Data Mining peut se définir comme l'extraction d’informations ou de connaissances utilisables à partir de gros volumes de données. C’est un processus d’exploration, modification et modélisation de grandes bases de données afin de découvrir des relations entre les données jusqu'alors inconnues. Le Data Mining correspond donc à l'ensemble des techniques et des méthodes qui à partir de données permettent d'obtenir des connaissances exploitables. Son utilité est grande dès lors que l'entreprise possède un grand nombre d'informations stockées sous forme de bases de données. Bien qu'utilisant des techniques et une démarche statistique, le Data Mining et ses outils sont appelés à être utilisés par des non statisticiens. Les applications du Data Mining sont multiples, elles concernent: la grande distribution, la vente par correspondance, les opérateurs de télécommunications, les banques et assurances, etc. Le domaine majeur où le Data Mining a prouvé son efficacité est la gestion de la relation client. En effet, le Data Mining permet par une meilleure connaissance de la clientèle d'accroître les ventes.

Page 5: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 5/32

1.2 Analyse de données symboliques

1.2.1 La notion de concept et d’individu

On distingue deux niveaux d’informations dans les bases de données de très grande taille : - Les individus de premier ordre, en général formés par un ‘’tuple’’ dans la base de données. - Les individus de second ordre, ou ‘’concepts’’ qui rassemblent une grande quantité d’informations obtenues par classification automatique ou par une requête.

1.2.2 Les objets symboliques

Résumer les bases de données de taille parfois gigantesque par leurs concepts sous-jacents de façon à en extraire des connaissances nouvelles constitue une tâche d'importance grandissante. Ces concepts qu'ils soient fournis (une région, un groupe socio-économique, un type d'entreprise,…) ou obtenu par classification automatique (nuées dynamiques, hiérarchie, pyramide, treillis de concepts) peuvent seulement être décrits par des données plus complexes dites "symboliques" où les propriétés peuvent s'exprimer par des valeurs qualitatives ou quantitatives mais aussi par des intervalles, des histogrammes ou des valeurs multiples munies de règles et de taxonomies. Les concepts sont modélisés ici par des ‘’objets symboliques’’ booléens ou modaux qui permettent non seulement de les décrire par leurs propriétés communes (booléennes, probabilistes, etc.) mais aussi de calculer leur extension dans l'ensemble des individus qu'ils représentent (des habitants, des employés, des entreprises,…).

1.2.3 Les avantages de l’analyse de données symboliques par rapport à

l’analyse statistique de données

L’analyse de données symboliques présente principalement l’avantage de s’attaquer à des données plus complexes que l’analyse statistique de données simple. Elle fournit ainsi des renseignements nouveaux sous formes d’objet symboliques sur lesquelles elle peut utiliser des outils adaptés. Elle peut ainsi faire des représentations graphiques décrivant ces objets selon différentes méthodes et différentes représentations. Grâce à toutes ces techniques, la base est plus riche et expliquée de manière plus claire et plus synthétique. Les objets symboliques formés à partir de la base par les outils de l'analyse des données symboliques permettent de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes.

Page 6: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 6/32

1.3 Le logiciel sodas

1.3.1 Présentation du logiciel

L'analyse des données symboliques, sa théorie et son outil informatique SODAS (résultant des efforts de 17 équipes européennes), étendent les méthodes de la statistique traditionnelle et de l'analyse des données classique. Le logiciel SODAS permet d'extraire des grandes bases de données des connaissances nouvelles sous forme de données symboliques puis de les analyser (histogrammes, étoiles, ...), de les comparer par des calculs de dissimilarités, de les classifier et donner une représentation graphique et une description symbolique des classes obtenues (hiérarchie divisive, hiérarchie ou pyramide ascendante de concepts), d'en donner une représentation graphique plane (analyse en composantes principales) de les discriminer (analyse factorielle discriminante, arbres de décision), etc.

1.3.2 Utilisation du logiciel

Au démarrage de SODAS, la filière est vide.

Figure 1 : Interface générale du logiciel SODAS

Avec le clic droit sur BASE, on sélectionne ‘’Open’’ puis dans l’arborescence, on ouvre la base au format .sds qui nous intéresse. Une fois la base ouverte, pour insérer des méthodes, on clic droit sur BASE puis on sélectionne ‘’Insert method’’. Un emplacement vide se crée sur lequel on peut faire glisser une des méthodes proposées. Cette opération peut être répéter autant que nécessaire pour insère toutes les méthodes dont l’utilisateur a besoin. Mais pour le moment, les méthodes ne sont pas actives (elles sont grisées) car non paramétrées. Pour cela, clic droit sur la méthode et sélectionner ‘’Parameters’’. Une fois les paramètres remplis, on ferme la fenêtre et on peut alors lancer la méthode en cliquant droit et en sélectionnant ‘’Run method’’.

Page 7: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 7/32

On obtient alors un fichier texte résumant les opérations effectuées par la méthode et une sortie graphique.

Figure 2 : Méthodes appliquées sur un fichier SDS

Si les paramètres sont mauvais ou si une erreur s’est produite, un fichier texte blanc et barré d’une croix rouge récapitule les problèmes qui se sont présentés.

Figure 3 : Exemple de méthode non aboutie

Sortie graphique

Méthodes utilisées

Méthodes disponibles

Fichier

d’erreur

Menu

Page 8: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 8/32

II. Etude des données issues des locations immobilières Parisiennes

2.1 Présentation du sujet

2.1.1 Le projet

Nous avons choisi d’étudier le marché des locations immobilières pour les particuliers. Pour ce faire, nous avons restreint notre champ d’étude aux vingt arrondissements de Paris tout en conservant un choix d’appartements étendu. Ces derniers se répartissent dans quatre catégories distinctes : appartements 1 pièce, 2 pièces, 3 pièces et 4 pièces. L’objet de notre analyse est d’étudier ces individus au travers du concept d’arrondissement.

2.1.2 Le recueil des données

Nous avons recueilli l’ensemble de nos données manuellement par l’intermédiaire du site Internet ‘’de particulier à particulier’’. Ce site est consultable à l’adresse suivante : http://www.pap.fr/ La base de données sous Access comporte 296 enregistrements ce qui permet de couvrir de façon homogène les 20 arrondissements de Paris. Les données sont réparties au sein des arrondissements en fonction du nombre de pièces. Certaines disparités existent entre ces catégories, en rapport avec le nombre d’offres proposées sur le site Internet. Le schéma relationnel de la base de données est présenté dans le chapitre précédent.

2.1.3 La base de données

Nous avons modélisé, conçu et alimenté la base de données qui est notre point de départ de l’analyse. Le modèle conceptuel est présenté ci-dessous.

Page 9: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 9/32

Figure 4 : Schéma conceptuel de l’entrepôt de données

Nous avons modélisé notre problème par une étoile, c'est-à-dire par un entrepôt de données. Une étoile est définie par une table de fait reliée à plusieurs tables de dimensions. Le fait a sa propre clé primaire ainsi que les clés étrangères de toutes les autres tables autour. Ces tables sont appelées ‘’axes’’, ‘’dimensions’’ ou encore ‘’référentiels’’. Le fait de notre étoile est la table ‘’Location’’ et les dimensions sont les tables ‘’Arrondissement’’, ‘’Nb_Pieces’’, ‘’Etages’’, ‘’Type_Immeuble’’, ‘’Type_Location’’ et ‘’Chauffage’’. La table de fait, i.e. ‘’Location’’ compte 296 enregistrements, soit 296 offres de location d’appartements à Paris. Une location est définie par :

- Son identifiant : ‘’Id_Location’’ - Les identifiants des dimensions : ‘’Id_Arrondissement’’, ‘’Id_NbPieces’’,

‘’Id_Etages’’, ‘’Id_TypeImmeuble’’, ‘’Id_TypeLocation’’ et ‘’Id_Chauffage’’. - Le tarif mensuel par mois en euros de la location (sans les charges) qui est

une donnée obligatoire : ‘’Prix’’ - Le montant des charges par mois en euros qui est une donnée facultative :

‘’Charges’’ - La surface en m² de l’appartement (donnée obligatoire) : ‘’Surface’’ - La présence d’une salle d’eau (pièce équipée d’une douche) : ‘’Salle_d_eau’’ - La présence d’une salle de bain (pièce équipée d’une baignoire) :

‘’Salle_de_bain’’

Page 10: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 10/32

Ces deux dernières informations sont exclusives dans le sens où si l’appartement dispose d’une salle d’eau, il ne disposera pas d’une salle de bain et vice-versa.

- La présence d’une cuisine américaine (cuisine non séparée du salon) : ‘Cuisine américaine’’

- La présence d’une cuisinette (espace de cuisine réduit) : ‘’cuisinette’’ - La présence d’une cuisine séparée (cuisine traditionnelle indépendante du

salon) : ‘’Cuisine_séparée’’ Ces informations sont également exclusives.

- La présence de WC extérieur (toilettes situées à l’extérieur de l’appartement) : ‘’WC_ext’’

- La présence d’ascenseur : ‘’Ascenseur’’ - la présence d’interphone (appartement avec digicode ou interphone) :

‘’Interphone’’ - la présence de cave (non pris en compte dans la surface) : ‘’Cave’’ - la présence de parking : ‘’Parking’’

Les tables de dimensions sont définies ci-dessous. La table ‘’Arrondissement’’ contient 20 enregistrements. Elle correspond à l’arrondissement de Paris où est situé l’appartement mis en location. Paris compte 20 arrondissements : de Paris 1er à Paris 20ème. La table ‘’Nb_Pieces’’ correspond au nombre de pièces de l’appartement. Cette table contient 5 enregistrements : ‘’une pièce’’, ‘’deux pièces’’, ‘’trois pièces’’, ‘’quatre pièces’’ et ‘’5 pièces et plus’’. La table ‘’Etages’’ correspond à l’étage de l’immeuble où est situé l’appartement. Nous avons créé 10 modalités : ‘’Rez de chaussée’’, ‘’1er étage’’, ‘’2ème étage’’ etc. jusqu’à ‘’9ème étage’’. La table ‘’Type_Immeuble’’ traduit la qualité architecturale de l’immeuble. Elle contient deux valeurs : ‘’Moderne’’ et ‘’Ancien’’. La table ‘’Type_Location’’ contient deux lignes : ‘’Vide’’ et ‘’Meublé’’. La table ‘’Chauffage’’ est composée de cinq enregistrements : ‘’Chauffage central’’, ‘’Gaz individuel’’, ‘’Electrique’’, ‘’Fuel’’ et ‘’NR’’ pour ‘’ non renseigné’’.

Page 11: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 11/32

2.2 Requêtes

Rappelons dans un premier temps que les individus de premier ordre sont les offres de location d’appartements à Paris et que les individus de second ordre sont les arrondissements. Ils sont des concepts dans le sens où chaque arrondissement propose des locations d’appartements à Paris. Une fois l’entrepôt de données modélisé, conçu et alimenté, il est nécessaire de produire des requêtes SQL pour extraire l’information de la base et l’alimenter dans le fichier SDS, fichier source pour les analyses statistiques. Cette partie est ce que SODAS nomme DB2SO : il s’agit d’un module qui extrait l’information d’une base de données (dans notre cas il s’agit de ACCESS) et qui construit un ensemble d’assertions. Nous avons utilisé trois requêtes. La première requête, nommée ‘’Description_Locations’’, correspond à l’extraction des individus. Grâce au module SODAS DB, nous pouvons extraire les individus à partir de l’entrepôt de données. L’interface du module est présentée ci-dessous :

Figure 5 : Extraction des individus

Cette requête a été préalablement créée dans la base de données ACCESS. Elle est décrite ci-dessous :

Page 12: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 12/32

SELECT DISTINCT [Location].[Id_Location], [Arrondissement].[Lib_Arrondissement], [Chauffage].[Lib_Chauffage], [Etages].[Lib_Etages], [Nb_Pieces].[Lib_NbPieces], [Type_Immeuble].[Lib_TypeImmeuble], [Type_Location].[Lib_TypeLocation], [Location].[Prix], [Location].[Charges], [Location].[Surface] FROM Location, Arrondissement, Chauffage, Etages, Nb_Pieces, Type_Immeuble, Type_Location WHERE [Arrondissement].[Id_Arrondissement] = [Location].[Id_Arrondissement] AND [Chauffage].[Id_Chauffage] = [Location].[Id_Chauffage] AND [Etages].[Id_Etages] = [Location].[Id_Etages] AND [Nb_Pieces].[Id_NbPieces]=[Location].[Id_NbPieces] AND [Type_Immeuble].[Id_TypeImmeuble]=[Location].[Id_TypeImmeuble] AND [Type_Location].[Id_TypeLocation]=[Location].[Id_TypeLocation]; Cette requête donne le résultat suivant :

Figure 6 : Résultat de la requête Description_Locations

Cette requête est en quelque sorte le descriptif des individus du premier ordre. Pour chaque offre de location d’appartement, il est lui est associé l’arrondissement, le type de chauffage, l’étage, le nombre de pièces, le type d’immeuble, le type de location, le prix, le montant des charges et la surface.

Page 13: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 13/32

La seconde requête nommée ‘’Description_Arrondissements’’, est définie ci-dessous

Figure 7 : Ajout de variables

Elle est décrite ci-dessous : SELECT [Arrondissement].[Lib_Arrondissement], count([Id_Location]) AS Nb_Location, round(Sum([Location].[Prix])) AS Prix_Tot, round(Avg([Location].[Prix])) AS Prix_Moy, round(Avg([Location].[Charges])) AS Charges_Moy, round(Sum([Location].[Surface])) AS Surface_Tot, round(Avg([Location].[Surface])) AS Surface_Moy, sum([salle_d_eau]) AS NbSalle_eau, sum([salle_de_bain]) AS NbSalle_bain, sum([cuisine_americaine]) AS NbCuisine_americaine, sum([cuisinette]) AS NbCuisinette, sum([cuisine_separee]) AS NbCuisine_separee, sum([wc_ext]) AS NbWC_ext, sum([ascenseur]) AS NbAscenseur, sum([interphone]) AS NbInterphone, sum([cave]) AS NbCave, sum([Parking]) AS NbParking FROM Arrondissement, Location WHERE [Arrondissement].[Id_Arrondissement]=[Location].[Id_Arrondissement] GROUP BY [Arrondissement].[Lib_Arrondissement], Location].[Id_Arrondissement] ORDER BY [Location].[Id_Arrondissement];

Figure 8 : Résultat de la requête Description_Arrondissements

Page 14: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 14/32

Cette requête est en quelque sorte le descriptif des concepts. Pour chaque arrondissement, plusieurs informations sont disponibles : le nombre de locations, le prix total des locations, le prix moyen d’une location, le montant moyen des charges, la surface totale des locations, la surface moyenne d’une location, le nombre de salles de bain etc. La troisième requête, nommée ‘’R_NbPieces’’, correspond à l’ajout d’une variable multi modale. Nous avons choisi le nombre de pièces de l’appartement en location. Elle est présentée ci-dessous :

Figure 9 : Ajout d’une variable multi modale

La requête est décrite ci-dessous : SELECT DISTINCT Arrondissement.Lib_Arrondissement, Nb_Pieces.Lib_NbPieces, 1 AS ponderation FROM Nb_Pieces, Arrondissement, Location WHERE Arrondissement.Id_Arrondissement = Location.Id_Arrondissement AND Nb_Pieces.Id_NbPieces = Location.Id_NbPieces;

Figure 10 : Résultat de la requête R_NbPieces

Page 15: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 15/32

Cette requête détermine toutes les combinaisons possibles entre l’arrondissement et le nombre de pièces de l’appartement. Par exemple, pour l’arrondissement du 10ème, les offres de location portent uniquement sur des appartements avec 1, 2 ou 4 pièces. Au final, le module SODAS DB fournit une synthèse des éléments créés. Concernant l’extraction des données concernant la location des appartements, le résultat est présenté ci-dessous :

Figure 11 : Résumé des données symboliques

Les objets symboliques sont définis dans une matrice 20 * 8, à savoir 8 variables en colonnes (Lib_NbPieces, Lib_Etages, Lib_TypeImmeuble, Lib_TypeLocation et Lib_Chauffage comme variables qualitatives et Prix, Charges et Surface comme variables quantitatives) et 20 concepts (20 arrondissements issus des 296 offres de location d’appartements à Paris). 16 variables uni modales et une variable multi modale ont été ajoutées. Au total, le fichier SDS, tableau de données symboliques, contient 20 concepts et 25 variables.

Page 16: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 16/32

2.3 Utilisation des diverses méthodes statistiques

Dans ce chapitre, nous allons présenter rapidement l’objectif de quelques méthodes statistiques proposées par le logiciel de Data Mining SODAS et les appliquer sur les informations issues du tableau de données symboliques précédemment créé.

2.3.1 SOE : Symbolic Object Editor

Le module SOE permet de visualiser le contenu du tableau de données symboliques : les concepts et les variables qui le décrivent.

Figure 12 : Extrait du tableau de données symboliques

La méthode SOE permet de représenter graphiquement en deux ou trois dimensions les concepts du tableau : c’est ce qui s’appelle l’étoile zoom. Il est également possible de visualiser variable par variable la répartition des données concept par concept. Il existe deux types de variables : les variables quantitatives (mesurables, continues ou discrètes) et les variables qualitatives (ordinales, nominales…). Pour les variables quantitatives, leur représentation se fait grâce à des diagrammes en barres. Pour les variables qualitatives, elle se fera par des intervalles de valeurs. L’objectif de cette méthode est de fournir une image synthétique du concept et de comparer les concepts entre eux. Application : Nous avons décidé de nous focaliser sur quatre concepts pour cette méthode car certains arrondissements parmi les 20 sont très proches les uns des autres. C’est notamment le cas pour le 19ème et le 20ème arrondissement.

Page 17: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 17/32

Nous avons choisi quatre concepts assez différents les uns des autres : Paris 6ème, Paris 13ème, Paris 16ème et Paris 19ème. En ce qui concerne le paramétrage de la méthode, nous avons sélectionné neuf variables pour la description des concepts :

- ‘’Prix’’ - ‘’Charges’’ - ‘’Surface’’ - ‘’Lib_Chauffage’’ - ‘’Lib_NbPieces’’ - ‘’Lib_TypeLocation’’ - ‘’Lib_TypeImmeuble’’ - ‘’Lib_Etages’’ - ‘’NbPieces’’

L’application de la méthode SOE sur les quatre concepts donne le résultat suivant :

Figure 13 : Etoile pour le concept Paris 6

ème

Figure 14 : Etoile pour le concept Paris 13ème

Variables quantitatives

Variables qualitatives

Page 18: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 18/32

Figure 15 : Etoile pour le concept Paris 16

ème

Figure 16 : Etoile pour le concept Paris 19ème

Interprétations : Les offres de location des quatre arrondissements sont majoritairement des appartements non meublés. Les 13ème, 16ème et 19ème arrondissements proposent davantage des offres pour des immeubles de type moderne alors que le 6ème arrondissement propose majoritairement des offres pour des immeubles de type ancien. Le nombre de pièces que nous retrouvons le plus souvent est deux pièces. C’est ce que proposent majoritairement les 13ème et 16ème arrondissements. Quant au 19ème, il propose autant d’appartements d’une pièce que d’appartements de deux pièces. Le 6ème propose en plus des appartements de quatre pièces. La majorité des offres du 16ème arrondissement ne donne pas l’information de l’étage. Le 13ème propose autant d’appartements au premier étage que d’appartements au

Page 19: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 19/32

5ème étage. Le 6ème propose majoritairement des appartements au 4ème et 5ème étage. Enfin, le 19ème propose quant à lui surtout des appartements au 6ème étage. Dans la majorité des offres de location, le type de chauffage n’est pas précisé pour l’ensemble de ces quatre arrondissements. L’arrondissement qui propose le plus d’appartements de grande taille est le 16ème : la surface peut aller jusqu’à 150m². Paradoxalement, il est celui qui propose des appartements de taille la plus petite : à savoir 11m². Nous pouvons supposer qu’il s’agit de ‘’chambres de bonnes’’. En seconde position, c’est le 6ème arrondissement qui propose des appartements de taille assez grande : entre 20 et 105m². Enfin les 13ème et 19ème arrondissements proposent des appartements allant de 0 à 90 m². Les 6ème et 19ème arrondissements ont des charges qui s’élèvent au maximum à 150€/mois. Le 16ème arrondissement propose des appartements où les charges peuvent aller jusqu’à 490€/mois. En effet, le 16ème est un arrondissement réputé cher. L’arrondissement où les prix des appartements sont les moins élevés parmi les quatre est le 19ème arrondissement : les prix s’étalent de 380€ à 1450€/mois. Second arrondissement le moins cher : le 13ème : les prix vont de 520€ à 1675€/mois. Le 6ème propose des appartements beaucoup plus chers que ceux proposés dans les 19ème et 13ème arrondissements ; le prix peut atteindre 2800€/mois. Comme prévu, l’arrondissement où les locations sont les plus chères est le 16ème. Le prix peut atteindre 3900€/mois. Il est également possible de trouver des locations à 360€/mois, probablement pour les ‘’chambres de bonnes’’ de 11m². Remarques : Nous aurions pu représenter les objets symboliques par des graphiques en trois dimensions mais nous avons trouvé que c’était moins lisible. Pour aller dans le détail, il est possible à partir du graphique en deux dimensions de visualiser les diagrammes en barres associés aux variables qualitatives. A titre d’exemple, nous avons choisi de représenter la répartition des étages pour le 16ème arrondissement.

Figure 17 : Répartition des étages pour Paris 16

ème

Page 20: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 20/32

2.3.2 STAT : Histogram and Elementary statistics

Cette méthode étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données. Elle ressemble aux méthodes statistiques traditionnelles appliquées sur des individus. Pour les variables quantitatives, elle permet de représenter la répartition des données via des histogrammes. Pour les variables qualitatives, elle permet de représenter l’information (minimum, maximum et moyenne) via des diagrammes en boîte. L’objectif est de décrire la répartition des données variable par variable indépendamment du concept. Application : Pour rester homogène, nous avons choisi de représenter les quatre concepts décrits précédemment : Paris 6ème, 13ème, 16ème et 19ème. Nous avons choisi d’étudier plus en détail deux variables : ‘’Prix’’ et ‘’Lib_Chauffage’’. En ce qui concerne le paramétrage de la variable ‘’Prix’’, la méthode choisie est de représenter les fréquences pour les intervalles. Nous avons retenu un découpage en six classes. En ce qui concerne le paramétrage de la variable ‘’Lib_Chauffage’’, nous avons choisi de visualiser les capacités, autrement dit l’étendue des données : minimum, maximum et moyenne. L’application de la méthode STAT sur la variable ‘’Prix’’ donne le résultat suivant :

-------------------------------------------------------------------------------- SODAS - STAT RELATIVE FREQUENCIES (INTERVAL) File: location.SDS Title: Location d'appartements à Paris -------------------------------------------------------------------------------- Prix limits: 290.0 - 3900.0 class width: 602 class 1 0.2593 class 2 0.3751 class 3 0.1538 class 4 0.1145 class 5 0.0549 class 6 0.0425 Central tendancy: 1468.0302 Dispersion: 814.9622

Figure 18 : Listing STAT pour la variable ‘’Prix’’

Page 21: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 21/32

Figure 19 : Histogramme pour la variable ‘’Prix’’

Interprétations : Pour les quatre concepts confondus, 38% des locations ont un prix qui varie entre 890€ et 1500€/mois. Le prix moyen d’une location est de 1468€/mois. 26% des locations coûtent entre 290€ et 900€/mois et 4% des locations coûtent entre 3300€ et 3900€/mois. L’application de la méthode STAT sur la variable ‘’Lib_Chauffage’’ donne le résultat suivant :

-------------------------------------------------------------------------------- SODAS - STAT CAPACITIES File: location.SDS Title: Location d'appartements à Paris -------------------------------------------------------------------------------- capa mini maxi mean Lib_Chauffage AB01 NR 0.9878 0.4000 0.8571 0.6238 AB02 Electrique 0.2778 0.0000 0.2500 0.0718 AB03 Gaz Central 0.7092 0.1429 0.3571 0.2616 AB04 Gaz Individuel 0.1643 0.0000 0.1000 0.0429

Figure 20 : Listing STAT pour la variable ‘’Lib_Chauffage’’

Page 22: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 22/32

Figure 21 : Diagrammes en boîte pour la variable ‘’Lib_Chauffage’’

Interprétations : Si on considère le chauffage central, l’un des quatre concepts propose 14% des appartements munis de ce type de chauffage, c’est la valeur minimum. Cela signifie que les trois autres arrondissements ont des locations d’appartements qui sont munis à plus de 14% de chauffage central. La valeur maximum est 36%, cela signifie qu’un des quatre arrondissements disposent d’appartements qui sont à 36% chauffés de type chauffage central. En moyenne, tous concepts confondus, le chauffage de type central est présent dans 27% des locations. En considérant toutes les offres de location d’appartements pour les quatre concepts retenus, 62% en moyenne ne donnent pas l’information sur le type de chauffage, 27% en moyenne sont de type central, 7% de type électrique et 4% de type gaz individuel. La méthode STAT permet également d’étudier conjointement la répartition de deux variables quantitatives. Prenons par exemple les variables ‘’Prix’’ et ‘’Surface’’.

Figure 22 : Bi plot des variables ‘’Prix’’ et ‘’Surface’’

Page 23: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 23/32

Interprétations : Le 16ème arrondissement propose les appartements les plus chers mais également les plus grands. Nous pouvons voir que le prix et la surface sont conjointement liés (il existe une corrélation linéaire), ils évoluent dans le même sens. Plus la surface est importante, plus le prix de la location est élevé. Le 19ème est l’arrondissement qui dispose des plus petits appartements à des prix les plus bas.

2.3.3 DIV : Divisive Classification

Cette méthode est une méthode de classification hiérarchique. Au départ les concepts forment une unique partition. L’algorithme procède par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l’inertie. L’objectif est de regrouper au sein d’une même classe des concepts proches de par leurs caractéristiques. Application : Pour cette méthode, nous avons conservé les vingt concepts initialement présents. Nous avons réalisé deux classifications :

- ‘’Lib_Chauffage’’ - ‘’Lib_NbPieces’’ - ‘’Lib_TypeLocation’’ - ‘’Lib_TypeImmeuble’’ - ‘’Lib_Etages’’

En ce qui concerne le paramétrage, il faut déterminer le nombre de classes à priori. Nous avons considéré qu’il serait souhaitable de prendre la racine du nombre de concepts, soit cinq classes.

- ‘’Prix’’ - ‘’Charges’’ - ‘’Surface’’

En ce qui concerne le paramétrage, nous avons également considéré cinq classes. L’application de la méthode DIV sur les variables qualitatives donne le résultat suivant :

Classification sur variables qualitatives

Classification sur variables quantitatives

Page 24: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 24/32

----------------------------------------------------------------------------------------------- BASE=C:\SODAS\Tmp\CIWT3V01.CMD nind=20 nvar=9 nvarsel=5 METHOD=DIVISIVE CLUSTERING ----------------------------------------------------------------------------------------------- THE SELECTED VARIABLES ARE : (1) :Lib_Chauffage (Initial order) 1- NR 2- Electrique 3- Gaz Central 4- Gaz Individuel (2) :Lib_Etages (Initial order) 1- 6eme etage 2- 1er etage 3- NR 4- 2eme etage 5- Rez de chaussée 6- 5eme etage 7- 3eme etage 8- 7eme etage 9- 4eme etage 10- 8eme etage 11- 9eme etage (3) :Lib_NbPieces (Initial order) 1- 1 pièce 2- 2 pièces 3- 3 pièces 4- 4 pièces (4) :Lib_TypeImmeuble (Initial order) 1- Moderne 2- Ancien (5) :Lib_TypeLocation (Initial order) 1- Meublé 2- Vide PARTITION IN 5 CLUSTERS : ----------------------------------------- Cluster 1 (n=4) : "Paris 2e" "Paris 8e" "Paris 10e" "Paris 11e" Cluster 2 (n=1) : "Paris 3e" Cluster 3 (n=1) : "Paris 1e" Cluster 4 (n=13) : "Paris 4e" "Paris 5e" "Paris 7e" "Paris 9e" "Paris 12e" "Paris 13e" "Paris 14e" "Paris 15e" "Paris 16e" "Paris 17e" "Paris 18e" "Paris 19e" "Paris 20e" Cluster 5 (n=1) : "Paris 6e" Explicated inertia : 42.561832

Figure 23 : Résultats de la classification

Page 25: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 25/32

THE CLUSTERING TREE : ------------------------------------ - the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=4) ! !----1- [Lib_NbPieces <= 1 pièce] ! ! +---- Classe 2 (Ng=1) ! ! ! !----3- [Lib_TypeLocation = Meublé] ! ! ! ! ! ! +---- Classe 4 (Ng=13) ! ! ! ! ! ! !---4- [Lib_TypeImmeuble = Moderne] ! ! ! ! ! +---- Classe 5 (Nd=1) ! ! !----2- [Lib_Etages <= 5eme etage] ! +---- Classe 3 (Nd=1)

Figure 23 bis : Arbre de classification

Interprétations : Une première remarque est de dire que cette classification n’est pas satisfaisante puisqu’elle créée trois classes qui ne sont composées que d’un seul concept. Seules les classes 1 et 4 sont composées de plusieurs concepts. Deuxième remarque : la variable ‘’Lib_chauffage’’ n’a pas été retenue pour la classification. Elle n’a donc pas été jugée discriminante. Enfin, nous pouvons également remarquer que seulement 43% de l’information est reconstituée avec cette classification. La première classe composée de quatre concepts (Paris 2ème, 8ème, 10ème et 11ème) est caractérisée par des appartements en location qui sont majoritairement des studios : une seule pièce. La quatrième classe composée de treize concepts est caractérisée majoritairement par des offres de location d’appartements qui ont plus d’une pièce, qui sont au maximum au 5ème étage, qui sont loués non meublés et dont l’immeuble est de type moderne. Les autres classes, soit les autres concepts (Paris 1er, 3ème et 6ème) sont atypiques puisqu’ils ne coïncident avec aucune autre classe. Le premier arrondissement de Paris est caractérisé par des appartements de plus d’une pièce situés au minimum au 6ème étage. Le troisième arrondissement de Paris est caractérisé par des appartements de plus d’une pièce et meublés. Le 6ème arrondissement de Paris est quant à lui, caractérisé par des appartements dont l’immeuble est de type ancien. (Nous l’avons déjà remarqué lors de précédentes analyses).

Page 26: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 26/32

L’application de la méthode DIV sur les variables quantitatives donne le résultat suivant :

BASE=C:\SODAS\Tmp\CIWT3V01.CMD nind=20 nvar=9 nvarsel=3 METHOD=DIVISIVE CLUSTERING VARIANCE OF THE SELECTED VARIABLES : Prix : 524394.707500 Charges : 41430.247500 Surface : 514.862500 PARTITION IN 5 CLUSTERS : ---------------------------------------- Cluster 1 (n=5) : "Paris 2e" "Paris 9e" "Paris 10e" "Paris 18e" "Paris 19e" Cluster 2 (n=8) : "Paris 1e" "Paris 3e" "Paris 5e" "Paris 6e" "Paris 8e" "Paris 15e" "Paris 17e" "Paris 20e" Cluster 3 (n=2) : "Paris 7e" "Paris 14e" Cluster 4 (n=4) : "Paris 4e" "Paris 11e" "Paris 12e" "Paris 13e" Cluster 5 (n=1) : "Paris 16e" Explicated inertia : 88.157322 THE CLUSTERING TREE : ------------------------------- - the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=5) ! !----3- [Prix <= 1071.250000] ! ! ! +---- Classe 4 (Nd=4) ! !----1- [Prix <= 1289.500000] ! ! +---- Classe 2 (Ng=8) ! ! !----2- [Prix <= 1760.500000] ! ! +---- Classe 3 (Ng=2) ! ! !----4- [Charges <= 153.750000] ! +---- Classe 5 (Nd=1)

Figure 24 : Résultats de la classification

Page 27: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 27/32

Interprétations : Les premières remarques que nous pouvons faire sont à propos de l’inertie reconstituée, à savoir que 88% de l’information est reconstituée. Nous pouvons donc affirmer que cette classification donne de meilleurs résultats que la précédente. Enfin, la variable ‘’Surface’’ n’a pas été retenue pour diviser la population. Une première classe est définie par des appartements dont le prix est inférieur à 1071.25€/mois. Elle est composée des arrondissements 2ème, 9ème, 10ème, 18ème et 19ème. Une seconde classe est définie par des appartements dont le prix est supérieur à 1289.5€/mois. Il s’agit des arrondissements 1er, 3ème, 5ème, 6ème, 8ème, 15ème, 17ème et 20ème. Une troisième classe est définie par des appartements dont le prix est supérieur à 1760.5€/mois et dont les charges sont à moins de 153.75€/mois. Il s’agit du 7ème et du 14ème arrondissements. Une quatrième classe est définie par des appartements dont le prix est compris entre 1071.25€ et 1289.5€/mois. Il s’agit du 4ème, 11ème, 12ème et 13ème arrondissements. Enfin le 16ème arrondissement forme à lui seul une classe : les prix sont majoritairement supérieurs à 1760.5€/mois et les charges supérieures à 153.75€/mois.

2.3.4 PYR : Pyramides

La méthode des pyramides généralise le principe des hiérarchies en permettant les classes non disjointes à un niveau donné au lieu d’une partition. De plus, les échantillons de la pyramide sont des intervalles. Une pyramide est construite à partir d’un algorithme allant de la base vers le sommet. Dans un échantillonnage pyramidale symbolique, chaque échantillon formé est défini non seulement par l’ensemble de ses éléments- son extension- mais aussi par l’objet symbolique, qui décrit ses propriétés- son intention. Les données en entrée pour PYR sont une matrice de données symboliques ou une matrice de distance. L’objectif est de regrouper des concepts proches de par leurs caractéristiques en permettant de trouver des concepts dans plusieurs classes. Application : Pour cette méthode, nous avons considéré une partie des vingt concepts et quelques une des variables. Nous avons choisi les variables ‘’Prix’’ et ‘’Surface’’ comme variables quantitatives et les variables ‘’Lib_TypeLocation’’, ‘’Lib_TypeImmeuble’’, ‘’Lib_Etages’’, ‘’Lib_NbPieces’’ comme variables qualitatives.

Page 28: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 28/32

La classification pyramidale donne les résultats suivants :

DESCRIPTION-OF-THE-NODES Where_the_labels_are_of_the_individuals_are: 1.="Paris_1e" 2.="Paris_2e" 3.="Paris_5e" 4.="Paris_6e" 5.="Paris_8e" 6.="Paris_9e" 7.="Paris_13e" 8.="Paris_15e" 9.="Paris_16e" 10.="Paris_17e" 11.="Paris_19e" 12.="Paris_20e" Where_the_labels_are_of_the_variables_are: Y4=Lib_NbPieces y7=Prix y9=Surface

Figure 25 : Paramètres de la méthode PYR

Figure 26 : Pyramide

2.3.5 PCM : Principal Component and Factorial Analysis

La méthode PCM reprend les principes de l’analyse en composantes principales et ceux de l’analyse factorielle des correspondances disponibles en analyse statistique classique. L’analyse en composantes principales, nommée ‘’ACP’’ se base sur des variables quantitatives. Elle a pour objectif de grouper les individus qui ont des valeurs proches. L’analyse factorielle des correspondances, nommée ‘’AFCM’’ se base quant à elle sur des variables qualitatives. Elle a pour objectif de grouper les individus qui ont des modalités proches.

Page 29: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 29/32

L’objectif de cette méthode sur le tableau de données symboliques est le même que pour l’analyse classique, mis à part qu’il s’agit de grouper des concepts et non plus des individus. Application : Nous avons appliqué la méthode PCM sur les variables quantitatives : ‘’Prix’’, ‘’Surface’’ et ‘’Charges’’. Elle nous donne les résultats suivants :

Matrix of input data: Prix Charges Surface "Paris 1e" [800.00 , 2200.00] [0.00 , 130.00] [20.00 , 93.00] "Paris 2e" [610.00 , 950.00] [0.00 , 50.00] [24.00 , 47.00] "Paris 3e" [545.00 , 2400.00] [0.00 , 150.00] [20.00 , 100.00] "Paris 4e" [450.00 , 2000.00] [0.00 , 80.00] [10.00 , 77.00] "Paris 5e" [696.00 , 2300.00] [0.00 , 150.00] [17.00 , 80.00] "Paris 6e" [710.00 , 2800.00] [0.00 , 150.00] [20.00 , 105.00] "Paris 7e" [500.00 , 3100.00] [0.00 , 135.00] [14.00 , 117.00] "Paris 8e" [330.00 , 2500.00] [0.00 , 180.00] [9.00 , 59.00] "Paris 9e" [430.00 , 1100.00] [0.00 , 140.00] [14.00 , 66.00] "Paris 10e" [490.00 , 1600.00] [0.00 , 150.00] [17.00 , 90.00] "Paris 11e" [430.00 , 1790.00] [0.00 , 120.00] [15.00 , 80.00] "Paris 12e" [396.00 , 2100.00] [0.00 , 700.00] [13.00 , 86.00] "Paris 13e" [520.00 , 1675.00] [0.00 , 850.00] [20.00 , 90.00] "Paris 14e" [382.00 , 3150.00] [0.00 , 125.00] [9.00 , 100.00] "Paris 15e" [572.00 , 2800.00] [0.00 , 170.00] [20.00 , 86.00] "Paris 16e" [360.00 , 3900.00] [0.00 , 480.00] [11.00 , 150.00] "Paris 17e" [470.00 , 2450.00] [0.00 , 210.00] [18.00 , 110.00] "Paris 18e" [290.00 , 1350.00] [0.00 , 114.00] [14.00 , 75.00] "Paris 19e" [380.00 , 1450.00] [0.00 , 140.00] [0.00 , 80.00] "Paris 20e" [412.00 , 2250.00] [0.00 , 165.00] [12.00 , 120.00] Matrix Variance/Covariance : Prix 995921.3750 3354.6362 3094.1851 Charges 3354.6362 32754.6992 302.5675 Surface 3094.1851 302.5675 1701.2600 Correlations Matrix : Prix 1.0000 0.0186 0.0752 Charges 0.0186 1.0000 0.0405 Surface 0.0752 0.0405 1.0000 Propers Values and inerty percentage: Prix= 1.094 (36.47%) Charges= 0.985 (32.82%) Surface= 0.921 (30.71%)

Figure 27 : Résultats de la PCM sur les variables quantitatives

Page 30: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 30/32

Factorials Descriptions of interval type upon axes: PC1,PC2,PC3,PC4 : "Paris 1e" [-1.12, 1.23] [-1.05, 0.44] [-1.16, 1.20] [-1.16, 1.20] "Paris 2e" [-1.17, -0.47] [-0.34, 0.13] [-0.18, 0.51] [-0.18, 0.51] "Paris 3e" [-1.27, 1.52] [-1.16, 0.66] [-1.31, 1.49] [-1.31, 1.49] "Paris 4e" [-1.49, 0.74] [-0.91, 0.39] [-1.15, 1.14] [-1.15, 1.14] "Paris 5e" [-1.23, 1.13] [-1.05, 0.60] [-1.30, 1.04] [-1.30, 1.04] "Paris 6e" [-1.17, 1.84] [-1.36, 0.58] [-1.57, 1.47] [-1.57, 1.47] "Paris 7e" [-1.40, 2.19] [-1.53, 0.62] [-1.85, 1.82] [-1.85, 1.82] "Paris 8e" [-1.59, 0.98] [-1.08, 0.93] [-1.61, 0.90] [-1.61, 0.90] "Paris 9e" [-1.44, 0.14] [-0.47, 0.68] [-0.57, 0.96] [-0.57, 0.96] "Paris 10e" [-1.36, 0.86] [-0.77, 0.69] [-0.85, 1.35] [-0.85, 1.35] "Paris 11e" [-1.43, 0.75] [-0.82, 0.58] [-0.97, 1.21] [-0.97, 1.21] "Paris 12e" [-1.48, 2.35] [-0.98, 3.43] [-1.93, 1.34] [-1.93, 1.34] "Paris 13e" [-1.29, 2.49] [-0.80, 4.08] [-1.71, 1.33] [-1.71, 1.33] "Paris 14e" [-1.55, 1.92] [-1.50, 0.64] [-1.96, 1.59] [-1.96, 1.59] "Paris 15e" [-1.26, 1.58] [-1.30, 0.74] [-1.60, 1.22] [-1.60, 1.22] "Paris 16e" [-1.53, 4.01] [-1.99, 2.38] [-2.85, 2.49] [-2.85, 2.49] "Paris 17e" [-1.35, 1.85] [-1.21, 0.99] [-1.46, 1.71] [-1.46, 1.71] "Paris 18e" [-1.53, 0.38] [-0.61, 0.61] [-0.70, 1.21] [-0.70, 1.21] "Paris 19e" [-1.70, 0.58] [-0.67, 0.74] [-1.04, 1.24] [-1.04, 1.24] "Paris 20e" [-1.49, 1.78] [-1.15, 0.81] [-1.38, 1.93] [-1.38, 1.93] Correlations Matrix, initiales Variables/principals components PC1...PC4 Prix 0.646 -0.448 -0.618 -0.618 Charges 0.430 0.877 -0.216 -0.216 Surface 0.702 -0.125 0.702 0.702

Figure 27 bis : Résultats de la PCM sur les variables quantitatives

Figure 28 : Graphique des deux premiers axes

Page 31: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 31/32

Interprétations : La donnée de plus grande variabilité est le prix, en effet nous avons vu que le prix pouvait varier de 290€/mois à 3900€/mois. La donnée la moins variable est la surface. En effet, la surface varie entre 9m² et 150m². La matrice de corrélation détermine les liaisons 2 à 2 des variables. Les variables ne sont pas liées sur l’ensemble des concepts. Il nous paraît étonnant que le prix de la location ne soit pas lié à la surface mais il est vrai que dans un quartier comme le 16ème arrondissement, les locations petites ou grandes sont très chères et qu’un petit appartement dans cet arrondissement peut coûter aussi cher qu’un appartement plus vaste dans un quartier comme le 19ème. En ce sens, les données peuvent être faussées. Les valeurs propres nous donnent l’inertie reconstituée par axe. L’axe 1 reconstitue presque 37% de l’information, l’axe 2 reconstitue 33% et l’axe 3 : 30.71%. Seuls trois axes contribuent à l’inertie totale. Les valeurs propres associées aux trois variables quantitatives sont proches de 1 et c’est une règle pour conserver les axes : nous conservons les trois axes.

Page 32: Paris Dauphine University - DESS Informatique Décisionnellesodas/EXEMPLES/LOCATION_APPART_… · Offres de location d’appartements à Paris ... distribution, la vente par correspondance,

Page 32/32

Conclusion

Ce projet nous a permis d’appréhender les bases du datamining, de voir que cela correspond à une variante de l’analyse statistique classique. En effet au lieu d’étudier le comportement d’individus, nous avons étudié le comportement de groupes d’individus, à savoir des concepts. Les méthodes statistiques sont très proches de celles vues en statistique classique : nous retrouvons les statistiques élémentaires (histogramme, intervalles, diagrammes en boites, biplots) et les méthodes multi variées (classification, analyses en composantes principales…) Ce projet nous aura également permis d’exploiter un logiciel de datamining. Cet outil est assez simple d’utilisation mais il permet peu de paramétrage et gagnerait à être plus ergonomique. Nous n’avons eu aucun problème pour les méthodes présentes dans ce rapport mais n’avons pas réussi à mettre en œuvre deux des méthodes : TREE et FDA. En ce qui concerne le sujet à proprement parler, nous avons confirmé nos intuitions, à savoir les différences entre arrondissements et leurs caractéristiques.