Violent crimes in USA

54
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB Septembre 2012 Projet 10 : Crimes and Communities Data Set Prédiction du taux de crimes violents pour cent milles habitants. Sébastien DIAZ , INE 0G5DRJ1EXW0, Siscol 000089827

description

A french study on violent crimes in USA

Transcript of Violent crimes in USA

Page 1: Violent crimes in USA

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES

ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel

CRUCIANU et Meziane YACOUB

Septembre

2012

Projet 10 : Crimes and

Communities Data Set Prédiction du taux de crimes violents pour cent

milles habitants.

Sébastien DIAZ , INE 0G5DRJ1EXW0, Siscol 000089827

Page 2: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

2

Sommaire Introduction ............................................................................................................................................. 4

Objectifs .............................................................................................................................................. 4

Etude préliminaire des données ............................................................................................................. 5

Introduction ......................................................................................................................................... 5

Etude du sujet...................................................................................................................................... 5

Source des données ............................................................................................................................ 6

Informations sur les données .............................................................................................................. 7

Matrice de corrélation ......................................................................................................................... 9

Matrice de corrélation des attributs ............................................................................................... 9

Matrice de corrélation sur les individus ........................................................................................ 10

Corrélations de la variable à prédire. ............................................................................................ 11

Réduction des dimensions ................................................................................................................ 12

Etude des premiers axes sur les individus ..................................................................................... 13

L’analyse du cercle des corrélations .............................................................................................. 14

Analyse discriminante ................................................................................................................... 16

Classification des données ................................................................................................................ 17

Classification ascendante hiérarchique ......................................................................................... 17

Classification par cartes auto organisatrice. ................................................................................. 19

Analyse histographique ..................................................................................................................... 22

Prédiction du nombre des crimes violents pour 100k habitants .......................................................... 28

Introduction ....................................................................................................................................... 28

Approche avec données complètes .................................................................................................. 29

Approche par régression ............................................................................................................... 29

Machine à vecteurs de support ..................................................................................................... 32

Approche par réseau de neurones et perceptron multi couche. .................................................. 33

Approche par vraisemblance......................................................................................................... 35

Approche avec données classifiées ................................................................................................... 36

Approche avec variables supprimées ................................................................................................ 38

Choix des variables ........................................................................................................................ 38

Le résultat obtenu ......................................................................................................................... 39

Tableau des résultats ..................................................................................................................... 40

Approche par suppression de communauté ..................................................................................... 41

Page 3: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

3

Meilleur résultat graphique........................................................................................................... 41

Tableau de résultat ........................................................................................................................ 41

Approche mixte ................................................................................................................................. 42

Meilleur résultat graphique........................................................................................................... 42

Tableau des résultats ..................................................................................................................... 43

Comparaison des résultats des différentes méthodes utilisées. ...................................................... 44

Conclusion ............................................................................................................................................. 46

Annexe ................................................................................................................................................... 47

Outils utilisés ..................................................................................................................................... 47

Description des variables .................................................................................................................. 47

Statistiques élémentaires .................................................................................................................. 52

Page 4: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

4

Introduction

Objectifs L’objectif de ce projet est d’analyser et de prédire les crimes violents pour 100k habitants à partir

d’un large panel de données relatives aux crimes et communautés américaines.

Notre étude sera construite en deux parties distinctes et nécessaires à la compréhension et à la

recherche d’un modèle de prévision satisfaisant.

La première partie sera organisée autour de l’étude des données, de leurs prétraitements et de

l’analyse de leurs comportements et de leurs cartographies.

La seconde partie sera axée sur la proposition de plusieurs modèles : par régression , par machine à

vecteur support ou par réseaux de neurones.

Le travail effectué dans ce projet est de mettre en pratique les différentes techniques et théories

vues lors du cours et lors des séances de TP de RCP209 : Apprentissage, Réseaux de neurones et

Modèles graphiques. Ce travail sera mises en œuvre par des scripts MATLAB agrémentés d’utilitaires

gratuits.

Page 5: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

5

Etude préliminaire des données

Introduction L’analyse des données portera sur plusieurs idées. La première, une simple étude statistique sur les

corrélations entre individus et variables. Puis, nous regarderons comment une analyse en

composante principal peut nous aider à mieux comprendre nos données. Ensuite nous enchainerons

sur une étude de classification afin de mieux appréhender la structure même de nos données.

Etude du sujet Les informations fournies combinent des données socio-économiques du Recensement US depuis

1990, des données législatives de l’étude de US LEMAS depuis 1990 et des données criminelles du

FBI depuis 1995.

L’idée est d’essayer de prédire le taux des crimes violents pour 100k habitants à partir de ces

données socio économiques

Il n’y a pas de données temporelles. On ne cherche donc pas à prédire quel sera la valeur à tel

moment.

L’analyse portera donc sur les facteurs pouvant influencer ou pas la variable à prédire.

Il y a 128 attributs avec 1994 instances.

Chaque instance est caractérisée par son état et sa communauté.

Page 6: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

6

Source des données Les données sont issues du site Machine Learning de l’Université de Californie. Ce site procure un

grand nombre de documents relatifs à la recherche et à l’étude en Apprentissage, Réseaux de

neurones et Modèles graphiques.

Le document que nous avons choisi provient de données agrégées et retravaillées par Michael

Redmond de l’Université La Salle à Philadelphie.

Les données initiales ont été fournies par :

- U. S. Department of Commerce, Bureau of the Census, Census Of Population And Housing .

1990 United States: Summary Tape File 1a & 3a (Computer Files),

- U.S. Department Of Commerce, Bureau Of The Census Producer, Washington, DC and Inter-

university Consortium for Political and Social Research Ann Arbor, Michigan. (1992)

- U.S. Department of Justice, Bureau of Justice Statistics, Law Enforcement Management And

Administrative Statistics (Computer File) U.S. Department Of Commerce, Bureau Of The

Census Producer, Washington, DC and Inter-university Consortium for Political and Social

Research Ann Arbor, Michigan. (1992)

- U.S. Department of Justice, Federal Bureau of Investigation, Crime in the United States

(Computer File) (1995)

- Redmond, M. A. and A. Baveja: A Data-Driven Software Tool for Enabling Cooperative

Information Sharing Among Police Departments. European Journal of Operational Research

141 (2002) 660-678.

Page 7: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

7

Informations sur les données Nos données sont composées de 1994 individus avec 128 attributs.

Seulement 122 attributs peuvent être utilisés pour notre étude.

Les six attributs non retenus sont les données sur le nom et attributs de la communauté, l’état et la

variable à estimer.

Cette dernière valeur sera ajoutée à notre première partie de l’étude, car elle a un rôle statistique

important.

La liste des données non prédictive est :

state: US state (by number) - not counted as predictive above, but if considered, should be

consided nominal (nominal)

county: numeric code for county - not predictive, and many missing values (numeric)

community: numeric code for community - not predictive and many missing values (numeric)

communityname: community name - not predictive - for information only (string)

fold: fold number for non-random 10 fold cross validation, potentially useful for debugging,

paired tests - not predictive (numeric)

Sur ces 122 variables, il existe des variables contenant des données incomplètes au nombre de 23,

dont voici la liste :

OtherPerCap: per capita income for people with 'other' heritage (numeric - decimal)

LemasSwornFT: number of sworn full time police officers (numeric - decimal)

LemasSwFTPerPop: sworn full time police officers per 100K population (numeric - decimal)

LemasSwFTFieldOps : number of sworn full time police officers in field operations (on the

street as opposed to administrative etc) (numeric - decimal)

LemasSwFTFieldOps : sworn full time police officers in field operations (on the street as

opposed to administrative etc) per 100K population (numeric - decimal)

LemasTotalReq : total requests for police (numeric - decimal)

LemasTotReqPerPop : total requests for police per 100K popuation (numeric - decimal)

PolicReqPerOffic : total requests for police per police officer (numeric - decimal)

PolicPerPop : police officers per 100K population (numeric - decimal)

RacialMatchCommPol : a measure of the racial match between the community and the

police force. High values indicate proportions in community and police force are similar

(numeric - decimal)

PctPolicWhite : percent of police that are caucasian (numeric - decimal)

PctPolicBlack : percent of police that are african american (numeric - decimal)

PctPolicHisp : percent of police that are hispanic (numeric - decimal)

PctPolicAsian : percent of police that are asian (numeric - decimal)

PctPolicMinor : percent of police that are minority of any kind (numeric - decimal)

OfficAssgnDrugUnits : number of officers assigned to special drug units (numeric - decimal)

NumKindsDrugsSeiz : number of different kinds of drugs seized (numeric - decimal)

PolicAveOTWorked : police average overtime worked (numeric - decimal)

PolicCars : number of police cars (numeric - decimal)

Page 8: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

8

PolicOperBudg : police operating budget (numeric - decimal)

LemasPctPolicOnPatr : percent of sworn full time police officers on patrol (numeric - decimal)

LemasGangUnitDeploy : gang unit deployed (numeric - decimal - but really ordinal - 0 means

NO, 1 means YES, 0.5 means Part Time)

PolicBudgPerPop : police operating budget per population (numeric - decimal)

Il reste donc 99 variables utilisables plus la valeur à estimer pour la réalisation notre étude.

On pourra regarder en annexe l’étude statistique élémentaire des ces variables.

Page 9: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

9

Matrice de corrélation

Matrice de corrélation des attributs

La matrice de corrélation nous permet de mettre en évidence la corrélation ou non des variables.

On entrevoit déjà des groupes de variables fortement corrélés. La classification et la réduction de

dimension des variables nous permettront d’étudier plus précisément ce phénomène.

La grande partie des variables montre une tendance plutôt neutre en termes de corrélation ou non

corrélation.

Voici la matrice de corrélation sous forme graphique des 100 attributs :

Figure 1 - Matrice de corrélation - Variables

Page 10: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

10

Matrice de corrélation sur les individus

Cette matrice met en évidence que les communautés ont un comportement cohérent et qu’elles

sont pour beaucoup corrélées. Ainsi l’échantillonnage d’un certain nombre d’individus sera

représentatif. Ce qui est excellent pour le cadre de notre étude.

Voici la matrice de corrélation sous forme graphique des 1994 individus :

Figure 2 - Matrice de Corrélation - Individus

Page 11: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

11

Corrélations de la variable à prédire.

Voici la liste des corrélations entre la variable à prédire et les variables disponibles.

Variable Corrélation Variable Corrélation Variable Corrélation

PctIlleg 0,738 PctRecImmig10 0,2643 PersPerOwnOccHous -0,1244

racepctblack 0,6313 PctRecImmig8 0,2532 PctWorkMom -0,1506

pctWPubAsst 0,5747 PersPerRentOccHous 0,2483 pctWFarmSelf -0,1531

FemalePctDiv 0,556 PctImmigRec8 0,2481 PctSameHouse85 -0,1554

TotalPctDiv 0,5528 PctRecImmig5 0,248 AsianPerCap -0,1556

MalePctDivorce 0,5254 PctRecentImmig 0,2308 OwnOccHiQuart -0,1721

PctPopUnderPov 0,5219 PctImmigRec5 0,216 OwnOccMedVal -0,1907

PctUnemployed 0,5042 LandArea 0,1968 whitePerCap -0,2093

PctHousNoPhone 0,4882 PctForeignBorn 0,1944 OwnOccLowQuart -0,2105

PctNotHSGrad 0,4834 PctImmigRecent 0,1719 RentHighQ -0,2323

PctVacantBoarded 0,4828 PctUsePubTrans 0,1538 MedRent -0,2399

PctHousLess3BR 0,4745 agePct12t29 0,1534 RentMedian -0,2405

NumIlleg 0,471 PersPerFam 0,1407 PctSpeakEnglOnly -0,2415

PctPersDenseHous 0,4529 pctWSocSec 0,118 HispPerCap -0,2446

NumUnderPov 0,4476 agePct16t24 0,0993 RentLowQ -0,2518

HousVacant 0,4214 pctUrban 0,082 blackPerCap -0,2754

PctLess9thGrade 0,4111 PctSameCity85 0,0756 pctWWage -0,3055

PctLargHouseFam 0,3835 agePct65up 0,0672 PctBSorMore -0,3147

NumInShelters 0,3758 MedOwnCostPctInc 0,0638 PctHousOccup -0,319

population 0,3672 agePct12t21 0,0605 PctEmploy -0,3316

PctWOFullPlumb 0,3645 MedOwnCostPctIncNoMtg 0,0538 PctOccupMgmtProf -0,3391

numbUrban 0,3629 racePctAsian 0,0376 perCapInc -0,3521

LemasPctOfficDrugUn 0,3486 PctVacMore6Mos 0,0213 MedNumBR -0,3574

NumStreet 0,3403 PctSameState85 -0,0195 medIncome -0,4242

MedRentPctHousInc 0,325 PctWorkMomYoungKids -0,0225 medFamInc -0,4391

MalePctNevMarr 0,3046 householdsize -0,0349 PctHousOwnOcc -0,4707

PctNotSpeakEnglWell 0,3 PersPerOccupHous -0,0397 PctPersOwnOccup -0,5255

PctOccupManu 0,2956 PctEmplManu -0,0449 pctWInvInc -0,5763

PctLargHouseOccup 0,2948 PctEmplProfServ -0,0715 PctTeen2Par -0,6616

NumImmig 0,2942 PctBornSameState -0,0772 PctYoungKids2Par -0,6661

racePctHisp 0,2931 indianPerCap -0,0909 racePctWhite -0,6848

PctImmigRec10 0,2915 pctWRetire -0,0984 PctFam2Par -0,7067

PopDens 0,2814 MedYrHousBuilt -0,11 PctKids2Par -0,7384

Nous observons très rapidement les éléments proches comme le pourcentage d’enfants illégitimes et

la population de race « black ». Ainsi que les éléments anti corrélés comme les familles ayants deux

parents ou la race « white ».

Page 12: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

12

Réduction des dimensions Pour la réduction des dimensions de nos données, nous allons utiliser l’Analyse en Composante

Principale et extraire les premiers axes principaux.

Nous commencerons par regarder l’inertie des axes extraits de l’analyse en composante principale.

Voici une représentation graphique de cette inertie :

Les 20 premières dimensions couvrent plus de 90% de la représentation des données.

Les trois premiers axes représentent plus de 50% des axes de nos données.

Pour rendre nos images plus parlantes une coloration a été ajoutée aux valeurs. Cette classification

est basée sur la fonction kmean de matlab avec 5 classes pour déterminer les premiers

partitionnements de nos données.

10 20 30 40 50 60 70 80 90 1000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

PC no.

Inert

ia

Repartition of inertia on the PCs

PC inertia

Cumulated inertia

Page 13: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

13

Etude des premiers axes sur les individus

Les deux premiers axes sont ici représentés.

Il est difficile ici de déterminer une classification intéressante. La distribution principale des données

apparait centrée autour d’un centre compact. Le reste des données est dispersé plus largement dans

l’espace.

Les deux axes suivants confortent cette analyse.

-15 -10 -5 0 5 10 15-20

-15

-10

-5

0

5

10

First principal axis

Second p

rincip

al axis

Data projection on the first two principal axes

-20 -15 -10 -5 0 5 10-15

-10

-5

0

5

10

15

second principal axis

third p

rincip

al axis

Data projection on the second two principal axes

Page 14: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

14

L’analyse du cercle des corrélations

Le cercle des corrélations nous permet de voir la structure des attributs. Des premiers

regroupements apparaissent permettant d’imaginer une étude théorique très intéressante.

Les deux premiers axes

Citons des exemples évidents de fortes corrélations :

- PctPersOwnOccup et PctHousOwnOcc qui représentent respectivement le pourcentage de

gens occupants leurs propres logements et le pourcentage des foyers propriétaires occupés

- agePct12t21 , agePct16t24 et agePct12t29 qui représentent respectivement le pourcentage

de population entre 12 et 21 ans , 16 et 24 ans et 12 et 29 ans.

Page 15: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

15

On citera aussi des exemples d’attributs exceptionnels et seuls comme :

- PctSpeakEnglOnly : pourcentage de personne parlant uniquement l’anglais

- racePctAsian : pourcentage de la population étant asiatique

Le deuxième axe et le troisième axe du cercle des corrélations.

Ces deux axes supplémentaires confortent les informations extraites précédemment.

On retrouve les mêmes données isolées et aussi les données rapprochées.

Page 16: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

16

Analyse discriminante

Après les premiers résultats issus de l’analyse en composante principale, nous analysons une autre

méthode : l’analyse discriminante.

Cette méthode devrait, dans la mesure où des groupements existent, proposer une plus grande

séparation de nos données.

Pour appréhender cette analyse, nous utilisons la toolbox stprtool qui dispose d’une méthode

d’analyse discriminante.

La méthode d’analyse discriminante est la suivante :

Les données à étudier sont :

Le but de l’analyse discriminante linéaire est d’étudier la projection linéaire des données

en maximisant les critères de séparabilité.

Ou Sw représente la dispersion intra classes et Sb la dispersion inter classe.

Un essai a donc été tenté sur nos données.

Voici le résultat graphique.

Ce qui découle de ce résultat est la difficulté de cette méthode à trouver des classes suffisamment

indépendantes pour représenter les données avec plus de discernement. Comme dans l’étude en

analyse en composante principale, nous ne discernons rien de significatif.

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Analyse discriminante sur les deux premiers axes

Page 17: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

17

Classification des données La classification des données nous permet de mieux comprendre les données, leurs structurations,

leurs complexités et leurs corrélations.

En cherchant à extraire des classes, on cherche à regrouper les données. Dans ce cadre je propose ,

en plus de l’utilisation des k-means vu sur nos données d’analyse en composante principale, deux

approches : l’approche par une classification ascendante hiérarchique et une carte topologique des

données.

Classification ascendante hiérarchique

Dans cette analyse, nous voyons une classification hiérarchique mettant en évidence au moins

quatre classes d’individus.

-20

-10

0

10

20

-20

-10

0

10-15

-10

-5

0

5

10

15

Page 18: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

18

Le dendrogramme éclaircie particulièrement cette hiérarchie. On y voit bien un saut important sur

lors du passage à cinq classes. Il y a cinq principales classes.

1 628 317 725 22016121519212310131814 4 5 911293026242227 8

2.5

3

3.5

4

4.5

5

Page 19: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

19

Classification par cartes auto organisatrice.

Je propose la génération des cartes représentants la répartition des attributs et des individus.

Carte auto organisatrice sur l’analyse des individus

Voici la carte auto organisatrice

générée pour les individus

grâce aux outils sdh et

somtoolbox. On utilise une

carte 8 colonnes et 8 lignes.

La carte a été générée avec

l’option « vote » pour extraire

l’échantillon le plus

représentatif de son nœud. On

peut remarquer la

concentration autour de

certaines zones.

Par exemple l’individus de

l’état 5 et de la communauté

Needhamtown attire près de

65 individus et représente le

pic de représentation. La carte

met aussi en évidence des

représentations de zone peut

attirante comme l’état 34 et la

communauté PerthAmboycity.

Page 20: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

20

Carte auto organisatrice sur l’analyse des attributs

L’idée est ici de retrouver une certaine harmonie et un éclaircissement sur l’étude des cercles de

corrélations aperçu dans le chapitre précédent. On utilise une carte 6 colonnes et 6 lignes.

On y retrouve nos deux groupes de variables PctPersOwnOccup , PctHousOwnOcc et agePct12t21 ,

agePct16t24 , agePct12t29.

Ainsi que nos variables isolées PctSpeakEnglOnly et racePctAsian. On remarquera que la variable

racePctAsian reste isolée sur la carte alors que la variable PctSpeakEnglOnly est regroupée avec

racePctWhite, pctUrban et PctHouseOccup (Groupe qui est cohérent).

On remarquera que la variable à étudier se trouve dans un nœud comprenant racepctblack, PctIlleg

et PctVacantBoarded qui correspondent respectivement au pourcentage de personnes de race

« black », au pourcentage d’enfants nés en dehors du mariage et du pourcentage de propriétés

vacantes abandonnées.

RentLowQ

RentMedian

RentHighQ

MedRent

OwnOccLowQuart

OwnOccMedVal

OwnOccHiQuart

racePctAsian

PctRecentImmig

PctRecImmig5

PctRecImmig8

PctRecImmig10

PctForeignBorn

PopDens

PctUsePubTrans

population

numbUrban

NumUnderPov

NumIlleg

NumImmig

HousVacant

NumInShelters

NumStreet

LandArea

medIncome

medFamInc

perCapInc

whitePerCap

HispPerCap

blackPerCap

AsianPerCap

indianPerCap

racePctHisp

PctNotSpeakEnglWell

PctPersDenseHous

LemasPctOf f icDrugUn

PctBSorMore

PctOccupMgmtProf

MedNumBR

MedOwnCostPctInc

pctWFarmSelf

PctLargHouseFam

PctLargHouseOccup

PctWOFullPlumb

racepctblack

PctIlleg

PctVacantBoarded

ViolentCrimesPerPop

pctWWage

pctWInv Inc

PctEmploy

MedYrHousBuilt

householdsize

PersPerFam

PersPerOccupHous

PersPerOwnOccHous

PersPerRentOccHous

PctLess9thGrade

PctNotHSGrad

PctUnemploy ed

pctWPubAsst

PctPopUnderPov

PctHousNoPhone

PctFam2Par

PctKids2Par

PctYoungKids2Par

PctTeen2Par

PctPersOwnOccup

PctHousOwnOcc

PctVacMore6Mos

MedOwnCostPctIncNoMtg

PctEmplManu

PctOccupManu

agePct12t21

agePct12t29

agePct16t24

MalePctNev Marr

racePctWhite

pctUrban

PctSpeakEnglOnly

PctHousOccup

PctBornSameState

PctSameHouse85

PctSameCity 85

PctSameState85

PctWorkMomYoungKids

PctWorkMom

agePct65up

pctWSocSec

pctWRetire

PctEmplProf Serv

MedRentPctHousInc

MalePctDiv orce

FemalePctDiv

TotalPctDiv

PctHousLess3BR

PctImmigRecent

PctImmigRec5

PctImmigRec8

PctImmigRec10

Page 21: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

21

Pour connaître les attributs les plus marquants de notre variable à prédire, j’ais soigneusement

réduit la carte auto organisatrice à une matrice de deux lignes et deux colonnes. Le résultat est une

vision plus claire sur les composantes proches. On remarquera que ce ne sont pas forcement les

variables les plus corrélées retrouvée dans cette liste (voir le chapitre sur « Corrélations de la variable

à prédire »).

Ce sont les attributs représentants les populations immigrées, indiennes, asiatiques, « black »,

hispaniques, les enfants illégitimes, ceux qui ne parlent pas bien l’anglais, les habitations surpeuplées

ou abandonnées, les personnes utilisant les transports en commun, la surpopulation qui sont les plus

attachés à notre variable à prédire.

population

racepctblack

racePctAsian

racePctHisp

numbUrban

indianPerCap

NumUnderPov

NumIlleg

PctIlleg

NumImmig

PctRecentImmig

PctRecImmig5

PctRecImmig8

PctRecImmig10

PctNotSpeakEnglWell

PctLargHouseFam

PctLargHouseOccup

PctPersDenseHous

HousVacant

PctVacantBoarded

PctWOFullPlumb

NumInShelters

NumStreet

PctForeignBorn

LandArea

PopDens

PctUsePubTrans

LemasPctOf f icDrugUn

ViolentCrimesPerPop

medIncome

medFamInc

perCapInc

whitePerCap

blackPerCap

AsianPerCap

HispPerCap

PctBSorMore

PctOccupMgmtProf

MedNumBR

OwnOccLowQuart

OwnOccMedVal

OwnOccHiQuart

RentLowQ

RentMedian

RentHighQ

MedRent

MedOwnCostPctInc

householdsize

agePct12t21

agePct12t29

agePct16t24

agePct65up

pctWFarmSelf

pctWSocSec

pctWPubAsst

PctPopUnderPov

PctLess9thGrade

PctNotHSGrad

PctUnemploy ed

PctEmplManu

PctEmplProf Serv

PctOccupManu

MalePctDiv orce

MalePctNev Marr

FemalePctDiv

TotalPctDiv

PersPerFam

PctImmigRecent

PctImmigRec5

PctImmigRec8

PctImmigRec10

PersPerOccupHous

PersPerRentOccHous

PctHousLess3BR

PctVacMore6Mos

PctHousNoPhone

MedRentPctHousInc

MedOwnCostPctIncNoMtg

racePctWhite

pctUrban

pctWWage

pctWInv Inc

pctWRetire

PctEmploy

PctFam2Par

PctKids2Par

PctYoungKids2Par

PctTeen2Par

PctWorkMomYoungKids

PctWorkMom

PctSpeakEnglOnly

PersPerOwnOccHous

PctPersOwnOccup

PctHousOccup

PctHousOwnOcc

MedYrHousBuilt

PctBornSameState

PctSameHouse85

PctSameCity 85

PctSameState85

Page 22: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

22

Analyse histographique On regarde l’histogramme de répartition des valeurs de chacun des paramètres ainsi qu’une

estimation de mixture de gaussienne s’y rapprochant.

Pour analyser et calculer nos mixtures de gaussiennes, nous utilisons l’outil stprtool.

Nous estimons les noyaux de chacun de nos échantillons pour voir comment est repartie

l’information dans l’ensemble des paramètres.

Cette première page nous présente des données relatives aux races et âges des individus. Ce que

nous remarquons ; c’est la forte représentation de la population de race « white » par rapport aux

races « black », « asian » et « hispanique ». Les âges sont assez représentatives car peu ce distingue.

La population de plus de 65 ans est large dans sa représentation.

0 0.5 10

500

1000population(mlc)

0 0.5 10

2

4population(mlc)

0 0.5 10

200

400householdsize(em)

0 0.5 10

2

4householdsize(em)

0 0.5 10

500

1000racepctblack(em)

0 0.5 10

5

10

15racepctblack(em)

0 0.5 10

200

400racePctWhite(em)

0 0.5 10

2

4

6racePctWhite(em)

0 0.5 10

500

1000racePctAsian(em)

0 0.5 10

5

10racePctAsian(em)

0 0.5 10

500

1000racePctHisp(em)

0 0.5 10

5

10

15racePctHisp(em)

0 0.5 10

200

400agePct12t21(em)

0 0.5 10

2

4

6agePct12t21(em)

0 0.5 10

200

400agePct12t29(em)

0 0.5 10

2

4

6agePct12t29(em)

0 0.5 10

200

400

600agePct16t24(em)

0 0.5 10

2

4

6agePct16t24(em)

0 0.5 10

100

200

300agePct65up(mlc)

0 0.5 10

1

2

3agePct65up(mlc)

Page 23: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

23

Cette deuxième page montre des informations sur l’urbanisme, le social et les races.

0 0.5 10

500

1000numbUrban(em)

0 0.5 10

5

10

15numbUrban(em)

0 0.5 10

500

1000pctUrban(mlc)

0 0.5 10

0.5

1pctUrban(mlc)

0 0.5 10

100

200

300medIncome(em)

0 0.5 10

2

4medIncome(em)

0 0.5 10

100

200

300pctWWage(em)

0 0.5 10

1

2

3pctWWage(em)

0 0.5 10

200

400pctWFarmSelf(em)

0 0.5 10

2

4pctWFarmSelf(em)

0 0.5 10

100

200

300pctWInvInc(em)

0 0.5 10

1

2

3pctWInvInc(em)

0 0.5 10

100

200

300pctWSocSec(em)

0 0.5 10

1

2

3pctWSocSec(em)

0 0.5 10

100

200

300pctWPubAsst(em)

0 0.5 10

1

2

3pctWPubAsst(em)

0 0.5 10

100

200

300pctWRetire(em)

0 0.5 10

1

2

3pctWRetire(em)

0 0.5 10

100

200

300medFamInc(em)

0 0.5 10

2

4medFamInc(em)

0 0.5 10

200

400perCapInc(em)

0 0.5 10

2

4perCapInc(em)

0 0.5 10

200

400whitePerCap(em)

0 0.5 10

2

4whitePerCap(em)

0 0.5 10

200

400blackPerCap(em)

0 0.5 10

2

4

6blackPerCap(em)

0 0.5 10

200

400

600indianPerCap(em)

0 0.5 10

2

4indianPerCap(em)

0 0.5 10

100

200

300AsianPerCap(em)

0 0.5 10

1

2

3AsianPerCap(em)

0 0.5 10

100

200

300HispPerCap(em)

0 0.5 10

2

4HispPerCap(em)

0 0.5 10

500

1000NumUnderPov(em)

0 0.5 10

10

20NumUnderPov(em)

0 0.5 10

100

200

300PctPopUnderPov(em)

0 0.5 10

2

4PctPopUnderPov(em)

0 0.5 10

100

200

300PctLess9thGrade(em)

0 0.5 10

1

2

3PctLess9thGrade(em)

0 0.5 10

100

200PctNotHSGrad(em)

0 0.5 10

1

2PctNotHSGrad(em)

Page 24: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

24

Cette troisième page présente les données sur le chaumage, le logement et la famille.

0 0.5 10

100

200

300PctBSorMore(em)

0 0.5 10

2

4PctBSorMore(em)

0 0.5 10

100

200

300PctUnemployed(em)

0 0.5 10

1

2

3PctUnemployed(em)

0 0.5 10

100

200

300PctEmploy(em)

0 0.5 10

1

2

3PctEmploy(em)

0 0.5 10

100

200

300PctEmplManu(em)

0 0.5 10

1

2

3PctEmplManu(em)

0 0.5 10

100

200

300PctEmplProfServ(em)

0 0.5 10

1

2

3PctEmplProfServ(em)

0 0.5 10

100

200

300PctOccupManu(em)

0 0.5 10

1

2

3PctOccupManu(em)

0 0.5 10

100

200

300PctOccupMgmtProf(em)

0 0.5 10

1

2

3PctOccupMgmtProf(em)

0 0.5 10

100

200MalePctDivorce(em)

0 0.5 10

1

2MalePctDivorce(em)

0 0.5 10

100

200

300MalePctNevMarr(em)

0 0.5 10

2

4MalePctNevMarr(em)

0 0.5 10

100

200FemalePctDiv(em)

0 0.5 10

1

2

3FemalePctDiv(em)

0 0.5 10

100

200TotalPctDiv(em)

0 0.5 10

1

2TotalPctDiv(em)

0 0.5 10

200

400PersPerFam(em)

0 0.5 10

2

4PersPerFam(em)

0 0.5 10

100

200PctFam2Par(em)

0 0.5 10

1

2

3PctFam2Par(em)

0 0.5 10

100

200PctKids2Par(em)

0 0.5 10

1

2PctKids2Par(em)

0 0.5 10

100

200PctYoungKids2Par(em)

0 0.5 10

1

2

3PctYoungKids2Par(em)

0 0.5 10

100

200

300PctTeen2Par(em)

0 0.5 10

1

2

3PctTeen2Par(em)

0 0.5 10

100

200

300PctWorkMomYoungKids(em)

0 0.5 10

1

2

3PctWorkMomYoungKids(em)

0 0.5 10

100

200

300PctWorkMom(em)

0 0.5 10

1

2

3PctWorkMom(em)

0 0.5 10

500

1000NumIlleg(em)

0 0.5 10

20

40NumIlleg(em)

0 0.5 10

200

400PctIlleg(em)

0 0.5 10

2

4PctIlleg(em)

Page 25: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

25

Cette page présente les informations sur l’immigration et le logement.

0 0.5 10

500

1000NumImmig(em)

0 0.5 10

20

40NumImmig(em)

0 0.5 10

100

200PctImmigRecent(em)

0 0.5 10

1

2

3PctImmigRecent(em)

0 0.5 10

100

200PctImmigRec5(em)

0 0.5 10

1

2

3PctImmigRec5(em)

0 0.5 10

100

200PctImmigRec8(em)

0 0.5 10

1

2

3PctImmigRec8(em)

0 0.5 10

100

200PctImmigRec10(em)

0 0.5 10

1

2PctImmigRec10(em)

0 0.5 10

200

400

600PctRecentImmig(em)

0 0.5 10

5

10PctRecentImmig(em)

0 0.5 10

200

400

600PctRecImmig5(mlc)

0 0.5 10

1

2PctRecImmig5(mlc)

0 0.5 10

200

400

600PctRecImmig8(em)

0 0.5 10

5

10PctRecImmig8(em)

0 0.5 10

200

400

600PctRecImmig10(em)

0 0.5 10

5

10PctRecImmig10(em)

0 0.5 10

200

400PctSpeakEnglOnly(em)

0 0.5 10

2

4

6PctSpeakEnglOnly(em)

0 0.5 10

500

1000PctNotSpeakEnglWell(em)

0 0.5 10

5

10PctNotSpeakEnglWell(em)

0 0.5 10

200

400

600PctLargHouseFam(em)

0 0.5 10

2

4

6PctLargHouseFam(em)

0 0.5 10

200

400

600PctLargHouseOccup(em)

0 0.5 10

2

4

6PctLargHouseOccup(em)

0 0.5 10

200

400PersPerOccupHous(em)

0 0.5 10

2

4PersPerOccupHous(em)

0 0.5 10

100

200

300PersPerOwnOccHous(em)

0 0.5 10

2

4PersPerOwnOccHous(em)

0 0.5 10

100

200

300PersPerRentOccHous(em)

0 0.5 10

1

2

3PersPerRentOccHous(em)

0 0.5 10

100

200

300PctPersOwnOccup(em)

0 0.5 10

1

2

3PctPersOwnOccup(em)

0 0.5 10

200

400

600PctPersDenseHous(em)

0 0.5 10

2

4

6PctPersDenseHous(em)

0 0.5 10

100

200

300PctHousLess3BR(em)

0 0.5 10

2

4PctHousLess3BR(em)

0 0.5 10

200

400

600MedNumBR(mlc)

0 0.5 10

1

2MedNumBR(mlc)

Page 26: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

26

Cette présente les informations sur le logement et l’urbanisme.

0 0.5 10

500

1000HousVacant(em)

0 0.5 10

5

10

15HousVacant(em)

0 0.5 10

100

200

300PctHousOccup(em)

0 0.5 10

2

4PctHousOccup(em)

0 0.5 10

100

200

300PctHousOwnOcc(em)

0 0.5 10

1

2

3PctHousOwnOcc(em)

0 0.5 10

200

400

600PctVacantBoarded(em)

0 0.5 10

2

4

6PctVacantBoarded(em)

0 0.5 10

100

200

300PctVacMore6Mos(em)

0 0.5 10

1

2

3PctVacMore6Mos(em)

0 0.5 10

100

200MedYrHousBuilt(mlc)

0 0.5 10

1

2MedYrHousBuilt(mlc)

0 0.5 10

200

400PctHousNoPhone(em)

0 0.5 10

2

4PctHousNoPhone(em)

0 0.5 10

100

200

300PctWOFullPlumb(em)

0 0.5 10

2

4PctWOFullPlumb(em)

0 0.5 10

200

400OwnOccLowQuart(em)

0 0.5 10

2

4

6OwnOccLowQuart(em)

0 0.5 10

200

400OwnOccMedVal(em)

0 0.5 10

2

4

6OwnOccMedVal(em)

0 0.5 10

200

400OwnOccHiQuart(em)

0 0.5 10

2

4

6OwnOccHiQuart(em)

0 0.5 10

100

200RentLowQ(em)

0 0.5 10

1

2

3RentLowQ(em)

0 0.5 10

100

200

300RentMedian(em)

0 0.5 10

1

2

3RentMedian(em)

0 0.5 10

100

200

300RentHighQ(em)

0 0.5 10

1

2

3RentHighQ(em)

0 0.5 10

100

200

300MedRent(em)

0 0.5 10

1

2

3MedRent(em)

0 0.5 10

100

200

300MedRentPctHousInc(em)

0 0.5 10

5

10x 10

12MedRentPctHousInc(em)

0 0.5 10

100

200

300MedOwnCostPctInc(em)

0 0.5 10

1

2

3MedOwnCostPctInc(em)

0 0.5 10

100

200

300MedOwnCostPctIncNoMtg(em)

0 0.5 10

1

2

3MedOwnCostPctIncNoMtg(em)

0 0.5 10

500

1000NumInShelters(mlc)

0 0.5 10

2

4NumInShelters(mlc)

0 0.5 10

500

1000NumStreet(mlc)

0 0.5 10

2

4NumStreet(mlc)

Page 27: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

27

En reprenant les données précédemment citées :

Les distributions des valeurs PctPersOwnOccup , PctHousOwnOcc , agePct12t21 ,agePct16t24 et

agePct12t29 sont très similaire dans leur forme centrée.

On remarquera que la variable racePctAsian est centrée sur la gauche ce qui représente une

minoration sur la représentativité en histogramme alors que la variable PctSpeakEnglOnly est centré

vers la droite ce qui représente une majoration des individus.

On remarquera que les racepctblack ,PctIlleg et PctVacantBoarded représente une minoration dans

notre étude car fortement centré sur la gauche de nos histogrammes.

0 0.5 10

200

400

600PctForeignBorn(em)

0 0.5 10

2

4

6PctForeignBorn(em)

0 0.5 10

100

200

300PctBornSameState(em)

0 0.5 10

1

2

3PctBornSameState(em)

0 0.5 10

100

200

300PctSameHouse85(em)

0 0.5 10

1

2

3PctSameHouse85(em)

0 0.5 10

100

200

300PctSameCity85(em)

0 0.5 10

1

2

3PctSameCity85(em)

0 0.5 10

100

200

300PctSameState85(em)

0 0.5 10

2

4PctSameState85(em)

0 0.5 10

500

1000LandArea(em)

0 0.5 10

5

10

15LandArea(em)

0 0.5 10

200

400PopDens(em)

0 0.5 10

2

4PopDens(em)

0 0.5 10

500

1000PctUsePubTrans(em)

0 0.5 10

5

10PctUsePubTrans(em)

0 0.5 10

500

1000LemasPctOfficDrugUn(mlc)

0 0.5 10

1

2LemasPctOfficDrugUn(mlc)

0 0.5 10

200

400ViolentCrimesPerPop(em)

0 0.5 10

2

4ViolentCrimesPerPop(em)

Page 28: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

28

Prédiction du nombre des crimes violents pour 100k habitants

Introduction Notre exercice est d’essayer d’extraire des données existantes, un modèle suffisamment solide et

précis pour pouvoir identifier la variable recherchée qui détermine le nombre de crimes violents pour

100k habitants. La typologie des crimes violents est assez vaste, car la définition de ce terme diffère

selon les pays, les « county » et les communautés. On y compte tout de même les homicides, les

braquages, les crimes avec ou sans armes, les viols, les kidnappings et la torture. Des faits qui en

toute vraisemblance ont des causes et des résultats différents. Ainsi un lieu où le taux de crime est

important, n’aura pas forcement un fort taux de braquage.

Plusieurs approches sont testées par régression, par machine à vecteurs de support et par réseau de

neurones.

Les données sont découpées comme suit :

Les 1094 premières données pour l’apprentissage. 401 valeurs pour la validation du modèle. Et 101

valeurs pour tester le modèle.

Les modèles et leurs précisions sur le jeu de données de tests seront comparés après leurs

présentations.

Les informations extraites de nos études précédentes montrent une forte difficulté à séparer ou à

grouper les données.

La première analyse se fera en présence de l’ensemble des variables. Ceci nous donnera une étude

approfondie avec un très bon point de comparaison sur les méthodes et stratégies ultérieures

utilisées.

Une deuxième analyse sera effectuée en classifiant les données. En découpant les lots, on espère

améliorer la précision de l’estimation. Chaque lot possédant normalement un comportement

asymptotique différent.

Une troisième analyse portera sur l‘élimination des variable peu efficaces extraites de nos

précédentes études.

Et enfin la dernière analyse sera un mix entre ces trois dernières stratégies.

Page 29: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

29

Approche avec données complètes

Approche par régression

Régression linéaire

Pour estimer les paramètres, j’utilise la méthode regress de matlab/octave.

Voici le résultat obtenu en comparant le jeu de données de test et de prédiction.

Les 99 valeurs de la régression sont :

0.1205 -0.3385 -0.0349 -0.0365 0.0113 0.0438 0.0496 -0.1670 -0.1638 0.0938

0.0608 -0.0264 0.2514 -0.0542 0.0028 0.0836 0.0769 0.3493 0.3719 -0.0662

-0.2270 -0.1277 -0.2185 0.0216 -0.0836 -0.0316 0.0750 -0.2358 -0.0587 -0.0566

-0.1606 -0.0015 0.0414 0.0322 -0.0792 -0.1426 0.1530 -0.1260 0.1470 0.1233

-0.1464 0.2980 -0.5543 0.5582 -0.0536 -0.1228 -0.5747 0.2394 0.1854 0.0108

0.2230 -0.0406 0.4564 0.0560 -0.1005 -0.0174 0.0764 -0.0602 -0.5692 0.6942

-0.2407 -0.2082 -0.1476 -0.0501 0.3854 0.0655 0.0067 -0.0985 0.1403 0.1572

0.2030 0.0552 0.0661 0.0252 -0.0341 0.1668 0.0625 -0.0917 0.0052

Qualité du résultat : RMSE=0.13499 (RMSE : la racine de l’erreur quadratique moyenne).

Le résultat est de qualité acceptable au vu de la complexité des données.

0 10 20 30 40 50 60 70 80 90 100-0.2

0

0.2

0.4

0.6

0.8

1

1.2

Community

Vio

lent

Crim

es P

er

100K

Popula

tion

Linear Regression

Simulated Values

Real Values

Page 30: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

30

Régression PLS – matlab

On utilise la régression PLS dont l’algorithme essaye de maximiser la variance des prédicteurs (Xi)=X

et de maximiser la corrélation entre X et la variable à expliquer Y.

Un test de régression PLS avec la méthode plsregress de matlab.

Qualité du résultat : RMSE=0.13347

On obtient un modèle plus précis que le modèle de régression linéaire.

0 10 20 30 40 50 60 70 80 90 100-0.2

0

0.2

0.4

0.6

0.8

1

1.2

Community

Vio

lent

Crim

es P

er

100K

Popula

tion

PLS Regression

Simulated Values

Real Values

Page 31: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

31

Régression PLS – toolbox glm-ie

Un autre test a été effectué avec l’outil glm-ie qui est spécialisé pour l’estimation et l’inférence des

modèles linéaires généralisés. La méthode pls CG (Conjugat gradiant) a été utilisée :

Qualité du résultat : RMSE=0.12677

Le résultat est de meilleure qualité que la méthode par régression PLS présentée précédemment.

0 10 20 30 40 50 60 70 80 90 100-0.2

0

0.2

0.4

0.6

0.8

1

1.2CG estimation

Estimation Values

Real Values

Page 32: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

32

Machine à vecteurs de support

L étude a été effectué avec l’outil SVM KM. L’utilisation de la méthode polynomiale a été plus

performante que le modèle gaussien.

Qualité du résultat : RMSE=0.13

L’approche par machine à vecteurs support apporte plus de précision que le modèle par régression

simple.

0 10 20 30 40 50 60 70 80 90 100-0.2

0

0.2

0.4

0.6

0.8

1

1.2

Community

Vio

lent

Crim

es P

er

100K

Popula

tion

SVM Polynomial

Simulated Values

Real Values

Page 33: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

33

Approche par réseau de neurones et perceptron multi couche.

La simulation a été faite grâce à l’outil netlab. 6 neurones cachées et 42 boucles d’apprentissage ont

été utilisés ajouté à une fonction d’activation linéaire.

Qualité du résultat : RMSE=0.11787

C’est le meilleur modèle représenté dans cette étude. De nombreuses tentatives on été entrepris

avant d’arriver à ce résultat. Le comportement graphique est assez différent des méthodes de

régression. Parfois très précis, à des endroits où une régression ne l’est pas, parfois beaucoup moins

précis. Mais sur notre jeu de test, le résultat est globalement meilleur.

0 10 20 30 40 50 60 70 80 90 1000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Neural Network for 6 nodes

Simulated Values

Real Values

Page 34: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

34

Estimation du surapprentissage

Dans le cadre de cette étude, il fallait savoir quand arrêter notre simulation.

Voici le graphique représentant les erreurs de validation et d’apprentissage :

On s’aperçoit qu’après 40 boucles, il n’est plus nécessaire de continuer l’apprentissage car la courbe

des erreurs de validation de descend plus et commence à remonter doucement alors que l’erreur

d’apprentissage ne cesse de diminuer.

On s’aperçoit que l’augmentation du nombre de neurones n’apporte pas forcement une meilleur

estimation si ce n’est une minimisation de la variance de l’erreur constatée.

0,1

0,12

0,14

0,16

0,18

0,2

0,22

0,24

1

10

19

28

37

46

55

64

73

82

91

10

0

10

9

11

8

12

7

13

6

14

5

RM

SE (

Erre

ur)

Surapprentissage

Erreur d'apprentissage

Erreur de validation

0,1

0,11

0,12

0,13

0,14

0,15

0,16

0,17

0,18

0,19

1 7

13

19

25

31

37

43

49

55

61

67

73

79

85

91

97

Axi

s Ti

tle

Comparaison du nombre de neurones

100 neurones

10 neurones

6 neurones

Page 35: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

35

Approche par vraisemblance

Dans ce contexte, on va estimer une mixture gaussienne s’approchant de notre problématique.

Ce modèle non-paramétrique permet de donner une forme probabiliste simplifiée.

Pour estimer, ces mixtures gaussiennes, on utilise la librairie stprtool et la fonction mlcgmm pour

estimer une mixture de gaussienne.

Puis on utilise la définition de la probabilité conditionnelle :

On en extrait un intervalle de confiance basé sur l’estimation de la variance.

Qualité du résultat : RMSE= 0.13475

Ce que nous remarquons, c’est que l’estimation non paramétrique à partir d’une mixture de

gaussienne permet d’obtenir une bonne estimation. L’intervalle de confiance couvre la courbe réelle.

0 10 20 30 40 50 60 70 80 90 1000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1Gaussian mixture

Simulated Values

Real Values

Page 36: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

36

Approche avec données classifiées On utilise la méthode des k-moyennes et des machines à vecteurs de support pour déterminer les

classes. On sépare en deux étapes notre classification

On fait une première passe avec la méthode des k-moyenne sur les données d’apprentissage. Ceci

nous donne une estimation des classes. On obtient une classification que l’on donne en

apprentissage à un SVM. Puis nous utilisons, la méthode SVM pour extraire les classes des données

de test. Ainsi, on garde une indépendance entre les données de test et d’apprentissage.

Puis nous refaisons quasiment la même étude que précédemment sur plusieurs choix de classes

(2,3,4) mais en réduisant le scope des modèles à l’essentiel (Régression, SVM et perceptron)

Voici une topologie rapide des résultats de la meilleure simulation :

Multiplier le nombre des classes, c’est aussi multiplier le nombre des modèles. Si chacun de ces

modèles encadre une bonne estimation, on doit obtenir un meilleur résultat.

Nombres d’individus par classe :

Classe 1 Classe 2 Classe 3 Classe 4

4 classes 110 441 351 192

3 classes 381 596 117 2 classes 626 468

0 10 20 30 40 50 60 70 80 90 100-0.2

0

0.2

0.4

0.6

0.8

1

1.2SVM Polynomial

Simulated Values

Real Values

Page 37: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

37

Tableau comparatif en fonction du nombre de classes :

Liste des estimateurs :

- MSE : l’erreur quadratique moyenne

- RMSE : la racine de l’erreur quadratique moyenne

- MAE : l’erreur absolue moyenne

- ARV : l’erreur quadratique moyenne sur la variance des données

Nb classes RMSE MAE MSE ARV

Régression linéaire 2 0.13763 0.099092 0.018942 0.51857

3 0.13501 0.096144 0.018227 0.49899

4 0.21412 0.13089 0.045847 1.2551

Régression PLS-Matlab 2 0.13245 0.094019 0.017542 0.48025

3 0.13047 0.091678 0.017021 0.466

4 0.14783 0.10862 0.021853 0.59828

SVM Polynomial 2 0.12929 0.092427 0.016715 0.4576

3 0.12763 0.09117 0.016288 0.44593

4 0.14822 0.1032 0.021969 0.60146

Réseau de neurones 2 0.13692 0.10066 0.018747 0.51323

multi couche 3 0.17428 0.13354 0.030374 0.83156

4 0.18433 0.13045 0.033976 0.93016

Ce que nous voyons immédiatement est la dégradation de la qualité en fonction du nombre des

classes construites.

Les meilleures estimations profitent d’une diminution qualitativement plus importante que les autres

méthodes et ne supportent pas plus de 3 classes.

Malheureusement l’amélioration attendue sur les différents modèles reste critiquable.

Les réseaux de neurones perdent en efficacité.

Page 38: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

38

Approche avec variables supprimées L’approche consiste à regarder les variables qui ne sont pas complètement utiles dans notre analyse.

Les variables mal utilisées peuvent avoir un effet néfaste sur la précision de notre modèle.

Après l’étape de sélection, nous les supprimons et analysons le résultat selon le même choix de

modèle décrit précédemment.

Choix des variables

Le choix des variables à supprimer n’est pas simple. Deux approches sont choisies ici, mais bien

d’autres peuvent être utilisées. Nos analyses précédentes ont permis d’analyser les relations entre

les variables. Ainsi, l’analyse des corrélation entre la variable à estimer et les variables explicatives

nous a permis de voir les variables très corrélées , anti corrélées ou peu corrélées. C’est à ces

dernières qu’il faut attacher plus d’importance. Leurs apports étant faible, leurs suppressions ne

devraient pas avoir d’impact important. Cela peut peu être donner une amélioration du modèle.

La deuxième approche est en analysant la topologie des variables obtenues selon la méthode des

cartes auto organisatrices de Kohonen. Les variables regroupées dans une partie de la carte étant à

l’opposé de nos variables d’étude sont un bon choix. Elles mixent deux concepts : leurs éloignements

et leurs regroupements. Cette approche est plus subtile que le choix précédent.

Voici la liste des variables choisies :

- Les corrélations les plus faibles (abs(corrélation)<0,1) : householdsize, racePctAsian,

agePct12t21, agePct16t24, agePct65up, pctUrban, pctWRetire, indianPerCap, PctEmplManu,

PctEmplProfServ, PctWorkMomYoungKids, PersPerOccupHous, PctVacMore6Mos,

MedOwnCostPctInc, MedOwnCostPctIncNoMtg, PctBornSameState, PctSameCity85,

PctSameState85

- Extraction de la carte topologique de Kohonen des éléments les plus éloignés de notre

variable à estimer : racePctWhite, pctUrban, pctWWage, pctWInvInc, pctWRetire, PctEmploy,

PctFam2Par, PctKids2Par, PctYoungKids2Par, PctTeen2Par, PctWorkMom, PctSpeakEnglOnly,

PersPerOccupHous, PersPerOwnOccHous, PctHousOccup, PctHousOwnOcc,MedYrHousBuilt,

PctBornSameState, PctSameHouse85, PctSameCity85, PctSameState85

On note beaucoup de similarité entres ces deux listes. Les variables apparentes expriment

l’urbanisation, les retraités, l’emploi, l’environnement familiale et social.

Page 39: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

39

Le résultat obtenu

Voici graphiquement le meilleur résultat obtenu.

Ce résultat à été obtenu avec la deuxième liste de variables supprimées.

Le résultat n’est pas de plus basse qualité que les méthodes précédemment utilisées.

0 10 20 30 40 50 60 70 80 90 1000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1SVM Polynomial

Simulated Values

Real Values

Page 40: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

40

Tableau des résultats

Liste RMSE MAE MSE ARV

Régression linéaire 1 0,13825 0,10049 0,019112 0,52324

2 0,134 0,097173 0,017957 0,49161

Régression PLS-Matlab 1 0,13671 0,098719 0,018691 0,5117

2 0,13291 0,09554 0,017665 0,48362

SVM Polynomial 1 0,13048 0,091957 0,017025 0,46611

2 0,12925 0,089951 0,016705 0,45733

Réseau de neurones 1 0,13788 0,09764 0,019011 0,52048

multi couche 2 0,13351 0,095503 0,017824 0,48797

Cette stratégie apparaît payante. Avec la liste issue de la carte topologique de kohonen, tous nos

résultats sont légèrement meilleurs qu’un jeu de données complet. Le résultat reste en dessous de la

séparation des données en classes.

Page 41: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

41

Approche par suppression de communauté La difficulté dans une analyse de données est la recherche de données extrêmes. Des données qui

s’éloignent du modèle admissible. Souvent en minorité, ces données perturbent, par leurs extréma

et leurs différences, un modèle plus représentatif.

Le choix de la méthode d’élimination des communautés est basé sur la distance de cook sur des

données multi variées et sur le fait que statistiquement et qu’à partir d’une certaine distance

éloignée, on admet des individus non représentatif.

Cette méthode permet de supprimer 126 individus.

Meilleur résultat graphique

Tableau de résultat

RMSE MAE MSE ARV

Régression linéaire 0.12747 0.092553 0.016248 0.44483

Régression PLS-Matlab 0.12764 0.091114 0.016292 0.44602

SVM Polynomial 0.12797 0.090735 0,017175 0,47019

Réseau de neurones 0.13552 0.094944 0.018367 0.50283

Cette solution apparait efficace comparée aux résultats obtenus avec l’ensemble du jeu de données.

La première intuition a été en accord avec ce résultat.

0 10 20 30 40 50 60 70 80 90 100-0.2

0

0.2

0.4

0.6

0.8

1

1.2Linear Regression

Simulated Values

Real Values

Page 42: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

42

Approche mixte Intuitivement, on remarque que si l’on mixe un certains nombre de stratégie de classification de

données, de suppression d’information, on doit obtenir un bien meilleur résultat.

On mixe les meilleurs résultats obtenus avec nos trois précédentes stratégies.

On choisi la recherche de deux ou trois classes en éliminant des variables déterminées et des

individus sélectionnés.

Meilleur résultat graphique

0 10 20 30 40 50 60 70 80 90 100-0.2

0

0.2

0.4

0.6

0.8

1

1.2SVM Polynomial

Simulated Values

Real Values

Page 43: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

43

Tableau des résultats

Nombre de classes

RMSE MAE MSE ARV

Régression linéaire 2 0.12437 0.087327 0.015467 0.42344

Régression PLS-Matlab 2 0.12438 0.08572

0.015472

0.42357

SVM Polynomial 2 0.12175 0.08589 0.014822 0.40579

Réseau de neurones multi couche

2 0,13283 0,097711 0,017645 0,48306

Les résultats sont très intéressants. Nous obtenons un résultat bien meilleur en choisissant, dans le

jeu de données, les éléments les plus pertinents. Toutes les analyses en régression gagnent en

précision. Les machines à vecteur de support obtiennent l’un des meilleurs résultats de notre étude.

Page 44: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

44

Comparaison des résultats des différentes méthodes utilisées. Les méthodes utilisées pour vérifier et comparer nos modèles sont :MSE : l’erreur quadratique

moyenne, RMSE : la racine de l’erreur quadratique moyenne, MAE : l’erreur absolue moyenne, ARV :

l’erreur quadratique moyenne sur la variance des données

Les meilleures valeurs obtenues sont représentées sur ce tableau :

Méthode utilisée RMSE MAE MSE ARV

Vraisemblance ,mixture de gaussienne 0.1241 0.087554 0.015401 0.42164 Données complètes 0.13475 0.098797 0.018157 0.49709

Données séparées en 2 classes 0.13686 0.097323 0.01873 0.51276

Données séparées en 3 classes 0.13521 0.094228 0.018282 0.50052

Variables supprimées 0.13406 0.097274 0.017972 0.49202

Communautés supprimées 0.12757 0.092739 0.016275 0.44557

Mixte avec 2 classes 0.1241 0.087554 0.015401 0.42164

Régression linéaire 0.12437 0.087327 0.015467 0.42344 Données complètes 0,13499 0.099144 0.018222 0.49888

Données séparées en 2 classes 0.13763 0.099092 0.018942 0.51857

Données séparées en 3 classes 0.13501 0.096144 0.018227 0.49899

Variables supprimées 0,134 0,097173 0,017957 0,49161

Communautés supprimées 0.12747 0.092553 0.016248 0.44483

Mixte avec 2 classes 0.12437 0.087327 0.015467 0.42344

Régression PLS-Matlab 0.12438 0.08572 0.015472 0.42357 Données complètes 0,13347 0.09774 0.017815 0.48772

Données séparées en 2 classes 0.13245 0.094019 0.017542 0.48025

Données séparées en 3 classes 0.13047 0.091678 0.017021 0.466

Variables supprimées 0,13291 0,09554 0,017665 0,48362

Communautés supprimées 0.12764 0.091114 0.016292 0.44602

Mixte avec 2 classes 0.12438 0.08572 0.015472 0.42357

Régression PLS-CG 0.1207 0.085773 0.01457 0.39888 Données complètes 0.12743 0.093526 0.016238 0.44455

Données séparées en 2 classes 0.12396 0.089755 0.015366 0.42067

Données séparées en 3 classes 0.12021 0.087285 0.014451 0.39562

Variables supprimées 0.12829 0.094293 0.016458 0.45057

Communautés supprimées 0.12429 0.088444 0.015448 0.4229

Mixte avec 2 classes 0.1207 0.085773 0.01457 0.39888

SVM Polynomial 0.12175 0.08589 0.014822 0.40579

Données complètes 0.12985 0.092377 0.01686 0.46268

Données séparées en 2 classes 0.12911 0.088887 0.01667 0.45637

Données séparées en 3 classes 0.13302 0.092129 0.017695 0.48444

Variables supprimées 0,12925 0,089951 0,016705 0,45733

Communautés supprimées 0.12797 0.090735 0,017175 0,47019

Mixte avec 2 classes 0.12175 0.08589 0.014822 0.40579

Réseau de neurones multi couche 0,11787 0,086258 0,013893 0,40909 Données complètes 0,11787 0.086258 0.013893 0.40909

Données séparées en 2 classes 0,13692 0.10066 0.018747 0.51323

Données séparées en 3 classes 0.13393 0.094034 0.017938 0.4911

Variables supprimées 0,13351 0,095503 0,017824 0,48797

Communautés supprimées 0.13552 0.094944 0.018367 0.50283

Mixte avec 2 classes 0,13283 0,097711 0,017645 0,48306

Notre approche par réseau de neurones a perdu en efficacité dès que l’on a commencé à

partitionner ou réduire nos données.

Page 45: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

45

On observe la précision de nos 6 modèles étudiés. Ainsi c’est le perceptron multi couche, la

régression PLS-CG et les machines à vecteurs de support qui obtiennent la plus grande précision

quand aux résultats étudiés.

Une simple régression à partir du jeu complet de données, nous donne une précision RMSE de

0.13499. Notre étude nous a permis de descendre plus bas avec ce même jeu de données et de

l’utilisation de différentes stratégies et méthode de prédiction. Nous avons repoussés les limites

d’estimation à un petit plus loin.

Page 46: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

46

Conclusion Après une étude sur la classification des données intéressantes basée sur plusieurs algorithmes

connus, les modèles de prédiction se sont avérés efficaces, en particulier ceux basés sur le

perceptron multicouche et les machines à vecteurs de support. Nous avons obtenu avec ces derniers

des résultats très intéressants et prometteurs.

Ce fut une étude intéressante avec des données qui ont résisté à de nombreuses tentatives de

prédiction. L’étude sur un phénomène réel est toujours passionnante. Le sujet ici est vaste et

complexe. Ce qui est plaisant est de rechercher et d’affiner ces modèles de prédiction et de réussir à

montrer que certains peuvent donner d’excellents résultats.

Je regrette de ne pas avoir eu assez de temps pour utiliser un réseau bayesiens ou estimer un modèle

paramétrique.

Les données de cette étude sont spécifiques aux états unis. Il manque certainement des données qui

pour nous, sur un autre continent, paraissent plus intéressantes. Je pense que des données sur

certains aspects juridiques comme la peine de mort ou certains aspects économiques comme le

nombre d’armes vendues sur la même période auraient pu éclaircir et peu être affiner notre modèle

prédictif.

Je finirais par afficher en plus grand l’un des meilleurs résultats de mon étude basée sur une machine

à vecteurs de support coupée en trois classes avec des variables et des individus choisis.

0 10 20 30 40 50 60 70 80 90 100-0.2

0

0.2

0.4

0.6

0.8

1

1.2SVM Polynomial

Simulated Values

Real Values

Page 47: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

47

Annexe

Outils utilisés Liste des outils utilisés pour cette analyse :

Netlab : http://www1.aston.ac.uk/eas/research/groups/ncrg/resources/netlab/

SDH Toolbox : http://www.ofai.at/~elias.pampalk/sdh/overview.html

SOM Toolbox : http://www.cis.hut.fi/somtoolbox/

Stprtool : http://cmp.felk.cvut.cz/cmp/software/stprtool/

GLM-IE : http://hannes.nickisch.org/code/glm-ie/doc/index.html

Moutlier1 : http://www.mathworks.com/matlabcentral/fileexchange/12252

Description des variables

Variable Description

state US state (by number) - not counted as predictive above, but if considered, should be consided nominal (nominal)

county numeric code for county - not predictive, and many missing values (numeric)

community numeric code for community - not predictive and many missing values (numeric)

communityname community name - not predictive - for information only (string)

fold

fold number for non-random 10 fold cross validation, potentially useful for debugging, paired tests - not predictive (numeric)

population population for community

householdsize mean people per household (numeric - decimal)

racepctblack percentage of population that is african american (numeric - decimal)

racePctWhite percentage of population that is caucasian (numeric - decimal)

racePctAsian percentage of population that is of asian heritage (numeric - decimal)

racePctHisp percentage of population that is of hispanic heritage (numeric - decimal)

agePct12t21 percentage of population that is 12-21 in age (numeric - decimal)

agePct12t29 percentage of population that is 12-29 in age (numeric - decimal)

agePct16t24 percentage of population that is 16-24 in age (numeric - decimal)

agePct65up percentage of population that is 65 and over in age (numeric - decimal)

numbUrban number of people living in areas classified as urban (numeric - decimal)

pctUrban percentage of people living in areas classified as urban

Page 48: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

48

(numeric - decimal)

medIncome median household income (numeric - decimal)

pctWWage percentage of households with wage or salary income in 1989 (numeric - decimal)

pctWFarmSelf percentage of households with farm or self employment income in 1989 (numeric - decimal)

pctWInvInc percentage of households with investment / rent income in 1989 (numeric - decimal)

pctWSocSec percentage of households with social security income in 1989 (numeric - decimal)

pctWPubAsst percentage of households with public assistance income in 1989 (numeric - decimal)

pctWRetire percentage of households with retirement income in 1989 (numeric - decimal)

medFamInc median family income (differs from household income for non-family households) (numeric - decimal)

perCapInc per capita income (numeric - decimal)

whitePerCap per capita income for caucasians (numeric - decimal)

blackPerCap per capita income for african americans (numeric - decimal)

indianPerCap per capita income for native americans (numeric - decimal)

AsianPerCap per capita income for people with asian heritage (numeric - decimal)

OtherPerCap per capita income for people with 'other' heritage (numeric - decimal)

HispPerCap per capita income for people with hispanic heritage (numeric - decimal)

NumUnderPov number of people under the poverty level (numeric - decimal)

PctPopUnderPov percentage of people under the poverty level (numeric - decimal)

PctLess9thGrade percentage of people 25 and over with less than a 9th grade education (numeric - decimal)

PctNotHSGrad percentage of people 25 and over that are not high school graduates (numeric - decimal)

PctBSorMore percentage of people 25 and over with a bachelors degree or higher education (numeric - decimal)

PctUnemployed percentage of people 16 and over, in the labor force, and unemployed (numeric - decimal)

PctEmploy percentage of people 16 and over who are employed (numeric - decimal)

PctEmplManu percentage of people 16 and over who are employed in manufacturing (numeric - decimal)

PctEmplProfServ percentage of people 16 and over who are employed in professional services (numeric - decimal)

PctOccupManu percentage of people 16 and over who are employed in manufacturing (numeric - decimal) ########

Page 49: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

49

PctOccupMgmtProf

percentage of people 16 and over who are employed in management or professional occupations (numeric - decimal)

MalePctDivorce percentage of males who are divorced (numeric - decimal)

MalePctNevMarr percentage of males who have never married (numeric - decimal)

FemalePctDiv percentage of females who are divorced (numeric - decimal)

TotalPctDiv percentage of population who are divorced (numeric - decimal)

PersPerFam mean number of people per family (numeric - decimal)

PctFam2Par percentage of families (with kids) that are headed by two parents (numeric - decimal)

PctKids2Par percentage of kids in family housing with two parents (numeric - decimal)

PctYoungKids2Par percent of kids 4 and under in two parent households (numeric - decimal)

PctTeen2Par percent of kids age 12-17 in two parent households (numeric - decimal)

PctWorkMomYoungKids percentage of moms of kids 6 and under in labor force (numeric - decimal)

PctWorkMom percentage of moms of kids under 18 in labor force (numeric - decimal)

NumIlleg number of kids born to never married (numeric - decimal)

PctIlleg percentage of kids born to never married (numeric - decimal)

NumImmig total number of people known to be foreign born (numeric - decimal)

PctImmigRecent percentage of _immigrants_ who immigated within last 3 years (numeric - decimal)

PctImmigRec5 percentage of _immigrants_ who immigated within last 5 years (numeric - decimal)

PctImmigRec8 percentage of _immigrants_ who immigated within last 8 years (numeric - decimal)

PctImmigRec10 percentage of _immigrants_ who immigated within last 10 years (numeric - decimal)

PctRecentImmig percent of _population_ who have immigrated within the last 3 years (numeric - decimal)

PctRecImmig5 percent of _population_ who have immigrated within the last 5 years (numeric - decimal)

PctRecImmig8 percent of _population_ who have immigrated within the last 8 years (numeric - decimal)

PctRecImmig10 percent of _population_ who have immigrated within the last 10 years (numeric - decimal)

PctSpeakEnglOnly percent of people who speak only English (numeric - decimal)

PctNotSpeakEnglWell percent of people who do not speak English well (numeric - decimal)

Page 50: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

50

PctLargHouseFam percent of family households that are large (6 or more) (numeric - decimal)

PctLargHouseOccup percent of all occupied households that are large (6 or more people) (numeric - decimal)

PersPerOccupHous mean persons per household (numeric - decimal)

PersPerOwnOccHous mean persons per owner occupied household (numeric - decimal)

PersPerRentOccHous mean persons per rental household (numeric - decimal)

PctPersOwnOccup percent of people in owner occupied households (numeric - decimal)

PctPersDenseHous percent of persons in dense housing (more than 1 person per room) (numeric - decimal)

PctHousLess3BR percent of housing units with less than 3 bedrooms (numeric - decimal)

MedNumBR median number of bedrooms (numeric - decimal)

HousVacant number of vacant households (numeric - decimal)

PctHousOccup percent of housing occupied (numeric - decimal)

PctHousOwnOcc percent of households owner occupied (numeric - decimal)

PctVacantBoarded percent of vacant housing that is boarded up (numeric - decimal)

PctVacMore6Mos percent of vacant housing that has been vacant more than 6 months (numeric - decimal)

MedYrHousBuilt median year housing units built (numeric - decimal)

PctHousNoPhone percent of occupied housing units without phone (in 1990, this was rare!) (numeric - decimal)

PctWOFullPlumb percent of housing without complete plumbing facilities (numeric - decimal)

OwnOccLowQuart owner occupied housing - lower quartile value (numeric - decimal)

OwnOccMedVal owner occupied housing - median value (numeric - decimal)

OwnOccHiQuart owner occupied housing - upper quartile value (numeric - decimal)

RentLowQ rental housing - lower quartile rent (numeric - decimal)

RentMedian rental housing - median rent (Census variable H32B from file STF1A) (numeric - decimal)

RentHighQ rental housing - upper quartile rent (numeric - decimal)

MedRent median gross rent (Census variable H43A from file STF3A - includes utilities) (numeric - decimal)

MedRentPctHousInc median gross rent as a percentage of household income (numeric - decimal)

MedOwnCostPctInc median owners cost as a percentage of household income - for owners with a mortgage (numeric - decimal)

MedOwnCostPctIncNoMtg

median owners cost as a percentage of household income - for owners without a mortgage (numeric - decimal)

NumInShelters number of people in homeless shelters (numeric - decimal)

Page 51: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

51

NumStreet number of homeless people counted in the street (numeric - decimal)

PctForeignBorn percent of people foreign born (numeric - decimal)

PctBornSameState percent of people born in the same state as currently living (numeric - decimal)

PctSameHouse85 percent of people living in the same house as in 1985 (5 years before) (numeric - decimal)

PctSameCity85 percent of people living in the same city as in 1985 (5 years before) (numeric - decimal)

PctSameState85 percent of people living in the same state as in 1985 (5 years before) (numeric - decimal)

LemasSwornFT number of sworn full time police officers (numeric - decimal)

LemasSwFTPerPop sworn full time police officers per 100K population (numeric - decimal)

LemasSwFTFieldOps

number of sworn full time police officers in field operations (on the street as opposed to administrative etc) (numeric - decimal)

LemasSwFTFieldPerPop

sworn full time police officers in field operations (on the street as opposed to administrative etc) per 100K population (numeric - decimal)

LemasTotalReq total requests for police (numeric - decimal)

LemasTotReqPerPop total requests for police per 100K popuation (numeric - decimal)

PolicReqPerOffic total requests for police per police officer (numeric - decimal)

PolicPerPop police officers per 100K population (numeric - decimal)

RacialMatchCommPol

a measure of the racial match between the community and the police force. High values indicate proportions in community and police force are similar (numeric - decimal)

PctPolicWhite percent of police that are caucasian (numeric - decimal)

PctPolicBlack percent of police that are african american (numeric - decimal)

PctPolicHisp percent of police that are hispanic (numeric - decimal)

PctPolicAsian percent of police that are asian (numeric - decimal)

PctPolicMinor percent of police that are minority of any kind (numeric - decimal)

OfficAssgnDrugUnits number of officers assigned to special drug units (numeric - decimal)

NumKindsDrugsSeiz number of different kinds of drugs seized (numeric - decimal)

PolicAveOTWorked police average overtime worked (numeric - decimal)

LandArea land area in square miles (numeric - decimal)

PopDens population density in persons per square mile (numeric - decimal)

PctUsePubTrans percent of people using public transit for commuting (numeric - decimal)

PolicCars number of police cars (numeric - decimal)

Page 52: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

52

PolicOperBudg police operating budget (numeric - decimal)

LemasPctPolicOnPatr percent of sworn full time police officers on patrol (numeric - decimal)

LemasGangUnitDeploy gang unit deployed (numeric - decimal - but really ordinal - 0 means NO, 1 means YES, 0.5 means Part Time)

LemasPctOfficDrugUn percent of officers assigned to drug units (numeric - decimal)

PolicBudgPerPop police operating budget per population (numeric - decimal)

ViolentCrimesPerPop total number of violent crimes per 100K popuation (numeric - decimal) GOAL attribute (to be predicted)

Statistiques élémentaires Voici la liste statistique des 99 variables plus la valeur à estimer:

Nom de la variable Moyenne Médiane Variance Déviation Standard

Min Max Mode

population 0.0576 0.0200 0.0161 0.1269 0 1 0.0100

householdsize 0.4634 0.4400 0.0268 0.1637 0 1 0.4100

racepctblack 0.1796 0.0600 0.0642 0.2534 0 1 0.0100

racePctWhite 0.7537 0.8500 0.0596 0.2440 0 1 0.9800

racePctAsian 0.1537 0.0700 0.0436 0.2089 0 1 0.0200

racePctHisp 0.1440 0.0400 0.0541 0.2325 0 1 0.0100

agePct12t21 0.4242 0.4000 0.0241 0.1552 0 1 0.3800

agePct12t29 0.4939 0.4800 0.0206 0.1436 0 1 0.4900

agePct16t24 0.3363 0.2900 0.0277 0.1665 0 1 0.2900

agePct65up 0.4232 0.4200 0.0321 0.1792 0 1 0.4700

numbUrban 0.0641 0.0300 0.0164 0.1283 0 1 0

pctUrban 0.6963 1.0000 0.1979 0.4448 0 1 1.0000

medIncome 0.3611 0.3200 0.0438 0.2094 0 1 0.2300

pctWWage 0.5582 0.5600 0.0335 0.1829 0 1 0.5300

pctWFarmSelf 0.2916 0.2300 0.0417 0.2041 0 1 0.1600

pctWInvInc 0.4957 0.4800 0.0317 0.1781 0 1 0.4100

pctWSocSec 0.4711 0.4750 0.0301 0.1736 0 1 0.5600

pctWPubAsst 0.3178 0.2600 0.0493 0.2221 0 1 0.1000

pctWRetire 0.4792 0.4700 0.0281 0.1676 0 1 0.4400

medFamInc 0.3757 0.3300 0.0393 0.1983 0 1 0.2500

perCapInc 0.3503 0.3000 0.0365 0.1911 0 1 0.2300

whitePerCap 0.3680 0.3200 0.0349 0.1868 0 1 0.3000

blackPerCap 0.2911 0.2500 0.0294 0.1716 0 1 0.1800

indianPerCap 0.2035 0.1700 0.0272 0.1648 0 1 0

AsianPerCap 0.3224 0.2800 0.0382 0.1954 0 1 0.1800

HispPerCap 0.3863 0.3450 0.0335 0.1831 0 1 0.3000

NumUnderPov 0.0555 0.0200 0.0164 0.1279 0 1 0.0100

Page 53: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

53

PctPopUnderPov 0.3030 0.2500 0.0522 0.2285 0 1 0.0800

PctLess9thGrade 0.3158 0.2700 0.0455 0.2134 0 1 0.1900

PctNotHSGrad 0.3833 0.3600 0.0410 0.2025 0 1 0.3900

PctBSorMore 0.3617 0.3100 0.0438 0.2092 0 1 0.1800

PctUnemployed 0.3635 0.3200 0.0409 0.2022 0 1 0.2400

PctEmploy 0.5011 0.5100 0.0303 0.1740 0 1 0.5600

PctEmplManu 0.3964 0.3700 0.0410 0.2024 0 1 0.2600

PctEmplProfServ 0.4406 0.4100 0.0308 0.1755 0 1 0.3600

PctOccupManu 0.3912 0.3700 0.0396 0.1989 0 1 0.3200

PctOccupMgmtProf 0.4413 0.4000 0.0347 0.1863 0 1 0.3600

MalePctDivorce 0.4612 0.4700 0.0333 0.1825 0 1 0.5600

MalePctNevMarr 0.4345 0.4000 0.0308 0.1754 0 1 0.3800

FemalePctDiv 0.4876 0.5000 0.0307 0.1752 0 1 0.5400

TotalPctDiv 0.4943 0.5000 0.0337 0.1836 0 1 0.5700

PersPerFam 0.4877 0.4700 0.0239 0.1546 0 1 0.4400

PctFam2Par 0.6109 0.6300 0.0408 0.2020 0 1 0.6400

PctKids2Par 0.6207 0.6400 0.0426 0.2064 0 1 0.7200

PctYoungKids2Par 0.6640 0.7000 0.0479 0.2187 0 1 0.9100

PctTeen2Par 0.5829 0.6100 0.0367 0.1915 0 1 0.6000

PctWorkMomYoungKids 0.5014 0.5100 0.0284 0.1686 0 1 0.5100

PctWorkMom 0.5267 0.5400 0.0307 0.1752 0 1 0.5700

NumIlleg 0.0363 0.0100 0.0118 0.1087 0 1 0

PctIlleg 0.2500 0.1700 0.0529 0.2299 0 1 0.0900

NumImmig 0.0301 0.0100 0.0076 0.0872 0 1 0

PctImmigRecent 0.3202 0.2900 0.0480 0.2191 0 1 0

PctImmigRec5 0.3606 0.3400 0.0445 0.2109 0 1 0

PctImmigRec8 0.3991 0.3900 0.0406 0.2015 0 1 0.2600

PctImmigRec10 0.4279 0.4300 0.0380 0.1950 0 1 0.4300

PctRecentImmig 0.1814 0.0900 0.0556 0.2358 0 1 0.0100

PctRecImmig5 0.1821 0.0800 0.0559 0.2363 0 1 0.0200

PctRecImmig8 0.1848 0.0900 0.0560 0.2367 0 1 0.0200

PctRecImmig10 0.1829 0.0900 0.0551 0.2348 0 1 0.0200

PctSpeakEnglOnly 0.7859 0.8700 0.0515 0.2269 0 1 0.9600

PctNotSpeakEnglWell 0.1506 0.0600 0.0483 0.2197 0 1 0.0300

PctLargHouseFam 0.2676 0.2000 0.0386 0.1966 0 1 0.1700

PctLargHouseOccup 0.2519 0.1900 0.0364 0.1907 0 1 0.1900

PersPerOccupHous 0.4621 0.4400 0.0287 0.1696 0 1 0.3700

PersPerOwnOccHous 0.4944 0.4800 0.0249 0.1579 0 1 0.4500

PersPerRentOccHous 0.4041 0.3600 0.0358 0.1893 0 1 0.3200

PctPersOwnOccup 0.5626 0.5600 0.0388 0.1971 0 1 0.5400

PctPersDenseHous 0.1863 0.1100 0.0441 0.2100 0 1 0.0600

PctHousLess3BR 0.4952 0.5100 0.0298 0.1725 0 1 0.5300

MedNumBR 0.3147 0.5000 0.0651 0.2552 0 1 0.5000

Page 54: Violent crimes in USA

Projet 10 : Crimes and Communities Data Set Septembre 2012

CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ

54

HousVacant 0.0768 0.0300 0.0226 0.1505 0 1 0.0100

PctHousOccup 0.7195 0.7700 0.0376 0.1940 0 1 0.8300

PctHousOwnOcc 0.5487 0.5400 0.0343 0.1852 0 1 0.5200

PctVacantBoarded 0.2045 0.1300 0.0474 0.2178 0 1 0

PctVacMore6Mos 0.4333 0.4200 0.0357 0.1890 0 1 0.4400

MedYrHousBuilt 0.4942 0.5200 0.0540 0.2325 0 1 0

PctHousNoPhone 0.2645 0.1850 0.0590 0.2428 0 1 0.0100

PctWOFullPlumb 0.2431 0.1900 0.0426 0.2063 0 1 0

OwnOccLowQuart 0.2647 0.1800 0.0504 0.2244 0 1 0.0900

OwnOccMedVal 0.2635 0.1700 0.0536 0.2315 0 1 0.0800

OwnOccHiQuart 0.2689 0.1800 0.0553 0.2353 0 1 0.0800

RentLowQ 0.3464 0.3100 0.0481 0.2193 0 1 0.1300

RentMedian 0.3725 0.3300 0.0438 0.2093 0 1 0.1900

RentHighQ 0.4230 0.3700 0.0616 0.2483 0 1 1.0000

MedRent 0.3841 0.3400 0.0455 0.2134 0 1 0.1700

MedRentPctHousInc 0.4901 0.4800 0.0287 0.1695 0 1 0.4000

MedOwnCostPctInc 0.4498 0.4500 0.0351 0.1873 0 1 0.4100

MedOwnCostPctIncNoMtg 0.4038 0.3700 0.0371 0.1926 0 1 0.2400

NumInShelters 0.0294 0 0.0105 0.1026 0 1 0

NumStreet 0.0228 0 0.0101 0.1004 0 1 0

PctForeignBorn 0.2156 0.1300 0.0534 0.2311 0 1 0.0300

PctBornSameState 0.6089 0.6300 0.0418 0.2043 0 1 0.7800

PctSameHouse85 0.5351 0.5400 0.0329 0.1814 0 1 0.5900

PctSameCity85 0.6264 0.6700 0.0402 0.2005 0 1 0.7400

PctSameState85 0.6515 0.7000 0.0393 0.1982 0 1 0.7900

LandArea 0.0652 0.0400 0.0120 0.1095 0 1 0.0100

PopDens 0.2329 0.1700 0.0412 0.2031 0 1 0.0900

PctUsePubTrans 0.1617 0.0700 0.0525 0.2291 0 1 0.0100

LemasPctOfficDrugUn 0.0941 0 0.0578 0.2403 0 1 0

ViolentCrimesPerPop 0.2380 0.1500 0.0543 0.2330 0 1 0.0300