Violent crimes in USA
-
Upload
sebastien-diaz -
Category
Documents
-
view
89 -
download
3
description
Transcript of Violent crimes in USA
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES
ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel
CRUCIANU et Meziane YACOUB
Septembre
2012
Projet 10 : Crimes and
Communities Data Set Prédiction du taux de crimes violents pour cent
milles habitants.
Sébastien DIAZ , INE 0G5DRJ1EXW0, Siscol 000089827
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
2
Sommaire Introduction ............................................................................................................................................. 4
Objectifs .............................................................................................................................................. 4
Etude préliminaire des données ............................................................................................................. 5
Introduction ......................................................................................................................................... 5
Etude du sujet...................................................................................................................................... 5
Source des données ............................................................................................................................ 6
Informations sur les données .............................................................................................................. 7
Matrice de corrélation ......................................................................................................................... 9
Matrice de corrélation des attributs ............................................................................................... 9
Matrice de corrélation sur les individus ........................................................................................ 10
Corrélations de la variable à prédire. ............................................................................................ 11
Réduction des dimensions ................................................................................................................ 12
Etude des premiers axes sur les individus ..................................................................................... 13
L’analyse du cercle des corrélations .............................................................................................. 14
Analyse discriminante ................................................................................................................... 16
Classification des données ................................................................................................................ 17
Classification ascendante hiérarchique ......................................................................................... 17
Classification par cartes auto organisatrice. ................................................................................. 19
Analyse histographique ..................................................................................................................... 22
Prédiction du nombre des crimes violents pour 100k habitants .......................................................... 28
Introduction ....................................................................................................................................... 28
Approche avec données complètes .................................................................................................. 29
Approche par régression ............................................................................................................... 29
Machine à vecteurs de support ..................................................................................................... 32
Approche par réseau de neurones et perceptron multi couche. .................................................. 33
Approche par vraisemblance......................................................................................................... 35
Approche avec données classifiées ................................................................................................... 36
Approche avec variables supprimées ................................................................................................ 38
Choix des variables ........................................................................................................................ 38
Le résultat obtenu ......................................................................................................................... 39
Tableau des résultats ..................................................................................................................... 40
Approche par suppression de communauté ..................................................................................... 41
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
3
Meilleur résultat graphique........................................................................................................... 41
Tableau de résultat ........................................................................................................................ 41
Approche mixte ................................................................................................................................. 42
Meilleur résultat graphique........................................................................................................... 42
Tableau des résultats ..................................................................................................................... 43
Comparaison des résultats des différentes méthodes utilisées. ...................................................... 44
Conclusion ............................................................................................................................................. 46
Annexe ................................................................................................................................................... 47
Outils utilisés ..................................................................................................................................... 47
Description des variables .................................................................................................................. 47
Statistiques élémentaires .................................................................................................................. 52
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
4
Introduction
Objectifs L’objectif de ce projet est d’analyser et de prédire les crimes violents pour 100k habitants à partir
d’un large panel de données relatives aux crimes et communautés américaines.
Notre étude sera construite en deux parties distinctes et nécessaires à la compréhension et à la
recherche d’un modèle de prévision satisfaisant.
La première partie sera organisée autour de l’étude des données, de leurs prétraitements et de
l’analyse de leurs comportements et de leurs cartographies.
La seconde partie sera axée sur la proposition de plusieurs modèles : par régression , par machine à
vecteur support ou par réseaux de neurones.
Le travail effectué dans ce projet est de mettre en pratique les différentes techniques et théories
vues lors du cours et lors des séances de TP de RCP209 : Apprentissage, Réseaux de neurones et
Modèles graphiques. Ce travail sera mises en œuvre par des scripts MATLAB agrémentés d’utilitaires
gratuits.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
5
Etude préliminaire des données
Introduction L’analyse des données portera sur plusieurs idées. La première, une simple étude statistique sur les
corrélations entre individus et variables. Puis, nous regarderons comment une analyse en
composante principal peut nous aider à mieux comprendre nos données. Ensuite nous enchainerons
sur une étude de classification afin de mieux appréhender la structure même de nos données.
Etude du sujet Les informations fournies combinent des données socio-économiques du Recensement US depuis
1990, des données législatives de l’étude de US LEMAS depuis 1990 et des données criminelles du
FBI depuis 1995.
L’idée est d’essayer de prédire le taux des crimes violents pour 100k habitants à partir de ces
données socio économiques
Il n’y a pas de données temporelles. On ne cherche donc pas à prédire quel sera la valeur à tel
moment.
L’analyse portera donc sur les facteurs pouvant influencer ou pas la variable à prédire.
Il y a 128 attributs avec 1994 instances.
Chaque instance est caractérisée par son état et sa communauté.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
6
Source des données Les données sont issues du site Machine Learning de l’Université de Californie. Ce site procure un
grand nombre de documents relatifs à la recherche et à l’étude en Apprentissage, Réseaux de
neurones et Modèles graphiques.
Le document que nous avons choisi provient de données agrégées et retravaillées par Michael
Redmond de l’Université La Salle à Philadelphie.
Les données initiales ont été fournies par :
- U. S. Department of Commerce, Bureau of the Census, Census Of Population And Housing .
1990 United States: Summary Tape File 1a & 3a (Computer Files),
- U.S. Department Of Commerce, Bureau Of The Census Producer, Washington, DC and Inter-
university Consortium for Political and Social Research Ann Arbor, Michigan. (1992)
- U.S. Department of Justice, Bureau of Justice Statistics, Law Enforcement Management And
Administrative Statistics (Computer File) U.S. Department Of Commerce, Bureau Of The
Census Producer, Washington, DC and Inter-university Consortium for Political and Social
Research Ann Arbor, Michigan. (1992)
- U.S. Department of Justice, Federal Bureau of Investigation, Crime in the United States
(Computer File) (1995)
- Redmond, M. A. and A. Baveja: A Data-Driven Software Tool for Enabling Cooperative
Information Sharing Among Police Departments. European Journal of Operational Research
141 (2002) 660-678.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
7
Informations sur les données Nos données sont composées de 1994 individus avec 128 attributs.
Seulement 122 attributs peuvent être utilisés pour notre étude.
Les six attributs non retenus sont les données sur le nom et attributs de la communauté, l’état et la
variable à estimer.
Cette dernière valeur sera ajoutée à notre première partie de l’étude, car elle a un rôle statistique
important.
La liste des données non prédictive est :
state: US state (by number) - not counted as predictive above, but if considered, should be
consided nominal (nominal)
county: numeric code for county - not predictive, and many missing values (numeric)
community: numeric code for community - not predictive and many missing values (numeric)
communityname: community name - not predictive - for information only (string)
fold: fold number for non-random 10 fold cross validation, potentially useful for debugging,
paired tests - not predictive (numeric)
Sur ces 122 variables, il existe des variables contenant des données incomplètes au nombre de 23,
dont voici la liste :
OtherPerCap: per capita income for people with 'other' heritage (numeric - decimal)
LemasSwornFT: number of sworn full time police officers (numeric - decimal)
LemasSwFTPerPop: sworn full time police officers per 100K population (numeric - decimal)
LemasSwFTFieldOps : number of sworn full time police officers in field operations (on the
street as opposed to administrative etc) (numeric - decimal)
LemasSwFTFieldOps : sworn full time police officers in field operations (on the street as
opposed to administrative etc) per 100K population (numeric - decimal)
LemasTotalReq : total requests for police (numeric - decimal)
LemasTotReqPerPop : total requests for police per 100K popuation (numeric - decimal)
PolicReqPerOffic : total requests for police per police officer (numeric - decimal)
PolicPerPop : police officers per 100K population (numeric - decimal)
RacialMatchCommPol : a measure of the racial match between the community and the
police force. High values indicate proportions in community and police force are similar
(numeric - decimal)
PctPolicWhite : percent of police that are caucasian (numeric - decimal)
PctPolicBlack : percent of police that are african american (numeric - decimal)
PctPolicHisp : percent of police that are hispanic (numeric - decimal)
PctPolicAsian : percent of police that are asian (numeric - decimal)
PctPolicMinor : percent of police that are minority of any kind (numeric - decimal)
OfficAssgnDrugUnits : number of officers assigned to special drug units (numeric - decimal)
NumKindsDrugsSeiz : number of different kinds of drugs seized (numeric - decimal)
PolicAveOTWorked : police average overtime worked (numeric - decimal)
PolicCars : number of police cars (numeric - decimal)
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
8
PolicOperBudg : police operating budget (numeric - decimal)
LemasPctPolicOnPatr : percent of sworn full time police officers on patrol (numeric - decimal)
LemasGangUnitDeploy : gang unit deployed (numeric - decimal - but really ordinal - 0 means
NO, 1 means YES, 0.5 means Part Time)
PolicBudgPerPop : police operating budget per population (numeric - decimal)
Il reste donc 99 variables utilisables plus la valeur à estimer pour la réalisation notre étude.
On pourra regarder en annexe l’étude statistique élémentaire des ces variables.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
9
Matrice de corrélation
Matrice de corrélation des attributs
La matrice de corrélation nous permet de mettre en évidence la corrélation ou non des variables.
On entrevoit déjà des groupes de variables fortement corrélés. La classification et la réduction de
dimension des variables nous permettront d’étudier plus précisément ce phénomène.
La grande partie des variables montre une tendance plutôt neutre en termes de corrélation ou non
corrélation.
Voici la matrice de corrélation sous forme graphique des 100 attributs :
Figure 1 - Matrice de corrélation - Variables
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
10
Matrice de corrélation sur les individus
Cette matrice met en évidence que les communautés ont un comportement cohérent et qu’elles
sont pour beaucoup corrélées. Ainsi l’échantillonnage d’un certain nombre d’individus sera
représentatif. Ce qui est excellent pour le cadre de notre étude.
Voici la matrice de corrélation sous forme graphique des 1994 individus :
Figure 2 - Matrice de Corrélation - Individus
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
11
Corrélations de la variable à prédire.
Voici la liste des corrélations entre la variable à prédire et les variables disponibles.
Variable Corrélation Variable Corrélation Variable Corrélation
PctIlleg 0,738 PctRecImmig10 0,2643 PersPerOwnOccHous -0,1244
racepctblack 0,6313 PctRecImmig8 0,2532 PctWorkMom -0,1506
pctWPubAsst 0,5747 PersPerRentOccHous 0,2483 pctWFarmSelf -0,1531
FemalePctDiv 0,556 PctImmigRec8 0,2481 PctSameHouse85 -0,1554
TotalPctDiv 0,5528 PctRecImmig5 0,248 AsianPerCap -0,1556
MalePctDivorce 0,5254 PctRecentImmig 0,2308 OwnOccHiQuart -0,1721
PctPopUnderPov 0,5219 PctImmigRec5 0,216 OwnOccMedVal -0,1907
PctUnemployed 0,5042 LandArea 0,1968 whitePerCap -0,2093
PctHousNoPhone 0,4882 PctForeignBorn 0,1944 OwnOccLowQuart -0,2105
PctNotHSGrad 0,4834 PctImmigRecent 0,1719 RentHighQ -0,2323
PctVacantBoarded 0,4828 PctUsePubTrans 0,1538 MedRent -0,2399
PctHousLess3BR 0,4745 agePct12t29 0,1534 RentMedian -0,2405
NumIlleg 0,471 PersPerFam 0,1407 PctSpeakEnglOnly -0,2415
PctPersDenseHous 0,4529 pctWSocSec 0,118 HispPerCap -0,2446
NumUnderPov 0,4476 agePct16t24 0,0993 RentLowQ -0,2518
HousVacant 0,4214 pctUrban 0,082 blackPerCap -0,2754
PctLess9thGrade 0,4111 PctSameCity85 0,0756 pctWWage -0,3055
PctLargHouseFam 0,3835 agePct65up 0,0672 PctBSorMore -0,3147
NumInShelters 0,3758 MedOwnCostPctInc 0,0638 PctHousOccup -0,319
population 0,3672 agePct12t21 0,0605 PctEmploy -0,3316
PctWOFullPlumb 0,3645 MedOwnCostPctIncNoMtg 0,0538 PctOccupMgmtProf -0,3391
numbUrban 0,3629 racePctAsian 0,0376 perCapInc -0,3521
LemasPctOfficDrugUn 0,3486 PctVacMore6Mos 0,0213 MedNumBR -0,3574
NumStreet 0,3403 PctSameState85 -0,0195 medIncome -0,4242
MedRentPctHousInc 0,325 PctWorkMomYoungKids -0,0225 medFamInc -0,4391
MalePctNevMarr 0,3046 householdsize -0,0349 PctHousOwnOcc -0,4707
PctNotSpeakEnglWell 0,3 PersPerOccupHous -0,0397 PctPersOwnOccup -0,5255
PctOccupManu 0,2956 PctEmplManu -0,0449 pctWInvInc -0,5763
PctLargHouseOccup 0,2948 PctEmplProfServ -0,0715 PctTeen2Par -0,6616
NumImmig 0,2942 PctBornSameState -0,0772 PctYoungKids2Par -0,6661
racePctHisp 0,2931 indianPerCap -0,0909 racePctWhite -0,6848
PctImmigRec10 0,2915 pctWRetire -0,0984 PctFam2Par -0,7067
PopDens 0,2814 MedYrHousBuilt -0,11 PctKids2Par -0,7384
Nous observons très rapidement les éléments proches comme le pourcentage d’enfants illégitimes et
la population de race « black ». Ainsi que les éléments anti corrélés comme les familles ayants deux
parents ou la race « white ».
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
12
Réduction des dimensions Pour la réduction des dimensions de nos données, nous allons utiliser l’Analyse en Composante
Principale et extraire les premiers axes principaux.
Nous commencerons par regarder l’inertie des axes extraits de l’analyse en composante principale.
Voici une représentation graphique de cette inertie :
Les 20 premières dimensions couvrent plus de 90% de la représentation des données.
Les trois premiers axes représentent plus de 50% des axes de nos données.
Pour rendre nos images plus parlantes une coloration a été ajoutée aux valeurs. Cette classification
est basée sur la fonction kmean de matlab avec 5 classes pour déterminer les premiers
partitionnements de nos données.
10 20 30 40 50 60 70 80 90 1000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
PC no.
Inert
ia
Repartition of inertia on the PCs
PC inertia
Cumulated inertia
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
13
Etude des premiers axes sur les individus
Les deux premiers axes sont ici représentés.
Il est difficile ici de déterminer une classification intéressante. La distribution principale des données
apparait centrée autour d’un centre compact. Le reste des données est dispersé plus largement dans
l’espace.
Les deux axes suivants confortent cette analyse.
-15 -10 -5 0 5 10 15-20
-15
-10
-5
0
5
10
First principal axis
Second p
rincip
al axis
Data projection on the first two principal axes
-20 -15 -10 -5 0 5 10-15
-10
-5
0
5
10
15
second principal axis
third p
rincip
al axis
Data projection on the second two principal axes
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
14
L’analyse du cercle des corrélations
Le cercle des corrélations nous permet de voir la structure des attributs. Des premiers
regroupements apparaissent permettant d’imaginer une étude théorique très intéressante.
Les deux premiers axes
Citons des exemples évidents de fortes corrélations :
- PctPersOwnOccup et PctHousOwnOcc qui représentent respectivement le pourcentage de
gens occupants leurs propres logements et le pourcentage des foyers propriétaires occupés
- agePct12t21 , agePct16t24 et agePct12t29 qui représentent respectivement le pourcentage
de population entre 12 et 21 ans , 16 et 24 ans et 12 et 29 ans.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
15
On citera aussi des exemples d’attributs exceptionnels et seuls comme :
- PctSpeakEnglOnly : pourcentage de personne parlant uniquement l’anglais
- racePctAsian : pourcentage de la population étant asiatique
Le deuxième axe et le troisième axe du cercle des corrélations.
Ces deux axes supplémentaires confortent les informations extraites précédemment.
On retrouve les mêmes données isolées et aussi les données rapprochées.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
16
Analyse discriminante
Après les premiers résultats issus de l’analyse en composante principale, nous analysons une autre
méthode : l’analyse discriminante.
Cette méthode devrait, dans la mesure où des groupements existent, proposer une plus grande
séparation de nos données.
Pour appréhender cette analyse, nous utilisons la toolbox stprtool qui dispose d’une méthode
d’analyse discriminante.
La méthode d’analyse discriminante est la suivante :
Les données à étudier sont :
Le but de l’analyse discriminante linéaire est d’étudier la projection linéaire des données
en maximisant les critères de séparabilité.
Ou Sw représente la dispersion intra classes et Sb la dispersion inter classe.
Un essai a donc été tenté sur nos données.
Voici le résultat graphique.
Ce qui découle de ce résultat est la difficulté de cette méthode à trouver des classes suffisamment
indépendantes pour représenter les données avec plus de discernement. Comme dans l’étude en
analyse en composante principale, nous ne discernons rien de significatif.
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1Analyse discriminante sur les deux premiers axes
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
17
Classification des données La classification des données nous permet de mieux comprendre les données, leurs structurations,
leurs complexités et leurs corrélations.
En cherchant à extraire des classes, on cherche à regrouper les données. Dans ce cadre je propose ,
en plus de l’utilisation des k-means vu sur nos données d’analyse en composante principale, deux
approches : l’approche par une classification ascendante hiérarchique et une carte topologique des
données.
Classification ascendante hiérarchique
Dans cette analyse, nous voyons une classification hiérarchique mettant en évidence au moins
quatre classes d’individus.
-20
-10
0
10
20
-20
-10
0
10-15
-10
-5
0
5
10
15
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
18
Le dendrogramme éclaircie particulièrement cette hiérarchie. On y voit bien un saut important sur
lors du passage à cinq classes. Il y a cinq principales classes.
1 628 317 725 22016121519212310131814 4 5 911293026242227 8
2.5
3
3.5
4
4.5
5
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
19
Classification par cartes auto organisatrice.
Je propose la génération des cartes représentants la répartition des attributs et des individus.
Carte auto organisatrice sur l’analyse des individus
Voici la carte auto organisatrice
générée pour les individus
grâce aux outils sdh et
somtoolbox. On utilise une
carte 8 colonnes et 8 lignes.
La carte a été générée avec
l’option « vote » pour extraire
l’échantillon le plus
représentatif de son nœud. On
peut remarquer la
concentration autour de
certaines zones.
Par exemple l’individus de
l’état 5 et de la communauté
Needhamtown attire près de
65 individus et représente le
pic de représentation. La carte
met aussi en évidence des
représentations de zone peut
attirante comme l’état 34 et la
communauté PerthAmboycity.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
20
Carte auto organisatrice sur l’analyse des attributs
L’idée est ici de retrouver une certaine harmonie et un éclaircissement sur l’étude des cercles de
corrélations aperçu dans le chapitre précédent. On utilise une carte 6 colonnes et 6 lignes.
On y retrouve nos deux groupes de variables PctPersOwnOccup , PctHousOwnOcc et agePct12t21 ,
agePct16t24 , agePct12t29.
Ainsi que nos variables isolées PctSpeakEnglOnly et racePctAsian. On remarquera que la variable
racePctAsian reste isolée sur la carte alors que la variable PctSpeakEnglOnly est regroupée avec
racePctWhite, pctUrban et PctHouseOccup (Groupe qui est cohérent).
On remarquera que la variable à étudier se trouve dans un nœud comprenant racepctblack, PctIlleg
et PctVacantBoarded qui correspondent respectivement au pourcentage de personnes de race
« black », au pourcentage d’enfants nés en dehors du mariage et du pourcentage de propriétés
vacantes abandonnées.
RentLowQ
RentMedian
RentHighQ
MedRent
OwnOccLowQuart
OwnOccMedVal
OwnOccHiQuart
racePctAsian
PctRecentImmig
PctRecImmig5
PctRecImmig8
PctRecImmig10
PctForeignBorn
PopDens
PctUsePubTrans
population
numbUrban
NumUnderPov
NumIlleg
NumImmig
HousVacant
NumInShelters
NumStreet
LandArea
medIncome
medFamInc
perCapInc
whitePerCap
HispPerCap
blackPerCap
AsianPerCap
indianPerCap
racePctHisp
PctNotSpeakEnglWell
PctPersDenseHous
LemasPctOf f icDrugUn
PctBSorMore
PctOccupMgmtProf
MedNumBR
MedOwnCostPctInc
pctWFarmSelf
PctLargHouseFam
PctLargHouseOccup
PctWOFullPlumb
racepctblack
PctIlleg
PctVacantBoarded
ViolentCrimesPerPop
pctWWage
pctWInv Inc
PctEmploy
MedYrHousBuilt
householdsize
PersPerFam
PersPerOccupHous
PersPerOwnOccHous
PersPerRentOccHous
PctLess9thGrade
PctNotHSGrad
PctUnemploy ed
pctWPubAsst
PctPopUnderPov
PctHousNoPhone
PctFam2Par
PctKids2Par
PctYoungKids2Par
PctTeen2Par
PctPersOwnOccup
PctHousOwnOcc
PctVacMore6Mos
MedOwnCostPctIncNoMtg
PctEmplManu
PctOccupManu
agePct12t21
agePct12t29
agePct16t24
MalePctNev Marr
racePctWhite
pctUrban
PctSpeakEnglOnly
PctHousOccup
PctBornSameState
PctSameHouse85
PctSameCity 85
PctSameState85
PctWorkMomYoungKids
PctWorkMom
agePct65up
pctWSocSec
pctWRetire
PctEmplProf Serv
MedRentPctHousInc
MalePctDiv orce
FemalePctDiv
TotalPctDiv
PctHousLess3BR
PctImmigRecent
PctImmigRec5
PctImmigRec8
PctImmigRec10
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
21
Pour connaître les attributs les plus marquants de notre variable à prédire, j’ais soigneusement
réduit la carte auto organisatrice à une matrice de deux lignes et deux colonnes. Le résultat est une
vision plus claire sur les composantes proches. On remarquera que ce ne sont pas forcement les
variables les plus corrélées retrouvée dans cette liste (voir le chapitre sur « Corrélations de la variable
à prédire »).
Ce sont les attributs représentants les populations immigrées, indiennes, asiatiques, « black »,
hispaniques, les enfants illégitimes, ceux qui ne parlent pas bien l’anglais, les habitations surpeuplées
ou abandonnées, les personnes utilisant les transports en commun, la surpopulation qui sont les plus
attachés à notre variable à prédire.
population
racepctblack
racePctAsian
racePctHisp
numbUrban
indianPerCap
NumUnderPov
NumIlleg
PctIlleg
NumImmig
PctRecentImmig
PctRecImmig5
PctRecImmig8
PctRecImmig10
PctNotSpeakEnglWell
PctLargHouseFam
PctLargHouseOccup
PctPersDenseHous
HousVacant
PctVacantBoarded
PctWOFullPlumb
NumInShelters
NumStreet
PctForeignBorn
LandArea
PopDens
PctUsePubTrans
LemasPctOf f icDrugUn
ViolentCrimesPerPop
medIncome
medFamInc
perCapInc
whitePerCap
blackPerCap
AsianPerCap
HispPerCap
PctBSorMore
PctOccupMgmtProf
MedNumBR
OwnOccLowQuart
OwnOccMedVal
OwnOccHiQuart
RentLowQ
RentMedian
RentHighQ
MedRent
MedOwnCostPctInc
householdsize
agePct12t21
agePct12t29
agePct16t24
agePct65up
pctWFarmSelf
pctWSocSec
pctWPubAsst
PctPopUnderPov
PctLess9thGrade
PctNotHSGrad
PctUnemploy ed
PctEmplManu
PctEmplProf Serv
PctOccupManu
MalePctDiv orce
MalePctNev Marr
FemalePctDiv
TotalPctDiv
PersPerFam
PctImmigRecent
PctImmigRec5
PctImmigRec8
PctImmigRec10
PersPerOccupHous
PersPerRentOccHous
PctHousLess3BR
PctVacMore6Mos
PctHousNoPhone
MedRentPctHousInc
MedOwnCostPctIncNoMtg
racePctWhite
pctUrban
pctWWage
pctWInv Inc
pctWRetire
PctEmploy
PctFam2Par
PctKids2Par
PctYoungKids2Par
PctTeen2Par
PctWorkMomYoungKids
PctWorkMom
PctSpeakEnglOnly
PersPerOwnOccHous
PctPersOwnOccup
PctHousOccup
PctHousOwnOcc
MedYrHousBuilt
PctBornSameState
PctSameHouse85
PctSameCity 85
PctSameState85
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
22
Analyse histographique On regarde l’histogramme de répartition des valeurs de chacun des paramètres ainsi qu’une
estimation de mixture de gaussienne s’y rapprochant.
Pour analyser et calculer nos mixtures de gaussiennes, nous utilisons l’outil stprtool.
Nous estimons les noyaux de chacun de nos échantillons pour voir comment est repartie
l’information dans l’ensemble des paramètres.
Cette première page nous présente des données relatives aux races et âges des individus. Ce que
nous remarquons ; c’est la forte représentation de la population de race « white » par rapport aux
races « black », « asian » et « hispanique ». Les âges sont assez représentatives car peu ce distingue.
La population de plus de 65 ans est large dans sa représentation.
0 0.5 10
500
1000population(mlc)
0 0.5 10
2
4population(mlc)
0 0.5 10
200
400householdsize(em)
0 0.5 10
2
4householdsize(em)
0 0.5 10
500
1000racepctblack(em)
0 0.5 10
5
10
15racepctblack(em)
0 0.5 10
200
400racePctWhite(em)
0 0.5 10
2
4
6racePctWhite(em)
0 0.5 10
500
1000racePctAsian(em)
0 0.5 10
5
10racePctAsian(em)
0 0.5 10
500
1000racePctHisp(em)
0 0.5 10
5
10
15racePctHisp(em)
0 0.5 10
200
400agePct12t21(em)
0 0.5 10
2
4
6agePct12t21(em)
0 0.5 10
200
400agePct12t29(em)
0 0.5 10
2
4
6agePct12t29(em)
0 0.5 10
200
400
600agePct16t24(em)
0 0.5 10
2
4
6agePct16t24(em)
0 0.5 10
100
200
300agePct65up(mlc)
0 0.5 10
1
2
3agePct65up(mlc)
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
23
Cette deuxième page montre des informations sur l’urbanisme, le social et les races.
0 0.5 10
500
1000numbUrban(em)
0 0.5 10
5
10
15numbUrban(em)
0 0.5 10
500
1000pctUrban(mlc)
0 0.5 10
0.5
1pctUrban(mlc)
0 0.5 10
100
200
300medIncome(em)
0 0.5 10
2
4medIncome(em)
0 0.5 10
100
200
300pctWWage(em)
0 0.5 10
1
2
3pctWWage(em)
0 0.5 10
200
400pctWFarmSelf(em)
0 0.5 10
2
4pctWFarmSelf(em)
0 0.5 10
100
200
300pctWInvInc(em)
0 0.5 10
1
2
3pctWInvInc(em)
0 0.5 10
100
200
300pctWSocSec(em)
0 0.5 10
1
2
3pctWSocSec(em)
0 0.5 10
100
200
300pctWPubAsst(em)
0 0.5 10
1
2
3pctWPubAsst(em)
0 0.5 10
100
200
300pctWRetire(em)
0 0.5 10
1
2
3pctWRetire(em)
0 0.5 10
100
200
300medFamInc(em)
0 0.5 10
2
4medFamInc(em)
0 0.5 10
200
400perCapInc(em)
0 0.5 10
2
4perCapInc(em)
0 0.5 10
200
400whitePerCap(em)
0 0.5 10
2
4whitePerCap(em)
0 0.5 10
200
400blackPerCap(em)
0 0.5 10
2
4
6blackPerCap(em)
0 0.5 10
200
400
600indianPerCap(em)
0 0.5 10
2
4indianPerCap(em)
0 0.5 10
100
200
300AsianPerCap(em)
0 0.5 10
1
2
3AsianPerCap(em)
0 0.5 10
100
200
300HispPerCap(em)
0 0.5 10
2
4HispPerCap(em)
0 0.5 10
500
1000NumUnderPov(em)
0 0.5 10
10
20NumUnderPov(em)
0 0.5 10
100
200
300PctPopUnderPov(em)
0 0.5 10
2
4PctPopUnderPov(em)
0 0.5 10
100
200
300PctLess9thGrade(em)
0 0.5 10
1
2
3PctLess9thGrade(em)
0 0.5 10
100
200PctNotHSGrad(em)
0 0.5 10
1
2PctNotHSGrad(em)
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
24
Cette troisième page présente les données sur le chaumage, le logement et la famille.
0 0.5 10
100
200
300PctBSorMore(em)
0 0.5 10
2
4PctBSorMore(em)
0 0.5 10
100
200
300PctUnemployed(em)
0 0.5 10
1
2
3PctUnemployed(em)
0 0.5 10
100
200
300PctEmploy(em)
0 0.5 10
1
2
3PctEmploy(em)
0 0.5 10
100
200
300PctEmplManu(em)
0 0.5 10
1
2
3PctEmplManu(em)
0 0.5 10
100
200
300PctEmplProfServ(em)
0 0.5 10
1
2
3PctEmplProfServ(em)
0 0.5 10
100
200
300PctOccupManu(em)
0 0.5 10
1
2
3PctOccupManu(em)
0 0.5 10
100
200
300PctOccupMgmtProf(em)
0 0.5 10
1
2
3PctOccupMgmtProf(em)
0 0.5 10
100
200MalePctDivorce(em)
0 0.5 10
1
2MalePctDivorce(em)
0 0.5 10
100
200
300MalePctNevMarr(em)
0 0.5 10
2
4MalePctNevMarr(em)
0 0.5 10
100
200FemalePctDiv(em)
0 0.5 10
1
2
3FemalePctDiv(em)
0 0.5 10
100
200TotalPctDiv(em)
0 0.5 10
1
2TotalPctDiv(em)
0 0.5 10
200
400PersPerFam(em)
0 0.5 10
2
4PersPerFam(em)
0 0.5 10
100
200PctFam2Par(em)
0 0.5 10
1
2
3PctFam2Par(em)
0 0.5 10
100
200PctKids2Par(em)
0 0.5 10
1
2PctKids2Par(em)
0 0.5 10
100
200PctYoungKids2Par(em)
0 0.5 10
1
2
3PctYoungKids2Par(em)
0 0.5 10
100
200
300PctTeen2Par(em)
0 0.5 10
1
2
3PctTeen2Par(em)
0 0.5 10
100
200
300PctWorkMomYoungKids(em)
0 0.5 10
1
2
3PctWorkMomYoungKids(em)
0 0.5 10
100
200
300PctWorkMom(em)
0 0.5 10
1
2
3PctWorkMom(em)
0 0.5 10
500
1000NumIlleg(em)
0 0.5 10
20
40NumIlleg(em)
0 0.5 10
200
400PctIlleg(em)
0 0.5 10
2
4PctIlleg(em)
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
25
Cette page présente les informations sur l’immigration et le logement.
0 0.5 10
500
1000NumImmig(em)
0 0.5 10
20
40NumImmig(em)
0 0.5 10
100
200PctImmigRecent(em)
0 0.5 10
1
2
3PctImmigRecent(em)
0 0.5 10
100
200PctImmigRec5(em)
0 0.5 10
1
2
3PctImmigRec5(em)
0 0.5 10
100
200PctImmigRec8(em)
0 0.5 10
1
2
3PctImmigRec8(em)
0 0.5 10
100
200PctImmigRec10(em)
0 0.5 10
1
2PctImmigRec10(em)
0 0.5 10
200
400
600PctRecentImmig(em)
0 0.5 10
5
10PctRecentImmig(em)
0 0.5 10
200
400
600PctRecImmig5(mlc)
0 0.5 10
1
2PctRecImmig5(mlc)
0 0.5 10
200
400
600PctRecImmig8(em)
0 0.5 10
5
10PctRecImmig8(em)
0 0.5 10
200
400
600PctRecImmig10(em)
0 0.5 10
5
10PctRecImmig10(em)
0 0.5 10
200
400PctSpeakEnglOnly(em)
0 0.5 10
2
4
6PctSpeakEnglOnly(em)
0 0.5 10
500
1000PctNotSpeakEnglWell(em)
0 0.5 10
5
10PctNotSpeakEnglWell(em)
0 0.5 10
200
400
600PctLargHouseFam(em)
0 0.5 10
2
4
6PctLargHouseFam(em)
0 0.5 10
200
400
600PctLargHouseOccup(em)
0 0.5 10
2
4
6PctLargHouseOccup(em)
0 0.5 10
200
400PersPerOccupHous(em)
0 0.5 10
2
4PersPerOccupHous(em)
0 0.5 10
100
200
300PersPerOwnOccHous(em)
0 0.5 10
2
4PersPerOwnOccHous(em)
0 0.5 10
100
200
300PersPerRentOccHous(em)
0 0.5 10
1
2
3PersPerRentOccHous(em)
0 0.5 10
100
200
300PctPersOwnOccup(em)
0 0.5 10
1
2
3PctPersOwnOccup(em)
0 0.5 10
200
400
600PctPersDenseHous(em)
0 0.5 10
2
4
6PctPersDenseHous(em)
0 0.5 10
100
200
300PctHousLess3BR(em)
0 0.5 10
2
4PctHousLess3BR(em)
0 0.5 10
200
400
600MedNumBR(mlc)
0 0.5 10
1
2MedNumBR(mlc)
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
26
Cette présente les informations sur le logement et l’urbanisme.
0 0.5 10
500
1000HousVacant(em)
0 0.5 10
5
10
15HousVacant(em)
0 0.5 10
100
200
300PctHousOccup(em)
0 0.5 10
2
4PctHousOccup(em)
0 0.5 10
100
200
300PctHousOwnOcc(em)
0 0.5 10
1
2
3PctHousOwnOcc(em)
0 0.5 10
200
400
600PctVacantBoarded(em)
0 0.5 10
2
4
6PctVacantBoarded(em)
0 0.5 10
100
200
300PctVacMore6Mos(em)
0 0.5 10
1
2
3PctVacMore6Mos(em)
0 0.5 10
100
200MedYrHousBuilt(mlc)
0 0.5 10
1
2MedYrHousBuilt(mlc)
0 0.5 10
200
400PctHousNoPhone(em)
0 0.5 10
2
4PctHousNoPhone(em)
0 0.5 10
100
200
300PctWOFullPlumb(em)
0 0.5 10
2
4PctWOFullPlumb(em)
0 0.5 10
200
400OwnOccLowQuart(em)
0 0.5 10
2
4
6OwnOccLowQuart(em)
0 0.5 10
200
400OwnOccMedVal(em)
0 0.5 10
2
4
6OwnOccMedVal(em)
0 0.5 10
200
400OwnOccHiQuart(em)
0 0.5 10
2
4
6OwnOccHiQuart(em)
0 0.5 10
100
200RentLowQ(em)
0 0.5 10
1
2
3RentLowQ(em)
0 0.5 10
100
200
300RentMedian(em)
0 0.5 10
1
2
3RentMedian(em)
0 0.5 10
100
200
300RentHighQ(em)
0 0.5 10
1
2
3RentHighQ(em)
0 0.5 10
100
200
300MedRent(em)
0 0.5 10
1
2
3MedRent(em)
0 0.5 10
100
200
300MedRentPctHousInc(em)
0 0.5 10
5
10x 10
12MedRentPctHousInc(em)
0 0.5 10
100
200
300MedOwnCostPctInc(em)
0 0.5 10
1
2
3MedOwnCostPctInc(em)
0 0.5 10
100
200
300MedOwnCostPctIncNoMtg(em)
0 0.5 10
1
2
3MedOwnCostPctIncNoMtg(em)
0 0.5 10
500
1000NumInShelters(mlc)
0 0.5 10
2
4NumInShelters(mlc)
0 0.5 10
500
1000NumStreet(mlc)
0 0.5 10
2
4NumStreet(mlc)
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
27
En reprenant les données précédemment citées :
Les distributions des valeurs PctPersOwnOccup , PctHousOwnOcc , agePct12t21 ,agePct16t24 et
agePct12t29 sont très similaire dans leur forme centrée.
On remarquera que la variable racePctAsian est centrée sur la gauche ce qui représente une
minoration sur la représentativité en histogramme alors que la variable PctSpeakEnglOnly est centré
vers la droite ce qui représente une majoration des individus.
On remarquera que les racepctblack ,PctIlleg et PctVacantBoarded représente une minoration dans
notre étude car fortement centré sur la gauche de nos histogrammes.
0 0.5 10
200
400
600PctForeignBorn(em)
0 0.5 10
2
4
6PctForeignBorn(em)
0 0.5 10
100
200
300PctBornSameState(em)
0 0.5 10
1
2
3PctBornSameState(em)
0 0.5 10
100
200
300PctSameHouse85(em)
0 0.5 10
1
2
3PctSameHouse85(em)
0 0.5 10
100
200
300PctSameCity85(em)
0 0.5 10
1
2
3PctSameCity85(em)
0 0.5 10
100
200
300PctSameState85(em)
0 0.5 10
2
4PctSameState85(em)
0 0.5 10
500
1000LandArea(em)
0 0.5 10
5
10
15LandArea(em)
0 0.5 10
200
400PopDens(em)
0 0.5 10
2
4PopDens(em)
0 0.5 10
500
1000PctUsePubTrans(em)
0 0.5 10
5
10PctUsePubTrans(em)
0 0.5 10
500
1000LemasPctOfficDrugUn(mlc)
0 0.5 10
1
2LemasPctOfficDrugUn(mlc)
0 0.5 10
200
400ViolentCrimesPerPop(em)
0 0.5 10
2
4ViolentCrimesPerPop(em)
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
28
Prédiction du nombre des crimes violents pour 100k habitants
Introduction Notre exercice est d’essayer d’extraire des données existantes, un modèle suffisamment solide et
précis pour pouvoir identifier la variable recherchée qui détermine le nombre de crimes violents pour
100k habitants. La typologie des crimes violents est assez vaste, car la définition de ce terme diffère
selon les pays, les « county » et les communautés. On y compte tout de même les homicides, les
braquages, les crimes avec ou sans armes, les viols, les kidnappings et la torture. Des faits qui en
toute vraisemblance ont des causes et des résultats différents. Ainsi un lieu où le taux de crime est
important, n’aura pas forcement un fort taux de braquage.
Plusieurs approches sont testées par régression, par machine à vecteurs de support et par réseau de
neurones.
Les données sont découpées comme suit :
Les 1094 premières données pour l’apprentissage. 401 valeurs pour la validation du modèle. Et 101
valeurs pour tester le modèle.
Les modèles et leurs précisions sur le jeu de données de tests seront comparés après leurs
présentations.
Les informations extraites de nos études précédentes montrent une forte difficulté à séparer ou à
grouper les données.
La première analyse se fera en présence de l’ensemble des variables. Ceci nous donnera une étude
approfondie avec un très bon point de comparaison sur les méthodes et stratégies ultérieures
utilisées.
Une deuxième analyse sera effectuée en classifiant les données. En découpant les lots, on espère
améliorer la précision de l’estimation. Chaque lot possédant normalement un comportement
asymptotique différent.
Une troisième analyse portera sur l‘élimination des variable peu efficaces extraites de nos
précédentes études.
Et enfin la dernière analyse sera un mix entre ces trois dernières stratégies.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
29
Approche avec données complètes
Approche par régression
Régression linéaire
Pour estimer les paramètres, j’utilise la méthode regress de matlab/octave.
Voici le résultat obtenu en comparant le jeu de données de test et de prédiction.
Les 99 valeurs de la régression sont :
0.1205 -0.3385 -0.0349 -0.0365 0.0113 0.0438 0.0496 -0.1670 -0.1638 0.0938
0.0608 -0.0264 0.2514 -0.0542 0.0028 0.0836 0.0769 0.3493 0.3719 -0.0662
-0.2270 -0.1277 -0.2185 0.0216 -0.0836 -0.0316 0.0750 -0.2358 -0.0587 -0.0566
-0.1606 -0.0015 0.0414 0.0322 -0.0792 -0.1426 0.1530 -0.1260 0.1470 0.1233
-0.1464 0.2980 -0.5543 0.5582 -0.0536 -0.1228 -0.5747 0.2394 0.1854 0.0108
0.2230 -0.0406 0.4564 0.0560 -0.1005 -0.0174 0.0764 -0.0602 -0.5692 0.6942
-0.2407 -0.2082 -0.1476 -0.0501 0.3854 0.0655 0.0067 -0.0985 0.1403 0.1572
0.2030 0.0552 0.0661 0.0252 -0.0341 0.1668 0.0625 -0.0917 0.0052
Qualité du résultat : RMSE=0.13499 (RMSE : la racine de l’erreur quadratique moyenne).
Le résultat est de qualité acceptable au vu de la complexité des données.
0 10 20 30 40 50 60 70 80 90 100-0.2
0
0.2
0.4
0.6
0.8
1
1.2
Community
Vio
lent
Crim
es P
er
100K
Popula
tion
Linear Regression
Simulated Values
Real Values
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
30
Régression PLS – matlab
On utilise la régression PLS dont l’algorithme essaye de maximiser la variance des prédicteurs (Xi)=X
et de maximiser la corrélation entre X et la variable à expliquer Y.
Un test de régression PLS avec la méthode plsregress de matlab.
Qualité du résultat : RMSE=0.13347
On obtient un modèle plus précis que le modèle de régression linéaire.
0 10 20 30 40 50 60 70 80 90 100-0.2
0
0.2
0.4
0.6
0.8
1
1.2
Community
Vio
lent
Crim
es P
er
100K
Popula
tion
PLS Regression
Simulated Values
Real Values
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
31
Régression PLS – toolbox glm-ie
Un autre test a été effectué avec l’outil glm-ie qui est spécialisé pour l’estimation et l’inférence des
modèles linéaires généralisés. La méthode pls CG (Conjugat gradiant) a été utilisée :
Qualité du résultat : RMSE=0.12677
Le résultat est de meilleure qualité que la méthode par régression PLS présentée précédemment.
0 10 20 30 40 50 60 70 80 90 100-0.2
0
0.2
0.4
0.6
0.8
1
1.2CG estimation
Estimation Values
Real Values
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
32
Machine à vecteurs de support
L étude a été effectué avec l’outil SVM KM. L’utilisation de la méthode polynomiale a été plus
performante que le modèle gaussien.
Qualité du résultat : RMSE=0.13
L’approche par machine à vecteurs support apporte plus de précision que le modèle par régression
simple.
0 10 20 30 40 50 60 70 80 90 100-0.2
0
0.2
0.4
0.6
0.8
1
1.2
Community
Vio
lent
Crim
es P
er
100K
Popula
tion
SVM Polynomial
Simulated Values
Real Values
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
33
Approche par réseau de neurones et perceptron multi couche.
La simulation a été faite grâce à l’outil netlab. 6 neurones cachées et 42 boucles d’apprentissage ont
été utilisés ajouté à une fonction d’activation linéaire.
Qualité du résultat : RMSE=0.11787
C’est le meilleur modèle représenté dans cette étude. De nombreuses tentatives on été entrepris
avant d’arriver à ce résultat. Le comportement graphique est assez différent des méthodes de
régression. Parfois très précis, à des endroits où une régression ne l’est pas, parfois beaucoup moins
précis. Mais sur notre jeu de test, le résultat est globalement meilleur.
0 10 20 30 40 50 60 70 80 90 1000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1Neural Network for 6 nodes
Simulated Values
Real Values
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
34
Estimation du surapprentissage
Dans le cadre de cette étude, il fallait savoir quand arrêter notre simulation.
Voici le graphique représentant les erreurs de validation et d’apprentissage :
On s’aperçoit qu’après 40 boucles, il n’est plus nécessaire de continuer l’apprentissage car la courbe
des erreurs de validation de descend plus et commence à remonter doucement alors que l’erreur
d’apprentissage ne cesse de diminuer.
On s’aperçoit que l’augmentation du nombre de neurones n’apporte pas forcement une meilleur
estimation si ce n’est une minimisation de la variance de l’erreur constatée.
0,1
0,12
0,14
0,16
0,18
0,2
0,22
0,24
1
10
19
28
37
46
55
64
73
82
91
10
0
10
9
11
8
12
7
13
6
14
5
RM
SE (
Erre
ur)
Surapprentissage
Erreur d'apprentissage
Erreur de validation
0,1
0,11
0,12
0,13
0,14
0,15
0,16
0,17
0,18
0,19
1 7
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97
Axi
s Ti
tle
Comparaison du nombre de neurones
100 neurones
10 neurones
6 neurones
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
35
Approche par vraisemblance
Dans ce contexte, on va estimer une mixture gaussienne s’approchant de notre problématique.
Ce modèle non-paramétrique permet de donner une forme probabiliste simplifiée.
Pour estimer, ces mixtures gaussiennes, on utilise la librairie stprtool et la fonction mlcgmm pour
estimer une mixture de gaussienne.
Puis on utilise la définition de la probabilité conditionnelle :
On en extrait un intervalle de confiance basé sur l’estimation de la variance.
Qualité du résultat : RMSE= 0.13475
Ce que nous remarquons, c’est que l’estimation non paramétrique à partir d’une mixture de
gaussienne permet d’obtenir une bonne estimation. L’intervalle de confiance couvre la courbe réelle.
0 10 20 30 40 50 60 70 80 90 1000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1Gaussian mixture
Simulated Values
Real Values
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
36
Approche avec données classifiées On utilise la méthode des k-moyennes et des machines à vecteurs de support pour déterminer les
classes. On sépare en deux étapes notre classification
On fait une première passe avec la méthode des k-moyenne sur les données d’apprentissage. Ceci
nous donne une estimation des classes. On obtient une classification que l’on donne en
apprentissage à un SVM. Puis nous utilisons, la méthode SVM pour extraire les classes des données
de test. Ainsi, on garde une indépendance entre les données de test et d’apprentissage.
Puis nous refaisons quasiment la même étude que précédemment sur plusieurs choix de classes
(2,3,4) mais en réduisant le scope des modèles à l’essentiel (Régression, SVM et perceptron)
Voici une topologie rapide des résultats de la meilleure simulation :
Multiplier le nombre des classes, c’est aussi multiplier le nombre des modèles. Si chacun de ces
modèles encadre une bonne estimation, on doit obtenir un meilleur résultat.
Nombres d’individus par classe :
Classe 1 Classe 2 Classe 3 Classe 4
4 classes 110 441 351 192
3 classes 381 596 117 2 classes 626 468
0 10 20 30 40 50 60 70 80 90 100-0.2
0
0.2
0.4
0.6
0.8
1
1.2SVM Polynomial
Simulated Values
Real Values
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
37
Tableau comparatif en fonction du nombre de classes :
Liste des estimateurs :
- MSE : l’erreur quadratique moyenne
- RMSE : la racine de l’erreur quadratique moyenne
- MAE : l’erreur absolue moyenne
- ARV : l’erreur quadratique moyenne sur la variance des données
Nb classes RMSE MAE MSE ARV
Régression linéaire 2 0.13763 0.099092 0.018942 0.51857
3 0.13501 0.096144 0.018227 0.49899
4 0.21412 0.13089 0.045847 1.2551
Régression PLS-Matlab 2 0.13245 0.094019 0.017542 0.48025
3 0.13047 0.091678 0.017021 0.466
4 0.14783 0.10862 0.021853 0.59828
SVM Polynomial 2 0.12929 0.092427 0.016715 0.4576
3 0.12763 0.09117 0.016288 0.44593
4 0.14822 0.1032 0.021969 0.60146
Réseau de neurones 2 0.13692 0.10066 0.018747 0.51323
multi couche 3 0.17428 0.13354 0.030374 0.83156
4 0.18433 0.13045 0.033976 0.93016
Ce que nous voyons immédiatement est la dégradation de la qualité en fonction du nombre des
classes construites.
Les meilleures estimations profitent d’une diminution qualitativement plus importante que les autres
méthodes et ne supportent pas plus de 3 classes.
Malheureusement l’amélioration attendue sur les différents modèles reste critiquable.
Les réseaux de neurones perdent en efficacité.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
38
Approche avec variables supprimées L’approche consiste à regarder les variables qui ne sont pas complètement utiles dans notre analyse.
Les variables mal utilisées peuvent avoir un effet néfaste sur la précision de notre modèle.
Après l’étape de sélection, nous les supprimons et analysons le résultat selon le même choix de
modèle décrit précédemment.
Choix des variables
Le choix des variables à supprimer n’est pas simple. Deux approches sont choisies ici, mais bien
d’autres peuvent être utilisées. Nos analyses précédentes ont permis d’analyser les relations entre
les variables. Ainsi, l’analyse des corrélation entre la variable à estimer et les variables explicatives
nous a permis de voir les variables très corrélées , anti corrélées ou peu corrélées. C’est à ces
dernières qu’il faut attacher plus d’importance. Leurs apports étant faible, leurs suppressions ne
devraient pas avoir d’impact important. Cela peut peu être donner une amélioration du modèle.
La deuxième approche est en analysant la topologie des variables obtenues selon la méthode des
cartes auto organisatrices de Kohonen. Les variables regroupées dans une partie de la carte étant à
l’opposé de nos variables d’étude sont un bon choix. Elles mixent deux concepts : leurs éloignements
et leurs regroupements. Cette approche est plus subtile que le choix précédent.
Voici la liste des variables choisies :
- Les corrélations les plus faibles (abs(corrélation)<0,1) : householdsize, racePctAsian,
agePct12t21, agePct16t24, agePct65up, pctUrban, pctWRetire, indianPerCap, PctEmplManu,
PctEmplProfServ, PctWorkMomYoungKids, PersPerOccupHous, PctVacMore6Mos,
MedOwnCostPctInc, MedOwnCostPctIncNoMtg, PctBornSameState, PctSameCity85,
PctSameState85
- Extraction de la carte topologique de Kohonen des éléments les plus éloignés de notre
variable à estimer : racePctWhite, pctUrban, pctWWage, pctWInvInc, pctWRetire, PctEmploy,
PctFam2Par, PctKids2Par, PctYoungKids2Par, PctTeen2Par, PctWorkMom, PctSpeakEnglOnly,
PersPerOccupHous, PersPerOwnOccHous, PctHousOccup, PctHousOwnOcc,MedYrHousBuilt,
PctBornSameState, PctSameHouse85, PctSameCity85, PctSameState85
On note beaucoup de similarité entres ces deux listes. Les variables apparentes expriment
l’urbanisation, les retraités, l’emploi, l’environnement familiale et social.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
39
Le résultat obtenu
Voici graphiquement le meilleur résultat obtenu.
Ce résultat à été obtenu avec la deuxième liste de variables supprimées.
Le résultat n’est pas de plus basse qualité que les méthodes précédemment utilisées.
0 10 20 30 40 50 60 70 80 90 1000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1SVM Polynomial
Simulated Values
Real Values
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
40
Tableau des résultats
Liste RMSE MAE MSE ARV
Régression linéaire 1 0,13825 0,10049 0,019112 0,52324
2 0,134 0,097173 0,017957 0,49161
Régression PLS-Matlab 1 0,13671 0,098719 0,018691 0,5117
2 0,13291 0,09554 0,017665 0,48362
SVM Polynomial 1 0,13048 0,091957 0,017025 0,46611
2 0,12925 0,089951 0,016705 0,45733
Réseau de neurones 1 0,13788 0,09764 0,019011 0,52048
multi couche 2 0,13351 0,095503 0,017824 0,48797
Cette stratégie apparaît payante. Avec la liste issue de la carte topologique de kohonen, tous nos
résultats sont légèrement meilleurs qu’un jeu de données complet. Le résultat reste en dessous de la
séparation des données en classes.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
41
Approche par suppression de communauté La difficulté dans une analyse de données est la recherche de données extrêmes. Des données qui
s’éloignent du modèle admissible. Souvent en minorité, ces données perturbent, par leurs extréma
et leurs différences, un modèle plus représentatif.
Le choix de la méthode d’élimination des communautés est basé sur la distance de cook sur des
données multi variées et sur le fait que statistiquement et qu’à partir d’une certaine distance
éloignée, on admet des individus non représentatif.
Cette méthode permet de supprimer 126 individus.
Meilleur résultat graphique
Tableau de résultat
RMSE MAE MSE ARV
Régression linéaire 0.12747 0.092553 0.016248 0.44483
Régression PLS-Matlab 0.12764 0.091114 0.016292 0.44602
SVM Polynomial 0.12797 0.090735 0,017175 0,47019
Réseau de neurones 0.13552 0.094944 0.018367 0.50283
Cette solution apparait efficace comparée aux résultats obtenus avec l’ensemble du jeu de données.
La première intuition a été en accord avec ce résultat.
0 10 20 30 40 50 60 70 80 90 100-0.2
0
0.2
0.4
0.6
0.8
1
1.2Linear Regression
Simulated Values
Real Values
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
42
Approche mixte Intuitivement, on remarque que si l’on mixe un certains nombre de stratégie de classification de
données, de suppression d’information, on doit obtenir un bien meilleur résultat.
On mixe les meilleurs résultats obtenus avec nos trois précédentes stratégies.
On choisi la recherche de deux ou trois classes en éliminant des variables déterminées et des
individus sélectionnés.
Meilleur résultat graphique
0 10 20 30 40 50 60 70 80 90 100-0.2
0
0.2
0.4
0.6
0.8
1
1.2SVM Polynomial
Simulated Values
Real Values
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
43
Tableau des résultats
Nombre de classes
RMSE MAE MSE ARV
Régression linéaire 2 0.12437 0.087327 0.015467 0.42344
Régression PLS-Matlab 2 0.12438 0.08572
0.015472
0.42357
SVM Polynomial 2 0.12175 0.08589 0.014822 0.40579
Réseau de neurones multi couche
2 0,13283 0,097711 0,017645 0,48306
Les résultats sont très intéressants. Nous obtenons un résultat bien meilleur en choisissant, dans le
jeu de données, les éléments les plus pertinents. Toutes les analyses en régression gagnent en
précision. Les machines à vecteur de support obtiennent l’un des meilleurs résultats de notre étude.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
44
Comparaison des résultats des différentes méthodes utilisées. Les méthodes utilisées pour vérifier et comparer nos modèles sont :MSE : l’erreur quadratique
moyenne, RMSE : la racine de l’erreur quadratique moyenne, MAE : l’erreur absolue moyenne, ARV :
l’erreur quadratique moyenne sur la variance des données
Les meilleures valeurs obtenues sont représentées sur ce tableau :
Méthode utilisée RMSE MAE MSE ARV
Vraisemblance ,mixture de gaussienne 0.1241 0.087554 0.015401 0.42164 Données complètes 0.13475 0.098797 0.018157 0.49709
Données séparées en 2 classes 0.13686 0.097323 0.01873 0.51276
Données séparées en 3 classes 0.13521 0.094228 0.018282 0.50052
Variables supprimées 0.13406 0.097274 0.017972 0.49202
Communautés supprimées 0.12757 0.092739 0.016275 0.44557
Mixte avec 2 classes 0.1241 0.087554 0.015401 0.42164
Régression linéaire 0.12437 0.087327 0.015467 0.42344 Données complètes 0,13499 0.099144 0.018222 0.49888
Données séparées en 2 classes 0.13763 0.099092 0.018942 0.51857
Données séparées en 3 classes 0.13501 0.096144 0.018227 0.49899
Variables supprimées 0,134 0,097173 0,017957 0,49161
Communautés supprimées 0.12747 0.092553 0.016248 0.44483
Mixte avec 2 classes 0.12437 0.087327 0.015467 0.42344
Régression PLS-Matlab 0.12438 0.08572 0.015472 0.42357 Données complètes 0,13347 0.09774 0.017815 0.48772
Données séparées en 2 classes 0.13245 0.094019 0.017542 0.48025
Données séparées en 3 classes 0.13047 0.091678 0.017021 0.466
Variables supprimées 0,13291 0,09554 0,017665 0,48362
Communautés supprimées 0.12764 0.091114 0.016292 0.44602
Mixte avec 2 classes 0.12438 0.08572 0.015472 0.42357
Régression PLS-CG 0.1207 0.085773 0.01457 0.39888 Données complètes 0.12743 0.093526 0.016238 0.44455
Données séparées en 2 classes 0.12396 0.089755 0.015366 0.42067
Données séparées en 3 classes 0.12021 0.087285 0.014451 0.39562
Variables supprimées 0.12829 0.094293 0.016458 0.45057
Communautés supprimées 0.12429 0.088444 0.015448 0.4229
Mixte avec 2 classes 0.1207 0.085773 0.01457 0.39888
SVM Polynomial 0.12175 0.08589 0.014822 0.40579
Données complètes 0.12985 0.092377 0.01686 0.46268
Données séparées en 2 classes 0.12911 0.088887 0.01667 0.45637
Données séparées en 3 classes 0.13302 0.092129 0.017695 0.48444
Variables supprimées 0,12925 0,089951 0,016705 0,45733
Communautés supprimées 0.12797 0.090735 0,017175 0,47019
Mixte avec 2 classes 0.12175 0.08589 0.014822 0.40579
Réseau de neurones multi couche 0,11787 0,086258 0,013893 0,40909 Données complètes 0,11787 0.086258 0.013893 0.40909
Données séparées en 2 classes 0,13692 0.10066 0.018747 0.51323
Données séparées en 3 classes 0.13393 0.094034 0.017938 0.4911
Variables supprimées 0,13351 0,095503 0,017824 0,48797
Communautés supprimées 0.13552 0.094944 0.018367 0.50283
Mixte avec 2 classes 0,13283 0,097711 0,017645 0,48306
Notre approche par réseau de neurones a perdu en efficacité dès que l’on a commencé à
partitionner ou réduire nos données.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
45
On observe la précision de nos 6 modèles étudiés. Ainsi c’est le perceptron multi couche, la
régression PLS-CG et les machines à vecteurs de support qui obtiennent la plus grande précision
quand aux résultats étudiés.
Une simple régression à partir du jeu complet de données, nous donne une précision RMSE de
0.13499. Notre étude nous a permis de descendre plus bas avec ce même jeu de données et de
l’utilisation de différentes stratégies et méthode de prédiction. Nous avons repoussés les limites
d’estimation à un petit plus loin.
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
46
Conclusion Après une étude sur la classification des données intéressantes basée sur plusieurs algorithmes
connus, les modèles de prédiction se sont avérés efficaces, en particulier ceux basés sur le
perceptron multicouche et les machines à vecteurs de support. Nous avons obtenu avec ces derniers
des résultats très intéressants et prometteurs.
Ce fut une étude intéressante avec des données qui ont résisté à de nombreuses tentatives de
prédiction. L’étude sur un phénomène réel est toujours passionnante. Le sujet ici est vaste et
complexe. Ce qui est plaisant est de rechercher et d’affiner ces modèles de prédiction et de réussir à
montrer que certains peuvent donner d’excellents résultats.
Je regrette de ne pas avoir eu assez de temps pour utiliser un réseau bayesiens ou estimer un modèle
paramétrique.
Les données de cette étude sont spécifiques aux états unis. Il manque certainement des données qui
pour nous, sur un autre continent, paraissent plus intéressantes. Je pense que des données sur
certains aspects juridiques comme la peine de mort ou certains aspects économiques comme le
nombre d’armes vendues sur la même période auraient pu éclaircir et peu être affiner notre modèle
prédictif.
Je finirais par afficher en plus grand l’un des meilleurs résultats de mon étude basée sur une machine
à vecteurs de support coupée en trois classes avec des variables et des individus choisis.
0 10 20 30 40 50 60 70 80 90 100-0.2
0
0.2
0.4
0.6
0.8
1
1.2SVM Polynomial
Simulated Values
Real Values
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
47
Annexe
Outils utilisés Liste des outils utilisés pour cette analyse :
Netlab : http://www1.aston.ac.uk/eas/research/groups/ncrg/resources/netlab/
SDH Toolbox : http://www.ofai.at/~elias.pampalk/sdh/overview.html
SOM Toolbox : http://www.cis.hut.fi/somtoolbox/
Stprtool : http://cmp.felk.cvut.cz/cmp/software/stprtool/
GLM-IE : http://hannes.nickisch.org/code/glm-ie/doc/index.html
Moutlier1 : http://www.mathworks.com/matlabcentral/fileexchange/12252
Description des variables
Variable Description
state US state (by number) - not counted as predictive above, but if considered, should be consided nominal (nominal)
county numeric code for county - not predictive, and many missing values (numeric)
community numeric code for community - not predictive and many missing values (numeric)
communityname community name - not predictive - for information only (string)
fold
fold number for non-random 10 fold cross validation, potentially useful for debugging, paired tests - not predictive (numeric)
population population for community
householdsize mean people per household (numeric - decimal)
racepctblack percentage of population that is african american (numeric - decimal)
racePctWhite percentage of population that is caucasian (numeric - decimal)
racePctAsian percentage of population that is of asian heritage (numeric - decimal)
racePctHisp percentage of population that is of hispanic heritage (numeric - decimal)
agePct12t21 percentage of population that is 12-21 in age (numeric - decimal)
agePct12t29 percentage of population that is 12-29 in age (numeric - decimal)
agePct16t24 percentage of population that is 16-24 in age (numeric - decimal)
agePct65up percentage of population that is 65 and over in age (numeric - decimal)
numbUrban number of people living in areas classified as urban (numeric - decimal)
pctUrban percentage of people living in areas classified as urban
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
48
(numeric - decimal)
medIncome median household income (numeric - decimal)
pctWWage percentage of households with wage or salary income in 1989 (numeric - decimal)
pctWFarmSelf percentage of households with farm or self employment income in 1989 (numeric - decimal)
pctWInvInc percentage of households with investment / rent income in 1989 (numeric - decimal)
pctWSocSec percentage of households with social security income in 1989 (numeric - decimal)
pctWPubAsst percentage of households with public assistance income in 1989 (numeric - decimal)
pctWRetire percentage of households with retirement income in 1989 (numeric - decimal)
medFamInc median family income (differs from household income for non-family households) (numeric - decimal)
perCapInc per capita income (numeric - decimal)
whitePerCap per capita income for caucasians (numeric - decimal)
blackPerCap per capita income for african americans (numeric - decimal)
indianPerCap per capita income for native americans (numeric - decimal)
AsianPerCap per capita income for people with asian heritage (numeric - decimal)
OtherPerCap per capita income for people with 'other' heritage (numeric - decimal)
HispPerCap per capita income for people with hispanic heritage (numeric - decimal)
NumUnderPov number of people under the poverty level (numeric - decimal)
PctPopUnderPov percentage of people under the poverty level (numeric - decimal)
PctLess9thGrade percentage of people 25 and over with less than a 9th grade education (numeric - decimal)
PctNotHSGrad percentage of people 25 and over that are not high school graduates (numeric - decimal)
PctBSorMore percentage of people 25 and over with a bachelors degree or higher education (numeric - decimal)
PctUnemployed percentage of people 16 and over, in the labor force, and unemployed (numeric - decimal)
PctEmploy percentage of people 16 and over who are employed (numeric - decimal)
PctEmplManu percentage of people 16 and over who are employed in manufacturing (numeric - decimal)
PctEmplProfServ percentage of people 16 and over who are employed in professional services (numeric - decimal)
PctOccupManu percentage of people 16 and over who are employed in manufacturing (numeric - decimal) ########
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
49
PctOccupMgmtProf
percentage of people 16 and over who are employed in management or professional occupations (numeric - decimal)
MalePctDivorce percentage of males who are divorced (numeric - decimal)
MalePctNevMarr percentage of males who have never married (numeric - decimal)
FemalePctDiv percentage of females who are divorced (numeric - decimal)
TotalPctDiv percentage of population who are divorced (numeric - decimal)
PersPerFam mean number of people per family (numeric - decimal)
PctFam2Par percentage of families (with kids) that are headed by two parents (numeric - decimal)
PctKids2Par percentage of kids in family housing with two parents (numeric - decimal)
PctYoungKids2Par percent of kids 4 and under in two parent households (numeric - decimal)
PctTeen2Par percent of kids age 12-17 in two parent households (numeric - decimal)
PctWorkMomYoungKids percentage of moms of kids 6 and under in labor force (numeric - decimal)
PctWorkMom percentage of moms of kids under 18 in labor force (numeric - decimal)
NumIlleg number of kids born to never married (numeric - decimal)
PctIlleg percentage of kids born to never married (numeric - decimal)
NumImmig total number of people known to be foreign born (numeric - decimal)
PctImmigRecent percentage of _immigrants_ who immigated within last 3 years (numeric - decimal)
PctImmigRec5 percentage of _immigrants_ who immigated within last 5 years (numeric - decimal)
PctImmigRec8 percentage of _immigrants_ who immigated within last 8 years (numeric - decimal)
PctImmigRec10 percentage of _immigrants_ who immigated within last 10 years (numeric - decimal)
PctRecentImmig percent of _population_ who have immigrated within the last 3 years (numeric - decimal)
PctRecImmig5 percent of _population_ who have immigrated within the last 5 years (numeric - decimal)
PctRecImmig8 percent of _population_ who have immigrated within the last 8 years (numeric - decimal)
PctRecImmig10 percent of _population_ who have immigrated within the last 10 years (numeric - decimal)
PctSpeakEnglOnly percent of people who speak only English (numeric - decimal)
PctNotSpeakEnglWell percent of people who do not speak English well (numeric - decimal)
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
50
PctLargHouseFam percent of family households that are large (6 or more) (numeric - decimal)
PctLargHouseOccup percent of all occupied households that are large (6 or more people) (numeric - decimal)
PersPerOccupHous mean persons per household (numeric - decimal)
PersPerOwnOccHous mean persons per owner occupied household (numeric - decimal)
PersPerRentOccHous mean persons per rental household (numeric - decimal)
PctPersOwnOccup percent of people in owner occupied households (numeric - decimal)
PctPersDenseHous percent of persons in dense housing (more than 1 person per room) (numeric - decimal)
PctHousLess3BR percent of housing units with less than 3 bedrooms (numeric - decimal)
MedNumBR median number of bedrooms (numeric - decimal)
HousVacant number of vacant households (numeric - decimal)
PctHousOccup percent of housing occupied (numeric - decimal)
PctHousOwnOcc percent of households owner occupied (numeric - decimal)
PctVacantBoarded percent of vacant housing that is boarded up (numeric - decimal)
PctVacMore6Mos percent of vacant housing that has been vacant more than 6 months (numeric - decimal)
MedYrHousBuilt median year housing units built (numeric - decimal)
PctHousNoPhone percent of occupied housing units without phone (in 1990, this was rare!) (numeric - decimal)
PctWOFullPlumb percent of housing without complete plumbing facilities (numeric - decimal)
OwnOccLowQuart owner occupied housing - lower quartile value (numeric - decimal)
OwnOccMedVal owner occupied housing - median value (numeric - decimal)
OwnOccHiQuart owner occupied housing - upper quartile value (numeric - decimal)
RentLowQ rental housing - lower quartile rent (numeric - decimal)
RentMedian rental housing - median rent (Census variable H32B from file STF1A) (numeric - decimal)
RentHighQ rental housing - upper quartile rent (numeric - decimal)
MedRent median gross rent (Census variable H43A from file STF3A - includes utilities) (numeric - decimal)
MedRentPctHousInc median gross rent as a percentage of household income (numeric - decimal)
MedOwnCostPctInc median owners cost as a percentage of household income - for owners with a mortgage (numeric - decimal)
MedOwnCostPctIncNoMtg
median owners cost as a percentage of household income - for owners without a mortgage (numeric - decimal)
NumInShelters number of people in homeless shelters (numeric - decimal)
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
51
NumStreet number of homeless people counted in the street (numeric - decimal)
PctForeignBorn percent of people foreign born (numeric - decimal)
PctBornSameState percent of people born in the same state as currently living (numeric - decimal)
PctSameHouse85 percent of people living in the same house as in 1985 (5 years before) (numeric - decimal)
PctSameCity85 percent of people living in the same city as in 1985 (5 years before) (numeric - decimal)
PctSameState85 percent of people living in the same state as in 1985 (5 years before) (numeric - decimal)
LemasSwornFT number of sworn full time police officers (numeric - decimal)
LemasSwFTPerPop sworn full time police officers per 100K population (numeric - decimal)
LemasSwFTFieldOps
number of sworn full time police officers in field operations (on the street as opposed to administrative etc) (numeric - decimal)
LemasSwFTFieldPerPop
sworn full time police officers in field operations (on the street as opposed to administrative etc) per 100K population (numeric - decimal)
LemasTotalReq total requests for police (numeric - decimal)
LemasTotReqPerPop total requests for police per 100K popuation (numeric - decimal)
PolicReqPerOffic total requests for police per police officer (numeric - decimal)
PolicPerPop police officers per 100K population (numeric - decimal)
RacialMatchCommPol
a measure of the racial match between the community and the police force. High values indicate proportions in community and police force are similar (numeric - decimal)
PctPolicWhite percent of police that are caucasian (numeric - decimal)
PctPolicBlack percent of police that are african american (numeric - decimal)
PctPolicHisp percent of police that are hispanic (numeric - decimal)
PctPolicAsian percent of police that are asian (numeric - decimal)
PctPolicMinor percent of police that are minority of any kind (numeric - decimal)
OfficAssgnDrugUnits number of officers assigned to special drug units (numeric - decimal)
NumKindsDrugsSeiz number of different kinds of drugs seized (numeric - decimal)
PolicAveOTWorked police average overtime worked (numeric - decimal)
LandArea land area in square miles (numeric - decimal)
PopDens population density in persons per square mile (numeric - decimal)
PctUsePubTrans percent of people using public transit for commuting (numeric - decimal)
PolicCars number of police cars (numeric - decimal)
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
52
PolicOperBudg police operating budget (numeric - decimal)
LemasPctPolicOnPatr percent of sworn full time police officers on patrol (numeric - decimal)
LemasGangUnitDeploy gang unit deployed (numeric - decimal - but really ordinal - 0 means NO, 1 means YES, 0.5 means Part Time)
LemasPctOfficDrugUn percent of officers assigned to drug units (numeric - decimal)
PolicBudgPerPop police operating budget per population (numeric - decimal)
ViolentCrimesPerPop total number of violent crimes per 100K popuation (numeric - decimal) GOAL attribute (to be predicted)
Statistiques élémentaires Voici la liste statistique des 99 variables plus la valeur à estimer:
Nom de la variable Moyenne Médiane Variance Déviation Standard
Min Max Mode
population 0.0576 0.0200 0.0161 0.1269 0 1 0.0100
householdsize 0.4634 0.4400 0.0268 0.1637 0 1 0.4100
racepctblack 0.1796 0.0600 0.0642 0.2534 0 1 0.0100
racePctWhite 0.7537 0.8500 0.0596 0.2440 0 1 0.9800
racePctAsian 0.1537 0.0700 0.0436 0.2089 0 1 0.0200
racePctHisp 0.1440 0.0400 0.0541 0.2325 0 1 0.0100
agePct12t21 0.4242 0.4000 0.0241 0.1552 0 1 0.3800
agePct12t29 0.4939 0.4800 0.0206 0.1436 0 1 0.4900
agePct16t24 0.3363 0.2900 0.0277 0.1665 0 1 0.2900
agePct65up 0.4232 0.4200 0.0321 0.1792 0 1 0.4700
numbUrban 0.0641 0.0300 0.0164 0.1283 0 1 0
pctUrban 0.6963 1.0000 0.1979 0.4448 0 1 1.0000
medIncome 0.3611 0.3200 0.0438 0.2094 0 1 0.2300
pctWWage 0.5582 0.5600 0.0335 0.1829 0 1 0.5300
pctWFarmSelf 0.2916 0.2300 0.0417 0.2041 0 1 0.1600
pctWInvInc 0.4957 0.4800 0.0317 0.1781 0 1 0.4100
pctWSocSec 0.4711 0.4750 0.0301 0.1736 0 1 0.5600
pctWPubAsst 0.3178 0.2600 0.0493 0.2221 0 1 0.1000
pctWRetire 0.4792 0.4700 0.0281 0.1676 0 1 0.4400
medFamInc 0.3757 0.3300 0.0393 0.1983 0 1 0.2500
perCapInc 0.3503 0.3000 0.0365 0.1911 0 1 0.2300
whitePerCap 0.3680 0.3200 0.0349 0.1868 0 1 0.3000
blackPerCap 0.2911 0.2500 0.0294 0.1716 0 1 0.1800
indianPerCap 0.2035 0.1700 0.0272 0.1648 0 1 0
AsianPerCap 0.3224 0.2800 0.0382 0.1954 0 1 0.1800
HispPerCap 0.3863 0.3450 0.0335 0.1831 0 1 0.3000
NumUnderPov 0.0555 0.0200 0.0164 0.1279 0 1 0.0100
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
53
PctPopUnderPov 0.3030 0.2500 0.0522 0.2285 0 1 0.0800
PctLess9thGrade 0.3158 0.2700 0.0455 0.2134 0 1 0.1900
PctNotHSGrad 0.3833 0.3600 0.0410 0.2025 0 1 0.3900
PctBSorMore 0.3617 0.3100 0.0438 0.2092 0 1 0.1800
PctUnemployed 0.3635 0.3200 0.0409 0.2022 0 1 0.2400
PctEmploy 0.5011 0.5100 0.0303 0.1740 0 1 0.5600
PctEmplManu 0.3964 0.3700 0.0410 0.2024 0 1 0.2600
PctEmplProfServ 0.4406 0.4100 0.0308 0.1755 0 1 0.3600
PctOccupManu 0.3912 0.3700 0.0396 0.1989 0 1 0.3200
PctOccupMgmtProf 0.4413 0.4000 0.0347 0.1863 0 1 0.3600
MalePctDivorce 0.4612 0.4700 0.0333 0.1825 0 1 0.5600
MalePctNevMarr 0.4345 0.4000 0.0308 0.1754 0 1 0.3800
FemalePctDiv 0.4876 0.5000 0.0307 0.1752 0 1 0.5400
TotalPctDiv 0.4943 0.5000 0.0337 0.1836 0 1 0.5700
PersPerFam 0.4877 0.4700 0.0239 0.1546 0 1 0.4400
PctFam2Par 0.6109 0.6300 0.0408 0.2020 0 1 0.6400
PctKids2Par 0.6207 0.6400 0.0426 0.2064 0 1 0.7200
PctYoungKids2Par 0.6640 0.7000 0.0479 0.2187 0 1 0.9100
PctTeen2Par 0.5829 0.6100 0.0367 0.1915 0 1 0.6000
PctWorkMomYoungKids 0.5014 0.5100 0.0284 0.1686 0 1 0.5100
PctWorkMom 0.5267 0.5400 0.0307 0.1752 0 1 0.5700
NumIlleg 0.0363 0.0100 0.0118 0.1087 0 1 0
PctIlleg 0.2500 0.1700 0.0529 0.2299 0 1 0.0900
NumImmig 0.0301 0.0100 0.0076 0.0872 0 1 0
PctImmigRecent 0.3202 0.2900 0.0480 0.2191 0 1 0
PctImmigRec5 0.3606 0.3400 0.0445 0.2109 0 1 0
PctImmigRec8 0.3991 0.3900 0.0406 0.2015 0 1 0.2600
PctImmigRec10 0.4279 0.4300 0.0380 0.1950 0 1 0.4300
PctRecentImmig 0.1814 0.0900 0.0556 0.2358 0 1 0.0100
PctRecImmig5 0.1821 0.0800 0.0559 0.2363 0 1 0.0200
PctRecImmig8 0.1848 0.0900 0.0560 0.2367 0 1 0.0200
PctRecImmig10 0.1829 0.0900 0.0551 0.2348 0 1 0.0200
PctSpeakEnglOnly 0.7859 0.8700 0.0515 0.2269 0 1 0.9600
PctNotSpeakEnglWell 0.1506 0.0600 0.0483 0.2197 0 1 0.0300
PctLargHouseFam 0.2676 0.2000 0.0386 0.1966 0 1 0.1700
PctLargHouseOccup 0.2519 0.1900 0.0364 0.1907 0 1 0.1900
PersPerOccupHous 0.4621 0.4400 0.0287 0.1696 0 1 0.3700
PersPerOwnOccHous 0.4944 0.4800 0.0249 0.1579 0 1 0.4500
PersPerRentOccHous 0.4041 0.3600 0.0358 0.1893 0 1 0.3200
PctPersOwnOccup 0.5626 0.5600 0.0388 0.1971 0 1 0.5400
PctPersDenseHous 0.1863 0.1100 0.0441 0.2100 0 1 0.0600
PctHousLess3BR 0.4952 0.5100 0.0298 0.1725 0 1 0.5300
MedNumBR 0.3147 0.5000 0.0651 0.2552 0 1 0.5000
Projet 10 : Crimes and Communities Data Set Septembre 2012
CNAM RCP 209 - APPRENTISSAGE, RÉSEAUX DE NEURONES ET MODÈLES GRAPHIQUES. Fouad BADRAN, Michel CRUCIANU et Meziane YACOUB | Etudiant : Sébastien DIAZ
54
HousVacant 0.0768 0.0300 0.0226 0.1505 0 1 0.0100
PctHousOccup 0.7195 0.7700 0.0376 0.1940 0 1 0.8300
PctHousOwnOcc 0.5487 0.5400 0.0343 0.1852 0 1 0.5200
PctVacantBoarded 0.2045 0.1300 0.0474 0.2178 0 1 0
PctVacMore6Mos 0.4333 0.4200 0.0357 0.1890 0 1 0.4400
MedYrHousBuilt 0.4942 0.5200 0.0540 0.2325 0 1 0
PctHousNoPhone 0.2645 0.1850 0.0590 0.2428 0 1 0.0100
PctWOFullPlumb 0.2431 0.1900 0.0426 0.2063 0 1 0
OwnOccLowQuart 0.2647 0.1800 0.0504 0.2244 0 1 0.0900
OwnOccMedVal 0.2635 0.1700 0.0536 0.2315 0 1 0.0800
OwnOccHiQuart 0.2689 0.1800 0.0553 0.2353 0 1 0.0800
RentLowQ 0.3464 0.3100 0.0481 0.2193 0 1 0.1300
RentMedian 0.3725 0.3300 0.0438 0.2093 0 1 0.1900
RentHighQ 0.4230 0.3700 0.0616 0.2483 0 1 1.0000
MedRent 0.3841 0.3400 0.0455 0.2134 0 1 0.1700
MedRentPctHousInc 0.4901 0.4800 0.0287 0.1695 0 1 0.4000
MedOwnCostPctInc 0.4498 0.4500 0.0351 0.1873 0 1 0.4100
MedOwnCostPctIncNoMtg 0.4038 0.3700 0.0371 0.1926 0 1 0.2400
NumInShelters 0.0294 0 0.0105 0.1026 0 1 0
NumStreet 0.0228 0 0.0101 0.1004 0 1 0
PctForeignBorn 0.2156 0.1300 0.0534 0.2311 0 1 0.0300
PctBornSameState 0.6089 0.6300 0.0418 0.2043 0 1 0.7800
PctSameHouse85 0.5351 0.5400 0.0329 0.1814 0 1 0.5900
PctSameCity85 0.6264 0.6700 0.0402 0.2005 0 1 0.7400
PctSameState85 0.6515 0.7000 0.0393 0.1982 0 1 0.7900
LandArea 0.0652 0.0400 0.0120 0.1095 0 1 0.0100
PopDens 0.2329 0.1700 0.0412 0.2031 0 1 0.0900
PctUsePubTrans 0.1617 0.0700 0.0525 0.2291 0 1 0.0100
LemasPctOfficDrugUn 0.0941 0 0.0578 0.2403 0 1 0
ViolentCrimesPerPop 0.2380 0.1500 0.0543 0.2330 0 1 0.0300