Ibm spss decision trees
-
Author
isamil -
Category
Data & Analytics
-
view
445 -
download
7
Embed Size (px)
Transcript of Ibm spss decision trees
- 1. i IBM SPSS Decision Trees 20
2. Remarque : Avant dutiliser ces informations et le produit quelles concernent, lisez les informations gnrales sous Remarques sur p. 114. Cette version sapplique IBM SPSS Statistics 20 et toutes les publications et modifications ultrieures jusqu mention contraire dans les nouvelles versions. Les captures dcran des produits Adobe sont reproduites avec lautorisation de Adobe Systems Incorporated. Les captures dcran des produits Microsoft sont reproduites avec lautorisation de Microsoft Corporation. Matriel sous licence - Proprit dIBM Copyright IBM Corporation 1989, 2011. Droits limits pour les utilisateurs au sein dadministrations amricaines : utilisation, copie ou divulgation soumise au GSA ADP Schedule Contract avec IBM Corp. 3. Prface IBM SPSS Statistics est un systme complet danalyse de donnes. Le module complmentaire facultatif Decision Trees fournit les techniques danalyse supplmentaires dcrites dans ce manuel. Le module complmentaire Decision Trees doit tre utilis avec le systme central SPSS Statistics auquel il est entirement intgr. A propos de IBM Business Analytics Le logiciel IBM Business Analytics offre des informations compltes, cohrentes et prcises permettant aux preneurs de dcision damliorer leurs performances professionnelles. Un portefeuille complet de solutions de business intelligence, danalyses prdictives, de performance financire et de gestion de la stratgie, et dapplications analytiques permet une connaissance claire et immdiate et offre des possibilits dactions sur les performances actuelles et la capacit de prdire les rsultats futurs. En combinant des solutions du secteur, des pratiques prouves et des services professionnels, les entreprises de toute taille peuvent gnrer la plus grande productivit, automatiser les dcisions en toute confiance et apporter de meilleurs rsultats. Dans le cadre de ce portefeuille, le logiciel IBM SPSS Predictive Analytics aide les entreprises prdire des vnements futurs et agir de manire proactive en fonction de ces prdictions pour apporter de meilleurs rsultats. Des clients dans les domaines commerciaux, gouvernementaux et acadmiques se servent de la technologie IBM SPSS comme dun avantage concurrentiel pour attirer ou retenir des clients, tout en rduisant les risques lis lincertitude et la fraude. En intgrant le logiciel IBM SPSS leurs oprations quotidiennes, les entreprises peuvent effectuer des prvisions, et sont capables de diriger et dautomatiser leurs dcisions afin datteindre leurs objectifs commerciaux et dobtenir des avantages concurrentiels mesurables. Pour plus dinformations ou pour contacter un reprsentant, visitez le site http://www.ibm.com/spss. Support technique Un support technique est disponible pour les clients du service de maintenance. Les clients peuvent contacter lassistance technique pour obtenir de laide concernant lutilisation des produits IBM Corp. ou linstallation dans lun des environnements matriels pris en charge. Pour contacter lassistance technique, visitez le site IBM Corp. ladresse http://www.ibm.com/support. Votre nom, celui de votre socit, ainsi que votre contrat dassistance vous seront demands. Support technique pour les tudiants Si vous tes un tudiant qui utilise la version pour tudiant, personnel de lducation ou diplm dun produit logiciel IBM SPSS, veuillez consulter les pages Solutions pour lducation (http://www.ibm.com/spss/rd/students/) consacres aux tudiants. Si vous tes un tudiant utilisant une copie du logiciel IBM SPSS fournie par votre universit, veuillez contacter le coordinateur des produits IBM SPSS de votre universit. Copyright IBM Corporation 1989, 2011. iii 4. Service clients Si vous avez des questions concernant votre livraison ou votre compte, contactez votre bureau local. Veuillez prparer et conserver votre numro de srie porte de main pour lidentification. Sminaires de formation IBM Corp. propose des sminaires de formation, publics et sur site. Tous les sminaires font appel des ateliers de travaux pratiques. Ces sminaires seront proposs rgulirement dans les grandes villes. Pour plus dinformations sur ces sminaires, accdez au site http://www.ibm.com/software/analytics/spss/training. Documents supplmentaires Les ouvrages SPSS Statistics : Guide to Data Analysis, SPSS Statistics : Statistical Procedures Companion, et SPSS Statistics : Advanced Statistical Procedures Companion, crits par Marija Noruis et publis par Prentice Hall, sont suggrs comme documentation supplmentaire. Ces publications prsentent les procdures statistiques des modules SPSS Statistics Base, Advanced Statistics et Regression. Que vous soyez novice dans les analyses de donnes ou prt utiliser des applications plus avances, ces ouvrages vous aideront exploiter au mieux les fonctionnalits offertes par IBM SPSS Statistics. Pour obtenir des informations supplmentaires y compris le contenu des publications et des extraits de chapitres, visitez le site web de lauteur : http://www.norusis.com iv 5. Contenu Partie I: Guide de l'utilisateur 1 Cration darbres dcision 1 Slection de modalits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Critres de croissance de larbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Limites de croissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Critres CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Critres CRT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Critres QUEST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Elagage des arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Valeurs de substitution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Options. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Cots de classification errone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Bnfices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Probabilits a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Scores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Enregistrement des informations du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Affichage des arbres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Diagrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Rgles de slection et danalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2 Editeur darbre 41 Manipulation de grands arbres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Carte darbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Mise lchelle de laffichage de larbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Fentre Rcapitulatif des noeuds. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Contrle des informations affiches dans larbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Modification des couleurs et des polices de caractres du texte des arbres. . . . . . . . . . . . . . . . . 46 Rgles de slection et danalyse des observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Filtrage des observations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Enregistrement des rgles de slection et danalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 v 6. Partie II: Exemples 3 Hypothses et exigences concernant les donnes 53 Effets du niveau de mesure sur les modles darbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Affectation permanente du niveau de mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Variables avec niveau de mesure inconnu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Effets des tiquettes de valeur sur les modles darbre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Affectation dtiquettes de valeur toutes les valeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4 Utilisation des arbres de dcision pour valuer le risque de crdit 61 Cration du modle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Construction du modle darbre CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Slection des modalits cible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Spcification des critres de croissance de larbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Slection de types de sortie supplmentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Enregistrement de prvisions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Evaluation du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Tableau rcapitulatif des modles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Diagramme de larbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Tableau de larbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Gains pour les noeuds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Diagramme des gains . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Diagramme des index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 Estimation du risque et classification. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Prvisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Amlioration du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Slection dobservations dans les noeuds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Examen des observations slectionnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Affectation de cots aux rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Rcapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5 Construction dun modle danalyse 84 Construction du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 vi 7. Evaluation du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Rcapitulatif des modles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 Diagramme de modle darbre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Estimation du risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Application du modle un autre fichier de donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Rcapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6 Valeurs manquantes dans les modles darbre 93 Valeurs manquantes avec CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 Rsultats CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Valeurs manquantes avec CRT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Rsultats CRT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Rcapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Annexes A Fichiers dexemple 103 B Remarques 114 Index 117 vii 8. Partie I: Guide de l'utilisateur 9. Chapitre 1 Cration darbres dcision Figure 1-1 Arbre dcision La procdure Arbre de dcision cre un modle de segmentation base sur un arbre. Elle classe les observations en groupes ou estime les valeurs dune variable (cible) dpendante partir des valeurs de variables (prdites) indpendantes. Cette procdure fournit des outils de validation pour les analyses de classification dexploration et de confirmation. Vous pouvez utiliser cette procdure pour les oprations suivantes : Segmentation. Identifie les personnes susceptibles dappartenir une catgorie. Stratification : Attribue des observations lintrieur dune des modalits telles que les groupes risques lev, moyen ou faible. Prdiction. Elabore des rgles et les utilise pour prdire des vnements futurs, tels que la probabilit quune personne manque ses engagements loccasion dun prt ou la valeur de revente possible dun vhicule ou dune maison. Copyright IBM Corporation 1989, 2011. 1 10. 2 Chapitre 1 Rduction des donnes et analyse des variables. Slectionne partir dun ensemble tendu de variables un sous-ensemble exploitable de variables explicatives utilis pour construire un modle paramtrique formel. Identification des interactions. Identifie les relations relatives uniquement certains sous-groupes particuliers et spcifie ces relations dans un modle paramtrique formel. Fusion des modalits et discrtisation des variables continues. Etablit un nouveau code de regroupement des modalits de variable explicative et des variables continues avec une perte dinformations minimum. Exemple : Les banques cherchent classer les demandeurs de crdit selon le risque de crdit, raisonnable ou pas, quils reprsentent. A partir de plusieurs facteurs, dont la cote de solvabilit connue des anciens clients, vous pouvez construire un modle estimant les futurs clients susceptibles de manquer leurs engagements de remboursement de leur prt. Une analyse sous forme darbre prsente des avantages intressants : Elle vous permet didentifier des groupes homognes prsentant un risque lev ou faible. Cela facilite llaboration de rgles de prdiction pour chaque observation. Analyse des donnes Donnes.Les variables dpendantes et indpendantes peuvent tre les suivantes : Nominal. Une variable peut tre traite comme tant nominale si ses valeurs reprsentent des modalits sans classement intrinsque (par exemple, le service de la socit dans lequel travaille un employ). La rgion, le code postal ou l'appartenance religieuse sont des exemples de variables nominales. Ordinal. Une variable peut tre traite comme tant ordinale si ses valeurs reprsentent des modalits associes un classement intrinsque (par exemple, des niveaux de satisfaction allant de Trs mcontent Trs satisfait). Exemples de variable ordinale : des scores d'attitude reprsentant le degr de satisfaction ou de confiance, et des scores de classement des prfrences. Echelle. Une variable peut tre traite comme une variable d'chelle (continue) si ses valeurs reprsentent des modalits ordonnes avec une mesure significative, de sorte que les comparaisons de distance entre les valeurs soient adquates. L'ge en annes et le revenu en milliers de dollars sont des exemples de variable d'chelle. Pondration des effectifs Si le calcul des pondrations est activ, les pondrations fractionnelles sont arrondies lentier le plus proche ; ainsi, les observations ayant une valeur de pondration infrieure 0,5 ont un pondration de 0 et sont donc exclues de lanalyse. Hypothses : Cette procdure considre quun niveau de mesure adquat a t attribu toutes les variables danalyse, et certaines fonctions considrent que toutes les valeurs de la variable dpendante incluses dans lanalyse ont des tiquettes de valeur dfinies. Niveau de mesure. Le niveau de mesure a une influence sur les trois calculs ; le bon niveau de mesure doit donc tre attribu chaque variable. Par dfaut, on considre que les variables numriques sont des variables dchelle et que les variables de chane sont nominales, ce qui 11. 3 Cration darbres dcision risque de ne pas reflter correctement les niveaux de mesure. Dans la liste des variables, une icne indique le type de chaque variable. Echelle Nominales Ordinales Pour modifier de manire temporaire le niveau de mesure dune variable, cliquez sur la variable dans la liste des variables source avec le bouton droit de la souris et slectionnez un niveau de mesure dans le menu contextuel. Les tiquettes de valeurs. Linterface de la bote de dialogue de cette procdure considre soit que toutes les valeurs non manquantes dune variable dpendante qualitative (nominale, ordinale) ont des tiquettes de valeur dfinies, soit quaucune dentre elles nen dispose. Certaines fonctions ne sont disponibles que si deux valeurs non manquantes au moins de la variable dpendante qualitative disposent dtiquettes de valeur. Si au moins deux valeurs non manquantes disposent dtiquettes de valeur dfinies, toutes les observations contenant dautres valeurs ne disposant pas dtiquettes de valeur seront exclues de lanalyse. Pour obtenir des arbres de dcision E A partir des menus, slectionnez : Analyse > Classification > Arbre... 12. 4 Chapitre 1 Figure 1-2 Bote de dialogue Arbre de dcision E Slectionnez une variable dpendante. E Slectionnez une ou plusieurs variables indpendantes. E Slectionnez une mthode de croissance. Sinon, vous pouvez : Modifiez le niveau de mesure de toutes les variables de la liste source. Introduisez de force la premire variable de la liste des variables indpendantes dans le modle en tant que premire variable de scission. Slectionnez une variable dinfluence dfinissant le degr dinfluence dune observation sur le processus de croissance de larbre. Les observations ayant des valeurs dinfluence faibles ont le moins dinfluence ; les observations ayant des valeurs leves en ont le plus. Les valeurs de variables dinfluence doivent tre positives. Validez larbre. Personnalisez les critres de croissance de larbre. Enregistrez les numros des noeuds terminaux, les prvisions et les probabilits prvues en tant que variables. Enregistrez le modle au format XML (PMML). 13. 5 Cration darbres dcision Champs avec un niveau de mesure inconnu Lalerte du niveau de mesure apparat lorsque le niveau de mesure dune ou plusieurs variables (champs) de lensemble de donnes est inconnu. Le niveau de mesure ayant une incidence sur le calcul des rsultats de cette procdure, toutes les variables doivent avoir un niveau de mesure dfini. Figure 1-3 Alerte du niveau de mesure Analysez les donnes. Lit les donnes dans lensemble de donnes actifs et attribue le niveau de mesure par dfaut tous les champs ayant un niveau de mesure inconnu. Si lensemble de donnes est important, cette action peut prendre un certain temps. Attribuer manuellement. Ouvre une bote de dialogue qui rpertorie tous les champs ayant un niveau de mesure inconnu. Vous pouvez utiliser cette bote de dialogue pour attribuer un niveau de mesure ces champs. Vous pouvez galement attribuer un niveau de mesure dans laffichage des variables de lditeur de donnes. Le niveau de mesure tant important pour cette procdure, vous ne pouvez pas accder la bote de dialogue dexcution de cette procdure avant que tous les champs naient des niveaux de mesure dfinis. Modification des niveaux de mesure E Cliquez avec le bouton droit sur la variable dans la liste source. E Dans le menu contextuel, slectionnez un niveau de mesure. Le niveau de mesure est alors modifi de manire temporaire pour tre utilis dans la procdure Arbre de dcision. Mthodes de croissance Les mthodes de croissance disponibles sont : CHAID. Chi-squared Automatic Interaction Detection. A chaque tape, CHAID choisit la variable indpendante (prdite) dont l'interaction avec la variable dpendante est la plus forte. Les modalits de chaque valeur prdite sont fusionnes si elles ne prsentent pas de diffrences significatives avec la variable dpendante. Exhaustive CHAID. Une version modifie de CHAID qui examine toutes les scissions possibles pour chaque valeur prdite. 14. 6 Chapitre 1 CRT. Classification and Regression Trees (arbres de segmentation et de rgression). CRT divise les donnes en segments aussi homognes que possible par rapport la variable dpendante. Un noeud terminal dans lequel toutes les observations ont la mme valeur de variable dpendante est un noeud homogne et pur . QUEST. Quick, Unbiased, Efficient Statistical Tree (arbre statistique rapide, impartial et efficace). Mthode rapide qui favorise les variables prdites avec de nombreuses modalits par rapport au biais des autres mthodes. La mthode QUEST ne peut tre spcifie que si la variable dpendante est nominale. Chaque mthode prsente des avantages et des limites, qui sont les suivantes : CHAID* CRT QUEST Calcul partir du khi-deux** X Variables (prdites) indpendantes de substitution X X Elagage des arbres X X Scission de noeud multiple X Scission de noeud binaire X X Variables dinfluence X X Probabilits a priori X X Cots de classification errone X X X Calcul rapide X X *Inclut Exhaustive CHAID. **QUEST utilise galement une mesure du Khi-deux pour les variables indpendantes nominales. Slection de modalits Figure 1-4 Bote de dialogue Modalits 15. 7 Cration darbres dcision Pour les variables dpendantes qualitatives (nominales, ordinales), vous pouvez effectuer les oprations suivantes : Contrler les modalits inclure dans lanalyse. Identifier les modalits cible qui vous intressent. Inclure/Exclure des modalits Vous pouvez limiter lanalyse certaines modalits de la variable dpendante. Les observations dont les valeurs de la variable dpendante figurent dans la liste Exclure ne sont pas incluses dans lanalyse. Pour les variables dpendantes nominales, vous pouvez galement inclure des modalits manquantes spcifies par lutilisateur dans lanalyse. (Par dfaut, les modalits manquantes spcifies par lutilisateur saffichent dans la liste Exclure.) Modalits cible Les modalits slectionnes (qui sont coches) sont traites comme les modalits ayant le plus grand intrt dans lanalyse. Par exemple, si lidentification des personnes les plus susceptibles de manquer leurs engagements envers un prt est la modalit qui vous intresse le plus, slectionnez la modalit mauvaise cote de solvabilit en tant que modalit cible. Aucune modalit cible na t dfinie. Si aucune modalit nest slectionne, certaines options de rgle de classification et certains rsultats lis aux gains ne sont pas disponibles. Si plusieurs modalits sont slectionnes, vous obtenez des tableaux et des diagrammes de gains spars pour chaque modalit cible. La dsignation de plusieurs modalits en tant que modalits cible na aucun effet sur le modle de larbre, sur lestimation des risques ou sur les rsultats de classification errone. Modalits et tiquettes de valeurs Cette bote de dialogue requiert des tiquettes de valeur dfinies pour la variable dpendante. Elle nest disponible que si au moins deux valeurs de la variable dpendante qualitative disposent dtiquettes de valeur dfinies. Pour inclure/exclure des modalits et slectionner des modalits cible E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante qualitative (nominale, ordinale) disposant dau moins deux tiquettes de valeur dfinies. E Cliquez sur Modalits. 16. 8 Chapitre 1 Validation Figure 1-5 Bote de dialogue Validation La validation vous permet dvaluer si votre arbre est gnralisable une plus grande population. Deux mthodes de validation sont disponibles : la validation croise et la validation par partition. La validation croise La validation croise consiste fractionner lchantillon en plusieurs sous-chantillons ou niveaux. Les arbres sont gnrs en excluant tour de rle les donnes de chaque sous-chantillon. Le premier arbre est bas sur toutes les observations except celles du premier sous-chantillon, le deuxime arbre est bas sur toutes les observations except celles du deuxime sous-chantillon, etc. Le risque de mauvaise raffectation est estim pour chaque arbre en appliquant larbre au sous-chantillon exclu lors de la gnration de larbre. Vous pouvez indiquer un maximum de 25 niveaux dchantillon. Plus la valeur est leve, moins les observations exclues de chaque modle darbre sont nombreuses. La validation croise obtient un modle darbre final unique. Lestimateur de risque en validation croise pour lensemble de larbre est calcul en faisant la moyenne des risques de tous les arbres. 17. 9 Cration darbres dcision Validation par partition Pour la validation par partition, le modle est cr partir dun chantillon dapprentissage et est test sur un chantillon trait. Vous pouvez indiquer une taille dchantillon dapprentissage, exprime sous forme de pourcentage de la taille dchantillon totale, ou une variable de scission de lchantillon en chantillons dapprentissage et de test. Si vous utilisez une variable pour dfinir les chantillons dapprentissage et de test, les observations ayant la valeur 1 pour la variable sont attribues lchantillon dapprentissage et toutes les autres observations sont attribues lchantillon de test. Il ne peut pas sagir dune variable dpendante, de pondration, dinfluence ou dune variable indpendante force. Vous pouvez afficher les rsultats pour lchantillon dapprentissage et pour lchantillon de test, ou uniquement pour lchantillon de test. La validation par partition doit tre utilise avec prcaution sur les petits fichiers de donnes (les fichiers de donnes comportant un petit nombre dobservations). Des chantillons dapprentissage de petite taille risquent de former des modles errons, puisque certaines modalits peuvent ne pas comporter suffisamment dobservations pour construire correctement larbre. Critres de croissance de larbre Les critres de croissance disponibles peuvent dpendre de la mthode de croissance, du niveau de mesure de la variable dpendante ou de la combinaison des deux. Limites de croissance Figure 1-6 Bote de dialogue Critres, onglet Limites de croissance 18. 10 Chapitre 1 Longlet Limites de croissance vous permet de limiter le nombre de niveaux de larbre et de contrler le nombre minimal dobservations des noeuds parent et enfant. Profondeur maximum de larborescence : Contrle le nombre maximal de niveaux de croissance en dessous du noeud racine. Le paramtre Automatique limite larbre trois niveaux en dessous du noeud racine pour les mthodes CHAID et Exhaustive CHAID, et cinq niveaux pour les mthodes CRT et QUEST. Nombre minimum dobservations. Contrle le nombre minimum dobservations des noeuds. Les noeuds ne respectant pas ces critres ne sont pas scinds. Si vous augmentez les valeurs minimum, les arbres construits ont tendance comporter moins de noeuds. Si vous diminuez les valeurs minimum, les arbres construits ont plus de noeuds. Pour les fichiers de donnes comportant un petit nombre dobservations, les valeurs par dfaut dfinissant 100 observations pour les noeuds parent et 50 pour les noeuds enfant peuvent crer des arbres sans noeud en dessous du noeud racine ; dans ce cas, vous obtiendrez des rsultats plus utiles en abaissant les valeurs minimales. Critres CHAID Figure 1-7 Bote de dialogue Critres, onglet CHAID Pour les mthodes CHAID et Exhaustive CHAID, vous pouvez contrler les lments suivants : Seuil de signification. Vous pouvez contrler la valeur de signification pour scinder des noeuds et fusionner des modalits. Pour ces deux critres, le niveau de signification par dfaut est 0,05. 19. 11 Cration darbres dcision Pour scinder des noeuds, cette valeur doit tre suprieure 0 et infrieure 1. Les valeurs les plus basses produisent des arbres avec moins de noeuds. Pour la fusion des modalits, cette valeur doit tre suprieure 0 et infrieure ou gale 1. Pour que les modalits ne fusionnent pas, indiquez la valeur 1. Pour une variable dchelle indpendante, cela signifie que le nombre de modalits de la variable dans larbre final correspond au nombre dintervalles indiqu (leur nombre par dfaut est 10). Pour plus d'informations, reportez-vous la section Intervalles dchelle pour lanalyse CHAID sur p. 12. Statistique du Khi-deux. Pour les variables dpendantes ordinales, le Khi-deux dterminant la scission des noeuds et la fusion des modalits est calcul via la mthode du rapport de vraisemblance. Pour les variables dpendantes nominales, vous avez le choix entre plusieurs mthodes : Pearson. Cette mthode fournit des calculs plus rapides mais doit tre utilise avec prcaution sur les petits chantillons. Il sagit de la mthode par dfaut. Rapport de vraisemblance. Cette mthode est plus fiable que Pearson mais son temps de calcul est plus long. Cest la mthode la plus adapte aux petits chantillons. Estimation du modle. Pour les variables dpendantes nominales ou ordinales, vous pouvez indiquer : le nombre maximum des itrations. La valeur par dfaut est 100. Si larbre cesse de crotre parce que le nombre maximum ditrations a t atteint, vous pouvez augmenter ce maximum ou modifier dautres critres contrlant la croissance de larbre. Changement minimum dans les effectifs thoriques de cellule. Cette valeur doit tre suprieure 0 et infrieure 1. La valeur par dfaut est 0,05. Les valeurs faibles gnrent des arbres comportant moins de noeuds. Ajustement des valeurs de signification laide de la mthode Bonferroni. Pour les comparaisons multiples, les valeurs de signification des critres de fusion et de scission sont ajustes laide de la mthode Bonferroni. Il sagit de la valeur par dfaut. Autoriser la scission des modalits fusionnes lintrieur dun noeud. A moins que vous nempchiez explicitement la fusion des modalits, la procdure tente de fusionner les modalits des variables indpendantes (prdites) pour produire larbre dcrivant le modle le plus simple. Cette option autorise la procdure scinder des modalits fusionnes pour amliorer la solution obtenue. 20. 12 Chapitre 1 Intervalles dchelle pour lanalyse CHAID Figure 1-8 Bote de dialogue Critres, onglet Intervalles Dans lanalyse CHAID, les variables indpendantes (prdites) dchelle sont toujours regroupes en modalits indpendantes (par exemple, de 0 10, de 11 20, de 21 30, etc.) avant dtre analyses. Vous pouvez contrler le nombre initial/maximum de groupes (mme si la procdure peut fusionner des groupes contigus aprs la scission initiale) : Nombre fixe. Toutes les variables dchelle indpendantes sont groupes lorigine dans le mme nombre de groupes. La valeur par dfaut est 10. Personnalise. Chaque variable dchelle indpendante est rpartie lorigine dans le nombre de groupes dtermin pour cette variable. Pour dterminer les intervalles des variables dchelle indpendantes E Dans la bote de dialogue principale Arbre de dcision, slectionnez des variables dchelle indpendantes. E Pour la mthode de croissance, slectionnez CHAID ou Exhaustive CHAID. E Cliquez sur Critres. E Cliquez sur longlet Intervalles. Dans les analyses CRT et QUEST, toutes les scissions sont binaires et les variables dchelle indpendantes ou ordinales sont traites de la mme manire ; par consquent, vous ne pouvez pas indiquer un nombre dintervalles pour les variables dchelle indpendantes. 21. 13 Cration darbres dcision Critres CRT Figure 1-9 Bote de dialogue Critres, onglet CRT La mthode de croissance CRT tente doptimiser lhomognit des noeuds. La limite laquelle un noeud ne reprsente pas un sous-ensemble homogne dobservations est un indicateur dimpuret. Par exemple, un noeud terminal dans lequel toutes les observations ont la mme valeur pour la variable dpendante est un noeud homogne qui na pas besoin dtre scind davantage car il est pur . Vous pouvez slectionner la mthode utilise pour mesurer limpuret et la diminution minimum de limpuret pour scinder les noeuds. Mesure dimpuret. Pour les variables dchelle dpendantes, cest la mesure dimpuret des moindres carrs des carts (LSD) qui est utilise. Elle est calcule en tant que variance intra-noeud, ajuste selon les pondrations deffectif ou les valeurs dinfluence. Pour les variables dpendantes (nominales, ordinales) qualitatives, vous pouvez slectionner la mesure dimpuret parmi les suivantes : Gini. Des scissions sont effectues pour optimiser lhomognit des noeuds enfant par rapport la valeur de la variable dpendante. La mthode Gini est base sur les carrs des probabilits dappartenance chaque modalit de la variable dpendante. Elle atteint son minimum (zro) lorsque toutes les observations du noeud entrent dans une seule modalit. Il sagit de la mesure par dfaut. Twoing. Les modalits de la variable dpendante sont regroupes en deux sous-classes. Des scissions amliorant la sparation des deux groupes sont ralises. Twoing ordonn. Identique au twoing, avec la contrainte supplmentaire que seules les modalits adjacentes peuvent tre regroupes. Cette mesure est uniquement disponible pour les variables dpendantes ordinales. 22. 14 Chapitre 1 Nombre minimum de substituts damlioration. Il sagit de la diminution minimum de limpuret requise pour scinder un noeud. La valeur par dfaut est 0.0001. Les valeurs leves gnrent des arbres comportant moins de noeuds. Critres QUEST Figure 1-10 Bote de dialogue Critres, onglet QUEST Pour la mthode QUEST, vous pouvez dterminer le niveau de signification pour scinder les noeuds. Une variable indpendante ne peut pas tre utilise pour scinder des noeuds moins que le niveau de signification ne soit infrieur ou gal la valeur indique. Cette valeur doit tre suprieure 0 et infrieure 1. La valeur par dfaut est 0,05. Les valeurs faibles auront tendance exclure plus de variables indpendantes du modle final. Pour dterminer les critres QUEST E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante nominale. E Pour la mthode de croissance, slectionnez QUEST. E Cliquez sur Critres. E Cliquez sur longlet QUEST. 23. 15 Cration darbres dcision Elagage des arbres Figure 1-11 Bote de dialogue Critres, onglet Elagage Avec les mthodes CRT et QUEST, vous pouvez faire en sorte que le modle ne soit pas trop rempli en laguant larbre : larbre crot jusqu atteindre les critres darrt ; il est ensuite automatiquement taill jusquau sous-arbre le plus petit, selon la diffrence maximum de risque indique. La valeur de risque est exprime en erreurs standard. La valeur par dfaut est 1. Elle ne doit pas tre ngative. Pour obtenir un sous-arbre qui possde le risque minimum, indiquez 0. Elagage et masquage des noeuds Lorsque vous crez un arbre lagu, tous les noeuds ayant t lagus de larbre ne sont pas disponibles dans larbre final. Vous pouvez masquer et afficher de manire interactive les noeuds enfant slectionns dans larbre final, mais vous ne pouvez pas afficher les noeuds lagus lors du processus de cration de larbre. Pour plus d'informations, reportez-vous la section Editeur darbre dans le chapitre 2 sur p. 41. 24. 16 Chapitre 1 Valeurs de substitution Figure 1-12 Bote de dialogue Critres, onglet Valeurs de substitution Les mthodes CRT et QUEST peuvent utiliser des valeurs de substitution pour les variables indpendantes (prdites). Pour les observations dans lesquelles la valeur de cette variable est manquante, dautres variables indpendantes ayant un fort degr dassociation avec la variable dorigine sont utilises pour la classification. Ces variables prdites de rechange sont appeles valeurs de substitution. Vous pouvez dterminer le nombre maximum de valeurs de substitution pouvant tre utilis dans le modle. Par dfaut, le nombre maximum de valeurs de substitution correspond une unit de moins que le nombre de variables prdites. Autrement dit, pour chaque variable indpendante, toutes les autres variables indpendantes peuvent tre utilises comme valeurs de substitution. Si vous ne souhaitez pas que le modle utilise des valeurs de substitution, indiquez 0 comme nombre de valeurs de substitution. Options Les options disponibles dpendent de la mthode de croissance, du niveau de mesure de la variable dpendante et/ou de lexistence dtiquettes de valeur dfinies pour les valeurs de la variable dpendante. 25. 17 Cration darbres dcision Cots de classification errone Figure 1-13 Bote de dialogue Options, onglet Cots de classification errone Pour les variables dpendantes qualitatives (nominales, ordinales), les cots de classification errone permettent dinclure des informations sur les pnalits relatives associes aux classements incorrects de larbre. Par exemple : Le cot engendr par le refus dun crdit un client solvable sera vraisemblablement diffrent du cot engendr par la prolongation du crdit dun client dj en dfaut de paiement. Le cot occasionn pas le classement incorrect dune personne prsentant un risque lev de cardiopathie dans la modalit de risque faible sera probablement beaucoup plus lev que le cot occasionn par le classement erron dune personne risque faible dans la modalit de risque lev. Le cot du publipostage dune personne qui ne rpondra srement pas est relativement faible, alors que le cot engendr par le non-publipostage dune personne susceptible de rpondre est plus lev (en recettes perdues). Cots de classification errone et tiquettes de valeur Cette bote de dialogue nest disponible que si au moins deux valeurs de la variable dpendante qualitative disposent dtiquettes de valeur dfinies. Pour dterminer les cots de classification errone E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante qualitative (nominale, ordinale) disposant dau moins deux tiquettes de valeur dfinies. E Cliquez sur Options. 26. 18 Chapitre 1 E Cliquez sur longlet Cots de classification errone. E Cliquez sur Personnalis. E Saisissez des cots de classification errone dans la grille. Les valeurs ne doivent pas tre ngatives. (les affectations correctes, reprsentes sur la diagonale, ont toujours la valeur 0.) Rendre la matrice symtrique. La plupart du temps, vous voudrez que les cots soient symtriques ; en dautres termes, que le cot occasionn par la mauvaise raffectation de A comme B soit identique au cot occasionn par la mauvaise raffectation de B comme A. Les commandes suivantes vous aident spcifier une matrice de cots symtrique : Copier moiti infrieure. Permet de copier les valeurs comprises dans le triangle infrieur de la matrice (situ en dessous de la diagonale) dans les cellules correspondantes du triangle suprieur. Copier moiti suprieure. Permet de copier les valeurs comprises dans le triangle suprieur de la matrice (situ au-dessus de la diagonale) dans les cellules correspondantes du triangle infrieur. Utiliser les moyennes de cellules. Cette option calcule la moyenne des deux valeurs de cellule situes chacune dans une moiti diffrente (lune dans le triangle infrieur et lautre dans le triangle suprieur) et remplace ces deux valeurs par la moyenne ainsi obtenue. Par exemple, si le cot occasionn par la mauvaise raffectation de A comme B est 1, et le cot occasionn par la mauvaise raffectation de B comme A est 3, ces deux valeurs sont alors remplaces par leur moyenne : (1+3)/2 = 2. Bnfices Figure 1-14 Bote de dialogue Options, onglet Bnfices 27. 19 Cration darbres dcision Pour les variables dpendantes qualitatives, vous pouvez attribuer des valeurs de recette et de dpense aux niveaux de la variable dpendante. Les bnfices sont obtenus avec le calcul suivant : recettes moins dpenses. Les valeurs de bnfice ont un effet sur les valeurs de la moyenne des bnfices et du ROI (retour sur investissement) dans les tableaux de gains. Elles nont pas deffet sur la structure de base du modle darbre. Les valeurs des recettes et des dpenses doivent tre numriques et propres toutes les modalits de la variable dpendante affiche dans la grille. Bnfices et tiquettes de valeur Cette bote de dialogue requiert des tiquettes de valeur dfinies pour la variable dpendante. Elle nest disponible que si au moins deux valeurs de la variable dpendante qualitative disposent dtiquettes de valeur dfinies. Pour dterminer des bnfices E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante qualitative (nominale, ordinale) disposant dau moins deux tiquettes de valeur dfinies. E Cliquez sur Options. E Cliquez sur longlet Bnfices. E Cliquez sur Personnalis. E Saisissez les valeurs de recette et de dpense de toutes les modalits de variable dpendante rpertories dans la grille. 28. 20 Chapitre 1 Probabilits a priori Figure 1-15 Bote de dialogue Options, onglet Probabilits a priori Pour les arbres CRT et QUEST comportant des variables dpendantes qualitatives, vous pouvez dterminer des probabilits a priori pour les groupes daffectation. Les probabilits a priori sont des estimations de la frquence relative globale de chaque modalit de la variable dpendante, effectues avant la prise de connaissance des valeurs des variables indpendantes (prdites). Les probabilits a priori aident corriger les croissances darbre gnres par les donnes de lchantillon non reprsentatif de lintgralit de la population. Obtenue partir dchantillons dapprentissage (probabilits a priori empiriques). Utilisez ce paramtre si laffectation des valeurs de la variable dpendante dans le fichier de donnes est reprsentative de la distribution de la population. Si vous utilisez la validation par partition, cest la distribution des observations dans lchantillon dapprentissage qui est utilise. Remarque : Etant donn que, pour la validation par partition, les observations sont attribues de manire alatoire lchantillon dapprentissage, vous ne connatrez pas lavance la distribution relle des observations lintrieur de lchantillon dapprentissage. Pour plus d'informations, reportez-vous la section Validation sur p. 8. Egale pour toutes les classes. Utilisez ce paramtre si les modalits de la variable dpendante sont distribues dans des proportions gales entre toutes les catgories de population. Par exemple, sil existe quatre modalits, environ 25 % des observations doivent se trouver dans chaque modalit. Personnalise. Saisissez une valeur non ngative pour chacune des modalits de la variable dpendante rpertories dans la grille. Ces valeurs peuvent tre des proportions, des pourcentages, des effectifs ou toute autre valeur reprsentant la distribution de valeurs entre les modalits. 29. 21 Cration darbres dcision Ajuster les probabilits a priori en utilisant les cots de mauvaise raffectation. Si vous dfinissez des cots de mauvaise raffectation, vous pouvez ajuster les probabilits a priori en fonction de ces cots. Pour plus d'informations, reportez-vous la section Cots de classification errone sur p. 17. Bnfices et tiquettes de valeur Cette bote de dialogue requiert des tiquettes de valeur dfinies pour la variable dpendante. Elle nest disponible que si au moins deux valeurs de la variable dpendante qualitative disposent dtiquettes de valeur dfinies. Pour dterminer des probabilits a priori E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante qualitative (nominale, ordinale) disposant dau moins deux tiquettes de valeur dfinies. E Pour la mthode de croissance, slectionnez CRT ou QUEST. E Cliquez sur Options. E Cliquez sur longlet Probabilits a priori. Scores Figure 1-16 Bote de dialogue Options, onglet Scores Dans CHAID et Exhaustive CHAID avec une variable dpendante ordinale, vous pouvez attribuer des scores personnaliss chaque modalit de la variable dpendante. Les scores dfinissent la distance entre les modalits de la variable dpendante ainsi que lordre de ces modalits. Les 30. 22 Chapitre 1 scores peuvent tre utiliss pour augmenter ou rduire la distance relative entre des valeurs ordinales ou pour changer lordre de ces valeurs. Utiliser le rang ordinal de chaque modalit. Le score de 1 est attribu la modalit la plus basse de la variable dpendante, le score de 2 est attribu la modalit suprieure suivante, etc. Il sagit de la valeur par dfaut. Personnalise. Saisissez une valeur de score numrique pour chacune des modalits de la variable dpendante rpertories dans la grille. Exemple Etiquette de valeur Valeur dorigine Score Ouvrier spcialis 1 1 Ouvrier qualifi 2 4 Employ de bureau 3 4.5 Professionnels 4 7 Direction 5 6 Les scores augmentent la distance relative entre les ouvriers spcialiss et les ouvriers qualifis et rduit la distance relative entre les ouvriers qualifis et les employs de bureau. Les scores inversent lordre de la direction et des professionnels. Scores et tiquettes de valeur Cette bote de dialogue requiert des tiquettes de valeur dfinies pour la variable dpendante. Elle nest disponible que si au moins deux valeurs de la variable dpendante qualitative disposent dtiquettes de valeur dfinies. Pour dterminer des scores E Dans la bote de dialogue principale Arbre de dcision, slectionnez une variable dpendante ordinale disposant dau moins deux tiquettes de valeur dfinies. E Pour la mthode de croissance, slectionnez CHAID ou Exhaustive CHAID. E Cliquez sur Options. E Cliquez sur longlet Scores. 31. 23 Cration darbres dcision Valeurs manquantes Figure 1-17 Bote de dialogue Options, onglet Valeurs manquantes Longlet Valeurs manquantes commande la gestion des valeurs nominales, des valeurs manquantes spcifies par lutilisateur et des valeurs de variable indpendante (prdite). La gestion des valeurs de variable indpendante manquantes spcifies par lutilisateur, dchelle et ordinales, varie en fonction de la mthode de croissance. La gestion des variables dpendantes nominales est indique dans la bote de dialogue Modalits. Pour plus d'informations, reportez-vous la section Slection de modalits sur p. 6. Pour les variables dchelle dpendantes et ordinales, les observations comportant des valeurs de variable dpendante manquantes par dfaut ou spcifies par lutilisateur sont toujours exclues. Traiter en tant que valeurs manquantes. Les valeurs manquantes spcifies par lutilisateur sont traites comme des valeurs manquantes par dfaut. La gestion des valeurs manquantes par dfaut varie selon les mthodes de croissance. Traiter en tant que valeurs valides. Les valeurs manquantes spcifies par lutilisateur des variables indpendantes nominales sont traites comme des valeurs classiques pour la construction de larbre et la classification. 32. 24 Chapitre 1 Rgles dpendant de la mthode Si certaines valeurs de variable indpendante, mais pas toutes, sont manquantes par dfaut ou spcifies par lutilisateur : Pour CHAID et Exhaustive CHAID, les valeurs de variable indpendante manquantes par dfaut ou spcifies par lutilisateur sont incluses dans lanalyse en tant que modalit unique combine. Pour les variables dchelle indpendantes ou ordinales, les algorithmes gnrent dabord les modalits en utilisant des valeurs valides, puis choisissent de fusionner la modalit manquante avec la modalit (valide) la plus ressemblante ou de la conserver part. Pour CRT et QUEST, les observations comportant des valeurs de variable indpendante manquantes sont exclues du processus de construction de larbre mais sont classes laide de valeurs de substitution, si la mthode inclut les valeurs de substitution. Si les valeurs manquantes nominales spcifies par lutilisateur sont traites comme manquantes, elles seront galement gres comme telles. Pour plus d'informations, reportez-vous la section Valeurs de substitution sur p. 16. Pour dterminer le traitement des valeurs manquantes indpendantes nominales spcifies par lutilisateur E Dans la bote de dialogue principale Arbre de dcision, slectionnez au moins une variable indpendante nominale. E Cliquez sur Options. E Cliquez sur longlet Valeurs manquantes. Enregistrement des informations du modle Figure 1-18 Bote de dialogue Enregistrer 33. 25 Cration darbres dcision Vous pouvez enregistrer les informations du modle sous forme de variables dans le fichier de travail et enregistrer galement lintgralit du modle au format XML (PMML) vers un fichier externe. Variables enregistres Nombre de noeuds terminaux. Noeud terminal auquel chaque observation est affecte. La valeur est le nombre de noeuds de larbre. Prvision. Classe (groupe) ou valeur de la variable dpendante prvue par le modle. Probabilits prvues. Probabilit associe aux prvisions du modle. Une variable est enregistre pour chaque modalit de la variable dpendante. Nest pas disponible pour les variables dchelle dpendantes. Affectation des chantillons (de formation/de test). Pour la validation par partition, cette variable indique si lobservation a t utilise dans lchantillon dapprentissage ou lchantillon de test. Sa valeur est 1 pour lchantillon dapprentissage et 0 pour lchantillon de test. Nest pas disponible sauf si vous avez slectionn la validation par partition. Pour plus d'informations, reportez-vous la section Validation sur p. 8. Exporter le modle darbre au format XML Vous pouvez enregistrer lintgralit du modle darbre au format XML (PMML). Vous pouvez utiliser ce fichier de modle pour appliquer les informations du modle aux autres fichiers de donnes des fins dvaluation. Echantillon de formation. Ecrit le modle sur le fichier indiqu. Pour les arbres valids par partition, il sagit du modle de lchantillon dapprentissage. Echantillon de test. Ecrit le modle de lchantillon de test sur le fichier indiqu. Nest pas disponible sauf si vous avez slectionn la validation par partition. Rsultats Les options des rsultats disponibles dpendent de la mthode de croissance, du niveau de mesure de la variable dpendante et dautres paramtres. 34. 26 Chapitre 1 Affichage des arbres Figure 1-19 Bote de dialogue Rsultats, onglet Arbre Vous pouvez rgler lapparence initiale de larbre ou supprimer compltement laffichage de larbre. Arbre. Par dfaut, le diagramme darbre est inclus dans les rsultats affichs dans le Viewer. Dslectionnez cette option (supprimez la coche) pour exclure le diagramme darbre des rsultats. Afficher : Ces options contrlent lapparence initiale du diagramme darbre dans le Viewer. Vous pouvez galement modifier tous ces attributs en modifiant larbre cr. Orientation : Vous pouvez afficher larbre de haut en bas avec le noeud racine en haut, de gauche droite ou de droite gauche. Contenu des noeuds. Les noeuds peuvent afficher des tableaux, des graphiques ou les deux. Pour les variables dpendantes qualitatives, les tableaux affichent les effectifs et les pourcentages, et les graphiques sont des diagrammes en btons. Pour les variables dchelle dpendantes, les tableaux affichent les moyennes, les carts-types, le nombre dobservations et les prvisions. Les graphiques sont des histogrammes. Echelle. Par dfaut, les arbres volumineux sont automatiquement rduits avec conservation des proportions pour que larbre tienne dans la page. Vous pouvez indiquer un pourcentage dchelle personnalis allant jusqu 200 %. 35. 27 Cration darbres dcision Statistiques des variables indpendantes. Pour CHAID et Exhaustive CHAID, les statistiques comprennent la valeur F (pour les variables dchelle dpendantes) ou la valeur Khi-deux (pour les variables dpendantes qualitatives) ainsi que la valeur de signification et les degrs de libert. Pour CRT, la valeur damlioration est affiche. Pour QUEST, la valeur F, la valeur de signification et les degrs de libert sont affichs pour les variables indpendantes ordinales et dchelle ; pour les variables indpendantes nominales, la valeur Khi-deux, la valeur de signification et les degrs de libert sont affichs. Dfinitions des noeuds. Les dfinitions de noeud affichent les valeurs de la variable indpendante utilise chaque scission des noeuds. Arbre sous forme de tableau. Informations rcapitulatives de chaque noeud de larbre, dont le nombre de noeuds parent, les statistiques de variable indpendante, les valeurs de variable indpendante pour le noeud, la moyenne et lcart-type pour les variables dchelle dpendantes, ou les effectifs et les pourcentages pour les variables dpendantes qualitatives. Figure 1-20 Arbre sous forme de tableau 36. 28 Chapitre 1 Statistiques Figure 1-21 Bote de dialogue Rsultat, onglet Statistiques Les tableaux de statistiques disponibles dpendent du niveau de mesure de la variable dpendante, de la mthode de croissance et dautres paramtres. Modle Rcapitulatif. Le rcapitulatif comprend la mthode utilise, les variables incluses dans le modle et les variables indiques mais non incluses dans le modle. 37. 29 Cration darbres dcision Figure 1-22 Tableau rcapitulatif des modles Risque. Estimation du risque et de lerreur standard. Mesure de lexactitude des prvisions de larbre. Pour les variables dpendantes qualitatives, lestimation du risque correspond la proportion dobservations mal classes aprs ajustement aux probabilits a priori et aux cots de mauvaise raffectation. Pour les variables dchelle dpendantes, lestimation du risque correspond la variance intra-noeud. Tableau de classement : Pour les variables dpendantes qualitatives (nominales, ordinales), ce tableau comporte le nombre dobservations classes correctement et incorrectement pour chaque modalit de la variable dpendante. Nest pas disponible pour les variables dchelle dpendantes. Figure 1-23 Tableaux de risque et de classement 38. 30 Chapitre 1 Valeurs de cot, de probabilit a priori, de score et de bnfice. Pour les variables dpendantes qualitatives, ce tableau comporte les valeurs de cot, de probabilit a priori, de score et de bnfice utilises pour lanalyse. Nest pas disponible pour les variables dchelle dpendantes. Variables indpendantes Importance par rapport au modle. Pour la mthode de croissance CRT, classe chaque variable indpendante (prdite) selon son importance dans le modle. Nest pas disponible pour les mthodes QUEST ou CHAID. Valeurs de substitution par partition. Pour les mthodes de croissance CRT et QUEST, si le modle inclut les valeurs de substitution, rpertorie les valeurs de substitution de chaque partition de larbre. Nest pas disponible pour les mthodes CHAID. Pour plus d'informations, reportez-vous la section Valeurs de substitution sur p. 16. Rsultats des noeuds Rcapitulatif. Pour les variables dchelle dpendantes, le tableau comporte le nombre de noeuds, le nombre dobservations et la valeur moyenne de la variable dpendante. Pour les variables dpendantes qualitatives dont les bnfices sont dfinis, le tableau comporte le nombre de noeuds, le nombre dobservations, la moyenne des bnfices et les valeurs du ROI (retour sur investissement). Nest pas disponible pour les variables dpendantes qualitatives dont les bnfices ne sont pas dfinis. Pour plus d'informations, reportez-vous la section Bnfices sur p. 18. Figure 1-24 Tableaux rcapitulatifs des gains pour les noeuds et les centiles Par modalit cible. Pour les variables dpendantes qualitatives dont les modalits cible sont dfinies, le tableau comporte le pourcentage de gains, le pourcentage de rponses et le pourcentage dindex par noeud ou groupe de centiles. Un tableau distinct est produit pour chaque modalit 39. 31 Cration darbres dcision cible. Nest pas disponible pour les variables dchelle dpendantes ou qualitatives dont les modalits cible ne sont pas dfinies. Pour plus d'informations, reportez-vous la section Slection de modalits sur p. 6. Figure 1-25 Gains des modalits cible pour les noeuds et les centiles Lignes. Les tableaux de rsultats des noeuds peuvent afficher les rsultats par noeuds terminaux, par centiles ou les deux. Si vous slectionnez les deux, vous obtenez deux tableaux, un pour chaque modalit cible. Les tableaux utilisant des centiles comportent des valeurs cumulatives pour chaque centile, dans lordre du tri. Incrment de centile. Pour les tableaux utilisant des centiles, vous pouvez slectionner lincrment de centiles suivant : 1, 2, 5, 10, 20 ou 25. Afficher les statistiques cumules. Pour les tableaux utilisant des noeuds terminaux, ajoute une colonne comportant les rsultats cumuls. 40. 32 Chapitre 1 Diagrammes Figure 1-26 Bote de dialogue Rsultat, onglet Diagrammes Les diagrammes disponibles dpendent du niveau de mesure de la variable dpendante, de la mthode de croissance et dautres paramtres. Importance de la variable indpendante dans le modle. Diagramme en btons reprsentant limportance dans le modle de chaque variable indpendante (prdite). Valable uniquement pour la mthode de croissance CRT. Rsultats des noeuds Gain. Le gain est le pourcentage dobservations totales de la modalit cible dans chaque noeud, calcul de la manire suivante : (cibles des noeuds n/nombre total de cibles n) x 100. Le diagramme des gains est un diagramme curviligne reprsentant les gains cumuls en centiles, calcul de la manire suivante : (cibles des centiles cumuls n/nombre total de cibles n) x 100. Un diagramme curviligne distinct est cr pour chaque modalit cible. Est uniquement disponible pour les variables dpendantes qualitatives dont les modalits cible sont dfinies. Pour plus d'informations, reportez-vous la section Slection de modalits sur p. 6. Le diagramme des gains trace point par point les valeurs de la colonne Pourcentage de gain du tableau Gains pour les centiles, qui comporte galement les valeurs cumules. 41. 33 Cration darbres dcision Figure 1-27 Tableau Gains pour les centiles et diagramme des gains Index. L'index correspond au ratio du pourcentage de rponses du nud pour la catgorie cible compar au pourcentage de rponses global pour la catgorie cible de l'ensemble de l'chantillon. Le diagramme des index est un diagramme curviligne reprsentant les valeurs de lindex des centiles cumuls. Est uniquement disponible pour les variables dpendantes qualitatives. Lindex des centiles cumuls est calcul de la manire suivante : (pourcentage de rponse des centiles cumuls/pourcentage total de rponses) x 100. Un diagramme distinct est cr pour chaque modalit cible, et les modalits cible doivent tre dfinies. Le diagramme dindex trace point par point les valeurs de la colonne Index du tableau Gains pour les centiles. 42. 34 Chapitre 1 Figure 1-28 Tableau Gains pour les centiles et diagramme dindex Rponse. Le pourcentage d'observations dans le noeud dans la modalit cible spcifie; Le diagramme de rponse est un diagramme curviligne reprsentant les rponses des centiles cumules, calcul de la manire suivante : (cibles des centiles cumuls n/nombre total de centiles cumuls n) x 100. Est uniquement disponible pour les variables dpendantes qualitatives dont les modalits cible sont dfinies. Le diagramme de rponse trace point par point les valeurs de la colonne Rponse du tableau Gains pour les centiles. 43. 35 Cration darbres dcision Figure 1-29 Tableau Gains pour les centiles et diagramme de rponse Moyenne. Diagramme curviligne reprsentant les valeurs moyennes des centiles cumuls pour la variable dpendante. Est uniquement disponible pour les variables dchelle dpendantes. Bnfice moyen. Diagramme curviligne reprsentant les profits moyens cumuls. Disponible uniquement pour les variables dpendantes qualitatives dont les bnfices sont dfinis. Pour plus d'informations, reportez-vous la section Bnfices sur p. 18. Le diagramme des profits moyens trace point par point les valeurs de la colonne Bnfices du tableau Rcapitulatif des gains pour les centiles. 44. 36 Chapitre 1 Figure 1-30 Tableau rcapitulatif des gains pour les centiles et profit moyen Retour sur investissement (ROI). Diagramme curviligne du ROI (retour sur investissement) cumul. ROI est le ratio recettes/dpenses. Disponible uniquement pour les variables dpendantes qualitatives dont les bnfices sont dfinis. Le diagramme du ROI trace point par point les valeurs de la colonne ROI du tableau Rcapitulatif des gains pour les centiles. 45. 37 Cration darbres dcision Figure 1-31 Tableau rcapitulatif des gains pour les centiles et diagramme du ROI Incrment de centile. Pour tous les diagrammes utilisant des centiles, ce paramtre contrle laffichage des incrments des centiles sur le diagramme : 1, 2, 5, 10, 20 ou 25. 46. 38 Chapitre 1 Rgles de slection et danalyse Figure 1-32 Bote de dialogue Rsultat, onglet Rgles Longlet Rgles permet de gnrer des rgles de slection ou de classification/prvision sous la forme de syntaxe de commande, au format SQL ou sous forme de texte simple (standard). Vous pouvez afficher ces rgles dans le Viewer et/ou les enregistrer dans un fichier externe. Syntaxe. Contrle la forme des rgles de slection des rsultats affichs dans le Viewer et des rgles de slection enregistres dans un fichier externe. Langage de syntaxe de commande IBM SPSS Statistics.. Les rgles sont exprimes sous la forme dun ensemble de commandes dfinissant une condition de filtre pouvant tre utilise pour slectionner des sous-ensembles dobservations ou sous la forme dinstructions COMPUTE pouvant tre utilises pour analyser les observations. SQL. Les rgles SQL standard sont gnres pour slectionner des enregistrements dans la base de donnes, pour les extraire ou pour attribuer des valeurs ces enregistrements. Les rgles SQL gnres ne comportent aucun nom de tableau ou aucune autre information de source de donnes. Texte simple. Pseudo-code pour la langue standard. Les rgles sont exprimes sous forme dinstructions logiques si...alors dcrivant les classifications et les prvisions du modle pour chaque noeud. Sous cette forme, les rgles peuvent utiliser des tiquettes de valeur ou de variable dfinies, ou des noms de variables et des valeurs de donnes. 47. 39 Cration darbres dcision Type. Pour SPSS Statistics et les rgles SQL, commande le type de rgles affich : rgles de slection ou danalyse. Attribuer des valeurs aux observations. Les rgles peuvent tre utilises pour attribuer les prvisions du modle aux observations respectant les critres dappartenance aux noeuds. Une rgle distincte est cre pour chaque observation respectant les critres dappartenance aux noeuds. Slectionner des observations. Les rgles peuvent tre utilises pour slectionner les observations respectant les critres dappartenance aux noeuds. Pour les rgles SPSS Statistics et SQL, une rgle unique est cre pour slectionner toutes les observations respectant les critres de slection. Inclure des valeurs de substitution dans SPSS Statistics et les rgles SQL. Pour CRT et QUEST, vous pouvez inclure des variables prdites de substitution provenant du modle dans les rgles. Les rgles comportant des valeurs de substitution peuvent tre relativement complexes. En gnral, si vous souhaitez simplement dgager des informations conceptuelles sur votre arbre, excluez les valeurs de substitution. Si certaines observations comportent des donnes de variable indpendante (prdite) incompltes et que vous souhaitez que les rgles reproduisent votre arbre, incluez les valeurs de substitution. Pour plus d'informations, reportez-vous la section Valeurs de substitution sur p. 16. Noeuds. Commande le champ dapplication des rgles cres. Une rgle distincte est cre pour chaque noeud inclus dans le champ dapplication. Tous les noeuds terminaux. Gnre des rgles pour chaque noeud terminal. Meilleurs noeuds terminaux. Gnre des rgles pour les n noeuds terminaux les plus hauts selon les valeurs dindex. Si le nombre dpasse le nombre de noeuds terminaux de larbre, les rgles sont cres pour tous les noeuds terminaux. (Voir la remarque ci-aprs.) Meilleurs noeuds terminaux jusqu un pourcentage spcifi dobservations. Gnre des rgles pour les noeuds terminaux pour les n pourcentages dobservations les plus hauts selon les valeurs dindex. (Voir la remarque ci-aprs.) Noeuds terminaux dont la valeur dindex est gale ou suprieure une valeur de csure. Gnre des rgles pour tous les noeuds terminaux dont la valeur dindex est suprieure ou gale la valeur spcifie. Une valeur dindex suprieure 100 signifie que le pourcentage dobservations dans la modalit cible de ce noeud dpasse le pourcentage du noeud racine. (Voir la remarque ci-aprs.) Tous les noeuds. Gnre des rgles pour tous les noeuds. Remarque 1 : La slection des noeuds base sur les valeurs dindex est uniquement disponible pour les variables dpendantes qualitatives comportant des modalits cible dfinies. Si vous avez indiqu plusieurs modalits cible, un jeu de rgles distinct est cr pour chaque modalit cible. Remarque 2 : Pour SPSS Statistics et les rgles SQL de slection des observations (et non les rgles daffectation des valeurs), Tous les noeuds et Tous les noeuds terminaux gnrent efficacement une rgle slectionnant toutes les observations utilises dans lanalyse. Exporter les rgles dans un fichier. Enregistre les rgles dans un fichier texte externe. 48. 40 Chapitre 1 Vous pouvez galement gnrer et enregistrer les rgles de slection ou danalyse de manire interactive, en fonction des noeuds slectionns dans le modle darbre final. Pour plus d'informations, reportez-vous la section Rgles de slection et danalyse des observations dans le chapitre 2 sur p. 49. Remarque : Si vous appliquez des rgles sous forme de syntaxe de commande un autre fichier de donnes, ce fichier de donnes doit contenir des variables portant les mmes noms que les variables indpendantes incluses dans le modle final, mesures avec la mme unit, comportant les mmes valeurs manquantes spcifies par lutilisateur (sil en existe). 49. Chapitre 2 Editeur darbre Avec lditeur darbre, vous pouvez : Masquer et afficher des branches darbre slectionnes. Contrler laffichage du contenu des noeuds, des statistiques lendroit de la scission des noeuds, ainsi que dautres informations. Modifier les noeuds, les arrire-plans, les bordures, les diagrammes et les couleurs de police. Modifier le style et la taille de police. Modifier lalignement des arbres. Slectionner des sous-ensembles dobservations pour une analyse plus approfondie base sur les noeuds slectionns. Crer et enregistrer des rgles de slection ou danalyse des observations bases sur les noeuds slectionns. Pour modifier un modle darbre : E Double-cliquez sur le modle darbre dans la fentre du Viewer. ou E Dans le menu Edition ou le menu contextuel, choisissez : Modifier le contenu > Dans une fentre distincte Affichage/Masquage des noeuds Pour masquer (rduire) tous les noeuds enfant dans une branche situe en dessous dun noeud parent : E Cliquez sur le signe moins () dans la petite case situe sous le coin infrieur droit du noeud parent. Tous les noeuds en dessous du noeud parent de cette branche seront masqus. Pour afficher (dvelopper) tous les noeuds enfant dans une branche situe en dessous dun noeud parent : E Cliquez sur le signe plus (+) dans la petite case situe sous le coin infrieur droit du noeud parent. Remarque : Masquer les noeuds enfant dune branche ne revient pas laguer un arbre. Si vous souhaiter laguer votre arbre, vous devez demander un lagage avant de crer larbre ; ainsi, les branches lagues ne sont pas incluses dans larbre final. Pour plus d'informations, reportez-vous la section Elagage des arbres dans le chapitre 1 sur p. 15. Copyright IBM Corporation 1989, 2011. 41 50. 42 Chapitre 2 Figure 2-1 Arbre dvelopp et rduit Slection de plusieurs noeuds Vous pouvez slectionner des observations, gnrer des rgles danalyse et de slection, et raliser dautres actions bases sur les noeuds slectionns. Pour slectionner plusieurs noeuds : E Cliquez sur le noeud que vous voulez slectionner. E Cliquez sur les autres noeuds que vous voulez slectionner en maintenant la touche Ctrl enfonce. Vous pouvez slectionner des noeuds enfant et/ou des noeuds parent dans une branche et des noeuds enfant dans une autre branche. Cependant, il est impossible dutiliser la slection multiple sur un noeud parent et un noeud enfant de la mme branche. Manipulation de grands arbres Il peut arriver que les modles darbre contiennent tellement de noeuds et de branches quil est difficile, voire impossible dafficher lintgralit de larbre en taille normale. Les fonctions suivantes peuvent vous tre utiles lorsque vous manipulez de grands arbres : Carte darbre. Vous pouvez utiliser la carte darbre, une version beaucoup plus petite et simplifie de larbre, pour vous dplacer dans larbre et slectionner des noeuds. Pour plus d'informations, reportez-vous la section Carte darbre sur p. 43. 51. 43 Editeur darbre Echelle. Vous pouvez effectuer des zooms arrire et avant en modifiant le pourcentage dchelle utilis pour laffichage de larbre. Pour plus d'informations, reportez-vous la section Mise lchelle de laffichage de larbre sur p. 44. Affichage des noeuds et des branches. Vous pouvez rendre larbre plus compact en affichant uniquement les tableaux ou uniquement les diagrammes dans les noeuds, et/ou en supprimant laffichage des tiquettes de noeud ou des informations sur les variables indpendantes. Pour plus d'informations, reportez-vous la section Contrle des informations affiches dans larbre sur p. 45. Carte darbre La carte darbre fournit une vue compacte et simplifie de larbre pouvant tre utilise pour se dplacer dans larbre et slectionner des noeuds. Pour utiliser la fentre de la carte darbre : E A partir des menus de lditeur darbre, slectionnez : Affichage > Carte darbre Figure 2-2 Fentre Carte darbre Le noeud slectionn est mis en vidence dans lditeur de modle darbre et dans la fentre de la carte darbre. La portion de larbre figurant actuellement dans la zone daffichage de lditeur de modle darbre est indique par un rectangle rouge dans la carte darbre. Cliquez avec le bouton droit et faites glisser le rectangle pour modifier la section de larbre affiche dans la zone daffichage. Si vous slectionnez un noeud de la carte darbre ne figurant pas dans la zone daffichage de lditeur, laffichage change pour inclure le noeud slectionn. La slection de plusieurs noeuds fonctionne de la mme manire dans la carte darbre que dans lditeur darbre : Tout en maintenant la touche Ctrl enfonce, cliquez sur les noeuds pour les slectionner. Il est impossible dutiliser la slection multiple sur un noeud parent et un noeud enfant de la mme branche. 52. 44 Chapitre 2 Mise lchelle de laffichage de larbre Par dfaut, lchelle des arbres est automatiquement ajuste la fentre du Viewer, ce qui risque de rendre trs difficile la lecture de certains arbres. Vous pouvez slectionner un paramtre dchelle prdfini ou saisir votre propre valeur personnalise situe entre 5 et 200 %. Pour modifier lchelle de larbre : E Slectionnez un pourcentage dchelle dans la liste droulante de la barre doutils ou saisissez un pourcentage personnalis. ou E A partir des menus de lditeur darbre, slectionnez : Affichage > Echelle... Figure 2-3 Bote de dialogue Echelle Vous pouvez galement indiquer une valeur dchelle avant de crer le modle darbre. Pour plus d'informations, reportez-vous la section Rsultats dans le chapitre 1 sur p. 25. Fentre Rcapitulatif des noeuds La fentre Rcapitulatif des noeuds offre une plus grande vue des noeuds slectionns. Vous pouvez galement utiliser la fentre rcapitulative pour afficher, appliquer ou enregistrer des rgles de slection ou danalyse bases sur les noeuds slectionns. Utilisez le menu Affichage de la fentre Rcapitulatif des noeuds pour changer laffichage dun tableau rcapitulatif, dun diagramme ou de rgles. Utilisez le menu Rgles de la fentre Rcapitulatif des noeuds pour slectionner le type de rgles que vous voulez afficher. Pour plus d'informations, reportez-vous la section Rgles de slection et danalyse des observations sur p. 49. Tous les affichages de la fentre Rcapitulatif des noeuds refltent un rcapitulatif combin de tous les noeuds slectionns. 53. 45 Editeur darbre Pour utiliser la fentre Rcapitulatif des noeuds : E Slectionnez les noeuds dans lditeur darbre. Tout en maintenant la touche Ctrl enfonce, cliquez sur les noeuds pour les slectionner. E A partir des menus, slectionnez : Affichage > Rcapitulatif Figure 2-4 Fentre rcapitulative Contrle des informations affiches dans larbre Le menu Options de lditeur darbre permet de contrler laffichage du contenu des noeuds, des noms et des statistiques des variables indpendantes (explicatives), des dfinitions de noeud, etc. La majeure partie de ces paramtres peut galement tre contrle depuis la barre doutils. Paramtre Slection du menu Options Slectionner la modalit prvue (variable dpendante qualitative) Slectionner les prvisions Tableaux et/ou diagrammes dans les noeuds Contenu du noeud Valeurs des tests de signification et valeurs p Statistiques des variables indpendantes 54. 46 Chapitre 2 Paramtre Slection du menu Options Nom des variables indpendantes (explicatives) Variables indpendantes Valeurs indpendantes (explicatives) des noeuds Dfinitions de noeud Alignement (de haut en bas, de gauche droite, de droite gauche) Orientation Lgende de diagramme Lgende Figure 2-5 Elments darbre Modification des couleurs et des polices de caractres du texte des arbres Vous pouvez modifier les couleurs de larbre suivantes : Couleur de la bordure de noeud, de larrire-plan et du texte Couleur des branches et du texte des branches Couleur de larrire-plan de larbre Couleur de mise en vidence des modalits prvues (variables dpendantes qualitatives) Couleurs des diagrammes de noeud Vous pouvez galement modifier le type, le style et la taille de la police pour lintgralit des textes de larbre. Remarque : Il est impossible de modifier la couleur ou les attributs de police de noeuds ou de branches individuellement. Les modifications apportes la couleur sappliquent tous les lments dun mme type et les modifications de police ( lexception de la couleur) sappliquent tous les lments du diagramme. 55. 47 Editeur darbre Pour modifier les couleurs et les attributs de police de caractre : E Utilisez la barre doutils pour modifier les attributs de police pour lintgralit de larbre ou les couleurs des divers lments darbre. (Les info-bulles dcrivent chaque commande de la barre doutils lorsque vous placez le pointeur de la souris sur la commande.) ou E Double-cliquez nimporte o dans lditeur darbre pour ouvrir la fentre Proprits ou choisissez dans les menus : Affichage > Proprits E Pour les bordures, les branches, larrire-plan des noeuds, les modalits prvues et larrire-plan de larbre, cliquez sur longlet Couleur. E Pour les couleurs et les attributs de police, cliquez sur longlet Texte. E Pour les couleurs des diagrammes de noeud, cliquez sur longlet Graphiques de noeud. Figure 2-6 Fentre Proprits, onglet Couleur 56. 48 Chapitre 2 Figure 2-7 Fentre Proprits, onglet Texte Figure 2-8 Fentre Proprits, onglet Graphiques de noeud 57. 49 Editeur darbre Rgles de slection et danalyse des observations Vous pouvez utiliser lditeur darbre pour : Slectionner des sous-ensembles dobservations bass sur les noeuds slectionns. Pour plus d'informations, reportez-vous la section Filtrage des observations sur p. 49. Gnrer des rgles de slection des observations ou des rgles danalyse au format syntaxe de commande IBM SPSS Statistics ou au format SQL. Pour plus d'informations, reportez-vous la section Enregistrement des rgles de slection et danalyse sur p. 49. Vous pouvez galement enregistrer automatiquement des rgles bases sur plusieurs critres lors du lancement de la procdure Arbre de dcision de cration du modle darbre. Pour plus d'informations, reportez-vous la section Rgles de slection et danalyse dans le chapitre 1 sur p. 38. Filtrage des observations Si vous souhaitez en savoir plus sur les observations dun noeud ou dun groupe de noeuds prcis, vous pouvez slectionner un sous-ensemble dobservations pour quil soit analys de manire plus approfondie sur la base des noeuds slectionns. E Slectionnez les noeuds dans lditeur darbre. Tout en maintenant la touche Ctrl enfonce, cliquez sur les noeuds pour les slectionner. E A partir des menus, slectionnez : Rgles > Filtrer les observations... E Entrez le nom dune variable de filtre. Les observations des noeuds slectionns recevront la valeur 1 pour cette variable. Toutes les autres observations recevront la valeur 0 et seront exclues de lanalyse suivante jusqu modification de ltat du filtre. E Cliquez sur OK. Figure 2-9 Bote de dialogue Filtrer les observations Enregistrement des rgles de slection et danalyse Vous pouvez enregistrer les rgles danalyse et de slection des observations dans un fichier externe, puis les appliquer une autre source de donnes. Les rgles sont bases sur les noeuds slectionns dans lditeur darbre. 58. 50 Chapitre 2 Syntaxe. Contrle la forme des rgles de slection des rsultats affichs dans le Viewer et des rgles de slection enregistres dans un fichier externe. IBM SPSS Statistics. Langage de syntaxe de commande. Les rgles sont exprimes sous la forme dun ensemble de commandes dfinissant une condition de filtre pouvant tre utilise pour slectionner des sous-ensembles dobservations ou sous la forme dinstructions COMPUTE pouvant tre utilises pour analyser les observations. SQL. Les rgles SQL standard sont gnres pour slectionner/extraire des enregistrements dans la base de donnes, ou pour attribuer des valeurs ces enregistrements. Les rgles SQL gnres ne comportent aucun nom de tableau ou aucune autre information de source de donnes. Type. Vous pouvez crer des rgles danalyse ou de slection. Slectionner des observations. Les rgles peuvent tre utilises pour slectionner les observations respectant les critres dappartenance aux noeuds. Pour les rgles SPSS Statistics et SQL, une rgle unique est cre pour slectionner toutes les observations respectant les critres de slection. Attribuer des valeurs aux observations. Les rgles peuvent tre utilises pour attribuer les prvisions du modle aux observations respectant les critres dappartenance aux noeuds. Une rgle distincte est cre pour chaque observation respectant les critres dappartenance aux noeuds. Inclure les lments auxiliaires. Pour CRT et QUEST, vous pouvez inclure des variables indpendantes de substitution provenant du modle dans les rgles. Les rgles comportant des valeurs de substitution peuvent tre relativement complexes. En gnral, si vous souhaitez simplement dgager des informations conceptuelles sur votre arbre, excluez les valeurs de substitution. Si certaines observations comportent des donnes de variable indpendante (explicative) incompltes et que vous souhaitez que les rgles reproduisent votre arbre, incluez les valeurs de substitution. Pour plus d'informations, reportez-vous la section Valeurs de substitution dans le chapitre 1 sur p. 16. Pour enregistrer des rgles danalyse ou de slection des observations : E Slectionnez les noeuds dans lditeur darbre. Tout en maintenant la touche Ctrl enfonce, cliquez sur les noeuds pour les slectionner. E A partir des menus, slectionnez : Rgles > Exporter... E Slectionnez le type de rgles voulu et entrez un nom de fichier. 59. 51 Editeur darbre Figure 2-10 Bote de dialogue Exporter les rgles Remarque : Si vous appliquez des rgles sous forme de syntaxe de commande un autre fichier de donnes, ce fichier de donnes doit contenir des variables portant les mmes noms que les variables indpendantes incluses dans le modle final, mesures avec la mme unit, comportant les mmes valeurs manquantes spcifies par lutilisateur (sil en existe). 60. Partie II: Exemples 61. Chapitre 3 Hypothses et exigences concernant les donnes La procdure Arbre de dcision suppose que : Le niveau de mesure appropri a t attribu toutes les variables danalyse. Pour les valeurs dpendantes qualitatives (nominales et ordinales), les tiquettes de valeur ont t dfinies pour toutes les modalits devant tre incluses dans lanalyse. Nous utiliserons le fichier tree_textdata.sav pour illustrer limportance de ces deux exigences. Ce fichier de donnes reflte ltat par dfaut des donnes lues ou entres avant que des attributs, tels que le niveau de mesure ou les tiquettes de valeur, aient t dfinis. Pour plus d'informations, reportez-vous la section Fichiers dexemple dans l'annexe A dans IBM SPSS Decision Trees 20. Effets du niveau de mesure sur les modles darbre Les deux variables de ce fichier de donnes sont numriques et elles ont toutes deux un niveau de mesure dchelle. Cependant (comme nous le verrons plus tard), ces deux variables sont vritablement des variables qualitatives reposant sur des codes numriques qui font office de valeurs de modalit. E Pour lancer une analyse darbre de dcision, choisissez les options suivantes dans les menus : Analyse > Classification > Arbre... Copyright IBM Corporation 1989, 2011. 53 62. 54 Chapitre 3 Les icnes situes en regard des deux variables dans la liste de variables source indiquent quelles seront traites comme des variables dchelle. Figure 3-1 Bote de dialogue principale Arbre de dcision comportant deux variables dchelle E Slectionnez la variable dpendante dpendante. E Slectionnez la variable indpendante indpendante. E Cliquez sur OK pour excuter la procdure. E Ouvrez nouveau la bote de dialogue Arbre de dcision et cliquez sur Rinitialiser. E Cliquez avec le bouton droit sur dpendante dans la liste source et slectionnez Nominal dans le menu contextuel. E Procdez de la mme faon pour la variable indpendante de la liste source. 63. 55 Hypothses et exigences concernant les donnes Les icnes en regard de chaque variable indiquent quelles seront traites comme des variables nominales. Figure 3-2 Icnes nominales de la liste source E Slectionnez dpendante pour la variable dpendante et indpendante pour la variable indpendante, et cliquez sur OK pour relancer la procdure. Comparons prsent les deux arbres obtenus. Tout dabord, observons larbre dans lequel les deux variables numriques sont traites en tant que variables dchelle. Figure 3-3 Arbre dont les deux variables sont traites comme des variables dchelle 64. 56 Chapitre 3 Chaque noeud darbre montre la valeur prvue , qui est la valeur moyenne de la variable dpendante de ce noeud. Pour une variable qui est rellement qualitative, la moyenne ne sera peut-tre pas une statistique reprsentative. Larbre comporte quatre noeuds enfant, un pour chaque valeur de la variable indpendante. Les modles darbre fusionnent souvent des noeuds similaires, mais pour une variable dchelle, seules les valeurs attenantes peuvent tre fusionnes. Dans cet exemple, aucune valeur attenante ntait suffisamment identique pour que des noeuds aient pu fusionner. Larbre dans lequel les deux variables sont traites comme des variables nominales est lgrement diffrent plusieurs gards. Figure 3-4 Arbre dont les deux variables sont traites comme des variables nominales Au lieu dune prvision, chaque noeud contient un tableau deffectifs indiquant le nombre dobservations (effectif et pourcentage) de chaque modalit de la variable dpendante. La modalit prvue , correspondant la modalit comportant leffectif le plus lev dans chaque noeud, est slectionne. Par exemple, la modalit prvue pour le noeud 2 est la modalit 3. Au lieu de quatre noeuds enfant, il nen existe que trois, avec deux valeurs de la variable indpendante fusionnes en un seul noeud. Les deux valeurs indpendantes fusionnes en un mme nud sont 1 et 4. Etant donn que, par dfinition, les valeurs nominales ne suivent aucun ordre inhrent, la fusion des valeurs non attenantes est autorise. Affectation permanente du niveau de mesure Lorsque vous modifiez le niveau de mesure dune variable dans la bote de dialogue Arbre de dcision, cette modification est temporaire et nest pas enregistre dans le fichier de donnes. De plus, vous ne connatrez peut-tre pas toujours le niveau de mesure correct de toutes les variables. 65. 57 Hypothses et exigences concernant les donnes Loption Dfinir les proprits de variable peut vous aider dterminer le niveau de mesure correct de chaque variable et de modifier de manire permanente le niveau de mesure affect. Pour utiliser loption Dfinir les proprits de variable : E A partir des menus, slectionnez : Donnes > Dfinir les proprits de variables Variables avec niveau de mesure inconnu Lalerte du niveau de mesure apparat lorsque le niveau de mesure dune ou plusieurs variables (champs) de lensemble de donnes est inconnu. Le niveau de mesure ayant une incidence sur le calcul des rsultats de cette procdure, toutes les variables doivent avoir un niveau de mesure dfini. Figure 3-5 Alerte du niveau de mesure Analysez les donnes. Lit les donnes dans lensemble de donnes actifs et attribue le niveau de mesure par dfaut tous les champs ayant un niveau de mesure inconnu. Si lensemble de donnes est important, cette action peut prendre un certain temps. Attribuer manuellement. Ouvre une bote de dialogue qui rpertorie tous les champs ayant un niveau de mesure inconnu. Vous pouvez utiliser cette bote de dialogue pour attribuer un niveau de mesure ces champs. Vous pouvez galement attribuer un niveau de mesure dans laffichage des variables de lditeur de donnes. Le niveau de mesure tant important pour cette procdure, vous ne pouvez pas accder la bote de dialogue dexcution de cette procdure avant que tous les champs naient des niveaux de mesure dfinis. Effets des tiquettes de valeur sur les modles darbre Linterface de la bote de dialogue Arbre de dcision suppose que, soit toutes les valeurs non manquantes dune variable dpendante qualitative (nominale, ordinale) disposent dtiquettes de valeurs dfinies, soit quaucune nen dispose. Certaines fonctions ne sont disponibles que si au moins deux valeurs non manquantes de la variable dpendante qualitative disposent dtiquettes de valeur. Si au moins deux valeurs non manquantes disposent dtiquettes de valeur dfinies, 66. 58 Chapitre 3 toutes les observations contenant dautres valeurs ne disposant pas dtiquettes de valeur seront exclues de lanalyse. Dans cet exemple, le fichier de donnes dorigine ne contient aucune tiquette de valeur dfinie, et lorsque la variable dpendante est traite comme une variable nominale, le modle darbre utilise toutes les valeurs non manquantes dans lanalyse. Dans cet exemple, ces valeurs sont 1, 2 et 3. Quarrive-t-il lorsque certaines variables dpendantes disposent dtiquettes de valeur dfinies, mais pas toutes ? E Dans la fentre de lditeur de donnes, cliquez sur longlet Affichage des variables. E Cliquez sur la cellule Valeurs pour la variable dpendante. Figure 3-6 Dfinition dtiquettes de valeurs pour une variable dpendante E Tout dabord, saisissez 1 pour Valeur et Oui pour Etiquette de valeur, puis cliquez sur Ajouter. E Saisissez ensuite 2 pour Valeur et Non pour Etiquette de valeur, puis cliquez nouveau sur Ajouter. E Cliquez ensuite sur OK. E Ouvrez nouveau la bote de dialogue Arbre de dcision. Dans la bote de dialogue, loption dpendante doit encore tre slectionne en tant que variable dpendante, ainsi quun niveau de mesure nominal. E Cliquez sur OK pour excuter nouveau la procdure. 67. 59 Hypothses et exigences concernant les donnes Figure 3-7 Arbre de variable dpendante nominale avec tiquettes de valeur partielles A prsent, seules les deux valeurs de variable dpendante comportant des tiquettes de valeur dfinies sont incluses dans le modle darbre. Toutes les observations ayant la valeur 3 pour la variable dpendante ont t exclues, mme si cela nest peut tre pas vident si vous ne connaissez pas bien les donnes. Affectation dtiquettes de valeur toutes les valeurs Pour viter doublier par accident les valeurs qualitatives valides dans lanalyse, utilisez Dfinir les proprits de variable pour affecter des tiquettes de valeur toutes les valeurs de variable dpendante des donnes. 68. 60 Chapitre 3 Lorsque les informations du dictionnaire de donnes sont affiches pour le nom de variable dans la bote de dialogue Dfinir les proprits de variable, vous pouvez voir que, mme si plus de 300 observations ont la valeur 3 pour cette variable, aucune tiquette de valeur na t dfinie pour cette valeur. Figure 3-8 Variable avec tiquettes de valeur partielles dans la bote de dialogue Dfinir les proprits de variable 69. Chapitre 4 Utilisation des arbres de dcision pour valuer le risque de crdit Une banque tient jour une base de donnes contenant des informations chronologiques sur les clients ayant emprunt de largent, indiquant sils ont rembours la somme emprunte o