Stata 2

Université Paris Dauphine - Cours M1 Initiation à STATA et SAS - Sandrine Dufour-Kippelen, Marta Menéndez

1

Introduction au logiciel Stata

Version 11 Windows

Notes de cours de M. Menéndez 1. Présentation du logiciel ...................................................................................................... 2

1.1. Commentaires préliminaires ...................................................................................... 2 1.2. L’interface .................................................................................................................. 3 1.3. Les fichiers ................................................................................................................. 4 1.4. Structure d’un programme Stata................................................................................. 4

2. Gérer une base de données ................................................................................................. 6 2.1. Lecture et enregistrement d’une base de données ...................................................... 6

2.1.a. Ouverture des données : la commande use ............................................................... 6 2.1.b. Importation des données : commandes insheet, infile, infix. ................................... 7 2.1.c. Enregistrement des données ..................................................................................... 8

2.2. Gestion des variables .................................................................................................. 8 2.2.a. Sélection des données ............................................................................................... 8 2.2.b. Analyse du contenu d’un fichier .............................................................................. 8 2.2.c. Générer de nouvelles variables ................................................................................. 9

2.3. Gestion de plusieurs bases ........................................................................................ 10 2.3.a. Réorganisation des bases ........................................................................................ 10 2.3.b. Concaténation (append) .......................................................................................... 10 2.3.c. Appariement (merge) .............................................................................................. 11 2.3.d. Transformation (collapse) ...................................................................................... 11 2.3.e. Transposition (reshape) .......................................................................................... 11

3. Eléments de programmation ............................................................................................. 12 3.1. Opérateurs dans STATA .......................................................................................... 12 3.2. Quelques bases de programmation ........................................................................... 13

4. Statistiques descriptives ................................................................................................... 13 4.1. Synthèse des données et statistiques descriptives .................................................... 13 4.2. Corrélations et tests de comparaison ........................................................................ 15 4.3. Graphiques ............................................................................................................... 17

4.3.a. Graphiques unidimensionnels (graph) .................................................................... 17 4.3.b. Graphiques bi-dimensionnels (twoway) ................................................................. 19 4.3.c. Sauvegarde des graphiques ..................................................................................... 20

5. Econométrie ..................................................................................................................... 20 5.1. Régression linéaire ................................................................................................... 20

5.1.a. La commande regress ............................................................................................. 21 5.1.b. La création des variables indicatrices ..................................................................... 21 5.1.c. Commandes de post-estimation .............................................................................. 22

5.2. Modélisation des variables qualitatives dichotomiques (logit et probit) .................. 22 6. Bibliographie .................................................................................................................... 23 7. Annexe ............................................................................................................................. 25

7.1. Présentation de la base Vietnam98.dta ..................................................................... 25 Version Septembre 2011


2

1. Présentation du logiciel

1.1. Commentaires préliminaires Stata est un logiciel statistique apparu dans les années 80, et qu’aujourd’hui se positionne comme un logiciel de pointe dans les domaines de l’analyse et de la représentation graphique des données, de la statistique et de l’économétrie appliquée de bon niveau. Stata est développé sur les plates-formes Windows, Macintosh et Unix en plusieurs versions selon la capacité de traitement des données (nombre d’observations, nombre de variables, taille des matrices). Ainsi les versions disponibles sont : Nombre

d’observations Nombre de variables Taille des matrices

Small Stata 1000 99 40 × 40 Stata/IC 2 147 483 647 2047 800 × 800 Stata/SE et Stata/MP 2 147 483 647 32767 11 000 × 11 000 Source: Cahuzac et Bontemps (2008). o Sur la mémoire:

Attention : ces limites sont conditionnés par la capacité de la machine utilisée puisque Stata travaille en mémoire vive. De plus, la mémoire vive allouée au logiciel Stata à l’ouverture d’une session (qui est de 1000K ou 1M par défaut) peut être insuffisante quand on travaille avec des gros fichiers (à ce moment là vous obtenez le message d’erreur : « no room for more observations »). Il suffira d’augmenter l’espace de travail de Stata en utilisant la commande set memory : set memory 30m (pour attribuer, par exemple, 30M à Stata)

Cependant cette opération ne peut-être réalisé que si la mémoire est vide, c'est-à-dire qu’aucun fichier n’est utilisé. o Sur où trouver de l’aide pour l’utilisation du logiciel Stata:

Stata dispose d’une série de manuels officiels où l’on peut trouver de l’aide sur l’utilisation du logiciel et une description détaillée des commandes disponibles (voir bibliographie). Le logiciel dispose aussi d’une version abrégée de ces manuels en ligne. Ainsi, si vous souhaitez obtenir des informations sur une commande vous pouvez lancer la commande help suivi du nom de la commande : help regress Lorsque vous ignorez le nom précis de la commande, il est pratique d’utiliser la commande search (ou net search) suivie d’un mot-clé en anglais qui précise ce que l’on cherche, pour trouver des suggestions de commandes (ou des programmes Stata et sites référencés sur internet) : search regression net search regression


3

1.2. L’interface o Les fenêtres de Stata:

L’environnement informatique STATA comprend quatre fenêtres visibles en permanence:

- La fenêtre Stata Results (en haut à droite): affiche les commandes soumises et les résultats des opérations effectués par Stata.

- La fenêtre Review (en haut à gauche): récapitule les commandes soumises pendant toute la session ouverte de Stata.

- La fenêtre Variables (en bas à gauche): liste les variables de la base des données avec leur « label ».

- La fenêtre Stata Command (en bas à droite): permet de taper des commandes qui peuvent être exécutées immédiatement au moyen de la touche « Entrée ».

A ces 4 fenêtres s’ajoutent les fenêtres suivantes :

- La fenêtre Viewer : apparaît lors d’une demande d’aide ou lors de la visualisation de fichiers « log », qui enregistrent les commandes soumises et les résultats obtenus (voir plus bas).

- La fenêtre Do-file Editor : éditeur de texte de Stata. - Les fenêtres Data Editor ou Data Browser : éditeurs de données ; le premier permet

l’observation et la modification des données, et le deuxième permet seulement l’observation des données mais pas leur modification.

o La barre d’outils (Toolbar)

Elle permet de gérer facilement et rapidement les actions de base. De gauche à droite les icones représentent: ouverture d’un fichier de données Stata, sauvegarde du fichier, impression des résultats/graphiques, création/ouverture d’un fichier log, affichage de la fenêtre Viewer, affichage du dernier graphique commandé, ouverture de la fenêtre Do-file Editor , ouverture des fenêtres du Data Editor et du Data Browser, le bouton « go » qui permet d’éviter de faire de pauses au milieu de l’exécution d’une commande longue et


4

finalement un bouton pour stopper la commande en cours (si elle est trop longue ou si on a commis une erreur de programmation, par exemple).

1.3. Les fichiers Il existe 4 principaux fichiers avec des extensions spécifiques :

- les fichiers de données au format Stata (identifiés par le suffixe .dta), - les fichiers générés par l’éditeur de texte et qui contiennent les commandes (ou

programmes) nécessaires pour un traitement (identifiés par le suffixe .do), - les fichiers .ado, qui sont des procédures –fournies ou à télécharger-, c'est-à-dire de

routines écrites dans le langage Stata et qui permettent de réaliser des traitements spécifiques.

- Les fichiers qui servent à enregistrer les résultats du travail effectué dans Stata au cours d’une session (identifiés par le suffixe .log).

D’autres types de fichiers Stata à connaître:

- les fichiers d’aide en ligne (.hlp), - les graphiques (.gph) et - les fichiers texte contenant le dictionnaire des variables nécessaires pour la lecture des

données au format fixe (.dct). A son installation, Stata crée de façon automatique un répertoire appelé «ado » dans C:\, qui n’est que la bibliothèque des procédures (les .ado) qui sont mises à jour régulièrement, ayant été corrigées, homogénéisées ou complétées par le groupe industriel StataCorp (aidés par la communauté des utilisateurs). Pour assurer une bonne organisation du reste des fichiers générés par nous, il est utile de créer un ensemble structuré de répertoires. Voici un exemple de création et d’organisation des répertoires pour ce cours. Répertoire de base : P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Stata Les bases de données (ex. : la base Vietnam98.dta) sont stockées dans le répertoire : P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Stata\d ata Les programmes que nous allons développer seront stockés dans : P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Stata\d ofiles Et nos résultats (graphiques, logfiles, …) dans : P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Stata\r esults

1.4. Structure d’un programme Stata Si vous utilisez de façon répétée la même série de commandes, vous pouvez sauvegarder ces commandes dans un fichier « do-file » (.do). Pour créer un do-file ou un programme on utilise l’éditeur intégré de Stata, le Do-file Editor. Une fois les commandes saisies dans


5

l’éditeur, elles peuvent être exécutées en les sélectionnant et en utilisant l’icône de l’éditeur .do (sur la barre des menus, deuxième icône à partir de la droite, correspondant à la commande « do current file »).

Un do-file doit être clair afin de pouvoir être utilisé longtemps après sa réalisation ou par des tiers. Pour cela il est utile d’avoir en mémoire quelques bons reflexes de programmation. Voici certaines recommandations.

- Bien écrire : Indiquer la date de création du do-file ainsi que toutes les dates de révision, avec éventuellement un bref descriptif des changements apportés.

- Les commentaires : Stata traite chaque ligne qui commence par un astérisque (*) comme un commentaire. Vous pouvez écrire des commentaires de plusieurs lignes en plaçant une barre oblique et un astérisque (/*) au début de ce commentaire et un astérisque et une barre oblique à la fin (*/). - Les délimiteurs : Stata estime par défaut que chaque commande est terminée au bout d’une ligne. Si, toutefois, une commande est trop longue pour tenir sur une seule ligne, vous pouvez la répartir sur plusieurs lignes en indiquant à STATA quel sera le séparateur de commande (par exemple, le point-virgule, en écrivant la commande #delimit ;). Si vous voulez que la ligne redevienne le délimiteur de commande, il faudra ré-écrire : #delimit cr . Une alternative est d’écrire simplement 3 slashes /// en fin de ligne et de ne rien mettre en début de ligne. - Conserver les résultats : pour conserver toute la trace des résultats (et des commandes) il faut ouvrir un fichier .log au début de la session. On pourra donc cliquer sur l’icône de l’éditeur de log, soit en écrivant : log using P:\Home\...\Stata\results\exemple.log, re place

La commande log dispose de l’option replace, qui permet d’écraser un ancien fichier log du même nom, ou de l’option append, pour coller les nouvelles sorties à la fin d’un ancien fichier.

-Bien se situer : il est utile de se situer dès le départ d’une session de travail avec Stata sur le répertoire de travail que nous avons crée avant sur notre ordinateur. La commande cd (synonyme de chdir ) nous permet de changer de répertoire de travail. Pour savoir dans quel répertoire on est, il suffit de taper la commande pwd (de l’anglais « path of current working directory »).

Voici un exemple de fichier .do :

* Date: 01/08/2012


6

/* Ce dofile nous montre comment créer un fichier . log dans un fichier .do et quelques commandes de base de STATA. Afin de ren dre les programmes lisibles, il est utile de les commenter, mais atten tion : trop des commentaires peuvent nuire à la lisibilité ! */ clear capture log close cd P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Stat a #delimit ; log using P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Stata\r esults\exemple, replace; #delimit cr use P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Sta ta\data\Vietnam98.dta /* Raccourci possible : use .\data\Vietnam98.dta Car une fois qu’on a indiqué à Stata le chemin vers notre répertoire de travail (grâce à la commande « cd »), au lieu de de voir le réécrire à chaque fois, il est possible de résumer et substitu er le chemin connu du répertoire par un point */ describe list in 1/3 ; summarize hhsize su hhsize, detail bysort region: su hhsize sum hhsize eduhh [w=weight], d tabulate sexhh tabulate educhhgr sexhh, col row chi label define sexhhlbl 1 “man” 2 “woman” label values sexhh sexhhlbl label variable sexhh "Gender of head" sort totinc save .\data\exemple, replace log close

2. Gérer une base de données

2.1. Lecture et enregistrement d’une base de données La base Vietnam98.dta est stockée dans le répertoire : P:\Home\Prof\Menendez\Etud\M1\CoursStataSAS\Stata

2.1.a. Ouverture des données : la commande use

Si vous disposez de données sous format Stata (.dta) alors vous pouvez ouvrir votre base de données en saisissant la commande use dans la fenêtre Stata Command, ou dans votre dofile: use P:\Home\Prof\...\Stata\data\Vietnam98.dta

Vous pouvez éventuellement vous placer d’abord dans le répertoire choisi (avec la commande cd ) et ouvrir ensuite la base : cd P:\Home\Prof\...\Stata\data use Vietnam98.dta


7

Il faut parfois rajouter l’option clear , afin de vider les données en mémoire avant l’ouverture d’un nouveau fichier (les options en Stata sont généralement situées après les commandes et après une virgule) : use Vietnam98.dta, clear Vous pouvez également cliquer sur l’icône Open de la barre d’outils et rechercher le fichier dont vous avez besoin.

2.1.b. Importation des données : commandes insheet, infile, infix.

Stata n’est pas un logiciel de transfert de données (voir pour cela Stata/Transfer ou DBMS Copy), aussi ne peut-il que lire des fichiers des données au format Stata ou au format texte (ASCII). Plusieurs commandes sont disponibles afin d’importer des données ASCII provenant d’autres sources en fonction de leur format. - La commande insheet : lit des fichiers ASCII où il y a une seule observation par ligne et ou les variables sont séparées par des tabulations ou des virgules. La première ligne du fichier peut contenir les noms des variables. Exemple : insheet using dataTP1a.txt insheet using dataTP1b.cvs - La commande infix : sert à importer des données dans un format fixe (les variables ne sont pas délimitées par un séparateur mais occupent toujours une même position). On peut utiliser infix soit en indiquant leur position après chaque variable (et le type de variable avant): infix str5 var1 1-4 var2 6-7 var3 9-11 using dataTP 1c.txt soit en indiquant un fichier (dictionnaire de variables) où sont spécifiées les positions : infix using dicoTP1c.dct Dans ce cas, l’écriture du dictionnaire (le fichier dicoTP1.dct) a une forme particulière : infix dictionary using dataTP1c.txt {

str5 var1 1-4 var2 6-7 var3 9-11 } - La commande infile : lit des fichiers ASCII complexes où il peut y avoir plusieurs observations par ligne et où les variables sont séparées par des tabulations, des virgules ou des espaces. Elle est la commande la plus évoluée pour importer des données mais aussi la plus complexe à manipuler. Elle peut être utilisée avec ou sans dictionnaire. - Les logiciels de transfert de données : Enfin, si vous avez accès aux logiciels de transfert de données Stat/Transfer, DBMS Copy, etc., vous pouvez facilement convertir n’importe quel format des données (SAS, Excel, SPSS, Gauss, ASCII, …) en format Stata et inversement. Attention : il faut toujours vérifier que le transfert a correctement pris en compte toutes les variables de la base.


8

2.1.c. Enregistrement des données

Si vous effectuez des changements dans un fichier de données STATA ouvert et que vous souhaitez sauvegarder ces changements, vous pouvez utiliser la commande save (il faut ajouter l’option replace s’il existe déjà une base de données avec le même nom, que l’on veut remplacer par cette nouvelle base) :

save P:\Home\Prof\...\data\dataTP1.dta, replace

Si vous êtes déjà dans le bon répertoire, il suffit d'écrire :

save dataTP1.dta, replace

Attention : pour préserver les données initiales, on n’oublie pas de donner un nom différent à la base sur laquelle on va effectuer les traitements de celui de la base initiale.

2.2. Gestion des variables

2.2.a. Sélection des données

Il est possible de sélectionner des variables et des observations d’un fichier de données en utilisant les commandes keep ou drop , et à l’aide de la clause if : keep agehh totinc

drop agehh totinc

drop if hhsize>=5

keep in 1/20

2.2.b. Analyse du contenu d’un fichier

Afin de visualiser toutes les variables dans un fichier de données, utilisez la commande describe (abrégée comme des ). Pour visualiser seulement une variable ou une liste de variables, utilisez la commande describe ou codebook suivie des noms des variables. Utilisez la commande count pour connaître le nombre d’observations dans la base de données. Exemples :

des

codebook region

count

count if region==1

Pour visualiser les données effectivement enregistrées dans les variables, utilisez la commande list suivie de la liste des variables (éventuellement assortie d'un ensemble de conditions) qui vous intéressent :


9

list hhsize eduhh if (sexhh==0 & agehh<45)

Stata peut également afficher les données sous forme de feuille de calcul. Les deux icônes Data Editor (pour éditer) et Data Browser (simplement pour afficher) se trouvent dans la barre d’outils. Les commandes edit et browse permettent également d’afficher les données sous forme de feuille de calcul.

2.2.c. Générer de nouvelles variables

La commande generate (abrégé gen ) crée de nouvelles variables, tandis que la commande replace modifie les valeurs d’une variable existante : gen eduhhgr=0 if eduhh==1

replace eduhhgr=1 if eduhh>=2 & eduhh<=5

Un grand nombre de fonctions utiles peuvent être obtenues à partir des commandes generate et replace , par exemple mean(.) ou max(.) . Voir help generate . Une extension de la commande generate est egen (« extended generate », voir help egen ). Il est possible aussi de renommer et recoder des variables avec les commande rename et recode .

Pour améliorer la compréhension et la lisibilité des fichiers, il est parfois utile de joindre des labels, i.e., des intitulés, aux fichiers, aux variables et aux modalités des variables. On utilise alors la commande label . - Pour assigner un label à l’ensemble d'un fichiers de données : label data “Enquete Vietnam, 1998”

- Pour assigner un label aux variables : label variable eduhhgr “Education level of head”

- Pour assigner des labels aux modalités d’une variable "catégorielle", il faut, tout d’abord, définir les valeurs du label, puis assigner ce label à la ou aux variables. label define sexlbl 0 "Woman" 1 "Man"

label values sexhh sexlbl

- Pour rendre les labels encore plus explicites en rajoutant le code de la variable au label, une fois les labels definis par la commande label define, tapez : numlabel sexhhlbl, add - Pour visualiser les labels, tapez : label list

- Pour supprimer un label, tapez: label drop sexhhlbl


10

2.3. Gestion de plusieurs bases Dans l’analyse des données il faut souvent réunir et combiner différents fichiers de données. Stata dispose d’une série de commandes, selon le type de combinaison souhaitée.

2.3.a. Réorganisation des bases

Il est généralement nécessaire de réorganiser les variables et les observations des différentes bases de données avant de les combiner. Stata permet de le faire à l’aide des commandes suivantes : - Les commandes order / aorder / move : permettent de trier les variables de la base de données. La commande order est suivie de la liste de variables à ordonner. La commande aorder réorganise toutes les variables (ou bien uniquement celles citées après la commande) par ordre alphabétique. La commande move intervertit la place dans le fichier des deux variables citées. Exemples : order country year urban region aorder move popw hhsize - Les commandes sort / gsort : permettent de trier les observations de la base de données. La commande sort classe les variables par ordre ascendant, c'est-à-dire, du plus petit au plus grand (les valeurs manquantes étant placées à la fin pour les variables numériques et au début pour les variables de type chaîne). La commande gsort permet de trier les variables bien par ordre ascendant (nom de la variable précédé du signe +) bien par ordre descendant (nom de la variable précédé du signe - ). Exemples : sort idh region gsort –agehh +eduhh

2.3.b. Concaténation (append)

La commande append permet d’ajouter des observations à la fin d’un fichier en mémoire (concaténation). Les variables doivent avoir le même nom dans les différents fichiers pour un empilage parfait. Exemple : use “VNM_yc_urb.dta” append using “VNM_yc_rur.dta” NB: dans cet exemple, si la variable permettant une distinction des données urbaines et rurales n’avait pas été disponible dans les fichiers avant la concaténation, et cette information est à retenir dans notre analyse, le premier soin est de créer cette variable avec le même nom et des codes différents dans les deux fichiers à réunir.


11

2.3.c. Appariement (merge)

La commande merge permet d’ajouter des variables, c'est-à-dire, de faire de jointures de fichiers selon un mot clé ou identifiant d’appariement commune aux deux fichiers, qui peut être une variable ou liste de variables de la base de données. Par exemple, vous avez deux fichiers pour les mêmes ménages, l’un avec des informations sur les caractéristiques démographiques des ménages, l’autre avec des données de revenus et consommation. Il est indispensable que les deux fichiers appariés (le fichier master ou base principale et le fichier using ou base ajoutée) soient ordonnés selon l’identifiant choisi et ne pas oublier de préciser cet identifiant dans la commande merge . Exemple : * Notre identifiant est la variable du code du ménage : idh use VNM_demog.dta sort idh save VNM_demog.dta, replace use VNM_yc_rur.dta sort idh merge 1:1 idh using VNM_demog.dta tab _merge NB: la commande merge crée la variable _merge, qui permet d’évaluer si l’appariement a été réalisé correctement. Il faut toujours vérifier que l’opération d’appariement s’est bien déroulée à l’aide des commandes telles que codebook (section 2.2.b) ou tabulate (section 4 plus bas). La variable _merge prendra les valeurs :

1- pour les observations de la base principale non retrouvées dans la base ajoutée. 2- pour les observations de la base ajoutée non retrouvées dans la base principale. 3- pour les observations retrouvées dans les deux bases et parfaitement appariées.

2.3.d. Transformation (collapse)

La commande collapse transforme la base de données en mémoire en statistiques essentielles sur celle-ci (sommes, moyennes, médianes, etc.). Exemple : collapse (mean) totinc totcons, by(region urban) collapse (mean) totinc, by(eduhh urban) cw NB1 : la commande collapse traite les observations manquantes comme des zéros dans le calcul des statistiques. L’inclusion de l’option cw (d’après « casewise deletion ») permet de ne pas utiliser ces données manquantes. Mais il est donc préférable de toujours s’assurer du nombre d’observations réellement utilisés dans le calcul des moyennes. NB2: la commande collapse remplace les données en mémoire. Il faut donc bien vérifier que le fichier de données utilisé jusqu’à cette commande a bien été sauvegardé avant.

2.3.e. Transposition (reshape)


12

La commande reshape permet de transformer un fichier organisé en colonnes (format « long ») en fichier organisé en lignes (format « wide » ou large) et vice-versa. Exemple :

Données format « long » Urban eduhh Totinc

Urban no education 1660.313

Rural no education 940.5851

Urban Primary 2175.329

Rural Primary 1095.858

Urban Secondary 2454.21

Rural Secondary 1174.587

Urban vocational 1842.458

Rural vocational 1020.062

Urban Higher 2607.869

Rural Higher 1039.866

Données format « wide » ou large

Eduhh totinc1 totinc2

no education 1660.313 940.5851

primary 2175.329 1095.858

secondary 2454.21 1174.587

vocational 1842.458 1020.062

higher 2607.869 1039.866

Et les commandes utilisées pour passer de l’un à l’autre : reshape wide totinc, i(eduhh) j(urban) (pour passer du wide au long) reshape long totinc, i(eduhh) j(urban) (pour passer du long au wide) NB : les labels des valeurs des variables se perdent au passage d’un format à l’autre (dans notre exemple, urban correspond à la valeur 1 et rural à 2).

3. Eléments de programmation

3.1. Opérateurs dans STATA

Liste des opérateurs relationnels et logiques utilisés dans STATA :

Arithmétiques Logiques Relationnels

(Numériques et chaînes)

+ addition ~ non, n’est pas > supérieur à

- soustraction ! non, n’est pas < inférieur à

* multiplication | ou == égal à

/ division & et >= supérieur ou égal à

^ puissance <= inférieur ou égal à


13

!= différent de

+ concaténation de chaînes (string concatenation)

~= différent de

3.2. Quelques bases de programmation Si un dofile peut être considéré comme un long programme, il est parfois utile à l’intérieur d’un dofile d’utiliser un programme pour effectuer une procédure répétitive en économisant des lignes de programmes. Stata dispose déjà d’une série de procédures (les .ado), mais nous pouvons créer nos propres programmes (en modifiant des adofiles déjà existants ou en créant des nouveaux) pour effectuer certaines taches.

4. Statistiques descriptives

4.1. Synthèse des données et statistiques descriptives o Commande summarize :

Cette commande summarize (abrégée comme sum ou su ), calcule et affiche certaines statistiques de synthèse, comme les moyennes et les écarts types. Exemple : sum hhsize

Pour obtenir les médianes et les centiles d’une variable, il faut ajouter l’option detail (abrégée par d) . Exemple : sum hhsize, d

Si on veut connaître ces informations en fonction d’une autre variable "catégorielle", il est possible d'utiliser l’option by (les données doivent avoir été préalablement ordonnées avec la commande sort , sinon il faut utiliser directement l’option bysort ). Exemple : sort urban by urban : sum hhsize, d ou directement, bysort urban : sum hhsize, d FENETRE RESULTS: . sum hhsize Variable | Obs Mean Std. Dev. Min Max -------------+------------------------------------- ------------------- hhsize | 5968 4.624832 1.943608 1 18 . sum hhsize, d Household size --------------------------------------------------- ---------- Percentiles Smallest 1% 1 1 5% 2 1


14

10% 2 1 Obs 5968 25% 3 1 Sum of Wgt. 5968 50% 4 Mean 4.624832 Largest Std. Dev. 1.943608 75% 6 14 90% 7 14 Variance 3.77761 95% 8 16 Skewness .6814886 99% 10 18 Kurtosis 4.40378 . bysort urban : sum hhsize, d --------------------------------------------------- ------------------------------------------ -> urban = urban Household size --------------------------------------------------- ---------- Percentiles Smallest 1% 1 1 5% 2 1 10% 2 1 Obs 1711 25% 3 1 Sum of Wgt. 1711 50% 4 Mean 4.383402 Largest Std. Dev. 1.935282 75% 5 13 90% 7 14 Variance 3.745315 95% 8 16 Skewness 1.163849 99% 10 18 Kurtosis 6.581378 --------------------------------------------------- -------------------------------------------> urban = rural Household size --------------------------------------------------- ---------- Percentiles Smallest 1% 1 1 5% 2 1 10% 2 1 Obs 4257 25% 3 1 Sum of Wgt. 4257 50% 5 Mean 4.72187 Largest Std. Dev. 1.938717 75% 6 13 90% 7 14 Variance 3.758622 95% 8 14 Skewness .4977546 99% 10 14 Kurtosis 3.692073

La synthèse complète de la commande summarize est (tapez help summarize ) : [bysort varlist: ] summarize [varlist] [weight] [if exp] [in range] [, [detail|meanonly] format separator(#)

o Commandes tabulate et table :

Pour les variables "catégorielles", il faut utiliser la commande tabulate (abrégée en tab ). Exemples : tab urban

tab eduhh if urban==1

La commande tabulate est aussi utilisée pour créer un tableau à double entrée. Exemples : tab eduhh sexhh

tab eduhh sexhh, row ou col (si l’on souhaite visualiser les pourcentages par lignes ou par colonnes).


15

L’autre commande très utile est table , qui associe les fonctions des commandes sum et tab . En outre, elle permet d'afficher les résultats sous une présentation claire (voir help table ).

Exemple :

table urban, c(mean hhsize mean totinc)

FENETRE RESULTS: . tab urban Urban/Rural | dummy | Freq. Percent Cum. ------------+----------------------------------- urban | 1,711 28.67 28.67 rural | 4,257 71.33 100.00 ------------+----------------------------------- Total | 5,968 100.00 . tab sexhh urban Gender of | Urban/Rural dummy hh head | urban rural | Total -----------+----------------------+---------- male | 1,008 3,222 | 4,230 female | 703 1,035 | 1,738 -----------+----------------------+---------- Total | 1,711 4,257 | 5,968 . tab sexhh urban, row +----------------+ | Key | |----------------| | frequency | | row percentage | +----------------+ Gender of | Urban/Rural dummy hh head | urban rural | Total -----------+----------------------+---------- male | 1,008 3,222 | 4,230 | 23.83 76.17 | 100.00 -----------+----------------------+---------- female | 703 1,035 | 1,738 | 40.45 59.55 | 100.00 -----------+----------------------+---------- Total | 1,711 4,257 | 5,968 | 28.67 71.33 | 100.00 . table urban, c(mean hhsize mean totinc) -------------------------------------- Urban/Rur | al dummy | mean(hhsize) mean(totinc) ----------+--------------------------- urban | 4.38 1958.557 rural | 4.72 1024.507 --------------------------------------

4.2. Corrélations et tests de comparaison o Commandes correlate et pwcorr :


16

La commande correlate (abregée en corr ) permet d’obtenir le coefficient de corrélation (ou la covariance, avec l’option cov après virgule) entre deux ou plus variables. Ainsi : corr totinc totcons corr totinc totcons, covariance FENETRE RESULTS : . corr totinc totcons (obs=5968) | totinc totcons -------------+------------------ totinc | 1.0000 totcons | 0.4704 1.0000 . corr totinc totcons, cov (obs=5968) | totinc totcons -------------+------------------ totinc | 4.8e+06 totcons | 1.1e+06 1.1e+06

La commande pwcorr permet de faire de tests de significativité des coefficients de correlation et de n’afficher que les coefficients significatifs à un certain niveau indiqué par nous. L’hypothèse testée est H0 : {absence de corrélation}. Exemple : pwcorr hhsize totinc totcons agehh, star(0.01) prin t(0.05) Dans cet exemple Stata affichera les corrélations significatives au seuil de 5% et marquera avec une étoile celles significatives au seuil de 1%. FENETRE RESULTS: . pwcorr hhsize totinc totcons agehh, star(0.01) pr int(0.05) | hhsize totinc totcons agehh -------------+------------------------------------ hhsize | 1.0000 totinc | 0.1483* 1.0000 totcons | 0.2513* 0.4704* 1.0000 agehh | -0.0851* 1.0000

o Commandes ttest et sdtest :

La commande ttest permet de faire un test d’égalité de moyennes et la commande sdtest un test d’égalité de variances (écart types). Les hypothèses testées sont H0 : {la différence des moyennes -ou écart types- de chaque groupe d’une variable es nulle}. Exemples : ttest totinc, by(urban) sdtest totinc, by(urban) FENETRE RESULTS: . ttest totinc, by(urban)


17

Two-sample t test with equal variances --------------------------------------------------- --------------------------- Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+----------------------------------------- --------------------------- urban | 1711 1958.557 86.19206 3565. 269 1789.504 2127.61 rural | 4257 1024.507 17.84908 1164. 576 989.5138 1059.501 ---------+----------------------------------------- --------------------------- combined | 5968 1292.295 28.32601 2188. 264 1236.766 1347.825 ---------+----------------------------------------- --------------------------- diff | 934.0495 61.46487 813.5561 1054.543 --------------------------------------------------- --------------------------- diff = mean(urban) - mean(rural) t = 15.1965 Ho: diff = 0 de grees of freedom = 5966 Ha: diff < 0 Ha: diff != 0 Ha: diff > 0 Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 0.0000 . sdtest totinc, by(urban) Variance ratio test --------------------------------------------------- --------------------------- Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+----------------------------------------- --------------------------- urban | 1711 1958.557 86.19206 3565. 269 1789.504 2127.61 rural | 4257 1024.507 17.84908 1164. 576 989.5138 1059.501 ---------+----------------------------------------- --------------------------- combined | 5968 1292.295 28.32601 2188. 264 1236.766 1347.825 --------------------------------------------------- --------------------------- ratio = sd(urban) / sd(rural) f = 9.3724 Ho: ratio = 1 degr ees of freedom = 1710, 4256 Ha: ratio < 1 Ha: ratio != 1 Ha: ratio > 1 Pr(F < f) = 1.0000 2*Pr(F > f) = 0.0000 Pr(F > f) = 0.0000

4.3. Graphiques Les graphiques avec le logiciel Stata peuvent se faire : (i) de façon interactive, en utilisant le menu déroulant correspondant en haut de l’écran ou (ii) en écrivant les instructions nécessaires pour leur création dans une ligne de commande. Cette deuxième option, une fois maitrisée est plus pratique et plus rapide, car elle permet plus facilement la réplication des différents graphiques sur de nouvelles variables ainsi que les modifications à la marge des graphiques obtenus. Toutefois, il y a une telle multitude de commandes et d’options pour présenter de graphiques, que nous allons ici seulement les décrire de façon très sommaire. Tout d’abord, il faut distinguer entre les représentations graphiques d’une seule variable et pour lesquelles on utilise la commande graph , et celles mettant en relation deux (ou plus) variables dont la ligne de commande commence par le mot twoway . La syntaxe générale de tout graphique sera : graph type_graphe Y, options pour un graphique unidimensionnel twoway type_graphe Y1 X, options pour un graphique bi-dimensionnel Les options incluses à la fin de la commande après la virgule ( title(), ytitle(), xtitle(), legend(), note(), xlabel(), ylabel(), … ) nous permettent d’organiser et d’embellir les représentations de base (voir help graph ).

4.3.a. Graphiques unidimensionnels (graph)


18

- Les diagrammes en secteurs ou « camemberts » (commande pie ) : pour représenter des variables qualitatives nominales. Exemple :

. graph pie, over(sexhh) title(Population par sexe du chef de ménage) plabel(_all percent, size(*1.5) color(white))

- Les diagrammes en « tuyaux d’orgues » (commandes graph bar , graph hbar ,

histogram ) : pour représenter des variables qualitatives ordinales. Exemple :

. graph bar (count) idh, over(eduhh) blabel(bar) title(Effectifs par niveau d'education du chef de m enage)

. histogram eduhh, discrete percent fcolor(navy) ga p(16) addlabel xlabel(, labels valuelabel) title(Distribu tion par

niveau d'education du chef de menage)

- Les diagrammes bâtons (commandes graph bar , graph hbar , histogram ) : pour représenter des variables quantitatives discrètes. Exemple :

70.88%

29.12%

male female

Population par sexe du chef de ménage

1947

701

450

335

205

050

01,

000

1,50

02,

000

coun

t of i

dh

no education primary secondary vocational higher

Effectifs par niveau d'education du chef de menage

53.52

19.27

12.379.208

5.635

020

40

60

Pe

rcen

t

0 no education primary secondary vocational higherEducation of hh head

Distribution par niveau d'education du chef de menage


19

. graph bar (count) idh, over(hhsizegr, gap(800)) blabel(bar) title(Effectifs par taille du menage)

. histogram hhsizegr, discrete percent fcolor(navy) gap(90) addlabel xlabel(#6, labels valuelabel) title(Distribution par taille du menage)

- Les histogrammes (commande histogram , abregée hist ) : pour représenter des variables quantitatives continues. Exemples :

. hist totcons, kdensity title(Distribution de la consommation du menage)

4.3.b. Graphiques bi-dimensionnels (twoway)

Les nuages de points : ce type de plot est le graphique de base pour la représentation de deux variables continues. La commande de base sous Stata est :

twoway scatter Y X

227

561

819

1401

1284

1676

05

001

,00

01

,50

02

,00

0co

unt

of i

dh

1 2 3 4 5 6 ou plus

Effectifs par taille du menage

3.804

9.4

13.72

23.48

21.51

28.08

010

2030

Per

cent

0 1 2 3 4 5 6 et plushhsizegr

Distribution par taille du menage

02.

0e-0

44.

0e-0

46.

0e-0

48.

0e-0

4D

ensi

ty

0 5000 10000 15000 20000household consumption

Distribution de la consommation du menage


20

où Y est la variable à représenter en ordonnées et X celle à représenter en abscisses.

. twoway (scatter totinc totcons) (lfit totinc tot cons), title(Nuage de points: revenu vs consommation)

Des options sont disponibles si on veut représenter, par exemple, non plus des points mais une courbe qui relie ces points (utile lorsque seule une observation de Y est disponible pour chaque valeur de la variable X). Exemples : twoway line Y X, sort twoway connect Y X, sort Il est aussi possible de représenter plusieurs courbes sur un même graphique. Par exemple, si on veut représenter Y1 vs X et Y2 vs le même axe X, on écrira : twoway (line Y1 X) (line(Y2 X)

4.3.c. Sauvegarde des graphiques

Pour sauvegarder un graphique après l’avoir créé on utilisera soit l’interface graphique, soit les commandes : graph save Nom, replace Le graphique sera sauvegardé au format Stata .gph graph export Nom.ext, replace Le graphique sera sauvegardé au format indiqué par l’extension .ext. Si le graphique est destiné à apparaître dans un document Microsoft word, il est préférable de l’enregistrer au format .wmf ou au format .pdf.

5. Econométrie

5.1. Régression linéaire On cherche à estimer le vecteur de paramètres β dans l’équation suivante :

εβ += Xy

-100

000

-500

000

500

00

0 5000 10000 15000 20000household consumption

household income Fitted values

Nuage de points: revenu vs consommation


21

où y est le vecteur des observations de la variable à expliquer, X la matrice de variables explicatives (x1, x2, … xp) et ε un vecteur d’aléas ou résidus.

5.1.a. La commande regress

La commande regress (abrégée en reg ) permet d’estimer un modèle linéaire par la méthode des moindres carrés ordinaires (MCO). La syntaxe de la commande regress est telle que la variable à expliquer est donnée après la commande et les variables explicatives sont indiquées à la suite. Exemple : regress totcons totinc agehh hhsize FENETRE RESULTS: . regress totcons totinc agehh hhsize Source | SS df MS Number of obs = 5968 -------------+------------------------------ F( 3, 5964) = 683.19 Model | 1.6033e+09 3 534448953 Prob > F = 0.0000 Residual | 4.6656e+09 5964 782286.961 R-squared = 0.2558 -------------+------------------------------ Adj R-squared = 0.2554 Total | 6.2689e+09 5967 1050595.99 Root MSE = 884.47 --------------------------------------------------- --------------------------- totcons | Coef. Std. Err. t P>| t| [95% Conf. Interval] -------------+------------------------------------- --------------------------- totinc | .2072075 .0052916 39.16 0.0 00 .196834 .217581 agehh | 38.00879 14.8112 2.57 0.0 10 8.973479 67.0441 hhsize | 99.2231 5.979392 16.59 0.0 00 87.50132 110.9449 _cons | 338.4092 53.34313 6.34 0.0 00 233.8373 442.981 --------------------------------------------------- ---------------------------

5.1.b. La création des variables indicatrices

Dans une régression en Stata, les variables qualitatives doivent être préalablement transformées en variables indicatrices (dummy variables en anglais). Pour effectuer cette transformation il y trois méthodes possibles sous Stata : - Avec les commandes generate et replace , à la main. Exemple : gen agehh1=0 replace agehh1=1 if agehh==1 gen agehh2=0 replace agehh2=1 if agehh==2 gen agehh3=0 replace agehh3=1 if agehh==3 gen agehh4=0 replace agehh4=1 if agehh==4

- Avec la commande tabulate , suivie de l’option gen . Exemple : tab region, gen(reg)

- Automatiquement au moment de la régression avec le préfix xi . Exemple :


22

xi: regress totcons totinc i.agehh hhsize FENETRE RESULTS: . xi: regress totcons totinc i.agehh hhsize i.agehh _Iagehh_1-4 (naturally co ded; _Iagehh_1 omitted) Source | SS df MS Number of obs = 5968 -------------+------------------------------ F( 5, 5962) = 418.16 Model | 1.6276e+09 5 325529985 Prob > F = 0.0000 Residual | 4.6413e+09 5962 778473.058 R-squared = 0.2596 -------------+------------------------------ Adj R-squared = 0.2590 Total | 6.2689e+09 5967 1050595.99 Root MSE = 882.31 --------------------------------------------------- --------------------------- totcons | Coef. Std. Err. t P>| t| [95% Conf. Interval] -------------+------------------------------------- --------------------------- totinc | .206196 .0052819 39.04 0.0 00 .1958416 .2165503 _Iagehh_2 | 130.0495 88.24568 1.47 0.1 41 -42.94399 303.0429 _Iagehh_3 | 274.3446 87.96982 3.12 0.0 02 101.8919 446.7973 _Iagehh_4 | 161.8748 89.22405 1.81 0.0 70 -13.03666 336.7862 hhsize | 93.32891 6.072769 15.37 0.0 00 81.42408 105.2337 _cons | 278.9191 88.13267 3.16 0.0 02 106.1472 451.6911 --------------------------------------------------- ---------------------------

5.1.c. Commandes de post-estimation

Il est possible de récupérer les valeurs prédites et les résidus d’une régression en utilisant la commande predict après le lancement d’une régression. Exemple : xi: regress totcons totinc i.agehh hhsize predict consohat predict consoresid, resid Il est aussi possible d’effectuer des tests de coefficients après l’estimation de la regression xi: regress totcons totinc i.agehh hhsize test totinc=0 test _Iagehh_2 = _Iagehh_3

5.2. Modélisation des variables qualitatives dichotomiques (logit et probit) Si l’on dispose d’une variable binaire (qui prend les valeurs 0 et 1) et que l’on veut expliquer ses réalisations par une série de variables, Stata dispose de commandes spécifiques pour l’estimation par maximum de vraisemblance des modèles logit et probit. Mise à part des coefficients différents, les modèles logit et probit donnent les mêmes résultats en termes de significativité des paramètres estimés et en termes de prédiction. Exemples :

gen wagewk=0 replace wagewk=1 if ocuhh==3 xi: logit wagewk i.urban i.eduhh i.agehh xi: probit wagewk i.urban i.eduhh i.agehh


23

(on utilise ici le préfix de commande xi , mais on pourrait aussi dichotomiser les variables qualitatives discrètes ou quantitatives ordinales groupées avec la commande tabulate ) FENETRE RESULTS : . xi: logit wagewk i.urban i.eduhh i.agehh i.urban _Iurban_1-2 (naturally co ded; _Iurban_1 omitted) i.eduhh _Ieduhh_1-5 (naturally co ded; _Ieduhh_1 omitted) i.agehh _Iagehh_1-4 (naturally co ded; _Iagehh_1 omitted) Iteration 0: log likelihood = -2403.5515 Iteration 1: log likelihood = -2154.9408 Iteration 2: log likelihood = -2152.7006 Iteration 3: log likelihood = -2152.6983 Logistic regression N umber of obs = 3638 L R chi2(8) = 501.71 P rob > chi2 = 0.0000 Log likelihood = -2152.6983 P seudo R2 = 0.1044 --------------------------------------------------- --------------------------- wagewk | Coef. Std. Err. z P>| z| [95% Conf. Interval] -------------+------------------------------------- --------------------------- _Iurban_2 | -1.034229 .082948 -12.47 0.0 00 -1.196804 -.8716544 _Ieduhh_2 | -.3389062 .1029163 -3.29 0.0 01 -.5406185 -.1371939 _Ieduhh_3 | .3080292 .1220292 2.52 0.0 12 .0688564 .547202 _Ieduhh_4 | .428798 .1317354 3.25 0.0 01 .1706013 .6869946 _Ieduhh_5 | 1.464484 .1785387 8.20 0.0 00 1.114554 1.814413 _Iagehh_2 | -.478753 .3269252 -1.46 0.1 43 -1.119515 .1620086 _Iagehh_3 | -.4460626 .3229714 -1.38 0.1 67 -1.079075 .1869496 _Iagehh_4 | .6156379 .323699 1.90 0.0 57 -.0188003 1.250076 _cons | .1948308 .3268723 0.60 0.5 51 -.4458272 .8354888 --------------------------------------------------- --------------------------- . xi: probit wagewk i.urban i.eduhh i.agehh i.urban _Iurban_1-2 (naturally co ded; _Iurban_1 omitted) i.eduhh _Ieduhh_1-5 (naturally co ded; _Ieduhh_1 omitted) i.agehh _Iagehh_1-4 (naturally co ded; _Iagehh_1 omitted) Iteration 0: log likelihood = -2403.5515 Iteration 1: log likelihood = -2154.1152 Iteration 2: log likelihood = -2152.3443 Iteration 3: log likelihood = -2152.3438 Probit regression N umber of obs = 3638 L R chi2(8) = 502.42 P rob > chi2 = 0.0000 Log likelihood = -2152.3438 P seudo R2 = 0.1045 --------------------------------------------------- --------------------------- wagewk | Coef. Std. Err. z P>| z| [95% Conf. Interval] -------------+------------------------------------- --------------------------- _Iurban_2 | -.632264 .050468 -12.53 0.0 00 -.7311794 -.5333486 _Ieduhh_2 | -.1982264 .0608276 -3.26 0.0 01 -.3174464 -.0790065 _Ieduhh_3 | .1861652 .073739 2.52 0.0 12 .0416394 .330691 _Ieduhh_4 | .2601348 .0805621 3.23 0.0 01 .1022359 .4180336 _Ieduhh_5 | .8958218 .1063479 8.42 0.0 00 .6873838 1.10426 _Iagehh_2 | -.2828481 .1977141 -1.43 0.1 53 -.6703607 .1046644 _Iagehh_3 | -.2660231 .1954462 -1.36 0.1 73 -.6490907 .1170444 _Iagehh_4 | .3789974 .1962227 1.93 0.0 53 -.005592 .7635867 _cons | .1113511 .1980834 0.56 0.5 74 -.2768851 .4995873 --------------------------------------------------- ---------------------------

6. Bibliographie Cahuzac E. et Bontemps C. (2008), Stata par la pratique : statistiques, graphiques et élements de programmation. College Station, TX : Stata Press.


24

Mitchell M.N. (2008), A Visual Guide to Stata Graphics (Second Edition). College Station, TX : Stata Press. StataCorp (2007), Getting Started with Stata for Windows. College Station, TX : Stata Press. ________ (2007), Stata User’s Guide. College Station, TX : Stata Press. ________ (2007), Stata Base Reference Manual. College Station, TX : Stata Press. ________ (2007), Stata Multivariate Statistics Reference Manual. College Station, TX : Stata Press.


25

7. Annexe

7.1. Présentation de la base Vietnam98.dta Données provenant de l’Enquête de 1997-1998 sur les niveaux de vie au Vietnam (Vietnam Living Standard Survey).

Idh Numéro d’identification du ménage Régions du Vietnam

Wgt Poids du ménage dans l’échantillon Hhsize Taille du ménage (rang : de 1 à 18) Popw Pondération (compte tenue du poids du ménage

dans l’échantillon et de la taille du ménage) Urban Code zone urbaine/rurale (1- urbaine / 2- rurale) Region Code région

1 Nord-Est (Northern Uplands) 2 Delta du fleuve Rouge (Red River Delta) 3 Centre-Nord (North Central) 4 Région littorale du Centre (Central Coast) 5 Hauts-plateaux du Centre (Central

Highlands) 6 Région du Nam Bo oriental (Southeast) 7 Delta du Mékong (Mekong River Delta)

Sexhh Sexe du chef de famille (1-homme / 2-femme) Ocuhh Occupation du chef de famille

1. Travailleur indépendant agricole 2. Travailleur indépendant non agricole 3. Travailleur salarié

Agehh Age du chef de famille (années) 1. Jusqu’à 25 2. ]25, 40] 3. ]40, 60] 4. plus de 60

Eduhh Niveau d’éducation du chef de famille 1. Aucune (‘no education’) 2. Primaire (‘primary’) 3. Secondaire (‘secondary’) 4. Secondaire technique et professionnel

(‘vocational’) 5. Universitaire (‘higher’)

Totcons Consommation total du ménage (en milliers de dongs)

Totinc Revenu total du ménage (en milliers de dongs)

Stata 2

Documents

Transcript of Stata 2