Post on 03-Apr-2015
1
Équipe chargée du projet sur l’ÉR-RDAPS Division de la recherche et de l’innovation
statistiqueStatistique Canada, Ottawa
(Pour présentation à l’Atelier du GTIMT du FMMT, le17 oct. 2007, à Vancouver, C.-B.)
Estimations régionales par Statistique Canada
Produit : BUPF 1.0 (Best Unbiased Prediction via Filtering)
2
Projet : ÉR-RDAPS (Évaluation régionale dans le cadre de
la R et D axée sur les produits statistiques)
Équipe : Avi Singh (chef de projet)François VerretClaude NadeauPin Yuan
Remerciements : Fonds global de financement de la recherche, Dir. de
la méth, Div. de la statis. du travail, GTIMT du FMMT
3
Aperçu
1. ÉR : Introduction
2. ÉR : Description visuelle
3. BUPF : Description
4. Application du BUPF à l’Enquête sur la population active (EPA)
5. Démonstration du BUPF (échantillons d’instantanés d’écran)
6. Mot de la fin et travaux à venir
4
1. ÉR : Introduction
Les évaluations directes des petites régions (ou domaines) ne sont pas fiables; p. ex., pour les provinces, les estimations annuelles tirées de l’EPA concernant les gestionnaires du secteur de la fabrication et des services publics (code de profession à trois caractères A39) ne sont pas fiables. Dans ce cas, les provinces pourraient être considérées comme de petites régions.
Besoins de données : Estimations provinciales de l’emploi par code de profession à trois caractères
5
Tableau 1 – Total mensuel des personnes employées (A39)(Moyenne annuelle tirée de l’EPA de 2003)
Prov.
Taille de la
population
Taille de l’échantill
on
Estimation directe
É-T CV en %
TNL 429 298 3 978 670 177 26,4
ÎPE 109 886 2 769 233 55 23,5
NE 758 549 5 858 1 532 292 19,0
NB 607 565 5 624 1 275 218 17,1
Qc 6 059 655 18 234 25 273 2 204 8,7
ONT. 9 766 566 30 373 42 447 3 178 7,5
MAN. 876 396 7 117 3 023 432 14,3
SASK. 744 431 7 295 1 963 339 17,3
ALB. 2 467 412 10 317 7 643 1 098 14,4
CB 3 346 181 9 636 8 676 1 228 14,2
Canada 25 165 939 101 201 92 734 4 260 4,6
6
1. ÉR : Introduction …suite
Besoin de plus d’échantillons pour obtenir des estimations plus fiables
Solution de remplacement rentable – utiliser un modèle comme le modèle commun de la moyenne; p.ex., la proportion de personnes employées dans la catégorie A39 est commune à toutes les provinces
La qualité des estimations dépend de la validité du modèle.
7
1. ÉR : Introduction …suite
Le modèle fournit une estimation indirecte (ou synthétique) au niveau de la région.
Pour le modèle commun de la moyenne, multipliez le total national par la proportion de la population provinciale pour obtenir l’estimation indirecte, p. ex. pour TNL
1,7 % fois 92 734 = 1 582
8
Tableau 2 Estimations directes et indirectes (selon un modèle très simplifié) concernant les A39 (Moyenne
annuelle tirée de l’EPA de 2003)
Prov.
Portion de la
population
Taille de
l’échan-tillon
Estima-tion
directeÉR
Estima-tion
indirecte
Taille de
l’échan-tillon
TNL 1,7 % 3 978 670 1 582 101 201
ÎPE 0,4 % 2 769 233 405 101 201
NE 3,0 % 5 858 1 532 2 795 101 201
NB 2,4 % 5 624 1 275 2 239 101 201
Qc 24,1 % 18 234 25 273 22 329 101 201
ONT. 38,8 % 30 373 42 447 35 989 101 201
MAN. 3,5 % 7 117 3 023 3 229 101 201
SASK. 3,0 % 7 295 1 963 2 743 101 201
ALB 9,8 % 10 317 7 643 9 092 101 201
BC 13.3% 9 636 8 676 12 330 101 201
Canada 100,0 % 101 201 92 734 92 734 101 201
9
1. ÉR : Introduction …suite
La combinaison de deux estimations (directes et indirectes) peut fournir une estimation raisonnable ayant une précision adéquate selon le niveau d’estimation appliqué à la petite région.
L’estimation directe n’est pas précise, mais elle n’est pas gauchie, tandis que l’estimation indirecte est habituellement précise, mais peut être gauchie.
10
1. ÉR : Introduction …suite
L’ÉR combine les estimations directes et indirectes de façon optimale :
ÉR pour une région d = (facteur de retrait pour d) x (estimation directe pour d) +
(1- facteur de retrait pour d) x (estimation indirecte
pour d)
Si le facteur de retrait est de 10 %, alors on utilise
10 % de l’estimation directe et 90 % de l’estimation indirecte pour l’ÉR. S’il est de 50 %, alors les deux estimations, directe et indirecte, contribuent de façon égale à l’ÉR.
11
1. ÉR : Introduction …suite
La taille relative du facteur de retrait dépend de la variabilité de l’erreur de modélisation (dans l’estimation indirecte) et de celle de l’erreur d’échantillonnage (dans l’estimation directe).
Pour l’ÉR, la taille d’échantillon efficace est supérieure à celle que l’on utilise pour l’estimation directe.
12
1 : ÉR : Introduction (Exigences de la modélisation)
Aux fins de la modélisation, on a besoin d’estimations directes provenant d’autres petites régions (appelées données indirectes), c.-à-d. pour obtenir une estimation pour la région d’intérêt.
Pour une modélisation adéquate, on a besoin de suffisamment de petites régions. On subdivise les provinces en sous-régions provinciales :• En régions économiques (RE) ou RE selon l’âge et le sexe plutôt
que par province, bien que le niveau d’intérêt soit celui de la province.
13
1 : ÉR : Introduction (Exigences de la modélisation)
Il est avantageux d’avoir une source d’information auxiliaire (administrative / recensement); pour toutes les régions, on a besoin de totaux réels pour la population au niveau d’estimation de la région.
L’utilisation d’une source auxiliaire peut améliorer la modélisation faite à l’aide de données indirectes.
14
1. ÉR : Introduction (Exigences de la modélisation…suite)
Exemples d’information auxiliaire pour l’application de l’EPA
Sources administratives• Nombre de demandes de prestations d’assurance-emploi au
niveau de la région
• Nombre de personnes ayant un revenu d’emploi
Projections démographiques fondées sur le recensement de la population• Dénombrements par sous-population
15
1. ÉR : Introduction (Exigences de la modélisation)
Le facteur de prédiction du modèle, qui est basé sur des données indirectes et des données auxiliaires, fournit une estimation indirecte pour la région d’intérêt.
Le modèle peut être aussi simple que le modèle commun de la moyenne, qui n’utilise aucune donnée auxiliaire ou qui ne peut pas être avancé.
16
1. ÉR : Introduction (Exigences de la modélisation)
Toutes les estimations indirectes sont gauchies, mais le gauchissement peut être faible si le modèle est bon.
La combinaison d’estimations directes avec des estimations indirectes produit des estimations plus précises que les seules estimations directes ou indirectes.
L’étalonnage (lorsque la somme de toutes les estimations pour les petites régions comprises dans un sous-groupe de régions est égale à l’estimation directe du sous-groupe) aide à réduire le gauchissement du modèle.
17
1. ÉR : Introduction (Préoccupations des utilisateurs)
Les besoins de données détaillées au niveau de la région peuvent varier d’un utilisateur à l’autre.
Cependant, on ne peut pas aller jusqu’à un niveau très bas pour deux raisons : la précision des ÉR ne sera peut-être pas suffisante, et on ne disposera peut-être pas de données auxiliaires.
Les préoccupations au sujet du gauchissement sont dues à l’utilisation d’estimations indirectes servant à emprunter de l’information; les modèles ne sont peut-être ne pas être parfaits, mais un modèle choisi avec soin peut être utile.
La méthodologie de l’ÉR fait appel à un compromis entre le gauchissement et la précision.
18
1. ÉR : Introduction (Préoccupations des utilisateurs…
suite)
On peut procéder périodiquement à une validation externe de l’ÉR à l’aide du recensement.
Il y a aussi la validation par la connaissance de la région locale.
Préoccupations liées à la confidentialité (ceci ne pose peut-être pas de problème, parce que plus la région est petite, plus l’erreur dans l’ÉR est grande; protection intégrée).
19
2. ÉR : Description visuelle
• Cependant, avec le modèle ÉR habituel, le total global n’est pas préservé!
Province RE selon l’âge et le sexe
Avant l’ÉR
(niveau de la région selon l’âge
et le sexe)
Apres l’ÉR (niveau de la région selon l’âge et le sexe)
Après l’ÉR (niveau prov.)
TNL
ÎPE
…
ALB.
CB
Canada Bon! Bon? Bon?
Pour l’emploi dans A39
20
2. ÉR : Description visuelle...suite
• L’étalonnage garantit que le total demeure le même après la modélisation.
Province RE par âge et sexe Avant l’ÉR (niveau de la région selon l’âge et le sexe)
Après l’ÉR (niveau de la région selon l’âge et le sexe)
Après l’ÉR (niveau prov.)
TNL
ÎPE
…
ALB.
CB
Canada Bon! Bon! Bon!
Pour l’emploi dans A39
21
3. BUPF : Description
Le produit d’ÉR de STC est basé sur l’identification des besoins des clients (p. ex. : sur l’atelier sur l’ÉR de fév. 2005, voir www.flmm-lmi.org pour le compte rendu)
Caractéristiques principales
• Système logiciel à base de menus
• La conception de l’échantillonnage est entièrement prise en considération
• Auto-étalonnage servant à la protection contre les pannes du modèle
• Regroupement de régions servant à inclure celles qui font l’objet d’aucune ou de peu d’observations dans le processus de modélisation
• Diagnostic approfondi du modèle et évaluation des estimations Les logiciels existants (tels que SAS PROC MIXED, MLwiN,
WinBUGS) ne sont pas satisfaisants
22
3. BUPF 1.0 : Description
Partie I : Préparation des données
Partie II : Préparation de la modélisation
Partie III : Sélection et diagnostic du modèle
Partie IV : Estimation et évaluation régionales
Partie V : Tableau récapitulatif
23
4. Application de BUPF à l’EPA
Les résultats empiriques présentés ici ne sont pas encore finaux.
Le produit comprend deux composantes principales
• Composante de modélisation (pour accroître la taille d’échantillon efficace)
• Composante d’estimation (combiner les estimations directes et indirectes)
24
4. Application de BUPF à l’EPA…suite
Modèle : Estimation directe pour la région d = Valeur réelle + erreur
d’échantillonnage
Valeur réelle = facteur de prédiction + erreur du modèle
Facteur de prédiction = x1β1+ x2β2+…; donne des estimations indirectes ou synthétiques.
Variables X considérées : nombre de revenus signalés, nbre de prestataires d’AE, dénombrements selon l’âge-sexe, etc., toutes ces variables au niveau des petites régions
25
Tableau 3 Nombre total de personnes employées (A39) selon les estimations directes, indirectes et l’ÉR
(Moyenne annuelle tirée de l’EPA de 2003 )
Prov.
Estimations directes ÉR
Estimations Indirectes
ÉR - DirDir.Estima-
tionCV
Estima-tion
CV du mod.
RRMSE du mod.
Estima-tion
CV du mod.
RRMSE du mod.
TN 670 0,264 579 0,144 603 0,229 -0,136
ÎPE 233 0,235 207 0,168 187 0,179 -0,111
NE 1 532 0,19 1 417 0,105 1 450 0,177 -0,075
NB 1 275 0,171 1 112 0,1 1 083 0,168 -0,128
Qc 25 273 0,087 24 962 0,056 25 381 0,081 -0,012
ONT. 42 447 0,075 44 355 0,063 46 255 0,081 0,045
MAN. 3 023 0,143 2 348 0,082 2 251 0,129 -0,223
SASK. 1 963 0,173 1 766 0,091 1 753 0,164 -0,100
ALB. 7 643 0,144 7 276 0,078 7 292 0,134 -0,048
CB 8 676 0,142 8 712 0,094 8 792 0,129 0,004
Cana-da 92 734 0,046 92 734 0,046 95 047 0,073 0,000
26
5. Démonstration du produit d’ÉR de STC
Démonstration du produit BUPF 1.0 Démonstration du produit BUPF 1.0
28
Partie I : Préparation des données
29
Partie II : Préparation de la modélisation
30
Partie II : Préparation de la modélisation
31
Partie III : Sélection et diagnostic du modèle
32
Partie III : Sélection et diagnostic du modèle
34
Partie IV : Estimation et évaluation régionales
35
6. Mot de la fin et travaux à venir
Le produit BUPF offre plusieurs caractéristiques uniques pour l’ÉR, notamment l’auto-étalonnage, le regroupement de domaines pour les domaines non échantillonnés et un diagnostic approfondi.
L’interface graphique (GUI) pour le produit est aussi utile qu’une liste de vérification systématique ou un analyste virtuel pour une production efficace; elle est également utile pour la formation et la démonstration du produit.
36
6. Mot de la fin et travaux à venir
Terminer la version bêta du modèle BUPF 1.0; la version actuelle est seulement en alpha ou un prototype et ne convient pas à la production.
Planifier une étude de validation grâce aux Recensement de 2006.
37
Pour plus d’information, prière de communiquer avec
avi.singh@statcan.ca
Thank you…Merci
38
Annexe
39
3. BUPF 1.0 : Description
Partie I : Préparation des données• M1 : Spécification des données
• M2 : Spécification des tâches• La définition des domaines servant à la modélisation des
petites régions (domaines de MPR) est très importantes
• Les estimations directes, dénombrements de population et données auxiliaires doivent être disponibles à ce niveau
• Le nombre de domaine de MPR devrait être suffisamment élevé pour une modélisation appropriée
• Ici, les domaines MPR = RE(73) selon l’âge(4) et selon le sexe(2)
40
3. BUPF 1.0 : Description
Partie II : Préparation de la modélisation• M3 : Contraintes de l’étalonnage & modèle de base
• L’auto-étalonnage est important pour se protéger contre les pannes du modèle, car ce dernier n’est pas parfait
• Option : Sans la C.-B., ensemble de la C.-B., régions de la C.-B.
• M4 : Regroupement de domaines
• Solution de rechange améliorée par rapport au fait de laisser à l’extérieur du modèle les domaines de MPR dont la taille d’échantillon est petite.
• M5 : Lissage de la variance
41
3. BUPF 1.0 : Description
Partie III : Sélection et diagnostic du modèle• M6 : Sélection du modèle
• Procédures standard de sélection ascendante et descendante
• M7 : Composante variance
• Nécessaire pour trouver le facteur de retrait approprié pour passer des estimations indirectes aux estimations directes
• M8 : Séquence d’innovation
• Permet de diagnostiquer le modèle à l’aide de tests d’erreur standard pour données indépendantes et à distribution identique N(0,1)
• M9 : Diagnostic du modèle
• Représentations graphiques résiduelles, diagrammes quantile-quantile, valeur moyenne quadratique, test du khi carré pour la détermination de la surdispersion et de la pertinence du modèle…
42
3. BUPF 1.0 : Description
Partie IV : Estimation et évaluation régionales
• M10 : Estimation régionale
• M11 : Évaluation des estimations
• Vérifier les différences relatives entre les estimations directes et l’ÉR
• Autres mesures
SAE (direct) (1 )(indirect)
(indirect) [(direct) (indirect) ]
: shrinkage factord
d d d d d
d d d d
43
3. BUPF 1.0 : Description
Partie V : Tableau récapitulatif• M12 : Résumé général
• Conception de l’échantillonnage et sources de données (Partie I)
• Diagnostic des données d’entrée (Partie II)
• Diagnostic de la modélisation (Partie III)
• Diagnostic des données de sortie (Partie IV)