1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique...

Équipe chargée du projet sur l’ÉR-RDAPS Division de la recherche et de l’innovation

statistiqueStatistique Canada, Ottawa

(Pour présentation à l’Atelier du GTIMT du FMMT, le17 oct. 2007, à Vancouver, C.-B.)

Estimations régionales par Statistique Canada

Produit : BUPF 1.0 (Best Unbiased Prediction via Filtering)

Projet : ÉR-RDAPS (Évaluation régionale dans le cadre de

la R et D axée sur les produits statistiques)

Équipe : Avi Singh (chef de projet)François VerretClaude NadeauPin Yuan

Remerciements : Fonds global de financement de la recherche, Dir. de

la méth, Div. de la statis. du travail, GTIMT du FMMT

Aperçu

1. ÉR : Introduction

2. ÉR : Description visuelle

3. BUPF : Description

4. Application du BUPF à l’Enquête sur la population active (EPA)

5. Démonstration du BUPF (échantillons d’instantanés d’écran)

6. Mot de la fin et travaux à venir

1. ÉR : Introduction

Les évaluations directes des petites régions (ou domaines) ne sont pas fiables; p. ex., pour les provinces, les estimations annuelles tirées de l’EPA concernant les gestionnaires du secteur de la fabrication et des services publics (code de profession à trois caractères A39) ne sont pas fiables. Dans ce cas, les provinces pourraient être considérées comme de petites régions.

Besoins de données : Estimations provinciales de l’emploi par code de profession à trois caractères

Tableau 1 – Total mensuel des personnes employées (A39)(Moyenne annuelle tirée de l’EPA de 2003)

Taille de la

population

Taille de l’échantill

Estimation directe

É-T CV en %

TNL 429 298 3 978 670 177 26,4

ÎPE 109 886 2 769 233 55 23,5

NE 758 549 5 858 1 532 292 19,0

NB 607 565 5 624 1 275 218 17,1

Qc 6 059 655 18 234 25 273 2 204 8,7

ONT. 9 766 566 30 373 42 447 3 178 7,5

MAN. 876 396 7 117 3 023 432 14,3

SASK. 744 431 7 295 1 963 339 17,3

ALB. 2 467 412 10 317 7 643 1 098 14,4

CB 3 346 181 9 636 8 676 1 228 14,2

Canada 25 165 939 101 201 92 734 4 260 4,6

1. ÉR : Introduction …suite

Besoin de plus d’échantillons pour obtenir des estimations plus fiables

Solution de remplacement rentable – utiliser un modèle comme le modèle commun de la moyenne; p.ex., la proportion de personnes employées dans la catégorie A39 est commune à toutes les provinces

La qualité des estimations dépend de la validité du modèle.

Le modèle fournit une estimation indirecte (ou synthétique) au niveau de la région.

Pour le modèle commun de la moyenne, multipliez le total national par la proportion de la population provinciale pour obtenir l’estimation indirecte, p. ex. pour TNL

1,7 % fois 92 734 = 1 582

Tableau 2 Estimations directes et indirectes (selon un modèle très simplifié) concernant les A39 (Moyenne

annuelle tirée de l’EPA de 2003)

Portion de la

population

Taille de

l’échan-tillon

Estima-tion

directeÉR

Estima-tion

indirecte

Taille de

l’échan-tillon

TNL 1,7 % 3 978 670 1 582 101 201

ÎPE 0,4 % 2 769 233 405 101 201

NE 3,0 % 5 858 1 532 2 795 101 201

NB 2,4 % 5 624 1 275 2 239 101 201

Qc 24,1 % 18 234 25 273 22 329 101 201

ONT. 38,8 % 30 373 42 447 35 989 101 201

MAN. 3,5 % 7 117 3 023 3 229 101 201

SASK. 3,0 % 7 295 1 963 2 743 101 201

ALB 9,8 % 10 317 7 643 9 092 101 201

BC 13.3% 9 636 8 676 12 330 101 201

Canada 100,0 % 101 201 92 734 92 734 101 201

La combinaison de deux estimations (directes et indirectes) peut fournir une estimation raisonnable ayant une précision adéquate selon le niveau d’estimation appliqué à la petite région.

L’estimation directe n’est pas précise, mais elle n’est pas gauchie, tandis que l’estimation indirecte est habituellement précise, mais peut être gauchie.

L’ÉR combine les estimations directes et indirectes de façon optimale :

ÉR pour une région d = (facteur de retrait pour d) x (estimation directe pour d) +

(1- facteur de retrait pour d) x (estimation indirecte

pour d)

Si le facteur de retrait est de 10 %, alors on utilise

10 % de l’estimation directe et 90 % de l’estimation indirecte pour l’ÉR. S’il est de 50 %, alors les deux estimations, directe et indirecte, contribuent de façon égale à l’ÉR.

La taille relative du facteur de retrait dépend de la variabilité de l’erreur de modélisation (dans l’estimation indirecte) et de celle de l’erreur d’échantillonnage (dans l’estimation directe).

Pour l’ÉR, la taille d’échantillon efficace est supérieure à celle que l’on utilise pour l’estimation directe.

1 : ÉR : Introduction (Exigences de la modélisation)

Aux fins de la modélisation, on a besoin d’estimations directes provenant d’autres petites régions (appelées données indirectes), c.-à-d. pour obtenir une estimation pour la région d’intérêt.

Pour une modélisation adéquate, on a besoin de suffisamment de petites régions. On subdivise les provinces en sous-régions provinciales :• En régions économiques (RE) ou RE selon l’âge et le sexe plutôt

que par province, bien que le niveau d’intérêt soit celui de la province.

1 : ÉR : Introduction (Exigences de la modélisation)

Il est avantageux d’avoir une source d’information auxiliaire (administrative / recensement); pour toutes les régions, on a besoin de totaux réels pour la population au niveau d’estimation de la région.

L’utilisation d’une source auxiliaire peut améliorer la modélisation faite à l’aide de données indirectes.

1. ÉR : Introduction (Exigences de la modélisation…suite)

Exemples d’information auxiliaire pour l’application de l’EPA

Sources administratives• Nombre de demandes de prestations d’assurance-emploi au

niveau de la région

• Nombre de personnes ayant un revenu d’emploi

Projections démographiques fondées sur le recensement de la population• Dénombrements par sous-population

1. ÉR : Introduction (Exigences de la modélisation)

Le facteur de prédiction du modèle, qui est basé sur des données indirectes et des données auxiliaires, fournit une estimation indirecte pour la région d’intérêt.

Le modèle peut être aussi simple que le modèle commun de la moyenne, qui n’utilise aucune donnée auxiliaire ou qui ne peut pas être avancé.

1. ÉR : Introduction (Exigences de la modélisation)

Toutes les estimations indirectes sont gauchies, mais le gauchissement peut être faible si le modèle est bon.

La combinaison d’estimations directes avec des estimations indirectes produit des estimations plus précises que les seules estimations directes ou indirectes.

L’étalonnage (lorsque la somme de toutes les estimations pour les petites régions comprises dans un sous-groupe de régions est égale à l’estimation directe du sous-groupe) aide à réduire le gauchissement du modèle.

1. ÉR : Introduction (Préoccupations des utilisateurs)

Les besoins de données détaillées au niveau de la région peuvent varier d’un utilisateur à l’autre.

Cependant, on ne peut pas aller jusqu’à un niveau très bas pour deux raisons : la précision des ÉR ne sera peut-être pas suffisante, et on ne disposera peut-être pas de données auxiliaires.

Les préoccupations au sujet du gauchissement sont dues à l’utilisation d’estimations indirectes servant à emprunter de l’information; les modèles ne sont peut-être ne pas être parfaits, mais un modèle choisi avec soin peut être utile.

La méthodologie de l’ÉR fait appel à un compromis entre le gauchissement et la précision.

1. ÉR : Introduction (Préoccupations des utilisateurs…

suite)

On peut procéder périodiquement à une validation externe de l’ÉR à l’aide du recensement.

Il y a aussi la validation par la connaissance de la région locale.

Préoccupations liées à la confidentialité (ceci ne pose peut-être pas de problème, parce que plus la région est petite, plus l’erreur dans l’ÉR est grande; protection intégrée).

2. ÉR : Description visuelle

• Cependant, avec le modèle ÉR habituel, le total global n’est pas préservé!

Province RE selon l’âge et le sexe

Avant l’ÉR

(niveau de la région selon l’âge

et le sexe)

Apres l’ÉR (niveau de la région selon l’âge et le sexe)

Après l’ÉR (niveau prov.)

Canada Bon! Bon? Bon?

Pour l’emploi dans A39

2. ÉR : Description visuelle...suite

• L’étalonnage garantit que le total demeure le même après la modélisation.

Province RE par âge et sexe Avant l’ÉR (niveau de la région selon l’âge et le sexe)

Après l’ÉR (niveau de la région selon l’âge et le sexe)

Après l’ÉR (niveau prov.)

Canada Bon! Bon! Bon!

Pour l’emploi dans A39

3. BUPF : Description

Le produit d’ÉR de STC est basé sur l’identification des besoins des clients (p. ex. : sur l’atelier sur l’ÉR de fév. 2005, voir www.flmm-lmi.org pour le compte rendu)

Caractéristiques principales

• Système logiciel à base de menus

• La conception de l’échantillonnage est entièrement prise en considération

• Auto-étalonnage servant à la protection contre les pannes du modèle

• Regroupement de régions servant à inclure celles qui font l’objet d’aucune ou de peu d’observations dans le processus de modélisation

• Diagnostic approfondi du modèle et évaluation des estimations Les logiciels existants (tels que SAS PROC MIXED, MLwiN,

WinBUGS) ne sont pas satisfaisants

3. BUPF 1.0 : Description

Partie I : Préparation des données

Partie II : Préparation de la modélisation

Partie III : Sélection et diagnostic du modèle

Partie IV : Estimation et évaluation régionales

Partie V : Tableau récapitulatif

4. Application de BUPF à l’EPA

Les résultats empiriques présentés ici ne sont pas encore finaux.

Le produit comprend deux composantes principales

• Composante de modélisation (pour accroître la taille d’échantillon efficace)

• Composante d’estimation (combiner les estimations directes et indirectes)

4. Application de BUPF à l’EPA…suite

Modèle : Estimation directe pour la région d = Valeur réelle + erreur

d’échantillonnage

Valeur réelle = facteur de prédiction + erreur du modèle

Facteur de prédiction = x1β1+ x2β2+…; donne des estimations indirectes ou synthétiques.

Variables X considérées : nombre de revenus signalés, nbre de prestataires d’AE, dénombrements selon l’âge-sexe, etc., toutes ces variables au niveau des petites régions

Tableau 3 Nombre total de personnes employées (A39) selon les estimations directes, indirectes et l’ÉR

(Moyenne annuelle tirée de l’EPA de 2003 )

Estimations directes ÉR

Estimations Indirectes

ÉR - DirDir.Estima-

tionCV

Estima-tion

CV du mod.

RRMSE du mod.

Estima-tion

CV du mod.

RRMSE du mod.

TN 670 0,264 579 0,144 603 0,229 -0,136

ÎPE 233 0,235 207 0,168 187 0,179 -0,111

NE 1 532 0,19 1 417 0,105 1 450 0,177 -0,075

NB 1 275 0,171 1 112 0,1 1 083 0,168 -0,128

Qc 25 273 0,087 24 962 0,056 25 381 0,081 -0,012

ONT. 42 447 0,075 44 355 0,063 46 255 0,081 0,045

MAN. 3 023 0,143 2 348 0,082 2 251 0,129 -0,223

SASK. 1 963 0,173 1 766 0,091 1 753 0,164 -0,100

ALB. 7 643 0,144 7 276 0,078 7 292 0,134 -0,048

CB 8 676 0,142 8 712 0,094 8 792 0,129 0,004

Cana-da 92 734 0,046 92 734 0,046 95 047 0,073 0,000

5. Démonstration du produit d’ÉR de STC

Démonstration du produit BUPF 1.0 Démonstration du produit BUPF 1.0

Partie I : Préparation des données

Partie II : Préparation de la modélisation

Partie III : Sélection et diagnostic du modèle

Le produit BUPF offre plusieurs caractéristiques uniques pour l’ÉR, notamment l’auto-étalonnage, le regroupement de domaines pour les domaines non échantillonnés et un diagnostic approfondi.

L’interface graphique (GUI) pour le produit est aussi utile qu’une liste de vérification systématique ou un analyste virtuel pour une production efficace; elle est également utile pour la formation et la démonstration du produit.

Terminer la version bêta du modèle BUPF 1.0; la version actuelle est seulement en alpha ou un prototype et ne convient pas à la production.

Planifier une étude de validation grâce aux Recensement de 2006.

Pour plus d’information, prière de communiquer avec

avi.singh@statcan.ca

Thank you…Merci

Annexe

Partie I : Préparation des données• M1 : Spécification des données

• M2 : Spécification des tâches• La définition des domaines servant à la modélisation des

petites régions (domaines de MPR) est très importantes

• Les estimations directes, dénombrements de population et données auxiliaires doivent être disponibles à ce niveau

• Le nombre de domaine de MPR devrait être suffisamment élevé pour une modélisation appropriée

• Ici, les domaines MPR = RE(73) selon l’âge(4) et selon le sexe(2)

Partie II : Préparation de la modélisation• M3 : Contraintes de l’étalonnage & modèle de base

• L’auto-étalonnage est important pour se protéger contre les pannes du modèle, car ce dernier n’est pas parfait

• Option : Sans la C.-B., ensemble de la C.-B., régions de la C.-B.

• M4 : Regroupement de domaines

• Solution de rechange améliorée par rapport au fait de laisser à l’extérieur du modèle les domaines de MPR dont la taille d’échantillon est petite.

• M5 : Lissage de la variance

Partie III : Sélection et diagnostic du modèle• M6 : Sélection du modèle

• Procédures standard de sélection ascendante et descendante

• M7 : Composante variance

• Nécessaire pour trouver le facteur de retrait approprié pour passer des estimations indirectes aux estimations directes

• M8 : Séquence d’innovation

• Permet de diagnostiquer le modèle à l’aide de tests d’erreur standard pour données indépendantes et à distribution identique N(0,1)

• M9 : Diagnostic du modèle

• Représentations graphiques résiduelles, diagrammes quantile-quantile, valeur moyenne quadratique, test du khi carré pour la détermination de la surdispersion et de la pertinence du modèle…

• M10 : Estimation régionale

• M11 : Évaluation des estimations

• Vérifier les différences relatives entre les estimations directes et l’ÉR

• Autres mesures

SAE (direct) (1 )(indirect)

(indirect) [(direct) (indirect) ]

: shrinkage factord

d d d d d

d d d d

Partie V : Tableau récapitulatif• M12 : Résumé général

• Conception de l’échantillonnage et sources de données (Partie I)

• Diagnostic des données d’entrée (Partie II)

• Diagnostic de la modélisation (Partie III)

• Diagnostic des données de sortie (Partie IV)

1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique...

Documents

Transcript of 1 Équipe chargée du projet sur lÉR-RDAPS Division de la recherche et de linnovation statistique...

6 Clés Pour Linnovation La Recherche Et La Compétitivité

Journée de lInnovation Bois Clelles 29 novembre 2013.

Les seniors et linnovation

Au Accélérateur des Sciences et de lInnovation au Accélérateur des Sciences et de lInnovation BienvenueBienvenue Conception CERN – ne pas reproduire.

La Plasturgie Les techniques Les produits Latelier Les chiffres Nos partenaires.

Linnovation : levier dun nouvel essor REGION ALSACE Présentation Politique Innovation 1ère PARTIE Laccompagnement technique de linnovation en Alsace Dispositif.

François COISEUR Linnovation en Picardie. François COISEUR Linnovation en Picardie REVUE ANNUELLE DE L'INNOVATION EN PICARDIE En partenariat avec :

ZESPÓŁ SZKÓŁ À PRZECŁAW- POLOGNE. Compte rendu de latelier é cologique. Latelier a ete organise pour tous les coll e giens, ayant comme devise Économise!

Le contexte général de linnovation au Maroc Historique du salon de lInnovation Le concept MEDINNOVA 2011 Objectifs de MEDINNOVA 2011 Composantes de MEDINNOVA.

Le Rôle des brevets dans la promotion de linnovation

Dispositifs de soutien à linnovation routière Journées Techniques Routes 2013 Nantes – 6 & 7 février 2013 Dispositifs de soutien à linnovation routière.

Cycle Mutécos 2011 Croissance par linnovation : quelles alliances stratégiques ?

CONCOURS DE LINNOVATION CREATEURS DIDEES ! 2010/2011.

Management de linnovation M1 STIC CG2 Gestion de lInnovation et de la Qualité Veille stratégique : exemple à partir du prestataire : Centredoc.

Anglès dAuriac Louis Thoma Cédric Tran Jimmy. I. Le Constat de la Chine Actuelle - Made in China -De latelier au Laboratoire du Monde -Dates clés de linnovation.

Les aventuriers de linnovation Publique : retour dexpérience

La formation dite « virtuelle » : de linnovation technologique à linnovation pédagogique Quelques réflexions autour du campus numérique FORSE Séminaire.

S06 - Vidican_2009 Biblometrics Pour Mesurer Linnovation

Rôle de lingénierie financière dans le processus de linnovation.

21 - latelier-a-spectacle.com