RAPPORT DE STAGE - laregion.fr · RAPPORT DE STAGE Tester la robustesse du modèle des...
Transcript of RAPPORT DE STAGE - laregion.fr · RAPPORT DE STAGE Tester la robustesse du modèle des...
RAPPORT DE STAGE
Tester la robustesse du modèle des consommations énergétiques au niveau communal et
Amélioration du modèle
Chen Jinqiu
Observatoire Régional de l’Energie de Midi-Pyrénées
Période de stage : 01/04/2011~31/07/2011
Jinqiu Chen Master 2 Statistique et Econométrie
2
REMERCIEMENTS
Je remercie Monsieur Gérard Poujade, présidente de l’ARPE, et Madame Martine Gayrard-Mathorel, directrice de l’ARPE, de m’avoir acceptée en tant que stagiaire au sein de leur agence.
Je tiens tout particulièrement à remercier Madame Bénédicte RIEY, mon responsable de stage, pour m’avoir intégrée rapidement au sein de l’ARPE et m’avoir accordée toute sa confiance; pour le temps qu’elle m’a consacrée tout au long de cette période, sachant répondre à toutes mes interrogations.
D’une façon plus générale, je remercie toute l’équipe de l’ARPE pour sa bonne humeur permanente et pour leur chaleureux accueil.
Enfin, je souhaite que toutes les personnes ayant participé de près ou de loin à ce projet soient remerciées.
Jinqiu Chen Master 2 Statistique et Econométrie
3
Table des matières
I. PRESENTATION DE L’ENTREPRISE ................................................................................................... 6
1.1 Agence Régionale du Développement Durable de Midi-Pyrénées ................................................. 6
1.2 Observatoire Régional de l’Energie de Midi-Pyrénées (OREMIP) ................................................... 7
1.2.1 Historique de L’OREMIP ............................................................................................ 7
1.2.2 Missions et Objectifs de L’OREMIP ........................................................................... 7
1.2.3 Organisation de L’OREMIP ........................................................................................ 8
II. Introduction du projet .................................................................................................................... 9
2.1 Contexte ......................................................................................................................................... 9
2.2 Audit des données ......................................................................................................................... 9
2.2.1 Descriptif des des variables (données de structure)................................................. 9
2.2.2 Statistique descriptives-données ERDF et GRDF .................................................... 11
III. Modélisation Initiale ..................................................................................................................... 17
3.1 Méthodologie ............................................................................................................................... 17
3.2 Les Formules des consommations estimées du modèle initial ................................................... 22
IV. Tester la robustesse du modèle initial ......................................................................................... 23
4.1 Electricité .................................................................................................................................... 24
4.2 Gaz naturel ................................................................................................................................. 27
V. Amélioration du modèle global .................................................................................................... 30
5.1 Théorie : Qu’est ce que la régression linéaire multiple ? ........................................................... 30
5.1.1 Définition du problème – la régression linéaire multiple est-elle valable ? ....... 31
5.1.2 Les sources usuelles du problème : pourquoi l’hétéroscédasticité ? ................. 31
5.1.3 Les conséquences ............................................................................................... 32
5.1.4 Méthode de correction ....................................................................................... 32
5.2 Application : le cas de l’Electricité .............................................................................................. 34
5.2.1 Construction de nouvelles variables ................................................................... 34
5.2.2 Modélisation ....................................................................................................... 36
Jinqiu Chen Master 2 Statistique et Econométrie
4
5.3 Application : le cas du Gaz Naturel ............................................................................................. 43
VI. Approche sectorielle (répartition) ................................................................................................ 48
6.1 Méthodologie...........................................................................................................................48
6.2 Vérification de la qualité de prédiction....................................................................................49
VII. Conclusion ..................................................................................................................................... 51
VIII. Bibliographie ................................................................................................................................. 52
IX. Annexe ........................................................................................................................................... 53
Jinqiu Chen Master 2 Statistique et Econométrie
5
INTRODUCTION
Etudiante en master 2 Statistique et Econométrie dans l’Université Toulouse 1 Capitole, mon stage de fin d’études s’est déroulé à l’Observatoire Régional de l’Energie de Midi-Pyrénées situé à Toulouse. Mon stage a duré quatre mois du 1 avril au 31 juillet en 2011.
L’Observatoire Régional de l’Energie en Midi-Pyrénées (OREMIP) a pour mission d’accompagner les politiques énergétiques régionales. C’est un outil d’observation de la situation énergétique régionale, un lieu de concertation entre les acteurs régionaux de l’énergie et de communication doté d’une forte proposition. L’OREMIP est animé par l’Agence Régionale du Développement Durable de Midi-Pyrénées (ARPE).
Mon stage à l’OREMIP a consisté essentiellement à tester la robustesse du modèle des consommations énergétiques au niveau communal à améliorer ce modèle. Avant de commencer mon travail, il a fallu que je comprenne bien le modèle inital. Suivie par ma tutrice de stage, Madame Bénédicte Riey, conseillère technique au sein de l’ARPE et animatrice de l’OREMIP, j’ai pu comprendre dans d’excellentes conditions les données utilisées par le modèle.
Plus largement, ce stage a été l’opportunité pour moi d’appréhender le domaine de l’énergie. La mission proposée m’a donnée la possibilité de mettre en pratique mes connaissances en statistique et d’aborder un domaine nouveau.
Au-delà d’enrichir mes connaissances sur l’énergie, ce stage m’a permis d’une part de comprendre le fonctionnement d’une agence régionale pour le Développement Durable, d’autre part d’obtenir une expérience professionnelle précieuse en France.
Je vous expose dans ce rapport en premier lieu une présentation de l’entreprise. Ensuite, je vous explique les différents aspects de mon travail durant ces quelques mois et enfin, en conclusion, je résume les apports de ce stage.
Jinqiu Chen Master 2 Statistique et Econométrie
6
I. PRESENTATION DE L’ENTREPRISE
1.1 Agence Régionale du Développement Durable de Midi-Pyrénées
Opérateur de la Région Midi-Pyrénées, l'Agence Régionale du Développement Durable de Midi Pyrénées est un outil de sensibilisation, d'animation, de concertation, d'observation, de proposition et de partenariat, en matière d'environnement, de changement climatique et de développement durable.
L’ARPE Midi Pyrénées est une agence créée en 1991 à l’initiative du Conseil Régional et des associations régionales de l’environnement dans le but de contribuer à la préservation de l’environnement et à la mise en œuvre d’un développement durable en Midi-Pyrénées à travers trois axes d’action prioritaires :
La lutte contre l’effet de serre et le dérèglement climatique La préservation des ressources et la gestion durable de l’eau La gestion des espaces naturels et la biodiversité
L’ARPE s’attache à donner à l’ensemble de ses actions une dimension pleinement régionale. Cette volonté se concrétise en particulier par l’animation de réseaux :
Réseau (national) des Agences Régionales de l'environnement (RARE) Réseau des Parcs naturels régionaux, Réseau des villes et territoires durables de Midi-Pyrénées, Réseau de collectivités pour des achats écoresponsables, Réseau d'éducation à l'environnement (CREEMP) Réseau d'écomobilité
L'ARPE assure l'animation technique de l'Observatoire Régional de l'Energie Midi-
Pyrénées (OREMIP).
Doté d’une équipe opérationnelle de 35 personnes, l’ARPE Midi-Pyrénées participe à l’élaboration de plus de 600 projets chaque année dans des domaines d’intervention particulièrement variés. Les 35 personnes sont organisées en quatre pôles de travail :
Animation des collectivités locales Animation des entreprises Animation des espaces naturels et ruraux, Education/Sensibilisation
Jinqiu Chen Master 2 Statistique et Econométrie
7
1.2 Observatoire Régional de l’Energie de Midi-Pyrénées (OREMIP)
1.2.1 Historique de L’OREMIP
La création d'observatoires régionaux de l'énergie s'inscrit dans le cadre des Schémas de Services Collectifs de l'Energie mis en place par la Loi d'Orientation pour l'Aménagement et le Développement Durable du Territoire du 25 juin 1999.
L’Observatoire est inscrit dans le cadre du contrat de plan signé entre la Région et l’Etat en septembre 2000.
Une étude de faisabilité initiée notamment par l’ARPE et suivie par un Comité de pilotage, propose un mode de fonctionnement partenarial et une animation réalisée par l’ARPE pour l’Observatoire de l’Energie de Midi-Pyrénées en 2002.
Le 23 octobre 2003, l'Observatoire Régional de l'Energie de Midi-Pyrénées (OREMIP) est officiellement mis en place par le Conseil Régional et son agence l'ARPE, l'Etat et l'ADEME. D’autres partenaires viennent enrichir les instances de décisions : acteurs régionaux de l’énergie, notamment des fournisseurs et des transporteurs de gaz et d’électricité, ainsi que tous les syndicats départementaux d’électrification et le tissu associatif intéressé par la question.
1.2.2 Missions et Objectifs de L’OREMIP
L’OREMIP a pour mission d'accompagner les politiques énergétiques régionales. C'est un outil d'observation de la situation énergétique régionale, un lieu de concertation entre les acteurs régionaux de l'énergie et de communication doté d'une force de proposition.
Les grandes missions sont confiées à l’observatoire sont de : connaître, analyser, proposer, communiquer et favoriser la concertation : L’observatoire régional se fixe les objectifs fondamentaux suivants:
- La connaissance de la situation énergétique de Midi-Pyrénées grâce à : - L’élaboration de bilans énergétiques ; - La réalisation d’inventaires des émissions de GES liées à la consommation d’énergie ; - Le développement d’indicateurs de suivi et d’efficacité énergétique ; - La collecte de données relatives à certains domaines jugés comme prioritaires tels que les énergies renouvelables.
- L’analyse de la situation énergétique de la région grâce à : - La réalisation d’études sectorielles spécifiques ; - La réalisation d’études géographiques spécifiques ; - L’analyse prospective.
- Des propositions de nouveaux programmes d’actions ;
Jinqiu Chen Master 2 Statistique et Econométrie
8
- La communication au travers notamment d’une plaquette annuelle et ‘un site internet www.oremip.fr;
- Favoriser la concertation entre les acteurs énergétiques régionaux. En effet tous les travaux de l’OREMIP sont suivis par des groupes de travail thématiques.
1.2.3 Organisation de L’OREMIP
Les travaux de l’observatoire sont décidés et suivis par un comité de pilotage comportant 32 membres, repartis entre les institutionnels, les producteurs / transporteurs / distributeurs d’énergie et les associatifs.
Les institutionnels: Le Conseil régional de Midi-Pyrénées ; Le Secrétariat Général aux Affaires Régionales (SGAR) ; L’Agence de l’Environnement et de la Maîtrise de l’Energie (ADEME) ; L’Agence Régionale Pour l’Environnement (ARPE) ; Le Conseil Economique et Social Régional de Midi-Pyrénées (CESR) ; La Direction Régionale de l’Environnement, de l’Aménagement du Logement
(DREAL) ; La Direction régionale de l’Agriculture et de la Forêt (DRAAF) ; Institut National des Statistiques et des Etudes Economiques(INSEE) Caisse des dépôts et consignations
Les producteurs / transporteurs / distributeurs: Electricité de France (EDF) ; Electricité Réseau Distribution France (ERDF) Gaz Réseau Distribution France (GRDF) Gaz de France (GDF Suez) ; Total Infrastructure Gaz de France(TIGF) Groupement des Régies d’Electricité et de Gaz du Sud-ouest (GREG) ; Total Réseau de Transport d’Electricité (RTE) ; Syndicat Départemental des Collectivités Electrifiées de l’Ariège (SDCEA) Syndicat Intercommunal d’Electricité de l’Aveyron (SIEDA) ; Syndicat Départemental d’Electricité de la Haute-Garonne (SDEHG) ; Syndicat Départemental d’Electrification du Gers(SDEG) Fédération Départemental d’Electricité du Lot (FDEL) ; Syndicat Départemental d’Electricité des Hautes-Pyrénées (SDE Hautes-Pyrénées) ; Syndicat Départemental d’Electrification du Tarn (SDET) ; Syndicat Départemental d’Electricité du Tarn-et-Garonne (SDETG) ;
Les associatifs: Comité de Liaison des Energies Renouvelables (CLER) ; Midi-Pyrénées Bois ;
Jinqiu Chen Master 2 Statistique et Econométrie
9
Syndicat des Energies Renouvelables (SER) ; Union Fédérale des Consommateurs Que Choisir (UFC Que Choisir) ; Fédération Nature Environnement Midi-Pyrénées (FNE Midi-Pyrénées) ; Association Technique Energie Environnement(ATEE) ; Société Eco Emballages.
II. Introduction du projet
2.1 Contexte
L’OREMIP a déjà réalisé un modèle d’estimation des consommations énergétiques au niveau communal pour les secteurs du résidentiel, du tertiaire et de l’industrie pour l’ensemble des énergies (gaz naturel, électricité, fioul domestique, bois …).
La modélisation est réalisée sur les 3019 communes de la région Midi-Pyrénées.
Les données utilisées pour cette modélisation sont issues du recensement général de la population de l’INSEE (détail du parc logements 2006, emplois dans le tertiaire et emplois industriels....) d’une part et sont des coefficients unitaires disponibles au niveau national d’autre part. Ainsi la modélisation repose sur le croisement des données INSEE (déterminant de la demande énergétique) avec les coefficients de consommation unitaire (consommation type).
Le but de ce projet est de tester ce modèle avec les données réelles de consommation de gaz naturel et d’électricité et d’améliorer ce modèle. Les données réelles sont fournies par ERDF et GRDF.
Les logiciels utilisés sont SAS 9.2, Excel2007.
2.2 Audit des données
2.2.1 Descriptif des des variables (données de structure)
Il s’agit des données de structure, déterminants de la consommation énergétique. Ces
données sont disponibles au niveau communal et sont caractéristiques de la consommation
énergétique. Croisées avec des consommations unitaires (consommation énergétique par
logement en fonction du type de logement, consommation énergétique par salarié selon la
branche d’activité), elles permettent de construire les consommations énergétiques du
résidentiel, du tertiaire et de l’industrie pour chaque commune.
Jinqiu Chen Master 2 Statistique et Econométrie
10
Secteur résidentiel : Table parc de logements 2006 : (INSEE 2006) descriptif du parc de logements par catégorie pour les 3019 communes de la région Midi-Pyrénées. Elle est composée de 96 variables quantitatives et une variable qualitative (code INSEE de la commune) .
Cette table distingue les logements en fonction du type d’habitation (maison ou logement collectif) , du type de chauffage (chauffage central ou appareil indépendant) , de l’année de construction (avant 1975 ; 1975-1981 ; 1982-1989 ; après 1990), du combustible de chauffage principal (fioul, électricité, gaz naturel, bois …). Seule les résidences principales sont considérées (pas les résidences secondaires).
Exemple (présentation de 5 variables prises parmi les 96 variables du modèle relatif au secteur résidentiel):
MCCav75CU : nombre de maisons avec chauffage central construites avant 1975 avec chauffage urbain.
MCCav75Elec : nombre de maisons avec chauffage central construites avant 1975 avec chauffage électrique.
MCIav75CU : nombre de maisons avec chauffage central individuel construites avant 1975 avec chauffage urbain.
ApCCav75CU : nombre d’appartements avec chauffage central collectif construits avant 1975 avec chauffage urbain.
ApCIav75CU : nombre d’appartements avec chauffage central individuel construits avant 1975 avec chauffage urbain.
Secteur tertiaire : Table emploi tertiaire : données socio-économiques (INSEE 2006) des 3019 communes, table composée de 7 variables quantitatives (nombre d’employés par secteur dans le tertiaire pour chaque commune) et deux variables qualitatives (code INSEE et chauffage GN-commune raccordée ou non au réseau de gaz naturel).
Les secteurs distingués sont : - Bureaux et administrations - Santé - Enseignement - Sport, loisir, culture - Etablissements du transport - Hôtels, cafés, restaurants - Commerces
Secteur industriel : Table emploi industriel : données socio-économiques (INSEE 2006) des 3019 communes, table composée de 9 variables quantitatives (nombre d‘employés par secteur industriel pour chaque commune) et deux variables qualitatives (code INSEE et chauffage GN-commune raccordée ou non au réseau de gaz naturel).
Jinqiu Chen Master 2 Statistique et Econométrie
11
Les secteurs distingués sont : -chimie -Métallurgie -Agro alimentaire -Papier carton -Textile, cuir, habillement -Construction aéronautique -Construction électrique électronique -Industries diverses
Ainsi par le croisement des données présentées avec des consommations unitaires, nous sommes en mesure de construire les consommations énergétiques au niveau communal. Dans le cadre de la première partie de mon stage, ces estimations vont être comparées aux données réelles fournies par ERDF et par GRDF.
Table ERDF : données fournies par ERDF de consommation réelle d’électricité au niveau communal.
Table GRDF : données fournies par GRDF de consommation réelle du gaz naturel au niveau communal.
Les consommations réelles d’électricité et de gaz naturel fournies respectivement par ERDF et GRDF ne recensent pas les consommations directement livrées par TIGF et RTE (industriels) ni par les régies locales.
2.2.2 Statistique descriptives-données ERDF et GRDF
Les variables de consommation énergétique réelle
Sur l’ensemble des communes de Midi-Pyrénées, la consommation moyenne par
commune en électricité est de 5445 Mwh et celle en gaz naturel est de 25840 Mwh.
Précisons tout de même qu’il y a une forte variabilité entre les consommations des
différentes communes (Midi-Pyrénées compte 70 communes de plus de 5000 habitants).
Jinqiu Chen Master 2 Statistique et Econométrie
12
Quasiment toutes les communes sont alimentées par le réseau de distribution ERDF.
Pour 51 communes seulement (sur 3019) nous ne disposons pas de la donnée de
consommation d’électricité pour deux raisons :
- Présence d’une régie de distribution locale
- ICS (information commercialement sensible)
Les communes connectées au réseau de distribution de gaz naturel représentent 1/6ème
des communes de Midi-Pyrénées (2598 valeur nulle ou ICS).
Il me reste au total 2968 communes pour analyser la consommation d’électricité et 421
communes pour analyser la consommation de gaz naturel.
En remplacant les consommations réelles d’électricité et de gaz naturel manquantes
par des 0, je calcule le coefficient de corrélation pour savoir le degré de dépendance linéaire
entre eux . Le résultat signifie que les deux variables sont fortement corrélées (99.3%). C’est
à dire dans une commune plus la consommation d’électricité est grande, plus la
consommation de gaz naturel est grande.
Je vous rappelle la formule du coefficient de corrélation entre deux séries de même
longueur et :
_ _
1
_ _2 2
1 1
( )*( )
( ) ( )
N
i i
ip
N N
i i
i i
x x y y
r
x x y y
Le coefficient de corrélation est compris entre -1 et 1. Plus le coefficient est proche des
valeurs extrêmes -1 et 1, plus la corrélation entre les variables est forte. Une corrélation
égale à 0 signifie que les variables sont linéairement indépendantes.
Jinqiu Chen Master 2 Statistique et Econométrie
13
Les consommations réelles de l’électricité et du gaz naturel ont-elles une distribution
normale ?
Consommation réelle de l’électricité
Jinqiu Chen Master 2 Statistique et Econométrie
15
Ces différents tests nous conduisent à un rejet de l’hypothèse de normalité de la
distribution des variables cosoreel_ERDF et consoreel_GRDF. Aussi on remarque une allure
de dissymétrie dans la distribution des 2 variables.
Un petit rappel sur la boîte à moustache et identification des grandes communes
La boîte à moustache est utilisée pour illustrer la distribtution des données. Elle affiche
5 valeurs caractéristiques : maximum, minimum, médian et deux quartiles. Le trait au milieu
de la boîte à moustache donne le médian des données: c’est à dire que la moitié des
données est supérieure à ce point et que l’autre moitié des données est inférieure à ce
point. Deux cotés de la boîte donnent les quartiles des données : un quart des données est
supérieur au coté supérieure de la boîte et un quart des données est inférieur au coté
inférieure de la boîte. Il peut-être vu que la moité des données sont dans cette boîte. La
Jinqiu Chen Master 2 Statistique et Econométrie
16
hauteur de la boîte présente la dispersion de la plupart des données. Plus la boîte est haute,
plus ces données sont dispersées.
D’après le graphique de la boîte à moustache de l’électricité réelle et du gaz naturel au
dessus, on a constaté que la plupart des consommations électriques dans les communes de
la région Midi-Pyrénées ne se varient pas beaucoup parceque la boître est assez peite
(presque un trait). Les points à l’extérieur des boîtes à moustache nous indiquent de fortes
consommations d’électricité et de gaz naturel.
Identification des grandes communes
J’identifie ces communes dont la consommation énergétique > 100 000 Mwh.
->Electricité
->Gaz naturel
Jinqiu Chen Master 2 Statistique et Econométrie
17
Toulouse(en jaune) est la commune qui a la plus grande consommation d’électricité
(hors données RTE) et de gaz naturel (hors données TIGF). Et les communes qui ont les
consommations les plus grandes sont identiques pour l’électricité et le gaz naturel ( sauf les
deux communes en vert).
III. Modélisation Initiale
3.1 Méthodologie
Secteur résidentiel
Il s’agit de croiser les données relatives au parc régional de résidences principales issues
du recensement général de la population (RGP INSEE 2006 – Fichier Détail Logements) avec
des consommations énergétiques unitaires (par type de logement) fournies par le CEREN1.
Des hypothèses sont appliquées aux consommations énergétiques du chauffage
d’appoint, de l’eau chaude sanitaire et de la cuisson de façon à leur associer des énergies
(les énergies de chauffage principal sont données par le RGP). Aussi la répartition par
énergie et par usage est disponible pour le secteur résidentiel à l’échelle communale.
Schéma 1: modélisation des consommations énergétiques dans la résidentiel
1 CEREN :centre d’études et de recherches économiques sur l’énergie
Jinqiu Chen Master 2 Statistique et Econométrie
18
Source : OREMIP
DJU: Les degrés jour unifiés permettent de réaliser des estimations de consommations d'énergie thermique en proportion de la rigueur de l'hiver. Cette correction climatique permet de régionaliser les consommation unitaires nationales.
Le parc de résidences principales de chaque commune est spécifié selon 96 catégories.
Ainsi à chaque ensemble homogène de résidences principales est associé une consommation
unitaire type de chauffage principal, chauffage d’appoint, d’eau chaude sanitaire, de cuisson,
d’usage spécifique de l’électricité.
Jinqiu Chen Master 2 Statistique et Econométrie
19
Schéma 2: structure du parc de résidences principales disponibles à la commune
Les données du recensement permettent de connaître l’énergie de chauffage principal des
résidences. Les énergies des autres usages sont estimées à partir des hypothèses suivantes :
Tableau 1 : hypothèses relatives aux énergies de chauffage d’appoint
Tableau 2 : hypothèses relatives aux énergies de cuisson
Maisons
individuelles
Appartements
Chauffage
central
collectif
Chauffage
central
individuel ou
autre
Chauffage
central
individuel ou
autre
Chauffage
central
collectif
Avant 1975
De 1975 à 1981
De 1982 à 1989
Après 1990
Avant 1975
De 1975 à 1981
De 1982 à 1989
Après 1990
Avant 1975
De 1975 à 1981
De 1982 à 1989
Après 1990
Avant 1975
De 1975 à 1981
De 1982 à 1989
Après 1990
Chauffage Urbain
Gaz naturel
Fioul domestique
Electricité
GPL
Bois, autre
Electricité 50%-GPL 50%GPL
Electricité 50%-GPL 50%Bois
Electricité 50%-gaz naturel 50%Gaz naturel
Electricité 50%-GPL 50%Fioul
Electricité 50%-GPL 50%Electricité
Electricité 50%-GPL 50%CU
Energie de cuisson (GPL,gaz nat, élec)Energie de chauffage principale
Electricité 50%-GPL 50%GPL
Electricité 50%-GPL 50%Bois
Electricité 50%-gaz naturel 50%Gaz naturel
Electricité 50%-GPL 50%Fioul
Electricité 50%-GPL 50%Electricité
Electricité 50%-GPL 50%CU
Energie de cuisson (GPL,gaz nat, élec)Energie de chauffage principale
Jinqiu Chen Master 2 Statistique et Econométrie
20
Tableau 3 : hypothèses relatives aux énergies de production d’eau chaude sanitaire
Secteur tertiaire
Il s’agit de croiser des emplois (voir des surfaces – on suppose que les surfaces par emploi
sont stables au sein d’un même secteur d’activité) issus du RGP (INSEE 2006) avec des
consommations unitaires (consommation thermique et électrique par emploi). Les branches
d’activité du tertiaire retenues dans l’étude sont au nombre de 7 :
-bureaux et administrations
-santé
-enseignement
-sport loisir culture
-établissements du transport
-hôtels-cafés-restaurants
-commerces
ElectricitéGPL
ElectricitéBois
Gaz naturelGaz naturel
FioulFioul
ElectricitéElectricité
ElectricitéCU
Energie de production d’eau chaude sanitaireEnergie de chauffage principale
ElectricitéGPL
ElectricitéBois
Gaz naturelGaz naturel
FioulFioul
ElectricitéElectricité
ElectricitéCU
Energie de production d’eau chaude sanitaireEnergie de chauffage principale
Jinqiu Chen Master 2 Statistique et Econométrie
21
Secteur industriel
Il s’agit de croiser des emplois (voir des surfaces – on suppose que les surfaces par emploi
sont stables au sein d’un même secteur d’activité) issus du RGP (INSEE 2006) avec des
consommations unitaires (consommation thermique et électrique par emploi). Les branches
d’activité du secteur industriel retenues dans l’étude sont au nombre de 9 :
-chimie, caoutchouc, plastique
-métallurgie et transformation des métaux
-industries agro alimentaires
-industries du papier carton
-industrie textile, cuir, habillement
-construction naval et aéronautique
-construction électrique et électronique
-industries diverses
Jinqiu Chen Master 2 Statistique et Econométrie
22
3.2 Les Formules des consommations estimées du modèle initial
Les Formules du modèle initial permettant le calcul des consommations de gaz naturel
et d’électricité sont détaillées en annexe. ci dessous, vous trouverez un exemple :
Consommation estimée de gaz naturel pour la cuisson des résidences
(d’après les hypothèses relatives aux énergies de cuisson du tableau 2, une moitié des appartements et une moitié des maisons de chauffage central avec gaz naturel utilisent le gaz naturel pour la cuisson)
= parc de logements *coefficient unitaire gaz naturel résidentiel_cuisson
=(PLMCCav75GN * CUMCCav75GN_cuisson + PLMCC75a81GN * CUMCC75a81GN_cuisson
+ PLMCC82a89GN * CUMCC82a89GN_cuisson + PLMCCap90GN * CUMCCap90GN_cuisson
+PLMCIav75GN * CUMCIav75GN_cuisson + PLMCI75a81GN * CUMCI75a81GN_cuisson
+ PLMCI82a89GN*CUMCI82a89GN_cuisson + PLMCIap90GN*CUMCIap90GN_cuisson)
*50%*110
+PLApCCav75GN * CUApCCav75GN_cuisson + PLApCC75a81GN * CUApCC75a81GN_cuisson
+PLApCC82a89GN * CUApCC82a89GN_cuisson + PLApCCap90GN * CUApCCap90GN_cuisson
+PLApCIav75GN* CUApCIav75GN_cuisson + PLApCI75a81GN * CUApCI75a81GN_cuisson
+PLApCI82a89GN*CUApCI82a89GN_cuisson+ PLApCIap90GN*CUApCIap90GN_cuisson)
Jinqiu Chen Master 2 Statistique et Econométrie
23
* 50%*65
Ainsi sont modélisées les consommations énergétiques (toutes énergies) des secteurs résidentiel / tertiaire et industrie. Par la suite, nous ne nous intéresserons qu’aux données de consommation de gaz naturel et d’électricité. Il s’agira dans un premier de tester la robustesse du modèle par rapport aux données réelles fournies par ERDF et GRDF et dans un second temps d’améliorer le modèle pour ces deux énergies.
IV. Tester la robustesse du modèle initial Il y a 3019 communes au total dans la région Midi-Pyrénées. La région Midi-Pyrénées
est une région du sud-ouest de la France de tradition occitane qui regroupe huit
départements : l’Ariège, l’Aveyron, la Haute-Garonne, le Gers, le Lot, les Hautes-Pyrénées, le
Tarn et le Tarn-et-Garonne. C’est la deuxième plus grande région de France (derrière la
Guyane) avec huit départements et plus de 45 000 km². Sa plus grande ville est Toulouse qui
est également sa préfecture. La carte au-dessous nous montre les huits départements de
Midi-Pyrénées.
Les consommations énergétiques ont été estimées au niveau communal pour la région
Midi-Pyrénées. ERDF et GRDF nous ont fourni les consommations de distribution d’électricité
et de gaz naturel pour la plupart des communes de Midi-Pyrénées. Une comparaison entre
données réelles et données estimées nous permettra de tester la robustesse du modèle.
Jinqiu Chen Master 2 Statistique et Econométrie
24
4.1 Electricité
Pour pouvoir comparer consommations réelles d’électricité fournies par ERDF2 et
consommations estimées d’électricité à partir de notre modèle, nous supprimons les
communes suivantes :
- Les communes fournies par des régies-distributeurs locaux (liste des communes en annexe).
- Les communes où se trouvent de grandes industries alimentées par RTE (liste des communes en annexe).
- Les communes où les consommations réelles fournies par ErDF sont ICS ou nulles
L’analyse portera sur 2906 communes. Dans un premier, je visualise les données afin d’appréhender la relation entre conso
estimées et conso réelles (c’est à dire les points sont sur la droite y x ). L’ordonnée
« consoestim » représente la consommation estimée de l’électricité. L’abscisse
« consoreel_ERDF » représente la consommation réelle recensée par ERDF. On constate que
les points sont alignés y x .
La plupart des consommations est inférieure à 100000 Mwh, d’où l’agrandissement ci-
dessous.
2ERDF: filiale à 100 % d’EDF, est le gestionnaire du réseau public de distribution d’électricité sur 95 % du territoire français
continental.
Jinqiu Chen Master 2 Statistique et Econométrie
25
Corrélation entre la consommation réelle et la consommation estimée de l’électricité :
Un autre moyen de vérifier cette pertinence est le coefficient de corrélation en
consommation réelle et estimée.
Le coefficient de corrélation est de 0.978 (proche de 1). Cela signifie que la
consommation estimée d’électricité est fortement liée à la consommation réelle
d’électricité. Ces deux séries de données varient dans un même sens.
En probabilités et en statistique, étudier la corrélation entre deux ou plusieurs variables aléatoires ou statistiques numériques, c’est étudier l’intensité de la liaison qui peut exister entre ces variables. Une mesure de cette corrélation est obtenue par le calcul du coefficient de corrélation linéaire. Ce coefficient est égal au rapport de leur covariance et du produit non nul de leurs écarts types. Le coefficient de corrélation est compris entre -1 et 1. Ainsi, un coefficient proche de 1 signifie une bonne relation entre les deux séries numériques.
Rappel du calcul du coefficient de corrélation entre deux séries et
Jinqiu Chen Master 2 Statistique et Econométrie
26
= covariance / écartype des deux variables
Bien que l’estimation issue du modèle initial est considérée comme étant
statistiquement « bonne », je souhaite améliorer le modèle afin de coller au mieux avec les
données réelles. Ainsi dans un premier temps, je vais tenter d’identifier et de caractériser les
communes pour lesquelles l’estimation est « moins bonne ».
Analyse de la différence entre consommation réelle et consommation estimée de
l’électricité :
Le graphique ci-dessous nous montre la différence entre les données de consommation
estimée de l’électricité et les données de consommation réelle fournies par ERDF
(diff=consoestim-consoreel_ERDF) selon les codes INSEE (pour chaque commune). La plupart
des points sont situés entre -20 000 Mwh et 20 000 Mwh. La plus grande différence t atteint
8 000 Mwh.
Communes aberrantes :
6 communes sont considérées aberrantes. Parmi ces 6 communes il existe seulement
deux communes (en jaune) Castelnau-d’Estrétefon et Biars-sur-Cère qui consomment moins
de 100000 Mwh d’électricité. Les quatre autres communes sont de grosses communes.
Jinqiu Chen Master 2 Statistique et Econométrie
27
4.2 Gaz naturel
Pour comparer les données de consommation réelle de gaz naturel fournies par GrDF3
et les données de consommation de gaz naturel estimées à partir de notre modèle, je
supprime les communes suivantes :
- Les trois communes ‘Carmaux’ (81064), ‘Lavaur’ (81140), ‘Lannemezan’ (65258) fournies par des régies (distributeurs locaux)
- Les communes où se trouvent de grandes industries alimentées par TIGF 4 . (30 communes-liste des communes en annexe).
- Les communes où les consommations réelles fournies par GRDF sont ICS ou nulles L’analyse portera sur 398 communes.
Dans un premier, je visualise les données afin d’appréhender la relation entre conso
estimées et conso réelles (c’est à dire les points sont sur la droite y x ).
L’axe horizontal représente les consommations estimées du gaz naturel pour ces 398
communes. L’axe verticale représente les consommations réelles du gaz naturel fournies par
GRDF. On constate que la plupart des points sont alignés y x . Plus la consommation est
petite, plus elle est proche de la consommation réelle.
3 GrDF: Créé le 31 décembre 2007, GrDF, filiale à 100 % de GDF SUEZ, regroupe l'ensemble des activités de distribution de
gaz naturel en France. La filiale est rattachée à la branche Infrastructures de GDF SUEZ. Acteur stratégique du marché de l'énergie, GrDF est au service des fournisseurs, des partenaires de la filière gaz naturel et des collectivités locales.
4 TIGF : une nouvelle raison sociale, synonyme de nouvelles ambitions dans notre métier de logisticien,
essentiel au bon fonctionnement d’un marché gazier plus ouvert.
Jinqiu Chen Master 2 Statistique et Econométrie
28
La plupart des consommations est inférieure à 100000 Mwh, d’où l’agrandissement ci-
dessous.
Corrélation entre la variable consommation réelle et la variable consommation estimée du
gaz naturel :
Comme pour l’électricité, je calcule le coefficient de corrélation :
Jinqiu Chen Master 2 Statistique et Econométrie
29
Le coefficient de corrélation est de 0.916 (proche de 1). Cela signifie que la
consommation estimée de gaz naturel et la consommation réelle de gaz naturel sont deux
variables fortement corrélées (le modèle est bon). Ces deux séries de données varient dans
un même sens.
Analyse de la différence entre consommation réelle et consommation estimée du gaz
naturel:
Le graphique ci-dessous nous montre la différence entre la consommation estimée du
gaz naturel et la consommation fournie par GRDF (diff=consoestim-consoreel_GRDF) pour
ces 398 communes selon les codes INSEE. La plupart des points sont situés entre -30000
Mwh et 3000 Mwh. La plus grande différence atteint 14000 Mwh.
Commune aberrantes :
13 communes sont considérées aberrantes qui ont une différence supérieure à 30000
Mwh ou inférieure à -30000 Mwh. Parmi ces 13 communes il existe 8 communes (en jaune)
qui consomment moins de 100000 Mwh de gaz naturel. Les 5 autres communes (en gris)
sont de grosses communes (c’est à dire les communes qui consomment plus de 100
000Mwh).
Jinqiu Chen Master 2 Statistique et Econométrie
30
Les trois communes Onet-le-Château, Rodez et Castres sont aberrantes pour la
consommation d’électricité et celle de gaz naturel.
V. Amélioration du modèle global
Je vais faire une régression linéaire multiple à partir des données ERDF et GRDF comme
un nouveau modèle.
5.1 Théorie : Qu’est ce que la régression linéaire multiple ?
La régression linéaire multiple est une analyse statistique qui décrit les variations d'une variable endogène associée aux variations de plusieurs variables exogènes (c’est une généralisation de la régression linéaire simple).
Etant donné un échantillon nous cherchons à expliquer, avec le plus de précision possible, les valeurs prises par Yi, dite variable endogène (dans le cas concret, les données ERDF et GRDF), à partir d'une série de variables explicatives
(dans notre cas concret, les données issues du RGP INSEE 2006). Le modèle théorique, formulé en termes de variables aléatoires, prend la forme
où est l'erreur du modèle qui exprime, ou résume, l'information manquante dans
l'explication linéaire des valeurs de Yi (données ERDF et GRDF) à partir des (données INSEE – emplois et logements.). sont les paramètres à estimer (dans notre étude, il s’agit des coefficients de consommation unitaires).
Jinqiu Chen Master 2 Statistique et Econométrie
31
5.1.1 Définition du problème – la régression linéaire multiple est-elle valable ?
En pratique il convient de vérifier le respect de l’hypothèse d’homoscédasticité pour
s’assurer que le modèle est correct.
Comme en régression simple, les hypothèses permettent de déterminer les propriétés des estimateurs (biais, convergence) et donc de la qualité du modèle. Lorsque les hypothèses initiales sont respectées, l'estimateur des MCO 5 (Moindres Carrés Ordinaires) possède d'excellentes propriétés et le modèle est particulièrement bon.
L'homoscédasticité est une propriété fondamentale de la regression et fait partie de ses hypothèses de base. La notion d'homoscédasticité s'oppose à celle d'hétéroscédasticité,
Ainsi l’hétéroscédasticité est l’indicateur d’une mauvaise qualité du modèle.
L’hypothèse d’homosédasticité impose que la variance des termes d’erreur soit constante pour chaque observation. i.e. pour toutes valeurs des variables explicatives nous avons Var(εi) = σ2 ∀i.
Tandis que dans le cas d'hétéroscédasticité, nous avons Var(εi) = σi
2, où σi
2 peut être
différent de σj
2, pour i ≠ j,
5.1.2 Les sources usuelles du problème : pourquoi l’hétéroscédasticité ?
Variables explicatives inobservées de variance différentes pour certains groupes (définis par des variables observées)
Modèle à « coefficients aléatoires » si le modèle sous-jacent est :
( )i i i iY X alors
( )
i
i i i i iY X X
Et, avec des termes d’erreurs indépendants
Observations représentant des moyennes sur des sous-groupes d’individus
Répétition d’une même valeur de la variable à expliquer pour des valeurs différentes d’une variable explicative (ex : regroupement en tranches pour le revenu, etc.).
5MCO : moindres carrés ordinaire est une méthode qui consiste à rechercher les valeurs des paramètres dans une régression linéaire
Jinqiu Chen Master 2 Statistique et Econométrie
32
5.1.3 Les conséquences
Les MCO restent sans biais et convergents, même en présence d’hétéroscédasticité
La matrice de variance covariance des coefficients estimés est biaisée en présence d’hétéroscédasticité
On ne peut plus appliquer les tests d’hypothèses post-estimation (t statistics, F statistics ou LM statistics)
5.1.4 Méthode de correction
Le cas idéal
Dans le modèle homoscédastique Y X , aucune correction n’est nécessaire.
2 2
1 0 0
0 1 0
0 0 1
I
L’estimateur BLUE est :
1' 'a X X X Y
Une hétéroscédasticité de forme connue : la méthode des MCP
Dans un modèle hétéroscédastique Y X où 2 2| |V X E X h X
,
- La variance n’est pas constante : elle est fonction des X.
2 2 2( | ) |i i i i i iV X E X h X h
- h(x) est une fonction des variables explicatives, foncton qui détermine l’hétéroscédasticité.
h(x)>0, pour toutes les valeurs possibles des X (afin de garantir une variance positive).
On obtient un terme d’erreur homoscédastique en multipliant chaque observation i par
1/ 2
1/ ih.
0 1 1
* * * * *
0 0 1 1
/ / / ... / /
...
i i i i i k ik i i i
i i i k ik i
y h a h a x h a x h h
y a x a x a x
Si h(X) est connu, on peut minimiser la somme du carré des résidus dits ‘Pondérés’ par les MCO.
Jinqiu Chen Master 2 Statistique et Econométrie
33
* 2 * * * * 2
0 0 1 1
1 1
min ( ) min ( ... )N N
i i i i k ik
i i
y a x a x a x
Il s’agit de la méthode des MCP/WLS(Moindres Carrés Pondérés/Weighted Least Squares), qui est un cas particulier des ‘Moindres Carrés Généralisés’(MCG).
Lorsque la méthode des MCG est utilisée pour corriger une hétéroscédasticité de forme connue, on parle des MCP.
Contrairement à , * est homoscédastique.
2* * * *2
2 2 2 2
|
/ ( ) / ( ) /
i i i i i
i i i i i i
V X E E E
E h E h h h
Conclusion : * 2| | /i i i i iV X V X h
Notez que, si h(x) est connue, les estimateurs des MCP sont sans biais et BLUE.
Une hétéroscédasticité de forme inconnue : la méthode des MCGF
En pratique, la forme (source/cause) exacte d’hétéroscédasticité est (très souvent) inconnue.
- Quelle est la forme exacte de ( )h X ? Autrement dit, quelle est la relation exacte entre ih
et les iX ?
Pour pouvoir utiliser les MCP directement sur la régression originelle, on supposait ( )h X connue. C’est rarement le cas.
La méthode des MCGF/FGLS (Moindres Carrés Généralisés Faisables/Feasible Generalized Least Squares) permet d’estimer l’hétéroscédasticité.
- Une approche courante est de considérer que ( )h X prend la forme ‘théorique’ suivante ;
0 1 1 2 2( ) exp( ... )k kh X x x x où ( ) 0i ih X h
Dans un modèle hétéroscédastique Y X , on a :
2
0 1 1 2 2
2 2
0 1 1 2 2
2 2
0 1 1 2 2
2
0 1 1 2 2
( | ) exp( ... )
exp( ... )
log log ... log( )
log ...
k k
k k
k k
k k
V X x x x
x x x
x x x
x x x
Pour estimer les coefficients i (et ne pas les supposer connus), on remplace 2 par sa
contrepatie observable 2e .
Jinqiu Chen Master 2 Statistique et Econométrie
34
2
0 1 1 2 2
0 1 1 2 2
log ...
...
exp( )
k k
k k
e x x x
g x x x
h g
avec 2logg e
En résumé, la méthode de MCGF consiste à :
1. Estimation des MCO sur le modèle original sans tenir compte de l’hétéroscédasticité.
2. Sauvegarde des résidus empiriques u
et computation de
2
ln( )u
3. Régression de
2
ln( )u
sur toutes les variables explicatives
4. Sauvegarde des valeurs prédites
2
( )g u
5. Estimation par Moindres Carrés Pondérés avec comme pondération : 1/ exp( )g
Le fait de devoir estimer h(X) rend les estimateurs des MCGF biaisés : ils ne sont donc pas BLUE.
- ils sont malgré tout consistants est asymptotiquement plus efficients que les estimateurs des MCO.
En présence d’hétéroscédasticité, pour des échantillons de grande taille, la méthode des MCGF reste une alternative attractive à cellle des MCO.
5.2 Application : le cas de l’Electricité
5.2.1 Construction de nouvelles variables
Ayant 96 catégories de logements pour le résidentiel, 7 branches d’activité dans le
tertiaire et 9 branches d’activité dans l’industrie, il y aura 112 variables explicatives
(régresseurs). Il convient donc de réduire le nombre de variables explicatives.
En vue d’optimiser le modèle, je tente de réduire le nombre de variables explicatives
pour le résidentiel.
Jinqiu Chen Master 2 Statistique et Econométrie
35
Comment définit-on un logement ? D’abord on définit s’il est une maison ou un
appartement. Deuxièment s’il a un chauffage central collectif ou individul. Troisièment s’il
est construit avant 1975, de 1975 à 1981, de 1982 à 1989 ou après 1990. Enfin on définit s’il
est chauffé à partir d’un chauffage urbain, du gaz naturel, du fioul, de l’électricité, du GPL ou
du bois.
A partir de ces caractéristiques, je définis de nouvelles variables décrites ci-dessous :
Mibis : le pourcentage des maisons individuelles par rapport au nombre total de logements
Apbis : le pourcentage des appartements par rapport au nombre total de logements
CCCbis : le pourcentage des logements avec chauffage central collectif par rapport au
nombre total de logements
CCIbis : le pourcentage des logements avec chauffage central individuel par rapport au
nombre total de logements
AV75bis : le pourcentage des logements construits avant 1975 par rapport au nombre total
de logements
De75a81bis : le pourcentage des logements construits de 1975 à 1981 par rapport au
nombre total de logements
De82a89bis : le pourcentage des logements construits de 1982 à 1989 par rapport au
nombre total de logements
Ap90bis : le pourcentage des logements construits après 1990 par rapport au nombre total
de logements
CUbis : le pourcentage des logements chauffés en base de chauffage urbain par rapport au
nombre total de logements
Elecbis : le pourcentage des logements chauffés en base de l’électricité par rapport au
nombre total de logements
GPLbis : le pourcentage des logements chauffés en base de GPL par rapport au nombre total
de logements
Gazbis : le pourcentage des logements chauffés en base du gaz naturel par rapport au
nombre total de logements
Fioulbis : le pourcentage des logements chauffés en base du fioul par rapport au nombre
total de logements
Boisbis : le pourcentage des logements chauffés en base du bois par rapport au nombre total
de logements
Jinqiu Chen Master 2 Statistique et Econométrie
36
Pour éviter tout problème de multi colinéarité, j’ai éliminé une variable par
caractéristique.
Les variables éliminées sont les suivantes : Apbis, CCIbis, Ap90bis, Boisbis .
Ainsi au lieu de travailler à partir des 96 catégories de logements du modèle initial,
seules 10 variables explicatives du résidentiel seront intégrées à la modélisation. Au total, 26
variables explicatives sont intégrées.
5.2.2 Modélisation
Pour le choix du modèle j’ai utilisé la méthode backward (ou descendante) qui consiste à
partir de la régression de la consommation réelle en électricité sur toutes les variables
explicatives des secteurs résidentiel (les nouvelles variables définies précédemment),
tertiaire et industriel et d’éliminer de manière itérative (pas par pas) la variable la moins
significative jusqu’à n’avoir que des variables significatives au seuil conventionnel de 5%.
Ainsi j’a obtenu à la 4ième étape du processus les résultats suivants pour la consommation
en électricité :
Jinqiu Chen Master 2 Statistique et Econométrie
37
Parmi les 26 variables de départ, la méthode permet de garder les 22 variables les plus
significatives à 5%. Par la suite nous ne nous intéressons qu’à ces 22 variables. Ces
coefficients sont significativement différents de 0 à 5%.
Pourquoi certains coefficients sont-ils négatifs ?
-2284.32 est le coefficient de la variable Av75bis (pourcentage des logements construits
avant 1975). Cela signifie que si AV75bis augmente de 1%, la consommation d’électricité de
la commune va diminuer de 22.8432 Mwh. En d’autres termes, plus la part des logements
anciens est forte et moins grande est la consommation électrique de la commune. En effet,
les logements anciens sont davantage chauffés à partir des autres énergies (gaz naturel dans
les grandes villes, bois ou fioul dans les campagnes). L’électricité apparait comme étant
l’énergie de chauffage des logements récents.
De même pour la variable CCCbis (pourcentage des logements avec un chauffage central
collectif). En effet, par définition, le chauffage central collectif ne concerne pas l’électricité.
Concernant la variable « bureaux », l’interprétation sur coefficient est complexe. Aussi je
décide d’éliminer cette variable :
Jinqiu Chen Master 2 Statistique et Econométrie
38
R2 ajusté (coefficient de détermination) est de 0.962. Il signifie que 96.2% des
consommations réelles en électricité peuvent être expliquées par les variables explicatives
de la régression.
Les résidus sont-ils homoscédastiques ? (Qualité du modèle)
Pour répondre à cette question, je fais une régression de consommation électrique sur
ces 21 variables en faisant un test d’homoscédasticité avec deux méthodes :test de White et
test de Breusch Paggan dans la procédure Model. Cest tests ont pour hypothèses
H0 : les résidus sont homoscédastiques
Contre
H1 : les résidus sont hétéroscédastiques OU le modèle est mal spécifié.
Le résultat de ce test est :
Toute les p-values sont inférieures au seuil conventionnel de 5% qui conduit au rejet de
l’hypothèse nulle. Donc les résidus sont hétéroscédastiques ou le modèle est mal spécifié.
Ce graphique montre que les résidus sont fortement liés à la variable à expliquer.
Jinqiu Chen Master 2 Statistique et Econométrie
39
Avec le problème d’hétéroscédasticité, les estimateurs issus de la méthode Moindres
Carrés Ordinaires (MCO) sont bons et sans biais. Mais les écart-types obtenus pour les
estimations des paramètres du modèle sont biaisés et les tests d’inférence statistique (p.e.,
les t-test, F-test et LM-test) ne sont pas fiables.
Pour remédier à ce problème d’hétéroscédasticité, procédons à la méthode des MCGF
(Moindres Carrés Généralisés Faisables).
Ce qui conduit au résultat suivant :
On observe un changement des paramètres estimés et un changement des valeurs des
écarts types. Certains ont perdu leur significativité au seuil de 5%. En effet un changement
de variance entraîne un changement de statistique de test, donc de p-value. Le R2 ajusté
diminue un peu pour atteindre 0.9293.
Nous allons itérer cette régression en retirant à chaque étape la variable la moins
significative (Backward manuel). Finalement on obtient :
Jinqiu Chen Master 2 Statistique et Econométrie
40
Le coefficient de la variable Av75bis est encore négatif. R2 (coefficient de
détermination) est de 0.9293.
Les résidus sont homoscédastiques:
Jinqiu Chen Master 2 Statistique et Econométrie
41
Le modèle global retenu est donc (R2 ajusté = 0.9293 ; résidus homoscédastiques) :
0 1 1 2 2 18 18...consoelecY X X X
Consommation estimée d’électricité =
148.12 - 341.14*av75bis + 2636.27*gazbis + 808.96*fioulbis + 3190.25*elecbis
+35.25*hotel_resto + 7.75*sante + 20.5*education + 43.46*sport_loisir_cult
+25.23*commerce + 29.22*transport + 30.52*Chimi_caoutchouc_plastique
+28.07*Metallurgie_et_transformation_de+37.7*Industrie_des_produits_mineraux
+41.1*Industries_agro_alimentaires+37.9*Industrie_du_papier_carton
+26.11*Industrie_textile_cuir_habill+13.49*Construction_electrique_et_electr
+14.69*Industries_diverses
Comme il existe les estimateurs négatifs dans la régression. 8 communes ont une
estimation négative de la consommation électrique (0.3%). Sur le graphique ci-dessous, je
vais faire une comparaison entre la consommation réelle et la consommation estimée par la
régression en éliminant ces 8 communes.
Jinqiu Chen Master 2 Statistique et Econométrie
42
Analyse de la différence entre consommation réelle et consommation estimée de
l’électricité :
On peux constater une amélioration de la nouvelle modélisation parceque l’écart entre
la consommation réelle et la consommation estimée est entre -100 000Mwh et 50 000Mwh.
Au initial l’écart est entre -70 000Mwh et 80 000Mwh.
Jinqiu Chen Master 2 Statistique et Econométrie
43
5.3 Application : le cas du Gaz Naturel
Supposons que seuls les logements chauffés en base au gaz naturel utilisent du gaz
naturel pour les autres usages notamment l’eau chaude sanitaire et la cuisson. Donc on
s’intéresse seulement 16 catégories de logements dans le résidentiel, 7 catégories pour le
tertiaire et 8 pour l’industrie (soit 31 variables explicatives). J’ai fait la régression sur toutes
les variables en utilisant la méthode backward. J’ai obtenu à la 14ème étape du processus les
résultats suivants pour la consommation en gaz naturel :
Parmi les 31 variables de départ, la méthode permet de garder les 18 variables les plus
significatives à 5%. Par la suite nous ne nous intéresserons qu’à ces 18 variables. Ces
coefficients sont significativement différents de 0 à 5%.
Mais il existe 5 variables avec un coefficient estimé négatif (ApCC75a81GN,
ApCI82a89GN, Transport, Chimie caoutchouc plastique, Industries du papier carton). Ces
coefficients sont difficilement interprétables. Nous décidons de les éliminer de la régression.
Jinqiu Chen Master 2 Statistique et Econométrie
44
R2 ajusté est assez proche de 1. Il signifie que 97.07% des consommations réelles en gaz
naturel peuvent être expliquées par les variables explicatives dans la régression.
Les résidus sont-ils homoscédastiques ?
Pour répondre à cette question, je fais une régression de consommation du gaz naturel
sur ces 18 variables en faisant un test d’homoscédasticité avec deux méthodes :test de
White et test de Breusch Paggan dans la procédure Model. Ces tests ont pour hypothèses
H0 : les résidus sont homoscédastiques
Contre
H1 : les résidus sont hétéroscédastiques OU le modèle est mal spécifié.
Le résultat de ce test est :
Toutes les p-values sont inférieures au seuil conventionnel de 5% ce qui conduit au rejet
de l’hypothèse nulle. Donc les résidus sont hétéroscédastiques ou le modèle est mal spécifié.
Jinqiu Chen Master 2 Statistique et Econométrie
45
Ce graphique montre que les résidus sont fortement liés à la variable à expliquer.
Avec le problème d’hétéroscédasticité, les estimateurs issus de la méthode Moindres
Carrés Ordinaires (MCO) sont bons et sans biais. Mais les variance sont fausses et tous les
tests seront faux.
Pour remédier à ce problème d’hétéroscédasticité, procédons à la méthode des MCGF
(Moindres Carrés Généralisés Faisables).
Ce qui conduit au résultat suivant :
Jinqiu Chen Master 2 Statistique et Econométrie
46
On observe un changement des paramètres estimés et un changement des valeurs des
écarts types. Certains ont perdu leur significativité au seuil de 5%. En effet un changement
de variance entraîne un changement de statistique de test, donc de p-value. Le R2 diminue
un peu (0.9485).
Nous allons itérer cette régression en retirant à chaque étape la variable la moins
significative (Backward manuel). Finalement nous obtenons :
Les résidus deviennent homoscédastiques :
Ainsi le modèle global retenu pour la modélisation des consommations de gaz naturel est le
suivant :
R2 ajusté = 0.9485 ; résidus homoscédastiques
Jinqiu Chen Master 2 Statistique et Econométrie
47
0 1 1 2 2 10 10...consogazY X X X
Consommation estimée de gaz naturel =
323.3 + 23.71*MCIav75GN + 30.62*ApCCav75GN + 13.7*ApCIav75GN +25.83*MCIap90GN
+37.1*ApCIap90GN +56.98*hotel_resto +10.46*sante +27.7*Industries_agro_alimentaires
+60.1*Industrie_textile_cuir_habill +10.39*Industrie_dverses
Analyse de la différence entre consommations réelles et consommations estimées du gaz
naturel:
Jinqiu Chen Master 2 Statistique et Econométrie
48
On constate une amélioration de la nouvelle modélisation parceque le plus grand écart
entre la consommation réelle et la consommation estimée est entre -60000Mwh et 100000
Mwh. Au initial l’écart est entre -100000Mwh et 200000Mwh.
VI. Approche sectorielle (répartition)
Désormais il s’agit d’estimer les consommations énergétiques par secteur (résidentiel /
tertiaire / industrie). Pour l’électricité nous ne disposons que de 27 communes pour
lesquelles des secteurs sont différenciés (estimation ERDF). Comment puis-je estimer les
consommations sectorielles pour toutes les communes de Midi-Pyrénées ?
6.1 Méthodologie
Y=conso totale=Y1 + Y2 +Y3
Y1 : conso résidentielle
Y2 : conso tertiaire
Y3 : conso industrielle
Estimation des parts de ces 3 secteurs :
Jinqiu Chen Master 2 Statistique et Econométrie
49
1 27
1 11 1 27
1 27
2 22 1 27
1 27
3 33 1 27
....%
....
....%
....
....%
....
total total
total total
total total
Y Yresidence
Y Y
Y Ytertiaire
Y Y
Y Yindustrie
Y Y
Pour chaque commune i, la consommation estimée est la suivante :
1 1
2 2
3 3
i i
total
i i
total
i i
total
Y Y
Y Y
Y Y
6.2 Verification de la qualité de prédiction
Pour vérifier la qualité de prédiction, je vais faire une comparaison entre les
consommations estimées par l’ancien modèle (ligne bleue), par la méthode des parts (ligne
verte) et avec les données fournies par ERDF (ligne rouge) pour ces 27 communes.
D’après ces trois graphiques, notons que la ligne rouge (données ERDF) et la ligne verte
(part estimée) se superposent pour ces trois secteurs. Mais la ligne bleue (ancien modèle)
dévie un peu la ligne rouge. La méthode des parts estimées 1 2 3, ,
semblent être une
bonne méthode de sectorisation des consommations énergétiques. Cependant l’exercice
ne porte que sur 27 communes.
Secteur résidentiel
Jinqiu Chen Master 2 Statistique et Econométrie
51
VII. Conclusion Durant mon stage j’ai réalisé différentes tâches : tests de corrélation, amélioration du
modèle global et proposition d’une méthode d’estimation des consommations sectorielles
Mes principaux résultats sont :
- La méthode proposée par l’OREMIP (et appliquée par de nombreux observatoires régionaux de l’énergie) pour estimer les consommations énergétiques au niveau communal est bonne (voir pages 25 et 28 – coefficients de corrélation pour les consommations de gaz naturel et d’électricité)
- J’ai construit deux nouveaux modèles globaux permettant l’estimation des consommations au niveau communal d’électricité (page 41) et de gaz naturel (page 47). Ces modèles sont bons (R2ajustés proches de 1 – résidus homoscédastiques). Ils pourront être utilisés pour estimer les données des communes alimentées par les régies locales, par RTE, par TIGF ou pour lesquelles les données sont ICS et donc non disponibles.
J’ai proposé une méthode permettant la sectorisation (résidentiel / tertiaire / industrie) des consommations d’énergie au niveau communal. Cependant l’idéal serait de disposer de données réelles fournies par ERDF et GRDF (consommation par secteur). Il est apparu complexe de définir un nouveau modèle. En effet peu de données sont disponibles annuellement au niveau communal sur l’ensemble de la région Midi-Pyrénées (en dehors des logements et des emplois).
Mon stage m’a permis de mettre en application mes connaissances relatives au logiciel SAS et en statistiques. D’autre part j’ai acquis de nombreuses connaissances dans le domaine de l’environnement et plus particulièrement de l’énergie.
Jinqiu Chen Master 2 Statistique et Econométrie
52
VIII. Bibliographie
Livres:
Damodar N.Gujarati. Basic Econometrics. America. fourth edition. 1996.
Ruan Jin. De l’Introduction au Maîtrise du SAS. Posts & Telecom Press. Pékin, 2009.
SITES INTERNET CONSULTES:
http://perso.fundp.ac.be/~mpetijea/ModEco/ch07.pdf
http://www.gate.cnrs.fr/perso/fourni...edasticite.pdf
Jinqiu Chen Master 2 Statistique et Econométrie
53
IX. Annexe
Liste des communes
Liste des communes où se trouvent de grandes industries alimentées par RTE et TIGF
Jinqiu Chen Master 2 Statistique et Econométrie
54
Liste des communes alimentées par Régie (électricité)
Formules du modèle initial pour calculer les consommations de gaz
naturel
Consommation estimée de gaz naturel
= consommation estimée résidentielle + consommation estimée tertiaire + consommation
estimée industrielle
= structure du parc de logement * coefficient unitaire gaz naturel résidentiel + structure
emploi tertiaire * coefficient unitaire gaz naturel tertaire + structure emploi industrie *
coefficient unitaire du gaz naturel industriel
Pour chaque commune, les formules pour calculer les consommations de gaz naturel dans la
résidence, le tertiaire et l’industrie sont les suivantes :
Consommation estimée de gaz naturel dans le tertiaire : = structure emploi tertiaire *coefficient unitaire gaz naturel tertaire
=nbr6 bureaux et administrations * CU7 bureaux et adminstration
+ nbr santé * CU santé
+nbr enseignement * CU enseignement
6 nbr
6 bureaux et administrations : Nombre d’emplois qui travaillent dans le secteur bureaux et administrations
7 CU
7 bureaux et adminstration : Consommation unitaire (kwh/emploi) du gaz naturel dans le secteur bureaux
et administrations
Jinqiu Chen Master 2 Statistique et Econométrie
55
+nbr sport loisir culture * CU sport loisir culture
+nbr établissements du transport * CU établissements du transport
+nbr hotêls-cafés-restaurants * CU hotêls-cafés-restaurants
+nbr commerces * CU commerces
Consommation estimée de gaz naturel dans l’industrie: = structure emploi industriel *coefficient unitaire gaz naturel industriel
=nbr chimie, caoutchouc, plastique* CU chimie, caoutchouc, plastique
+ nbr métallurgie et transformation des métaux * CU métallurgie et transformation des métaux
+nbr industrie des produits minéraux * CU industrie des produits minéraux
+nbr industries agro alimentaires * CU industries agro alimentaires
+nbr industrie du papier carton * CU industrie du papier carton
+nbr industrie textile, cuir, habillement * CU industrie textile, cuir, habillement
+nbr construction naval et aéronautique * CU construction naval et aéronautique
+nbr construction électrique et électronique * CU construction électrique et électronique
+nbr industrie diverses * CU industrie diverses
Consommation estimée de gaz naturel dqns le résidentiel : = consommation estimée de gaz naturel pour le chauffage principal des résidences
+Consommation estimée de gaz naturel pour la production d’eau chaude sanitaire des résidences
+Consommation estimée de gaz naturel pour la cuisson des résidences
Consommation estimée de gaz naturel pour le chauffage principal des résidences
= parc de logements *coefficient unitaire gaz naturel résidentiel_chauffage principal
=(PLMCCav75GN8 * CUMCCav75GN_CP 9 + PLMCC75a81GN * CUMCC75a81GN_CP
+ PLMCC82a89GN * CUMCC82a89GN_CP + PLMCCap90GN * CUMCCap90GN_CP
+PLMCIav75GN10 * CUMCIav75GN_CP 11 + PLMCI75a81GN * CUMCI75a81GN_CP
8 PLMCCav75GN : Nombre de maisons de chauffage central collectif construites avant 1975 avec gaz naturel
9 CUMCCav75GN_CP : Consommation unitaire (kwh/m
2) du gaz naturel du chauffage principale pour les
maisons de chauffage central collectif construites avant 1975 avec gaz naturel 10
PLMCIav75GN : Nombre de maisons de chauffage central individuel construites avant 1975 avec gaz naturel
Jinqiu Chen Master 2 Statistique et Econométrie
56
+ PLMCI82a89GN * CUMCI82a89GN_CP + PLMCIap90GN * CUMCIap90GN_CP) *11012
+PLApCCav75GN 13* CUApCCav75GN_CP 14 + PLApCC75a81GN * CUApCC75a81GN_CP
+PLApCC82a89GN * CUApCC82a89GN_CP + PLApCCap90GN * CUApCCap90GN_CP
+PLApCIav75GN15 * CUApCIav75GN_CP 16 + PLApCI75a81GN * CUApCI75a81GN_CP
+PLApCI82a89GN* CUApCI82a89GN_CP + PLApCIap90GN * CUApCIap90GN_CP) * 6517
Consommation estimée de gaz naturel pour la production d’eau chaude sanitaire des résidences
(d’après les hypothèses relatives aux énergies de production d’eau chaude sanitaire du tableau 3, 100% des appartements et 100% des maisons de chauffage central avec gaz naturel utilisent le gaz naturel pour produire l’eau chaude sanitaire)
= parc de logements *coefficient unitaire gaz naturel résidentiel_eau chaude sanitaire
= (PLMCCav75GN * CUMCCav75GN_ECS18 + PLMCC75a81GN * CUMCC75a81GN_ECS
+ PLMCC82a89GN * CUMCC82a89GN_ECS + PLMCCap90GN * CUMCCap90GN_ECS
+PLMCIav75GN * CUMCIav75GN_ECS 19 + PLMCI75a81GN * CUMCI75a81GN_ECS
+ PLMCI82a89GN * CUMCI82a89GN_ECS + PLMCIap90GN * CUMCIap90GN_ECS ) *110
+PLApCCav75GN * CUApCCav75GN_ECS 20 + PLApCC75a81GN * CUApCC75a81GN_ECS
11
CUMCIav75GN_CP : Consommation unitaire (kwh/m2) du gaz naturel du chauffage principal pour les maisons
de chauffage central individuel construites avant 1975 avec gaz naturel 12
110 : la surface (en m2) d’une maison par hypothèse
13 PLApCCav75GN : Nombre des appartements de chauffage central collectif construits avant 1975 avec gaz
naturel 14
CUApCCav75GN_CP : Consommation unitaire (kwh/m2) du gaz natruel du chauffage principal pour les
appartements de chauffage central collectif construits avant 1975 avec gaz naturel
15 PLApCIav75GN : Nombre des appartements de chauffage central individuel construits avant 1975 avec gaz
naturel 16
CUApCIav75GN_CP: Consommation unitaire (kwh/m2) du gaz naturel du chauffage principal pour les
appartements de chauffage central individuel construits avant 1975 avec gaz naturel
17 65 : la surface (en m2) d’un appartement par hypothèse
18 CUMCCav75GN_ECS : Consommation unitaire (kwh/m
2) du gaz naturel de production d’eau chaude sanitaire
pour les maisons de chauffage central collectif construites avant 1975 avec gaz naturel 19
CUMCIav75GN_ECS : Consommation unitaire (kwh/m
2) du gaz naturel de production d’eau chaude sanitaire
pour les maisons de chauffage central individuel construites avant 1975 avec gaz naturel 20
CUApCCav75GN_ECS : Consommation unitaire (kwh/m2) du gaz naturel de production d’eau chaude
Jinqiu Chen Master 2 Statistique et Econométrie
57
+PLApCC82a89GN * CUApCC82a89GN_ECS + PLApCCap90GN * CUApCCap90GN_ECS
+PLApCIav75GN* CUApCIav75GN_ECS 21 + PLApCI75a81GN * CUApCI75a81GN_ECS
+PLApCI82a89GN* CUApCI82a89GN_ECS + PLApCIap90GN * CUApCIap90GN_ECS) * 65
Consommation estimée de gaz naturel pour la cuisson des résidences
(d’après les hypothèses relatives aux énergies de cuisson du tableau 2, une moitié des appartements et une moitié des maisons de chauffage central avec gaz naturel utilisent le gaz naturel pour la cuisson)
= parc de logements *coefficient unitaire gaz naturel résidentiel_cuisson
=(PLMCCav75GN * CUMCCav75GN_cuisson + PLMCC75a81GN * CUMCC75a81GN_cuisson
+ PLMCC82a89GN * CUMCC82a89GN_cuisson + PLMCCap90GN * CUMCCap90GN_cuisson
+PLMCIav75GN * CUMCIav75GN_cuisson + PLMCI75a81GN * CUMCI75a81GN_cuisson
+ PLMCI82a89GN*CUMCI82a89GN_cuisson + PLMCIap90GN*CUMCIap90GN_cuisson) *50%*110 +PLApCCav75GN * CUApCCav75GN_cuisson + PLApCC75a81GN * CUApCC75a81GN_cuisson
+PLApCC82a89GN * CUApCC82a89GN_cuisson + PLApCCap90GN * CUApCCap90GN_cuisson
+PLApCIav75GN* CUApCIav75GN_cuisson + PLApCI75a81GN * CUApCI75a81GN_cuisson
+PLApCI82a89GN*CUApCI82a89GN_cuisson+ PLApCIap90GN*CUApCIap90GN_cuisson)* 50%*65
Formules du modèle initial pour calculer les consommations d’électricité
Consommation estimée d’électricité
= consommation estimée résidentielle + consommation estimée tertiaire + consommation estimée industrielle
= structure du parc de logement * coefficient unitaire électricité résidentiel + structure emploi tertiaire * coefficient unitaire électricité tertiaire + sturcture emploi industrie * coefficient unitaire électricité industriel
sanitaire pour les appartements de chauffage central collectif construits avant 1975 avec gaz naturel
21 CUApCIav75GN_ECS : Consommation unitaire (kwh/m2) du gaz naturel de production d’eau chaude
sanitaire pour les appartements de chauffage central individuel construits avant 1975 avec gaz naturel
Jinqiu Chen Master 2 Statistique et Econométrie
58
Pour chaque commune, les formules pour calculer les consommations estimées d’électricité dans le résidentiel, le tertiaire et l’industrie sont les suivantes :
Consommation estimée d’électricité - tertiaire : = structure emploi tertiaire *coefficient unitaire electricité tertaire
=nbr bureaux et administrations * CU bureaux et adminstration
+ nbr santé * CU santé
+nbr enseignement * CU enseignement
+nbr sport loisir culture * CU sport loisir culture
+nbr établissements du transport * CU établissements du transport
+nbr hotêls-cafés-restaurants * CU hotêls-cafés-restaurants
+nbr commerces * CU commerces
Consommation estimée d’électricité – secteur industriel : = structure emploi industriel *coefficient unitaire électricité industriel
=nbr chimie, caoutchouc, plastique* CU chimie, caoutchouc, plastique
+ nbr métallurgie et transformation des métaux * CU métallurgie et transformation des métaux
+nbr industrie des produits minéraux * CU industrie des produits minéraux
+nbr industries agro alimentaires * CU industries agro alimentaires
+nbr industrie du papier carton * CU industrie du papier carton
+nbr industrie textile, cuir, habillement * CU industrie textile, cuir, habillement
+nbr construction naval et aéronautique * CU construction naval et aéronautique
+nbr construction électrique et électronique * CU construction électrique et électronique
+nbr industrie diverses * CU industrie diverses
Consommation estimée d’électricité - résidentiel : = consommation estimée d’électricité pour le chauffage principal des résidences
+consommation estimée d’électricité pour le chauffage d’appoint des résidence
+consommation estimée d’électricité pour la production d’eau chaude sanitaire des résidences +consommation estimée d’électricité pour la cuisson des résidences
+consommation estimée d’électricité spécifique
Jinqiu Chen Master 2 Statistique et Econométrie
59
Consommation estimée d’électricité pour le chauffage principal des résidences
= parc de logements *coefficient unitaire électricité résidentiel_chauffage principal
=(PLMCCav75elec* CUMCCav75elec_CP + PLMCC75a81elec * CUMCC75a81elec_CP
+ PLMCC82a89 elec * CUMCC82a89 elec_CP + PLMCCap90 elec * CUMCCap90 elec_CP
+PLMCIav75 elec * CUMCIav75 elec_CP + PLMCI75a81 elec * CUMCI75a81 elec_CP
+ PLMCI82a89 elec * CUMCI82a89 elec_CP + PLMCIap90 elec * CUMCIap90 elec_CP) *110
+PLApCCav75 elec * CUApCCav75 elec_CP + PLApCC75a81 elec * CUApCC75a81 elec_CP
+PLApCC82a89 elec * CUApCC82a89 elec_CP + PLApCCap90 elec * CUApCCap90 elec_CP
+PLApCIav75 elec * CUApCIav75 elec_CP + PLApCI75a81 elec * CUApCI75a81 elec_CP
+PLApCI82a89 elec * CUApCI82a89 elec_CP + PLApCIap90 elec * CUApCIap90 elec_CP) * 65
Consommation estimée d’électricité pour la production d’eau chaude sanitaire des résidences
(d’après les hypothèses relatives aux énergies de production d’eau chaude sanitaire du tableau 3, 100% des appartements et 100% des maisons de chauffage central avec chauffage urbain, avec électricité, avec bois et avec GPL utilisent l’électricité pour produire l’eau chaude sanitaire)
= parc de logements *coefficient unitaire électricité résidentiel_eau chaude sanitaire
= (PLMCCav75elec * CUMCCav75elec_ECS + PLMCC75a81elec * CUMCC75a81elec_ECS
+ PLMCC82a89elec * CUMCC82a89elec_ECS + PLMCCap90elec * CUMCCap90elec_ECS
+PLMCIav75elec * CUMCIav75 elec _ECS + PLMCI75a81 elec * CUMCI75a81 elec _ECS
+ PLMCI82a89 elec * CUMCI82a89 elec _ECS + PLMCIap90 elec * CUMCIap90 elec _ECS
+PLMCCav75chauffurbain * CUMCCav75chauffurbain_ECS
+PLMCC75a81chauffurbain * CUMCC75a81 chauffurbain _ECS
+ PLMCC82a89 chauffurbain * CUMCC82a89 chauffurbain _ECS
+ PLMCCap90 chauffurbain * CUMCCap90 chauffurbain _ECS
+PLMCIav75 chauffurbain * CUMCIav75 chauffurbain _ECS
+ PLMCI75a81 chauffurbain * CUMCI75a81 chauffurbain _ECS
Jinqiu Chen Master 2 Statistique et Econométrie
60
+ PLMCI82a89 chauffurbain * CUMCI82a89 chauffurbain _ECS
+ PLMCIap90 chauffurbain * CUMCIap90 chauffurbain _ECS
+ PLMCCav75bois * CUMCCav75 bois _ECS + PLMCC75a81 bois * CUMCC75a81 bois _ECS
+ PLMCC82a89 bois * CUMCC82a89 bois _ECS + PLMCCap90 bois * CUMCCap90 bois _ECS
+PLMCIav75 bois * CUMCIav75 bois _ECS + PLMCI75a81 bois * CUMCI75a81 bois _ECS
+ PLMCI82a89 bois * CUMCI82a89 bois _ECS + PLMCIap90 bois * CUMCIap90 bois _ECS
+ PLMCCav75GPL * CUMCCav75 GPL _ECS + PLMCC75a81 GPL * CUMCC75a81 GPL _ECS
+ PLMCC82a89 GPL * CUMCC82a89 GPL _ECS + PLMCCap90 GPL * CUMCCap90 GPL _ECS
+PLMCIav75 GPL * CUMCIav75 GPL _ECS + PLMCI75a81 GPL * CUMCI75a81 GPL _ECS
+ PLMCI82a89 GPL * CUMCI82a89 GPL _ECS + PLMCIap90 GPL * CUMCIap90 GPL _ECS
) *110
+ (PLApCCav75 elec * CUApCCav75 elec _ECS + PLApCC75a81 elec * CUApCC75a81 elec _ECS
+PLApCC82a89 elec * CUApCC82a89 elec _ECS + PLApCCap90 elec * CUApCCap90 elec _ECS
+PLApCIav75 elec * CUApCIav75 elec _ECS + PLApCI75a81 elec * CUApCI75a81 elec _ECS
+PLApCI82a89 elec * CUApCI82a89 elec _ECS + PLApCIap90 elec * CUApCIap90 elec _ECS
+PLApCCav75chauffurbain * CUApCCav75chauffurbain_ECS
+PLApCC75a81chauffurbain * CUApCC75a81 chauffurbain _ECS
+ PLApCC82a89 chauffurbain * CUApCC82a89 chauffurbain _ECS
+ PLApCCap90 chauffurbain * CUApCCap90 chauffurbain _ECS
+PLApCIav75 chauffurbain * CUApCIav75 chauffurbain _ECS
+ PLApCI75a81 chauffurbain * CUApCI75a81 chauffurbain _ECS
+ PLApCI82a89 chauffurbain * CUApCI82a89 chauffurbain _ECS
+ PLApCIap90 chauffurbain * CUApCIap90 chauffurbain _ECS
Jinqiu Chen Master 2 Statistique et Econométrie
61
+ PLApCCav75bois * CUApCCav75 bois _ECS + PLApCC75a81 bois * CUApCC75a81 bois _ECS
+ PLApCC82a89 bois * CUApCC82a89 bois _ECS + PLApCCap90 bois * CUApCCap90 bois _ECS
+PLApCIav75 bois * CUApCIav75 bois _ECS + PLApCI75a81 bois * CUApCI75a81 bois _ECS
+ PLApCI82a89 bois * CUApCI82a89 bois _ECS + PLApCIap90 bois * CUApCIap90 bois _ECS
+ PLApCCav75GPL * CUApCCav75 GPL _ECS + PLApCC75a81 GPL * CUApCC75a81 GPL _ECS
+ PLApCC82a89 GPL * CUApCC82a89 GPL _ECS + PLApCCap90 GPL * CUApCCap90 GPL _ECS
+PLApCIav75 GPL * CUApCIav75 GPL _ECS + PLApCI75a81 GPL * CUApCI75a81 GPL _ECS
+ PLApCI82a89 GPL * CUApCI82a89 GPL _ECS + PLApCIap90 GPL * CUApCIap90 GPL _ECS)*65
Consommation estimée d’électricité pour le chauffage d’appoint des résidences
(d’après les hypothèses relatives aux énergies de chauffage d’appoint du tableau 1, 25% des maisons de chauffage central avec chauffage urbain, avec fioul, avec gaz naturel et avec GPL et 100% des maisons avec bois utilisent l’électricité pour le chauffage d’appoint. En plus 100% des appartements de chauffage central avec chauffage urbain, avec fioul, avec gaz naturel, avec bois et avec GPL utilisent l’électricité pour le chauffage d’appoint)
La formule est longue et respecte les mêmes règles que précédemment.
Consommation estimée d’électricité pour la cuisson des résidences
(d’après les hypothèses relatives aux énergies de cuisson du tableau 2, 50% des maisons et 50% des appartements de chauffage central avec chauffage urbain, avec fioul, avec gaz naturel, avec électricité, avec bois et avec GPL utilisent l’électricité pour la cuisson.
La formule est longue et respecte les mêmes règles que précédemment.
Consommation estimée d’électricité spécifique
(on utilise l’électricité spécifique pour les maisons et les appartements de chauffage central avec chauffage urbain, avec fioul, avec gaz naturel, avec électricité, avec bois et avec GPL)
= parc de logements *coefficient unitaire électricité spécifique résidentiel
=(PLMCCav75elec * CUMCCav75elec_elecspec + PLMCC75a81elec * CUMCC75a81elec_ elecspec
Jinqiu Chen Master 2 Statistique et Econométrie
62
+ PLMCC82a89elec * CUMCC82a89elec_ elecspec + PLMCCap90elec * CUMCCap90elec_ elecspec
+PLMCIav75elec * CUMCIav75 elec _ elecspec + PLMCI75a81 elec * CUMCI75a81 elec _ elecspec
+ PLMCI82a89 elec * CUMCI82a89 elec _elecspec + PLMCIap90 elec * CUMCIap90 elec _ elecspec
+PLMCCav75chauffurbain * CUMCCav75chauffurbain_ elecspec
+PLMCC75a81chauffurbain * CUMCC75a81 chauffurbain _ elecspec
+ PLMCC82a89 chauffurbain * CUMCC82a89 chauffurbain _ elecspec
+ PLMCCap90 chauffurbain * CUMCCap90 chauffurbain _ elecspec
+PLMCIav75 chauffurbain * CUMCIav75 chauffurbain _ elecspec
+ PLMCI75a81 chauffurbain * CUMCI75a81 chauffurbain _ elecspec
+ PLMCI82a89 chauffurbain * CUMCI82a89 chauffurbain _ elecspec
+ PLMCIap90 chauffurbain * CUMCIap90 chauffurbain _ elecspec
+PLMCCav75bois*CUMCCav75 bois_elecspec + PLMCC75a81 bois * CUMCC75a81 bois _ elecspec
+PLMCC82a89bois*CUMCC82a89 bois_elecspec + PLMCCap90bois * CUMCCap90 bois _ elecspec
+PLMCIav75 bois * CUMCIav75 bois _ elecspec + PLMCI75a81 bois * CUMCI75a81 bois _ elecspec
+ PLMCI82a89 bois* CUMCI82a89bois_ elecspec + PLMCIap90 bois * CUMCIap90 bois _ elecspec
+PLMCCav75GPL*CUMCCav75 GPL _ elecspec + PLMCC75a81 GPL * CUMCC75a81 GPL _ elecspec
+ PLMCC82a89GPL*CUMCC82a89 GPL _ elecspec + PLMCCap90 GPL*CUMCCap90 GPL _ elecspec
+PLMCIav75GPL * CUMCIav75 GPL _ elecspec + PLMCI75a81 GPL * CUMCI75a81 GPL _ elecspec
+ PLMCI82a89 GPL * CUMCI82a89 GPL _ elecspec + PLMCIap90 GPL * CUMCIap90 GPL _ elecspec
Jinqiu Chen Master 2 Statistique et Econométrie
63
+PLMCCav75fioul*CUMCCav75fioul _elecspec + PLMCC75a81fioul * CUMCC75a81fioul_ elecspec
+ PLMCC82a89fioul*CUMCC82a89fioul_elecspec + PLMCCap90 fioul*CUMCCap90 fioul_ elecspec
+PLMCIav75 fioul * CUMCIav75 fioul _ elecspec + PLMCI75a81 fioul* CUMCI75a81fioul_ elecspec
+ PLMCI82a89fioul * CUMCI82a89fioul _ elecspec + PLMCIap90fioul * CUMCIap90fioul _ elecspec
+PLMCCav75gaz*CUMCCav75 gaz _elecspec + PLMCC75a81 gaz * CUMCC75a81 gaz _ elecspec
+ PLMCC82a89 gaz *CUMCC82a89 gaz _elecspec + PLMCCap90 gaz *CUMCCap90 gaz _ elecspec
+PLMCIav75 gaz * CUMCIav75 gaz _ elecspec + PLMCI75a81 gaz * CUMCI75a81 gaz _ elecspec
+ PLMCI82a89 gaz * CUMCI82a89 gaz _ elecspec + PLMCIap90 gaz * CUMCIap90gaz _ elecspec
) *110
+ (PLApCCav75elec*CUApCCav75elec_elecspec + PLApCC75a81elec*CUApCC75a81elec_ elecspec
+PLApCC82a89 elec*CUApCC82a89elec_elecspec + PLApCCap90elec*CUApCCap90elec_ elecspec
+PLApCIav75 elec * CUApCIav75 elec _ elecspec + PLApCI75a81 elec*CUApCI75a81elec_ elecspec
+PLApCI82a89 elec * CUApCI82a89 elec _ elecspec + PLApCIap90elec*CUApCIap90elec_ elecspec
+PLApCCav75chauffurbain * CUApCCav75chauffurbain_ elecspec
+PLApCC75a81chauffurbain * CUApCC75a81 chauffurbain _ elecspec
+ PLApCC82a89 chauffurbain * CUApCC82a89 chauffurbain _ elecspec
+ PLApCCap90 chauffurbain * CUApCCap90 chauffurbain _ elecspec
+PLApCIav75 chauffurbain * CUApCIav75 chauffurbain _ elecspec
Jinqiu Chen Master 2 Statistique et Econométrie
64
+ PLApCI75a81 chauffurbain * CUApCI75a81 chauffurbain _ elecspec
+ PLApCI82a89 chauffurbain * CUApCI82a89 chauffurbain _ elecspec
+ PLApCIap90 chauffurbain * CUApCIap90 chauffurbain _ elecspec
+ PLApCCav75bois*CUApCCav75 bois_elecspec + PLApCC75a81bois*CUApCC75a81bois_ elecspec
+ PLApCC82a89bois*CUApCC82a89bois_elecspec + PLApCCap90bois*CUApCCap90bois_ elecspec
+PLApCIav75bois * CUApCIav75bois_elecspec + PLApCI75a81 bois * CUApCI75a81 bois _ elecspec
+ PLApCI82a89bois * CUApCI82a89bois_elecspec + PLApCIap90bois * CUApCIap90bois _ elecspec
+PLApCCav75fioul*CUMCCav75fioul_elecspec + PLApCC75a81fioul* CUMCC75a81fioul_ elecspec
+PLApCC82a89fioul*CUMCC82a89fioul_elecspec + PLApCCap90fioul*CUMCCap90fioul_ elecspec
+PLApCIav75fioul * CUApCIav75 fioul_elecspec + PLApCI75a81fioul* CUApCI75a81fioul_ elecspec
+PLApCI82a89fioul * CUApCI82a89fioul_elecspec + PLApCIap90fioul *CUApCIap90fioul_ elecspec
+PLApCCav75gaz*CUApCCav75 gaz _elecspec + PLApCC75a81 gaz * CUApCC75a81 gaz _ elecspec
+PLApCC82a89gaz *CUApCC82a89 gaz _elecspec + PLApCCap90 gaz *CUApCCap90 gaz _ elecspec
+PLApCIav75 gaz * CUApCIav75 gaz _ elecspec + PLApCI75a81 gaz * CUApCI75a81 gaz _ elecspec
+ PLApCI82a89 gaz * CUApCI82a89 gaz _ elecspec + PLApCIap90 gaz * CUApCIap90gaz _ elecspec
+ PLApCCav75GPL* CUApCCav75GPL_elecspec + PLApCC75a81GPL * CUApCC75a81GPL_ elecspec
Jinqiu Chen Master 2 Statistique et Econométrie
65
+ PLApCC82a89GPL *CUApCC82a89GPL_elecspec + PLApCCap90GPL *CUApCCap90GPL_ elecspec
+PLApCIav75GPL *CUApCIav75 GPL _ elecspec + PLApCI75a81 GPL * CUApCI75a81 GPL _ elecspec
+PLApCI82a89GPL*CUApCI82a89GPL_elecspec + PLApCIap90GPL*CUApCIap90GPL_ elecspec)*65
Code SAS
/*importation les données de la consommation estimée du résidence à niveau
communal*/
/*importation les données de la consommation estimée du tertiaire à niveau
communal*/
/*importation les données de la consommation estimée de industrie à niveau
communal*/
/*importation des données réel de la consommation du GAZ*/
/*importation des données réel de la consommation de l'électricité*/
/*combinaison des consommations residence tertiaire et industrie*/
data oremip.consoestim;
merge oremip.residence oremip.tertiaire oremip.industrie;
by Code_INSEE;
run;
data oremip.consoestim;
set oremip.consoestim;
Conso_thermique_Elec__Mwh=Conso_thermique_Elec/1000;
Conso_thermique_GN__Mwh=Conso_thermique_GN/1000;
Conso_Elec_Specifique__Mwh=Conso_Elec_Specifique/1000;
Electricite_spe__Mwh=Electricite_spe;
UT_elec__Mwh=UT_elec;
UT_gaz__Mwh=UT_gaz;
run;
data oremip.consoestim;
set oremip.consoestim;
keep Code_INSEE COMMUNE Conso_thermique_Elec__Mwh Conso_thermique_GN__Mwh
Conso_Elec_Specifique__Mwh Electricite_spe__Mwh UT_elec__Mwh UT_gaz__Mwh
GAZ__Mwh_ ELECTRICITE__Mwh_;
run;
/**************************************************************************
***********************************************/
/*******************table de la consommation estimé du
gaz***************************************************************/
/**************************************************************************
***********************************************/
data oremip.consogazestim;
set oremip.consoestim;
Jinqiu Chen Master 2 Statistique et Econométrie
66
consogaz_total=Conso_thermique_GN__Mwh + UT_gaz__Mwh+ GAZ__Mwh_;
keep Code_INSEE COMMUNE Conso_thermique_GN__Mwh UT_gaz__Mwh GAZ__Mwh_
consogaz_total;
run;
/*creation une table gaztest comprenant consommation réelle et consommation
estimée*/
proc sort data=oremip.consogazestim;
by Code_INSEE;
run;
proc sort data=oremip.consogazreel;
by Code_INSEE;
run;
data oremip.testgaz (keep=Code_INSEE COMMUNE Conso_thermique_GN__Mwh
UT_gaz__Mwh GAZ__Mwh_ consogaz_total Total_vol);
merge oremip.consogazestim oremip.consogazreel;
by Code_INSEE;
run;
/*trouver 4 communes mesuré par Regie, pas par GRDF*/
data oremip.testgaz;
set oremip.testgaz;
rename GAZ__Mwh_=industrie;
rename Conso_thermique_GN__Mwh=residence;
rename UT_gaz__Mwh=tertiaire;
rename consogaz_total=consoestime;
rename total_vol=consoreelGRDF;
run;
proc sql;
select Code_INSEE, COMMUNE, consoreelGRDF
from oremip.testgaz
where COMMUNE="Lannemezan";
run;/* 65258 Lannemezan*/
proc sql;
select Code_INSEE, COMMUNE ,consoreelGRDF
from oremip.testgaz
where COMMUNE="Carmaux";
run;/* 81060 Carmaux*/
proc sql;
select Code_INSEE, COMMUNE,consoreelGRDF
from oremip.testgaz
where COMMUNE="Lavaur";
run;/* 81140 Lavaur*/
proc sql;
select Code_INSEE, COMMUNE
from oremip.testgaz
where COMMUNE="Carmausin";
run;
/*supprimation les 4 commune regies et 33 communes avec grandes industries:
gazgarde*/
data oremip.gazgarde;
set oremip.testgaz;
if (Code_INSEE in
('65258','81060','81140','9225','9261','9282','9331','12174','31069','31084
','31149','31303','31324','31403','31451','31483','31555',
'32155','65230','65258','65304','65440','81004','81105','81114','81297','31
291','32027','65417','81120','12233','81238','46294'))
then delete;
run;
/*supprimer les communes ou il n'y a pas de donnees consoreelGRDF*/
data oremip.gazgarde;
set oremip.gazgarde;
if consoreelGRDF=" " then delete;
Jinqiu Chen Master 2 Statistique et Econométrie
67
if consoreelGRDF=0 then delete;
run;
/*graphique de la relation entre consommation estimée et consommation
réelle*/
title "comparaison entre la consommation reelle et estimee du gaz naturel";
proc gplot data=oremip.gazgarde;
plot consoreelGRDF*consoestime;
run;
data oremip.gazgarde;
set oremip.gazgarde;
diff=consoestime-consoreelGRDF;
run;
proc means data =oremip.gazgarde;
var diff;
run;
data essai;
set oremip.gazgarde1;
if diff= -99062.68;
run;
proc print data=essai;
run;
/*graphique de la difference selon les departements*/
title "ecart entre la consommation reelle et estimee selon les code INSEE";
proc gplot data oremip.gazgarde;
plot diff*Code_INSEE;
run;
/*correlation entre consoestim et consoreelGRDF */
proc corr data=oremip.gazgarde;
var consoestime consoreelGRDF;
run;
/*test de non-différence: test wilcoxon*/
proc means data=oremip.gazgarde;
var consoestime consoreelGRDF;
run;
data test1(keep=Code_INSEE conso groupe );
set oremip.gazgarde;
rename consoestime=conso;
groupe=1;
run;
data test2(keep=Code_INSEE conso groupe);
set oremip.gazgarde;
rename consoreelGRDF=conso;
groupe=2;
run;
data test;
set test1 test2;
run;
proc npar1way data=test wilcoxon;
var conso;
class groupe;
output out=test;
run;
/*identifier les points aberrants pour le gaz*/
data pa;
set oremip.gazgarde;
if diff>-30000 and diff<30000
then ref=1;else ref=0;
run;
proc freq data=pa;
tables ref;
run;
Jinqiu Chen Master 2 Statistique et Econométrie
68
proc print data=pa;
where ref=0;
run;
/*identifier les communes qui ont une fausse enquête de chauffage gaz
naturel: pas encore fini*/
data enquetegaz(keep=Code_INSEE COMMUNE consoestime consoreelGRDF indesti);
set oremip.gazgarde;
if consoestime=0 then indesti=0; else indesti=1;
run;
data enquetegaz;
set enquetegaz;
if consoreelGRDF='.' then indreel=0; else indreel=1;
run;
data enquetegaz1;
set enquetegaz;
if indreel=indesti;
run;
/**************************************************************************
*********************************************************************/
/*table de la consommation estimé de l'electricite
*/
/**************************************************************************
*********************************************************************/
data oremip.consoelecestim;
set oremip.consoestim;
consoelec_total= Conso_thermique_Elec__Mwh + Conso_Elec_Specifique__Mwh+
Electricite_spe__Mwh + UT_elec__Mwh + ELECTRICITE__Mwh_;
keep Code_INSEE COMMUNE Conso_thermique_Elec__Mwh
Conso_Elec_Specifique__Mwh
Electricite_spe__Mwh UT_elec__Mwh
ELECTRICITE__Mwh_ consoelec_total;
run;
/*creation une table electest comprenant consommation réelle et
consommation estimée*/
proc sort data=oremip.consoelecestim;
by Code_INSEE;
run;
proc sort data=oremip.consoelecreel;
by Code_INSEE;
run;
data oremip.testelec (keep=Code_INSEE COMMUNE ELECTRICITE__Mwh_
Conso_thermique_Elec__Mwh Conso_Elec_Specifique__Mwh
Electricite_spe__Mwh
UT_elec__Mwh consoelec_total Consommation_Totale_en_mWh consoreel_ERDF);
merge oremip.consoelecestim oremip.consoelecreel;
by Code_INSEE;
run;
data oremip.testelec(keep=Code_INSEE COMMUNE residence tertiaire industrie
consoestim Consommation_Totale_en_mWh consoreel_ERDF);
set oremip.testelec;
residence=Conso_thermique_Elec__Mwh+Conso_Elec_Specifique__Mwh;
tertiaire=Electricite_spe__Mwh+UT_elec__Mwh;
industrie=ELECTRICITE__Mwh_;
rename consoelec_total=consoestim;
Jinqiu Chen Master 2 Statistique et Econométrie
69
run;
/*supprimation gros industrie censees directement par RTE et les communes
regies */
data oremip.elecgarde;
set oremip.testelec;
if (Code_INSEE in
('09006','09110','09188','09225','09228','12305','31044','31069','31084','3
1316','31334','31433','31483','31555','65054','65092','65362','65417','8112
0','81257','82033',
'9016', '9076' , '9104' , '9139' , '9147' , '9170', '9185' ,'9188' ,
'9189 ' , '9240 ', '9275 ' ,'9282 ', '9306','9324', '9334', '31135 ' ,
'31325 ', '31345 ', '31376 ', '65128 ', '65169 ', '65174 ', '65229', '65259
', '65296', '81009', '81012', '81061' , '81069' , '81073', '81090',
'81111','81115',
'81123', '81136','81141', '81142', '81169', '81171', '81173', '81181',
'81187 ' ,'81200' , '81231', '81237 ', '81246 ','81250', '81255','81267',
'81276', '81281' ,'81292 ','81293','81303',
'81305','81323 ')) then delete;
run;
/*supprimer les communes aberrant (commune 32002 car la consoerdf est
negatif) et les communes ou il y pas de donnees*/
data oremip.elecgarde;
set oremip.elecgarde;
if Consommation_Totale_en_mWh="ICS " then delete;
if consoreel_ERDF=-27.2200000 then delete;/* 32002 Ansan */
if consoreel_ERDF=0 then delete;
run;
/*graphique de la relation entre consommation estimée et consommation
réelle*/
axis1 order=(0 to 500000 by 100000);
title "comparaison entre la consommation reelle et estimee de
l'electricite";
proc gplot data=oremip.elecgarde;
plot consoestim*consoreel_ERDF;
run;
data oremip.elecgarde;
set oremip.elecgarde;
diff=consoestim-consoreel_ERDF;
run;
/*graphique de la difference selon les departements*/
title "ecart entre la consommation reelle et estimee selon les code INSEE";
proc gplot data=oremip.elecgarde;
plot diff*Code_INSEE;
run;
/*correlation entre consoestim et consoreel_ERDF */
proc corr data=oremip.elecgarde;
var consoestim consoreel_ERDF;
run;
proc means data=oremip.elecgarde;
var consoreel_ERDF;
run;
/*test de non-différence: test de wilcoxon*/
proc means data=oremip.elecgarde;
var consoestim consoreel_ERDF;
run;
data test1(keep=Code_INSEE conso groupe );
set oremip.elecgarde;
rename consoestim=conso;
groupe=1;
run;
Jinqiu Chen Master 2 Statistique et Econométrie
70
data test2(keep=Code_INSEE conso groupe);
set oremip.elecgarde;
rename consoreel_ERDF=conso;
groupe=2;
run;
data test;
set test1 test2;
run;
proc npar1way data=test wilcoxon;
var conso;
class groupe;
output out=test;
run;
/*identifier les point aberrants pour électricité*/
data pa;
set oremip.elecgarde;
if diff>20000 and diff<40000
then output pa;
run;/*Rodez 12202*/
data pa;
set oremip.elecgarde;
if diff>65000 and diff<80000
then output pa;
run;
/*31149 comomiers 81065 Castes*/
data pa;
set oremip.elecgarde;
if diff>-70000 and diff<-60000
then output pa;
run;
/*12176 Onet-le-Ch?teau*/
data pa;
set oremip.elecgarde;
if diff>-30000 and diff<-20000
then output pa;
run;
/*31118 Castelnau-d'Estrétefon 46029 Biars-sur-Cère*/
data pa;
set oremip.elecgarde;
if diff>-20000 and diff<20000
then ref=1;else ref=0;
run;
proc freq data=pa;
tables ref;
run;
proc print data=pa;
where ref=0;
run;
/*calculer le nombre de communes pour chaque tranche de diff*/
data pa;
set oremip.elecgarde;
if diff>-20000 and diff<20000
then output pa;
run;
data pa;
set pa;
if diff>-15000 and diff<15000 then ref=1;
else ref=0;
run;
proc freq data=pa;
Jinqiu Chen Master 2 Statistique et Econométrie
71
tables ref;
run;
/*2894 pts dans (-15000 15000) sauf 9 points*/
/*********************************************/
/*correlation entre conso réel ERDF et GRDF***/
/********************************************/
proc sort data=oremip.consoelecreel;
by Code_INSEE;
run;
proc sort data=oremip.consogazreel;
by Code_INSEE;
run;
data oremip.corr;
merge oremip.consoelecreel oremip.consogazreel;
by Code_INSEE;
run;
data oremip.corr;
set oremip.corr;
rename Total_vol=consoreel_GRDF;
run;
data oremip.corr(keep=Code_INSEE consoreel_GRDF consoreel_ERDF);
set oremip.corr;
if consoreel_GRDF="" then consoreel_GRDF=0;
if consoreel_ERDF=ICS then consoreel_GRDF=0;
if Code_INSEE=32002 then delete;
run;
proc corr data=oremip.corr;
var consoreel_GRDF consoreel_ERDF;
run;
/*compter le nb des communes ou il y a consoreelgaz et consoreelelec*/
data oremip.consoelecreel1(keep=Code_INSEE Nom_Commune consoreel_ERDF);
set oremip.consoelecreel;
if consoreel_ERDF=0 then delete;
if consoreel_ERDF=ICS then delete;
if Code_INSEE=32002 then delete;
run;/*2968 communes*/
proc means data=oremip.consoelecreel1;
var consoreel_ERDF;
run;
data oremip.consogazreel1(keep=Code_INSEE Nom_de_la_commune consoreel_GRDF);
set oremip.consogazreel;
rename Total_vol=consoreel_GRDF;
if Total_vol=0 then delete;
if Total_vol="" then delete;
run;/*421 communes*/
proc means data=oremip.consogazreel1;
var consoreel_GRDF;
run;
/*boxplot*/
data oremip.consoelecreelpetit consoelecreelgrand;
set oremip.consoelecreel1;
select;
when (consoreel_ERDF>100000) output consoelecreelgrand;
otherwise output oremip.consoelecreelpetit;
end;
run;
proc means data=oremip.consoelecreelpetit;
var consoreel_ERDF;
Jinqiu Chen Master 2 Statistique et Econométrie
72
run;
data oremip.consogazreelpetit consogazreelgrand;
set oremip.consogazreel1;
select;
when (consoreel_GRDF>100000) output consogazreelgrand;
otherwise output oremip.consogazreelpetit;
end;
run;
proc reg data=reg.regressiontotalproportion_elec;
model consoreel_ERDF=MIbis AV75bis De75a81bis De82a89bis CUbis GAZbis
FIOULbis ELECbis GPLbis
hotel_resto sante education sport_loisir_cult bureautransport commerce
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Construction_naval_et_aeronautiq Contruction_electrique_et_electr
Industries_diverses/selection=backward slstay=0.05 ;
run;
/*importation du fichier parclogement*/
/*créer nouvelles variables proportions*/
data reg.parclogement2(keep= COMMUNE VT MI CCC AV75 De75a81 De82a89 CU GAZ
FIOUL ELEC GPL );/*creer les nouvelle variables */
set reg.parclogement;
VT
=MCCav75CU+MCC75a81CU+MCC82a89CU+MCCap90CU
+MCCav75GN+MCC75a81GN+MCC82a89GN+MCCap90GN
+MCCav75Fioul+MCC75a81Fioul+MCC82a89Fioul+MCCap90Fioul
+MCCav75Elec+MCC75a81Elec+MCC82a89Elec+MCCap90Elec
+MCCav75GPL+MCC75a81GPL+MCC82a89GPL+MCCap90GPL
+MCCav75autre+MCC75a81autre+MCC82a89autre+MCCap90autre
+MCIav75CU+MCI75a81CU+MCI82a89CU+MCIap90CU
+MCIav75GN+MCI75a81GN+MCI82a89GN+MCIap90GN
+MCIav75Fioul+MCI75a81Fioul+MCI82a89Fioul+MCIap90Fioul
+MCIav75Elec+MCI75a81Elec+MCI82a89Elec+MCIap90Elec
+MCIav75GPL+MCI75a81GPL+MCI82a89GPL+MCIap90GPL
+MCIav75autre+MCI75a81autre+MCI82a89autre+MCIap90autre
+ApCCav75CU+ApCC75a81CU+ApCC82a89CU+ApCCap90CU
+ApCCav75GN+ApCC75a81GN+ApCC82a89GN+ApCCap90GN
+ApCCav75Fioul+ApCC75a81Fioul+ApCC82a89Fioul+ApCCap90Fioul
+ApCCav75Elec+ApCC75a81Elec+ApCC82a89Elec+ApCCap90Elec
+ApCCav75GPL+ApCC75a81GPL+ApCC82a89GPL+ApCCap90GPL
+ApCCav75autre+ApCC75a81autre+ApCC82a89autre+ApCCap90autre
+ApCIav75CU+ApCI75a81CU+ApCI82a89CU+ApCIap90CU
+ApCIav75GN+ApCI75a81GN+ApCI82a89GN+ApCIap90GN
+ApCIav75Fioul+ApCI75a81Fioul+ApCI82a89Fioul+ApCIap90Fioul
+ApCIav75Elec+ApCI75a81Elec+ApCI82a89Elec+ApCIap90Elec
+ApCIav75GPL+ApCI75a81GPL+ApCI82a89GPL+ApCIap90GPL
+ApCIav75autre+ApCI75a81autre+ApCI82a89autre+ApCIap90autre;
MI=MCCav75CU+MCC75a81CU+MCC82a89CU+MCCap90CU
+MCCav75GN+MCC75a81GN+MCC82a89GN+MCCap90GN
+MCCav75Fioul+MCC75a81Fioul+MCC82a89Fioul+MCCap90Fioul
+MCCav75Elec+MCC75a81Elec+MCC82a89Elec+MCCap90Elec
+MCCav75GPL+MCC75a81GPL+MCC82a89GPL+MCCap90GPL
Jinqiu Chen Master 2 Statistique et Econométrie
73
+MCCav75autre+MCC75a81autre+MCC82a89autre+MCCap90autre
+MCIav75CU+MCI75a81CU+MCI82a89CU+MCIap90CU
+MCIav75GN+MCI75a81GN+MCI82a89GN+MCIap90GN
+MCIav75Fioul+MCI75a81Fioul+MCI82a89Fioul+MCIap90Fioul
+MCIav75Elec+MCI75a81Elec+MCI82a89Elec+MCIap90Elec
+MCIav75GPL+MCI75a81GPL+MCI82a89GPL+MCIap90GPL
+MCIav75autre+MCI75a81autre+MCI82a89autre+MCIap90autre;
CCC=MCCav75CU+MCC75a81CU+MCC82a89CU+MCCap90CU
+MCCav75GN+MCC75a81GN+MCC82a89GN+MCCap90GN
+MCCav75Fioul+MCC75a81Fioul+MCC82a89Fioul+MCCap90Fioul
+MCCav75Elec+MCC75a81Elec+MCC82a89Elec+MCCap90Elec
+MCCav75GPL+MCC75a81GPL+MCC82a89GPL+MCCap90GPL
+MCCav75autre+MCC75a81autre+MCC82a89autre+MCCap90autre
+ApCCav75CU+ApCC75a81CU+ApCC82a89CU+ApCCap90CU
+ApCCav75GN+ApCC75a81GN+ApCC82a89GN+ApCCap90GN
+ApCCav75Fioul+ApCC75a81Fioul+ApCC82a89Fioul+ApCCap90Fioul
+ApCCav75Elec+ApCC75a81Elec+ApCC82a89Elec+ApCCap90Elec
+ApCCav75GPL+ApCC75a81GPL+ApCC82a89GPL+ApCCap90GPL
+ApCCav75autre+ApCC75a81autre+ApCC82a89autre+ApCCap90autre;
AV75=MCCav75CU + MCCav75GN+ MCCav75Fioul+ MCCav75Elec +MCCav75GPL+
MCCav75autre+
MCIav75CU+ MCIav75GN+ MCIav75Fioul+ MCIav75Elec+ MCIav75GPL+ MCIav75autre+
ApCCav75CU+ ApCCav75GN +ApCCav75Fioul +ApCCav75Elec+ ApCCav75GPL
+ApCCav75autre+
ApCIav75CU+ ApCIav75GN+ ApCIav75Fioul+ ApCIav75Elec +ApCIav75GPL+
ApCIav75autre;
De75a81=MCC75a81CU + MCC75a81GN+ MCC75a81Fioul+ MCC75a81Elec +MCC75a81GPL+
MCC75a81autre+
MCI75a81CU+ MCI75a81GN+ MCI75a81Fioul+ MCI75a81Elec+ MCI75a81GPL+
MCI75a81autre+
ApCC75a81CU+ ApCC75a81GN +ApCC75a81Fioul +ApCC75a81Elec+ ApCC75a81GPL
+ApCC75a81autre+
ApCI75a81CU+ ApCI75a81GN+ ApCI75a81Fioul+ ApCI75a81Elec +ApCI75a81GPL+
ApCI75a81autre;
De82a89=MCC82a89CU + MCC82a89GN+ MCC82a89Fioul+ MCC82a89Elec +MCC82a89GPL+
MCC82a89autre+
MCI82a89CU+ MCI82a89GN+ MCI82a89Fioul+ MCI82a89Elec+ MCI82a89GPL+
MCI82a89autre+
ApCC82a89CU+ ApCC82a89GN +ApCC82a89Fioul +ApCC82a89Elec+ ApCC82a89GPL
+ApCC82a89autre+
ApCI82a89CU+ ApCI82a89GN+ ApCI82a89Fioul+ ApCI82a89Elec +ApCI82a89GPL+
ApCI82a89autre;
CU=MCCav75CU+MCC75a81CU+MCC82a89CU+MCCap90CU
+MCIav75CU+MCI75a81CU+MCI82a89CU+MCIap90CU
+ApCCav75CU+ApCC75a81CU+ApCC82a89CU+ApCCap90CU
+ApCIav75CU+ApCI75a81CU+ApCI82a89CU+ApCIap90CU;
GAZ=MCCav75GN+MCC75a81GN+MCC82a89GN+MCCap90GN
+MCIav75GN+MCI75a81GN+MCI82a89GN+MCIap90GN
+ApCCav75GN+ApCC75a81GN+ApCC82a89GN+ApCCap90GN
+ApCIav75GN+ApCI75a81GN+ApCI82a89GN+ApCIap90GN;
FIOUL=MCCav75Fioul+MCC75a81Fioul+MCC82a89Fioul+MCCap90Fioul
+MCIav75Fioul+MCI75a81Fioul+MCI82a89Fioul+MCIap90Fioul
Jinqiu Chen Master 2 Statistique et Econométrie
74
+ApCCav75Fioul+ApCC75a81Fioul+ApCC82a89Fioul+ApCCap90Fioul
+ApCIav75Fioul+ApCI75a81Fioul+ApCI82a89Fioul+ApCIap90Fioul;
ELEC=MCCav75Elec+MCC75a81Elec+MCC82a89Elec+MCCap90Elec
+MCIav75Elec+MCI75a81Elec+MCI82a89Elec+MCIap90Elec
+ApCCav75Elec+ApCC75a81Elec+ApCC82a89Elec+ApCCap90Elec
+ApCIav75Elec+ApCI75a81Elec+ApCI82a89Elec+ApCIap90Elec;
GPL=MCCav75GPL+MCC75a81GPL+MCC82a89GPL+MCCap90GPL
+MCIav75GPL+MCI75a81GPL+MCI82a89GPL+MCIap90GPL
+ApCCav75GPL+ApCC75a81GPL+ApCC82a89GPL+ApCCap90GPL
+ApCIav75GPL+ApCI75a81GPL+ApCI82a89GPL+ApCIap90GPL;
run;
data reg.parclogement2bis(keep= COMMUNE VT MI CCC AV75 De75a81 De82a89 CU
GAZ FIOUL ELEC GPL MIbis CCCbis AV75bis De75a81bis De82a89bis CUbis GAZbis
FIOULbis ELECbis GPLbis);
set reg.parclogement2;
MIbis=MI/VT;
CCCbis=CCC/VT;
AV75bis=AV75/VT;
De75a81bis=De75a81/VT;
De82a89bis=De82a89/VT;
CUbis=CU/VT;
GAZbis=GAZ/VT;
FIOULbis=FIOUL/VT;
ELECbis=ELEC/VT;
GPLbis=GPL/VT;
run;
data reg.parclogement2bis;
set reg.parclogement2bis;
rename COMMUNE=Code_INSEE;
run;
/********************crer les variable apres 1975*************/
data reg.parclogement1;
set reg.parclogement;
MCCap75CU=MCC75a81CU+MCC82a89CU+MCCap90CU;
MCCap75GN=MCC75a81GN+MCC82a89GN+MCCap90GN;
MCCap75Fioul=MCC75a81Fioul+MCC82a89Fioul+MCCap90Fioul;
MCCap75Elec=MCC75a81Elec+MCC82a89Elec+MCCap90Elec;
MCCap75GPL=MCC75a81GPL+MCC82a89GPL+MCCap90GPL;
MCCap75autre=MCC75a81autre+MCC82a89autre+MCCap90autre;
MCIap75CU=MCI75a81CU+MCI82a89CU+MCIap90CU;
MCIap75GN=MCI75a81GN+MCI82a89GN+MCIap90GN;
MCIap75Fioul=MCI75a81Fioul+MCI82a89Fioul+MCIap90Fioul;
MCIap75Elec=MCI75a81Elec+MCI82a89Elec+MCIap90Elec;
MCIap75GPL=MCI75a81GPL+MCI82a89GPL+MCIap90GPL;
MCIap75autre=MCI75a81autre+MCI82a89autre+MCIap90autre;
ApCCap75CU=ApCC75a81CU+ApCC82a89CU+ApCCap90CU;
ApCCap75GN=ApCC75a81GN+ApCC82a89GN+ApCCap90GN;
ApCCap75Fioul=ApCC75a81Fioul+ApCC82a89Fioul+ApCCap90Fioul;
ApCCap75Elec=ApCC75a81Elec+ApCC82a89Elec+ApCCap90Elec;
ApCCap75GPL=ApCC75a81GPL+ApCC82a89GPL+ApCCap90GPL;
ApCCap75autre=ApCC75a81autre+ApCC82a89autre+ApCCap90autre;
ApCIap75CU=ApCI75a81CU+ApCI82a89CU+ApCIap90CU;
Jinqiu Chen Master 2 Statistique et Econométrie
75
ApCIap75GN=ApCI75a81GN+ApCI82a89GN+ApCIap90GN;
ApCIap75Fioul=ApCI75a81Fioul+ApCI82a89Fioul+ApCIap90Fioul;
ApCIap75Elec=ApCI75a81Elec+ApCI82a89Elec+ApCIap90Elec;
ApCIap75GPL=ApCI75a81GPL+ApCI82a89GPL+ApCIap90GPL;
ApCIap75autre=ApCI75a81autre+ApCI82a89autre+ApCIap90autre;
MCav75CU=MCCav75CU+MCIav75CU;
MCap75CU=MCCap75CU+MCIap75CU;
MCav75GN=MCCav75GN+MCIav75GN; MC75a81GN=MCC75a81GN+MCI75a81GN;
MC82a89GN=MCC82a89GN+MCI82a89GN; MCap90GN=MCCap90GN+MCIap90GN;
MCap75GN=MCCap75GN+MCIap75GN;
MCav75Fioul=MCCav75Fioul+MCIav75Fioul;
MCap75Fioul=MCCap75Fioul+MCIap75Fioul;
MCav75Elec=MCCav75Elec+MCIav75Elec;
MCap75Elec=MCCap75Elec+MCIap75Elec;
MCav75GPL=MCCav75GPL+MCIav75GPL;
MCap75GPL=MCCap75GPL+MCIap75GPL;
MCav75autre=MCCav75autre+MCIav75autre;
MCap75autre=MCCap75autre+MCIap75autre;
ApCav75CU=ApCCav75CU+ApCIav75CU;
ApCap75CU=ApCCap75CU+ApCIap75CU;
ApCav75GN=ApCCav75GN+ApCIav75GN; ApC75a81GN=ApCC75a81GN+ApCI75a81GN;
ApC82a89GN=ApCC82a89GN+ApCI82a89GN; ApCap90GN=ApCCap90GN+ApCIap90GN;
ApCap75GN=ApCCap75GN+ApCIap75GN;
ApCav75Fioul=ApCCav75Fioul+ApCIav75Fioul;
ApCap75Fioul=ApCCap75Fioul+ApCIap75Fioul;
ApCav75Elec=ApCCav75Elec+ApCIav75Elec;
ApCap75Elec=ApCCap75Elec+ApCIap75Elec;
ApCav75GPL=ApCCav75GPL+ApCIav75GPL;
ApCap75GPL=ApCCap75GPL+ApCIap75GPL;
ApCav75autre=ApCCav75autre+ApCIav75autre;
ApCap75autre=ApCCap75autre+ApCIap75autre;
keep COMMUNE
MCC75a81GN MCI75a81GN ApCC75a81GN ApCI75a81GN
MCC82a89GN MCI82a89GN ApCC82a89GN ApCI82a89GN
MCCap90GN MCIap90GN ApCCap90GN ApCIap90GN
MCav75CU
MCap75CU
MCav75GN MC75a81GN MC82a89GN MCap90GN
MCap75GN
MCav75Fioul
MCap75Fioul
MCav75Elec
MCap75Elec
MCav75GPL
MCap75GPL
MCav75autre
MCap75autre
ApCav75CU
ApCap75CU
ApCav75GN ApC75a81GN ApC82a89GN ApCap90GN
ApCap75GN
ApCav75Fioul
ApCap75Fioul
ApCav75Elec
ApCap75Elec
ApCav75GPL
Jinqiu Chen Master 2 Statistique et Econométrie
76
ApCap75GPL
ApCav75autre
ApCap75autre
MCCav75CU MCCav75GN MCCav75Fioul MCCav75Elec MCCav75GPL MCCav75autre
MCIav75CU MCIav75GN MCIav75Fioul MCIav75Elec MCIav75GPL MCIav75autre
ApCCav75CU ApCCav75GN ApCCav75Fioul ApCCav75Elec ApCCav75GPL ApCCav75autre
ApCIav75CU ApCIav75GN ApCIav75Fioul ApCIav75Elec ApCIav75GPL ApCIav75autre
MCCap75CU MCCap75GN MCCap75Fioul MCCap75Elec MCCap75GPL MCCap75autre
MCIap75CU MCIap75GN MCIap75Fioul MCIap75Elec MCIap75GPL MCIap75autre
ApCCap75CU ApCCap75GN ApCCap75Fioul ApCCap75Elec ApCCap75GPL ApCCap75autre
ApCIap75CU ApCIap75GN ApCIap75Fioul ApCIap75Elec ApCIap75GPL ApCIap75autre;
run;
data reg.parclogement1;
set reg.parclogement1;
rename COMMUNE=Code_INSEE;
run;
/***********************************************/
/**********************ELEC*********************/
/***********************************************/
/*************deuxieme méthode (methode proportions)******/
data reg.regressiontotalproportion_elec;
merge regetape.elec reg.parclogement2bis;
by Code_INSEE;
run;
data reg.regressiontotalproportion_elec;
set reg.regressiontotalproportion_elec;
if Code_INSEE in
('09006','09110','09188','09225','09228','12305','31044','31069','31084','3
1316','31334','31433','31483','31555','65054','65092','65362','65417','8112
0','81257','82033',
'9016', '9076' , '9104' , '9139' , '9147' , '9170', '9185' ,'9188' ,
'9189 ' , '9240 ', '9275 ' ,'9282 ', '9306','9324', '9334', '31135 ' ,
'31325 ', '31345 ', '31376 ', '65128 ', '65169 ', '65174 ', '65229', '65259
', '65296', '81009', '81012', '81061' , '81069' , '81073', '81090',
'81111','81115',
'81123', '81136','81141', '81142', '81169', '81171', '81173', '81181',
'81187 ' ,'81200' , '81231', '81237 ', '81246 ','81250', '81255','81267',
'81276', '81281' ,'81292 ','81293','81303',
'81305','81323 ') then delete;
if consoreel_ERDF=0 then delete;
if consoreel_ERDF<0 then delete;
if Consommation_Totale_en_mWh="ICS " then delete;
run;/*2906 observations*/
/***********************************************/
/**********************GAZ*********************/
/***********************************************/
/*398 communes*/
/******************/
/*première méthode*/
/******************/
Jinqiu Chen Master 2 Statistique et Econométrie
77
/*seulement les logements en base du gaz consomment du gaz*/
data reg.regressiontotal_gaz;
merge regetape.gaz reg.parclogement1;
by Code_INSEE;
run;
data reg.regressiontotal_gaz;
set reg.regressiontotal_gaz;
if Code_INSEE in
('65258','81060','81140','9225','9261','9282','9331','12174','31069','31084
','31149','31303','31324','31403','31451','31483','31555',
'32155','65230','65258','65304','65440','81004','81105','81114','81297','31
291','32027','65417','81120','12233','81238','46294') then delete;
if consoreelGRDF=" " then delete;
if consoreelGRDF=0 then delete;
run;/*398 communes*/
proc means data=reg.regressiontotal_gaz;
var consoreelGRDF;
run;
/*relation test*/
proc gplot data=reg.regressiontotal_gaz;
plot consoreelGRDF*Industries_diverses;
run;
quit;
/*backward*/
proc reg data=reg.regressiontotal_gaz;
model consoreelGRDF=MCCav75GN MCIav75GN ApCCav75GN ApCIav75GN
MCC75a81GN MCI75a81GN ApCC75a81GN ApCI75a81GN
MCC82a89GN MCI82a89GN ApCC82a89GN ApCI82a89GN
MCCap90GN MCIap90GN ApCCap90GN ApCIap90GN
hotel_resto sante education sport_loisir_cult bureaux commerce transport
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Construction_naval_et_aeronautiq Contruction_electrique_et_electr
Industries_diverses/selection=backward slstay=0.05;
run;
/*supprimer ApCC75a81GN, ApCI82a89GN, Transport, Chimie caoutchouc
plastique, Industries du papier carton qui ont coeff negatif*/
proc reg data=reg.regressiontotal_gaz;
model consoreelGRDF=MCIav75GN ApCCav75GN ApCIav75GN ApCI75a81GN
ApCC82a89GN MCIap90GN ApCIap90GN hotel_resto sante
Metallurgie_et_transformation_de
Industries_agro_alimentaires Industrie_textile__cuir__habill
Industries_diverses;
output out=a r=resid p=predi;
run;
quit;
/*correction hétéro elec*/
/****************************************regression originelle sans
beaureau************************************************************/
/*initial*/
proc reg data=reg.regressiontotalproportion_elec;
model consoreel_ERDF=
MIbis CCCbis AV75bis De75a81bis De82a89bis CUbis GAZbis FIOULbis ELECbis
GPLbis
hotel_resto sante education sport_loisir_cult bureaux commerce transport
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Jinqiu Chen Master 2 Statistique et Econométrie
78
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Construction_naval_et_aeronautiq Contruction_electrique_et_electr
Industries_diverses/selection=backward slstay=0.05 ;
run;
/*supprimer bureaux*/
proc reg data=reg.regressiontotalproportion_elec;
model consoreel_ERDF=
CCCbis AV75bis CUbis GAZbis FIOULbis ELECbis
hotel_resto sante education sport_loisir_cult commerce transport
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Construction_naval_et_aeronautiq Contruction_electrique_et_electr
Industries_diverses;
output out=b2 r=resid p=predi;
run;
quit;
proc gplot data=b2;
plot resid*predi;
run;
quit;
/*test d'homo*/
proc model data=reg.regressiontotalproportion_elec;
parms b0-b21;
consoreel_ERDF = b0+ b1*CCCbis + b2*AV75bis +b3*CUbis + b4*GAZbis +
b5*FIOULbis + b6* ELECbis
+b7*hotel_resto + b8*sante +b9*education +b10*sport_loisir_cult
+b11*commerce +b12*transport
+b13*Chimie__caoutchouc__plastique +b14*Metallurgie_et_transformation_de
+b15*Industrie_des_produits_mineraux +b16*Industries_agro_alimentaires
+b17*Industrie_du_papier_carton +b18*Industrie_textile__cuir__habill
+b19*Construction_naval_et_aeronautiq +b20*Contruction_electrique_et_electr
+b21*Industries_diverses;
fit consoreel_ERDF/white breusch=(1 CCCbis AV75bis CUbis GAZbis FIOULbis
ELECbis
hotel_resto sante education sport_loisir_cult commerce transport
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Construction_naval_et_aeronautiq Contruction_electrique_et_electr
Industries_diverses);
run;
quit;/*hetero*/
data b2;
set b2;
resid2=resid*resid;
g=log(resid2);
run;
proc reg data=b2;
model g=
CCCbis AV75bis CUbis GAZbis FIOULbis ELECbis
hotel_resto sante education sport_loisir_cult commerce transport
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Construction_naval_et_aeronautiq Contruction_electrique_et_electr
Industries_diverses;
output out=b2previ r=resid p=predi;
run;
quit;
Jinqiu Chen Master 2 Statistique et Econométrie
79
data b2previ(keep=Code_INSEE predi2 h);
set b2previ;
h=exp(predi2);
run;
data reg.regressiontotalproportion_elec;
merge reg.regressiontotalproportion_elec b2previ;
by Code_INSEE;
poids=1/h;
run;
proc reg data=reg.regressiontotalproportion_elec;
model consoreel_ERDF=
CCCbis AV75bis CUbis GAZbis FIOULbis ELECbis
hotel_resto sante education sport_loisir_cult commerce transport
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Construction_naval_et_aeronautiq Contruction_electrique_et_electr
Industries_diverses;
weight poids;
run;
quit;
/*perdre la significativité CUbis et CCCbis
Construction_naval_et_aeronautiq*/
/*CUbis*/
proc reg data=reg.regressiontotalproportion_elec;
model consoreel_ERDF=
CCCbis AV75bis GAZbis FIOULbis ELECbis
hotel_resto sante education sport_loisir_cult commerce transport
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Construction_naval_et_aeronautiq Contruction_electrique_et_electr
Industries_diverses;
weight poids;
run;
quit;
/*CCCbis*/
proc reg data=reg.regressiontotalproportion_elec;
model consoreel_ERDF=
AV75bis GAZbis FIOULbis ELECbis
hotel_resto sante education sport_loisir_cult commerce transport
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Construction_naval_et_aeronautiq Contruction_electrique_et_electr
Industries_diverses;
weight poids;
run;
quit;
/*Construction_naval_et_aeronautiq*/
proc reg data=reg.regressiontotalproportion_elec;
model consoreel_ERDF=
AV75bis GAZbis FIOULbis ELECbis
hotel_resto sante education sport_loisir_cult commerce transport
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Contruction_electrique_et_electr Industries_diverses;
weight poids;
output out=b4 r=resid p=predi;
run;
Jinqiu Chen Master 2 Statistique et Econométrie
80
quit;
/*test d'homo*/
proc model data=reg.regressiontotalproportion_elec;
parms b0-b18;
consoreel_ERDF = b0 + b1*AV75bis + b2*GAZbis + b3*FIOULbis + b4* ELECbis
+b5*hotel_resto + b6*sante +b7*education +b8*sport_loisir_cult
+b9*commerce +b10*transport
+b11*Chimie__caoutchouc__plastique +b12*Metallurgie_et_transformation_de
+b13*Industrie_des_produits_mineraux +b14*Industries_agro_alimentaires
+b15*Industrie_du_papier_carton +b16*Industrie_textile__cuir__habill
+b17*Contruction_electrique_et_electr +b18*Industries_diverses;
fit consoreel_ERDF/white breusch=(1 AV75bis GAZbis FIOULbis ELECbis
hotel_resto sante education sport_loisir_cult commerce transport
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Contruction_electrique_et_electr Industries_diverses);
weight poids;
run;
quit;
/*compter les points negatifs*/
data b4bis;
set b4;
if predi<0;
run;/*8*/
axis1 order=(0 to 500000 by 100000);
title "comparaison entre la consommation reelle et estimee de
l'electricite";
proc gplot data=b4;
plot consoreel_ERDF*predi/haxis=axis1;
run;
quit;
axis1 order=(0 to 100000 by 10000);
title "detail de la consommation inferieur a 100000 Mwh";
proc gplot data=b4;
plot consoreel_ERDF*predi/haxis=axis1 vaxis=axis1;
run;
quit;
proc gplot data=b4;
plot resid*predi;
run;
quit;
data b4;
set b4;
if predi<0 then delete;
run;
title "ecart entre la consommation reelle et estimee selon les 8
departements";
proc gplot data=b4;
plot resid*Code_INSEE;
run;
quit;
data b41;
set b4;
if resid<-50000;
run;
/**************************************************/
/*GAZ*********************************************/
Jinqiu Chen Master 2 Statistique et Econométrie
81
/**************************************************/
/*correction hétéro gaz*/
/****************************************regression originelle supprimer
les variables negatif au
debut************************************************************/
proc reg data=reg.regressiontotal_gaz;
model consoreelGRDF=MCCav75GN MCIav75GN ApCCav75GN ApCIav75GN
MCC75a81GN MCI75a81GN ApCC75a81GN ApCI75a81GN
MCC82a89GN MCI82a89GN ApCC82a89GN ApCI82a89GN
MCCap90GN MCIap90GN ApCCap90GN ApCIap90GN
hotel_resto sante education sport_loisir_cult bureaux commerce transport
Chimie__caoutchouc__plastique Metallurgie_et_transformation_de
Industrie_des_produits_mineraux Industries_agro_alimentaires
Industrie_du_papier_carton Industrie_textile__cuir__habill
Construction_naval_et_aeronautiq Contruction_electrique_et_electr
Industries_diverses/selection=backward slstay=0.05;
run;
/*supprimer ApCC75a81GN, ApCI82a89GN, Transport, Chimie caoutchouc
plastique, Industries du papier carton qui ont coeff negatif*/
proc reg data=reg.regressiontotal_gaz;
model consoreelGRDF=MCIav75GN ApCCav75GN ApCIav75GN ApCI75a81GN
ApCC82a89GN MCIap90GN ApCIap90GN hotel_resto sante
Metallurgie_et_transformation_de Industries_agro_alimentaires
Industrie_textile__cuir__habill Industries_diverses;
output out=a2 r=resid p=predi;
run;
quit;
/*test d'homo*/
proc model data=reg.regressiontotal_gaz;
parms b0-b13;
consoreelGRDF=b0+b1*MCIav75GN +b2*ApCCav75GN +b3* ApCIav75GN +b4*
ApCI75a81GN +b5* ApCC82a89GN +b6* MCIap90GN +b7* ApCIap90GN
+b8*hotel_resto +b9*sante
+b10*Metallurgie_et_transformation_de +b11*Industries_agro_alimentaires
+b12*Industrie_textile__cuir__habill+b13*Industries_diverses;
fit consoreelGRDF/OLS white breusch=( MCIav75GN ApCCav75GN ApCIav75GN
ApCI75a81GN ApCC82a89GN MCIap90GN ApCIap90GN
hotel_resto sante Metallurgie_et_transformation_de
Industries_agro_alimentaires Industrie_textile__cuir__habill
Industries_diverses);
run;
quit;/*hetero*/
proc gplot data=a2;
plot resid*predi;
run;
quit;
data a2;
set a2;
resid2=resid*resid;
g=log(resid2);
run;
proc reg data=a2;
model g=MCIav75GN ApCCav75GN ApCIav75GN ApCI75a81GN ApCC82a89GN
MCIap90GN ApCIap90GN hotel_resto sante
Metallurgie_et_transformation_de Industries_agro_alimentaires
Industrie_textile__cuir__habill Industries_diverses;
output out=a2previ r=resid p=predi;
run;
quit;
data a2previ(keep=Code_INSEE predi2 h);
set a2previ;
Jinqiu Chen Master 2 Statistique et Econométrie
82
h=exp(predi2);
run;
data reg.regressiontotal_gaz;
merge reg.regressiontotal_gaz a2previ;
by Code_INSEE;
poids=1/h;
run;
proc reg data=reg.regressiontotal_gaz;
model consoreelGRDF=MCIav75GN ApCCav75GN ApCIav75GN ApCI75a81GN
ApCC82a89GN MCIap90GN ApCIap90GN hotel_resto sante
Metallurgie_et_transformation_de
Industries_agro_alimentaires Industrie_textile__cuir__habill
Industries_diverses;
weight poids;
run;
quit;
/* ApCI75a81GN (nega) ApCC82a89GN(nega) Metallurgie(non sign)*/
/*ApCC82a89GN*/
proc reg data=reg.regressiontotal_gaz;
model consoreelGRDF=MCIav75GN ApCCav75GN ApCIav75GN ApCI75a81GN
MCIap90GN ApCIap90GN hotel_resto sante
Metallurgie_et_transformation_de
Industries_agro_alimentaires Industrie_textile__cuir__habill
Industries_diverses;
weight poids;
run;
quit;
/*ApCI75a81GN*/
proc reg data=reg.regressiontotal_gaz;
model consoreelGRDF=MCIav75GN ApCCav75GN ApCIav75GN MCIap90GN
ApCIap90GN hotel_resto sante Metallurgie_et_transformation_de
Industries_agro_alimentaires Industrie_textile__cuir__habill
Industries_diverses;
weight poids;
run;
quit;
/*Metallurgie_et_transformation_de*/
proc reg data=reg.regressiontotal_gaz;
model consoreelGRDF=MCIav75GN ApCCav75GN ApCIav75GN MCIap90GN
ApCIap90GN hotel_resto sante
Industries_agro_alimentaires Industrie_textile__cuir__habill
Industries_diverses;
weight poids;
output out=a2_nouv r=resid p=predi;
run;
quit;
/*test d'homo*/
proc model data=reg.regressiontotal_gaz;
parms b0-b10;
consoreelGRDF=b0+b1*MCIav75GN +b2* ApCCav75GN +b3*ApCIav75GN +b4*MCIap90GN
+b5*ApCIap90GN +b6* hotel_resto +b7*sante
+b8*Industries_agro_alimentaires +b9*Industrie_textile__cuir__habill
+b10*Industries_diverses;
fit consoreelGRDF/OLS white breusch=( MCIav75GN ApCCav75GN ApCIav75GN
MCIap90GN
ApCIap90GN hotel_resto sante Industries_agro_alimentaires
Industrie_textile__cuir__habill Industries_diverses);
weight poids;
run;
quit;
axis1 order=(0 to 500000 by 100000);
Jinqiu Chen Master 2 Statistique et Econométrie
83
title "comparaison entre la consommation reelle et estimee du gaz naturel";
proc gplot data=a2_nouv;
plot consoreelGRDF*predi/haxis=axis1;
run;
quit;
axis1 order=(0 to 100000 by 10000);
title "detail de la consommation inferieur a 100000 Mwh";
proc gplot data=a2_nouv;
plot consoreelGRDF*predi/haxis=axis1 vaxis=axis1;
run;
quit;
proc gplot data=a2_nouv;
plot resid*predi;
run;
quit;
title "ecart entre la consommation reelle et estimee selon les 8
departements";
proc gplot data=a2_nouv;
plot resid*Code_INSEE;
run;
quit;