Comprendre la va riation dans les données: Notions de base

20
Comprendre la Comprendre la va va riation dans les riation dans les données: données: Notions de base Notions de base

description

Comprendre la va riation dans les données: Notions de base. Expérience de la pièce de monnaie. La Statistique c ’est quoi?. C’est la science de la collecte, de l’organisation et de l’interprétation de faits numériques, ce que l’on appelle les données (Moore et McCabe). - PowerPoint PPT Presentation

Transcript of Comprendre la va riation dans les données: Notions de base

Page 1: Comprendre la va riation dans les données: Notions de base

Comprendre la vaComprendre la variation riation dans les données:dans les données:Notions de baseNotions de base

Page 2: Comprendre la va riation dans les données: Notions de base

Expérience de la pièce de Expérience de la pièce de monnaiemonnaie

Page 3: Comprendre la va riation dans les données: Notions de base

La Statistique c ’est quoi?La Statistique c ’est quoi?C’est la science de la collecte, de l’organisation et de C’est la science de la collecte, de l’organisation et de l’interprétation de faits numériques, ce que l’on appelle les l’interprétation de faits numériques, ce que l’on appelle les données (Moore et McCabe).données (Moore et McCabe).Collecte: par exemple, lors de la planification des sondages, Collecte: par exemple, lors de la planification des sondages, population cible, organisation de questionnaires, plan de population cible, organisation de questionnaires, plan de sondage, etc.sondage, etc.Organisation: une fois les données obtenues, il faut les traiter, Organisation: une fois les données obtenues, il faut les traiter, les coder, avant de procéder aux analyses.les coder, avant de procéder aux analyses.Interprétation: choix des techniques statistiques, partie Interprétation: choix des techniques statistiques, partie scientifique mais aussi artistique.scientifique mais aussi artistique.

Page 4: Comprendre la va riation dans les données: Notions de base

Vocabulaire de base de la Vocabulaire de base de la statistique:statistique:

• PopulationPopulation: ensemble des : ensemble des personnes, objets ou éléments sur personnes, objets ou éléments sur lesquels on veut effectuer l ’étude.lesquels on veut effectuer l ’étude.

• IndividuIndividu: chacun des éléments de la : chacun des éléments de la population.population.

• Caractère (variable)Caractère (variable) : : caractéristique relative à chacun des caractéristique relative à chacun des individus de la population et sur individus de la population et sur laquelle on veut faire porter l ’étude.laquelle on veut faire porter l ’étude.

Page 5: Comprendre la va riation dans les données: Notions de base

Les mesures de tendance Les mesures de tendance centralecentrale

• MoyenneMoyenne::– Somme des données / Nombre de Somme des données / Nombre de

données.données.

Page 6: Comprendre la va riation dans les données: Notions de base

• MédianeMédiane::– La médiane est un nombre tel que la La médiane est un nombre tel que la

proportion proportion des observations qui lui sont des observations qui lui sont inférieures est tout au plus de 50%inférieures est tout au plus de 50% et la et la proportion des observations qui lui sont proportion des observations qui lui sont supérieures est tout au plus de 50%.supérieures est tout au plus de 50%.

– P(X < Md) P(X < Md) 50% et P(X > Md) 50% et P(X > Md) 50% . 50% .

Page 7: Comprendre la va riation dans les données: Notions de base

Si N (ou n) est impair, la médiane correspond alors précisément à la donnée du milieu lorsque les données sont mises en ordre croissant.Si N (ou n) est pair, la médiane correspond alors à tout nombre situé entre les deux données du centre des données mises en ordre croissant

Page 8: Comprendre la va riation dans les données: Notions de base

Les mesures de dispersionLes mesures de dispersion• Maintenant que nous connaissons la Maintenant que nous connaissons la

tendance centrale d ’une tendance centrale d ’une distribution, nous pouvons nous distribution, nous pouvons nous demander si les valeurs de la demander si les valeurs de la variable sont fortement concentrées variable sont fortement concentrées autour de cette tendance centrale autour de cette tendance centrale ou, au contraire, si elles sont très ou, au contraire, si elles sont très différentes, très dispersées.différentes, très dispersées.

Page 9: Comprendre la va riation dans les données: Notions de base

• L ’étendueL ’étendue::– L ’étendue d ’une distribution est la largeur L ’étendue d ’une distribution est la largeur

totale de celle-ci.totale de celle-ci.– L ’étendue = Maximum - Minimum.L ’étendue = Maximum - Minimum.– Pour une variable continue ou discrète avec Pour une variable continue ou discrète avec

valeurs regroupées en classes: valeurs regroupées en classes: • l ’étendue = borne supérieure de la dernière l ’étendue = borne supérieure de la dernière

classe - borne inférieure de la première classe - borne inférieure de la première classe.classe.

– Exemples.Exemples.

Page 10: Comprendre la va riation dans les données: Notions de base

La variance:La variance d ’une distribution (2) est la moyenne des carrés des écarts, par rapport à la moyenne, de toutes les valeurs de celle-ci.

Page 11: Comprendre la va riation dans les données: Notions de base

L ’écart type:L ’écart type d ’une distribution () est simplement défini comme la racine carré de la variance.

Page 12: Comprendre la va riation dans les données: Notions de base

Interprétation de l ’écart typeInterprétation de l ’écart type• En général on retrouve :En général on retrouve :

– une grande proportion des données dans une grande proportion des données dans l ’intervalle [ l ’intervalle [ - - , , + + ] (souvent entre ] (souvent entre 50 et 70%),50 et 70%),

– souvent plus de 95% des données dans souvent plus de 95% des données dans l ’intervalle [ l ’intervalle [ - 2 - 2 , , + 2 + 2 ], ],

– toutes les données (ou presque 100%) toutes les données (ou presque 100%) dans l ’intervalle [ dans l ’intervalle [ - 3 - 3 , , + 3 + 3 ]. ].

Page 13: Comprendre la va riation dans les données: Notions de base

Représentation graphique Représentation graphique des donnéesdes données• HistogrammeHistogramme

Histogram

020406080

100120140

Bin

Freq

uenc

y

Frequency

Page 14: Comprendre la va riation dans les données: Notions de base

L ’échantillonnageL ’échantillonnage• Notre connaissance, nos attitudes et nos Notre connaissance, nos attitudes et nos

actions sont basés, en grande partie, sur actions sont basés, en grande partie, sur des échantillons.des échantillons.

• Par exemple, l’opinion d’une personne sur Par exemple, l’opinion d’une personne sur une institution ou une entreprise qui fait une institution ou une entreprise qui fait des milliers de transactions dans une des milliers de transactions dans une journée est souvent déterminé par journée est souvent déterminé par seulement une ou deux rencontres avec seulement une ou deux rencontres avec cette institution.cette institution.

Page 15: Comprendre la va riation dans les données: Notions de base

Recensement vs ÉchantillonRecensement vs Échantillon

• Recensement = véritéRecensement = véritél’information que l’on désire est l’information que l’on désire est disponible pour tous les individus de disponible pour tous les individus de la population étudiée.la population étudiée.

• Échantillon = estimation de la véritéÉchantillon = estimation de la véritél’information n’est disponible que l’information n’est disponible que pour un sous-ensemble des individus pour un sous-ensemble des individus de la population étudiée.de la population étudiée.

Page 16: Comprendre la va riation dans les données: Notions de base

Avantages d’un échantillonAvantages d’un échantillon• Coût réduitCoût réduit• Rapidité accrue Rapidité accrue • Offre plus de possibilitésOffre plus de possibilités

dans certains cas il peut être impossible dans certains cas il peut être impossible de faire un recensement (ex: contrôle de faire un recensement (ex: contrôle de qualité)de qualité)

• Peut-être plus précis!Peut-être plus précis!cas où une main-d’œuvre hautement cas où une main-d’œuvre hautement qualifiée est requise pour la collecte des qualifiée est requise pour la collecte des données données

Page 17: Comprendre la va riation dans les données: Notions de base

Échantillons probabilistes Échantillons probabilistes et non probabilisteset non probabilistes

Titre d u d iag ram m e

aléato ire sim ple systém atique stratifié par grappes

Probabiliste

sur base vo lonta ire com m odité

Non probabiliste

M éthodes d 'échantillonnage

Page 18: Comprendre la va riation dans les données: Notions de base

Les erreurs d’échantillonnagesLes erreurs d’échantillonnages

• Erreur aléatoireErreur aléatoiredifférents échantillons vont produire différents échantillons vont produire

différentes estimations de la différentes estimations de la caractéristique de la population à caractéristique de la population à l’étudel’étude

• Erreurs systématiques - biaisErreurs systématiques - biaiséchantillon non probabilisteéchantillon non probabilisteéchantillon probabiliste mais avec un échantillon probabiliste mais avec un

taux élevé de non-répondantstaux élevé de non-répondantsinstrument de mesure biaiséinstrument de mesure biaisé

Page 19: Comprendre la va riation dans les données: Notions de base

Remarques :Remarques :

• Les résultats obtenus dépendent de l ’échantillon Les résultats obtenus dépendent de l ’échantillon prélevé.prélevé.

• Si les échantillons sont prélevés selon les règles de Si les échantillons sont prélevés selon les règles de l ’art, tous les résultats devraient se ressembler.l ’art, tous les résultats devraient se ressembler.

• Pour un tirage aléatoire simple, chaque individu de la Pour un tirage aléatoire simple, chaque individu de la population a la même chance d ’être sélectionné à population a la même chance d ’être sélectionné à chaque tirage.chaque tirage.

• Pour un tirage aléatoire simple, il y a plusieurs Pour un tirage aléatoire simple, il y a plusieurs échantillons possibles et qui sont différents. Tous les échantillons possibles et qui sont différents. Tous les échantillons possibles de échantillons possibles de même taillemême taille ont la même ont la même chance d ’être sélectionnés.chance d ’être sélectionnés.

Page 20: Comprendre la va riation dans les données: Notions de base

Qu’est-ce qu’une Qu’est-ce qu’une statistiquestatistique• Mesure calculée à partir d’un échantillonMesure calculée à partir d’un échantillon

– Ex: moyenne, écart-typeEx: moyenne, écart-type• Cette estimation varie donc d’un Cette estimation varie donc d’un

échantillon à l’autre.échantillon à l’autre.• La distribution d’une statistique est La distribution d’une statistique est

obtenue à partir de l’histogramme des obtenue à partir de l’histogramme des valeurs potentielles de la statistiquevaleurs potentielles de la statistique– Suppose une distribution , comme la distribution Suppose une distribution , comme la distribution

normalenormale– On utilise des méthodes de simulation appelées On utilise des méthodes de simulation appelées

méthodes de Monté-Carlométhodes de Monté-Carlo