DF ch5 Estimation [Mode de compatibilit ]mathsv.univ-lyon1.fr/pdf/mathsv-Estimation-dfo.pdf ·...

download DF ch5 Estimation [Mode de compatibilit ]mathsv.univ-lyon1.fr/pdf/mathsv-Estimation-dfo.pdf · descriptive de notre échantillon (permet de résumer nos données) x 3) La moyenne

If you can't read please download the document

Transcript of DF ch5 Estimation [Mode de compatibilit ]mathsv.univ-lyon1.fr/pdf/mathsv-Estimation-dfo.pdf ·...

  • Chapitre 5

    EstimationEstimationEstimationEstimation

  • Estimation ponctuelleEstimation ponctuelle

    Exemple: on souhaite connatre le poids moyen des chats forestiers en France

    X = poids dun chat forestier . On cherche =E(X) (moyenne de tous les chats de France)

    Echantillonage de n individus: x1,, xn

    A partir de ces donnes, quelle est la valeur la plus raisonnable pour ? (si on devait essayer de deviner)

    Cest la moyenne empirique

    On dit que est une estimation de . On crit n

    xxx n

    ++= ...1

    x x=

  • Eviter les confusionsEviter les confusions

    On a dfinit jusqu maintenant 3 types de moyenne: il ne faut pas les confondre.

    1) La moyenne thorique (ou relle) : cest celle que lon souhaite connatre mais quon ne connatra jamais car il faudrait mesurer TOUS les chats

    2) La moyenne observe ou empirique : cest une mesure uniquement

    descriptive de notre chantillon (permet de rsumer nos donnes)

    x3) La moyenne estime : traduit une tentative de notre part dessayer de

    deviner la moyenne thorique (en sappuyant sur des critres mathmatiques)

    Dans le cas de la moyenne, on a moyenne estime = moyenne observe. Ce nest

    pas vrai tout le temps (p.e. faux pour la variance)

    x

  • La notion destimateurLa notion destimateurLestimation de notre moyenne dpend de notre chantillon.

    Lestimation serait diffrente si on avait attrap des chats diffrents.

    On parle de variable alatoiren

    XXX n

    ++= ...1

    (Xi tant la variable alatoire: taille du i-me chat captur )

    On dit que est un estimateur de la moyenne

    Dans le cas de la moyenne on dit que lestimateur est sans biais car

    X

    ==++=++=n

    n

    nn

    XEXEXE n

    ...)(...)()( 1

  • Une exprience simpleUne exprience simple

    Question: quelle est la taille moyenne des tudiants (hommes) de Mathsv de

    lanne dernire ?

    On prlve au hasard N tudiants et on mesure leur taille x1,, xn

    On calcule la moyenne empirique (x1++ xn)/n

    On essaie avec diffrentes valeurs de n (n=4, n=20 et peut tre au besoin n=50)

    Rappel: ce que lon cherche cest la moyenne de TOUS les tudiants (un peu

    moins de 200).

    La moyenne empirique (ou observe) sert dESTIMATION de la moyenne relle

    recherche

  • Que nous apprennent les rsultats ?Que nous apprennent les rsultats ?

    1) Il ny a aucune chance que la moyenne observe nous donne exactement la

    moyenne recherche: elle est diffrente dun chantillon lautre (cest une

    variable alatoire).

    En effet: si on prend 4 tudiants, on peut tomber par malchance sur 4 tudiants

    particulirement grands (ou petits) et donc sur-estimer (ou sous-estimer) notre

    moyenne recherche

  • 1) Il ny a aucune chance que la moyenne observe nous donne exactement la

    moyenne recherche: elle est diffrente dun chantillon lautre (cest une

    variable alatoire)

    2) Plus on prend dtudiants, moins lcart entre deux estimations va tre grand

    Que nous apprennent les rsultats ?Que nous apprennent les rsultats ?

    En effet: avec 4 tudiants, on pouvait tomber par malchance sur des tudiants tous

    trs grands. Avec 50 tudiants cest trs improbable: on aura certainement des grands,

    des petits et des moyens et tout cela va se compenser.

  • 1) Il ny a aucune chance que la moyenne observe nous donne exactement la

    moyenne recherche: elle est diffrente dun chantillon lautre (cest une

    variable alatoire)

    2) Plus on prend dtudiants, moins lcart entre deux estimations va tre grand

    Que nous apprennent les rsultats ?Que nous apprennent les rsultats ?

    3) Moralit: on ne peut pas connatre la moyenne de manire exacte: il y a une

    imprcision dans notre estimation (effet dchantillonnageeffet dchantillonnage). Par contre, plus

    on prend dindividus, moins on va scarter de la vritable moyenne (meilleure

    prcision)

  • Et les maths dans tout a ?Et les maths dans tout a ?

    Les maths permettent dvaluer de combien la moyenne estime partir dun chantillon

    peut au maximum sloigner de la valeur relle. Ceci permet, partir de la moyenne

    observe, de deviner la vraie moyenne recherche.

    |

    Vraie moyenne = |

    Moyenne observe = x

    cart max = 4 cm (par ex.)

    La plupart du temps on ne sait pas o est la vraie moyenne, mais:

    Bien sr ceci est bas sur un calcul de probabilit

    |

    x

    On sait que la vraie moyenne est quelque part la dedans

    cmx 4+cmx 4||

  • On met tout a en quationOn met tout a en quation

    On appelle X la variable alatoire taille des tudiants homme de mathsv . On suppose

    que X~N(,)

    On choisit n individu.

    On appelle Xi = taille du i-me tudiant choisi .

    Tous les Xi suivent aussi une N(,)

    On montre qualors:

    _ _

    est alors la valeur moyenne attendu pour X et /n dcrit ( peu prs) lcart moyen que lon attend entre la moyenne estime et la moyenne relle

    ),(~...1

    nN

    n

    XXX n

    ++=

    Xn

  • On met tout a en quationOn met tout a en quation

    Pour se ramener une loi normale centre rduite on centre et on rduit:

    )1,0(~/

    Nn

    XZ

    =

    Trouver un Z = 0.5 signifierait que, dans notre chantillon, la valeur moyenne estime scarte de la moyenne relle (ou thorique) de 0.5 fois ce quoi on pourrait sattendre normalement.

    Z dcrit lcart rduitlcart rduit entre la moyenne relle et la moyenne observe

    / n

  • Il y a 99 chances sur 100 que la valeur observe (z) de Z soit entre -2.58 et +2.58

    Lcart rduit tant distribu comme une loi N(0,1), il peut prendre toutes les valeurs possibles (cart entre moyenne observe et thorique aussi grand quon veut)

    Cependant, en y regardant de plus prs (cf Tables):

    Il y a 95 chances sur 100 que la valeur observe (z) de Z soit entre -1.96 et +1.96

    Il y a 90 chances sur 100 que la valeur observe (z) de Z soit entre -1.64 et +1.64

  • Ca veut dire que:

    1) En thorie, ma moyenne estime peut tre trs loin de ma moyenne relle, MAIS:

    2) En pratique, la moyenne estime a une probabilit trs forte de ntre pas trop loin de la moyenne relle

    3) En acceptant de prendre un risque de me tromper, je peux donner un intervalle dans lequel doit se situer ma valeur moyenne

    Exemple: en ayant 5% de risque de se tromper, on peut dire que Exemple: en ayant 5% de risque de se tromper, on peut dire que -1.96

  • xx +

  • Remarque:

    La valeur de lIC dpend de lchantillon. Si on rptait un chantillonnage de mme taille 100 fois, on aurait des intervalles de confiance qui contiennent bien la vraie moyenne dans 95 cas ( peu prs) si =0.05

    [ ] Echantillon 1

    Echantillon 2

    Echantillon 3

    [ ]

    [ ] Echantillon 3

    Echantillon 4

    Echantillon 5

    Echantillon 6

    Echantillon 7

    Echantillon 8

    [ ]

    [ ]

    [ ]

    [ ]

    [ ]

    [ ]Vraie moyenne

  • Un exempleUn exemple

  • Bah on lestime

    Mesures x1, , xn

    Intuitivement, on voudrait prendre

    Si on connat pas la variance on fait quoi ?Si on connat pas la variance on fait quoi ?

    Intuitivement, on voudrait prendre

    Pour des raisons mathmatiques, il vaut mieux prendre

    2n

    1i

    2i

    2n

    1ii

    2 xxn

    1 )x(x

    n

    1 s ==

    ==

    )x(x1-n

    1 s

    1 2

    n

    1ii

    22 =

    = =n

    n

  • Lestimation de la variance dpend aussi de lchantillon. Pour faire simple on appelle aussi lestimateur de la variance

    Comme tout lheure on va considrer lcart rduit (on remplace lcart type par son estimation )

    Si on connat as la variance on fait quoi ?Si on connat as la variance on fait quoi ?

    2

    X

    Contrairement tout lheure, lcart rduit nest plus distribu comme une N(0,1) car on a divis par qui est une variable alatoire

    n

    XT

    /=

  • On montre mathmatiquement que est distribu suivant un 2 n-1 ddl

    Cest la raison pour laquelle on utilise la lettre T (au lieu de Z quand la variance est connue)

    Si on connat as la variance on fait quoi ?Si on connat as la variance on fait quoi ?

    2

    )1(~/

    ddlnTn

    XT =

    variance est connue)

    On en dduit que:

    avec tn-1 la valeur telle que si T~T(n-1 ddl), alors P(-tn-1

  • Si on connat as la variance on fait quoi ?Si on connat as la variance on fait quoi ?

    Remarque 2:

    Le fait de ne pas connatre la variance induit une imprcision supplmentaire qui se traduit par un intervalle de confiance plus large.

    En effet, on a toujoursN(0,1)

    >1nt

    N(0,1)

    T(n-1 ddl)

  • RcapitulatifRcapitulatif

    EstEst--ce que nce que n30 ?30 ?

    OUINON

    On doit supposer la normalit de la variable mesure (Xi~N(,))

    ConnatConnat--on on la variance ?la variance ? ConnatConnat--on on la variance ?la variance ?

    On estime:

    22

    1 s

    n

    n

    =

    On estime:

    22

    1 s

    n

    n

    =

    = n

    txIC n

    1

    =n

    xIC

    =n

    xIC

    =n

    xIC

    NON

    OUI

    NON

    OUI

  • Essayons de deviner la taille moyenne des tudiants de mathsv de lanne dernire

    On calcule

    ApplicationApplication

    =

    VRAIE VALEUR = ... 174.7

  • Intervalle de confiance dune proportionIntervalle de confiance dune proportionExemple: on souhaite connatre la frquence dun allle dans la population

    On chantillonne n individus

    Estimation de la proportion de porteurs de lallle ?

    Frquence observe: f =

    Estimation de la frquence relle:

    Nombre de porteurs de lallle dans lchantillonNombre dindividus chantillonns

    xn=

    fp =Estimation de la frquence relle:

    Comme pour lestimation dune moyenne il existe une incertitude (ou erreur) associe cette estimation. Il faut quantifier cette erreur (effet dchantillonnage)

    MATHS (calcul de probabilit)

    Remarque:Remarque: Comme pour lestimation de la moyenne et de la variance, on fait la distinction entre lestimateur (variable alatoire) et lestimation (quantit observe ralisation de lestimateur). Pour simplifier les notations on note les deux p

    fp =

  • Intervalle de confiance dune proportionIntervalle de confiance dune proportion

    Dun point de vue mathmatique cest une probabilit que lon estime

    En prenant un individu au hasard dans la population, quelle est la probabilit (note pp) quil porte lallle?

    On chantillonne n individus

    On dfinit la variable alatoire X = nombre dindividus porteurs de lallle On dfinit la variable alatoire X = nombre dindividus porteurs de lallle

    On a X~B(n,p)

    Si n 30, np 5 et nq 5, on peut faire lapproximation:

    Donc

    pqonpqnpNX =1),(~

    ),(~n

    pqpN

    n

    Xp = Imprcision de lestimation lie lchantillonnage

  • Intervalle de confiance dune proportionIntervalle de confiance dune proportion

    Comme prcdemment (cf estimation moyenne), on centre et on rduit pour se ramener une N(0,1)

    Ici, on ne connat pas lcart type de , donc on lestime:p

    )1,0(~

    N

    n

    pq

    pp

    Ici, on ne connat pas lcart type de , donc on lestime:

    Comme n30, on a peu prs:

    p

    n

    qpestimation

    n

    pqreltypeEcart

    == pqavec 1 =

    )1,0(~

    N

    n

    qp

    ppZ

    =

  • Comme prcdemment, comme Z~N(0,1), on peut a P(

  • Exemple: sondage lection prsidentielle

    2 candidats: A et Bp = proportion de la population (franaise votante) qui vote pour A

    Estimation sur 10,000 sonds:

    Intervalle de confiance dune proportionIntervalle de confiance dune proportion

    52.0 =p

    IC0.05(p) = ?

    52.0 =p