Analyse des données

Plan

• Lien entre les statistiques et l’analyse des données

• Propagation des erreurs

• Ajustement de fonctions

Échantillon vs population

• Une mesure échantillonne une population

• La distribution de l’échantillon approxime celle de la population

• La précision sur les estimations augmente avec la taille de l’échantillon N

Exemple de comptage

n = 100

09,0/

92,0

07,0

100

n

µ

n

n = 1000

03,0/

01,1

03,0

1000

n

µ

n

n = 1 000 000

001,0/

0003,1

00076,0

1000000

n

µ

n

Précision sur la moyenne

• L’estimation de la moyenne s’affine avec N

Nµ

µxN

µxN

xN

µ

i

i

i

22

22

1

1

1

1

Population

Échantillon

Erreur sur une variable dépendante

3,3

10

3/

y

x

xy


15

5

3

y

x

xy


x

yxy

Propagation d’erreurs

?

),(

1

1

f

yyy

xxx

yxff


• x et y sont des variables indépendantes

• Et x et y sont des erreurs indépendantes

• Leurs effets s’additionnent quadratiquement

Propagation d’erreur

...22

2

y

fy

x

fxf

pour des incertitudes indépendantes


xbf

aef

yxfaxyf

babyaxf

fbx

yxf

yxf

2

2

2

2

2

2

22222

(sans corrélations)

Moyenne pondérée

• Plusieurs mesures de x (x1, x2, ... xi,, ... xn)

• Différentes précisions (1, 2, ... i,, ... n)

• On cherche la meilleure évaluation de la moyenne µ

• Les mesures précises doivent contribuer davantage

Moyenne pondérée

2

2

2

2

11

1

i

µ

i

i

ix

µ

Si tous les i sont égaux,

NN

xµ i

µi

22

Ajustement de courbes

• Soit f(x) une fonction physique

• On fait une mesure de f(x) en x = x1

• On cherche la probabilité que la mesure soit bonne

2

2

1

1

1

1

2

1

yy

eP

2)(

2

1

2

1

i

ii yxf

ii eP

• La probabilité totale est

222

2

2

2)(

2

1

)(

2

1exp

2

1

)(

2

1exp

2

1

2

1

i

i

i

ii

i

i

ii

i

yxf

ii

yyxf

yxf

ePP i

ii

• La valeur de P ou de 2 nous dit si les mesures représentent bien la théorie

Ajustement

• En général, la situation est inversée

• On ne connaît pas f(x)

• Mais on connaît (ou on essaye) une forme– droite– polynôme– fonction arbitraire

Ajustement

• On cherche les ai qui maximisent P– Vraisemblance maximale– Maximum likelihood

• Ou qui minimisent 2

– Moindres carrés

),(,...),,,()( iaxfcbaxfxf

Régression linéaire

• On veut passer la meilleure droite à travers n points expérimentaux

bxaxf )(


• On cherche a et b qui minimisent 2

• 2 équations, 2 inconnus (a et b)

0 022

ba


02

02

)(

2

2

2

2

22

2

i

iii

i

ii

i

ii

i

ii

ybxax

b

ybxa

a

ybxayxf

0

01

22

2

22

2

2222

i

ii

i

i

i

i

i

iiii

i

i

i

i

ii

ii

yxxb

xa

yxbxax

yxba

ybxa

2222

2222

2

2

22

2

2

11

1

1

i

i

i

i

i

ii

i

i

ii

i

i

i

i

i

i

i

i

i

i

i

yxyxb

yxxyxa

xx

Incertitudes égales(votre calculatrice)

iiii

iiiii

ii

i

yxyxNb

yxxyxa

xxN

1

1 2

22


• 5 mesures

• f(x) = 3x + 7• a=7 b=3

2 = 10,1

• a = 5,9 b = 2,9

2min = 5,9

Contours du 2

Incertitude sur les paramètres

• a et b dépendent des yi

• a et b dépendent des i

• On applique la règle de propagation

égaux) ( 1

égaux) ( 11

égaux) ( 1

22

2

2

2

2

2

2

22

2222

2

iiii

i

i

i

i

iii

ib

iii

i

iia

xxNxx

Ny

b

xx

y

a

Incertitude sur les paramètres

2

2

2

2

2

22

222

1

11

1

i

i

i

i

i

iiib

i

i

iia

xx

y

b

x

y

a

170

41

92,2

5,9

,

,

b

a

b

a

Incertitude et 2

87,61

87,52min

2min

Incertitude et 2

• La régression linéaire trouve le minimum du 2

• Un écart-type sur les paramètres correspond à une augmentation de 1 du 2. Pourquoi ?

• Les courbes de niveau indiquent la corrélation entre les paramètres

Incertitude et 2

2

22

2

2

1exp

2

1

)(

i

i

i

i

ii

P

yyxf

Gaussienne d’écart-type = 1L’incertitude représente une variation de 1 du 2

Corrélation linéaire

• On peut toujours passer une droite par des points

• Mais ces points peuvent-ils être décrits par une droite ?

• Le coefficient de corrélation linéaire r nous donne la réponse

Corrélation linéaire

• b = 2,7 b’ = 0,33• r = sqrt(bb’) = 0,95

• b = 0,29 b’ = 0,33• r = sqrt(bb’) = 0,31

Élimination de données suspectesCritère de Chauvenet (pp. 154-156)

• Soit 5 mesures : 38 35 39 39 34 18• Faut-il rejeter la dernière valeur ?• Si on peut expliquer notre erreur, oui.• Sinon, il faut réfléchir• <x> = 34 =8• Si on enlève, on a <x> = 37• La valeur de 18 s’écarte de 2 de la moyenne

• Ceci n’est jamais impossible et devrait se produire ~ 1 fois sur 20

• Mais on n’a que 6 données• On attend donc ~ 0,3 données de ce type et on

l’écarte• Critère de Chauvenet

• On écarte si 5,0NPn

Attention à l’auto-censure

• Expérience de Millikan

• e = 1,592 × 10-19 C

• e = 1,602 × 10-19 C

• Temps de vie du muon

Analyse des données

Documents

Transcript of Analyse des données