Analyse des données
description
Transcript of Analyse des données
Analyse des données
Plan
• Lien entre les statistiques et l’analyse des données
• Propagation des erreurs
• Ajustement de fonctions
Échantillon vs population
• Une mesure échantillonne une population
• La distribution de l’échantillon approxime celle de la population
• La précision sur les estimations augmente avec la taille de l’échantillon N
Exemple de comptage
n = 100
09,0/
92,0
07,0
100
n
µ
n
n = 1000
03,0/
01,1
03,0
1000
n
µ
n
n = 1 000 000
001,0/
0003,1
00076,0
1000000
n
µ
n
Précision sur la moyenne
• L’estimation de la moyenne s’affine avec N
Nµ
µxN
µxN
xN
µ
i
i
i
22
22
1
1
1
1
Population
Échantillon
Erreur sur une variable dépendante
3,3
10
3/
y
x
xy
Erreur sur une variable dépendante
15
5
3
y
x
xy
Erreur sur une variable dépendante
x
yxy
Propagation d’erreurs
?
),(
1
1
f
yyy
xxx
yxff
Propagation d’erreurs
Propagation d’erreurs
• x et y sont des variables indépendantes
• Et x et y sont des erreurs indépendantes
• Leurs effets s’additionnent quadratiquement
Propagation d’erreur
...22
2
y
fy
x
fxf
pour des incertitudes indépendantes
Propagation d’erreurs
xbf
aef
yxfaxyf
babyaxf
fbx
yxf
yxf
2
2
2
2
2
2
22222
(sans corrélations)
Moyenne pondérée
• Plusieurs mesures de x (x1, x2, ... xi,, ... xn)
• Différentes précisions (1, 2, ... i,, ... n)
• On cherche la meilleure évaluation de la moyenne µ
• Les mesures précises doivent contribuer davantage
Moyenne pondérée
2
2
2
2
11
1
i
µ
i
i
ix
µ
Si tous les i sont égaux,
NN
xµ i
µi
22
Ajustement de courbes
• Soit f(x) une fonction physique
• On fait une mesure de f(x) en x = x1
• On cherche la probabilité que la mesure soit bonne
2
2
1
1
1
1
2
1
yy
eP
2)(
2
1
2
1
i
ii yxf
ii eP
• La probabilité totale est
222
2
2
2)(
2
1
)(
2
1exp
2
1
)(
2
1exp
2
1
2
1
i
i
i
ii
i
i
ii
i
yxf
ii
yyxf
yxf
ePP i
ii
• La valeur de P ou de 2 nous dit si les mesures représentent bien la théorie
Ajustement
• En général, la situation est inversée
• On ne connaît pas f(x)
• Mais on connaît (ou on essaye) une forme– droite– polynôme– fonction arbitraire
Ajustement
• On cherche les ai qui maximisent P– Vraisemblance maximale– Maximum likelihood
• Ou qui minimisent 2
– Moindres carrés
),(,...),,,()( iaxfcbaxfxf
Régression linéaire
• On veut passer la meilleure droite à travers n points expérimentaux
bxaxf )(
Régression linéaire
• On cherche a et b qui minimisent 2
• 2 équations, 2 inconnus (a et b)
0 022
ba
Régression linéaire
02
02
)(
2
2
2
2
22
2
i
iii
i
ii
i
ii
i
ii
ybxax
b
ybxa
a
ybxayxf
0
01
22
2
22
2
2222
i
ii
i
i
i
i
i
iiii
i
i
i
i
ii
ii
yxxb
xa
yxbxax
yxba
ybxa
2222
2222
2
2
22
2
2
11
1
1
i
i
i
i
i
ii
i
i
ii
i
i
i
i
i
i
i
i
i
i
i
yxyxb
yxxyxa
xx
Incertitudes égales(votre calculatrice)
iiii
iiiii
ii
i
yxyxNb
yxxyxa
xxN
1
1 2
22
Régression linéaire
• 5 mesures
• f(x) = 3x + 7• a=7 b=3
2 = 10,1
• a = 5,9 b = 2,9
2min = 5,9
Contours du 2
Incertitude sur les paramètres
• a et b dépendent des yi
• a et b dépendent des i
• On applique la règle de propagation
égaux) ( 1
égaux) ( 11
égaux) ( 1
22
2
2
2
2
2
2
22
2222
2
iiii
i
i
i
i
iii
ib
iii
i
iia
xxNxx
Ny
b
xx
y
a
Incertitude sur les paramètres
2
2
2
2
2
22
222
1
11
1
i
i
i
i
i
iiib
i
i
iia
xx
y
b
x
y
a
170
41
92,2
5,9
,
,
b
a
b
a
Incertitude et 2
87,61
87,52min
2min
Incertitude et 2
• La régression linéaire trouve le minimum du 2
• Un écart-type sur les paramètres correspond à une augmentation de 1 du 2. Pourquoi ?
• Les courbes de niveau indiquent la corrélation entre les paramètres
Incertitude et 2
2
22
2
2
1exp
2
1
)(
i
i
i
i
ii
P
yyxf
Gaussienne d’écart-type = 1L’incertitude représente une variation de 1 du 2
Corrélation linéaire
• On peut toujours passer une droite par des points
• Mais ces points peuvent-ils être décrits par une droite ?
• Le coefficient de corrélation linéaire r nous donne la réponse
Corrélation linéaire
• b = 2,7 b’ = 0,33• r = sqrt(bb’) = 0,95
• b = 0,29 b’ = 0,33• r = sqrt(bb’) = 0,31
Élimination de données suspectesCritère de Chauvenet (pp. 154-156)
• Soit 5 mesures : 38 35 39 39 34 18• Faut-il rejeter la dernière valeur ?• Si on peut expliquer notre erreur, oui.• Sinon, il faut réfléchir• <x> = 34 =8• Si on enlève, on a <x> = 37• La valeur de 18 s’écarte de 2 de la moyenne
• Ceci n’est jamais impossible et devrait se produire ~ 1 fois sur 20
• Mais on n’a que 6 données• On attend donc ~ 0,3 données de ce type et on
l’écarte• Critère de Chauvenet
• On écarte si 5,0NPn
Attention à l’auto-censure
• Expérience de Millikan
• e = 1,592 × 10-19 C
• e = 1,602 × 10-19 C
• Temps de vie du muon