Le modèle linéaire et l'approche multivariée en statistique.

61
Le modèle linéaire et l'approche multivariée en statistique

Transcript of Le modèle linéaire et l'approche multivariée en statistique.

Page 1: Le modèle linéaire et l'approche multivariée en statistique.

Le modèle linéaire et l'approche multivariée en statistique

Page 2: Le modèle linéaire et l'approche multivariée en statistique.

I Le modèle linéaire

II Approche multivariée en statistique

III Utilisation

IV Rapprochements

Page 3: Le modèle linéaire et l'approche multivariée en statistique.

A la base du modèle linéaire : la comparaison de moyennes

Population 2Population 1

M1, M2, 2

Ech

antil

lonn

age

m1,s m2,s

Comment comparer les deux populations à partir d'un échantillon réduit? Comparaison de moyennes

Page 4: Le modèle linéaire et l'approche multivariée en statistique.

Construction du test

On suppose que X1N(M1,) X2 N(M2,)

Test de Student

On en déduit (propriété de variables suivant des lois normales indépendantes) que

11 2

1

22 2

2

21

mM t

sn

mM

sn

Page 5: Le modèle linéaire et l'approche multivariée en statistique.

La comparaison de moyennes, vision intuitive

M1=M2M1≠M2

Dis

trib

utio

n A

Dis

trib

utio

n B

B≠A

Que conclure?

Page 6: Le modèle linéaire et l'approche multivariée en statistique.

Les statistiques univariées = statistiques paramétriques

On fait des hypothèses sur les lois statistiques des variables mesurées

Il faut vérifier ces hypothèses avant de construire les tests

Il existe des tests non-paramétriques, moins puissants, moins souples

Il existe parfois des solutions (transformation des variables)

Page 7: Le modèle linéaire et l'approche multivariée en statistique.

Le modèle linéaire

1,1 1,1

,

,

1

1 ,

1.

. . ..

. .

. . ..

.

.

.

..

m

i ji

n n mn

ii

n n

e

e

e

p

p

x xy

x

x p

y

xy

.Y EX P

Variableexpliquée

Variables/facteursexplicatifs Paramètres Erreur

n ob

serv

atio

ns

Prediction?

Page 8: Le modèle linéaire et l'approche multivariée en statistique.

Exemple : régression à deux variables

1,1 2,11

1, 2,

1, 2

1

1

,

2

1

. . .

.

.

1

. ..

1

i

n

i ii

n nn

x xy

x

e

e

e

a

axy

xy

c

x

.Y EX P

Variableexpliquée

Variables/facteursexplicatifs Paramètres Erreur

22,11,i i iiy x xa a c e

n ob

serv

atio

ns

Page 9: Le modèle linéaire et l'approche multivariée en statistique.

Les hypothèses du modèle linéaire

Les erreurs, ei, sont des variables aléatoires

Les ei sont indépendants

Les ei suivent des lois normales

Les ei ont des espérances nulles

Les ei ont une variance commune 2

ei ,ei N (0, 2) et les ei sont indépendants

Page 10: Le modèle linéaire et l'approche multivariée en statistique.

Estimation des paramètres

Trt 1 Trt 2 Trt 3

Régression ANOVA

Observées Prédites Erreurs

Pour déterminer les paramètres du modèle on cherche à minimiser la somme des carrés des erreurs Pourquoi utiliser les carrés?

Quels sont les paramètres sur ces figures?

Page 11: Le modèle linéaire et l'approche multivariée en statistique.

Estimation des paramètres

L'existence et la multiplicité des solutions dépendent des propriétés algébriques de X

Rang de X et nombre de paramètres

Il existe une formule générale basée sur l'expression matricielle du problème

1. .t tX XP X Y

Page 12: Le modèle linéaire et l'approche multivariée en statistique.

Tests

Trt 1 Trt 2 Trt 3

Le traitement a un effet significatif si la variabilité due au traitement est suffisamment élevée par rapport à la variabilité résiduelle

variabilité inter Trt

variabilité intra Trt

2 2

trt trt/ (dl mod,dl res)

dl modèle dl résiduelindiv indivtrt trt

y y

Fy y

Sous H0

Page 13: Le modèle linéaire et l'approche multivariée en statistique.

Notion de degré de liberté ANOVA un facteur, 3 modalités

Degré de liberté total = nb observations-1 = 5+4+4-1=12

Degré de liberté résiduel = dl total – dl modèle=10

Degré de liberté pour le modèle = nb de paramètres à estimer-1 = 3 -1 =2

Trt 1 Trt 2 Trt 3

,i tr rt it tyy e 5 4

4

Page 14: Le modèle linéaire et l'approche multivariée en statistique.

Degré de liberté

Plus on estime de paramètres plus la variabilité intra (expliquée) augmente / variabilité inter (résiduelle)

2 2

trt trt/ (dl mod,dl res)

dl modèle dl résiduelindiv indivtrt trt

y y

Fy y

A l'extrême si on estime autant de paramètres que d'observation le modèle explique toute la variabilité mais le trt ne peux plus être significatif parce qu'on divise par le dl modèle Attention au sur-paramétrage, importance du nombre de répétitions

Page 15: Le modèle linéaire et l'approche multivariée en statistique.

PAS DE PANIQUE!!!

Page 16: Le modèle linéaire et l'approche multivariée en statistique.

Un exemple de sortie : analyse de la densité apparente du sol des pâturages amazoniens

Page 17: Le modèle linéaire et l'approche multivariée en statistique.

ATTENTION!!!!!!!!!!!

Prévoir le bon dispositif expérimental

Utiliser/prévoir le bon modèle statistique

Page 18: Le modèle linéaire et l'approche multivariée en statistique.

ANOVA : variable continue = f(facteur discret)

Trt 1 Trt 2 Trt 3

, ittrt ti ra by e Un facteur

1 2, trti trt trt ia b cy e Deux facteurs ....

Supposons le trt1 ayant un effet significatif Quelle information manque-t-il?

Comparaison multiple de moyenne

Décomposition à volonté de la variance

Page 19: Le modèle linéaire et l'approche multivariée en statistique.

Comparaison de moyenne multiple

Conclusion:C, FM > FP

Page 20: Le modèle linéaire et l'approche multivariée en statistique.

La notion d'interactionEngrais 1 Engrais 2

Her

bici

de 1

Her

bici

de 2

,

,

engrais

herbicide

engrais

i

h

trt

erbic

i

ide

y a

e

b

c

d

2-1

2-1

2x2-1

total=5

DL

Ecriture conventionnelle du modèle production = engrais herbicide engrais X herbicide

Problème avec cette représentation du plan d'expérience

Page 21: Le modèle linéaire et l'approche multivariée en statistique.

Régression : variable continue =f(variable continue)

i i ieay x b

2i ii ia b ey x x c

i i ieay f x c

Page 22: Le modèle linéaire et l'approche multivariée en statistique.

ANCOVA : Analyse de Covariancevariable continue = f(facteur discret,variable continue)

trt trt ii i iy x b xa a b e

Exemple: effet de vers de terre sur la biomasse végétale Ecriture conventionnelle du modèle production = engrais vers engrais X vers

Page 23: Le modèle linéaire et l'approche multivariée en statistique.

Modèles plus compliqués

Il existe des modèles adaptés à tous les plans d'expérience

Exemple de l'ANOVA hiérarchiséeParcelle 1

SOL 1

Parcelle 4 Parcelle 6 Parcelle 5

Parcelle 3 Parcelle 2

SOL 2

Ecriture du modèle densité = sol parcelle X sol

,sol soli parcelle iy b ea

Page 24: Le modèle linéaire et l'approche multivariée en statistique.

Le modèle linéaire généralisé

Quel type de variable expliquée n'a pas été traité?

Variable qualitative!!

Pourquoi ne pas utiliser un modèle linéaire classique?

Les résidus ne peuvent pas suivre une loi normale La variance des résidus ne peut être constante

0 ou 1 avec i i i i iy y y xa b e Variable binaire

( ) ii if y xa eb Formulation générale

f : fonction de lienei suivent une distribution adhoc

Page 25: Le modèle linéaire et l'approche multivariée en statistique.

Estimation et tests

Estimation basée par maximisation de la vraisemblancepar itérations successives

Tests basés sur le chi2

Page 26: Le modèle linéaire et l'approche multivariée en statistique.

La régression logistique : distribution binomialeprobabilité =logistique(variable continue)

Variable explicative = x

Var

iabl

e qu

alita

tive

Variable explicative= x

Var

iabl

e qu

alita

tive

ln1

p

pax b

( )

1

1ax bp

e

Autres possibilités Plus d'une modalité Plusieurs variables explicatives

0

1

Page 27: Le modèle linéaire et l'approche multivariée en statistique.

Analyse logit des tableaux de contingence: distribution binomialeOn échantillonne des individus qui sont classés en fonction de plusieurs facteurs discrets Comment ces variables influencent-elles la quantité d'individus trouvés?

1, 2, 3

1 2 3 1, 2

1, 2, 31, 2, 3

2, 3

ln logit( )1

f f ff f f

f f f

f

f

f

f f

f

fa b c dc

P

b

p

p

"Analyse de variance" pour variables discrètes

On peut combiner les variables explicatives discrètes et continues

Page 28: Le modèle linéaire et l'approche multivariée en statistique.

Attalea speciosa Mart. : Babaçu

Exemple : effet du sexe, du nb de feuille et du milieu sur la maturité sexuelle d'un palmier (Barot et al. 2005)

Page 29: Le modèle linéaire et l'approche multivariée en statistique.

Résultats

Page 30: Le modèle linéaire et l'approche multivariée en statistique.

I Le modèle linéaire

II Approche multivariée en statistique

III Utilisation

IV Rapprochements

Statistique exploratoire multidimensionnelleLebart et al. Dunod 2000 3ième édition

Page 31: Le modèle linéaire et l'approche multivariée en statistique.

Type de données

Exemples?

Relevés faune/flore

Caractérisationd'espèces

Caractérisationdu milieu physique

Page 32: Le modèle linéaire et l'approche multivariée en statistique.

D'abord un problème de représentation

3 dimensions

n dimensions?

Page 33: Le modèle linéaire et l'approche multivariée en statistique.

Initialement deux approches

Page 34: Le modèle linéaire et l'approche multivariée en statistique.

Résumer un jeu de données compliqués

Comment choisir les axes de projections?

Page 35: Le modèle linéaire et l'approche multivariée en statistique.

Classer des observations : Classification hiérarchique

On regroupe 2 à 2 les observations et les groupes d'observations

Problèmes?

2 dimensions à n dimension

Position des groupes d'observations

Nombre de groupes final

Page 36: Le modèle linéaire et l'approche multivariée en statistique.

Analyse en Composantes Principales : variables continues

Calcul de distance (p variables)

'2 ' 2

, ,1

, ( )p

i j i jj

d i i x x

i

i'

On choisit F1 de façon à maximiser

21

1 ' 1

( ')p p

Hi i

d i i

F1

F2Puis F2 ...

Page 37: Le modèle linéaire et l'approche multivariée en statistique.

Analyse en Composantes Principales : variables continues

Obs 1

Obs 2

Obs 3

Obs 4

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. . . .

. . . .

. . . .

. . . .

V1 V2 V3 . . . .

0.5

0.9

1.9

1.2

0.1

0.4

1.1

0.3

0.5

1.9

1.1

1.9

Page 38: Le modèle linéaire et l'approche multivariée en statistique.

Projections dans les plans factoriels (nouveau repère)

F1

F2

F3

F1

F2 F1

F3X1

X2

X3

Page 39: Le modèle linéaire et l'approche multivariée en statistique.

Le cercle des corrélations

Projections des axes initiaux (variables observées)

F1

F2

F3

F1

F2

X1

X2

X3

X1X3

X3 X4

Page 40: Le modèle linéaire et l'approche multivariée en statistique.

Passer d'une représentation à l'autre

Page 41: Le modèle linéaire et l'approche multivariée en statistique.

Choix du nombre d'axes factoriel

Axes factoriels

Iner

tie

Iner

tie

Axes factoriels

Axes factoriels

Iner

tie

Page 42: Le modèle linéaire et l'approche multivariée en statistique.

Analyse Factorielle des Correspondances : variables discrète

Obs 1

Obs 2

Obs 3

Obs 4

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. . . .

. . . .

. . . .

. . . .

V1 V2 V3 . . . .

0

0

1

1

1

0

1

0

0

1

1

0

Les colonnes et les lignes jouent un rôle symétrique!

Page 43: Le modèle linéaire et l'approche multivariée en statistique.

Analyse Factorielle des Correspondances : variables discrète

Utilisation de la distance du chi2

Page 44: Le modèle linéaire et l'approche multivariée en statistique.

Projection des variables et des observation dans le même espaces

F1

F2

+V1

+V2

+V3

+V4Observations

Page 45: Le modèle linéaire et l'approche multivariée en statistique.

Analyse discriminante

F1

X1

X2

X3

On cherche la combinaison linéaire des variables continues observées qui "discriminent" le mieux les observations en fonction d'un critère discret

Ex : Détermination "automatique" d'espèces

Page 46: Le modèle linéaire et l'approche multivariée en statistique.

Analyse multi-tableau

Recherche d'une structure commune,Analyse de coinertie

Relevés d'espècesTraits des espèces

Caractéristiques environnementales

Page 47: Le modèle linéaire et l'approche multivariée en statistique.

I Le modèle linéaire

II Approche multivariée en statistique

III Utilisation

IV Rapprochements

Page 48: Le modèle linéaire et l'approche multivariée en statistique.

Modèle linéaire

Statistiques multivariées

Tests Statistiques paramétriques Modèles adaptés pour chaque plan d'expérience / d'échantillonnage Séparation des sources de variance à volonté

Pas de tests, statistiques descriptives Statistiques non paramétriques Tient peu compte du plan d'expérience Indispensable pour des données fondamentalement multivariées

Page 49: Le modèle linéaire et l'approche multivariée en statistique.

Modèle linéaire

Statistiques multivariées

Parfaitement adapté à la méthode expérimentale Tests planifiés d'hypothèses simples On connaît a priori les facteurs clefs

Méthodes exploratoires On connaît mal le système étudié

La réalité est fondamentalement multivariée!!!!

Page 50: Le modèle linéaire et l'approche multivariée en statistique.

I Le modèle linéaire

II Approche multivariée en statistique

III Utilisation

IV Rapprochements

Le mutltivarié et le modèle linéaire on tendance à

converger

Page 51: Le modèle linéaire et l'approche multivariée en statistique.

ANOVA après une analyse multivariée

On effectue une expérience On mesure de nombreuses variables dans chaque unités expérimentales On ne sait pas a priori quelle est la variable la plus sensible aux différents traitements ni comment les variables covarient

On effectue une Analyse en Composantes Principales sur l'ensemble de variables

On applique un modèle linéaire classique aux coordonnés suivant les premiers axes factoriels

Page 52: Le modèle linéaire et l'approche multivariée en statistique.

MANOVA : Analyse de Variance Multivariée

On applique le même modèle d'ANOVA à toutes les variables mesurées Il existe un test composite testant l'effet global des facteurs inclus dans l'ANOVA sur l'ensemble des variables

Page 53: Le modèle linéaire et l'approche multivariée en statistique.

Tests par randomisation

Test de permutationOn souhaite faire une ANOVA mais la variable ne vérifie pas les hypothèses (normalité, égalité des variance)

Rééchantillonnage

Variab

le

Traitement

0.4

0.8

0.6

0.4

0.3

A

B

A

B

A...

.

.

.

Permutations aléatoires

Fré

que

nce

F

ANOVA X 1000

1000 valeur de F

5 %

F observé

Page 54: Le modèle linéaire et l'approche multivariée en statistique.

Tests de permutation en analyse multivariée

F1

X1

X2

X3

F1

X1

X2

X3

Variables Traitement

0.4

0.8

0.6

0.4

0.3

A

B

A

B

A

0.4

0.8

0.6

0.4

0.3

.

.

.

.

.

...

.

.

1000 Permutations aléatoires

On regarde dans quel cas la somme des "inerties" par traitement est la plus faible

Observé Permuté

Page 55: Le modèle linéaire et l'approche multivariée en statistique.

Experience: augmenter la biodiversité dans les pâturages amazoniens

Page 56: Le modèle linéaire et l'approche multivariée en statistique.

Experience: augementer la biodiversité dans les pâturages amazoniens

S: Solanum rugosum

A: Arachis pintoi

L: Leucaena leucocephala

B: Brachiaria brizanthapasture Poaceae

Herbacée

Ligneuse

Légumineuse

Page 57: Le modèle linéaire et l'approche multivariée en statistique.

Dsispositif expérimental Toutes combinaisons de 1, 2,3 ou 4 espèces

BLAS

C A LAS BA

BLA B LA

BASSBLLS

L AS BS BLS

C

: 17 parcelles, 10 X 10 m chacune

BétailPas de bétail

Dispositif répété 3 fois, dans 3 pâturages Plusieurs répétitions pour toutes les variables mesurées dans chaque parcelle : macrofaune, sol ...

Page 58: Le modèle linéaire et l'approche multivariée en statistique.

LA

BL

AS

BA

LAS

T

LSBLS

BAS

BLAS

BLAS

BL

A

BSTe

-3.8

3.5-6.5 2.3

Traitements

P<0.01

ter

for

ver

chi

collar

ara

dip

div

hemiso

gas

ort

Page 59: Le modèle linéaire et l'approche multivariée en statistique.

C

J

L

-3.5

3.5-6.5 2.2

Pâturages

P< 0.01

Page 60: Le modèle linéaire et l'approche multivariée en statistique.

2

3T

1

4

-3.3

3-6 1.8

P<0.13

Biodiversité

Page 61: Le modèle linéaire et l'approche multivariée en statistique.

Possibilité de faire des statistiques univariées sur les mêmes données?

Intérêt de faire des statistiques univariées?