Download - COURS STATISTIQUES PROBABILITES DESS « Génie logiciel, économie, droit et normes »

COURS

STATISTIQUES

PROBABILITES

DESS « Génie logiciel, économie, droit et normes »

Une expérience aléatoire se décrit mathématiquement par la donnée d’un espace dont

les points notés sont les résultats possibles de l’expérience, ainsi que d’une probabilité

P sur .

Un événement A lié à l’expérience est représenté par une partie de noté A.

Chaque événement possède une probabilité P(A) qui est un nombre compris entre 0 et 1.

(, A, P) espace probabilisé

P()=1= événement certain

P(A) + P(Ac)=1

La loi de probabilité triviale est :

Cas discret : Cas continue : )()(

)(

Card

ACardAP

A

dxxpAP )()(

Une variable aléatoire discrète est une variable X dont la valeur dépend du résultat . X est une fonction définie sur l’espace associé à l’expérience aléatoire.

Une v.a. discrète : dont l’ensemble des valeurs est dénombrable.

Etant donné un espace de probabilité (, A, P) , une v.a ; discrète est une application :

tq la famille de nombre ( ) est appelée loi de probabilité X.

L’intérêt est de permettre de calculer les probabilités directement sans passer par

Esperance :

Variance :

ExxXPxpX ),()(

E

xXxPXE )()(

))(()( 2XEXEXV

Une variable aléatoire continue est une variable aléatoire dont les valeurs sont dans R.

Une fonction f est une densité de probabilité si : f(.) est positive, intégrable

et

La fonction de répartition

Esperance :

1)( dxxf

b

a

dxxfbXaP )()(

x

dttfxXPxF )()()(

)()(.)( xdxfxXE

)()(

)/(BPBAP

BAPProbabilité conditionnelle :

Deux évènements sont indépendants si : )()()( BPAPBAP

Deux variables aléatoires sont indépendantes si : )()();(; ypxpyxp YXYX

Théorème de Bayes :)(

)()/()/(BP

APABPBAP

k

kk

iii

APABPAPABPBAP

)()/()()/()/(

Lois discrètes

Loi uniforme

n

kXPnX 1)(,...,3,2,1

121

)(2

1)(2

n

XVnXE

Loi Bernouilli

pXPX )1(1;0

)1()()( ppXVpXE

Loi Binomiale

On répète « n » fois dans des conditions identiques une expérience où l’on observe l’apparition ou pas d’un événement avec à chaque expérience la même probabilité « p » d’apparition.

X= nombre d’apparition de l’événement = n fois une bernouilli

knkkn ppCkXPnX )1()(,...,3,2,1,0

)1()()( ppnXVpnXE

Loi géométrique

Soit une suite d’ épreuves de Bernouilli indépendantes de même loi b(p).

X : nombre de tirage nécessaire pour obtenir le premier évènement positif (X=1)

Loi « sans mémoire», La probabilité de l’événement attendu au temps « k » ne dépend pas du fait qu’il ne soit pas apparu avant.( Seule v.a. discrète à posséder cette propirété « sans mémoire »)

ppXXXPkXP kk

121 )1()1;...;0;0()(

2

1)(1)(PpXV

pXE

Loi de Poisson

Loi utilisée très souvent pour modéliser le nombre d’événement arrivant dans un temps donné T ne dépendant que de la durée de cette période

Le nombre moyen d’événement par unité de temps .

X= nombre d’événement arrivant sur une période T suit une loi de Poisson :

!

)(,...3,2,1,0k

ekXPXk

)()( XVXE

On a, si p<0.1 et n>50 : )(),( npPpnB

Lois continues

Loi uniforme

axxF

axfax )(1)(;0

12)(

2)(

2aXVaTE

Loi exponentielle

Loi « sans mémoire » en temps continue. Le passé ne permet pas de prédire l’avenir. En fiabilité cette loi est très utilisée pour représenter la durée de vie d’un « matériel». L’espérance 1/ est souvent appelé MTBF (« mean time betweeen failure ») et le taux de défaillance

xx exFexfx 1)()(0

21)(1)( XVTE

P(X>x)=probabilité d’attendre plus de x minutes avant l’apparition d’un phénomène avec 1/ comme temps moyen d’attente du phénomène

Loi Weibull

Utilisée en fiabilité. >1 : matériel qui se dégrade avec le temps

<1 : matériel qui se bonifie avec le temps

=1 : matériel sans usure (loi exponentielle)

xexxfx 1)(0

21)(1)( XVTE

Loi Gamma

Généralisation de la loi exponentielle. Loi utilisée dans les files d’attentes. P(X>x) représente la probabilité d’attendre plus de x minutes avant la kème apparition du phénomène étudié, où 1/ comme temps moyen d’attente du phénomène entre deux apparitions de celui-ci.

0

11

)()(

)(0 dyeykekx

xfx ykxkk

2)()( kXVkTE

Loi Laplace-Gauss (« normale »)

Loi fondamentale en statistique. Très souvent utilisée pour modéliser des phénomènes étudiés. Elle est la loi limite de caractéristiques issus d’un échantillon de grande taille.

2

2

21

21)(

mx

exfx

2)()( XVmTE

)1;0();( NmXmNXsi

B(n;p)N(np;np(1-p)) (np et n(1-p) supérieurs à 5)

P()N(; ) (avec >18)

On a les convergences suivantes

Loi du Chi 2 (Khi-deux de Pearson)

)1;0(,...,, 21 NZZZSi k 2

)(1

2k

k

iiZ

On dit « chi2 à k degrés de liberté »

Loi de student

)()1;0(2

kt

k

ZNZSik

On dit « student à k degrés de liberté »

Loi de Fisher-Snédécor

);(2

2

lkF

l

kl

k

On dit « fisher à k et l degrés de liberté »

Exemple 1

Une machine industrielle comprend trois organes de fonctionnement. Si l’un de ces organes présente une défaillance, la machine tombe en panne. Sachant que les défaillances possibles de ces organes sont indépendantes et que les probabilités sont respectivement 0.02 0.05 et 0.10

Quelle est la probabilité que la machine tombe en panne ?

P(A)=0.02 P(B)=0.05 P(C)=0.10

P(panne)=1-P(pas panne)=

8379.090.095.098.0)()()()()( CPBPAPCBAPCetBetAP

Exemple 2

Une machine a quatre dispositifs D1, D2, D3, D4, dont la défaillance peut intervenir de manière indépendante. On observe le fonctionnement de la machine pendant un intervalle de temps T.

Soit Ai: » Di fonctionne sans défaillance pendant l’intervalle T », avec une proba : P(Ai ). On sait que P(A1)=0.80 P(A2)=0.85 P(A1)=0.90 P(A1)=0.90

La machine tombe en panne si D1 est défaillant. La machine continue de fonctionner si un seul des trois dispositifs D2, D3, D4 est défaillant ; mais la défaillance simultanée de deux de ces trois dispositifs met la machine en pane.

Quelle est la probabilité de fonctionnement de cette machine sur l’intervalle de temps T ?

Soit A=« la machine fonctionne sur un intervalle T »

)()()()( 4321432143214321 AAAAAAAAAAAAAAAAA

7704.0...90.090.015.080.090.090.085.080.0)( AP

Exemple 3

Un système S peut se présenter sous deux états, notés 0 et 1 en passant de l’un à l’autre de manière aléatoire. On a les résultats suivant : P(S=0)= 0.4 et P(S=1)=0.6.

Une stations d’observations T1 fournit des informations sur l’état de S. La probabilité que T1 donne S dans l’état 0 si S est dans l’état 0 = 0.98. La probabilité que T1 donne S dans l’état 1 si S est dans l’état 1 = 0.95.

A un instant donné, T1 donne S dans l’état 0. Quelle est la probabilité que S soit dans l’état 0 ?

Posons E1 {S est dans l’état 0} A:{S est observé dans l’état 0 par T1 }

P(E1 )=0.4 P(A /E1 )=0.98 P(A/ cE1 )=0.05

929.0)()/()()/(

)()/()/(1111

111

EPEAPEPEAPEPEAPAEP

T1=0 T1=1

S=0 0,392 0,008 0,4S=1 0,03 0,57 0,6

0,422 0,578 1422.0392.0)/( 1 AEP

Exemple 4

Un système S peut se présenter sous deux états, notés 0 et 1 en passant de l’un à l’autre de manière aléatoire. On a les résultats suivant : P(S=0)= 0.4 et P(S=1)=0.6.

Deux stations d’observations T1 et T2 fournissent des informations sur l’état de S. La probabilité d’erreur de T1 est 0.02 et celle de T2 est0.06

A un instant donné, T1 donne S dans l’état 0 et T2 donne S dans l’état 1. Quelle est la probabilité que S soit dans l’état 0 ?

Posons E1 {S est dans l’état 0} et S2 {S est dans l’état 1}

A:{S est observé dans l’état 0 par T1 et dans l’état 1 par T2 }

P(E1 )=0.4 P(E2 )=0.6

P(A/ E1 )=0.98*0.06 (=proba que T1 soit vraie et T2 soit fausse sachant que S est dans l’état 0)

P(A/ E2 )=0.02*0.94

68.060.00188.04.00588.0

40.00588.0)()/()()/(

)()/()/(2211

111

EPEAPEPEAP

EPEAPAEP

Une machine tombe en panne selon la loi exponentielle avec un facteur = 0.5/heure. Quelle est la probabilité que la machine tombe en panne entre la première et deuxième heure après le démarrage.

Exemple 5

La durée de vie d'un composant d'un système est supposée suivre une loi exponentielle de paramètre . Un grand nombre de ces composants sont testés et on a observé que 5% ne durent pas plus de 100 heures.

Estimer la probabilité qu'un composant pris au hasard dure plus de 200 heures, ou T est la durée de la vie en heures

La probabilité de survie,

ensuite, pour T > 200,

100100 95.0)1(1)100( eeTP

Pour le calcul de la fiabilité d'une carte électronique, il est admis que le taux global de défaillance est la somme des taux de chaque composant et que ceux-ci suivent une loi de mortalité exponentielle. La fiabilité globale suit donc une loi exponentielle.Les taux élémentaires sont donnés par des documents spécialisés (exemples : recueil de données de fiabilité des composants électroniques du CNET-RDF93 ; Military handbook - reliability prediction of electronic equipment - MIL-HDBK-217F ; manuels de fiabilité de constructeurs...). Ces recueils de données affectent également des facteurs permettant de prendre en compte les conditions d'environnement vibratoire, climatique et électrique. De même, le taux de défaillance du circuit imprimé prend en compte les dimensions, le nombre de trous métallisés ou pas, le nombre de pistes, leur largeur, et le nombre de couches.

pour un taux de défaillance = 12 10-6 h-1 et pour un fonctionnement 24 heures sur 24 pendant 208 jours par an, donnezla probabilité théorique que cette carte électronique fonctionne encore au bout de ces 208 jours.

Exemple 6

t = 24 x 208 5000 heures

la probabilité théorique que cette carte électronique fonctionne encore est alors de R(5000) = e-0.000012.x5000 = 0,9418. Ceci signifie que la probabilité d'avoir une défaillance pendant la durée de fonctionnement de 5000 heures est de f = 1 - 0,9418 = 0,0582 soit 5,8 %.

Exemple 7

On suppose que le nombre de clients entrant dans un magasin un jour donné est une variable de Poisson de paramètre = 12. Quelle est la probabilité de ne pas tomber en-dessous de 250 entrées de clients durant un mois de 22 jours ouvrables ? On fera les

hypothèses d'indépendance qui s'imposent. Soit X le nombre de clients entrant dans le magasin durant un mois de 22 jours ouvrables. X suit une loi de Poisson de paramètre = 22·12 = 264 (on suppose que les variables comptant le nombre d'entrées de chaque jour sont indépendantes).

La probabilité P(X 250) est donc donnée par

P(X 250) = 1 - P(X < 250) = 1 - exp(-264)·i=0..249 264i/i! = 0.8133788672..

Cette dernière somme étant plutôt longue, on peut approcher la distribution de la variable de Poisson X par celle d'une variable normale Y de moyenne = = 264 et de variance 2 = = 264 , ce qui donne ici

P(X 250) = P(X - -14) P((Y - )/ 250/) = P(Z -14/264½)

et Z est une variable normale standard. Donc

P(X 250) ½·[1 + erf(7·33½/66)] = 0.8055572942..

Les processus

Observation de phénomènes dans le temps

Temps discret

Temps continue

Nous modélisons pas une écriture probabiliste les différents états d’un processus pour travailler avec.

Processus de Poisson

Si les signaux observés sont « rares » et ne dépendent que du temps d’attente et d’un paramètre :

Le nombre de signaux entre le temps « s » et le temps « s+t » suit P(t) t

k

ekt

ksNtsNP

!)(

))()((

Le temps d’attente entre deux signaux suit une loi exponentielle de paramètre

tetTP

Le temps d’attente entre « k » signaux suit une loi Gamma.

Exemple

Le nombre de pannes d’un composant est de 3 par 24 heures.

Probabilité qu’il y ait aucune panne en 24 heures :

Probabilité qu’il y ait moins de deux pannes en 72 heures :

049.0!0

3)0( 3

0

eXP

0062.0!2

9!1

9!0

9)0( 9

29

19

0

eeeXP

Probabilité pour que le temps d’attente de la première panne soit supérieure à 24 heures : 049.0)1( 3 eTP

Probabilité pour que le temps d’attente de la première panne soit supérieure à 72 heures : 00012.0)1( 9 eTP

Temps moyen d’attente d’une pane : 1/3 de journée

Nombre moyen de panes par jours : 3 pannes

Processus de Markov

On observe un processus qui évolue dans le temps.

Son état au temps « k » ne dépend que de son état

au temps « k-1 ».

Exemple :

Un programme informatique est composé de 5 sous programmes indépendants : spgm1, .., spgm5 et d’un sous-programme de sortie spgm6.De spgm1 on peut aller à spgm2 avec une proba de ½

on peut boucler avec une proba de ½De spgm2 on peut aller à spgm1 avec une proba de ½

on peut aller à spgm4 avec une proba de ½De spgm3 on peut aller à spgm1 avec une proba de ¼

on peut aller à spgm2 avec une proba de ¼on peut aller à spgm5 avec une proba de ¼on peut aller à spgm6 avec une proba de ¼

De spgm4 on va à spgm3Quand on arrive à spgm5, on boucle Quand on arrive à spgm6, on boucle

Graphe du problème

1 2

3 4

5

6

0.50

0.500.50

1.000.25

0.25

0.25

0.25

Quelle probabilité d’y être à nouveau au temps « 4 » ?

Première résolution : graphique

Il y a 3 chemins pour aller de 2 à 2

24322 avec une proba : 0.50x1x0.25x0.50=1/16

21212 avec une proba : 0.50x0.50x0.50x0.50=1/16

21112 avc une proba : 0.50x0.50x0.50x0.50=1/16

Soit une proba de 3/16

(Nous supposons que le programme commence par spgm2)

jknn pjXPiXkXP )()/( 10

Si on pose les probabilités pij sous forme de matrice P, on a nik

n piXkXP )/( 0

Deuxième résolution : par matrice

0,50 0,5 0 0 0 00,5 0 0 0,5 0 00,25 0,25 0 0 0,25 0,250 0 1 0 0 00 0 0 0 1 00 0 0 0 0 1

Matrice initiale P

P4

0,375 0,25 0,125 0,125 0,0625 0,06250,3125 0,1875 0,125 0,125 0,125 0,1250,1875 0,125 0,0625 0,0625 0,28125 0,281250,1875 0,125 0,125 0,0625 0,25 0,25

0 0 0 0 1 00 0 0 0 0 1

Pour la plupart des chaînes de Markov vérifiant certaines propriétés, nous obtenons assez vite un régime stationnaire quelque soit l’état initial.

Exemple :

1 2 3

0.6 0.4 0.6 0.6

0.4 0.4

le processus markovien de graphe

0,6 0,4 00,2 0,6 0,20 0,4 0,6

Matrice associée

0.4

Le stationnarité s’écrit : P

et =(1, 2, 3) avec 1+ 2+ 3=1

On a =[1/4 1/2 1/4]

Si on part de trois états différents : ]1,0,0[]0,1,0[]0,0,1[ 000 cba

On obtient par simulation : 6.04.00.02.06.02.00.04.06.01

25002.050000.024998.025000.050000.025000.024998.050000.025002.020

Exemple

tiré de « sur la modélisation structurelle markovienne en fiabilité du logiciel » INRIA 1995

Un logiciel a 5 composantes dont les paramètres d’exécution exponentiels sont estimés à

1)5,5(5.0)4,4(5.0)3,3(5.0)2,2(0)1,1(

Les transition se font avec des probas :

5.0)2,4(5.0)5,3(475.0)4,2(025.0)3,2(1)2,1(

Les composantes 4 et 5 peuvent défaillir avec des probas : 4= 0.03 et 5= 0.01

Après une défaillance, les temps de recouvrement d’un bon fonctionnement sont des loi exponentielles de paramètres 4= 5 et 5= 10

On obtient : Il y a 95% de chances qu’il y ait deux défaillances avant 88 heures.

La diminution d’un taux de défaillance 5 dans un rapport de 10 n’apporte qu’un gain de deux heures sur cette borne de 88 heures.

Par contre, la simple division par trois de 4 donne une nouvelle borne de 257 heures.

C1 C2

C4

C3 C5 R5

R4

Soit un programme ayant 3 modules différents A, B, C

On passe de A à B avec une proba 0.4On passe de B à A avec une proba 0.4On passe de B à C avec une proba de 0.3On passe de C à B avec une proba de 0.3On boucle en A avec une proba de 0.6On boucle en B avec une proba de 0.7On boucle en C avec une proba de 0.7

Graphe ?

Matrice de transition ?

Si je rentre par le module A, quelle probabilité d’être en C en deux étapes ?

Etat stationnaire ?

Questions ouvertes

: Variable qualitative avec différentes modalités (sexe, CSP, …)

Variable nominale

: Variable dont la réponse est un classement Variable ordinale

: On demande aux interviewés d’attribuer une « valeur ». Exemple : Échelle de Likert en 5 valeurs (« tout à fait d’accord » « pas du tout d’accord »)

Variables d’échelle

Variables numérique : La réponse est une note sur une échelle de valeurs

Les différentes variables

Statistiques

Les indicateurs de position

Le mode

La médiane

La moyenne

Les indicateurs de dispersion

Les quartiles, centiles, …

La variance

L’écart-type

N Actifs Moyenne Médiane Minimum Maximum1er

Quartile3ème

QuartileEcart-Type

% module A

416 61,65 60 0 100 40,00 80,00 27,22

% module B

416 22,5 20 0 100 5,00 30,00 21,21

%module C

416 8,76 0 0 100 0,00 10,00 15,10

%module D

416 7,14 0 0 90 0,00 10,00 8,10

Utilisation de modules

Les graphes

Variables nominales

Variables discrètes

Variables continues

« Tuyaux d’orgue »

« Diagramme en batons »

« Histogrammes »

Corrélation

Il existe différents outils pour mesurer la « liaison » entre deux variables, selon les type de variable et le type de liaison recherchée.

Cependant, le coefficient de corrélation est le plus connu et utilisé.

Le coefficient de corrélation mesure la « liaison linéaire » entre deux variables, valeur comprises entre -1 et 1.

xx

xx

xx

xx

R proche de 0 : aucune liaison linéaire

R proche de -1 : forte liaison linéaire négative

x

xxxx xxx

xxx

x

xxxx

xx

x

xxx

R proche de 1 : forte liaison linéaire positive

Corrélation forte relation causale

Corrélation nulle aucune relation

Il y a une très forte corrélation positive entre le nombre d ’anniversaires fêtées et l ’ancienneté de la personne.

Plus je fête d ’anniversaire plus je vivrai vieux

X et Y sont deux variables avec un coefficient de corrélation nul

X Y

-2 4

-1 1

0 0

1 1

2 4

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

-2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5

?

R=0 et Y=X2

Estimation

Nous travaillons sur une fraction de la population mère. Tous nos résultats ne sont plus des résultats certains mais des « estimations » qui s’approchent plus ou moins du véritable résultat.

Estimation de la moyenne : nX

Xiˆ

Estimation de la variance : 1

ˆˆ

2

2

n

XXi

Le théorème « central limit » dit :

);(ˆn

XNnX

Xi

Intervalles de confiance

ntX

ntXX

ˆˆ;ˆˆ

)( 2/1)2/1(

npptp

npptpp )ˆ1(ˆˆ;)ˆ1(ˆˆ )( 2/1)2/1(

)2/1( t se lit dans la table N(0;1).

%10645.1)2/1( sit

%596.1)2/1( sit

%158.2)2/1( sit

Tests statistiques

Les tests statistiques fournissent un cadre "scientifique" qui permet de valider certaines hypothèses.

Quand nous effectuons un test, nous vérifions une "hypothèse".

On appelle "Ho" l'hypothèse testée lors d'un test.

On appelle "H1" l'hypothèse dite « alternative »

Seuil D'un Test

On dit souvent que nous effectuons un test au seuil "". Cela veut dire que nous nous fixons un seuil, "", qui correspond au risque maximum que nous sommes prêt à prendre si nous nous trompons en disant que Ho, c’est à dire l’hypothèse que nous voulons vérifier, est fausse.

On prend en marketing généralement un seuil "" de 10%, 5% ou 1%.

Valeur "P" d'un Test

On appelle "p" le résultat numérique d'un test, appelé aussi « significativité ».

"p" : "Probabilité de me tromper si je dis que c'est l'hypothèse alternative qui est vraie (H1)".

On dit que nous avons deux populations indépendantes si les sujets des deux populations sont issues de deux échantillons construits indépendamment l'un de l'autre.

On dit que nous avons deux populations appariées si les deux échantillons sont les mêmes (ou considérés comme identiques).

Attention : "paired" en anglais s'est transformé en "pairé" sous EXCEL français.

Si les échantillons sont importants (N>30), nous utiliserons le plus souvent les tests du Chi2, de Student ou de Mc Nemar.

Test à utiliser Variables Qualitatives

Variables Quantitatives

Populations Appariées

Mc Nemar Student Apparié

Populations Indépendantes

Chi2 Student indépendant

TEST DE STUDENT APPARIEn

DTD/̂

TEST DE STUDENT INDEPENDANT

2121

2211 111

)1()1(nnnn

VnVn

YXT

TEST DU CHI 2

ij

ijij

obs EEn 2

2)(

nCLE ji

ij

TEST DE MC NEMAR DA

DAobs

2

21

« A » : nombre de personnes qui passent de « X » à « Y »

« D » : nombre de personnes qui passent de « Y » à « X »