Outils d’analyse statistiques « programmation par l’exemple »

42
Séminaire de l’objectif « forage et product Beaune, les 26,27 et 28 Avri Outils d’analyse Outils d’analyse statistiques statistiques « programmation par « programmation par l’exemple » l’exemple » S. Canu, laboratoire PSI, INSA de Rouen équipe « systèmes d’information pour l’environnement »

description

Outils d’analyse statistiques « programmation par l’exemple ». S. Canu, laboratoire PSI, INSA de Rouen équipe « systèmes d’information pour l’environnement » psichaud.insa-rouen.fr/~scanu. Plan de Route. traitement de données environnementales risque statistique études de cas - PowerPoint PPT Presentation

Transcript of Outils d’analyse statistiques « programmation par l’exemple »

Page 1: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000

Outils d’analyse statistiquesOutils d’analyse statistiques

« programmation par l’exemple »« programmation par l’exemple »

S. Canu,

laboratoire PSI, INSA de Rouenéquipe « systèmes d’information pour

l’environnement »

psichaud.insa-rouen.fr/~scanu

Page 2: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Plan de RoutePlan de Route

– traitement de données environnementales– risque statistique– études de cas

– nez électronique– capteur logiciel– prévision de charge entrante– modélisation de l’écrouissage

– programmation à base d’exemples– exemples d’applications potentielles

— prévision de rupture— prévision des « bouchons »

Page 3: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Système d’information pour l’environnementSystème d’information pour l’environnement

Page 4: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Système d’information pour l’environnementSystème d’information pour l’environnement

Nature des phénomènes• beaucoup de données disponibles

• dépendances complexes : non linéaires, bruités

• les événements intéressants sont rares

Page 5: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Système d’information pour l’environnementSystème d’information pour l’environnement

Nature des phénomènes• beaucoup de données disponibles

• dépendances complexes : non linéaires, bruités

• les événements intéressants sont rares

Problèmes à résoudre• validation de données • prévision à court terme• évaluation de la situation • décision.

Page 6: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Système d’information pour l’environnementSystème d’information pour l’environnement

Nature des phénomènes• beaucoup de données disponibles

• dépendances complexes : non linéaires, bruités

• les événements intéressants sont rares

Solution• programmation à base d’exemple • précision de la prévision• domaine de validité

Problèmes à résoudre• validation de données • prévision à court terme• évaluation de la situation • décision.

Page 7: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Risque statistiqueRisque statistique

*

*

b

a

dxxfI )(

Exemple : comment calculer une intégrale ?

a b

f(x)c

n

1i

1 avec par estiméeest

inZZ

Z(b-a)(c-a)I

C’est la méthode de Monté Carlo

* **

*

**

*

** **

*

** ** *

** *

**

Page 8: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Risque statistiqueRisque statistique

Définition : Précision d’un estimateur (risque associé à un estimateur)

Le cas quadratique :

- Biais- Variance

2

2

22

2

ˆˆet ˆ

ˆˆˆ)(

ˆ,ˆcout

,ˆcout)(

EEVEB

BV EEEER

ER

*

*

b

a

dxxfI )(

Exemple : comment calculer une intégrale ?

a b

f(x)c

n

1i

1 avec par estiméeest

inZZ

Z(b-a)(c-a)I

C’est la méthode de Monté Carlo

* **

*

**

*

** **

*

** ** *

** *

**

Page 9: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Risque statistiqueRisque statistique

Définition : Précision d’un estimateur (risque associé à un estimateur)

Le cas quadratique :

- Biais- Variance

2

2

22

2

ˆˆet ˆ

ˆˆˆ)(

ˆ,ˆcout

,ˆcout)(

EEVEB

BV EEEER

ER

Risque = moyenne des erreurs

*

*

b

a

dxxfI )(

Exemple : comment calculer une intégrale ?

a b

f(x)c

n

1i

1 avec par estiméeest

inZZ

Z(b-a)(c-a)I

C’est la méthode de Monté Carlo

* **

*

**

*

** **

*

** ** *

** *

**

Page 10: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Risque statistiqueRisque statistique

Définition : Précision d’un estimateur (risque associé à un estimateur)

Le cas quadratique :

- Biais- Variance

2

2

22

2

ˆˆet ˆ

ˆˆˆ)(

ˆ,ˆcout

,ˆcout)(

EEVEB

BV EEEER

ER

Risque = moyenne des erreurs

Risque = erreur systématique + aléa

*

*

b

a

dxxf )(

Exemple : comment calculer une intégrale ?

a b

f(x)

c

n

1i

1 avec

ˆpar estiméeest

inZZ

Z(b-a)(c-a)

C’est la méthode de Monté Carlo

* **

*

**

*

** **

*

** ** *

** *

**

Page 11: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Statistiques pour le calculStatistiques pour le calcul

• Monté Carlo

• relaxation, recuit simulé...

• résolution d’un système linéairen3 : méthodes itératives plus rapides

mais « aléatoires »

• Modélisation : utilisation d’exemples

La modélisation statistique de phénomènes déterministes peut s’avérer utile

Page 12: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000

Quelques applicationsQuelques applications

Page 13: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Nez électroniqueNez électronique

• Objectifs– remplacer un capteur coûteux par 6 capteurs « bon marché »– détecter certaines situation critiques

• Données disponibles– 280 points de mesures– 12 variables mesurées (pentes et conductance des capteurs)

• a priori– phénomènes « réguliers »– coût « absolu »

• méthode– S.V.M. (un genre de réseau de neurones)– sélection des variables pertinentes par analyse discriminante– définition des zones d’ambiguïté– définition d’un domaine de validité du domaine

• Résultats

Page 14: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1-1.5

-1

-0.5

0

0.5

1

1.5Discrimination par SVM

Nez électroniqueNez électronique

inconnus

Ambigus

Classe 1

Classe 2

Classe 3

Régle de décision dans le plan de l’AFD

Page 15: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Capteur logicielCapteur logiciel

• Objectifs– valider les données d’un capteur physique de NH4

– remplacer ce capteur pour la détection

• Données disponibles– 4 années, toutes les heures– 24 variables mesurées (pH, température, conductance, turbidité,…) – beaucoup de données manquantes

• a priori– phénomènes « réguliers »– coût quadratique

• méthode– réseau de neurones– sélection des variables pertinentes– prévision de l’erreur de prédiction par un autre réseau de neurones– définition d’un domaine de validité du domaine

• Résultats

Page 16: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Capteur logicielCapteur logiciel

Page 17: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Prévision de la charge entrantePrévision de la charge entrante

• Objectifs– prévoir quand et quelle quantité de polluant va arriver à . la station d’épuration

• Données disponibles– 12 années, toutes les heures– 24 variables mesurées : pluie, charge entrante, température

• a priori– phénomènes « réguliers »– coût quadratique

• méthode– prévision de la pluie par un réseau de neurones– prévision de la charge par un second réseau de neurones– structurer les réseaux de neurones à priori– définition d’un domaine de validité du domaine

Page 18: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000ÉcrouissageÉcrouissage

• Objectif– prévoir le comportement de l’alliage en fonction des forces

• Données disponibles– simulations logiciel dans un premier temps– données réelles ensuite

• a priori– phénomènes temporels à mémoire– coût quadratique

• méthode– réseau de neurones récurrents (bouclés)– approche incrémentale

• Résultats

Page 19: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000ÉcrouissageÉcrouissage

f(t) : la force appliquée au cours du tempse(t) : l’allongement constaté au cours du temps

-1 0 1 2 3 4 5-4

-3

-2

-1

0

1

2

3

4

5

Deformations

For

ce a

ppliq

ue

Déformations - plastiques - élastiques

Écrouissage - isotrope - cinématique

Page 20: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000ÉcrouissageÉcrouissage

f(t) : la force appliquée au cours du tempse(t) : l’allongement constaté au cours du temps

-1 0 1 2 3 4 5-4

-3

-2

-1

0

1

2

3

4

5

Deformations

For

ce a

ppliq

ue

Déformations - plastiques - élastiques

Écrouissage - isotrope - cinématique

Pour une même valeurdu couple (F,D)

le futur est imprédictibleIl faut connaître

le passé du système

Page 21: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Écrouissage : le modèle « statistique »Écrouissage : le modèle « statistique »

x

e(t) = e(t-1) + D (f(t)-f(t-1))z-1

e

sp

sm

f(t)

f(t-1)

1

1-1

+1

a+b

a-b

-a

Plastique/Elastique

1

Monte/Descend

On cherche à « écrire » un programme, qui à partir d’une suite de « forces » calcule la réponse de la pièce

Page 22: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000ÉcrouissageÉcrouissage

Page 23: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Écrouissage : résultatsÉcrouissage : résultats

-2 -1 0 1 2 3

x 10-3

-150

-100

-50

0

50

100

150

Dé formation

For

ce

mesure

modèle

Page 24: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000

0 50 100 150 200 250 300-1

-0.5

0

0.5

1

time (samples)

Output (solid) and one-step ahead prediction (dashed)

0 50 100 150 200 250 300-0.2

0

0.2

0.4Prediction error (y-yhat)

time (samples)

Écrouissage : résultatsÉcrouissage : résultats

Page 25: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples

• Apprendre : des entrées : X, et des sorties : Y • But : trouver une dépendance : r(X)

• Utilisation : pour un X donné : prévoir Y

• Connaissance : données : (Xi,Yi), i=1,n cout : C(x,r(x),y)

a priori sur la structure du modèle

• Difficultés : Généralisation données limitées remplir les trous

• Tâches génériques : Discrimination, Régression,

Prévision à un pas de temps, Identification

Page 26: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples

Modules logiciels

• Apprendre : des entrées : X, et des sorties : Y • But : trouver une dépendance : r(X)

• Utilisation : pour un X donné : prévoir Y

• Connaissance : données : (Xi,Yi), i=1,n cout : C(x,r(x),y)

a priori sur la structure du modèle

• Difficultés : Généralisation données limitées remplir les trous

• Tâches génériques : Discrimination, Régression,

Prévision à un pas de temps, Identification

Page 27: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Modèle « boite noire »Modèle « boite noire »

y = r(X)

Y = F(X, )

Prévision^

erreurX

Entrées Observables

Entrées NonObservables

SystèmeRéel

CRITERE

Page 28: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples

Exemples : (formes x, étiquettes y, confiance)

Algorithme

programme Yf dR :

Page 29: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples

Exemples : (formes x, étiquettes y, confiance)

Algorithme

programme

Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité

Représentation des incertitudes : – fusion d’informations incertaines

Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques

Yf dR :

Page 30: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples

Exemples : (formes x, étiquettes y, confiance)

Algorithme

programme

Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité

Représentation des incertitudes : – fusion d’informations incertaines

Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques

Yf dR :

cout

Page 31: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples

Exemples : (formes x, étiquettes y, confiance)

Algorithme

programme

Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité

Représentation des incertitudes : – fusion d’informations incertaines

Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques

Yf dR :

cout

Page 32: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples

Exemples : (formes x, étiquettes y, confiance)

Algorithme

programme

Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité

Représentation des incertitudes : – fusion d’informations incertaines

Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques

Yf dR :

a priori cout

Page 33: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples

Exemples : (formes x, étiquettes y, confiance)

Algorithme

programme

Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité

Représentation des incertitudes : – fusion d’informations incertaines

Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques

Yf dR :

a priori cout

Page 34: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples

Exemples : (formes x, étiquettes y, confiance)

Algorithme

programme

Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité

Représentation des incertitudes : – fusion d’informations incertaines

Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques

Yf dR :

a priori cout

Page 35: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples

Exemples : (formes x, étiquettes y, confiance)

Algorithme

programme

Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité

Représentation des incertitudes : – fusion d’informations incertaines

Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques

Yf dR :

a priori cout

Page 36: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000

-2 0 2-3

-2

-1

0

1

2

3

-1

0

0 1

1

1

Aspects fondamentauxAspects fondamentaux

Poser le problème les enjeux théoriques de l'apprentissage

Explorer une solution possible la régularisation

Développer de nouvelles approches nouveaux algorithmes

Étude d'un problème fondamental sélectionner les variables explicatives pertinentes

fyxf iif

)(min

Page 37: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000PerspectivesPerspectives

Huile+gaz+eau

Bouchons

Page 38: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Prévoir la taille des bouchonsPrévoir la taille des bouchons

Algorithme de

prévision

Une forme xhistorique,

taille, profil et points bas de la canalisationtempérature, débit

y« date » d’arrivé

et taille du prochain bouchon

Page 39: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000

y« date » d’arrivé

et taille du prochain bouchon

Prévoir la taille des bouchonsPrévoir la taille des bouchons

Algorithme de

prévision

Une forme xhistorique,

taille, profil et points bas de la canalisationtempérature, débit

A : Algorithme d’apprentissage

niyxS iin ,1 , Ensemble d’apprentissage (échantillon)

1

Page 40: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Prévoir la taille des bouchonsPrévoir la taille des bouchons

Algorithme de

prévision

Une forme xhistorique,

taille, profil et points bas de la canalisationtempérature, débit

A : Algorithme d’apprentissage

niyxS iin ,1 , Ensemble d’apprentissage (échantillon)

)(,)(C,et )(

:couts les

XDSCEDJDJ

2

1

y« date » d’arrivé

et taille du prochain bouchon

Page 41: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Prévoir la taille des bouchonsPrévoir la taille des bouchons

Algorithme de

prévision

Une forme xhistorique,

taille, profil et points bas de la canalisationtempérature, débit

A : Algorithme d’apprentissage

niyxS iin ,1 , Ensemble d’apprentissage (échantillon)

)(,)(C,et )(

:couts les

XDSCEDJDJ

A priorisur la

nature de la solution

2

1

3

y« date » d’arrivé

et taille du prochain bouchon

Page 42: Outils d’analyse statistiques « programmation par l’exemple »

Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000ConclusionConclusion

C’est un outil dont il ne faut pas se priverLes méthodes statistiques peuvent dans certains casapporter des solution originales à des problèmes « difficiles »

il faut disposer de donnéeson fait de la programmation à partir de données

la notion de « coût » est fondamentale

il faut disposer d’une bonne méthodologie il était une fois un concours de prévision...