La classification

67
La classification

description

La classification. Plan. Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple. Définition et Objectifs. Prévoir l’appartenance à une « classe » non observée à partir de variables observées - PowerPoint PPT Presentation

Transcript of La classification

Page 1: La classification

La classification

Page 2: La classification

Plan

Définition et Objectifs Analyse discriminante Régression logistique Arbres de décision Réseaux bayésiens Exemple

Page 3: La classification

Définition et Objectifs

Prévoir l’appartenance à une « classe »non observée à partir de variables observées

Rappel sur la terminologie (Stat/Marketing) Applications typiques

Scoring de risque Connaissant les caractéristiques individuelles d’un emprunteur,

quel est le risque qu’il ne rembourse pas son crédit ? Scoring marketing

A qui envoyer le mailing de lancement d’un nouveau produit ?

Page 4: La classification

Caractérisation

Un problème supervisé (par opposition à la segmentation ou à l’association)

Deux utilisations : Descriptive : Déterminer les “règles” de séparation Décisionnelle : Attribuer un nouvelle individu à une classe.

Utilisation descriptive Problème de type géométrique

Utilisation décisionnelle Problème de type probabiliste. La nature fondamentale du

problème est un calcul de probabilité conditionnelle : P(Incident|Caractéristiques) P(RéponseMailing|…)

Page 5: La classification

Caractérisation (suite)

Les variables observées peuvent être Qualitatives ou quantitatives

La variable à prévoir est binaire (Oui/Non) ou discrète Le modèle est mis au point sur un ensemble de

données où toutes les variables sont observées (y compris la classe)

Exemple : Score de crédit Données : Historique de dossiers de crédit Variables explicatives : CSP, Age, Revenus, Situation

Familiale, etc. Variable à prévoir : Incident de remboursement

Page 6: La classification

Techniques disponibles

Analyse factorielle discriminante Modèle logit/probit Arbres de décision Réseaux bayésiens Réseaux neuronaux

Page 7: La classification

Analyse factorielle discriminante

Page 8: La classification

Analyse discriminante

Méthode géométrique (descriptive) Basée uniquement sur une notion de

distance Maximisation du rapport Inertie

Interclasse / Inertie totale

Page 9: La classification

Principe de l’analyse discriminante

Axe 1

Axe 2

Chercher le meilleur axe de séparation

Axe Optimal

Page 10: La classification

Régression logistique

Page 11: La classification

Cadre théorique

On suppose que la classe détermine la distribution conditionnelle des variables observées

fj(x) est la densité de probabilité de x pour les individus

du groupe j.

Observant un point de coordonnées (x1, x2, …, xp) la probabilité d’appartenir à un groupe j est pj.fj(x)/pj.fj(x)

On affecte le point au groupe de probabilité a posteriori maximale, i.e. à celui pour lequel pj.fj(x) est maximal

Classe

x1 x2 xn

Page 12: La classification

Méthodes de résolution

Méthodes paramétriques On choisit une famille paramétrée de lois

de probabilité pour fj(x) Les observations permettent d’estimer les

paramètres Méthodes non paramétriques

Variantes de la méthode du noyau

Page 13: La classification

Cas simple

Hypothèses On considère deux classes, et f1(x) et f2(x) suivent

une loi normale Les matrices de variance/covariance sont

identiques pour les deux classes Résultat

On peut calculer un score s(x) fonction linéaire des variables x.

La probabilité d’appartenance au groupe 1 est alors p=1/(1+exp(-s(x)))

Page 14: La classification

La régression logistique

On part de la forme obtenue précédemment p=1/(1+exp(-s(x)))

Qui se transforme en :s(x)=ln(p/1-p)

s(x) est une combinaison linéaire des xi

s(x)=0+ 1.x1+ 1.x2+…+ 1.xn

Ses coefficients i sont estimés par le MV

L=∏iC1f1(xi) ∏iC2f2(xi)

Page 15: La classification

Arbres de décision

Page 16: La classification

Arbres de décision

Une méthode de régression Basée sur la théorie de l’information Fonctionnant pour des variables continues ou

discrètes Recherche itérative de variables

discriminantes Produisant des modèles faciles à interpréter

(sous forme de règles SI … ALORS … SINON)

Page 17: La classification

Principe

Un arbre de décision est construit récursivement

En recherchant à chaque fois le critère qui fait gagner le plus d’ « ordre »

Page 18: La classification

Utilisation d’un arbre de décision

Non

Oui

Rayon < a ?

Ranger la boule dans la classe « bleue »

Masse < b ?

Non

Oui

Ranger la boule dans la classe « rouge »

Ranger la boule dans la classe « bleue »

Noeud

Feuille

R < a ?

SI RA ALORSLa boule est bleue

SINONSI M b ALORS

La boule est rougeSINON

La boule est bleue

Page 19: La classification

Construction d’un arbre de décision

Théorie de l’information (Shannon, 1948)

…AAAAAAAA…

A

…AABABABBA…

??

p(A)=1p(B)=0

p(A)=0.5p(B)=0.5

Page 20: La classification

Entropie

Entropie = mesure du désordre Cas de deux événements

S p pii

i .log

S p p p p 1 1 2 2.log .log

P10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0 10 20 30 40 50 60 70 80 90 100

S

Page 21: La classification

Algorithme C4.5

C4.5Si E ne contient que des éléments de la même classe

Terminer

SinonTrouver le test T qui fasse gagner le plus

d’entropieT sépare E en E1 et E2 : Appliquer C4.5 à E1 et

E2

Page 22: La classification

Exemple d’arbre obtenu

Si Ancienneté Bancaire = 0 Risque Elevé

Sinon (Ancienneté Bancaire > 0) Si Revenus <=4 Si Allocations <=2 Si DateEmbaucheConjoint = 0 Si DateEmbauche <= 3 Risque Elevé Sinon (DateEmbauche > 3) Risque Faible Sinon (DateEmbaucheConjoint > 0) Risque Faible Si Allocations >2 Risque Elevé Sinon (Revenus > 4) Risque Faible

Page 23: La classification

Réseaux bayésiens

Page 24: La classification

Les réseaux bayésiens

Introduction L’inférence ou le calcul de P(X|e) L’apprentissage ou le calcul de P Applications des réseaux bayésiens Conclusion

Page 25: La classification

Une représentation graphique de la causalité

A

B

A B

V V

F V

F F

BA

S’il existe une relation causale de A vers B, toute information sur A peut modifier la connaissance que j’ai de B, et, réciproquement, toute information sur B peut modifier la connaissance que j’ai de A.

L’information ne circule pas seulement dans le sens des flèches

Page 26: La classification

Sherlock Holmes & Thomas Bayes

Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide. Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide. Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique

Page 27: La classification

Modèle de causalité

A P

J V

A J’ai oublié de débrancher mon arroseur automatiqueP Il a plu pendant cette nuitJ L’herbe de mon jardin est humideV L’herbe du jardin de mon voisin est humide

A P

J V

Si j’ai oublié de débrancher mon arroseur automatique, l’herbe de mon jardin est humide

A P

J V

S’il a plu pendant la nuit, l’herbe de mon jardin est humide. S’il a plu pendant la nuit, l’herbe du jardin de mon voisin est également humide A P

J V

Page 28: La classification

Utilisation du modèle

La connaissance de J renforce la croyance en l’une des deux causes A ou P

A P

J V

A P

J V

La connaissance de V augmente la croyance en la cause P. Par rapport à l’état précédent, la cause A devient moins plausible

Page 29: La classification

Le cas général

ZX Y

ZX Y

ZX Y

ZX Y

Connexion convergenteX et Y causent Z

Connexion en sérieX cause Z, Z cause Y

Connexion divergenteZ cause X et Y.

Page 30: La classification

Circulation de l’information (1)

ZX Y

Z0X Y

?X Y

L’information ne peut circuler de X à Y que si

Z est connu.

X = tremblement de terreY = cambriolageZ = alarme

Page 31: La classification

?X Y

Z0X Y

ZX Y

Circulation de l’information (2)

L’information ne peut circuler de X à Y que si

Z n’est pas connu.

X = ensoleillementY = prix du bléZ = récolte

Page 32: La classification

ZX Y

?X Y

Z0X Y

Circulation de l’information (3)

L’information ne peut circuler de X à Y que si

Z n’est pas connu.

X = la pelouse de mon jardinest humideY = la pelouse de mon voisinest humideZ = il a plu cette nuit.

Page 33: La classification

d-séparation (blocage)

On dira que X et Y sont d-séparés par Z si pour tous les chemins entre X et Y, l’une au moins des deux conditions suivantes est vérifiée : 

Le chemin converge en un nœud W, tel que WZ, et W n’est pas une cause directe de Z.

Le chemin passe par Z, et est soit divergent, soit en série au nœud Z.

On notera  X|Z|Y

Page 34: La classification

d-séparation : exemple

D

E

A

B G

C F

A|B|D : 

Le chemin A-B-D est en série en B ( B ).

Le chemin A-C-D est convergent en C ( C ).

A|D|E : 

Tous les chemins de A à E passent par D.

Le chemin A-B-D-E est en série en D (B D E).

Le chemin A-C-D-E est divergent en D (C D E).

Page 35: La classification

Une représentation probabiliste associée

• Un nœud = une variable aléatoire

• Si A n’a aucune cause directe, nous devrons définir p(A), c’est-à-dire les deux nombres p(A=Vrai) et p(A=Faux).

• Si B a une seule cause directe A, nous devrons définir p(B|A), c’est-à-dire les quatre nombres p(B=V|A=V), , etc.

• Si C a deux causes directes A et B nous devrons définir p(C|A,B), c’est-à-dire les huit nombres p(C=V|A=V, B=V) , etc.

Page 36: La classification

Retour à l’exemple (1)

A P

J V

Evénement Probabilité Commentaire

A V 0.4 M. Holmes oublie assez souvent de débrancher son arroseur automatique

A F 0.6 P V 0.4 La région est relativement pluvieuse P F 0.6

Probabilités inconditionnelles

Page 37: La classification

Retour à l’exemple (2)

AV AF PV PF PV PF

J V 1 1 1 0 J F 0 0 0 1

PV PF VV 1 0 VF 0 1

A P

J V

Probabilités conditionnelles

Page 38: La classification

Retour à l’exemple (3)

Ce matin-là, alors que le temps est clair et sec, M. Holmes sort de sa maison. Il s’aperçoit que la pelouse de son jardin est humide.

Il se demande alors s’il a plu pendant la nuit, ou s’il a simplement oublié de débrancher son arroseur automatique. Il jette alors un coup d’œil à la pelouse de son voisin, M. Watson, et s’aperçoit qu’elle est également humide.

Il en déduit alors qu’il a probablement plu, et il décide de partir au travail sans vérifier son arroseur automatique.

Comparer

p(A=V|J=V)etp(P=V|J=V)

Comparer

p(A=V|J=V, V=V) et p(P=V|J=V, V=V)

0.625

0.625

0.4

1

Page 39: La classification

Retour à l’exemple (4)

A et P sont d-séparés Si J est connu,

l’information peut circuler de A à P (AJP est une connexion convergente)

A et P sont indépendants

P(A=F et P=F|J=V) = 0 P(A=F|J=V) = 0.375 P(P=F|J=V) = 0.375 A et P ne sont pas

indépendants conditionnellement à J

A P

J V

Page 40: La classification

Résumé

La transposition d’un graphe causal en espace probabilisé conduit à des résultats conformes au raisonnement intuitif que l’on peut mener directement sur ce graphe

Ces résultats sont quantitatifs Les calculs mis en œuvre, même sur des cas très

simples, sont lourds Les propriétés graphiques (d-séparation) peuvent être

mises en correspondance avec les propriétés d’indépendance de l’espace probabilisé associé.

Page 41: La classification

Réseaux bayésiens : définition

Un réseau bayésien est défini par un graphe acyclique orienté G = (V,E) , où V est l’ensemble

des nœuds de G, et E l’ensemble des arcs de G un espace probabilisé fini (Z,P) un ensemble de variables aléatoires correspondant aux

nœuds du graphe, telles que

p V V V p V C Vni n

i i( , ,..., ) ( ( )),

1 21

Page 42: La classification

Théorème fondamental

Soit B=(G,P) un réseau bayésien Si X, Y, Z sont des ensembles de

nœuds tels que X et Y sont d-séparés dans G par Z, alors

X et Y sont indépendants conditionnellement à Z

Page 43: La classification

Inférence dans les réseaux bayésiens

Inférence = Révision des probabilités Calculer P(X|e) La complexité dépend de la complexité

du réseau

Page 44: La classification

Inférence : approche intuitive

BA C

Cas d’une chaîne Calculer P(C|

A=Vrai) ?p A B C p C B p B A p A( , , ) ( ). ( ). ( )

p A B C p C A B p B A p A( , , ) ( , ). ( ). ( )

p C A B p C B( , ) ( )

p C A p C A B p B AB

( ) ( , ). ( )

p C A p C B p B AB

( ) ( ). ( )Th. Bayes

déf Cond

déf RB

Page 45: La classification

Inférence : approche intuitive (suite)

C

A B E

D

A B

B C

B D

E XOR C D

( , )

Calculer P(E|A=Faux) ?

Page 46: La classification

Inférence : conditionnement

p E V A F( ) ?

p E V A F B V p B V A F( , ) * ( ) p E V A F B F p B F A F( , ) * ( )

C

A = F B E

D

B = V C

A = F E

DB = V

B = F C

A = F E

DB = F

+

Page 47: La classification

Inférence : aspects théoriques

Problème NP-complet dans le cas général Méthodes simples (réseaux sans boucles) Méthodes « graphiques » (réseaux avec

boucles) Méthodes approchées (réseaux de grande taille)

Page 48: La classification

Inférence dans les réseaux sans boucle

Polyarbre

Arbre

Chaîne

Page 49: La classification

Principe

X X

P X e Amont X Aval X .

Page 50: La classification

Inférence dans les réseaux avec boucle

Transformation duréseau bayésien

P(X|e)

Propagation dansl’arbre de regroupement

Inférence dans leréseau bayésien

Page 51: La classification

A quoi sert un réseau bayésien ?

Inférence = raisonnement à partir de données partielles

Exemple d’application = diagnostic Médical Autre : évaluation de risque, scoring, etc.

Page 52: La classification

Questions

1. D’où viennent les probabilités ?2. D’où vient le graphe

Page 53: La classification

Réponses

1. Apprentissage de paramètres La structure étant supposée connue, Utiliser une base de cas pour déterminer

les tables de probabilités

2. Apprentissage de structure Utiliser une base de cas pour déterminer

les arcs du réseau

Page 54: La classification

Approches

Trois possibilités Demander aux experts du domaine:

Surtout valable pour le graphe Approche statistique

Calcul du maximum de vraisemblance Approche bayésienne

Distribution des paramètres ou de la structure postérieurement à l’observation des données

Page 55: La classification

Exemple

Pile FaceComment estimer la probabilité ?

p

p f

Fréquence

Bayes

p X p f k p X p f p( ( , )) . ( ( , ) ). ( )

p X p f k pp f( ( , )) . ( ) . ( ) 1

Page 56: La classification

Apprentissage de paramètres

La structure est donnée

Le jeu de paramètres à estimer s’en déduit

X Y

Z

1 1 1

1 2 1

2 1 1

2 2 1

3 1 1

3 1 2

3 1 3

3 1 4

3 2 1

3 2 2

, ,

, ,

, ,

, ,

, ,

, ,

, ,

, ,

, ,

, ,

p X V

p X F

p Y V

p Y F

p Z V X V Y V

p Z V X V Y F

p Z V X F Y V

p Z V X F Y F

p Z F X V Y V

p Z F X V Y F

3 2 3

3 2 4

, ,

, ,

p Z F X F Y V

p Z F X F Y F

Page 57: La classification

Apprentissage statistique de paramètres

Approche Maximum de vraisemblance

Résultat : fréquences

D i j k i j kk

r

j

q

i

n

N gii

, , , ,. lo

111

i jMV

Di j

i j

,,arg max

,

i j k

MV i j k

i j

N

N, ,

, ,

,

Page 58: La classification

Apprentissage bayésien de paramètres

Formule générale

A Posteriori = Vraisemblance. A Priori

P P P D D .

Résultat dépend de la probabilité a priori cas de Dirichlet

i j k

MAP i j k i j k

i j i j

N

N, ,, , , ,

, ,

Page 59: La classification

Apprentissage statistique de structure

Contraindre la structure Cas général : ? Cas de l’arbre

Théorème de Chow et Liu Arbre couvrant de poids maximal

W X X N x x

N x x

N x N xi j i

kjk

k k

ik

jk

ik

jk

i j

i j

i j

i j

, , . log,

.,

Page 60: La classification

Apprentissage bayésien de structure

Même principe général

Problème Distribution des structures Calcul de P(M|D) Recherche (4.1018 structures possibles pour

dix variables)

M M DMAP

M= Pargmax

Page 61: La classification

Algorithme K2

Page 62: La classification

L’apprentissage vu comme inférence

cas 1

cas 2

cas n

modèle

Page 63: La classification

Conclusions

Avantages Formalisme unifié Apprentissage et apprentissage incrémental Données incomplètes Requêtes d’inférence multiples

Limites Complexité : inférence et apprentissage sont NP-

complets ! Lisibilité Probabilités ?

Page 64: La classification

ExempleQuestionnaire adaptatif (Crédit en ligne)

Vendre sur Internet Risque de déconnexion

Accélérer le processus de vente Vente de crédit

Risque d’impayé Obtenir des informations sur le client

Compromis à trouver Variable-clé = longueur du questionnaire

Page 65: La classification

Démarche

Utiliser un réseau bayésien pour : Créer un modèle de score Guider le questionnaire

Poser les questions les plus utiles En fonction des réponses obtenues

sitfam

revenu

sithab

score

nbenf ancban

âge

Page 66: La classification

Questionnaire adaptatif

Principe Un score d'acceptation (proba MP) définitif est fixé (S1),

par exemple 0.06 Un score de rejet définitif est fixé (S2), par exemple 0.20

Le questionnaire adaptatif fonctionne comme suit :

TantQue la proba MP est comprise entre S1 et S2, Faire

Parmi les questions non encore posées, déterminer celle apportant le plus d'information

Poser la question

Calculer la nouvelle proba MP

Fin TantQue

Page 67: La classification

Résultats

Nombre moyen de questions posées : 9 Questionnaires complets = 35% Nombre moyen de questions

(incomplets) = 7 Erreurs = 4%

Erreur BP = 4% Erreur MP = 4%