Incertitude

33
1 Incertitude Chap. 13

description

Incertitude. Chap. 13. Plan. Incertitude Probabilité Syntaxe et Sémantique Inférence Indépendance et règle de Bayes Comment l ’ utiliser?. Incertitude. Soit action A t = partir pour l ’ aéroport t minutes avant le vol Est-ce que A t me permet d ’ arriver à temps? Problèmes: - PowerPoint PPT Presentation

Transcript of Incertitude

Page 1: Incertitude

1

Incertitude

Chap. 13

Page 2: Incertitude

2

Plan

• Incertitude

• Probabilité

• Syntaxe et Sémantique

• Inférence

• Indépendance et règle de Bayes

• Comment l’utiliser?

Page 3: Incertitude

3

IncertitudeSoit action At = partir pour l’aéroport t minutes avant le volEst-ce que At me permet d’arriver à temps?Problèmes:

1. Observabilité partielle (état de route, plans des autres conducteurs, etc.)2. Senseurs bruités (nouvelle sur le trafic)3. Incertitude dans les résultats des actions (pneu dégonflé, etc.)4. Complexité énorme pour modéliser et prédire le trafic

Donc, une approche purement logique va1. Soit risquer le fausseté: “A25 me permet d’arriver à temps”2. Soit arriver à la conclusion trop faible pour prendre une décision:

“A25 va me permettre d’y arriver à temps s’il n’y a pas d’accident sur le pont et qu’il ne pleut pas et que mes pneus restent intacts, etc. »

(A1440 pourrait raisonnablement être considérée de m’y amener à temps mais je dois rester une nuit à l’aéroport …)

Page 4: Incertitude

4

Méthodes pour traiter l’incertitude• Étendre la logique

– Logique de défaut ou non monotone:• Par défaut: supposons que ma voiture n’a pas de pneu à plat• Supposons que A25 marche à moins contredit par des évidences

– Problèmes: Quelles hypothèses par défaut sont raisonnables? Comment traiter la contradiction?

– Logique non monotone: quand contradiction, défaire la chose la moins ancrée

• Approche numériques– Probabilité

• Modéliser le degré de croyance de l’agent en une proposition• Étant donné les évidences disponibles,

"A25 me permet d’y arriver à temps" avec la probabilité 0.04

• Combinaisons– Règles avec facteurs arbitraire (fudge factors):

• A25 |→0.3 arriver à temps• Sprinkler |→ 0.99 WetGrass• WetGrass |→ 0.7 Rain• Problèmes: combinaison des règles, Sprinkler causes Rain??

– Logique floue: étend les valeurs de vérité en [0,1] ≠ probabilité• WetGrass est vrai à degré 0.2

Page 5: Incertitude

5

ProbabilitéDes assertions probabilistes résument les effets de

– Paresse (laziness): impossibilité d’énumérer les exceptions, qualifications, etc.

– ignorance: manque des faits pertinents, des conditions initiales, etc.

Probabilité subjective ou Bayesienne:• Probabilités reliées aux propositions par rapport à l’état de

connaissances de l’agente.g., P(A25 | pas d’accident rapporté) = 0.06

(Ceci n’est pas une assertion sur le monde, mais une évaluation)

Probabilités de propositions changent avec de nouvelles évidences:

e.g., P(A25 | pas d’accident rapporté, 5 a.m.) = 0.15(analogie à l’entraînement KB |=α, non à la vérité)

Page 6: Incertitude

6

Prendre des décisions sous incertitude

Supposons que je crois en :P(A25 arrive à temps | …) = 0.04

P(A90 arrive à temps | …) = 0.70

P(A120 arrive à temps | …) = 0.95

P(A1440 arrive à temps | …) = 0.9999

• Quelle action prendre?Dépend de mes préférences sur rater le vol vs. temps d’attente, etc.– Théorie d’utilité est utilisée pour représenter et inférer des préférences

sur des actions à prendre

– Théorie de décision = théorie de probabilité + théorie d’utilité

Page 7: Incertitude

Probabilité: base• Commençons par un ensemble — l’espace d’échantillonnage

– e.g., 6 chiffres d’un dé.

– est un point d’échantillon / monde possible / événement atomique

• Un espace de probabilité ou modèle probabiliste est un espace d’échantillonnage avec l’assignation P(w) pour chaque :

– 0 ≤ P(w) ≤ 1

– ΣwP(w) = 1

• e.g., P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=1/6.– ~ Comparer événement atomique à une ligne dans la table de vérité

• Un événement A est n’importe quel sous ensemble de Ω

• E.g., P(jet de dé < 4) = P(1) + P(2) + P(3) = 1/6 + 1/6 + 1/6 = 1/2

7

wA

w

wPAP

dans est vrai

)()(

Page 8: Incertitude

Variable aléatoire

• Une variable aléatoire est une fonction des points d’échantillonnage vers certain champ, e.g. réel ou booléen– E.g. Impaire(dé=1) = vrai

• P induit une distribution de probabilité de toute variable aléatoire X:–

– E.g. P(Impaire=vrai) = P(1) + P(3) + P(5) = 1/6 + 1/6 + 1/6 = 1/2

8

Page 9: Incertitude

Propositions• Considérer une proposition comme l’événement (ensemble de points

d’échantillonnage) où la proposition est vraie• Étant donné des variables aléatoires A et B:

– Événement a = ensemble de points d’échantillonnage où A(w) = vrai– Événement a = ensemble de points d’échantillonnage où A(w) = faux– Événement ab = ensemble de points d’échantillonnage où A(w) = vrai et B(w) = vrai

• Dans les applications d’IA, les points d’échantillonnage sont souvent définis pat les valeurs d’un ensemble de variables aléatoires, i.e. l’espace d’échantillonnage est le produit cartésien des champs des variables

• Avec des variables booléennes, les points d’échantillonnage = modèles de logique de proposition

– E.g. A = vrai, B = faux, ou ab

• Proposition = disjonction des événements atomiques dans lesquels elle est vraie

– E.g. (a b) (¬a b) (a ¬b) (a b)

P(a b) = P(¬a b) + P(a ¬b) + P(a b)9

Page 10: Incertitude

10

Syntaxe• Élément de base: variable aléatoire

• Similaire à la logique propositionnelle: les mondes possibles sont définis par des assignations de valeurs aux variables aléatoires

• Variables aléatoires booléennese.g., Cavity (est-ce que j’ai une carie?)

• Variables aléatoires Discrètese.g., Weather prend des valeurs dans <sunny,rainy,cloudy,snow>

• Les valeurs dans le domaine doivent être exhaustives et exclusives mutuellement

• Propositions élémentaires construites par assignation de valeur à une variable aléatoire:

– e.g., Weather = sunny, Cavity = false

• Propositions complexes sont formées avec les propositions élémentaires et des connecteurs logiques standard. E.g., Weather = sunny Cavity = false

– (abrégés comme sunny, cavity)–•

Page 11: Incertitude

11

Syntaxe

• Événement atomique: une spécification complète de l’état du monde dont l’agent est incertainE.g., si le monde est composé de 2 variables

booléennes Cavity et Toothache, alors il y a 4 événements atomiques distincts:

Cavity = false Toothache = falseCavity = false Toothache = trueCavity = true Toothache = falseCavity = true Toothache = true

• Ces événements atomiques sont exhaustives et mutuellement exclusives

Page 12: Incertitude

12

Axiomes de probabilité

• Pour toutes propositions A, B– 0 ≤ P(A) ≤ 1– P(true) = 1 et P(false) = 0– P(A B) = P(A) + P(B) - P(A B)

Page 13: Incertitude

13

Probabilité a priori• Probabilité a prori ou probabilité inconditionnelle

e.g., P(Cavity = true) = 0.1 et P(Weather = sunny) = 0.72 correspondent aux croyances a priori (i.e. avant l’arrivée de toute nouvelle évidence)

• Distribution de probabilité: fournit tous les affectations possibles:P(Weather) = <0.72,0.1,0.08,0.1> (normalisé, i.e., somme à 1)

• Distribution de probabilité conjointe pour un ensemble de variables aléatoires: fournit la probabilité de chaque événement atomique avec ces variables aléatoires

P(Weather,Cavity) = une matrice de 4 × 2 valeurs:

Weather = sunny rainy cloudy snow Cavity = true 0.144 0.02 0.016 0.02Cavity = false 0.576 0.08 0.064 0.08

• Toute question sur le domaine peut être répondue par la distribution conjointe

Page 14: Incertitude

14

Probabilité conditionnelle• Probabilité a posteriori or conditionnelle

e.g., P(cavity | toothache) = 0.8i.e., étant donné que toothache est tout ce que je sais

• (Notation pour les distributions conditionnelles:P(Cavity | Toothache) = vecteur de 2 éléments de vecteurs de 2 éléments)

• Si on sait plus, e.g., cavity est aussi donnée, alors on aP(cavity | toothache,cavity) = 1

• Une nouvelle évidence peut être non pertinente, ce qui permet à la simplification, e.g.,P(cavity | toothache, sunny) = P(cavity | toothache) = 0.8

• Ce genre d’inférence, sanctionnée par les connaissances du domaine est cruciale

•–

Page 15: Incertitude

15

Probabilité conditionnelle• Définition de probabilité conditionnelle:

P(a | b) = P(a b) / P(b) si P(b) > 0• Règle de produit: fournit une formulation alternative:

P(a b) = P(a | b) P(b) = P(b | a) P(a)• Une version générale tient pour toutes les distributions, e.g.,

P(Weather,Cavity) = P(Weather | Cavity) P(Cavity)(vu comme ensemble de 4X2 équations)

• Règle de chaîne est dérivée par application successive de règle de produit:P(X1, …,Xn) = P(X1,...,Xn-1) P(Xn | X1,...,Xn-1) = P(X1,...,Xn-2) P(Xn-1 | X1,...,Xn-2) P(Xn | X1,...,Xn-1) = …

––

Page 16: Incertitude

16

Inférence par énumération

• Commencer par la distribution de probabilité conjointe:

• Pour toute proposition φ, some les événements atomiques où elle est vraie: P(φ) = Σω:ω╞φ P(ω)

Page 17: Incertitude

17

Inférence par énumération

• Commencer par la distribution de probabilité conjointe:

• Pour toute proposition φ, some les événements atomiques où elle est vraie: P(φ) = Σω:ω╞φ P(ω)

• P(toothache) = 0.108 + 0.012 + 0.016 + 0.064 = 0.2

Page 18: Incertitude

18

Inférence par énumération

• Commencer par la distribution de probabilité conjointe:

• Pour toute proposition φ, some les événements atomiques où elle est vraie: P(φ) = Σω:ω╞φ P(ω)

• P(toothache ∨ cavity) = 0.108 + 0.012 + 0.016 + 0.064 + 0.072 + 0.008 = 0.28

• (Comparer à la preuve par énumération en logique)

Page 19: Incertitude

19

Inférence par énumération

• Commencer par la distribution de probabilité conjointe:

• Peut aussi calculer les probabilités conditionnelles:P(cavity | toothache) = P(cavity toothache)

P(toothache)= 0.016+0.064 0.108 + 0.012 + 0.016 +

0.064= 0.4

Page 20: Incertitude

20

Normalisation

• Dénominateur peut être vu comme une constante de normalisation α• On sait que P(cavity | toothache)+P(cavity | toothache)=1

P(cavity | toothache) = α P(cavity, toothache)P(cavity | toothache) = α P(cavity, toothache)

• Il suffit de calculer P(cavity, toothache) et P(cavity, toothache) et normaliser.

P(Cavity | toothache) = α, P(Cavity,toothache) = α, [P(Cavity,toothache,catch) + P(Cavity,toothache,catch)]= α, [<0.108,0.016> + <0.012,0.064>] = α, <0.12,0.08> = <0.6,0.4>

Idée générale: calculer la distribution des variables de requête en fixant les variables d’évidence et sommant sur les variables cachées

Page 21: Incertitude

21

Inférence par enumérationTypiquement, nous sommes intéressés par la distribution de probabilité

conjointe des variable de requête Y sachant la valeur spécifique e pour les variables d’évidence E

Soit les variables cachées H = X - Y – EAlors la sommation requise pour les entrées conjointes est faite en sommant

sur (summing out) les variables cachées:

P(Y | E = e) = αP(Y,E = e) = αΣhP(Y,E= e, H = h)• Les termes dans la sommation sont des entrées conjointes parce que Y, E

et H couvre l’ensemble de variables aléatoires

• Problèmes évidents:1. Complexité en temps au pire cas O(dn) où d est la plus grande arité (taille du

domaine) et n le nombre de variables2. Complexité en espace O(dn) pour stocker les distributions conjointes3. Comment trouver les nombres pour O(dn) entrées?

Page 22: Incertitude

22

Indépendence• A et B sont indépendantes ssi

P(A|B) = P(A) or P(B|A) = P(B) or P(A, B) = P(A) P(B)

P(Toothache, Catch, Cavity, Weather)= P(Toothache, Catch, Cavity) P(Weather)

• 32 (=23 x 4) entrées sont réduites à 12; • Autre exemple: pour n pièces de monnaie indépendantes, O(2n)

→O(n)

• Indépendance absolue est puissante, mais rare

• La dentisterie est un domaine vaste avec des centaines de variables, aucune n’étant indépendante. Quoi faire?

••

Page 23: Incertitude

23

Indépendance conditionnelle• P(Toothache, Cavity, Catch) a 23 – 1 = 7 entrées indépendantes

• Si j’ai une carie (cavity), la probabilité que la sonde l’accroche (catch) ne dépend pas de si j’ai mal aux dents:(1) P(catch | toothache, cavity) = P(catch | cavity)

• La même indépendance tient si je n’ai pas de carie:(2) P(catch | toothache,cavity) = P(catch | cavity)

• Catch est indépendante conditionnellement de Toothache sachant Cavity:P(Catch | Toothache,Cavity) = P(Catch | Cavity)

• Expressions équivalentesP(Toothache | Catch, Cavity) = P(Toothache | Cavity)P(Toothache, Catch | Cavity) = P(Toothache | Cavity) P(Catch | Cavity)

Page 24: Incertitude

24

Indépendance conditionnelle contd.

• Écrire la distribution conjointe au complet en utilisant la règle de chaîne:P(Toothache, Catch, Cavity)

= P(Toothache | Catch, Cavity) P(Catch, Cavity)= P(Toothache | Catch, Cavity) P(Catch | Cavity) P(Cavity)= P(Toothache | Cavity) P(Catch | Cavity) P(Cavity)

I.e., 2 + 2 + 1 = 5 nombre indépendant

• Dans la plupart des cas, l’utilisation de l’indépendance conditionnelle réduit la taille de représentation de distribution conjointe d’exponentiel en n à linéaire en n

• L’indépendance conditionnelle est la forme de connaissance la plus basique et robuste concernant l’environnement incertain

P(touthache|cavity), P(touthache|cavity)

Page 25: Incertitude

25

Règle de Bayes

• Règle de produit P(ab) = P(a | b) P(b) = P(b | a) P(a) Règle de Bayes: P(a | b) = P(b | a) P(a) / P(b)

• Ou en forme de distributionP(Y|X) = P(X|Y) P(Y) / P(X) = αP(X|Y) P(Y)

• Utile pour évaluer la probabilité de diagnostic à partir de la probabilité causale :

– P(Cause|Effet) = P(Effet|Cause) P(Cause) / P(Effet)– E.g., Soit M méningite, S raideur dans le cou:

P(m|s) = P(s|m) P(m) / P(s) = 0.8 × 0.0001 / 0.1 = 0.0008– Note: probabilité a posteriori de méningite encore très faible!

Page 26: Incertitude

26

Règle de Bayes et indépendance conditionnelle

P(Cavity | toothache catch) = αP(toothache catch | Cavity) P(Cavity) = αP(toothache | Cavity) P(catch | Cavity) P(Cavity)

• C’est un exemple de modèle Bayes naïve:

P(Cause,Effect1, … ,Effectn) = P(Cause) πiP(Effecti|Cause)

• Nombre total de paramètres est linéaire en n

––

Page 27: Incertitude

Le monde de wumpus

• Pij =vrais si [i, j] contient une fosse

• Bij =vrai ssi [i, j] sent la brise

• Contient seulement les variables B1,1,B1,2,B2,1 dans le modèle probabiliste

• Déterminer la probabilité d’avoir une fosse à une case27

Page 28: Incertitude

Spécifier le modèle probabiliste

• La distribution conjointe complète est P(P1,1, . . . , P4,4, B1,1, B1,2, B2,1)

• Appliquer la règle de produit: P(B1,1, B1,2, B2,1 | P1,1, . . . , P4,4)P(P1,1, . . . , P4,4)

(faire comme ça pour obtenir P(Effect|Cause))

• Premier terme : 1 si adjacents à des fosses, 0 autrement• Second terme : fosses placées de façon aléatoire, avec

une probabilité de 0.2 par carré:

pour n fosses 28

Page 29: Incertitude

Observations et requête• Nous connaissons les faits:

b = ¬b1,1 b∧ 1,2 b∧ 2,1

known = ¬p1,1 ¬p∧ 1,2 ¬p∧ 2,1

• Requête = P(P1,3|known, b)

• Définir Unknown = tous les Pij autres que P1,3 et Known

• Pour inférence par énumération, nous avons:

P(P1,3|known, b) = αΣunknownP(P1,3, unknown, known, b)

Où unknown est une combinaison de toutes les variables cachées

–Augmente exponentiellement avec le nombre de carrés 29

Page 30: Incertitude

Utiliser l’indépendance conditionnelle• Idée de base: Les observations sont indépendantes des

autres carrés cachés

• Définir Unknown = Fringe ∪ Other

P(b|P1,3,Known,Unknown) = P(b|P1,3,Known,Fringe)

• Manipuler la requête en une forme où on peut l’utiliser30

Page 31: Incertitude

Utiliser l’indépendance conditionnelle

31

Page 32: Incertitude

32

Utiliser l’indépendance conditionnelle

Page 33: Incertitude

33

Sommaire

• La probabilité est un formalisme rigoureuse pour des connaissances incertaines

• Distribution de probabilité conjointe spécifie la probabilité de tout événement atomique

• Des requêtes peuvent être répondues en sommant sur les événements atomiques

• Pour des domaines non triviaux, on doit trouver une façon de réduire la taille de jointure

• Indépendance et indépendance conditionnelle fournissent des outils