1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour...

310
1 SVM pour la classification binaire 2 Exemples I - donn´ ees artificielles 3 El´ ements de th´ eorie pour les SVM 4 Exemples II - donn´ ees r´ eelles 5 Noyaux positifs 6 Cas de l’analyse en composantes principales et de la r´ egression

Transcript of 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour...

Page 1: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

1 SVM pour la classification binaire

2 Exemples I - donnees artificielles

3 Elements de theorie pour les SVM

4 Exemples II - donnees reelles

5 Noyaux positifs

6 Cas de l’analyse en composantes principales et de la regression

Page 2: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Introduction

Page 3: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Objectifs

1 Comprendre les grands principes des methodes a noyaux

2 Entrevoir les aspects algorithmiques des Support Vector Machines

3 Percevoir l’impact de la theorie pour expliquer leurs performancesstatistiques

4 Observer leur mise en oeuvre pour l’analyse des donnees

En somme...

montrer les bienfaits d’une interaction permanente entre theorie etalgorithmique

Page 4: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Objectifs

1 Comprendre les grands principes des methodes a noyaux

2 Entrevoir les aspects algorithmiques des Support Vector Machines

3 Percevoir l’impact de la theorie pour expliquer leurs performancesstatistiques

4 Observer leur mise en oeuvre pour l’analyse des donnees

En somme...

montrer les bienfaits d’une interaction permanente entre theorie etalgorithmique

Page 5: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Objectifs

1 Comprendre les grands principes des methodes a noyaux

2 Entrevoir les aspects algorithmiques des Support Vector Machines

3 Percevoir l’impact de la theorie pour expliquer leurs performancesstatistiques

4 Observer leur mise en oeuvre pour l’analyse des donnees

En somme...

montrer les bienfaits d’une interaction permanente entre theorie etalgorithmique

Page 6: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Objectifs

1 Comprendre les grands principes des methodes a noyaux

2 Entrevoir les aspects algorithmiques des Support Vector Machines

3 Percevoir l’impact de la theorie pour expliquer leurs performancesstatistiques

4 Observer leur mise en oeuvre pour l’analyse des donnees

En somme...

montrer les bienfaits d’une interaction permanente entre theorie etalgorithmique

Page 7: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Objectifs

1 Comprendre les grands principes des methodes a noyaux

2 Entrevoir les aspects algorithmiques des Support Vector Machines

3 Percevoir l’impact de la theorie pour expliquer leurs performancesstatistiques

4 Observer leur mise en oeuvre pour l’analyse des donnees

En somme...

montrer les bienfaits d’une interaction permanente entre theorie etalgorithmique

Page 8: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 9: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWW

I ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 10: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADN

I marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 11: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 12: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 13: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculs

I explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 14: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 15: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 16: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroriste

I GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 17: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarth

I projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 18: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 19: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 20: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale II

I securite alimentaire

Page 21: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Contexte

explosion de la taille et de la diversite des donnees

I WWWI ADNI marches financiers

disponibilite des donnees

I explosion des capacites de stockage et de calculsI explosion des communications

digitalisation du monde

I lutte anti-terroristeI GoogleEarthI projet ”Barcode of Life”

besoin de normes quantitatives - controle des risques

I Bale III securite alimentaire

Page 22: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Constats

Caracteristique des donnees : grand nombre de variables

Pour etre appliquees, les methodes statistiques classiques (analysediscriminante, regression lineaire) necessitent une etape critique depretraitement

Les methodes d’apprentissage fournissent des boıtes noires quipresentent

I de hautes performancesI pour les donnees en grande dimensionI sans pretraitement

Page 23: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Constats

Caracteristique des donnees : grand nombre de variables

Pour etre appliquees, les methodes statistiques classiques (analysediscriminante, regression lineaire) necessitent une etape critique depretraitement

Les methodes d’apprentissage fournissent des boıtes noires quipresentent

I de hautes performancesI pour les donnees en grande dimensionI sans pretraitement

Page 24: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Constats

Caracteristique des donnees : grand nombre de variables

Pour etre appliquees, les methodes statistiques classiques (analysediscriminante, regression lineaire) necessitent une etape critique depretraitement

Les methodes d’apprentissage fournissent des boıtes noires quipresentent

I de hautes performancesI pour les donnees en grande dimensionI sans pretraitement

Page 25: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Constats

Caracteristique des donnees : grand nombre de variables

Pour etre appliquees, les methodes statistiques classiques (analysediscriminante, regression lineaire) necessitent une etape critique depretraitement

Les methodes d’apprentissage fournissent des boıtes noires quipresentent

I de hautes performances

I pour les donnees en grande dimensionI sans pretraitement

Page 26: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Constats

Caracteristique des donnees : grand nombre de variables

Pour etre appliquees, les methodes statistiques classiques (analysediscriminante, regression lineaire) necessitent une etape critique depretraitement

Les methodes d’apprentissage fournissent des boıtes noires quipresentent

I de hautes performancesI pour les donnees en grande dimension

I sans pretraitement

Page 27: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Constats

Caracteristique des donnees : grand nombre de variables

Pour etre appliquees, les methodes statistiques classiques (analysediscriminante, regression lineaire) necessitent une etape critique depretraitement

Les methodes d’apprentissage fournissent des boıtes noires quipresentent

I de hautes performancesI pour les donnees en grande dimensionI sans pretraitement

Page 28: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Champs d’application des methodes a noyaux

imagerie/reconnaissancede formes

biologie/domaine medical

finance/economie

marketing, ...

Page 29: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de problemes

apprentissage supervise: classification, regression

apprentissage non supervise: clustering, detection d’anomalies

reduction de la dimension

comparaison de donnees heterogenes

separation de signaux

Page 30: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de problemes

apprentissage supervise: classification, regression

apprentissage non supervise: clustering, detection d’anomalies

reduction de la dimension

comparaison de donnees heterogenes

separation de signaux

Page 31: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de problemes

apprentissage supervise: classification, regression

apprentissage non supervise: clustering, detection d’anomalies

reduction de la dimension

comparaison de donnees heterogenes

separation de signaux

Page 32: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de problemes

apprentissage supervise: classification, regression

apprentissage non supervise: clustering, detection d’anomalies

reduction de la dimension

comparaison de donnees heterogenes

separation de signaux

Page 33: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de problemes

apprentissage supervise: classification, regression

apprentissage non supervise: clustering, detection d’anomalies

reduction de la dimension

comparaison de donnees heterogenes

separation de signaux

Page 34: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :

I expression de genes en biologieI fouille de donnees dans les fichiers logs en marketingI indexation de textes ou d’images dans les moteurs de recherche

structurees

I sequences d’ADNI graphes d’interaction

heterogenes

I vecteursI sequencesI courbesI graphes

Page 35: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :I expression de genes en biologie

I fouille de donnees dans les fichiers logs en marketingI indexation de textes ou d’images dans les moteurs de recherche

structurees

I sequences d’ADNI graphes d’interaction

heterogenes

I vecteursI sequencesI courbesI graphes

Page 36: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :I expression de genes en biologieI fouille de donnees dans les fichiers logs en marketing

I indexation de textes ou d’images dans les moteurs de recherche

structurees

I sequences d’ADNI graphes d’interaction

heterogenes

I vecteursI sequencesI courbesI graphes

Page 37: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :I expression de genes en biologieI fouille de donnees dans les fichiers logs en marketingI indexation de textes ou d’images dans les moteurs de recherche

structurees

I sequences d’ADNI graphes d’interaction

heterogenes

I vecteursI sequencesI courbesI graphes

Page 38: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :I expression de genes en biologieI fouille de donnees dans les fichiers logs en marketingI indexation de textes ou d’images dans les moteurs de recherche

structurees

I sequences d’ADNI graphes d’interaction

heterogenes

I vecteursI sequencesI courbesI graphes

Page 39: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :I expression de genes en biologieI fouille de donnees dans les fichiers logs en marketingI indexation de textes ou d’images dans les moteurs de recherche

structureesI sequences d’ADN

I graphes d’interaction

heterogenes

I vecteursI sequencesI courbesI graphes

Page 40: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :I expression de genes en biologieI fouille de donnees dans les fichiers logs en marketingI indexation de textes ou d’images dans les moteurs de recherche

structureesI sequences d’ADNI graphes d’interaction

heterogenes

I vecteursI sequencesI courbesI graphes

Page 41: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :I expression de genes en biologieI fouille de donnees dans les fichiers logs en marketingI indexation de textes ou d’images dans les moteurs de recherche

structureesI sequences d’ADNI graphes d’interaction

heterogenes

I vecteursI sequencesI courbesI graphes

Page 42: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :I expression de genes en biologieI fouille de donnees dans les fichiers logs en marketingI indexation de textes ou d’images dans les moteurs de recherche

structureesI sequences d’ADNI graphes d’interaction

heterogenesI vecteurs

I sequencesI courbesI graphes

Page 43: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :I expression de genes en biologieI fouille de donnees dans les fichiers logs en marketingI indexation de textes ou d’images dans les moteurs de recherche

structureesI sequences d’ADNI graphes d’interaction

heterogenesI vecteursI sequences

I courbesI graphes

Page 44: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :I expression de genes en biologieI fouille de donnees dans les fichiers logs en marketingI indexation de textes ou d’images dans les moteurs de recherche

structureesI sequences d’ADNI graphes d’interaction

heterogenesI vecteursI sequencesI courbes

I graphes

Page 45: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Type de donnees

en grande dimension :I expression de genes en biologieI fouille de donnees dans les fichiers logs en marketingI indexation de textes ou d’images dans les moteurs de recherche

structureesI sequences d’ADNI graphes d’interaction

heterogenesI vecteursI sequencesI courbesI graphes

Page 46: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Ingredients mathematiques

Optimisation quadratique

Theorie des operateurs a noyau

Theorie probabiliste de la classification

Methodes statistiques pour l’analyse des donnees

Page 47: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Ingredients mathematiques

Optimisation quadratique

Theorie des operateurs a noyau

Theorie probabiliste de la classification

Methodes statistiques pour l’analyse des donnees

Page 48: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Ingredients mathematiques

Optimisation quadratique

Theorie des operateurs a noyau

Theorie probabiliste de la classification

Methodes statistiques pour l’analyse des donnees

Page 49: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Ingredients mathematiques

Optimisation quadratique

Theorie des operateurs a noyau

Theorie probabiliste de la classification

Methodes statistiques pour l’analyse des donnees

Page 50: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Reperes historiques

Introduction des noyaux : Aronszajn (1950), Parzen (1962)

Noyaux et reconnaissance des formes : Aizerman, Braverman,Rozonoer (1964)

Perceptron et classifieurs lineaires : Rosenblatt (1958) Vapnik,Chervonenkis (1964)

Support Vector Machines : Boser, Guyon, Vapnik (1992), Cortes,Vapnik (1995), Vapnik (1995), Scholkopf (1997)

Performances statistiques : Blanchard, Bousquet, Massart (2004),Steinwart (2005)

Page 51: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Reperes historiques

Introduction des noyaux : Aronszajn (1950), Parzen (1962)

Noyaux et reconnaissance des formes : Aizerman, Braverman,Rozonoer (1964)

Perceptron et classifieurs lineaires : Rosenblatt (1958) Vapnik,Chervonenkis (1964)

Support Vector Machines : Boser, Guyon, Vapnik (1992), Cortes,Vapnik (1995), Vapnik (1995), Scholkopf (1997)

Performances statistiques : Blanchard, Bousquet, Massart (2004),Steinwart (2005)

Page 52: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Reperes historiques

Introduction des noyaux : Aronszajn (1950), Parzen (1962)

Noyaux et reconnaissance des formes : Aizerman, Braverman,Rozonoer (1964)

Perceptron et classifieurs lineaires : Rosenblatt (1958) Vapnik,Chervonenkis (1964)

Support Vector Machines : Boser, Guyon, Vapnik (1992), Cortes,Vapnik (1995), Vapnik (1995), Scholkopf (1997)

Performances statistiques : Blanchard, Bousquet, Massart (2004),Steinwart (2005)

Page 53: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Reperes historiques

Introduction des noyaux : Aronszajn (1950), Parzen (1962)

Noyaux et reconnaissance des formes : Aizerman, Braverman,Rozonoer (1964)

Perceptron et classifieurs lineaires : Rosenblatt (1958) Vapnik,Chervonenkis (1964)

Support Vector Machines : Boser, Guyon, Vapnik (1992), Cortes,Vapnik (1995), Vapnik (1995), Scholkopf (1997)

Performances statistiques : Blanchard, Bousquet, Massart (2004),Steinwart (2005)

Page 54: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Reperes historiques

Introduction des noyaux : Aronszajn (1950), Parzen (1962)

Noyaux et reconnaissance des formes : Aizerman, Braverman,Rozonoer (1964)

Perceptron et classifieurs lineaires : Rosenblatt (1958) Vapnik,Chervonenkis (1964)

Support Vector Machines : Boser, Guyon, Vapnik (1992), Cortes,Vapnik (1995), Vapnik (1995), Scholkopf (1997)

Performances statistiques : Blanchard, Bousquet, Massart (2004),Steinwart (2005)

Page 55: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Logiciels

Environ 40 librairies gratuites!!

I code en C : SVM-LightI en ligne: GISTI sous S-Plus : package libsvmI sous R : package kernlabI sous Matlab : SPIDER

NB : Les logiciels libres sont pour la plupart sous licence GPL

Page 56: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Logiciels

Environ 40 librairies gratuites!!I code en C : SVM-Light

I en ligne: GISTI sous S-Plus : package libsvmI sous R : package kernlabI sous Matlab : SPIDER

NB : Les logiciels libres sont pour la plupart sous licence GPL

Page 57: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Logiciels

Environ 40 librairies gratuites!!I code en C : SVM-LightI en ligne: GIST

I sous S-Plus : package libsvmI sous R : package kernlabI sous Matlab : SPIDER

NB : Les logiciels libres sont pour la plupart sous licence GPL

Page 58: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Logiciels

Environ 40 librairies gratuites!!I code en C : SVM-LightI en ligne: GISTI sous S-Plus : package libsvm

I sous R : package kernlabI sous Matlab : SPIDER

NB : Les logiciels libres sont pour la plupart sous licence GPL

Page 59: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Logiciels

Environ 40 librairies gratuites!!I code en C : SVM-LightI en ligne: GISTI sous S-Plus : package libsvmI sous R : package kernlab

I sous Matlab : SPIDER

NB : Les logiciels libres sont pour la plupart sous licence GPL

Page 60: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Logiciels

Environ 40 librairies gratuites!!I code en C : SVM-LightI en ligne: GISTI sous S-Plus : package libsvmI sous R : package kernlabI sous Matlab : SPIDER

NB : Les logiciels libres sont pour la plupart sous licence GPL

Page 61: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Logiciels

Environ 40 librairies gratuites!!I code en C : SVM-LightI en ligne: GISTI sous S-Plus : package libsvmI sous R : package kernlabI sous Matlab : SPIDER

NB : Les logiciels libres sont pour la plupart sous licence GPL

Page 62: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

SVM pour la classification binaire

Page 63: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Le probleme de classification binaire

Donnees disponibles : (x1, y1), . . . , (xn, yn)

I xi ∈ Rd observations

I yi ∈ {−1,+1} classe (ou label ou etiquette) binaire

Probleme : prediction du label y connaissant x

On cherche : un classifieur g : Rd → {−1,+1}

Question : trouver un classifieur g qui ”generalise” bien.

Idee : on choisit g qui ”interprete” bien, mais pas trop!

Concretement : on cherche une fonction de decision f : Rd → Ret on y associe le classifieur g = sgn(f )

Page 64: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Le probleme de classification binaire

Donnees disponibles : (x1, y1), . . . , (xn, yn)

I xi ∈ Rd observations

I yi ∈ {−1,+1} classe (ou label ou etiquette) binaire

Probleme : prediction du label y connaissant x

On cherche : un classifieur g : Rd → {−1,+1}

Question : trouver un classifieur g qui ”generalise” bien.

Idee : on choisit g qui ”interprete” bien, mais pas trop!

Concretement : on cherche une fonction de decision f : Rd → Ret on y associe le classifieur g = sgn(f )

Page 65: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Le probleme de classification binaire

Donnees disponibles : (x1, y1), . . . , (xn, yn)

I xi ∈ Rd observations

I yi ∈ {−1,+1} classe (ou label ou etiquette) binaire

Probleme : prediction du label y connaissant x

On cherche : un classifieur g : Rd → {−1,+1}

Question : trouver un classifieur g qui ”generalise” bien.

Idee : on choisit g qui ”interprete” bien, mais pas trop!

Concretement : on cherche une fonction de decision f : Rd → Ret on y associe le classifieur g = sgn(f )

Page 66: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Le probleme de classification binaire

Donnees disponibles : (x1, y1), . . . , (xn, yn)

I xi ∈ Rd observations

I yi ∈ {−1,+1} classe (ou label ou etiquette) binaire

Probleme : prediction du label y connaissant x

On cherche : un classifieur g : Rd → {−1,+1}

Question : trouver un classifieur g qui ”generalise” bien.

Idee : on choisit g qui ”interprete” bien, mais pas trop!

Concretement : on cherche une fonction de decision f : Rd → Ret on y associe le classifieur g = sgn(f )

Page 67: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Le probleme de classification binaire

Donnees disponibles : (x1, y1), . . . , (xn, yn)

I xi ∈ Rd observations

I yi ∈ {−1,+1} classe (ou label ou etiquette) binaire

Probleme : prediction du label y connaissant x

On cherche : un classifieur g : Rd → {−1,+1}

Question : trouver un classifieur g qui ”generalise” bien.

Idee : on choisit g qui ”interprete” bien, mais pas trop!

Concretement : on cherche une fonction de decision f : Rd → Ret on y associe le classifieur g = sgn(f )

Page 68: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Le probleme de classification binaire

Donnees disponibles : (x1, y1), . . . , (xn, yn)

I xi ∈ Rd observations

I yi ∈ {−1,+1} classe (ou label ou etiquette) binaire

Probleme : prediction du label y connaissant x

On cherche : un classifieur g : Rd → {−1,+1}

Question : trouver un classifieur g qui ”generalise” bien.

Idee : on choisit g qui ”interprete” bien, mais pas trop!

Concretement : on cherche une fonction de decision f : Rd → Ret on y associe le classifieur g = sgn(f )

Page 69: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Le probleme de classification binaire

Donnees disponibles : (x1, y1), . . . , (xn, yn)

I xi ∈ Rd observations

I yi ∈ {−1,+1} classe (ou label ou etiquette) binaire

Probleme : prediction du label y connaissant x

On cherche : un classifieur g : Rd → {−1,+1}

Question : trouver un classifieur g qui ”generalise” bien.

Idee : on choisit g qui ”interprete” bien, mais pas trop!

Concretement : on cherche une fonction de decision f : Rd → Ret on y associe le classifieur g = sgn(f )

Page 70: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Le probleme de classification binaire

Donnees disponibles : (x1, y1), . . . , (xn, yn)

I xi ∈ Rd observations

I yi ∈ {−1,+1} classe (ou label ou etiquette) binaire

Probleme : prediction du label y connaissant x

On cherche : un classifieur g : Rd → {−1,+1}

Question : trouver un classifieur g qui ”generalise” bien.

Idee : on choisit g qui ”interprete” bien, mais pas trop!

Concretement : on cherche une fonction de decision f : Rd → Ret on y associe le classifieur g = sgn(f )

Page 71: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Performance d’un classifieur

Etant donnee une observation x , un classifieur g realise une predictiong(x) a comparer a la classe y .

Erreur du classifieur = Taux d’observations mal classees

1

n

n∑i=1

I[g(xi )6=yi ] =#{i : g(xi ) 6= yi}

n

Cette erreur s’appelle aussi erreur d’apprentissage.

Un classifieur g ”interprete” convenablement les donnees si son erreurd’apprentissage est faible.

Attention! si on s’interesse seulement a ce type d’erreur, on risqued’avoir des problemes...

Page 72: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Performance d’un classifieur

Etant donnee une observation x , un classifieur g realise une predictiong(x) a comparer a la classe y .

Erreur du classifieur = Taux d’observations mal classees

1

n

n∑i=1

I[g(xi )6=yi ]

=#{i : g(xi ) 6= yi}

n

Cette erreur s’appelle aussi erreur d’apprentissage.

Un classifieur g ”interprete” convenablement les donnees si son erreurd’apprentissage est faible.

Attention! si on s’interesse seulement a ce type d’erreur, on risqued’avoir des problemes...

Page 73: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Performance d’un classifieur

Etant donnee une observation x , un classifieur g realise une predictiong(x) a comparer a la classe y .

Erreur du classifieur = Taux d’observations mal classees

1

n

n∑i=1

I[g(xi )6=yi ] =#{i : g(xi ) 6= yi}

n

Cette erreur s’appelle aussi erreur d’apprentissage.

Un classifieur g ”interprete” convenablement les donnees si son erreurd’apprentissage est faible.

Attention! si on s’interesse seulement a ce type d’erreur, on risqued’avoir des problemes...

Page 74: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Performance d’un classifieur

Etant donnee une observation x , un classifieur g realise une predictiong(x) a comparer a la classe y .

Erreur du classifieur = Taux d’observations mal classees

1

n

n∑i=1

I[g(xi )6=yi ] =#{i : g(xi ) 6= yi}

n

Cette erreur s’appelle aussi erreur d’apprentissage.

Un classifieur g ”interprete” convenablement les donnees si son erreurd’apprentissage est faible.

Attention! si on s’interesse seulement a ce type d’erreur, on risqued’avoir des problemes...

Page 75: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Performance d’un classifieur

Etant donnee une observation x , un classifieur g realise une predictiong(x) a comparer a la classe y .

Erreur du classifieur = Taux d’observations mal classees

1

n

n∑i=1

I[g(xi )6=yi ] =#{i : g(xi ) 6= yi}

n

Cette erreur s’appelle aussi erreur d’apprentissage.

Un classifieur g ”interprete” convenablement les donnees si son erreurd’apprentissage est faible.

Attention! si on s’interesse seulement a ce type d’erreur, on risqued’avoir des problemes...

Page 76: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Overfitting - regression

Page 77: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Overfitting - classification

Page 78: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Cas de la classification - Les trois scenarios

1 les populations sont lineairement separables

2 les populations sont presque lineairement separables

3 les populations ne sont pas lineairement separables

Page 79: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Separabilite lineaire

Scenario 1 Scenario 2

Page 80: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Notations

Produit scalaire entre deux vecteurs sur Rd :

∀u, v ∈ Rd , < u, v >= uT v =d∑

j=1

ujvj

ou u = (u1, . . . , ud)T et v = (v1, . . . , vd)T

Norme euclidienne sur Rd :

∀u ∈ Rd , ‖u‖ =√< u, u > =

√√√√ d∑j=1

u2j

Page 81: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Notations

Produit scalaire entre deux vecteurs sur Rd :

∀u, v ∈ Rd , < u, v >= uT v =d∑

j=1

ujvj

ou u = (u1, . . . , ud)T et v = (v1, . . . , vd)T

Norme euclidienne sur Rd :

∀u ∈ Rd , ‖u‖ =√< u, u > =

√√√√ d∑j=1

u2j

Page 82: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Separateurs lineaires

Forme des fonctions de decision :

f (x) = b + < β, x >

ou b ∈ R, β ∈ Rd .

L’equation f (x) = 0 definit un hyperplan separateur H dans Rd

Classifieur associe :

∀x ∈ Rd gf (x) =

+1 si f (x) > 0

−1 si f (x) ≤ 0

Page 83: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Separateurs lineaires

Forme des fonctions de decision :

f (x) = b + < β, x >

ou b ∈ R, β ∈ Rd .

L’equation f (x) = 0 definit un hyperplan separateur H dans Rd

Classifieur associe :

∀x ∈ Rd gf (x) =

+1 si f (x) > 0

−1 si f (x) ≤ 0

Page 84: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Separateurs lineaires

Forme des fonctions de decision :

f (x) = b + < β, x >

ou b ∈ R, β ∈ Rd .

L’equation f (x) = 0 definit un hyperplan separateur H dans Rd

Classifieur associe :

∀x ∈ Rd gf (x) =

+1 si f (x) > 0

−1 si f (x) ≤ 0

Page 85: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Quelques proprietes

1 β∗ =β

‖β‖est le vecteur normal a H

2 ∀x0 ∈ H, < β, x0 >= −b

3 la distance signee (eventuellement negative !) d’un point x ∈ Rd a Hest donnee par

d(x ,H) =< β∗, x − x0 >=1

‖β‖(b + < β, x >

)ou x0 ∈ H

Page 86: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Quelques proprietes

1 β∗ =β

‖β‖est le vecteur normal a H

2 ∀x0 ∈ H, < β, x0 >= −b

3 la distance signee (eventuellement negative !) d’un point x ∈ Rd a Hest donnee par

d(x ,H) =< β∗, x − x0 >=1

‖β‖(b + < β, x >

)ou x0 ∈ H

Page 87: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Quelques proprietes

1 β∗ =β

‖β‖est le vecteur normal a H

2 ∀x0 ∈ H, < β, x0 >= −b

3 la distance signee (eventuellement negative !) d’un point x ∈ Rd a Hest donnee par

d(x ,H) =< β∗, x − x0 >=1

‖β‖(b + < β, x >

)ou x0 ∈ H

Page 88: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Scenario 1 - Une figure

Attention! ici w = β...

Page 89: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithme du perceptron (Rosenblatt, 1958)

Perceptron - version simplifiee b = 0

Genere une suite β0, . . . , βn de valeurs pour β

1 Initialisation - β0 = 0

2 Etape i - on considere le couple (xi , yi ) et on regarde s’il estcorrectement classe ou non

βi =

βi−1 si yi · < βi−1, xi > > 0

βi−1 + yixi si yi · < βi−1, xi > ≤ 0

Page 90: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithme du perceptron (Rosenblatt, 1958)

Perceptron - version simplifiee b = 0

Genere une suite β0, . . . , βn de valeurs pour β

1 Initialisation - β0 = 0

2 Etape i - on considere le couple (xi , yi ) et on regarde s’il estcorrectement classe ou non

βi =

βi−1 si yi · < βi−1, xi > > 0

βi−1 + yixi si yi · < βi−1, xi > ≤ 0

Page 91: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithme du perceptron general

Perceptron - version generale

Parametres :

I taux d’apprentissage ηI rayon des observations R = max1≤i≤n ‖xi‖

Algorithme :

1 Initialisation - β0 = 0, b0 = 0

2 Etape i - si (xi , yi ) est mal classe par l’hyperplan (bi−1, βi−1), alors:

βi = βi−1 + ηyixi

bi = bi−1 + ηy2i R2

sinon βi = βi−1, bi = bi−1

Page 92: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithme du perceptron general

Perceptron - version generale

Parametres :

I taux d’apprentissage η

I rayon des observations R = max1≤i≤n ‖xi‖

Algorithme :

1 Initialisation - β0 = 0, b0 = 0

2 Etape i - si (xi , yi ) est mal classe par l’hyperplan (bi−1, βi−1), alors:

βi = βi−1 + ηyixi

bi = bi−1 + ηy2i R2

sinon βi = βi−1, bi = bi−1

Page 93: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithme du perceptron general

Perceptron - version generale

Parametres :

I taux d’apprentissage ηI rayon des observations R = max1≤i≤n ‖xi‖

Algorithme :

1 Initialisation - β0 = 0, b0 = 0

2 Etape i - si (xi , yi ) est mal classe par l’hyperplan (bi−1, βi−1), alors:

βi = βi−1 + ηyixi

bi = bi−1 + ηy2i R2

sinon βi = βi−1, bi = bi−1

Page 94: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithme du perceptron general

Perceptron - version generale

Parametres :

I taux d’apprentissage ηI rayon des observations R = max1≤i≤n ‖xi‖

Algorithme :

1 Initialisation - β0 = 0, b0 = 0

2 Etape i - si (xi , yi ) est mal classe par l’hyperplan (bi−1, βi−1), alors:

βi = βi−1 + ηyixi

bi = bi−1 + ηy2i R2

sinon βi = βi−1, bi = bi−1

Page 95: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithme du perceptron general

Perceptron - version generale

Parametres :

I taux d’apprentissage ηI rayon des observations R = max1≤i≤n ‖xi‖

Algorithme :

1 Initialisation - β0 = 0, b0 = 0

2 Etape i - si (xi , yi ) est mal classe par l’hyperplan (bi−1, βi−1), alors:

βi = βi−1 + ηyixi

bi = bi−1 + ηy2i R2

sinon βi = βi−1, bi = bi−1

Page 96: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithme du perceptron general

Perceptron - version generale

Parametres :

I taux d’apprentissage ηI rayon des observations R = max1≤i≤n ‖xi‖

Algorithme :

1 Initialisation - β0 = 0, b0 = 0

2 Etape i - si (xi , yi ) est mal classe par l’hyperplan (bi−1, βi−1), alors:

βi = βi−1 + ηyixi

bi = bi−1 + ηy2i R2

sinon βi = βi−1, bi = bi−1

Page 97: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Proprietes du perceptron

Theoreme de Novikoff

Si les populations sont lineairement separables alors l’algorithme duperceptron converge en un nombre fini T ≤ n d’etapes ou:

T ≤ 2R2

M2

avec M = min1≤i≤n

{yid(xi ,H∗)} pour un certain separateur H∗.

Defaut du perceptron : mauvaise generalisation

Vertu du perceptron : algorithme sequentiel (online)

Page 98: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Proprietes du perceptron

Theoreme de Novikoff

Si les populations sont lineairement separables alors l’algorithme duperceptron converge en un nombre fini T ≤ n d’etapes ou:

T ≤ 2R2

M2

avec M = min1≤i≤n

{yid(xi ,H∗)} pour un certain separateur H∗.

Defaut du perceptron : mauvaise generalisation

Vertu du perceptron : algorithme sequentiel (online)

Page 99: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Proprietes du perceptron

Theoreme de Novikoff

Si les populations sont lineairement separables alors l’algorithme duperceptron converge en un nombre fini T ≤ n d’etapes ou:

T ≤ 2R2

M2

avec M = min1≤i≤n

{yid(xi ,H∗)} pour un certain separateur H∗.

Defaut du perceptron : mauvaise generalisation

Vertu du perceptron : algorithme sequentiel (online)

Page 100: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Scenario 1 - hyperplan a bonne generalisation

Question: hyperplan se trouvant a distance maximale de chaquepopulation ?

Page 101: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Scenario 1 - hyperplan a bonne generalisation

Question: hyperplan se trouvant a distance maximale de chaquepopulation ?

Page 102: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Hyperplan a marges optimales (Vapnik-Chervonenkis,1964)

Probleme d’optimisation

maxβ∈Rd , b∈R

M

sous les contraintes:

∀i = 1, . . . , n , yi · d(xi ,H) ≥ M

On rappelle:

d(xi ,H) =1

‖β‖(b + < β, xi >

)

Page 103: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme quadratique

Contraintes:

∀i = 1, . . . , n , yi ·1

‖β‖(b + < β, xi >

)≥ M

On peut tres bien poser: M = 1/‖β‖

Formulation equivalente

minβ,b

1

2‖β‖2

sous les contraintes:

∀i = 1, . . . , n , yi ·(b + < β, xi >

)≥ 1

Page 104: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Scenario 2 - Populations presque lineairement separables

Idee : la ”bonne” separation est lineaire mais certaines observations ontdes labels bruites.

Page 105: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Scenario 2 - Variables ”ressorts”

Page 106: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Scenario 2 - Variables ”ressorts” (suite)

On introduit n variables supplementaires (”slacks” ou ”ressorts”):ξ = (ξ1, . . . , ξn) avec ξi ≥ 0, ∀i

Nouveau probleme d’optimisation

minβ,b

1

2‖β‖2

sous les contraintes:

∀i = 1, . . . , n , yi ·(b + < β, xi >

)≥ 1− ξi

ξi ≥ 0

n∑i=1

ξi ≤ Ξ

Page 107: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Formulation lagrangienne I

Formulation lagrangienne I

minβ,b

1

2‖β‖2 + C

n∑i=1

ξi

sous les contraintes:

∀i = 1, . . . , n , ξi ≥ 0ξi ≥ 1− [yi ·

(b+ < β, xi >

)]

Page 108: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Formulation lagrangienne II

Multiplicateurs de Lagrange: α = (α1, . . . , αn), µ = (µ1, . . . , µn)

Formulation lagrangienne II

minβ,b,ξ

1

2‖β‖2 + C

n∑i=1

ξi −n∑

i=1

αi

(yi ·(b + < β, xi >

)− (1− ξi )

)+

n∑i=1

µiξi

Conditions du premier ordre (gradient nul)

β =n∑

i=1

αiyixi

n∑i=1

αiyi = 0

∀i = 1, . . . , n , αi = C + µi

Page 109: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Formulation duale

Formulation duale

maxα

n∑i=1

αi −1

2

n∑i=1

n∑j=1

αiαjyiyj < xi , xj >

sous les contraintes:

∀i = 1, . . . , n , 0 ≤ αi ≤ Cn∑

i=1

αiyi = 0

On note α = (α1, . . . , αn) la solution de ce probleme.

Page 110: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Conditions de Karush-Kuhn-Tucker

Conditions de Karush-Kuhn-Tucker

∀i = 1, . . . , n , αi

(yi · f (xi )− (1− ξi )

)= 0

yi · f (xi )− (1− ξi ) ≥ 0αi + µi = C

µiξi = 0

β =n∑

i=1

αiyixi

n∑i=1

αiyi = 0

Page 111: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interpretation

Lien entre les coefficients et la position des observations

si αi = 0 alors yi · f (xi ) ≥ 1 ⇒ le point xi est bien classecar µi = C > 0 et on a ξi = 0

si 0 < αi < C alors yi · f (xi ) = 1 ⇒ le point xi est sur la frontiere dela margecar µi > 0 et ξi = 0

si αi = C alors yi · f (xi ) ≤ 1 ⇒ le point xi depasse la frontiere de lamargecar µi = 0 et donc ξi ≥ 0

Phenomene remarquable!

En pratique, beaucoup de αi sont nuls!

Page 112: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interpretation

Lien entre les coefficients et la position des observations

si αi = 0 alors yi · f (xi ) ≥ 1 ⇒ le point xi est bien classecar µi = C > 0 et on a ξi = 0

si 0 < αi < C alors yi · f (xi ) = 1 ⇒ le point xi est sur la frontiere dela margecar µi > 0 et ξi = 0

si αi = C alors yi · f (xi ) ≤ 1 ⇒ le point xi depasse la frontiere de lamargecar µi = 0 et donc ξi ≥ 0

Phenomene remarquable!

En pratique, beaucoup de αi sont nuls!

Page 113: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interpretation

Lien entre les coefficients et la position des observations

si αi = 0 alors yi · f (xi ) ≥ 1 ⇒ le point xi est bien classecar µi = C > 0 et on a ξi = 0

si 0 < αi < C alors yi · f (xi ) = 1 ⇒ le point xi est sur la frontiere dela margecar µi > 0 et ξi = 0

si αi = C alors yi · f (xi ) ≤ 1 ⇒ le point xi depasse la frontiere de lamargecar µi = 0 et donc ξi ≥ 0

Phenomene remarquable!

En pratique, beaucoup de αi sont nuls!

Page 114: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interpretation

Lien entre les coefficients et la position des observations

si αi = 0 alors yi · f (xi ) ≥ 1 ⇒ le point xi est bien classecar µi = C > 0 et on a ξi = 0

si 0 < αi < C alors yi · f (xi ) = 1 ⇒ le point xi est sur la frontiere dela margecar µi > 0 et ξi = 0

si αi = C alors yi · f (xi ) ≤ 1 ⇒ le point xi depasse la frontiere de lamargecar µi = 0 et donc ξi ≥ 0

Phenomene remarquable!

En pratique, beaucoup de αi sont nuls!

Page 115: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interpretation

Lien entre les coefficients et la position des observations

si αi = 0 alors yi · f (xi ) ≥ 1 ⇒ le point xi est bien classecar µi = C > 0 et on a ξi = 0

si 0 < αi < C alors yi · f (xi ) = 1 ⇒ le point xi est sur la frontiere dela margecar µi > 0 et ξi = 0

si αi = C alors yi · f (xi ) ≤ 1 ⇒ le point xi depasse la frontiere de lamargecar µi = 0 et donc ξi ≥ 0

Phenomene remarquable!

En pratique, beaucoup de αi sont nuls!

Page 116: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Solution du probleme

Definition

Les αi 6= 0 correspondent aux vecteurs de support. On note I l’ensembledes indices parmi {1, . . . , n} correspondants.

Representation de la solution

Fonction de decision:

f (x) = b +∑i∈I

αiyi < xi , x >

ou :

β =∑

i∈I αiyixi , I = {i : αi 6= 0}

b = yj −∑

i∈I αiyi < xi , xj > , pour un certain j ∈ I

Page 117: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Solution du probleme

Definition

Les αi 6= 0 correspondent aux vecteurs de support. On note I l’ensembledes indices parmi {1, . . . , n} correspondants.

Representation de la solution

Fonction de decision:

f (x) = b +∑i∈I

αiyi < xi , x >

ou :

β =∑

i∈I αiyixi , I = {i : αi 6= 0}

b = yj −∑

i∈I αiyi < xi , xj > , pour un certain j ∈ I

Page 118: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Vecteurs de support

⇒ Representation parcimonieuse (”sparse”) des SVM

Page 119: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Scenario 3 - remarques preliminaires

La plupart des problemes de classification relevent de separationsnon-lineaires

L’algorithme de construction de l’hyperplan a marges optimales nefait intervenir les observations que sous la forme des produits scalaires< xi , xj > pour tout i , j

La fonction de decision depend du produit scalaire entre le nouveaupoint x et les vecteurs de support xi

Page 120: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Scenario 3 - remarques preliminaires

La plupart des problemes de classification relevent de separationsnon-lineaires

L’algorithme de construction de l’hyperplan a marges optimales nefait intervenir les observations que sous la forme des produits scalaires< xi , xj > pour tout i , j

La fonction de decision depend du produit scalaire entre le nouveaupoint x et les vecteurs de support xi

Page 121: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Scenario 3 - remarques preliminaires

La plupart des problemes de classification relevent de separationsnon-lineaires

L’algorithme de construction de l’hyperplan a marges optimales nefait intervenir les observations que sous la forme des produits scalaires< xi , xj > pour tout i , j

La fonction de decision depend du produit scalaire entre le nouveaupoint x et les vecteurs de support xi

Page 122: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

L’astuce du noyau

Astuce du noyau (”kernel trick”) : l’algorithme de construction del’hyperplan a marges optimales ne depend des observations qu’autravers des coefficients de la matrice de Gram

K = (< xi , xj >)1≤i ,j≤n

Methodes a noyaux : on remplace le produit scalaire canoniquepar un noyau positif

k : X × X → R

et alors K devient la matrice des k(xi , xj).

Page 123: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

L’astuce du noyau

Astuce du noyau (”kernel trick”) : l’algorithme de construction del’hyperplan a marges optimales ne depend des observations qu’autravers des coefficients de la matrice de Gram

K = (< xi , xj >)1≤i ,j≤n

Methodes a noyaux : on remplace le produit scalaire canoniquepar un noyau positif

k : X × X → R

et alors K devient la matrice des k(xi , xj).

Page 124: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Support Vector Machines

Formulation duale

maxα

n∑i=1

αi −1

2

n∑i=1

n∑j=1

αiαjyiyjk(xi , xj)

sous les contraintes:

∀i = 1, . . . , n , 0 ≤ αi ≤ Cn∑

i=1

αiyi = 0

Fonction de decision :

f (x) = b +∑i∈I

αik(xi , x)

avec I indices des vecteurs de support.

Page 125: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Support Vector Machines

Formulation duale

maxα

n∑i=1

αi −1

2

n∑i=1

n∑j=1

αiαjyiyjk(xi , xj)

sous les contraintes:

∀i = 1, . . . , n , 0 ≤ αi ≤ Cn∑

i=1

αiyi = 0

Fonction de decision :

f (x) = b +∑i∈I

αik(xi , x)

avec I indices des vecteurs de support.

Page 126: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Exemples de noyaux

noyaux polynomiaux

kr (x , x ′) = (< x , x ′ >)r

kr ,c(x , x ′) = (< x , x ′ > +c)r

noyau a fonctions de base radiales gaussiennes (RBF)

kσ(x , x ′) = exp

(−‖x − x ′‖2

2σ2

)noyau sigmoıde (reseau de neurones)

kκ,θ(x , x ′) = tanh(κ < x , x ′ > +θ

)

Page 127: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Exemples de noyaux

noyaux polynomiaux

kr (x , x ′) = (< x , x ′ >)r

kr ,c(x , x ′) = (< x , x ′ > +c)r

noyau a fonctions de base radiales gaussiennes (RBF)

kσ(x , x ′) = exp

(−‖x − x ′‖2

2σ2

)

noyau sigmoıde (reseau de neurones)

kκ,θ(x , x ′) = tanh(κ < x , x ′ > +θ

)

Page 128: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Exemples de noyaux

noyaux polynomiaux

kr (x , x ′) = (< x , x ′ >)r

kr ,c(x , x ′) = (< x , x ′ > +c)r

noyau a fonctions de base radiales gaussiennes (RBF)

kσ(x , x ′) = exp

(−‖x − x ′‖2

2σ2

)noyau sigmoıde (reseau de neurones)

kκ,θ(x , x ′) = tanh(κ < x , x ′ > +θ

)

Page 129: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Problemes pratiques

Selection d’un noyau

Reglage des parametres : utilisation d’une base de validation

Mesures de performances : erreur sur la base de test

Comparaison a d’autres methodes

Extensions:

I probleme de classification a plus de deux classesI cas de populations tres disproportionnees

Page 130: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Problemes pratiques

Selection d’un noyau

Reglage des parametres : utilisation d’une base de validation

Mesures de performances : erreur sur la base de test

Comparaison a d’autres methodes

Extensions:

I probleme de classification a plus de deux classesI cas de populations tres disproportionnees

Page 131: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Problemes pratiques

Selection d’un noyau

Reglage des parametres : utilisation d’une base de validation

Mesures de performances : erreur sur la base de test

Comparaison a d’autres methodes

Extensions:

I probleme de classification a plus de deux classesI cas de populations tres disproportionnees

Page 132: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Problemes pratiques

Selection d’un noyau

Reglage des parametres : utilisation d’une base de validation

Mesures de performances : erreur sur la base de test

Comparaison a d’autres methodes

Extensions:

I probleme de classification a plus de deux classesI cas de populations tres disproportionnees

Page 133: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Problemes pratiques

Selection d’un noyau

Reglage des parametres : utilisation d’une base de validation

Mesures de performances : erreur sur la base de test

Comparaison a d’autres methodes

Extensions:

I probleme de classification a plus de deux classesI cas de populations tres disproportionnees

Page 134: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Problemes pratiques

Selection d’un noyau

Reglage des parametres : utilisation d’une base de validation

Mesures de performances : erreur sur la base de test

Comparaison a d’autres methodes

Extensions:I probleme de classification a plus de deux classes

I cas de populations tres disproportionnees

Page 135: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Problemes pratiques

Selection d’un noyau

Reglage des parametres : utilisation d’une base de validation

Mesures de performances : erreur sur la base de test

Comparaison a d’autres methodes

Extensions:I probleme de classification a plus de deux classesI cas de populations tres disproportionnees

Page 136: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Problemes multi-classes

Soit ` le nombre de classes

Un-contre-tous(`− 1) classifieurs binaires + vote

Un-contre-unC 2` classifieurs binaires + vote

Fusion de classes (error-correcting output codes)Plusieurs classifieurs binaires + regle de superposition

Criteres d’optimisation multi-classesAlgorithme SVM modifie + regle de classification :

g(x) = arg min1≤j≤`

bj +∑i :yi =j

αik(xi , x)

∈ {1, . . . , `}

Page 137: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Problemes multi-classes

Soit ` le nombre de classes

Un-contre-tous(`− 1) classifieurs binaires + vote

Un-contre-unC 2` classifieurs binaires + vote

Fusion de classes (error-correcting output codes)Plusieurs classifieurs binaires + regle de superposition

Criteres d’optimisation multi-classesAlgorithme SVM modifie + regle de classification :

g(x) = arg min1≤j≤`

bj +∑i :yi =j

αik(xi , x)

∈ {1, . . . , `}

Page 138: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Problemes multi-classes

Soit ` le nombre de classes

Un-contre-tous(`− 1) classifieurs binaires + vote

Un-contre-unC 2` classifieurs binaires + vote

Fusion de classes (error-correcting output codes)Plusieurs classifieurs binaires + regle de superposition

Criteres d’optimisation multi-classesAlgorithme SVM modifie + regle de classification :

g(x) = arg min1≤j≤`

bj +∑i :yi =j

αik(xi , x)

∈ {1, . . . , `}

Page 139: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Problemes multi-classes

Soit ` le nombre de classes

Un-contre-tous(`− 1) classifieurs binaires + vote

Un-contre-unC 2` classifieurs binaires + vote

Fusion de classes (error-correcting output codes)Plusieurs classifieurs binaires + regle de superposition

Criteres d’optimisation multi-classesAlgorithme SVM modifie + regle de classification :

g(x) = arg min1≤j≤`

bj +∑i :yi =j

αik(xi , x)

∈ {1, . . . , `}

Page 140: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Exemples I - donnees artificielles

Page 141: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Utilisation du logiciel Spider

Developpe au Max Planck Institute (Tubingen)

Disponible en ligne :

http://www.kyb.tuebingen.mpg.de/bs/people/spider/main.html

Premiers pas :

X = randn(5, 10);Y = [1,1,1,-1,-1]’;d = data(X,Y);a=svm;[tr, a] = train(a,d)

Page 142: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Utilisation du logiciel Spider

Developpe au Max Planck Institute (Tubingen)

Disponible en ligne :

http://www.kyb.tuebingen.mpg.de/bs/people/spider/main.html

Premiers pas :

X = randn(5, 10);Y = [1,1,1,-1,-1]’;d = data(X,Y);a=svm;[tr, a] = train(a,d)

Page 143: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Utilisation du logiciel Spider

Developpe au Max Planck Institute (Tubingen)

Disponible en ligne :

http://www.kyb.tuebingen.mpg.de/bs/people/spider/main.html

Premiers pas :

X = randn(5, 10);Y = [1,1,1,-1,-1]’;d = data(X,Y);a=svm;[tr, a] = train(a,d)

Page 144: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Utilisation du logiciel Spider

Developpe au Max Planck Institute (Tubingen)

Disponible en ligne :

http://www.kyb.tuebingen.mpg.de/bs/people/spider/main.html

Premiers pas :

X = randn(5, 10);Y = [1,1,1,-1,-1]’;d = data(X,Y);a=svm;[tr, a] = train(a,d)

Page 145: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Utilisation du logiciel Spider

Developpe au Max Planck Institute (Tubingen)

Disponible en ligne :

http://www.kyb.tuebingen.mpg.de/bs/people/spider/main.html

Premiers pas :

X = randn(5, 10);Y = [1,1,1,-1,-1]’;d = data(X,Y);a=svm;[tr, a] = train(a,d)

Page 146: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Effet des parametres C et σ

Donnees = realisations de deux gaussiennes bivariees

Script :m = 20; d = 1; s = 1;

x1 = [randn(m,1)*s-d randn(m,1)*s-d];x2 = [randn(m,1)*s+d randn(m,1)*s+d];d = data([x1;x2], [ones(m,1) ; -ones(m,1)]);

a = svm; sigma = 1; a.C = 1;a.child = kernel(’rbf’, sigma);[r a] = train(a,d);plot(a)

Page 147: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Elements de theorie pour les SVM

Page 148: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Formalisme probabiliste pour la classification binaire

Observation: X ∈ Rd (ou X ), loi µ

Label/Classe: Y ∈ {−1,+1}

Fonction de regression :

η(x) = P {Y = 1|X = x}

Echantillon : donnees independantes et de meme loi

Dn = {(X1,Y1), ..., (Xn,Yn)}

Classifieur :

fait une prediction g(X ) ∈ {−1,+1}

Page 149: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Formalisme probabiliste pour la classification binaire

Observation: X ∈ Rd (ou X ), loi µ

Label/Classe: Y ∈ {−1,+1}

Fonction de regression :

η(x) = P {Y = 1|X = x}

Echantillon : donnees independantes et de meme loi

Dn = {(X1,Y1), ..., (Xn,Yn)}

Classifieur :

fait une prediction g(X ) ∈ {−1,+1}

Page 150: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Formalisme probabiliste pour la classification binaire

Observation: X ∈ Rd (ou X ), loi µ

Label/Classe: Y ∈ {−1,+1}

Fonction de regression :

η(x) = P {Y = 1|X = x}

Echantillon : donnees independantes et de meme loi

Dn = {(X1,Y1), ..., (Xn,Yn)}

Classifieur :

fait une prediction g(X ) ∈ {−1,+1}

Page 151: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Formalisme probabiliste pour la classification binaire

Observation: X ∈ Rd (ou X ), loi µ

Label/Classe: Y ∈ {−1,+1}

Fonction de regression :

η(x) = P {Y = 1|X = x}

Echantillon : donnees independantes et de meme loi

Dn = {(X1,Y1), ..., (Xn,Yn)}

Classifieur :

fait une prediction g(X ) ∈ {−1,+1}

Page 152: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Formalisme probabiliste pour la classification binaire

Observation: X ∈ Rd (ou X ), loi µ

Label/Classe: Y ∈ {−1,+1}

Fonction de regression :

η(x) = P {Y = 1|X = x}

Echantillon : donnees independantes et de meme loi

Dn = {(X1,Y1), ..., (Xn,Yn)}

Classifieur :

fait une prediction g(X ) ∈ {−1,+1}

Page 153: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Notion de risque

Une mesure d’erreur :

L(g) = P {Y · g(X ) < 0} = E(I[Y ·g(X )<0]

)

Classifieur et erreur de Bayes :

g∗ = arg ming

L(g) = sgn(η − 1

2

)L∗ = L(g∗)

Critere empirique :

Ln(g) =1

n

n∑i=1

I[Yi ·g(Xi )<0]

Page 154: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Notion de risque

Une mesure d’erreur :

L(g) = P {Y · g(X ) < 0} = E(I[Y ·g(X )<0]

)Classifieur et erreur de Bayes :

g∗ = arg ming

L(g) = sgn(η − 1

2

)L∗ = L(g∗)

Critere empirique :

Ln(g) =1

n

n∑i=1

I[Yi ·g(Xi )<0]

Page 155: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Notion de risque

Une mesure d’erreur :

L(g) = P {Y · g(X ) < 0} = E(I[Y ·g(X )<0]

)Classifieur et erreur de Bayes :

g∗ = arg ming

L(g) = sgn(η − 1

2

)L∗ = L(g∗)

Critere empirique :

Ln(g) =1

n

n∑i=1

I[Yi ·g(Xi )<0]

Page 156: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Minimisation du risque empirique (ERM)

La theorie de Vapnik (’95 → ) a permis de developper des strategiesconsistantes pour la classification de donnees en grande dimension.

Inconvenients de l’ERM

algorithmique : probleme NP-difficile .

controle de la complexite : propriete de Glivenko-Cantelli pour eviterle surapprentissage (overfitting).

Mais :

Les methodes efficaces construisent les estimateurs dans des classesmassives!

Page 157: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Minimisation du risque empirique (ERM)

La theorie de Vapnik (’95 → ) a permis de developper des strategiesconsistantes pour la classification de donnees en grande dimension.

Inconvenients de l’ERM

algorithmique : probleme NP-difficile .

controle de la complexite : propriete de Glivenko-Cantelli pour eviterle surapprentissage (overfitting).

Mais :

Les methodes efficaces construisent les estimateurs dans des classesmassives!

Page 158: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Minimisation du risque empirique (ERM)

La theorie de Vapnik (’95 → ) a permis de developper des strategiesconsistantes pour la classification de donnees en grande dimension.

Inconvenients de l’ERM

algorithmique : probleme NP-difficile .

controle de la complexite : propriete de Glivenko-Cantelli pour eviterle surapprentissage (overfitting).

Mais :

Les methodes efficaces construisent les estimateurs dans des classesmassives!

Page 159: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Minimisation du risque empirique (ERM)

La theorie de Vapnik (’95 → ) a permis de developper des strategiesconsistantes pour la classification de donnees en grande dimension.

Inconvenients de l’ERM

algorithmique : probleme NP-difficile .

controle de la complexite : propriete de Glivenko-Cantelli pour eviterle surapprentissage (overfitting).

Mais :

Les methodes efficaces construisent les estimateurs dans des classesmassives!

Page 160: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithmes efficaces

1 Support Vector Machines - Vapnik (1995)

I Kernel trick : envoyer les donnees dans un espace de Hilbert ou lesdonnees soient (presque) lineairement separables

I Hyperplan a marge maximale : optimization convexe sous contraintesquadratiques

2 Boosting - Freund (1990) - Freund, Schapire (1996)

I on commence avec une classe H de classifieurs simples

I puis on construit iterativement une combinaison lineaire de classifieurssimples qui fait decroıtre l’erreur empirique

”Boosting is the best off-the-shelf classifier in the world” - Breiman, 1996.

Page 161: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithmes efficaces

1 Support Vector Machines - Vapnik (1995)

I Kernel trick : envoyer les donnees dans un espace de Hilbert ou lesdonnees soient (presque) lineairement separables

I Hyperplan a marge maximale : optimization convexe sous contraintesquadratiques

2 Boosting - Freund (1990) - Freund, Schapire (1996)

I on commence avec une classe H de classifieurs simples

I puis on construit iterativement une combinaison lineaire de classifieurssimples qui fait decroıtre l’erreur empirique

”Boosting is the best off-the-shelf classifier in the world” - Breiman, 1996.

Page 162: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithmes efficaces

1 Support Vector Machines - Vapnik (1995)

I Kernel trick : envoyer les donnees dans un espace de Hilbert ou lesdonnees soient (presque) lineairement separables

I Hyperplan a marge maximale : optimization convexe sous contraintesquadratiques

2 Boosting - Freund (1990) - Freund, Schapire (1996)

I on commence avec une classe H de classifieurs simples

I puis on construit iterativement une combinaison lineaire de classifieurssimples qui fait decroıtre l’erreur empirique

”Boosting is the best off-the-shelf classifier in the world” - Breiman, 1996.

Page 163: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithmes efficaces

1 Support Vector Machines - Vapnik (1995)

I Kernel trick : envoyer les donnees dans un espace de Hilbert ou lesdonnees soient (presque) lineairement separables

I Hyperplan a marge maximale : optimization convexe sous contraintesquadratiques

2 Boosting - Freund (1990) - Freund, Schapire (1996)

I on commence avec une classe H de classifieurs simples

I puis on construit iterativement une combinaison lineaire de classifieurssimples qui fait decroıtre l’erreur empirique

”Boosting is the best off-the-shelf classifier in the world” - Breiman, 1996.

Page 164: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithmes efficaces

1 Support Vector Machines - Vapnik (1995)

I Kernel trick : envoyer les donnees dans un espace de Hilbert ou lesdonnees soient (presque) lineairement separables

I Hyperplan a marge maximale : optimization convexe sous contraintesquadratiques

2 Boosting - Freund (1990) - Freund, Schapire (1996)

I on commence avec une classe H de classifieurs simples

I puis on construit iterativement une combinaison lineaire de classifieurssimples qui fait decroıtre l’erreur empirique

”Boosting is the best off-the-shelf classifier in the world” - Breiman, 1996.

Page 165: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithmes efficaces

1 Support Vector Machines - Vapnik (1995)

I Kernel trick : envoyer les donnees dans un espace de Hilbert ou lesdonnees soient (presque) lineairement separables

I Hyperplan a marge maximale : optimization convexe sous contraintesquadratiques

2 Boosting - Freund (1990) - Freund, Schapire (1996)

I on commence avec une classe H de classifieurs simples

I puis on construit iterativement une combinaison lineaire de classifieurssimples qui fait decroıtre l’erreur empirique

”Boosting is the best off-the-shelf classifier in the world” - Breiman, 1996.

Page 166: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithmes efficaces

1 Support Vector Machines - Vapnik (1995)

I Kernel trick : envoyer les donnees dans un espace de Hilbert ou lesdonnees soient (presque) lineairement separables

I Hyperplan a marge maximale : optimization convexe sous contraintesquadratiques

2 Boosting - Freund (1990) - Freund, Schapire (1996)

I on commence avec une classe H de classifieurs simples

I puis on construit iterativement une combinaison lineaire de classifieurssimples qui fait decroıtre l’erreur empirique

”Boosting is the best off-the-shelf classifier in the world” - Breiman, 1996.

Page 167: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Algorithmes efficaces

1 Support Vector Machines - Vapnik (1995)

I Kernel trick : envoyer les donnees dans un espace de Hilbert ou lesdonnees soient (presque) lineairement separables

I Hyperplan a marge maximale : optimization convexe sous contraintesquadratiques

2 Boosting - Freund (1990) - Freund, Schapire (1996)

I on commence avec une classe H de classifieurs simples

I puis on construit iterativement une combinaison lineaire de classifieurssimples qui fait decroıtre l’erreur empirique

”Boosting is the best off-the-shelf classifier in the world” - Breiman, 1996.

Page 168: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Caracteristique commune

Si on fait abstraction:

1 des intuitions geometriques

2 de la dynamique particuliere de chaque algorithme, alors:

Boosting et SVM peuvent s’envisager comme des:

procedures de minimisation d’un risque convexe penalise dans desespaces fonctionnels massifs.

Elles sont caracterisees par

des classes d’estimateurs differentes,

des risques differents,

des penalites differentes.

Page 169: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Caracteristique commune

Si on fait abstraction:

1 des intuitions geometriques

2 de la dynamique particuliere de chaque algorithme, alors:

Boosting et SVM peuvent s’envisager comme des:

procedures de minimisation d’un risque convexe penalise dans desespaces fonctionnels massifs.

Elles sont caracterisees par

des classes d’estimateurs differentes,

des risques differents,

des penalites differentes.

Page 170: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Caracteristique commune

Si on fait abstraction:

1 des intuitions geometriques

2 de la dynamique particuliere de chaque algorithme, alors:

Boosting et SVM peuvent s’envisager comme des:

procedures de minimisation d’un risque convexe penalise dans desespaces fonctionnels massifs.

Elles sont caracterisees par

des classes d’estimateurs differentes,

des risques differents,

des penalites differentes.

Page 171: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Caracteristique commune

Si on fait abstraction:

1 des intuitions geometriques

2 de la dynamique particuliere de chaque algorithme, alors:

Boosting et SVM peuvent s’envisager comme des:

procedures de minimisation d’un risque convexe penalise dans desespaces fonctionnels massifs.

Elles sont caracterisees par

des classes d’estimateurs differentes,

des risques differents,

des penalites differentes.

Page 172: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Caracteristique commune

Si on fait abstraction:

1 des intuitions geometriques

2 de la dynamique particuliere de chaque algorithme, alors:

Boosting et SVM peuvent s’envisager comme des:

procedures de minimisation d’un risque convexe penalise dans desespaces fonctionnels massifs.

Elles sont caracterisees par

des classes d’estimateurs differentes,

des risques differents,

des penalites differentes.

Page 173: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Caracteristique commune

Si on fait abstraction:

1 des intuitions geometriques

2 de la dynamique particuliere de chaque algorithme, alors:

Boosting et SVM peuvent s’envisager comme des:

procedures de minimisation d’un risque convexe penalise dans desespaces fonctionnels massifs.

Elles sont caracterisees par

des classes d’estimateurs differentes,

des risques differents,

des penalites differentes.

Page 174: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Caracteristique commune

Si on fait abstraction:

1 des intuitions geometriques

2 de la dynamique particuliere de chaque algorithme, alors:

Boosting et SVM peuvent s’envisager comme des:

procedures de minimisation d’un risque convexe penalise dans desespaces fonctionnels massifs.

Elles sont caracterisees par

des classes d’estimateurs differentes,

des risques differents,

des penalites differentes.

Page 175: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Classe F d’estimateurs

Support Vector Machines - soit k un noyau positif

F =

{f =

+∞∑i=1

αik(xi , · ) : αi ∈ R, xi ∈ X

}

Boosting - soit G famille de classifieurs simples de VC dimension Vfinie

F =

{f =

+∞∑i=1

wigi : wi ∈ R, gi ∈ G

}

Les deux algorithmes construisent des combinaisons lineaires de fonctions.

Page 176: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Classe F d’estimateurs

Support Vector Machines - soit k un noyau positif

F =

{f =

+∞∑i=1

αik(xi , · ) : αi ∈ R, xi ∈ X

}

Boosting - soit G famille de classifieurs simples de VC dimension Vfinie

F =

{f =

+∞∑i=1

wigi : wi ∈ R, gi ∈ G

}

Les deux algorithmes construisent des combinaisons lineaires de fonctions.

Page 177: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Classe F d’estimateurs

Support Vector Machines - soit k un noyau positif

F =

{f =

+∞∑i=1

αik(xi , · ) : αi ∈ R, xi ∈ X

}

Boosting - soit G famille de classifieurs simples de VC dimension Vfinie

F =

{f =

+∞∑i=1

wigi : wi ∈ R, gi ∈ G

}

Les deux algorithmes construisent des combinaisons lineaires de fonctions.

Page 178: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Classe F d’estimateurs

Support Vector Machines - soit k un noyau positif

F =

{f =

+∞∑i=1

αik(xi , · ) : αi ∈ R, xi ∈ X

}

Boosting - soit G famille de classifieurs simples de VC dimension Vfinie

F =

{f =

+∞∑i=1

wigi : wi ∈ R, gi ∈ G

}

Les deux algorithmes construisent des combinaisons lineaires de fonctions.

Page 179: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Cas des SVM - Retour sur la formulation lagrangienne I

On pose

f (x) =n∑

i=1

αik(xi , x)

‖f ‖F =

√∑i ,j

αiαjk(xi , xj)

Formulation lagrangienne I

minf ∈F

1

2‖f ‖2F + C

n∑i=1

ξi

sous les contraintes:

∀i = 1, . . . , n , ξi ≥ (1− yi · f (xi ))+

Page 180: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Cas des SVM - Retour sur la formulation lagrangienne I

On pose

f (x) =n∑

i=1

αik(xi , x)

‖f ‖F =

√∑i ,j

αiαjk(xi , xj)

Formulation lagrangienne I

minf ∈F

1

2‖f ‖2F + C

n∑i=1

ξi

sous les contraintes:

∀i = 1, . . . , n , ξi ≥ (1− yi · f (xi ))+

Page 181: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interpretation - ”hinge loss”

On pose : ϕ(x) = (1 + x)+ ”hinge loss”

Minimisation d’un risque penalise

minf ∈F

1

2‖f ‖2F + C

n∑i=1

ϕ(−yi f (xi ))

Commentaires:

formulation importante pour la theorie statistique

moins commode pour l’optimisation que la formulation duale

‖f ‖F fournit une mesure de regularite de f

Page 182: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interpretation - ”hinge loss”

On pose : ϕ(x) = (1 + x)+ ”hinge loss”

Minimisation d’un risque penalise

minf ∈F

1

2‖f ‖2F + C

n∑i=1

ϕ(−yi f (xi ))

Commentaires:

formulation importante pour la theorie statistique

moins commode pour l’optimisation que la formulation duale

‖f ‖F fournit une mesure de regularite de f

Page 183: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interpretation - ”hinge loss”

On pose : ϕ(x) = (1 + x)+ ”hinge loss”

Minimisation d’un risque penalise

minf ∈F

1

2‖f ‖2F + C

n∑i=1

ϕ(−yi f (xi ))

Commentaires:

formulation importante pour la theorie statistique

moins commode pour l’optimisation que la formulation duale

‖f ‖F fournit une mesure de regularite de f

Page 184: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interpretation - ”hinge loss”

On pose : ϕ(x) = (1 + x)+ ”hinge loss”

Minimisation d’un risque penalise

minf ∈F

1

2‖f ‖2F + C

n∑i=1

ϕ(−yi f (xi ))

Commentaires:

formulation importante pour la theorie statistique

moins commode pour l’optimisation que la formulation duale

‖f ‖F fournit une mesure de regularite de f

Page 185: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interpretation - ”hinge loss”

On pose : ϕ(x) = (1 + x)+ ”hinge loss”

Minimisation d’un risque penalise

minf ∈F

1

2‖f ‖2F + C

n∑i=1

ϕ(−yi f (xi ))

Commentaires:

formulation importante pour la theorie statistique

moins commode pour l’optimisation que la formulation duale

‖f ‖F fournit une mesure de regularite de f

Page 186: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Cadre general

Fonction de decision :f : X → R

Classifieur :

g(x) = gf (x) = sgn(f (x)) ∈ {−1,+1}

Critere naturel :

L(f ) = P {Y · f (X ) < 0} = E{I[Y ·f (X )<0]

}

Page 187: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Cadre general

Fonction de decision :f : X → R

Classifieur :

g(x) = gf (x) = sgn(f (x)) ∈ {−1,+1}

Critere naturel :

L(f ) = P {Y · f (X ) < 0} = E{I[Y ·f (X )<0]

}

Page 188: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Cadre general

Fonction de decision :f : X → R

Classifieur :

g(x) = gf (x) = sgn(f (x)) ∈ {−1,+1}

Critere naturel :

L(f ) = P {Y · f (X ) < 0} = E{I[Y ·f (X )<0]

}

Page 189: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ϕ-risque

Fonction de perte : ϕ convexe, positive, telle que ϕ(x) ≥ IR+(x)

Critere pratique (ϕ-risque) :

A(f ) = Eϕ(−Yf (X ))

= E [η(X )ϕ(−f (X )) + (1− η(X ))ϕ(f (X ))]

ou η(X ) = P {Y = 1|X = x}

Question : minimiser A revient-il a minimiser L ?

On a seulement que: L(f ) ≤ A(f )...

Page 190: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ϕ-risque

Fonction de perte : ϕ convexe, positive, telle que ϕ(x) ≥ IR+(x)

Critere pratique (ϕ-risque) :

A(f ) = Eϕ(−Yf (X ))

= E [η(X )ϕ(−f (X )) + (1− η(X ))ϕ(f (X ))]

ou η(X ) = P {Y = 1|X = x}

Question : minimiser A revient-il a minimiser L ?

On a seulement que: L(f ) ≤ A(f )...

Page 191: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ϕ-risque

Fonction de perte : ϕ convexe, positive, telle que ϕ(x) ≥ IR+(x)

Critere pratique (ϕ-risque) :

A(f ) = Eϕ(−Yf (X ))

= E [η(X )ϕ(−f (X )) + (1− η(X ))ϕ(f (X ))]

ou η(X ) = P {Y = 1|X = x}

Question : minimiser A revient-il a minimiser L ?

On a seulement que: L(f ) ≤ A(f )...

Page 192: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ϕ-risque

Fonction de perte : ϕ convexe, positive, telle que ϕ(x) ≥ IR+(x)

Critere pratique (ϕ-risque) :

A(f ) = Eϕ(−Yf (X ))

= E [η(X )ϕ(−f (X )) + (1− η(X ))ϕ(f (X ))]

ou η(X ) = P {Y = 1|X = x}

Question : minimiser A revient-il a minimiser L ?

On a seulement que: L(f ) ≤ A(f )...

Page 193: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ϕ-risque

Fonction de perte : ϕ convexe, positive, telle que ϕ(x) ≥ IR+(x)

Critere pratique (ϕ-risque) :

A(f ) = Eϕ(−Yf (X ))

= E [η(X )ϕ(−f (X )) + (1− η(X ))ϕ(f (X ))]

ou η(X ) = P {Y = 1|X = x}

Question : minimiser A revient-il a minimiser L ?

On a seulement que: L(f ) ≤ A(f )...

Page 194: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Fonctions de perte

Page 195: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Fonctions cibles

Minimiseur de la fonctionnelle A note f ∗

Minimum du ϕ-risque : A∗ = minf A(f ) = A(f ∗)

On peut montrer que sgn(f ∗) = g∗ le classifieur optimal

On peut egalement montrer que l’exces de risque en erreur declassification L(f )− L∗ est controle par A(f )− A∗

Exemples:

I perte exponentielle (boosting)

f ∗(x) =1

2log

(η(x)

1− η(x)

)I ”hinge loss” (SVM)

f ∗(x) = sgn(η(x)− 1/2) = g∗(x)

Page 196: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Fonctions cibles

Minimiseur de la fonctionnelle A note f ∗

Minimum du ϕ-risque : A∗ = minf A(f ) = A(f ∗)

On peut montrer que sgn(f ∗) = g∗ le classifieur optimal

On peut egalement montrer que l’exces de risque en erreur declassification L(f )− L∗ est controle par A(f )− A∗

Exemples:

I perte exponentielle (boosting)

f ∗(x) =1

2log

(η(x)

1− η(x)

)I ”hinge loss” (SVM)

f ∗(x) = sgn(η(x)− 1/2) = g∗(x)

Page 197: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Fonctions cibles

Minimiseur de la fonctionnelle A note f ∗

Minimum du ϕ-risque : A∗ = minf A(f ) = A(f ∗)

On peut montrer que sgn(f ∗) = g∗ le classifieur optimal

On peut egalement montrer que l’exces de risque en erreur declassification L(f )− L∗ est controle par A(f )− A∗

Exemples:

I perte exponentielle (boosting)

f ∗(x) =1

2log

(η(x)

1− η(x)

)I ”hinge loss” (SVM)

f ∗(x) = sgn(η(x)− 1/2) = g∗(x)

Page 198: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Fonctions cibles

Minimiseur de la fonctionnelle A note f ∗

Minimum du ϕ-risque : A∗ = minf A(f ) = A(f ∗)

On peut montrer que sgn(f ∗) = g∗ le classifieur optimal

On peut egalement montrer que l’exces de risque en erreur declassification L(f )− L∗ est controle par A(f )− A∗

Exemples:

I perte exponentielle (boosting)

f ∗(x) =1

2log

(η(x)

1− η(x)

)I ”hinge loss” (SVM)

f ∗(x) = sgn(η(x)− 1/2) = g∗(x)

Page 199: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Fonctions cibles

Minimiseur de la fonctionnelle A note f ∗

Minimum du ϕ-risque : A∗ = minf A(f ) = A(f ∗)

On peut montrer que sgn(f ∗) = g∗ le classifieur optimal

On peut egalement montrer que l’exces de risque en erreur declassification L(f )− L∗ est controle par A(f )− A∗

Exemples:

I perte exponentielle (boosting)

f ∗(x) =1

2log

(η(x)

1− η(x)

)I ”hinge loss” (SVM)

f ∗(x) = sgn(η(x)− 1/2) = g∗(x)

Page 200: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Fonctions cibles

Minimiseur de la fonctionnelle A note f ∗

Minimum du ϕ-risque : A∗ = minf A(f ) = A(f ∗)

On peut montrer que sgn(f ∗) = g∗ le classifieur optimal

On peut egalement montrer que l’exces de risque en erreur declassification L(f )− L∗ est controle par A(f )− A∗

Exemples:I perte exponentielle (boosting)

f ∗(x) =1

2log

(η(x)

1− η(x)

)

I ”hinge loss” (SVM)

f ∗(x) = sgn(η(x)− 1/2) = g∗(x)

Page 201: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Fonctions cibles

Minimiseur de la fonctionnelle A note f ∗

Minimum du ϕ-risque : A∗ = minf A(f ) = A(f ∗)

On peut montrer que sgn(f ∗) = g∗ le classifieur optimal

On peut egalement montrer que l’exces de risque en erreur declassification L(f )− L∗ est controle par A(f )− A∗

Exemples:I perte exponentielle (boosting)

f ∗(x) =1

2log

(η(x)

1− η(x)

)I ”hinge loss” (SVM)

f ∗(x) = sgn(η(x)− 1/2) = g∗(x)

Page 202: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Fonctions cibles

Page 203: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Et apres?

Jusqu’ a present, on a mis en evidence :

1 les fonctions de decision candidates sont des combinaisons lineaires defonctions

2 les criteres de risque sont convexifies

Quelle theorie pour le controle de la complexite ?

Page 204: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Et apres?

Jusqu’ a present, on a mis en evidence :

1 les fonctions de decision candidates sont des combinaisons lineaires defonctions

2 les criteres de risque sont convexifies

Quelle theorie pour le controle de la complexite ?

Page 205: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Et apres?

Jusqu’ a present, on a mis en evidence :

1 les fonctions de decision candidates sont des combinaisons lineaires defonctions

2 les criteres de risque sont convexifies

Quelle theorie pour le controle de la complexite ?

Page 206: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Et apres?

Jusqu’ a present, on a mis en evidence :

1 les fonctions de decision candidates sont des combinaisons lineaires defonctions

2 les criteres de risque sont convexifies

Quelle theorie pour le controle de la complexite ?

Page 207: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Overfitting

Page 208: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Theorie de la complexite de Vapnik-Chervonenkis

Notion de VC dimension

I Mesure de complexite de nature combinatoireI Capacite d’une famille d’ensembles a separer un jeu de points

Exemple : H famille de demi-espaces sur Rm, VCdim(H) = m + 1

Probleme pour interpreter les performances des SVM (m =∞)

Idem avec le boosting...

Les algorithmes performants ne sont pas rigoureusement expliques par latheorie ”standard” de Vapnik-Chervonenkis.

Page 209: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Theorie de la complexite de Vapnik-Chervonenkis

Notion de VC dimension

I Mesure de complexite de nature combinatoire

I Capacite d’une famille d’ensembles a separer un jeu de points

Exemple : H famille de demi-espaces sur Rm, VCdim(H) = m + 1

Probleme pour interpreter les performances des SVM (m =∞)

Idem avec le boosting...

Les algorithmes performants ne sont pas rigoureusement expliques par latheorie ”standard” de Vapnik-Chervonenkis.

Page 210: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Theorie de la complexite de Vapnik-Chervonenkis

Notion de VC dimension

I Mesure de complexite de nature combinatoireI Capacite d’une famille d’ensembles a separer un jeu de points

Exemple : H famille de demi-espaces sur Rm, VCdim(H) = m + 1

Probleme pour interpreter les performances des SVM (m =∞)

Idem avec le boosting...

Les algorithmes performants ne sont pas rigoureusement expliques par latheorie ”standard” de Vapnik-Chervonenkis.

Page 211: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Theorie de la complexite de Vapnik-Chervonenkis

Notion de VC dimension

I Mesure de complexite de nature combinatoireI Capacite d’une famille d’ensembles a separer un jeu de points

Exemple : H famille de demi-espaces sur Rm, VCdim(H) = m + 1

Probleme pour interpreter les performances des SVM (m =∞)

Idem avec le boosting...

Les algorithmes performants ne sont pas rigoureusement expliques par latheorie ”standard” de Vapnik-Chervonenkis.

Page 212: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Theorie de la complexite de Vapnik-Chervonenkis

Notion de VC dimension

I Mesure de complexite de nature combinatoireI Capacite d’une famille d’ensembles a separer un jeu de points

Exemple : H famille de demi-espaces sur Rm, VCdim(H) = m + 1

Probleme pour interpreter les performances des SVM (m =∞)

Idem avec le boosting...

Les algorithmes performants ne sont pas rigoureusement expliques par latheorie ”standard” de Vapnik-Chervonenkis.

Page 213: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Theorie de la complexite de Vapnik-Chervonenkis

Notion de VC dimension

I Mesure de complexite de nature combinatoireI Capacite d’une famille d’ensembles a separer un jeu de points

Exemple : H famille de demi-espaces sur Rm, VCdim(H) = m + 1

Probleme pour interpreter les performances des SVM (m =∞)

Idem avec le boosting...

Les algorithmes performants ne sont pas rigoureusement expliques par latheorie ”standard” de Vapnik-Chervonenkis.

Page 214: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Theorie de la complexite de Vapnik-Chervonenkis

Notion de VC dimension

I Mesure de complexite de nature combinatoireI Capacite d’une famille d’ensembles a separer un jeu de points

Exemple : H famille de demi-espaces sur Rm, VCdim(H) = m + 1

Probleme pour interpreter les performances des SVM (m =∞)

Idem avec le boosting...

Les algorithmes performants ne sont pas rigoureusement expliques par latheorie ”standard” de Vapnik-Chervonenkis.

Page 215: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Theorie de la complexite de Vapnik-Chervonenkis

Notion de VC dimension

I Mesure de complexite de nature combinatoireI Capacite d’une famille d’ensembles a separer un jeu de points

Exemple : H famille de demi-espaces sur Rm, VCdim(H) = m + 1

Probleme pour interpreter les performances des SVM (m =∞)

Idem avec le boosting...

Les algorithmes performants ne sont pas rigoureusement expliques par latheorie ”standard” de Vapnik-Chervonenkis.

Page 216: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Autre mesure de complexite

F une famille de fonctions de decision et Dn un jeu de pointsX1, . . . ,Xn

Complexite de Rademacher

Soient ε1, . . . , εn variables de signes +1/-1 i.i.d.

Rn(F) = Eε supf ∈F

∣∣∣∣∣1nn∑

i=1

εi f (Xi )

∣∣∣∣∣Cas des familles F = {f (x) =

∑αik(xi , x) :

∑i ,j αiαjk(xi , xj) ≤ B2}

Resultat:

Rn(F) ≤ B

n

√√√√ n∑i=1

k(Xi ,Xi )

Page 217: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Autre mesure de complexite

F une famille de fonctions de decision et Dn un jeu de pointsX1, . . . ,Xn

Complexite de Rademacher

Soient ε1, . . . , εn variables de signes +1/-1 i.i.d.

Rn(F) = Eε supf ∈F

∣∣∣∣∣1nn∑

i=1

εi f (Xi )

∣∣∣∣∣

Cas des familles F = {f (x) =∑αik(xi , x) :

∑i ,j αiαjk(xi , xj) ≤ B2}

Resultat:

Rn(F) ≤ B

n

√√√√ n∑i=1

k(Xi ,Xi )

Page 218: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Autre mesure de complexite

F une famille de fonctions de decision et Dn un jeu de pointsX1, . . . ,Xn

Complexite de Rademacher

Soient ε1, . . . , εn variables de signes +1/-1 i.i.d.

Rn(F) = Eε supf ∈F

∣∣∣∣∣1nn∑

i=1

εi f (Xi )

∣∣∣∣∣Cas des familles F = {f (x) =

∑αik(xi , x) :

∑i ,j αiαjk(xi , xj) ≤ B2}

Resultat:

Rn(F) ≤ B

n

√√√√ n∑i=1

k(Xi ,Xi )

Page 219: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Exemples II - donnees reelles

Page 220: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Validation croisee

Probleme : estimation de l’erreur en generalisation P {Y · f (X ) < 0}

Une solution : on reserve une partie des donnees initiales pourconstituer une base de test obtenue par sous-echantillonnagealeatoirement

Une autre approche : la validation croisee

I on coupe l’echantillon D (taille n) en p sous-echantillons D1, . . . ,Dp detaille n/p

I on apprend sur D \ Di de taille n − n/pI on teste sur Di

I on fait la moyenne des erreursI en general p = 10

Page 221: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Validation croisee

Probleme : estimation de l’erreur en generalisation P {Y · f (X ) < 0}

Une solution : on reserve une partie des donnees initiales pourconstituer une base de test obtenue par sous-echantillonnagealeatoirement

Une autre approche : la validation croisee

I on coupe l’echantillon D (taille n) en p sous-echantillons D1, . . . ,Dp detaille n/p

I on apprend sur D \ Di de taille n − n/pI on teste sur Di

I on fait la moyenne des erreursI en general p = 10

Page 222: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Validation croisee

Probleme : estimation de l’erreur en generalisation P {Y · f (X ) < 0}

Une solution : on reserve une partie des donnees initiales pourconstituer une base de test obtenue par sous-echantillonnagealeatoirement

Une autre approche : la validation croisee

I on coupe l’echantillon D (taille n) en p sous-echantillons D1, . . . ,Dp detaille n/p

I on apprend sur D \ Di de taille n − n/pI on teste sur Di

I on fait la moyenne des erreursI en general p = 10

Page 223: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Validation croisee

Probleme : estimation de l’erreur en generalisation P {Y · f (X ) < 0}

Une solution : on reserve une partie des donnees initiales pourconstituer une base de test obtenue par sous-echantillonnagealeatoirement

Une autre approche : la validation croisee

I on coupe l’echantillon D (taille n) en p sous-echantillons D1, . . . ,Dp detaille n/p

I on apprend sur D \ Di de taille n − n/pI on teste sur Di

I on fait la moyenne des erreursI en general p = 10

Page 224: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Validation croisee

Probleme : estimation de l’erreur en generalisation P {Y · f (X ) < 0}

Une solution : on reserve une partie des donnees initiales pourconstituer une base de test obtenue par sous-echantillonnagealeatoirement

Une autre approche : la validation croisee

I on coupe l’echantillon D (taille n) en p sous-echantillons D1, . . . ,Dp detaille n/p

I on apprend sur D \ Di de taille n − n/p

I on teste sur Di

I on fait la moyenne des erreursI en general p = 10

Page 225: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Validation croisee

Probleme : estimation de l’erreur en generalisation P {Y · f (X ) < 0}

Une solution : on reserve une partie des donnees initiales pourconstituer une base de test obtenue par sous-echantillonnagealeatoirement

Une autre approche : la validation croisee

I on coupe l’echantillon D (taille n) en p sous-echantillons D1, . . . ,Dp detaille n/p

I on apprend sur D \ Di de taille n − n/pI on teste sur Di

I on fait la moyenne des erreursI en general p = 10

Page 226: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Validation croisee

Probleme : estimation de l’erreur en generalisation P {Y · f (X ) < 0}

Une solution : on reserve une partie des donnees initiales pourconstituer une base de test obtenue par sous-echantillonnagealeatoirement

Une autre approche : la validation croisee

I on coupe l’echantillon D (taille n) en p sous-echantillons D1, . . . ,Dp detaille n/p

I on apprend sur D \ Di de taille n − n/pI on teste sur Di

I on fait la moyenne des erreurs

I en general p = 10

Page 227: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Validation croisee

Probleme : estimation de l’erreur en generalisation P {Y · f (X ) < 0}

Une solution : on reserve une partie des donnees initiales pourconstituer une base de test obtenue par sous-echantillonnagealeatoirement

Une autre approche : la validation croisee

I on coupe l’echantillon D (taille n) en p sous-echantillons D1, . . . ,Dp detaille n/p

I on apprend sur D \ Di de taille n − n/pI on teste sur Di

I on fait la moyenne des erreursI en general p = 10

Page 228: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Erreur d’apprentissage vs. erreur de test

Script :

load spam.dataN = size(spam,1); ncol = size(spam, 2); d = ncol-1;m = floor(N*.1); n = N-m;ind = randperm(N);X = spam(ind, 1:d);Y = 2*spam(ind,ncol)-1;d1 = data(X(1:n, :), Y(1:n));d2 = data(X((n+1):N, :), Y((n+1):N));a=svm;[tr a] = train(a,d1);r = test(a, d2);loss(tr)loss(r)

Page 229: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Utiliser la validation croisee

Il faut remplacer:

a=svm;

par

s=svm;a=cv(s, ’folds=10’);

On recupere l’erreur correspondante avec :

tmp = tmp.Y

Page 230: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Noyaux positifs

Page 231: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Definition

Soit X l’espace ou vivent les observations.

Noyau positif

Une fonction k : X × X → R est un noyau positif si et seulement si

1 k est symetrique: k(x , x ′) = k(x ′, x) , ∀x , x ′ ∈ X2 k est positive:

n∑i=1

n∑j=1

cicjk(xi , xj) ≥ 0, ∀ci ∈ R, ∀xi ∈ X , ∀n ≥ 1

Page 232: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Un theoreme d’analyse

Theoreme de Mercer

Pour tout noyau positif k sur X il existe un espace de Hilbert H et uneapplication Φ tels que:

k(x , x ′) =< Φ(x),Φ(x ′) >, ∀x , x ′ ∈ X

ou < , > represente le produit scalaire sur H.

Page 233: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Commentaires

Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ

En pratique:

I H est un espace de grande dimensionI Φ est une application non-lineaire

H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques

L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!

Page 234: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Commentaires

Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ

En pratique:

I H est un espace de grande dimensionI Φ est une application non-lineaire

H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques

L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!

Page 235: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Commentaires

Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ

En pratique:I H est un espace de grande dimension

I Φ est une application non-lineaire

H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques

L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!

Page 236: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Commentaires

Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ

En pratique:I H est un espace de grande dimensionI Φ est une application non-lineaire

H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques

L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!

Page 237: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Commentaires

Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ

En pratique:I H est un espace de grande dimensionI Φ est une application non-lineaire

H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques

L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!

Page 238: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Commentaires

Le theoreme de Mercer est non constructif: il ne fournit ni H, ni Φ

En pratique:I H est un espace de grande dimensionI Φ est une application non-lineaire

H est un espace de representation des donnees, connu sous le nom de”feature space” ou espace de caracteristiques

L’astuce du noyau consiste a faire l’impasse sur H et Φ si on saitqu’ils existent!

Page 239: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Distances images

Norme euclidienne sur Rm: ∀u ∈ Rm, ‖u‖ =√< u, u > ou < , >

produit scalaire sur Rm

Distance euclidienne:d(u, v) = ‖u − v‖ =

√< u, u > + < v , v > −2 < u, v >

Transformation non-lineaire : Φ : Rd → Rm avec m > d

Noyau: k(x , x ′) =< Φ(x),Φ(x ′) >

Distance image:

dΦ(x , x ′) = ‖Φ(x)− Φ(x ′)‖ =√

k(x , x) + k(x ′, x ′)− 2k(x , x ′)

⇒ la distance induite par Φ ne fait intervenir que le noyau

Page 240: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Distances images

Norme euclidienne sur Rm: ∀u ∈ Rm, ‖u‖ =√< u, u > ou < , >

produit scalaire sur Rm

Distance euclidienne:d(u, v) = ‖u − v‖ =

√< u, u > + < v , v > −2 < u, v >

Transformation non-lineaire : Φ : Rd → Rm avec m > d

Noyau: k(x , x ′) =< Φ(x),Φ(x ′) >

Distance image:

dΦ(x , x ′) = ‖Φ(x)− Φ(x ′)‖ =√

k(x , x) + k(x ′, x ′)− 2k(x , x ′)

⇒ la distance induite par Φ ne fait intervenir que le noyau

Page 241: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Distances images

Norme euclidienne sur Rm: ∀u ∈ Rm, ‖u‖ =√< u, u > ou < , >

produit scalaire sur Rm

Distance euclidienne:d(u, v) = ‖u − v‖ =

√< u, u > + < v , v > −2 < u, v >

Transformation non-lineaire : Φ : Rd → Rm avec m > d

Noyau: k(x , x ′) =< Φ(x),Φ(x ′) >

Distance image:

dΦ(x , x ′) = ‖Φ(x)− Φ(x ′)‖ =√

k(x , x) + k(x ′, x ′)− 2k(x , x ′)

⇒ la distance induite par Φ ne fait intervenir que le noyau

Page 242: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Distances images

Norme euclidienne sur Rm: ∀u ∈ Rm, ‖u‖ =√< u, u > ou < , >

produit scalaire sur Rm

Distance euclidienne:d(u, v) = ‖u − v‖ =

√< u, u > + < v , v > −2 < u, v >

Transformation non-lineaire : Φ : Rd → Rm avec m > d

Noyau: k(x , x ′) =< Φ(x),Φ(x ′) >

Distance image:

dΦ(x , x ′) = ‖Φ(x)− Φ(x ′)‖ =√

k(x , x) + k(x ′, x ′)− 2k(x , x ′)

⇒ la distance induite par Φ ne fait intervenir que le noyau

Page 243: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Distances images

Norme euclidienne sur Rm: ∀u ∈ Rm, ‖u‖ =√< u, u > ou < , >

produit scalaire sur Rm

Distance euclidienne:d(u, v) = ‖u − v‖ =

√< u, u > + < v , v > −2 < u, v >

Transformation non-lineaire : Φ : Rd → Rm avec m > d

Noyau: k(x , x ′) =< Φ(x),Φ(x ′) >

Distance image:

dΦ(x , x ′) = ‖Φ(x)− Φ(x ′)‖ =√

k(x , x) + k(x ′, x ′)− 2k(x , x ′)

⇒ la distance induite par Φ ne fait intervenir que le noyau

Page 244: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interet pour la classification

Aucune complication algorithmique en remplacant le produit scalairepar une autre mesure de similarite

Transformer un probleme initialement non-lineaire en un problemelineaire en envoyant les donnees dans un espace plus grand

Exemple

Soit f (x , y) = ax2 + bx + c − y = 0 une surface de decision polynomiale(parabole dans R2).

Role cle de la transformation:

Φ : R2 → R4

x 7→(x2, x , 1, y

)T

Page 245: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interet pour la classification

Aucune complication algorithmique en remplacant le produit scalairepar une autre mesure de similarite

Transformer un probleme initialement non-lineaire en un problemelineaire en envoyant les donnees dans un espace plus grand

Exemple

Soit f (x , y) = ax2 + bx + c − y = 0 une surface de decision polynomiale(parabole dans R2).

Role cle de la transformation:

Φ : R2 → R4

x 7→(x2, x , 1, y

)T

Page 246: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interet pour la classification

Aucune complication algorithmique en remplacant le produit scalairepar une autre mesure de similarite

Transformer un probleme initialement non-lineaire en un problemelineaire en envoyant les donnees dans un espace plus grand

Exemple

Soit f (x , y) = ax2 + bx + c − y = 0 une surface de decision polynomiale(parabole dans R2).

Role cle de la transformation:

Φ : R2 → R4

x 7→(x2, x , 1, y

)T

Page 247: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interet pour la classification

Aucune complication algorithmique en remplacant le produit scalairepar une autre mesure de similarite

Transformer un probleme initialement non-lineaire en un problemelineaire en envoyant les donnees dans un espace plus grand

Exemple

Soit f (x , y) = ax2 + bx + c − y = 0 une surface de decision polynomiale(parabole dans R2).

Role cle de la transformation:

Φ : R2 → R4

x 7→(x2, x , 1, y

)T

Page 248: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Interet pour la classification

Aucune complication algorithmique en remplacant le produit scalairepar une autre mesure de similarite

Transformer un probleme initialement non-lineaire en un problemelineaire en envoyant les donnees dans un espace plus grand

Exemple

Soit f (x , y) = ax2 + bx + c − y = 0 une surface de decision polynomiale(parabole dans R2).

Role cle de la transformation:

Φ : R2 → R4

x 7→(x2, x , 1, y

)T

Page 249: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Du non-lineaire au lineaire

Exemple (suite)

On peut ecrire:

g(x2, x , 1, y) = ax2 + bx + c − y = 0

ou g(u, v ,w , y) = au + bv + cw − y .

L’equation g(u, v ,w , y) = 0 definit une surface de decision lineaire dansR4.

Un probleme non-lineaire dans un certain espace peut parfois se formulercomme un probleme lineaire dans un espace plus grand.

Page 250: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Du non-lineaire au lineaire

Exemple (suite)

On peut ecrire:

g(x2, x , 1, y) = ax2 + bx + c − y = 0

ou g(u, v ,w , y) = au + bv + cw − y .

L’equation g(u, v ,w , y) = 0 definit une surface de decision lineaire dansR4.

Un probleme non-lineaire dans un certain espace peut parfois se formulercomme un probleme lineaire dans un espace plus grand.

Page 251: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Du non-lineaire au lineaire

Page 252: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP a noyau

Page 253: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP classique

On considere un nuage de points x1, . . . , xn centres en l’origine.

Buts de l’ACP

methode de visualisation des donnees

reduction de la dimension effective des donnees

L’ACP consiste a identifier les composantes principales de l’echantillonconstituees par

1 la meilleure direction de projection du nuage de pointsi.e. celle de variance maximale

2 puis, la meilleure direction de projection orthogonale a la premiere

3 et, ainsi de suite, jusqu’a la n-ieme

Page 254: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP classique

On considere un nuage de points x1, . . . , xn centres en l’origine.

Buts de l’ACP

methode de visualisation des donnees

reduction de la dimension effective des donnees

L’ACP consiste a identifier les composantes principales de l’echantillonconstituees par

1 la meilleure direction de projection du nuage de pointsi.e. celle de variance maximale

2 puis, la meilleure direction de projection orthogonale a la premiere

3 et, ainsi de suite, jusqu’a la n-ieme

Page 255: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP classique

On considere un nuage de points x1, . . . , xn centres en l’origine.

Buts de l’ACP

methode de visualisation des donnees

reduction de la dimension effective des donnees

L’ACP consiste a identifier les composantes principales de l’echantillonconstituees par

1 la meilleure direction de projection du nuage de pointsi.e. celle de variance maximale

2 puis, la meilleure direction de projection orthogonale a la premiere

3 et, ainsi de suite, jusqu’a la n-ieme

Page 256: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP classique

On considere un nuage de points x1, . . . , xn centres en l’origine.

Buts de l’ACP

methode de visualisation des donnees

reduction de la dimension effective des donnees

L’ACP consiste a identifier les composantes principales de l’echantillonconstituees par

1 la meilleure direction de projection du nuage de pointsi.e. celle de variance maximale

2 puis, la meilleure direction de projection orthogonale a la premiere

3 et, ainsi de suite, jusqu’a la n-ieme

Page 257: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP classique

On considere un nuage de points x1, . . . , xn centres en l’origine.

Buts de l’ACP

methode de visualisation des donnees

reduction de la dimension effective des donnees

L’ACP consiste a identifier les composantes principales de l’echantillonconstituees par

1 la meilleure direction de projection du nuage de pointsi.e. celle de variance maximale

2 puis, la meilleure direction de projection orthogonale a la premiere

3 et, ainsi de suite, jusqu’a la n-ieme

Page 258: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP

Page 259: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP (suite)

Projection orthogonale d’un vecteur x sur la direction w ∈ Rd :

pw (x) =< x ,w >

‖w‖

Variance empirique du nuage de points selon la direction w :

V(pw ) =1

n

n∑i=1

< xi ,w >2

‖w‖2

Matrice de covariance empirique Σ = 1n

∑ni=1 xi xT

i

On a donc :

V(pw ) =wT Σw

‖w‖2

Page 260: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP (suite)

Projection orthogonale d’un vecteur x sur la direction w ∈ Rd :

pw (x) =< x ,w >

‖w‖

Variance empirique du nuage de points selon la direction w :

V(pw ) =1

n

n∑i=1

< xi ,w >2

‖w‖2

Matrice de covariance empirique Σ = 1n

∑ni=1 xi xT

i

On a donc :

V(pw ) =wT Σw

‖w‖2

Page 261: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP (suite)

Projection orthogonale d’un vecteur x sur la direction w ∈ Rd :

pw (x) =< x ,w >

‖w‖

Variance empirique du nuage de points selon la direction w :

V(pw ) =1

n

n∑i=1

< xi ,w >2

‖w‖2

Matrice de covariance empirique Σ = 1n

∑ni=1 xi xT

i

On a donc :

V(pw ) =wT Σw

‖w‖2

Page 262: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP (suite)

Projection orthogonale d’un vecteur x sur la direction w ∈ Rd :

pw (x) =< x ,w >

‖w‖

Variance empirique du nuage de points selon la direction w :

V(pw ) =1

n

n∑i=1

< xi ,w >2

‖w‖2

Matrice de covariance empirique Σ = 1n

∑ni=1 xi xT

i

On a donc :

V(pw ) =wT Σw

‖w‖2

Page 263: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme d’optimisation

Premiere composante principale

arg maxw

V(pw ) =wT Σw

‖w‖2

Solution

Les composantes principales sont les vecteurs propres de la Σ ranges selonla decroissance des valeurs propres correspondantes.

Remarque : la matrice Σ est symetrique reelle donc diagonalisable dansune base orthonormee.

Page 264: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme d’optimisation

Premiere composante principale

arg maxw

V(pw ) =wT Σw

‖w‖2

Solution

Les composantes principales sont les vecteurs propres de la Σ ranges selonla decroissance des valeurs propres correspondantes.

Remarque : la matrice Σ est symetrique reelle donc diagonalisable dansune base orthonormee.

Page 265: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme d’optimisation

Premiere composante principale

arg maxw

V(pw ) =wT Σw

‖w‖2

Solution

Les composantes principales sont les vecteurs propres de la Σ ranges selonla decroissance des valeurs propres correspondantes.

Remarque : la matrice Σ est symetrique reelle donc diagonalisable dansune base orthonormee.

Page 266: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP (suite)On cherche un vecteur v et un reel λ tels que:

Σv = λv

Or, on a :

Σv =1

n

n∑i=1

< xi , v > xi

D’ou:

v =n∑

i=1

(< xi , v >

)xi =

n∑i=1

αixi

On utilisexTj Σv = λ < xj , v >, ∀j

et on y substitue les expressions de Σ et v :

1

n

n∑i=1

αi

⟨xj ,

n∑k=1

< xk , xi > xk

⟩= λ

n∑i=1

αi < xj , xi >

Page 267: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP (suite)On cherche un vecteur v et un reel λ tels que:

Σv = λv

Or, on a :

Σv =1

n

n∑i=1

< xi , v > xi

D’ou:

v =n∑

i=1

(< xi , v >

)xi =

n∑i=1

αixi

On utilisexTj Σv = λ < xj , v >, ∀j

et on y substitue les expressions de Σ et v :

1

n

n∑i=1

αi

⟨xj ,

n∑k=1

< xk , xi > xk

⟩= λ

n∑i=1

αi < xj , xi >

Page 268: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP (suite)

On note K = (< xi , xj >)i ,j la matrice de Gram

On peut ecrire alors le systeme:

K 2α = nλKα

Pour resoudre en α, on resout donc le probleme aux elements propres

Kα = nλα

Page 269: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP (suite)

On note K = (< xi , xj >)i ,j la matrice de Gram

On peut ecrire alors le systeme:

K 2α = nλKα

Pour resoudre en α, on resout donc le probleme aux elements propres

Kα = nλα

Page 270: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP (suite)

On note K = (< xi , xj >)i ,j la matrice de Gram

On peut ecrire alors le systeme:

K 2α = nλKα

Pour resoudre en α, on resout donc le probleme aux elements propres

Kα = nλα

Page 271: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Defauts de l’ACP classique

elle est adaptee surtout au cas de realisations de gaussiennesmultivariees

I en general, la non-correlation n’implique pas l’independance desdirections principales

I alternative : Analyse en Composantes Independantes (plutot quePrincipales)

elle est adaptee aux structures lineaires

I les nuages de points ne sont pas tous ellipsoidaux!!I alternative : Kernel PCA

Page 272: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Defauts de l’ACP classique

elle est adaptee surtout au cas de realisations de gaussiennesmultivariees

I en general, la non-correlation n’implique pas l’independance desdirections principales

I alternative : Analyse en Composantes Independantes (plutot quePrincipales)

elle est adaptee aux structures lineaires

I les nuages de points ne sont pas tous ellipsoidaux!!I alternative : Kernel PCA

Page 273: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Defauts de l’ACP classique

elle est adaptee surtout au cas de realisations de gaussiennesmultivariees

I en general, la non-correlation n’implique pas l’independance desdirections principales

I alternative : Analyse en Composantes Independantes (plutot quePrincipales)

elle est adaptee aux structures lineaires

I les nuages de points ne sont pas tous ellipsoidaux!!I alternative : Kernel PCA

Page 274: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Defauts de l’ACP classique

elle est adaptee surtout au cas de realisations de gaussiennesmultivariees

I en general, la non-correlation n’implique pas l’independance desdirections principales

I alternative : Analyse en Composantes Independantes (plutot quePrincipales)

elle est adaptee aux structures lineaires

I les nuages de points ne sont pas tous ellipsoidaux!!I alternative : Kernel PCA

Page 275: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Defauts de l’ACP classique

elle est adaptee surtout au cas de realisations de gaussiennesmultivariees

I en general, la non-correlation n’implique pas l’independance desdirections principales

I alternative : Analyse en Composantes Independantes (plutot quePrincipales)

elle est adaptee aux structures lineairesI les nuages de points ne sont pas tous ellipsoidaux!!

I alternative : Kernel PCA

Page 276: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Defauts de l’ACP classique

elle est adaptee surtout au cas de realisations de gaussiennesmultivariees

I en general, la non-correlation n’implique pas l’independance desdirections principales

I alternative : Analyse en Composantes Independantes (plutot quePrincipales)

elle est adaptee aux structures lineairesI les nuages de points ne sont pas tous ellipsoidaux!!I alternative : Kernel PCA

Page 277: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP a noyau

On applique une transformation Φ qui envoie le nuage de points Xdans un espace ou la structure est lineaire

La matrice de covariance de Φ(X ) = (Φ(x1), . . . ,Φ(xn))T est alors

Σ =1

n

n∑i=1

Φ(xi )Φ(xi )T

Astuce du noyau : K =(k(xi , xj)

)i ,j

=(Φ(xi )

T Φ(xj))i ,j

Page 278: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP a noyau

On applique une transformation Φ qui envoie le nuage de points Xdans un espace ou la structure est lineaire

La matrice de covariance de Φ(X ) = (Φ(x1), . . . ,Φ(xn))T est alors

Σ =1

n

n∑i=1

Φ(xi )Φ(xi )T

Astuce du noyau : K =(k(xi , xj)

)i ,j

=(Φ(xi )

T Φ(xj))i ,j

Page 279: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP a noyau

On applique une transformation Φ qui envoie le nuage de points Xdans un espace ou la structure est lineaire

La matrice de covariance de Φ(X ) = (Φ(x1), . . . ,Φ(xn))T est alors

Σ =1

n

n∑i=1

Φ(xi )Φ(xi )T

Astuce du noyau : K =(k(xi , xj)

)i ,j

=(Φ(xi )

T Φ(xj))i ,j

Page 280: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP a noyau (suite)

”Directions” principales de la forme:

pi (x) =n∑

j=1

αi ,jk(xj , x)

le vecteur αi = (αi ,1, . . . , αi ,n) est solution du problemed’optimisation:

maxα

αTK 2α

αTKα

sous les contraintes: αTi Kαj pour j = 1, . . . , i − 1

on resout le probleme aux elements propres:

Kα = nλα

Page 281: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP a noyau (suite)

”Directions” principales de la forme:

pi (x) =n∑

j=1

αi ,jk(xj , x)

le vecteur αi = (αi ,1, . . . , αi ,n) est solution du problemed’optimisation:

maxα

αTK 2α

αTKα

sous les contraintes: αTi Kαj pour j = 1, . . . , i − 1

on resout le probleme aux elements propres:

Kα = nλα

Page 282: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

ACP a noyau (suite)

”Directions” principales de la forme:

pi (x) =n∑

j=1

αi ,jk(xj , x)

le vecteur αi = (αi ,1, . . . , αi ,n) est solution du problemed’optimisation:

maxα

αTK 2α

αTKα

sous les contraintes: αTi Kαj pour j = 1, . . . , i − 1

on resout le probleme aux elements propres:

Kα = nλα

Page 283: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

SVM pour la regression

Page 284: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme de la regression

Probleme de prediction d’une variable d’interet reelle a partir d’unvecteur X ∈ Rd de variables explicatives

Donnees : {(xi , yi )}i=1,...,n

Predicteur : f (x) = βT x + b , β ∈ Rd , b ∈ R

Norme : ‖f ‖ = ‖β‖ =√βTβ

Critere : moindres carres (y − f (x))2

Problemes :

I overfitting quand d est grand,I sensibilite aux valeurs aberrantes.

Page 285: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme de la regression

Probleme de prediction d’une variable d’interet reelle a partir d’unvecteur X ∈ Rd de variables explicatives

Donnees : {(xi , yi )}i=1,...,n

Predicteur : f (x) = βT x + b , β ∈ Rd , b ∈ R

Norme : ‖f ‖ = ‖β‖ =√βTβ

Critere : moindres carres (y − f (x))2

Problemes :

I overfitting quand d est grand,I sensibilite aux valeurs aberrantes.

Page 286: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme de la regression

Probleme de prediction d’une variable d’interet reelle a partir d’unvecteur X ∈ Rd de variables explicatives

Donnees : {(xi , yi )}i=1,...,n

Predicteur : f (x) = βT x + b , β ∈ Rd , b ∈ R

Norme : ‖f ‖ = ‖β‖ =√βTβ

Critere : moindres carres (y − f (x))2

Problemes :

I overfitting quand d est grand,I sensibilite aux valeurs aberrantes.

Page 287: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme de la regression

Probleme de prediction d’une variable d’interet reelle a partir d’unvecteur X ∈ Rd de variables explicatives

Donnees : {(xi , yi )}i=1,...,n

Predicteur : f (x) = βT x + b , β ∈ Rd , b ∈ R

Norme : ‖f ‖ = ‖β‖ =√βTβ

Critere : moindres carres (y − f (x))2

Problemes :

I overfitting quand d est grand,I sensibilite aux valeurs aberrantes.

Page 288: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme de la regression

Probleme de prediction d’une variable d’interet reelle a partir d’unvecteur X ∈ Rd de variables explicatives

Donnees : {(xi , yi )}i=1,...,n

Predicteur : f (x) = βT x + b , β ∈ Rd , b ∈ R

Norme : ‖f ‖ = ‖β‖ =√βTβ

Critere : moindres carres (y − f (x))2

Problemes :

I overfitting quand d est grand,I sensibilite aux valeurs aberrantes.

Page 289: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme de la regression

Probleme de prediction d’une variable d’interet reelle a partir d’unvecteur X ∈ Rd de variables explicatives

Donnees : {(xi , yi )}i=1,...,n

Predicteur : f (x) = βT x + b , β ∈ Rd , b ∈ R

Norme : ‖f ‖ = ‖β‖ =√βTβ

Critere : moindres carres (y − f (x))2

Problemes :

I overfitting quand d est grand,I sensibilite aux valeurs aberrantes.

Page 290: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme de la regression

Probleme de prediction d’une variable d’interet reelle a partir d’unvecteur X ∈ Rd de variables explicatives

Donnees : {(xi , yi )}i=1,...,n

Predicteur : f (x) = βT x + b , β ∈ Rd , b ∈ R

Norme : ‖f ‖ = ‖β‖ =√βTβ

Critere : moindres carres (y − f (x))2

Problemes :I overfitting quand d est grand,

I sensibilite aux valeurs aberrantes.

Page 291: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Probleme de la regression

Probleme de prediction d’une variable d’interet reelle a partir d’unvecteur X ∈ Rd de variables explicatives

Donnees : {(xi , yi )}i=1,...,n

Predicteur : f (x) = βT x + b , β ∈ Rd , b ∈ R

Norme : ‖f ‖ = ‖β‖ =√βTβ

Critere : moindres carres (y − f (x))2

Problemes :I overfitting quand d est grand,I sensibilite aux valeurs aberrantes.

Page 292: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Regression ”ridge”

Idee : imposer une contrainte sur la norme L2 des poids

Probleme d’optimisation

minf

n∑i=1

(yi − f (xi ))2

sous la contrainte:‖f ‖2 ≤ λ

Page 293: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Regression ”ridge”

Formulation equivalente

minf

n∑i=1

(yi − f (xi ))2 + C‖f ‖2

On note X = (x1, . . . , xn)T , Y = (y1, . . . , yn)T

Solution :θ = (XTX + C Id)−1XTY

Page 294: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Regression ”ridge”

Formulation equivalente

minf

n∑i=1

(yi − f (xi ))2 + C‖f ‖2

On note X = (x1, . . . , xn)T , Y = (y1, . . . , yn)T

Solution :θ = (XTX + C Id)−1XTY

Page 295: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

SVM pour la regression

On cherche le predicteur sous la forme

f (x) =n∑

i=1

αik(xi , x)

On pose K = (k(xi , xj))i ,j la matrice de Gram et on definit:

‖f ‖2K = αTKα

Probleme d’optimisation

minα

n∑i=1

(yi − Kα)2 + CαTKα

Solution :α = (K + Cn Id)−1Y

Page 296: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

SVM pour la regression

On cherche le predicteur sous la forme

f (x) =n∑

i=1

αik(xi , x)

On pose K = (k(xi , xj))i ,j la matrice de Gram et on definit:

‖f ‖2K = αTKα

Probleme d’optimisation

minα

n∑i=1

(yi − Kα)2 + CαTKα

Solution :α = (K + Cn Id)−1Y

Page 297: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

SVM pour la regression

On cherche le predicteur sous la forme

f (x) =n∑

i=1

αik(xi , x)

On pose K = (k(xi , xj))i ,j la matrice de Gram et on definit:

‖f ‖2K = αTKα

Probleme d’optimisation

minα

n∑i=1

(yi − Kα)2 + CαTKα

Solution :α = (K + Cn Id)−1Y

Page 298: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

SVM pour la regression

⇒ concept analogue de vecteurs de support

Page 299: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Conclusion

Page 300: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

On a vu ...

Idees geometriques sous-jacentes a la conception des SVM

Aspects algorithmiques des SVM - optimisation

Aspects statistiques - controle de la complexite

Adaptation (sans douleur!) de methodes statistiques classiques pourl’analyse de donnees

SVM en action avec l’utilisation du logiciel SPIDER

Page 301: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

On a vu ...

Idees geometriques sous-jacentes a la conception des SVM

Aspects algorithmiques des SVM - optimisation

Aspects statistiques - controle de la complexite

Adaptation (sans douleur!) de methodes statistiques classiques pourl’analyse de donnees

SVM en action avec l’utilisation du logiciel SPIDER

Page 302: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

On a vu ...

Idees geometriques sous-jacentes a la conception des SVM

Aspects algorithmiques des SVM - optimisation

Aspects statistiques - controle de la complexite

Adaptation (sans douleur!) de methodes statistiques classiques pourl’analyse de donnees

SVM en action avec l’utilisation du logiciel SPIDER

Page 303: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

On a vu ...

Idees geometriques sous-jacentes a la conception des SVM

Aspects algorithmiques des SVM - optimisation

Aspects statistiques - controle de la complexite

Adaptation (sans douleur!) de methodes statistiques classiques pourl’analyse de donnees

SVM en action avec l’utilisation du logiciel SPIDER

Page 304: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

On a vu ...

Idees geometriques sous-jacentes a la conception des SVM

Aspects algorithmiques des SVM - optimisation

Aspects statistiques - controle de la complexite

Adaptation (sans douleur!) de methodes statistiques classiques pourl’analyse de donnees

SVM en action avec l’utilisation du logiciel SPIDER

Page 305: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

On a tu ...

Aspects fonctionnels dans l’etude des SVM (theorie des RKHS)

Technologie de construction de noyaux dedies

Variantes des SVM

Autres applications des methodes a noyaux : Kernel CCA, KernelICA, One-Class SVM, ... etc...

Concurrents des SVM comme le boosting

Page 306: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

On a tu ...

Aspects fonctionnels dans l’etude des SVM (theorie des RKHS)

Technologie de construction de noyaux dedies

Variantes des SVM

Autres applications des methodes a noyaux : Kernel CCA, KernelICA, One-Class SVM, ... etc...

Concurrents des SVM comme le boosting

Page 307: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

On a tu ...

Aspects fonctionnels dans l’etude des SVM (theorie des RKHS)

Technologie de construction de noyaux dedies

Variantes des SVM

Autres applications des methodes a noyaux : Kernel CCA, KernelICA, One-Class SVM, ... etc...

Concurrents des SVM comme le boosting

Page 308: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

On a tu ...

Aspects fonctionnels dans l’etude des SVM (theorie des RKHS)

Technologie de construction de noyaux dedies

Variantes des SVM

Autres applications des methodes a noyaux : Kernel CCA, KernelICA, One-Class SVM, ... etc...

Concurrents des SVM comme le boosting

Page 309: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

On a tu ...

Aspects fonctionnels dans l’etude des SVM (theorie des RKHS)

Technologie de construction de noyaux dedies

Variantes des SVM

Autres applications des methodes a noyaux : Kernel CCA, KernelICA, One-Class SVM, ... etc...

Concurrents des SVM comme le boosting

Page 310: 1 SVM pour la classi cation binaireagarivie/Telecom/PESTO/Pesto... · 2011. 10. 25. · 1 SVM pour la classi cation binaire 2 Exemples I - donn ees arti cielles 3 El ements de th

Sources

http://www.kernel-machines.org

Vapnik (1998) - Statistical Learning Theory

Hastie, Tibshirani, Friedman (2001) - The Elements of StatisticalLearning

Scholkopf, Tsuda, Vert (2004) - Kernel Methods in ComputationalBiology

Autres ouvrages de reference:I Scholkopf, Burges, Smola (1998) - Advances in Kernel Methods:

Support Vector LearningI Cristianini, Shawe-Taylor (2000) - An Introduction to Support Vector

Machines and Other Kernel-based Learning MethodsI Scholkopf, Smola (2002) - Learning with KernelsI Shawe-Taylor, Cristianini (2004) - Kernel Methods for Pattern Analysis