Classification thématique de courriels

23
Kessler Rémy 1 05/06/2004 Classification thématique de courriels Méthode hybride combinant apprentissage supervisé, semi- supervisé et non supervisé Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze 5 juin 2004

description

Classification thématique de courriels. 5 juin 2004. Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé. Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze. Plan. Problématique Méthode Pré-traitement Apprentissage non supervisé: k-means/k-means flou - PowerPoint PPT Presentation

Transcript of Classification thématique de courriels

Page 1: Classification thématique de courriels

Kessler Rémy 105/06/2004

Classification thématique de courriels

Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé

Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze

5 juin 2004

Page 2: Classification thématique de courriels

Kessler Rémy 205/06/2004

Problématique

Méthode Pré-traitement Apprentissage

non supervisé: k-means/k-means flousupervisé: Machine à support vectoriel

Méthode Hybride

Résultats

Conclusion et perspectives

Plan

Page 3: Classification thématique de courriels

Kessler Rémy 305/06/2004

Problématique Les nouvelles formes de communication sont un défi

considérable pour leur traitement..

Gérer ces flux d’information devient un enjeu majeur pour les entreprises.

Cela implique de : Classer les courriels en

fonction de leur thématique

Automatiser les réponses

Corpus construit à partir de Newsletter et de listes de diffusion

Page 4: Classification thématique de courriels

05/06/2004 Kessler Rémy 4

Pré-traitement

Page 5: Classification thématique de courriels

Kessler Rémy 505/06/2004

Schéma du pré-traitement

Page 6: Classification thématique de courriels

Kessler Rémy 605/06/2004

Nettoyage du corpus

Séparation de l’en-tête, du corps et des pièces jointes

Génération d’un fichier XML

Statistique du Corpus

Page 7: Classification thématique de courriels

Kessler Rémy 705/06/2004

Suppression des micro-publicités

Ajoutés au bas des courriels par les fournisseurs en service de messagerie éléctronique

La micro-publicité aucune informations ajoute du bruit

_____________________________________________________________________

Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger

http://www.ifrance.com/_reloc/m la 1ère messagerie instantanée de France

_____________________________________________________________________

Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger

http://www.ifrance.com/_reloc/m la 1ère messagerie instantanée de France

Page 8: Classification thématique de courriels

Kessler Rémy 805/06/2004

Traduction du phonécrit Phonécrit: Toute forme d’écriture basée sur une écriture

phonétique sans contrainte ou avec des règles établies par l’usage

« Traduction » en langue française :-) → sourire A+, a+ → à plus tard @2m1 → à demain Etc. → Et cetera

Premier traitement

Ambiguïté dans certain cas: 7 → Cet(te) ou Sète, L → Elle

Page 9: Classification thématique de courriels

Kessler Rémy 905/06/2004

Filtrage & Lemmatisation Mots composés deviennent des termes uniques

pomme de terre → pomme_de_terre pique nique, pique niquons, pique niques → pique_niquer

Anti-dictionnaire Suppression des verbes et des mots fonctionnels Suppression des expressions courantes

Lemmatisation à partir d’un dictionnaire chante, chantaient, chanté, chanteront et éventuellement

chanteur sont ramenés a chanter

Réduire le nombre de dimensions de la matrice

Page 10: Classification thématique de courriels

Kessler Rémy 1005/06/2004

Représentation vectorielle

Matrice de fréquences Termes-CourrielsMatrice de fréquences Termes-Courriels

1

1 2 3 .... N-1 N

1

2

3 ....

3 1

1 2

1

4 1

1

2 1

i

j

P

0

0

0

0 0

00

0 0 0 0

0

0

0

0

0

0 0

0Courriels

Termes

Mij = Fréquence du terme i dans le courriel j

Page 11: Classification thématique de courriels

Kessler Rémy 1105/06/2004

Réduction de la taille de la matrice

Matrice réduiteMatrice réduite

1

1 2 3 .... N-1 N

1

2

3 ....

3 1

1 2

1

4 1

1

2 1

i

j

P

0

0

0

0 0

00

0 0 0 0

0

0

0

0

0

0 0

0Courriels

Termes

Page 12: Classification thématique de courriels

Kessler Rémy 1205/06/2004

Observation

Répartition des termes en fonction des courriels

Découpage des classes par les densités

Fortes densités des nouveaux termes dès

le début d’une nouvelle classe

Page 13: Classification thématique de courriels

05/06/2004 Kessler Rémy 13

Apprentissage

Page 14: Classification thématique de courriels

Kessler Rémy 1405/06/2004

K-Means /K-Means flou Choix de centroïdes (centre de la classe) puis calcul de la distance entre chaque vecteur (courriel) et ces centroïdes

Intérêt du flou : Le courriel X est à 0.9 pour le destinataire A et à 0.7 pour

le destinataire B

On le dirige vers A avec B en copie

Page 15: Classification thématique de courriels

Kessler Rémy 1505/06/2004

K-Means /K-Means flou (2)

Problème de l’initialisation

Initialisation aléatoire Minimaux locaux

Initialisation semi-supervisé Une faible partie des

exemples pour mieux placer les centroïdes

Page 16: Classification thématique de courriels

Kessler Rémy 1605/06/2004

Machines à support vectoriel

Proposé par Vapnik, celles ci reposent sur : Projection des données dans un espace de grande

dimension à l’aide d’une fonction noyau Classifieur permettant de maximiser les distances entre

les classes et donc de trouver les hyperplans optimaux

Page 17: Classification thématique de courriels

Kessler Rémy 1705/06/2004

Méthode hybride

Combinaison des 2 méthodes

Apprentissage non supervisé par K-means/ K-means flou

Apprentissage supervisé par Machines à support Vectoriel à partir des résultats obtenus par K-means

Généralisation sur des ensembles de test indépendant

Page 18: Classification thématique de courriels

Kessler Rémy 1805/06/2004

Chaîne de traitement

CorpusXml

MetainformationPièce jointe

Corps dumessage

Nettoyage

FiltrageLemmatisation

Générationde la matriceFuzzy K Means

/ K Means

SVM

Corpusde Courriels

KClasses

Classificationnon supervisée

Classificationsupervisée

Réductionde la matrice

SéparationApprentissage

Test

Matrice d’Apprentissage

Matrice de Test

Page 19: Classification thématique de courriels

05/06/2004 Kessler Rémy 19

Résultats

Page 20: Classification thématique de courriels

Kessler Rémy 2005/06/2004

Résultats

Méthode Hybride

Corpus de tests de P={200,500,1000}

K classes parmi :{football, jeux de rôles,

cinéma, ornithologie}

Écart-Type sur des séries de 10 Tests avec tirage aléatoire

Page 21: Classification thématique de courriels

Kessler Rémy 2105/06/2004

Résultats(2)

Pas de détérioration des performances en augmentant la taille du corpus

La courbe hybride est très proche de celle

des SVM

Page 22: Classification thématique de courriels

Kessler Rémy 2205/06/2004

Conclusion et perspectives particularité de langage phonécrit

Euristique de pré-traitement

Premiers résultats de la méthode hybride intéressants

Améliorer les performance des SVM

Combinaison de classifieurs (SVM, Bayes, LVQ, …)

Augmenter taille et du nombre de classes des corpus

Page 23: Classification thématique de courriels

05/06/2004 Kessler Rémy 23

Merci pour votre attention