Classification thématique de courriels

Post on 21-Jan-2016

46 views 0 download

description

Classification thématique de courriels. 5 juin 2004. Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé. Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze. Plan. Problématique Méthode Pré-traitement Apprentissage non supervisé: k-means/k-means flou - PowerPoint PPT Presentation

Transcript of Classification thématique de courriels

Kessler Rémy 105/06/2004

Classification thématique de courriels

Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé

Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze

5 juin 2004

Kessler Rémy 205/06/2004

Problématique

Méthode Pré-traitement Apprentissage

non supervisé: k-means/k-means flousupervisé: Machine à support vectoriel

Méthode Hybride

Résultats

Conclusion et perspectives

Plan

Kessler Rémy 305/06/2004

Problématique Les nouvelles formes de communication sont un défi

considérable pour leur traitement..

Gérer ces flux d’information devient un enjeu majeur pour les entreprises.

Cela implique de : Classer les courriels en

fonction de leur thématique

Automatiser les réponses

Corpus construit à partir de Newsletter et de listes de diffusion

05/06/2004 Kessler Rémy 4

Pré-traitement

Kessler Rémy 505/06/2004

Schéma du pré-traitement

Kessler Rémy 605/06/2004

Nettoyage du corpus

Séparation de l’en-tête, du corps et des pièces jointes

Génération d’un fichier XML

Statistique du Corpus

Kessler Rémy 705/06/2004

Suppression des micro-publicités

Ajoutés au bas des courriels par les fournisseurs en service de messagerie éléctronique

La micro-publicité aucune informations ajoute du bruit

_____________________________________________________________________

Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger

http://www.ifrance.com/_reloc/m la 1ère messagerie instantanée de France

_____________________________________________________________________

Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger

http://www.ifrance.com/_reloc/m la 1ère messagerie instantanée de France

Kessler Rémy 805/06/2004

Traduction du phonécrit Phonécrit: Toute forme d’écriture basée sur une écriture

phonétique sans contrainte ou avec des règles établies par l’usage

« Traduction » en langue française :-) → sourire A+, a+ → à plus tard @2m1 → à demain Etc. → Et cetera

Premier traitement

Ambiguïté dans certain cas: 7 → Cet(te) ou Sète, L → Elle

Kessler Rémy 905/06/2004

Filtrage & Lemmatisation Mots composés deviennent des termes uniques

pomme de terre → pomme_de_terre pique nique, pique niquons, pique niques → pique_niquer

Anti-dictionnaire Suppression des verbes et des mots fonctionnels Suppression des expressions courantes

Lemmatisation à partir d’un dictionnaire chante, chantaient, chanté, chanteront et éventuellement

chanteur sont ramenés a chanter

Réduire le nombre de dimensions de la matrice

Kessler Rémy 1005/06/2004

Représentation vectorielle

Matrice de fréquences Termes-CourrielsMatrice de fréquences Termes-Courriels

1

1 2 3 .... N-1 N

1

2

3 ....

3 1

1 2

1

4 1

1

2 1

i

j

P

0

0

0

0 0

00

0 0 0 0

0

0

0

0

0

0 0

0Courriels

Termes

Mij = Fréquence du terme i dans le courriel j

Kessler Rémy 1105/06/2004

Réduction de la taille de la matrice

Matrice réduiteMatrice réduite

1

1 2 3 .... N-1 N

1

2

3 ....

3 1

1 2

1

4 1

1

2 1

i

j

P

0

0

0

0 0

00

0 0 0 0

0

0

0

0

0

0 0

0Courriels

Termes

Kessler Rémy 1205/06/2004

Observation

Répartition des termes en fonction des courriels

Découpage des classes par les densités

Fortes densités des nouveaux termes dès

le début d’une nouvelle classe

05/06/2004 Kessler Rémy 13

Apprentissage

Kessler Rémy 1405/06/2004

K-Means /K-Means flou Choix de centroïdes (centre de la classe) puis calcul de la distance entre chaque vecteur (courriel) et ces centroïdes

Intérêt du flou : Le courriel X est à 0.9 pour le destinataire A et à 0.7 pour

le destinataire B

On le dirige vers A avec B en copie

Kessler Rémy 1505/06/2004

K-Means /K-Means flou (2)

Problème de l’initialisation

Initialisation aléatoire Minimaux locaux

Initialisation semi-supervisé Une faible partie des

exemples pour mieux placer les centroïdes

Kessler Rémy 1605/06/2004

Machines à support vectoriel

Proposé par Vapnik, celles ci reposent sur : Projection des données dans un espace de grande

dimension à l’aide d’une fonction noyau Classifieur permettant de maximiser les distances entre

les classes et donc de trouver les hyperplans optimaux

Kessler Rémy 1705/06/2004

Méthode hybride

Combinaison des 2 méthodes

Apprentissage non supervisé par K-means/ K-means flou

Apprentissage supervisé par Machines à support Vectoriel à partir des résultats obtenus par K-means

Généralisation sur des ensembles de test indépendant

Kessler Rémy 1805/06/2004

Chaîne de traitement

CorpusXml

MetainformationPièce jointe

Corps dumessage

Nettoyage

FiltrageLemmatisation

Générationde la matriceFuzzy K Means

/ K Means

SVM

Corpusde Courriels

KClasses

Classificationnon supervisée

Classificationsupervisée

Réductionde la matrice

SéparationApprentissage

Test

Matrice d’Apprentissage

Matrice de Test

05/06/2004 Kessler Rémy 19

Résultats

Kessler Rémy 2005/06/2004

Résultats

Méthode Hybride

Corpus de tests de P={200,500,1000}

K classes parmi :{football, jeux de rôles,

cinéma, ornithologie}

Écart-Type sur des séries de 10 Tests avec tirage aléatoire

Kessler Rémy 2105/06/2004

Résultats(2)

Pas de détérioration des performances en augmentant la taille du corpus

La courbe hybride est très proche de celle

des SVM

Kessler Rémy 2205/06/2004

Conclusion et perspectives particularité de langage phonécrit

Euristique de pré-traitement

Premiers résultats de la méthode hybride intéressants

Améliorer les performance des SVM

Combinaison de classifieurs (SVM, Bayes, LVQ, …)

Augmenter taille et du nombre de classes des corpus

05/06/2004 Kessler Rémy 23

Merci pour votre attention