Cours 3

19
Cours 3 Classification Résumé de textes

description

Cours 3. Classification Résumé de textes. Classific ation et regroupement. Objectif : classer des documents - en fonction de classes prédéfinies ( classification supervisée ), exemples : routage vers des destinataires, ou filtrage (2 classes : retenus ou rejetés) - PowerPoint PPT Presentation

Transcript of Cours 3

Page 1: Cours 3

Cours 3

Classification

Résumé de textes

Page 2: Cours 3

Classification et regroupementObjectif : classer des documents- en fonction de classes prédéfinies (classification

supervisée), exemples : routage vers des destinataires, ou filtrage (2 classes : retenus ou rejetés)

- ou par ressemblance entre eux, sans classes prédéfinies (regroupement non supervisé)

PrincipeDans le modèle vectoriel, une classe est représentée par

le barycentre des k éléments dj de la classe

Pour 1iN, Bi = 1jkmi,j/k

Page 3: Cours 3

Classification et regroupement

Le barycentre est un vecteur dont la norme (longueur) dépend de celle des vecteurs

On normalise les vecteurs avant de calculer le barycentre :

Pour 1iN, Bi = 1jkmi,j/k

Le barycentre d'un ensemble de vecteurs normalisés n'est pas nécessairement normalisé

Exemple : deux vecteurs orthogonaux

Ensuite, on normalise le barycentre

Page 4: Cours 3

ExempleBarycentre de d1 et d2 : b1

d1 d2 d3 b1

cinéma 0 5 0 0,60

football 4 4 0 0,80

rugby 0 0 3 0

... ... ... ... ...

b1 est normalisé : 0,602 + 0,802 = 1

En considérant que chaque vecteur donne une direction dans l'espace, celle de b1 est "entre" celles de d1 et d2

Page 5: Cours 3

ClassificationAlgorithme des k plus proches voisins

Entrée : des documents déjà distribués en classes disjointes ; un nouveau document d à classer ; un entier k

Sortie : la classe du nouveau document

j := k

tant que j>0

parmi les documents déjà classés trouver les j plus proches voisins de d

trouver la ou les classes les plus représentées parmi ces voisins

si on trouve une seule classe, renvoyer cette classe

sinon j := j - 1

Page 6: Cours 3

ExempleClasse football : d1 et d2, barycentre : b1Classe rugby : d3, barycentre : b2

d1 d2 d3 b1 b2 d4d5

cinéma 0 5 0 0,60 0 2 4football 4 4 0 0,80 0 1 1rugby 0 0 3 0 1 6 2... ... ... ... ... ... ... ...On veut classer d4 et d5similarités de d4 : 0,31 0,95 classe r.similarités de d5 : 0,84 0,45 classe f.

Page 7: Cours 3

Classification

Terminaison de l'algorithme

L'algorithme se termine au plus tard quand j = 1 et dans ce cas on renvoie la classe du plus proche voisin

Page 8: Cours 3

RegroupementAlgorithme de regroupement des k moyennesEntrée : un ensemble de documents représentés par des vecteurs ;

un entier kSortie : une partition des documents en k groupes

choisir aléatoirement k vecteurs m1, m2, ..., mk

faireclasser les vecteurs en k groupes en associant chaque vecteur au mi le plus similaire pour tout i de 1 à k

mi := le barycentre des vecteurs du groupe i

tant que il y a eu au moins un mi modifié

Ne donne pas toujours la meilleure solutionFaire tourner plusieurs fois et prendre la meilleure solution

Page 9: Cours 3

RegroupementÉvaluation

Pour chaque partition de l'ensemble de documents, on peut calculer à l'aide du modèle vectoriel :

- la similarité moyenne de deux documents de la même classe (similarité intra-classe)

- la similarité moyenne de deux documents de classes différentes (similarité inter-classe)

Un regroupement est bon s'il a une similarité intra-classe élevée et une similarité inter-classe basse

Page 10: Cours 3

RegroupementNombre de groupes

La qualité du regroupement a tendance à augmenter avec le nombre de groupes

Avec un document par groupe, le regroupement est parfait... mais pas utile

Choisir le nombre de groupes

Exécuter l'algorithme avec différentes valeurs de k

Comparer la qualité des regroupements obtenus

Choisir k tel que l'amélioration en passant de k-1 à k soit particulièrement importante, et l'amélioration en passant de k à k+1 peu importante

Page 11: Cours 3

RésuméObjectifProduire un résumé d'un documentOn utilise un ensemble de documents, comme dans la recherche

d'informations, pour définir la pondération par pertinence des tokens-mots

PrincipeOn veut par exemple que le résumé fasse environ 20 % du

document en nombre de phrases, soit k phrasesOn considère le document comme une séquence de phrasesChaque phrase est représentée par un vecteurOn calcule la pertinence de chaque phrase (voir plus loin)On sélectionne les k phrases les plus pertinentesOn les présente dans l'ordre du texte

Page 12: Cours 3

Résumé

Définition de la pertinence d'une phrase

On calcule les coordonnées du vecteur avec et sans la formule TFIDF

- avec TFIDF : mi log D/d(i)

- avec seulement le nombre d'occurrences de chaque token-mot : mi

Pertinence d'une phrase :

(1iN mi log D/d(i)) / 1iN mi

C'est la moyenne des log D/d(i), pondérée par les mi

Page 13: Cours 3

Exemples

http://swesum.nada.kth.se/index-eng.html

Page 14: Cours 3

Texte original (1/3)L'Egypte encore couronnée

11/02/2008 | Mise à jour : 13:26 | .A l'issue d'un match dominé de bout en bout, l'Egypte a logiquement pris le meilleur sur le Cameroun en finale de la Coupe d'Afrique des Nations (1-0) et remporte son 6e titre dans cette compétition.

Compte rendu du matchLa 26e finale de la Coupe d'Afrique des Nations opposait les deux formations les plus titrées du continent, l'Egypte et le Cameroun. Deux équipes qui s'étaient déjà rencontrées au premier tour, avec un succès des Pharaons à la clé (4-2). Tenants du titre et vainqueurs de la Côte d'Ivoire en demi-finale, les Egyptiens partaient donc logiquement favoris.

Kameni sauve le CamerounLes hommes de Hassan Chehata ne tardaient pas à confirmer leur statut sur le terrain. Abd Rabo menaçait une première fois Kameni sur coup-franc (7e), rapidement suivi par Moawad (9e). Le portier de l'Espanyol Barcelone devait encore s'employer sur une frappe d'Abu Treka de loin (12e), puis à bout portant (19e). Les vagues rouges revenaient inlassablement sur les buts camerounais, et après une nouvelle offensive, Fathi tirait dans un angle fermé et ne trouvait pas le cadre (22e). Les Lions Indomptables, bien timides dans le jeu, ne parvenaient pas à

Page 15: Cours 3

Texte original (2/3)inquiéter El Hadary, hormis sur une accélération d'Eto'o, dont le tir était trop

croisé (35e). C'était en fait encore Kameni qui s'illustrait sur un face-à-face avec Moawad (36e). Alors que le rythme baissait de plus en plus, on atteignait la pause sur un score logique (0-0).

Song, héros malheureuxOn retrouvait la même physionomie en deuxième période, avec une Egypte largement dominatrice, mais impuissante face à Kameni. Le gardien des Lions était encore à la parade sur une frappe puissante d'Hosny Abd Rabo (54e), et lorsqu'il était battu, le poteau venait le suppléer, sur une tête de l'ancien Strasbourgeois (61e). Mais au moment où le Cameroun refaisait surface, la contre-attaque de Zidan faisait mouche. Le joueur d'Hambourg réussissait à résister au retour de Song pour servir Abou Treka complètement seul. Le meneur de jeu des Pharaons ne manquait pas son duel (1-0, 77e). Malgré une fin de match à l'avantage des Camerounais, les coéquipiers de Samuel Eto'o ne parvenaient pas à revenir. El Hadary signait même une parade décisive sur un tir de M'Bia (87e). L'Egypte tenait bon pour s'offrir un deuxième sacre consécutif, le sixième en tout. Pour le Cameroun, il s'agit en revanche d'une deuxième défaite en finale, après 1986, où les Pharaons avaient déjà pris le meilleur sur les Lions.

Page 16: Cours 3

Texte original (3/3)Le jeu et les joueurs

Dans son 3-5-2 habituel, Hassan Chehata ne changeait pas une équipe qui gagne et alignait ainsi le 11 titulaire face à la Côte d'Ivoire. Solide défensivement, à l'image d'un El Hadary encore impérial, et un très bon Gomaa, qui a effacé Eto'o. Au milieu, Abd Rabo a beaucoup travaillé et a notamment beaucoup tenté sa chance. En attaque, Zaki a lui aussi joué pour le collectif.

Pour le Cameroun, Otto Pfister alignait une équipe assez défensive, avec le seul Eto'o en pointe. Dans un dispositif proche du 4-3-3, les Lions Indomptables n'ont jamais réussi à entrer dans le match, en étant dominés dans tous les secteurs du jeu. Emana, par exemple, s'est complètement effondré après un bon début de match, alors que pour M'Bia, c'est l'inverse, avec une fin de partie plutôt à l'avantage du Rennais. Pour leur part, Nkong, héros de la demie, et Epallé, n'ont jamais été au niveau. En défense, hormis lors de l'énorme erreur de Song, Kameni a longtemps tenu son équipe à bout de bras.

Page 17: Cours 3

Résumé obtenuL'Egypte encore couronnéeTenants du titre et vainqueurs de la Côte d'Ivoire en demi-finale, les Egyptiens

partaient donc logiquement favoris.Kameni sauve le Cameroun

Alors que le rythme baissait de plus en plus, on atteignait la pause sur un score logique (0-0).

Song, héros malheureuxPour le Cameroun, il s'agit en revanche d'une deuxième défaite en finale, après 1986, où les Pharaons avaient déjà pris le meilleur sur les Lions.

Le jeu et les joueursSolide défensivement, à l'image d'un El Hadary encore impérial, et un très bon Gomaa, qui a effacé Eto'o. Au milieu, Abd Rabo a beaucoup travaillé et a notamment beaucoup tenté sa chance. En attaque, Zaki a lui aussi joué pour le collectif.

Emana, par exemple, s'est complètement effondré après un bon début de match, alors que pour M'Bia, c'est l'inverse, avec une fin de partie plutôt à l'avantage du Rennais. Pour leur part, Nkong, héros de la demie, et Epallé, n'ont jamais été au niveau. En défense, hormis lors de l'énorme erreur de Song, Kameni a longtemps tenu son équipe à bout de bras.

Page 18: Cours 3

Texte originalLa création de l’établissement public Université Paris-Est s’inscrit dans la

dynamique engagée par le Groupement d’intérêt public du Polytechnicum de Marne la Vallée, en réponse aux démarches menées par les ministères chargés de l’Equipement et de l’Enseignement supérieur pour constituer un pôle scientifique et technique.

Son développement s'appuie également sur une association privilégiée avec l'établissement public de coopération scientifique ParisTech dont il constituera le pôle Est francilien.

L’université Paris-Est, structurée en grands départements, intègre dans un même ensemble interdisciplinaire recherche et enseignement généraux, technologiques et professionnels.Ce continuum enseignement supérieur / recherche / ingénierie, articulé avec les entreprises du Pôle de compétitivité Ville et Mobilité Durables, permettra d’atteindre un rayonnement international, grâce à une signature commune de la production scientifique et à la capacité à attirer étudiants, enseignants et chercheurs à fort potentiel.

L’établissement comprend actuellement cinq membres fondateurs :L’Ecole des ponts, l’université de Marne la Vallée, L'Université Paris 12 Val-de-Marne, l'Ecole supérieure d'ingénieurs en électronique et électrotechnique (ESIEE) et le Laboratoire central des ponts et chaussées.

Page 19: Cours 3

Résumé obtenuSon développement s'appuie également sur une association

privilégiée avec l'établissement public de coopération scientifique ParisTech dont il constituera le pôle Est francilien.

Ce continuum enseignement supérieur / recherche / ingénierie, articulé avec les entreprises du Pôle de compétitivité Ville et Mobilité Durables, permettra d’atteindre un rayonnement international, grâce à une signature commune de la production scientifique et à la capacité à attirer étudiants, enseignants et chercheurs à fort potentiel.

L’Ecole des ponts, l’université de Marne la Vallée, L'Université Paris 12 Val-de-Marne, l'Ecole supérieure d'ingénieurs en électronique et électrotechnique (ESIEE) et le Laboratoire central des ponts et chaussées.