Post on 21-Feb-2016
description
Fouille de Texte (Text Mining)
1. Objectifs, Applications2. Exemple des CRH3. Construction du Lexique4. Vectorisation des Textes5. Classification des vecteurs6. Retour sur l'exemple des CRH
2G. Gardarin
1. Objectifs
Documents électroniques Structurés (10%) et non-structurés (90%) Beaucoup d'outils limités au structuré (BDR) Grand volume, croissance exponentielle
Problèmes Recherche plein texte (IR) Extraction de connaissances (catégorie, mots-clés, …) Structuration (XML, Tables)
3G. Gardarin
Qu’est-ce que le Text Mining ?
Le Text Mining est l’ensemble des :
Technologies et méthodes … destinées au traitement automatique … de données textuelles … disponibles sous forme informatique, … en assez grande quantité … en vue d’en dégager et structurer le contenu, les
thèmes dans une perspective d’analyse rapide de découverte d’informations cachées ou de prise automatique de décision
4G. Gardarin
Définition
Text Mining Procédé consistant à synthétiser (classer, structurer, résumer, …) les textes
en analysant les relations, les patterns, et les règles entre unités textuelles (mots, groupes, phrases, documents)
Techniques Classification Apprentissage Recherche d’information Statistiques Extraction de patterns et d’entités Raisonnement basé cas TALN = Techniques d’analyse du langage naturel
5G. Gardarin
Processus de Text Mining: Vue simplifiée
Morphologique, linguistique,produit des vecteurs de frequencedes mots importants
6G. Gardarin
Analyse et Préparation
Corriger l'orthographe Eliminer les mots vides Découper les textes en unités Associer des termes à une catégorie
grammaticale ou sémantique Réduire le nombre de termes à traiter
7G. Gardarin
Calculs de fréquence des termes
8G. Gardarin
Réduction des dimensions
Réduire les dimensions de la table de fréquences
en déterminant les termes les plus significatifs
en groupant les termes par affinité (profile)
Approximation de la matrice d'origine par le produit de 2 sous matrices de petite dimension
Procédure itérative jusqu'à convergence
9G. Gardarin
Classification des documents
Application de méthodes classiques aux vecteurs Segmentation des documents
Evaluation
10G. Gardarin
Domaines d’application (1)
Exploration du contenu des documents Questions ouvertes dans une enquête Commentaires et plaintes des clients Analyse des réclamations de garantie Composition de résumés de textes
Méthodes descriptives
11G. Gardarin
Domaines d’application (2)
Affectation de documents à des thèmes prédéfinis Traitement des e-mails (redirection, filtrage) Organisation des documents par catégories Classement des contacts au centre d’appel
Méthodes souvent supervisées
12G. Gardarin
Domaines d’application (3)
Augmenter les performances des modèles prédictifs en combinant les données textuelles et les données
structurées Communiqués de l’entreprise + données de la bourse
prédire l’évlution de la valeur des actions Commentaires des patients + données médicales
prédire l’efficacité d’un médicament
13G. Gardarin
Domaines d'application (4)
Recherche d’information (Information retrieval) Interrogation de textes par concepts, mots-clés, sujets, phrases visant à
obtenir des résultats triés par ordre de pertineance, à la Google Construction de résumé (Summarization)
Abstraction et condensation d’un texte pour élaborer une version réduite conservant au maximum la sémantique
Extraction d’information (Information extraction) Identification d’éléments sémantiques dans un texte (entitées, propiétés, relations, patterns …)
Catégorisation de texte (Text catégorisation) Processus consistant à déterminer des sujets dans un corpus et à classer les
documents du corpus selon ces sujets Interrogation en langage naturel (Question answering)
Interrogation de bases de données en langage naturel
14G. Gardarin
Problèmes classiques
Moteur de recherche Web (e.g., Google) Annotation d'information Classification (supervisée) et clustering (non
supervisée) de documents Reconnaissance d'entités Reconnaissance de scénarios Extraction d'information Construction de résumés
15G. Gardarin
Etat du sujet
On est capable de: Rechercher des documents pertinents sur un sujet avec
bonne précision mais faible rappel Identifier des entités avec une très bonne précision Identifier des relations entre entités avec une bonne
précision Résumer des documents en compressant à 20% tout en
gardant l’essentiel Classer des document dans des classes prédéfinies avec
précision et rappel supérieurs à 70%
16G. Gardarin
Etapes de la fouille de textes
1. Sélection du corpus de documents Documents pré-classés Documents à classer
2. Extraction des termes Analyse grammaticale et/ou lemmatisation Filtrage des termes extraits
3. Transformation Passage à un espace vectoriel Réduction des dimensions
4. Classification Automatique supervisée ou non Élaboration de taxonomie (classement)
5. Visualisation des résultats 6. Interprétation des résultats
17G. Gardarin
Architecture type: Classification
Sélection des termes
Termes uniques présents dans les documents
pré-traitement
Vecteur des documents
Calcul des similarités
k proches voisins
Calcul des scores des catégories
catégories affectées
Documentsd’apprentissage
Lexique
Représentation
Vecteurs des documents
document
Termes uniques
ApprentissageCatégorisation
18G. Gardarin
Exemple: Classification Google16
clas
ses di
visée
s en
catég
ories
19G. Gardarin
Text Mining versus Data Mining
Data Mining Text Mining
Objet numérique & catégorique textuel
Structure structuré non-structuré
Représentation simple complexe
Dimension milliers milliers
Maturité Implémentation vaste dès 1994
Implémentation vaste dès 2000
20G. Gardarin
2. Problème: Classification de CRH
Comptes Rendus Hospitaliers Divisés en sections:
"MOTIF" "ANTECEDENTS" "HISTOIRE" "CLINIQUE" "EVOLUTION" "CONCLUSIONS" "LIBELLESACTES …
21G. Gardarin
Exemple CRH
MOTIF D'HOSPITALISATION : Décompensation respiratoire chez un patient insuffisant respiratoire chronique et
insuffisant cardiaque. ANTÉCÉDENTS MÉDICAUX ET CHIRURGICAUX : · Notion de diabète · Insuffisance respiratoire chronique obstructive post-tabagique depuis 1985 sous
oxygène à domicile · Tuberculose pulmonaire avec séquelles pleurales · Cardiopathie dilatée avec hypokinésie sévère (échographie cardiaque en juillet 2002
montrant une fraction d’éjection ventriculaire gauche à 35%) · Endoprothèse aortique sur anévrysme abdominal en juin 2002 · Appendicectomie Tabagisme sevré depuis 25 ans Traitement habituel : TRIATEC, KARDEGIC, LASILIX, VADILEX, DITROPAN,
SYMBICORT, FORLAX et O2 1,5/mn
22G. Gardarin
Exemple CRH (suite)
HISTOIRE DE LA MALADIE ACTUELLE : Le 21/07/2003, le patient est adressé au Centre Hospitalier Spécialisé en Pneumologie de
Chevilly Larue par le SAMU pour asthénie, somnolence, altération de l’état général et selles noires depuis une semaine.
Le premier bilan montre une anémie aiguë à 4 g/dl compliquée d’une insuffisance rénale aiguë avec une créatinine à 386 micromol/l (créatinine habituelle 200 micromol/l).
Le KARDEGIC est alors arrêté, le patient est mis sous MOPRAL IV 40 mg/jour, il est transfusé de 3 CG et rempli par 200 ml de solutés cristalloïdes.
Le 24/07/2003, le patient est transféré à l’Hôpital Antoine Béclère pour une consultation d’anesthésie avant coloscopie sous anesthésie générale.
A l’arrivée à la consultation, le patient est très dyspnéique, il est alors transféré en réanimation médicale.
A l’arrivée, la pression artérielle est à 133/53 mmHg, la fréquence cardiaque à 109/mn, la fréquence respiratoire à 16/mn avec une saturation en oxygène à 100% sous 3 l/mn d’oxygène. Le patient n’est pas marbré, n’est pas cyanosé. L’abdomen est souple, indolore.
…
23G. Gardarin
Exemple CRH (fin)
ÉVOLUTION DANS LE SERVICE : … AU TOTAL : Patient de 79 ans, aux antécédents d’insuffisance respiratoire chronique obstructive
post-tabagique et d’insuffisance cardiaque sévère, hospitalisé pour détresse respiratoire, insuffisance ventriculaire gauche et insuffisance rénale, survenant au décours d’un bilan pour anémie aiguë.
Insuffisance rénale oligoanurique nécessitant une hémodiafiltration. Insuffisance cardiaque sévère (FE estimée à 10%). Pneumopathie et septicémie nosocomiale à E. coli. Choc septique. Décès. TRANSFUSIONS : oui : 4 CG en Réanimation Chirurgicale. PRESENCE DE BMR : non
24G. Gardarin
Les classes: La CIM
Classification hiérarchique à 3 niveaux
25G. Gardarin
Résultats attendus
"LIBELLESCIM" et "CODESCIM" à déduire
Caractérisée par: Mots-clés Phrases clés Présence ou absence de symptômes Indicateurs techniques (température, tension, …)
…
26G. Gardarin
3. Construction du Lexique
Elément clé dans la compréhension d'un domaine Aussi appelé dictionnaire, thésaurus, catalogue … Il existe des standards ISO Permet d'obtenir une forme canonique du document Peut contenir des entités nommées
Ex: Puy de Dôme, Mont Blanc Construction manuelle difficile Différent mais voisin du concept d'ontologie
27G. Gardarin
Qu'est-ce-qu'un lexique ?
Définition du vocabulaire d'un domaine particulier Plus qu'une liste de mots simples ou composés Des informations linguistiques additionnelles
Morphologie (chant- e/es/ant/é → chante) Patterns syntaxique (transitivité, conjugaison) Conversions en formes normales (chiffres, dates, …)
Des informations sémantiques additionnelles Héritage (Is-a) Synonyme Mots préférés
28G. Gardarin
Architecture: Construction du lexique
Analyse Morphologique
Documents Dictionnaires
Lexique
Analyse Linguistique
Mais pour des personnes très spontanées ...
Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ...
Etiqueteur de Brill(tagger)
29G. Gardarin
Stop Words (de liaison)
Liste de mots (ex. ceux listés par Oracle text) sont les 200 suivants :a , beaucoup, comment, encore, lequel, moyennant, près, ses, toujours, afin, ça, concernant,
entre, les, ne, puis, sien, tous, ailleurs, ce, dans, et, lesquelles, ni, puisque, sienne, toute, ainsi, ceci, de, étaient, lesquels, non, quand, siennes, toutes, alors, cela, dedans, était, leur, nos, quant, siens, très, après, celle, dehors, étant, leurs, notamment, que, soi, trop, attendant, celles, déjà, etc, lors, notre, quel, soi-même, tu, au, celui, delà, eux, lorsque, notres, quelle, soit, un, aucun, cependant, depuis, furent, lui, nôtre, quelqu’un, sont, une, aucune, certain, des, grâce, ma, nôtres, quelqu’une, suis, vos, au-dessous, certaine, desquelles, hormis, mais, nous, quelque, sur, votre, au-dessus, certaines, desquels, hors, malgré, nulle, quelques-unes, ta, vôtre, auprès, certains, dessus, ici, me, nulles, quelques-uns, tandis, vôtres, auquel, ces, dès, il, même, on, quels, tant, vous, aussi, cet, donc, ils, mêmes, ou, qui, te, vu, aussitôt, cette, donné, jadis, mes, où, quiconque, telle, y, autant, ceux, dont, je, mien, par, quoi, telles, autour, chacun, du, jusqu, mienne, parce, quoique, tes, aux, chacune, duquel, jusque, miennes, parmi, sa, tienne, auxquelles, chaque, durant, la, miens, plus, sans, tiennes, auxquels, chez, elle, laquelle, moins, plusieurs, sauf, tiens, avec, combien, elles, là, moment, pour, se, toi, à, comme, en, le, mon, pourquoi, selon, ton.
30G. Gardarin
Lemme et Stem
Lemmatisation ~ forme canonique book, books [book] mange, mangera, mangeaient, mangeant, [manger] Nécessite une grammaire Généralement entrée de référence en dictionnaire
Stemming ~ racine + dérivation [préfixe/suffixe] produire, production, productivité [produc] Calculer par un algorithme (Stemmer)
31G. Gardarin
L’étiquetage (tagger)
Exemple d’étiquetage
Jeux de tags
Fruit flies like a banana
noun verb prep det noun
Fruit flies like a banana
noun noun verb det noun
Word Class Label
Brown Tag Word Class
Det at ArticleN nn NounV vb VerbAdj jj AdjectiveP in PrepositionCard cd Number– end Sentence-ending punctuation
adv Adverbe subc substantif commun detp Déterminant-pronom det Déterminant subp Substantif propre adjq Adjectif qualificatif infi Infinitif ppt Participe présent ppas Participe passé verb Verbe xet Auxiliaire être xav Auxiliaire avoir pnt Point
32G. Gardarin
Analyse morphologique
Lemme Forme CAT. Variables bonjour bonjour subc sin mas monsieur madame subc sin fem la la detp sin fem tre cod marquis marquise subc sin fem. . pnt voulez-vous voulez-vous cls danser danser infi ? ? pnt
Voir http://www-clips.imag.fr/cgi-bin/pilaf/morpho.py
33G. Gardarin
Synonymie et Polysémie
Synonyme Même concept qualifié par différents terms
Ex: bandit, brigand, voleur Dégrade le rappel
Polysémie Termes identiques utilisés dans des contextes sémantiques différents
Ex: base De données Immeuble Vectorielle
Dégrade la précision
34G. Gardarin
Extraction d’information: Les étapes [Roche 2004]
- - - - -
- - - - -
- - - - -
Corpus brut
- - - - -
- - - - -
- - - - -
Corpus nettoyé
- - - - -
- - - - -
- - - - -
Corpus étiqueté
- - - - -
- - - - -
- - - - -
Corpus composé de
Termes
Nettoyeur Etiqueteur
Grammatical
Extraction des termes
Détection des concepts
Extraction d’informations
35G. Gardarin
4. Vectorisation d'un texte
Présence de mots ou de phrases clés Pondération positive
Négation de mots ou de phrases clés Pondération négative (rarement pris en compte)
Indicateurs techniques Valuation par plage [x0,x1] Difficile à mixer à la fouille de texte
36G. Gardarin
Vectorisation des documents
Basé sur le lexique Présence (+) ou
absence (-)
docs
Lexique
VecteurRéductionVecteur
Réduit
37G. Gardarin
L’espace des vecteurs
Chaque document est vu comme une séquence de mots
Le nombre de mots du lexique présents dans les documents du corpus détermine la dimension de l’espace
38G. Gardarin
Représentation des documents
Représentation des documents
Vecteurs de document Matrice Terme/Document ou
Document/terme Nécessité de pondérer
Pondération (importance relative)
Nécessité de réduire l’espace
Réduction de dimension
w11 w12 w1d
w21 w22 w2d
wt1 wt2 wtd
t1
t2
tt
d1 d2 dd
Freq =
39G. Gardarin
Term frequency (TF)
Un terme qui apparait plusieurs fois dans un document est plus important qu’un terme qui apparaît une seule fois
wij = Nombre d’occurrences du terme ti dans le document dj
TFij = Fréquence du terme ti dans le document dj
j
ij
dw
TFij
40G. Gardarin
Inverse document frequency (IDF)
Un terme qui apparaît dans peu de documents est un meilleur discriminant qu’un terme qui apparaît dans tous les documents dfi = nombre de documents contenant le terme ti d = nombre de documents du corpus
Inverse document frequency
ii
dfdIDF log
41G. Gardarin
Pondération TF-IDF
TF-IDF signifie Term Frequency x Inverse Document Frequency : Proposée par [Salton 1989], mesure l'importance d’un
terme dans un document relativement à l’ensemble des documents.
tf i,j = fréquence du terme i dans le document jdf i = nombre de documents contenant le terme i N = d = nombre de documents du corpus
42G. Gardarin
Similarité entre documents
Permet de ranger les documents par pertinence
Le cosinus de l’angle est souvent utilisé
2d1d2dT1d2d1d
),cos( d1
d2
d3
• > cos()<cos()
• d2 est plus proche de d1 que de d3
43G. Gardarin
Réduction de dimension
Seuillage de fréquence Document Frequency Thresholding
Test du Ki-2 Détermine les termes les plus caractéristiques de
chaque catégorie LSI
Latent Semantic Indexing Réduction par changement de base
44G. Gardarin
Seuillage de fréquence
Feature Terms
Terms
Calculates DocFreq(w)
Sets threshold
Removes all words:DocFreq <
Training documents D
45G. Gardarin
Estimation d’indépendence entre termes et catégories
FEATURE TERMS
A:=|{d| d cj w d}|B:=|{d| d cj w d}|C:=|{d| d cj w d}|D:=|{d| d cj w d}|N:=|{d| d D}|
Sets threshold
Removes all words: X2max(w)<
TermsCategory setC={c1,c2,..cm}
DCBADBCA
CBADNcw j
2
2 ,X
jj
cwXwX ,22max max
Term categorical score
Ref:[11][20][21][27]
Test du Ki-2
46G. Gardarin
Latent Semantic Indexing (LSI)
Une technique de l’algèbre linéaire Décomposition en valeurs propres (SVD)
Essaie d’estimer les relations cachés Découvre les patterns d’association entre mots et
concepts conceptes Permet de réduire l’espace à K dimensions
Ex: de 10**6 à 100 ou 200
47G. Gardarin
Principe de LSI (1)
m<=min(t,d)
T: t m matrice orthogonale TT*T=ID: m N matrice orthogonale DT*D=IS: S matrice diagonale singulière non croissante
= ****
*SF T Dterms
documents
(t,d) (t,m) (m,m) (m,d)
48G. Gardarin
Principes de LSI (2)
Soit X une matrice terme-document F = [d1 . . . dd]
Latent Semantic Indexing Calcule les valeurs propres SVD de F:
Matrice singulière S non croissante Met à 0 toutes les valeurs sauf les K plus grandes Obtient appr(F) par : appr(F) = Tappr(S) D
49G. Gardarin
L'indexation en résumé
Les étapes Eliminer les mots de liaison (stop words) Remplacer chaque mot par sa racine+ (stems) Pondérer les termes (ex: TFIDF) Sélectionner les meilleurs termes Détecter des patterns (terme composé, groupe…) Convertir les documents en vecteurs
50G. Gardarin
5. Classification de documents
Trois algorithmes de classification supervisée souvent considérés KNN (K Nearest Neighbor)
Un document est classé dans la catégorie dominante parmi ses k plus proches voisins
Centroid Sélection de la catégorie de plus proche centroïde
Naïve Bayes Sélectionner la catégorie la plus probable
51G. Gardarin
Principe
Classificateur
doc classésVectorisés
doc Non classé Vectorisation
doc classé
52G. Gardarin
Classificateur Centroïde
Calculer le centroïde pour chaque catégorie en utilisant les exemples (training documents)
Moyenner les vecteurs document pour chaque catégorie
Le vecteur centroïde est utilisé comme modèle de la catégorie
Sélectionner les catégories Celles de plus haut score Avec un score plus grand qu'un
seuil
53G. Gardarin
Classificateur KNN
Calcul de similarité Entre le nouveau doc. et les exemples pré-classés Similarité(d1,d2) = cos(d1,d2) Trouve les k exemples les plus proches
Recherche des catégories candidates Vote majoritaire des k exemples Somme des similarités > seuil
Sélection d'une ou plusieurs catégories Plus grand nombre de votes Score supérieur à un seuil
54G. Gardarin
Naïve Bayes
Modèle probabiliste Basé sur l'observation de la présence des termes Etant donné un document d, on calcule :
probabilité(cat Ci/doc d) = P(Ci) j P(tj/Ci) où tj est le terme j Suppose l'indépendance entre les termes
La catégorie de plus grande probabilité est sélectionnée On peut utiliser un seuil pour en sélectionner plusieurs
55G. Gardarin
Autres classificateurs
SVM déterminer un hyperplan qui sépare au mieux les données
et dont la séparation (ou marge : distance séparant la frontière du plus proche exemple) est aussi grande que possible
Arbres de décisions Construire le meilleur arbre qui classe les données en
fonctions de prédicats sur attributs successifs Règles associatives
Trouver les produits (ici les mots) souvent employés ensemble pour caractériser une catégorie
56G. Gardarin
Évaluation des résultats
Mesures basés sur la table de contingences :
Rappel : mesure la largeur de la catégorisation ratio des documents bien classés par rapport à l’ensemble des documents
appartenant réellement à la catégorie. r=a/(a+c) Précision : mesure la qualité de la catégorisation
fraction des documents bien classés sur tous les documents affectés à la catégorie. p=a/(a+b); bruit = 1-precision
F-mesure mesure le compromis entre r et p: F1=2r*p/(r+p)
pré-étiqueté C1 pré-étiqueté C2Affecté à C1 a b a+b
Affecté à C2 c d c+d
a+c b+d a+b+c+d
57G. Gardarin
Précision et rappel: Exemple
D’après maybury@mitre.org
58G. Gardarin
6. Retour à l’exemple des CRH
Corpus:= Documents d'apprentissage (CRH+CIM) + Documents de tests (CRH)
Détermination des meilleurs mots
Determination FiltragePondération
59G. Gardarin
Rappel des objectifs
Aider le praticien à renseigner la rubrique code CIM pour un compte rendu hospitalier (CRH)
Prédire les codes CIM d’un CRH
Apprentissage automatique Phase préparation :
Construction d’un lexique Data mining textuel
Construction de modèle (apprentissage) Exploitation du modèle (classification)
60G. Gardarin
Processus de classification: Apprentissageensemble de documents d’exemple pré-affectés
pré-traiement & sélection des termes
représentation des documents
estimation des paramètres du classifieur
Classifieur
61G. Gardarin
Processus de classification: Classement
Utiliser leclassifieurscore(Ci, d)
affecter d à Ci
nouveau document d
document d avec la ou
les catégories affectées
représenter d
62G. Gardarin
Application aux CRH
Catégorisation Proposition d’une liste de codes CIM dans
l’ordre des scores. Le praticien décide lesquels affecter au CRH.
CRH Moteur de catégorisation
Z489K720C182E834
R042Ontologiedes cas
…
63G. Gardarin
Spécificités
Catégories nombreuses théoriquement ~30000 (en pratique ~2000). Les corpus d’apprentissage connus ont au maximum
~200 catégories Catégories non exclusives
De 1 à 36 CIM par CRH (moyenne 5). L’algo. doit proposer des dizaines La plupart des travaux considère 1 ou 2 catégories.
Catégories hiérarchiques Ontologie des maladies connue (Arbre CIM-10)
64G. Gardarin
Nombre de catégories par document
Catégories par Document
0
1000
2000
3000
4000
5000
6000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 30 32
Nombre de catégories
Num
ber o
f doc
umen
ts
65G. Gardarin
Phase de préparation
Construction du lexique On utilise un dictionnaire médical intégré
(Dicomed)Les concepts = les termes médicaux
On retient la liste des concepts associés à chaque CRH
Vectorisation Basée sur TF-IDF
66G. Gardarin
Méthode proposée – Régression matricielle (1)
Basée sur la régression C = V * W + B B le biais est pris = 0 W est la matrice de transition des termes (V) aux
catégories (C) C donne une probabilité pour chaque catégorie
67G. Gardarin
Régression matricielle (2)
A l’image de la régression linéaire, on cherche les paramètres d’une fonction liant les termes ti aux catégories cj à prédire.
Construit une matrice de poids (termes/CIMs)
Où:
Wij =dk in cj(tf-idfi,k)
Structure de W
CIMs
TCTT
C
C
www
wwwwww
W
..............................................................
21
22221
11211
Termes
68G. Gardarin
Algorithme d'apprentissage
Entrée : collection d’apprentissage : D ={d1,.dn} ; Obtenir l’ensemble des termes de la collection
d’apprentissage : T ={t1, …tm} Obtenir l’ensemble des codes CIM de la collection
d’apprentissage : C={c1, …ck} Attacher la matrice W à ces deux ensembles
Initialiser la matrice à zèro Pour chaque document de la collection d’apprentissage
Pour chaque terme i du document courant Pour chaque code CIM j du document courant
wij += TF-IDF ;
69G. Gardarin
Classement d'un document
En phase de classement : On fait le produit du vecteur du document et de la matrice
W pour obtenir un score par catégorie On retient les scores au-delà d’un seuil donné par
l’utilisateur Mesure de la qualité :
Le seuil permet de jouer sur le rappel et la précision. On choisit généralement un compromis entre rappel et
précision en maximisant la F-mesure.
70G. Gardarin
Résultats comparatifs
MR est meilleure que centroide, k-NN et SVM
MR, k-NN, SVM and Centroid
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,840,750,680,620,570,520,470,430,380,330,290,260,240,210,190,170,150,140,12
Recall
Prec
isio
n MRk-NNSVMCentroid
r=0.431p=0.359
r=0.213p=0.258 r=0.330
p=0.240
r=0.237p=0.349
r=0.330p=0.298