Techniques du Data Mining -...

Fahmi Ben Rejab

Année universitaire 2019/2020

Techniques duData Mining

Clustering: K-means

Clustering

• L'apprentissage automatique (machine learning en anglais)

est un champ d'étude de l’IA.

• Il est relatif au développement de méthodes permettant à une

machine d'évoluer

Les algorithmes d’apprentissage peuvent se catégoriser selon le

type d’apprentissage qu’ils emploient :

L'apprentissage supervisé: classification, ensemble d’objets

préalablement étiqueter.

L'apprentissage non-supervisé: clustering

• Regroupement (Clustering): construire une collection d’objets

– Similaires au sein d’un même groupe

– Dissimilaires quand ils appartiennent à des groupes

différents

• Le Clustering est de la classification non supervisée: pas de

classes prédéfinies

• On ne disposent que d'exemples (des objets), mais non

d'étiquettes, et le nombre de clusters et leur nature n'ont pas été

prédéterminés,

• Il permet d’avoir une structure des données par le

regroupement des données qui se ressemblent.

• Une bonne méthode de regroupement permet de garantir

– Une grande similarité intra-groupe

– Une faible similarité inter-groupe

• La qualité d’un regroupement dépend donc de la mesure de

similarité utilisée par la méthode et de son implémentation

• Cluster= groupe d’objets

Exemple de3 clusters: k=3

• K-means: données numériques

• K-modes: données catégoriques

• k-prototypes: données mixtes (numériques et catégoriques)

• ….

K-means: k-moyennes

Proposée par MacQueen, 1967

Traite des données quantitatives

Chaque cluster est représenté par son centre

Possibilité d’utiliser plusieurs distance

L’algorithme k-means est en 4 étapes :

1. Choisir k objets formant ainsi k clusters

2. (Ré)affecter chaque objet O au cluster Ci de centre Mi tel

que dist(O,Mi) est minimal

3. Recalculer Mi de chaque cluster

4. Aller à l’étape (2) si on vient de faire une affectation

• A={1,2,3,6,7,8,13,15,17}. Créer 3 clusters à partir de A

• On prend 3 objets au hasard. Supposons que c’est 1, 2 et 3.

Ca donne C1={1}, M1=1, C2={2}, M2=2, C3={3} et M3=3

• Chaque objet O est affecté au cluster au milieu duquel, O est

le plus proche. 6 est affecté à C3 car dist(M3,6)<dist(M2,6) et

dist(M3,6)<dist(M1,6)

On a C1={1}, M1=1,

C2={2}, M2=2

C3={3, 6,7,8,13,15,17}, M3=69/7=9.86

• dist(3,M2)<dist(3,M3)3 passe dans C2. Tous les autres objets ne bougent pas. C1={1}, M1=1, C2={2,3}, M2=2.5,C3={6,7,8,13,15,17} et M3= 66/6=11

• dist(6,M2)<dist(6,M3)6 passe dans C2. Tous les autres objets ne bougent pas. C1={1}, M1=1, C2={2,3,6}, M2=11/3=3.67, C3={7,8,13,15,17}, M3= 12

• dist(2,M1)<dist(2,M2)2 passe en C1. dist(7,M2)<dist(7,M3) 7 passe en C2. Les autres ne bougent pas. C1={1,2}, M1=1.5, C2={3,6,7}, M2=5.34, C3= {8,13,15,17}, M3=13.25

• dist(3,M1)<dist(3,M2)3 passe en 1. dist(8,M2)<dist(8,M3)8 passe en 2

C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15

Plus rien ne bouge

0 1 2 3 4 5 6 7 8 9 10

0 1 2 3 4 5 6 7 8 9 100

0 1 2 3 4 5 6 7 8 9 10

La mesure de distance choisie pour calculer la similarité:

la distance Euclidienne d(i,j):

• où i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) sont deux objets

)||...|||(|),( 22

11 pp jx

Propriétés

• d(i,j) 0

• d(i,i) = 0

• d(i,j) = d(j,i)

Propriétaire Nbre anciens crédits

O1 2 2

O2 0 0

O3 3 1

O4 1 0

• Soient 4 clients {O1, O2, O3 et O4} demandant un crédit

• Le but est de faire des groupes de clients selon leurs natures:

ceux qui se ressemblent sont groupés ensemble.

• on dispose de 2 clusters: k=2

• On prend au hasard 2 objets comme centre initiaux.

• C1={O1}, C2={O2},

• M1={2,2}; M2={0,0}

• d(O1, M1)=racine[|2-2|2 + [|2-2|2 ]=0

• d(O2, M1)=racine[|0-2|2 + [|0-2|2 ]=racine(8)=2.82

• d(O1, M2)=racine[|2-0|2 + [|2-0|2 ]= racine(8)=2.82

• d(O2, M2)=racine[|0-0|2 + [|0-0|2 ]=0

• d(O4, M2)=racine[|1-0|2 + [|0-0|2 ]=racine(1)=1

• C1={O1,O3} , M1={2.5; 1.5}

• C2={O2,O4}, M2={0.5; 0}

• d(O1, M1)=racine[|2-2.5|2 + [|2-1.5|2 ]=racine(0.25+0.25)=0.7

• d(O1, M2)=racine[|2-0.5|2 + [|2-0|2 ]= racine(2.25+4)=2.5

• d(O2, M2)=racine[|0-0.5|2 + [|0-0|2 ]=racine(0.25)=0.5

• d(O3, M2)=racine[|3-0.5|2 + [|1-0|2 ]=racine(6.25+1)=2.69

• d(O4, M2)=racine[|1-0.5|2 + [|0-0|2 ]=racine(0.25)=0.5

• C1={O1,O3} ,

• C2={O2,O4}

• Condition d’arrêt= partition stable

• Force

– Relativement efficace: O(tkn), où n est # objets, k est #clusters, et t est # itérations. Normalement, k, t << n.

– Rapide

• Faiblesses

– N’est pas applicable en présence d’attributs qui ne sont pasdu type intervalle (moyenne=?)

– On doit spécifier k (nombre de clusters)

– Les clusters sont construits par rapports à des objetsinexistants (les milieux)

Question

Comment faire

pour les données

catégoriques?

Techniques du Data Mining -...

Documents

Transcript of Techniques du Data Mining -...

Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

L'utilisation du data mining pour la

Data Mining - CEREMADEtouati/SODAS/EXEMPLES/... · 2013. 4. 16. · Les techniques statistiques du data mining sont bien connues. Il s’agit notamment de la régression linéaire

M1 MARKETING ET CRM M2 DATA MINING ET …...Data Mining, consultant marketing, chargé d’études marketing, directeur des études, responsable relation client, directeur relation

Introduction au Data Mining - Laboratoire ERIC - Unité de ...

Data Mining Intoutsi/DM1.SoSe19/lectures/1... · 2019-04-10 · Data Mining –Data Science –Big Data –Machine Learning –Deep Learning Analytics … New fancy words for knowledge

DATA MINING Analyses de données symboliques sur les ...

Big data-mining par Jobijoba

Data Mining. Pourquoi le data mining ? Disponibilité croissante de quantité énorme de données Données sur les clients Numérisation de textes, images,

Techniques du data mining

Apprentissage Statistique, Modélisation, Prévision, Data Mining

ACO-FFDP : Approche de clustering incrémental basée sur la … · 2018-06-11 · Big Data Mining, elles ont également joué un rôle de premier ... Elles visent des familles d’individus

Fouille de données massives - Big Data Miningeric.univ-lyon2.fr/~jjacques/Download/Cours/Big-Data-Mining-JJ.pdf · analyse factorielle ACP, AFC, ACM clustering 10 / 77. La fouille

Data Mining : qu’est ce que l’exploration de donnéesnew.maxlefebvre.fr/.../uploads/2020/01/datamining.pdf · 2020-01-20 · Data Mining : qu’est ce que l’exploration de données

Data Mining & Scoring

La sécurité informatique par le Data Mining

Data mining - Universitat de València Data Mining... · 2018-11-23 · Analyse de corrélation et de causalité Business Intelligence Business Intelligence (BI) est un concept proposé

Data Mining/Machine Learning - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2016-01-07 · Clustering : modélisation statistique Clustering par modélisation statistique

Data Mining « Fouille de donnéesO Extraction de connaissances intéressantes (règles, régularités, patterns, contraintes) à partir de données Tâches réalisées en Data Mining

COURS DE DATA MINING 5 - bliaudet.free.frbliaudet.free.fr/IMG/pdf/Cours_de_data_mining_5-Arbres_de_decision... · EPF - 4 ème année - IAP - Cours de Data mining –5 : Arbres de