Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf ·...

46
REPUBLIQUE TUNISIENNE MINISTERE DE L’ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L’INFORMATIQUE Organisme d’accueil : Faculté des Sciences de Tunis. Réalisé par : Heithem ABBES. Majed CHATTI. Encadré par : Mr. Mohamed JEMNI. Mme. Khadija ARROUR. Mr. Yahia SLIMANI. ANNEE UNIVERSITAIRE 2002/2003 PROJET DE FIN D’ETUDES D’INGENIEURS EN INFORMATIQUE Etude d’Algorithmes Parallèles de Data Mining

Transcript of Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf ·...

Page 1: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

REPUBLIQUE TUNISIENNEMINISTERE DE L’ENSEIGNEMENT SUPERIEUR,

DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUEUNIVERSITE DE TUNIS ELMANAR

FACULTE DES SCIENCES DE TUNISDEPARTEMENT DES SCIENCES DE L’INFORMATIQUE

Organisme d’accueil : Faculté des Sciences de Tunis.

Réalisé par : Heithem ABBES. Majed CHATTI.

Encadré par : Mr. Mohamed JEMNI.�Mme. Khadija ARROUR.Mr. Yahia SLIMANI.

ANNEE UNIVERSITAIRE 2002/2003

PROJET DE FIN D’ETUDESD’INGENIEURS EN INFORMATIQUE

Etude d’Algorithmes Parallèles de Data Mining

Page 2: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

2/44

Plan

� Introduction.� Algorithmes séquentiels.� Algorithmes parallèles.� Implémentations parallèles.� Evaluation expérimentale.� Conclusion et perspectives.

Page 3: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

3/44

Introduction

Page 4: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

4/44

Introduction� Augmentation des volumes des bases de données

� Extraction d’informations implicites.

� Emergence de nouvelles techniques.� Knowledge Discovery in Databases (KDD).� Data Mining, Text Mining, Web Mining, Multimedia Mining.

� Intérêts du Data Mining :� Marketing, Médecine …

� Algorithmes séquentiels de recherche de règles associatives.

� Problèmes de performances

� Nouvelles approches parallèles.

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Page 5: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

5/44

Algorithmes séquentiels

�Règles Associatives.�Algorithme Apriori.�Exemple.�Conclusion.

Page 6: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

6/44

Règles associatives

� Règles associatives (Agrawal).� A B� Exemple:

� Age > 25 & Revenu < 8000 modèle_voiture=populaire

� Concepts de base:� Support : nombre d’apparitions / nombre de transactions.

� Soit supmin le support minimum accepté.� Support de la règle : sup(A B) = sup(A U B) � Confidence : pourcentage des transactions contenant B sachant qu’elles contiennent A.� Confidence de la règle : conf(A B) = sup (A U B) / sup(A)

� Recherche de Règles associatives.

� Décomposition du problème: � Générer l’ensemble des items fréquents.� Déduire les règles associatives.

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Page 7: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

7/44

� L’algorithme Apriori (Agrawal)� Déterminer l’ensemble des 1-itemsets_fréquents.� Générer l’ensemble des k-itemsets_candidats à partir de l’ensemble

des (k-1)-itemsets_fréquents.� Calculer les supports des items candidats.� Déterminer l’ensemble des k-itemsets_fréquents (minsup).

� L’algorithme AprioriTID� Représente une amélioration de l’algorithme Apriori.� Moins d’accès à la base de données.� Remplacer la base de données par un ensemble intermédiaire.

Algorithme AprioriIntroduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Page 8: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

8/44

Exemple (1/3)

minsup = 2

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

BC6BE5

ABE4A B C3AB C 2

A C D E1ItemsTid

Base de données

Page 9: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

9/44

23233SupportBEBCAEACABItems

1CE

1D

Exemple (2/3)

3E

4C

5B

4A

SupportItems

Support

Items

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

4A

5B

4C

3E

� Calcul des supports des 1-itemset_candidats.

� Génération de l’ensemble des 1-itemsets_frequents.

� Génération de l’ensemble des 2-itemsets_candidats.

Page 10: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

10/44

12Support

ABEABCItems

1

Exemple (3/3)

Support

Items

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Support 2BE

3BC

2AE

3AC

3ABItems CE3

AB3

AC2

AE3

BC2

BE

� Génération de l’ensemble des 2-itemsets_frequents.

� Génération de l’ensemble des 3-itemsets_candidats.� Génération de l’ensemble {ABC, ABE, ACE, BCE}.� Elimination des items : ACE, BCE car CE n’est pas fréquent.

� Génération de l’ensemble des 3-itemsets_frequents = ABC.

� Ensemble des candidats = Ø FIN.

Page 11: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

11/44

Conclusion

� Caractéristiques des algorithmes séquentiels� Coût Exponentiel� Plusieurs scans de la base de données� Très mauvaises performances

� Solution � Parallélisme ?

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Page 12: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

12/44

Algorithmes parallèles

�Count Distribution (CD).�Data Distribution(DD).�Intelligent Data Distribution(IDD).

Page 13: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

13/44

Count Distribution (CD) (1/2)Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Count Distribution (CD)

� Agrawal & Shafer.

� Répartition de la base de données sur les processeurs.

� Pas de division de l’ensemble des candidats.

� Redondance de traitement.

� Accès à la base.

� Calcul des supports.

� Communication à la fin du calcul.

� Opération de réduction globale.

Page 14: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

14/44

Count Distribution (CD) (2/2)

� Etape préliminaire : générer l’ensemble des items fréquents.

� Première étape : générer l’ensemble des items candidats à partir de l’ensemble des items fréquents générés à l’itération précédente.

� Deuxième étape : calculer les support des items candidats.

� Troisième étape : échanger des supports calculés entre les différents processeurs.

� Quatrième étape: générer l’ensemble des items fréquents.

� Cinquième étape : terminer / revenir à la première étape.

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Page 15: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

15/44

Data Distribution (DD) (1/2)Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Data Distribution (DD)

� Agrawal & Shafer.

� Partitionne la base de données.

� Partitionne l’ensemble des candidats (Aléatoire).

� Echange de buffers de données.

� Communication de type ALL-TO-ALL.

Page 16: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

16/44

Data Distribution (DD) (2/2)Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

� Etape préliminaire : générer de l’ensemble des items fréquents.

� Première étape : - générer l’ensemble items candidats.- répartir cet ensemble sur les processeurs.

� Deuxième étape : calculer les supports des candidats locaux.

� Troisième étape : former l’ensemble local des items fréquents.

� Quatrième étape : échanger ces ensembles entre les processeurs.

Page 17: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

17/44

Intelligent Data Distribution (IDD)

� Amélioration de DD.� Processus de communication en

anneau logique.

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Intelligent Data Distribution (IDD)

Page 18: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

18/44

Implémentations parallèles

� Data Distribution.� Processus de communication.� Programme.

� Intelligent Data Distribution� Processus de communication.� Programme.

Page 19: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

19/44

Data Distribution (1/4)

� Processus de communication:

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

P0

P3 P1

P2

Communication ALL_TO_ALL

� Quatre processeurs P0,P1,P2,P3

� P0 transmet ses données à P1,P2,P3.

� P1 transmet ses données à P0,P2,P3.

� P2 transmet ses données à P0,P1,P3.

� P3 transmet ses données à P0,P1,P2.

� Chaque processeur transmet ses données à tous les autres.

Page 20: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

20/44

Non Oui

Data Distribution (2/4)� Programme:

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Non

Oui

Etape préliminaire

C vide

Calcule support

Recherche items fréquents

Comp

Collecte items fréquents

Générer candidats

Fin

Condition = le nombre d’apparitions est supérieur au support minimum.

Ce test est vrai lorsque le nombre de candidats est supérieur au nombre de processeurs.Chaque processeur transmet son

calcul local à tous les autres pour construire l’ensemble global des items fréquents.

Génération de l’ensemble des candidats de taille k+1

Ce test est vrai s’il n y’a plus de candidats.

Déterminer les items distincts, leurs supports, puis éliminer les items

non fréquents et générer l’ensemble candidat e taille 2.

Accède à la base locale et les autres bases pour calculer les supports des items candidats

Page 21: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

21/44

Intelligent Data Distribution(1/2)

� Processus de communication:� Deux communications point à point : émission et réception.� Copie du contenu du buffer de réception dans le buffer d’émission.

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

P3 P1

P2

P0

RBuf SBuf

Copie

Copie

RBuf

SBufRBuf

SBuf

Copie

Communication en anneau logique

SBuf RBuf

Copie

Page 22: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

22/44

Intelligent Data Distribution (2/2)� Fonction calcul support:

Non

Non

Oui

Oui

Ouverture du fichier de base de données

Remplir buffer SBuf

Traiter SBuf

Wait

Copier RBuf dans SBuf

Incrémenter compt

Fin Fichier?

Comp

Fin

Déclencher l’émission de SBuf

Déclencher la réception dans RBuf

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Emission asynchrone non bloquante (MPI_Isend)Réception asynchrone non

bloquante (MPI_Irecv)

Attendre la fin des opérations de communication asynchronesCopier RBuf dans Sbuf pour une nouvelle communicationCes opérations sont répétées

(p-1) fois

Page 23: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

23/44

Evaluation expérimentale� Environnement de travail.

� Machine parallèle SP2.� Bibliothèque MPI.

� Exécution séquentielle.� Exécution parallèle de DD.� Exécution parallèle de IDD.� Comparaison entre DD et IDD.� Synthèse.

Page 24: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

24/44

Environnement de travailIntroduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

� Machine parallèle SP2.� 8 nœuds.� 4 processeurs par nœuds.� Entre nœuds: mémoire distribuée.� Au sein d’un même nœud: mémoire partagée.

� Bibliothèque MPI� Interface de communication entre processus.

� Base de données synthétique d’IBM de 100000 transactions.

Page 25: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

25/44

Exécution séquentielle

� DD/IDD sur un seul processeur.� Nécessaire pour calculer les paramètres du parallélisme.

� Accélération : temps séquentiel/temps parallèle. .� Efficacité : accélération/nombre de processeurs.

� Temps d’exécution augmente lorsque le support diminue.

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

0500

100015002000250030003500400045005000

10% 9% 8% 7% 6% 5%

support

tem

ps d

'exe

cutio

n

seq

0500

100015002000250030003500400045005000

10% 9% 8% 7% 6% 5%

support

tem

ps d

'exe

cutio

n

seq

Page 26: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

26/44

Exécution parallèle de DD (1/2)Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

� Supports 10%, 9%, 8% :� communication importante/traitement.� pas de communication au sein d’un même nœud. � Meilleur temps d’exécution obtenu avec 4 processeurs.

� Support 7% :� Traitement augmente légèrement.� Apport du parallélisme non apparent� Meilleur résultat obtenu avec 8 processeurs.

0

250

500

750

1000

1250

1500

1750

2000

2250

2500

2750

3000

3250

3500

3750

4000

4250

4500

4750

10% 9% 8% 7% 6% 5%

Support

Tem

ps d

'exé

cutio

n

Sequentielle2 procs

4 procs8 procs12 procs

16 procs

Page 27: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

27/44

Exécution parallèle de DD (2/2)Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

� Support 6% :� Part de traitement augmente.� Inutile de passer jusqu’à 16 processeurs. � Meilleur temps d’exécution obtenu

avec 12 processeurs.

� Support 5% :� Apport du parallélisme est

nettement perceptible.� Meilleur temps d’exécution

obtenu avec 16 processeurs.

0

250

500

750

1000

1250

1500

1750

2000

2250

2500

2750

3000

3250

3500

3750

4000

4250

4500

4750

10% 9% 8% 7% 6% 5%

Support

Tem

ps d

'exé

cutio

n

Sequentielle2 procs4 procs8 procs12 procs16 procs

Page 28: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

28/44

Exécution parallèle de IDD Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

� Supports 10%, 9%, 8% :� Meilleur temps donné par 8 processeurs grâce au mode de communication.

� Support 7% :� Plus de traitement .� Meilleur temps de réponse donné par 12 processeurs

� Supports 6% et 5%:� l’exécution sur 16 processeurs donne le meilleur temps de réponse.

0

250

500

750

1000

1250

1500

1750

2000

2250

2500

2750

3000

3250

3500

3750

4000

4250

4500

4750

10% 9% 8% 7% 6% 5%

Support

Tem

ps d

'exé

cutio

n

sequentiel2 procs4 procs8 procs12 procs16 procs

Page 29: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

29/44

Comparaison entre DD et IDD (1/14)

� Cas de deux processeurs:� temps d’exécution:

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

0

500

1000

1500

2000

2500

3000

3500

10% 9% 8% 7% 6% 5%

support

Tem

ps d

'exé

cutio

n

DDIDD

0

500

1000

1500

2000

2500

3000

3500

10% 9% 8% 7% 6% 5%

support

Tem

ps d

'exé

cutio

n

DDIDD

� Deux processeurs de même nœud.

�Communication à travers la mémoire partagée

� Différence entre DD et IDD

� Processus de communication

� Même résultat pour DD et IDD.

Courbes d’exécution de DD et IDD sur 2 processeurs

Page 30: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

30/44

Comparaison entre DD et IDD (2/14)

� Accélération :

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

� Support diminue => traitement augmente.

� Plus de synchronisations.

� accélération diminue légèrement.

� Même temps d’exécution pour DD et IDD.

� Même accélération pour DD et IDD

1,35

1,4

1,45

1,5

1,55

1,6

1,65

1,7

1,75

10% 9% 8% 7% 6% 5%

support

acce

lera

tion

IDD

DD

1,35

1,4

1,45

1,5

1,55

1,6

1,65

1,7

1,75

10% 9% 8% 7% 6% 5%

support

acce

lera

tion

IDD

DD

Courbes d’accélération de DD et IDD sur 2 processeurs

� Cas de deux processeurs :

Page 31: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

31/44

Comparaison entre DD et IDD (3/14)

� Cas de quatre processeurs:Temps exécution Accélération

0200400600800

100012001400160018002000

10% 9% 8% 7% 6% 5%

support

Tem

ps d

'exé

cutio

n DDIDD

0200400600800

100012001400160018002000

10% 9% 8% 7% 6% 5%

support

Tem

ps d

'exé

cutio

n DDIDD

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

0

0,5

1

1,5

2

2,5

3

3,5

10% 9% 8% 7% 6% 5%

support

acce

lera

tion

IDD

DD

� Quatre processeurs de même nœud.� Même constatations que sur 2 processeurs.� Plus de synchronisations => décélération plus importante.

Courbes d’exécution de DD et IDD sur 4 processeurs Courbes d’accélération de DD et IDD sur 4 processeurs

Page 32: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

32/44

Comparaison entre DD et IDD (4/14)

� Cas de huit processeurs:� Temps d’exécution:

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

0100200300400500600700800900

100011001200

10% 9% 8% 7% 6% 5%

support

Tem

ps d

'éxe

cutio

n DDIDD

0100200300400500600700800900

100011001200

10% 9% 8% 7% 6% 5%

support

Tem

ps d

'éxe

cutio

n DDIDD

� IDD meilleur que DD

� Différence négligeable.

Courbes d’exécution de DD et IDD sur 8 processeurs

Page 33: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

33/44

3,471,59

4,514,624,733,533,32Accélération IDD4,193,933,142,191,67Accélération DD5%6%7%8%9%10%support

Comparaison entre DD et IDD (5/14)

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

� Cas de huit processeurs:� Accélération:

� Pour les support élevés: DD donne des accélérations faibles.

� DD s’améliore pour les supports faibles.

� IDD donne de meilleures accélérations même sur 10% et 9%.

� Apport de IDD au niveau de la communication par rapport à DD.

Tableau d’accélérations du DD et IDD

Page 34: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

34/44

Comparaison entre DD et IDD (6/14)

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Courbes d’accélération de DD et IDD sur 8 processeurs

Pour IDD :� Supports 10% , 9% , 8%:

� Communication élevée.� Faible accélération.

� Support 7% : � Nombre de candidats augmente.� Traitement augmente.� Meilleure accélération.

� Supports 6% et 5% :� Légère diminution de l’accélération.� Nombre de processeurs insuffisants.

0

1

2

3

4

5

6

7

8

10% 9% 8% 7% 6% 5%

support

acce

lera

tion

IDD

DD

� Cas de huit processeurs:

Page 35: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

35/44

Comparaison entre DD et IDD (7/14)

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Pour DD :�Processus de Communication non performant.

� Accélération médiocre pour les supports élevés.

� Support diminue =>Accélération augmente.

� Accélération ne dépasse jamais celle de IDD.

� Cas de huit processeurs:

Courbes d’accélération de DD et IDD sur 8 processeurs

0

1

2

3

4

5

6

7

8

10% 9% 8% 7% 6% 5%

support

acce

lera

tion

IDDDD

Page 36: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

36/44

Comparaison entre DD et IDD (8/14)

� Cas de douze processeurs:� Temps d’exécution:

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

� Plus de communication.

� La différence entre DD et IDD est plus importante.

0100200300400500600700800900

1000

10% 9% 8% 7% 6% 5%

support

Tem

ps d

'exe

cutio

n DDIDD

0100200300400500600700800900

1000

10% 9% 8% 7% 6% 5%

support

Tem

ps d

'exe

cutio

n DDIDD

Courbes d’exécution de DD et IDD sur 12 processeurs

Page 37: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

37/44

Comparaison entre DD et IDD (9/14)

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

6,276,325,432,792,522,26Accélération IDD

5,194,152,471,270,950,85Accélération DD

5%6%7%8%9%10%support

� DD donne des résultats médiocres

� DD moins performant que l’algorithme séquentiel pour 10% et 9%.

� IDD donne une faible accélération pour 10% et 9% mais nettement meilleure que celle de DD.

� Pour les supports 6% et 5% la différence entre DD et IDD diminue.� La part de traitement est plus importante par rapport à celle de communication.

Tableau d’accélérations du DD et IDD

� Cas de douze processeurs:� Accélération:

Page 38: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

38/44

Comparaison entre DD et IDD (10/14)

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Courbes d’accélération de DD et IDD sur 12 processeurs

� Pour IDD :� Passage de 8% à 7%� Amélioration importante de l’accélération. � Nombre de processeurs insuffisants à partir de 6%.� Légère atténuation de la courbe.

� Pour DD : � Support diminue=>Accélération augmente.� Accélération ne dépasse jamais celle de IDD

0

1

2

3

4

5

6

7

8

10% 9% 8% 7% 6% 5%

support

acce

lera

tion

IDD

DD

� Cas de douze processeurs:� Accélération:

Page 39: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

39/44

Comparaison entre DD et IDD (11/14)

� Cas de seize processeurs :� Temps d’exécution :

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

600,89310,54159,47144,56145,49138,74Temps parallèle IDD

855,11560,44400,75379,79360,11356,44Temps parallèle DD

4495,861960,99758,11355,69233,13206,75Temps séquentiel

5%6%7%8%9%10%Support

� DD est moins performant que l’algorithme séquentiel pour les supports suivants : 10%, 9% et 8%.

� IDD donne de mauvais temps de réponses pour ces supports mais ne dépasse pas le temps séquentiel.

Tableau d’accélérations du DD et IDD

Page 40: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

40/44

Comparaison entre DD et IDD (12/14)

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

0100200300400500600700800900

10% 9% 8% 7% 6% 5%

support

Tem

ps d

'exé

cutio

n DDIDD

0100200300400500600700800900

10% 9% 8% 7% 6% 5%

support

Tem

ps d

'exé

cutio

n DDIDD

Courbes d’exécution de DD et IDD sur 16 processeurs

� La différence entre DD et IDD est plus perceptible.

� Cas de seize processeurs :� Temps d’exécution :

Page 41: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

41/44

Comparaison entre DD et IDD (13/14)

7,486,314,752,461,601,49Accélération IDD

5,263,501,890,940,650,58Accélération DD

5%6%7%8%9%10%support

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

� Sur 16 processeurs : apport net de IDD par rapport à DD.

� Pour 10% : accélération très faible.

� Pour 5% : bonne accélération.

Tableau d’accélérations du DD et IDD

� Cas de seize processeurs :� Accélération :

Page 42: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

42/44

Comparaison entre DD et IDD (14/14)

0

1

2

3

4

5

6

7

8

10% 9% 8% 7% 6% 5%

support

acce

lera

tion

IDD

DD

0

1

2

3

4

5

6

7

8

10% 9% 8% 7% 6% 5%

support

acce

lera

tion

IDD

DD

Courbes d’accélération de DD et IDD sur 16 processeurs

� Pour IDD :� Pas d’atténuation de la courbe.

� Pour DD :� accélération s’améliore de plus en plus que le support diminue.

� Ne dépasse jamais celle de IDD.

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

� Cas de seize processeurs :� Accélération :

Page 43: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

43/44

Synthèse

� Pour DD, avec des support élevés, les meilleurs temps de réponse sont donnés par l’exécution sur 4 processeurs.

� Pour des supports faibles, 4 processeurs ne suffisent plus.

� Si nous augmentons le nombre de processeurs sans diminuer le support, DD devient moins performant que l’algorithme séquentiel à partir de 12 processeurs.

� L’apport de IDD est d’autant plus perceptible que le support est faible et que le nombre de processeur est élevé.

� Les résultats données par IDD sont toujours plus meilleurs que ceux donnés par DD.

� IDD est bien meilleur que DDIDD est bien meilleur que DD.

� Accès disque + réseaux non rapide� DDéégradation des performances des deux algorithmesgradation des performances des deux algorithmes

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Page 44: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

44/44

Conclusion et Perspectives

Conclusion :� Les techniques de Data Mining suscitent de plus en plus d’intérêt.� Les algorithmes séquentiel on un coût exponentiel.� Les améliorations faites sur ces algorithmes ne sont pas intéressantes.� Le recours à des techniques de parallélisme semble être la meilleure

solution.� Les algorithmes de recherche de règles associatives réalisent plusieurs

passes sur la base de données.

Perspectives :� Prévoir une nouvelle approche qui réduit les accès au disque. � Prévoir une nouvelle Parallélisation de l’algorithme Apriori.

Introduction.Algorithmes séquentiels.Algorithmes parallèles.Implémentations parallèles.Evaluation expérimentale.Conclusion.

Page 45: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

45/44

PROJET DE FIN D’ETUDES D’INGENIEURS EN INFORMATIQUE

Etude d’Algorithmes Parallèles de Data Mining

Réalisé parHeithem ABBES. Majed CHATTI.

Encadré parMr. Mohamed JEMNI.�Mme. Khadija ARROUR.Mr. Yahia SLIMANI

MERCI POUR VOTRE ATTENTION

Pour plus d’informations veuillez contacter:[email protected] & [email protected]

Page 46: Etude d’Algorithmes Parallèles de Data Miningmajed-chatti.com/resources/Presentation_PFE.pdf · Support 3 3 2 3 2 Items AB AC AE BC BE 1 CE 1 D Exemple (2/3) 3 E 4 C 5 A B Su port

46/44

PROJET DE FIN D’ETUDES D’INGENIEURS EN INFORMATIQUE

Etude d’Algorithmes Parallèles de Data Mining

Réalisé parHeithem ABBES. Majed CHATTI.

Encadré parMr. Mohamed JEMNI.�Mme. Khadija ARROUR.Mr. Yahia SLIMANI

MERCI POUR VOTRE ATTENTION

Pour plus d’informations veuillez contacter:[email protected] & [email protected]