Download - Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Transcript
Page 1: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Département d’Informatique

MEMOIRE

Présenté par :

SABRI Mohammed

Pour obtenir

LE DIPLOME DE MAGISTER Spécialité : Informatique

Option : Informatique & Automatique

Intitulé :

Soutenue le : 31/10/2010 à la salle de conférences de la faculté des sciences

Devant les membres du jury :

Pr B. BELDJILALI, Professeur, Université d’Oran.

(Président)

Dr B. ATMANI, Maître de Conférences, Université d’Oran

(Rapporteur)

Dr K. BOUAMRANE, Maître de Conférences, Université d’Oran

(Examinateur)

Dr A. GHOMARI, Maître de Conférences, Université d’Oran

(Examinateur)

Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en

utilisant le Data Mining

Page 2: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Remerciements

Je tiens à remercier toutes les personnes qui ont contribué de manière directe ou indirecte à l’aboutissement de ce travail :

En premier lieu, je remercie vivement Dr. Baghdad ATMANI, responsable de l’équipe de recherche SIF, qui m’a permis de réaliser ce mémoire. J’ai apprécié son enthousiasme, sa disponibilité et sa gentillesse.

Je remercie le Pr. Bouziane BELDJILALI, le directeur du Laboratoire d’Informatique d’Oran, qui m’a permis de réaliser ce travail et d’avoir accepté d’être le président du jury.

Je remercie également les Dr. Karim BOUAMRANE et Dr. Abdelghani GHOMARI qui ont accepté d’être membres du jury.

Merci à tous les enseignants de la post-graduation : « Informatique et Automatique », qui ont tenu à nous encadrer durant toute notre formation de magister : Dr. D. HAMDADOU, Dr. N. TAGHZOUT, Dr. K. BOUAMRANE, Dr. G. BELALEM, Dr. B. ATMANI et Pr. B. BELDJILALI. Merci à tous.

Je remercie tous les membres du Laboratoire d’Informatique d’Oran et toutes personnes que j’ai connues au sein de l’université d’Oran.

Je remercie toutes les personnes du corps médical qui m’ont fourni tout l’apport nécessaire à la réalisation de ce travail, le Pr. M. BOUZIANI, chef de projet santé environnementale au laboratoire Biostatistique de l’université d’Oran, Dr. R. SABRI, médecin spécialiste en pneumo-phtisiologie, Dr. M. YAKHOU, Médecin spécialiste en diabétologie, Dr. H. SABRI, médecin généraliste et représentant médical d’un laboratoire pharmaceutique, Dr. A. GHOZALI, pharmacienne et spécialiste en hémobiologie, Dr. M. MAHDJOUB, pharmacien et propriétaire d’officine privée,…

Je remercie tous les responsables du type de logiciel choisi, Messieurs H. IMESSOUEDENE, M. SOUAFI, B. SABRI, pour leur précieuse aide.

Que tous ceux et celles que j’ai oubliés n’en reçoivent pas moins ma gratitude.

Page 3: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Dédicaces

Je dédie ce mémoire tout d’abord à mes chers parents pour leur soutien et encouragement,

Ainsi que tous les membres de ma famille, ma femme, mes sœurs, mes frères, mes belles sœurs, beaux frères, mes nièces et mes neveux.

Je dédie également ce mémoire à toute ma famille, mes oncles, tantes, cousins et cousines.

A tous mes amis, mes collègues de travail et à tous ceux et celles qui me connaissent.

A ma chère fille Nesrine Nour El Houda

Page 4: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Sommaire

Introduction générale

LE CADRE DE L’ETUDE 2

Chapitre 1. Etat De L’art – Le Domaine Pharmaceutique

ORGANISATION DU MEMOIRE 3

1. INTRODUCTION 4

2. LA SANTE PUBLIQUE 5

3. L’EPIDEMIOLOGIE 6

4. CAS PRATIQUE DE L’EPIDEMIOLOGIE : ETUDE DES MALADIES CHRONIQUES 7

5. LE DOMAINE PHARMACEUTIQUE 7

6.1. LA SANTE PUBLIQUE 9

6. TRAVAUX REALISES 8

6.2. LA GESTION ET LE CONTROLE DE CERTAINES PATHOLOGIES 10 6.3. SYSTEME D’AIDE A LA PRESCRIPTION MEDICALE 11 6.4. LA GESTION OPTIMALE DES STOCKS 11 6.5. LA REALISATION DES BENEFICES DANS LES VENTES DE MEDICAMENTS 11

7. CONCLUSION 12

Page 5: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2. Extraction des connaissances à partir des données

1. INTRODUCTION 13

2.1. COMPREHENSION DU DOMAINE 15

2. LES ETAPES DE L’ECD 14

2.2. INTEGRATION DES DONNEES 16 2.3. PRETRAITEMENT DES DONNEES 17

2.3.1. Sélection des données 17

2.3.2. Nettoyage et enrichissement des données 18

2.3.3. Transformation et réduction de la dimension 18

2.4. FOUILLE DE DONNEES 19 2.5. EVALUATION ET PRESENTATION 19

3.1. HISTORIQUE 20

3. FOUILLE DE DONNEES 20

3.2. DEFINITION 21 3.3. TACHES DE FOUILLE DE DONNEES 21

3.3.1. La classification 21

3.3.2. L’estimation 22

3.3.3. La prédiction 22

3.3.4. Groupement selon les affinités (les règles d’association) 23

3.3.5. La segmentation ou le Clustering 23

3.3.6. La description 23

3.4. LES METHODES DE LA FOUILLE DE DONNEES 23 3.4.1. Les règles d’association 24

3.4.2. Segmentation (Clustering) 25

3.4.3. Les réseaux neuronaux 26

3.4.4. Les algorithmes génétiques 26

3.4.5. Les arbres de décision 27

4.1. PRESENTATION 27

4. LES GRAPHES D’INDUCTION 27

4.2. PRINCIPE GENERAL 28

Page 6: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

4.3. COMPARAISON ENTRE LES ARBRES DE DECISION ET LES GRAPHES D'INDUCTION 34

4.4. ALGORITHMES CLASSIQUES 34

4. 4. 1. ID3 34

4. 4. 2. C4.5 37

4. 4. 3. CART 38

4. 5. LA METHODE SIPINA 38

Chapitre 3. Démarche proposée - Plateforme SARESM

5. CONCLUSION 42

1. INTRODUCTION 43

2.1. INTRODUCTION AUX ENTREPOTS DE DONNEES 45

2. L’ENTREPOSAGE DE DONNEES 44

2.1.1. Définitions 45

2.1.2. Concepts d'un entrepôt de données 46

2.2. L'ENTREPOT DE DONNEES DE SARESM 49

2.2.1. Les sources de données 49

2.2.2. L’intégration 51

2.2.3. La construction 51

2.2.4. La structuration 53

2.2.5. Modélisations de l’entrepôt de données de SARESM 53

2.2.6. Modélisations du magasin de données MACHR 55

3. PRETRAITEMENT DES DONNEES 56

4.1. LA MACHINE CELLULAIRE CASI 58

4. FOUILLE DE DONNEES - IGSS 57

4.2. EXEMPLE D'ILLUSTRATION DE LA MODELISATION BOOLEENNE 60

4.3. EXEMPLE DE DONNEES PHARMACEUTIQUES 64

5. CONCLUSION 68

Page 7: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4. Implémentation et Expérimentations

1. INTRODUCTION 69

2.1. PRESENTATION DU SGBD-R ORACLE 72

2. LA PLATEFORME SARESM 70

2.2. ENTREPOSAGE DE DONNEES 74

2.3. PRETRAITEMENT 77

2.4. IGSS 81

3. DONNEES EXPLOITABLES DE SARESM 82

4.1. BASE REGION OUEST (BRO) 85

4. EXPERIMENTATIONS 84

4.2. BASE DEPARTEMENTALES 87

4.3. DISCUSSION 88

Conclusion Générale

5. CONCLUSION 88

Bibliographie

CONCLUSION ET PERSPECTIVES 89

Annexe A : SARESM

BIBLIOGRAPHIE 91

1. CONNECTION A L’EDS SQUS ORACLE A-1

2. LE MODULE EXTRALAPH A-1

3. LE MODULE JOURNEDS A-2

Page 8: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

4. LE MODULE MAINTREF A-2

Annexe B : IGSS

5. LE MODULE SYMACHR A-2

1. LE MODULE IGSS B-1

Annexe C : Expérimentations - Suite et Détails

2. LA FOUILLE DE DONNEES B-2

1. BASE REGION OUEST (BRO) – 3EME EXPERIMENTATION C-1

2.1. BASE ORN C-3

2. LES BASES DEPARTEMENTALES C-3

2.2. BASE SBA C-4

2.3. BASE ATM C-4

2.4. BASE TLM C-6

Page 9: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

1

Introduction générale

«La santé est un état de complet bien-être physique, mental et social, et ne consiste pas seulement en une absence de maladie ou d'infirmité».

Organisation mondiale de la santé (OMS) - 1946

Le développement des systèmes d’informations et des technologies des ordinateurs et du stockage a, en effet, permis d’automatiser toutes les activités et tâches dans tous les domaines du monde réel, ce qui a entraîné un accroissement rapide de l'information disponible, et le développement des entrepôts de ces grands volumes de données (les Data Warehouses), et finalement, l'émergence du Data Mining dans les entreprises et les établissements.

Le terme « Data Mining » signifie « fouille de données ». Le but de la fouille de données est l’extraction des connaissances disponibles et jusque là cachées au sein des données de tout établissement pour être exploitables dans les différents domaines tels que le commerce, les banques, l’énergie, la gestion de la relation clients, l’environnement, la science, la médecine, la pharmacie, la santé publique, etc. Autrement dit, la fouille de données est employée pour trouver les nouveaux modèles, cachés ou inattendus d'un très large volume des données historiques, typiquement stockées dans un entrepôt de données.

Le domaine de la santé publique, avec ses différents aspects et ses nombreuses branches, reste la principale préoccupation de toute la population mondiale et elle est aux centres de toutes les activités humaines, et fait recours à plusieurs moyens de plusieurs disciplines, principalement les moyens scientifiques, technologiques et financiers, afin de permettre le bien être des personnes.

Nous étudions, dans le cadre de travail, une démarche de la fouille de données dans le monde de la santé publique, où nous contribuons par l’extraction de modèles pratiques – de suivi et de surveillance des maladies chroniques – basés sur une exploitation des données réelles de ventes en détail des médicaments dans les officines pharmaceutiques privées (en occurrence les pharmacies localisées dans la région ouest de l’Algérie).

Page 10: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Introduction générale

2

Le cadre de l’étude

Le présent travail consiste à fournir un système d’aide à la distribution des produits pharmaceutiques en Algérie guidé par la fouille de données aux pouvoirs (ou opérateurs) sanitaires et économiques nationaux à des fins de santé publique, pour une meilleur prise en charge de la santé du citoyen et de la société.

Le système a pour objectif de proposer une aide à la prise de décision concernant principalement l’établissement de politiques pour la planification de l’acquisition des produits pharmaceutiques (réapprovisionnement ou production) par rapport à la distribution géographique de l’utilisation (consommation) de ces produits. Cette distribution géographique est établie (dans notre cas) par rapport à une mesure : « aspect pathologique ».

Les maladies – ou pathologies en terme médical – sont au cœur de toutes les études de la santé publique et en particuliers les études épidémiologiques. Ces dernières feront l’objet de nos investigations, dans le cadre du présent projet, formulées en des recherches dans un de ses cas pratiques explicités par l’étude des maladies chroniques au niveau de l’Algérie, d’où nous procédons de la manière suivante :

- Etude des maladies chroniques suivantes : l’asthme, l’hypertension artérielle (HTA) et le diabète. Le choix a été fait à partir des recommandations et en concertation avec le laboratoire Biostatistique de l’université d’Oran1

- Traitement des informations collectées, principalement, des données réelles de ventes dans des officines pharmaceutiques au niveau de la région ouest du pays, enrichies par d’autres données telles que celles de la sécurité sociale et les référentiels médicaux (caractéristiques thérapeutiques des médicaments). Le traitement de ces données est réalisé par l’utilisation d’une démarche de fouille de données basée sur le principe de classification par les graphes d’induction et un langage booléen supporté par la machine cellulaire CASI

, et argumenté par l’intérêt national dans le domaine de la santé publique que représentent ces pathologies.

2

- Soumettre le résultat des différentes expérimentations à l’équipe épidémiologique du laboratoire Biostatistique de l’université d’Oran, dans un premier temps, pour validation, et dans un second temps, une éventuelle exploitation qui sera suivie par d’autres recherches en perspectives.

(Benamina et Atmani, 2008),

1 http://biostatoran.com 2 Cellular Automata for Symbolic Induction.

Page 11: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Introduction générale

3

Organisation du mémoire

Afin de mettre en évidence et de valoriser les différents travaux, le présent mémoire est composé de quatre chapitres :

Le chapitre 1 : « Etat de l’art », où nous abordons la santé publique et l’épidémiologie d’une manière générale et la mise en avant du domaine pharmaceutique à part entière (ventes en détail de médicaments). Nous y fournissons un état de l’art des différents travaux réalisés par rapport aux démarches de fouille de données.

Le chapitre 2 : « Extraction des connaissances à partir des données » qui introduit les étapes du processus de l’extraction des connaissances à partir des données en générale et, les techniques de fouille de données utilisées pour réaliser le projet en particulier.

Le chapitre 3 : « Démarche proposée » où la démarche pour la conception du système sera explicitée ainsi que les différents concepts théoriques liés à cette démarche du point de vue implémentation des solutions.

Le chapitre 4 : « Implémentation et expérimentations », où les résultats du système SARESM seront fournis ainsi qu’une étude comparative des différents résultats obtenus.

Enfin nous concluons par un ensemble de résultats obtenus en synthétisant les différentes expérimentations et en discutant des perspectives envisagées pour poursuivre ce projet.

Page 12: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

4

1

CHAPITRE Etat de l’art Le domaine pharmaceutique

«Des rayons chargés de bouteilles étiquetées faisaient deviner que la pharmacie y occupait plus de place que la science».

Le Médecin de campagne (1833)

Honoré de Balzac

1. Introduction

L’étude, développée dans le cadre de ce mémoire, concerne la recherche de modèles d’extraction de connaissances dans le domaine pharmaceutique en utilisant les techniques de fouilles de données.

Le présent chapitre met en avant le domaine fonctionnel étudié (pharmaceutique), dans lequel nous agissons afin d’y apporter une contribution informatique. Cette mise en avant est de proposer un état de l’art des travaux réalisés dans le domaine de la fouille de données pharmaceutiques.

En outre, nous procédons par situer le domaine pharmaceutique, d’une part, en le mettant dans un contexte général de santé publique, et d’autre part, en présentant l’épidémiologie, qui est une branche importante de la santé publique, comme domaine d’application de nos recherches. Nous définissons les concepts de santé publique et d’épidémiologie dans les sections 2 et 3. Ensuite, nous définissons le domaine pharmaceutique, auquel nous donnons un panorama des principaux travaux de recherches effectuées dans l’exploitation de ses données et en particulier la fouille de données.

Nous tenons à signaler, que l’aspect législatif et éthique dans la santé publique n’a pas été abordé dans cette étude. Il n’est certainement pas un domaine d’application pour la recherche d’un modèle à partir de la fouille de données, mais il représente une des conséquences de l’acharnement des entreprises productrices ou commerciales de produits pharmaceutiques afin de réguler l’utilisation de la fouille de données et ce à des fins de préserver la vocation de la santé publique, en lui évitant tout débordement ou dépassement de ces entreprises pour les profits financiers au détriment de la santé des gens (Martin et al., 2002).

Page 13: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 1

5

Etat de l’art – Le domaine pharmaceutique

2. La santé publique

La santé publique est définie comme l'étude, d'une part, des déterminants physiques, psychologiques et sociaux de la santé de la population et, d'autre part des actions à entreprendre en vue d'améliorer la santé de la population3

- Prévention, surveillance et maîtrise (contrôle) des maladies : prévention des risques, surveillance des maladies, maîtrise d’épidémies, vaccination.

.

Par ailleurs, la santé publique peut être définie par ses objectifs qui convergent vers un point commun et qui est de réduire l’apparition de la maladie et maintenir la population en santé, plutôt qu’un cadre théorique unique (Pommier et Grimaud, 2007). Pommier et Grimaud, (2007) estiment que, de ce point de vue, les éléments essentiels de la théorie et de la pratique de santé publique s’articulent autour des axes importants tels que la protection, la promotion et la prévention de la santé publique. Ajouté à cela une assurance des états et des communautés de santé, la prise en compte des déterminants socio-économiques de la santé et de la maladie, l’orientation sur des groupes de population ou sur des populations entières, etc.

Ce qui nous amène à définir les missions de la santé publique afin d’améliorer et d’augmenter la qualité de la vie en assurant des conditions dans lesquelles les gens peuvent être en bonne santé. Ceci implique la réalisation d’un certain nombre de fonctions de base de santé publique (Bettcher et al., 1998) :

- Surveillance de l’état de santé : évaluation des besoins et des risques de la population afin de déterminer quels sous-groupes ont besoin de services, évaluation de l'efficacité de fonctions de la santé publique, évaluation de l'efficacité des programmes de promotion, prévention et soins.

- Promotion de la santé : promotion de la participation de la communauté à la santé, information, éducation à la santé et développement de compétences de vie, établissement et maintien des liens avec les décideurs, etc.

- Protection de l'environnement : prise en compte des enjeux environnementaux (lutte contre les pollutions y compris les risques des radiations) dans les politiques de développement, programmes et projets.

- Législation et réglementation en santé publique : établissement de la législation de santé, des règlements et des procédures administratives, assurer une législation de protection de la santé environnementale, etc.

- Planification et Gestion en santé publique : gestion et planification de la politique sanitaire, utilisation des niveaux de preuves scientifiques dans l'élaboration et la mise en œuvre des politiques de santé publique, maintien et amélioration de la qualité des services de santé, recherche en santé publique.

3 Définition de la santé publique – Wikipédia. http://fr.wikipedia.org/wiki/Santé_publique.

Page 14: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 1

6

Etat de l’art – Le domaine pharmaceutique

- Santé pour les populations vulnérables et à risque : santé de la mère et de l’enfant, etc.

- etc.

Le champ de la santé publique s’élargit et doit faire face à des nouveaux défis. Il est confronté aux évolutions sociales, démographiques, épidémiologiques, économiques, environnementales ainsi qu’à celles du système de soins. Dans ces derniers, on retrouve plusieurs points communs avec les fonctions essentielles de santé publique, parmi lesquels on trouve la surveillance épidémiologique.

3. L’épidémiologie

L’épidémiologie est une branche majeure de la santé publique. Elle est la discipline qui étudie la distribution des problèmes de santé et des facteurs qui les déterminent (Touré, 2009); elle s’intéresse à l’étude de la fréquence des maladies dans les populations humaines et des facteurs qui en modifient la répartition, la survenue et l’évolution (Velten, 2006). D’où l’intérêt est de fournir des études autour des axes suivants :

- Prévention qui suppose la connaissance de la maladie,

- Quel est le risque de développer la maladie dans le court, moyen et long terme?

- Relation de causalité entre le facteur de risque et la maladie.

L’épidémiologie trouve son principal domaine d’applications dans les maladies contagieuses (études historiques (choléra), études des épidémies) et les maladies chroniques (cancer, maladies cardio-vasculaires, asthme, hypertension artérielle, diabète, etc.).

La finalité des études épidémiologiques est de soumettre l’information aux décideurs, sous une forme qui en facilite la lecture, autrement dit, transformer l’information dispersée au sein de la population, en information globale utile aux décideurs afin d’établir une situation sanitaire, de suivre l’évolution d’une situation sanitaire et de comparer plusieurs situations sanitaires.

L’épidémiologie se propose également d’être une aide rationnelle pour la prise en charge des maladies, en apportant les données objectives quant aux causes et au retentissement des troubles, indispensables à l’information complète des patients, et en visant à définir les maladies dans le contexte d’une analyse à grande échelle de leurs caractéristiques et permet ainsi (Rouillon, 2001) :

- d’identifier précisément leurs facteurs de risque et leurs retentissements,

- de préciser leurs fréquences et leurs spécificités selon les différentes populations,

Page 15: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 1

7

Etat de l’art – Le domaine pharmaceutique

- de définir les traitements les plus efficaces et au meilleur coût pour la santé publique.

Les méthodes de la transformation de l’information s’appuient principalement sur des techniques de statistiques.

4. Cas pratique de l’épidémiologie : Etude des maladies chroniques

L’un des domaines d’intervention des études épidémiologiques est le suivi des maladies chroniques, qui touchent un nombre important de la population, afin de fournir les éléments et les moyens nécessaires pour une prise en charge meilleure des patients concernés du point de vue social, économique et éthique.

Afin d’atteindre ces objectifs, les services d’épidémiologie en Algérie se basent sur les données de déclarations des différentes maladies auprès des institutions concernées telles que les hôpitaux et des déclarations individuelles de patients, ensuite, soumettre les données de ces déclarations aux différentes techniques statistiques. Mais, le problème majeure des déclarations rencontré lors de ces études revient à la nature de la prise en charge de traitement des différentes maladies, et qui se divisent en deux catégories :

(i) les traitements hospitaliers :

La fourniture de médicaments se fait au sein des centres sanitaires et hospitaliers. Cette catégorie est soumise à des déclarations obligatoires et systématiques. Nous citerons dans cette catégorie des maladies comme le cancer et la tuberculose.

(ii) les traitements hors hospitaliers ou à usage privé :

L’acquisition des médicaments se fait auprès des officines privées, bien qu’elle soit soumises au régime de la sécurité sociale, mais les déclarations ne sont pas systématiques dû à plusieurs facteurs tels que le manque de systèmes d’information informatisés des dossiers patients et la non exploitation quasi-totale des données relatives aux traitements fournis par les officines pharmaceutiques privées ou par la sécurité sociale. Nous citerons dans cette catégorie des maladies comme le diabète, l’asthme et l’hypertension artérielle (elles font l’objet de nos investigations).

5. Le domaine pharmaceutique

Le domaine pharmaceutique représente un enjeu mondial très important. Il est au centre de plusieurs disciplines « distinctes » dans le comportement, l’organisation, les

Page 16: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 1

8

Etat de l’art – Le domaine pharmaceutique

méthodes de travail et les objectifs. Par contre, aucun profit de l’une de ces disciplines ne peut être réalisable qu’avec le concours « direct » et « total » des autres.

On peut classer ces disciplines sous quatre aspects principaux :

(i) Aspect santé publique :

On y trouve les organismes gouvernementaux et non gouvernementaux s’intéressant à la prévention et l’amélioration de la santé publique tels que les ministères de la santé, les associations privées ou publiques de praticiens de la santé, les médecins prescripteurs d’ordonnances de traitement, etc. On y trouve sous cet aspect d’autres disciplines telles que l’éthique et la législation ou bien la régulation ainsi que l’impact sur l’environnement.

(ii) Aspect scientifique :

Il concerne la communauté des chercheurs en pharmacologie, recherches moléculaires, séquences d’ADN, etc.

(iii) Aspect d’intérêt et d’économie national :

Tels que les ministères de l’économie et la sécurité sociale, afin d’assurer l’équilibre budgétaire, contrôle des coûts, sécurité des personnes, mobilisations des moyens pour la prévention, etc.

(iv) Aspect commercial :

Il concerne les producteurs ou fabricants de produits pharmaceutiques, les revendeurs de ces produits (importateurs, grossistes, pharmacies, etc.). Affectant les stratégies de marketing, promotions de nouveaux produits, gestions des stocks, réalisations des profits financiers, etc.

6. Travaux réalisés

La fouille de données dans le domaine pharmaceutique, grâce aux informations collectées à partir des enregistrements des données précieusement stockées au sein de ses institutions, et qui sont principalement des données des ventes directes aux clients ou des données indirectes. Les données indirectes proviennent d’autres sources telles que l’environnement, les organismes étatiques, etc. et ont ciblé deux entités potentielles afin d’obtenir des modèles de fouilles répondant à ses différents aspects ;

- Le client : Le client (ou patient) est au centre de toutes les études de recherches ou de marketing. La fouille de données a permis d’étudier et de comprendre la relation et le comportement des clients (Gestion de relation clients CRM) mais seulement afin de les fidéliser ou de préparer une stratégie de marketing ou d’orientation médicale permettant d’avoir la force pour atteindre une population maximale et non pas d’un souci de comprendre son éventuelle commutation ou

Page 17: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 1

9

Etat de l’art – Le domaine pharmaceutique

de soucis d’éthique générale. Dans ce contexte, la fouille de données permet d’avoir « la perspicacité » ou le « comportement » du client (Bala, 2009).

- Le produit : D’autre part, toutes les applications de fouille effectuées sur les données clients ont en parallèle fait l’objet de fouilles sur les produits vendus dans ces transactions de ventes en détail clients.

Nous pouvons classer les différents modèles, obtenus à partir de l’application des différentes techniques de fouille de données, selon les objectifs de chaque étude.

6.1. La santé publique

La santé publique, du point de vue général, est souvent confrontée aux pressions du marketing, essaie de dépister la prescription médical − en utilisant les données de détail obtenues des pharmacies et les enregistrements des achats obtenus des compagnies d’assurance maladie − pour déterminer quels médicaments les différents médecins préfèrent pour des diagnostics spécifiques et des populations de patients et créer les portraits de prescription détaillés de chaque médecin (Fugh-Berman, 2008). L'évaluation des avantages et inconvénients des médicaments devrait être une fonction de gouvernement, mise en application par des chercheurs sans cravates commerciales, et conduite seulement dans l'intérêt de santé publique. Des argents publics devraient être affectés pour intégrer des sources publiques existantes de données de santé et augmenter l'accessibilité aux chercheurs qui emploieront ces données dans l'intérêt des patients plutôt que des bénéfices de l'industrie (Fugh-Berman, 2008).

Dans ce volet, nous soulignons les organismes mondiaux qui détiennent l’information médicale et qui opèrent par les techniques de fouilles de données afin de soumettre les modèles appropriés aux différents opérateurs de la santé publique, plutôt que les techniques de fouille utilisée et qui restent tout de même non dévoilées (ces organismes ont, quand à eux, un profil commercial et de marketing), nous citons en exemple et non pas d’une manière exhaustive :

- L'information, empaquetée est combinée avec différentes identités de médecins, est achetées d'American Medical Association (AMA) 4

- Dendrite International promeut son produit de fouille de données comme suit : « Aujourd’hui, les fabricants pharmaceutiques qui sont partenaires avec la dendrite peuvent gagner un niveau de la perspicacité qui leur permet de prévoir

(qui maintient une banques de données des médecins, une base de données qui contient l'information démographique sur les tous médecins des États-Unis) pour créer des profils de médecins prescripteurs (nom, spécialité, l'emplacement de pratique, qui et combien de prescriptions écrites, etc.) qui sont vendus aux entreprises pharmaceutiques (Melley et Petersen, 2008),

4 http://www.ama-assn.org

Page 18: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 1

10

Etat de l’art – Le domaine pharmaceutique

et influencer le comportement de prescription de médecin comme jamais auparavant » (Melley et Petersen, 2008),

- Les données de prescription sont collectées par les organismes de l'information de santé, également connu sous le nom de compagnies de fouille de données, agissent en tant que courtiers de cette information, qu'elles empaquettent depuis différentes sources pour créer les portraits de prescription détaillés de chaque médecin. L’IMS Health 5

- PharMetrics, une unité d'IMS, a une base de données qui contient plus de deux milliard d'événements de soins de santé comprenant l'ensemble complet de pharmacie et des réclamations médicales de plus de 55 million d’américains (Fugh-Berman, 2008).

(IMS Santé) est le plus grand des organismes de l'information de santé; d'autres incluent la Dendrite, le Verispan, et le Wolters Kluwer (Fugh-Berman, 2008),

6.2. La gestion et le contrôle de certaines pathologies

Des études de fouille de données ont été menées afin de comprendre et de contrôler certaines pathologies, par exemple l’asthme (Bereznicki et al., 2008), le développement de nouveaux produits pharmaceutiques et l’avancement dans des thérapies de cancer (Sumathi et Sivanandam, 2006), ou le développement des systèmes de bio-surveillance qui peuvent être utilisés pour identifier les manifestations normales de la maladies (par exemple grippe) et les manifestations résultant des attaques de bio-terroriste (par exemple dégagement d'anthrax) (Sabhnani et al., 2005), etc.

Ces études, qui sont menées afin de comprendre et de contrôler les maladies, sont étroitement liées à la compréhension de la vente de certains produits (Bereznicki et al., 2008) de certains patients, autrement dit, les patients sont ciblés au préalable et l’étude surveille leur régime de consommation de ces produits dans une période donnée et déterminera ainsi les comportements des patients vis-à-vis de la maladie étudiée et non pas l’étude de la maladie elle-même au sein de la population.

Les réseaux de neurones non supervisés, avec l'approche de visualisation de données sur un ensemble de données conventionnelles de pathologies, ont été utilisés pour l’évaluation des performances afin d’identifier des groupes naturels de la population de patients (Sumathi et Sivanandam, 2006). Citons :

- Algorithm Development and Mining ADaM (algorithmes de développement et de fouille), à l'université de l'Alabama à Huntsville (Sumathi et Sivanandam, 2006),

- Le logiciel Gamma Poisson Shrinkage (GPS) développé par William Du Mouchel à AT&T (Martin et al., 2002).

5 Institute of Medical Statistics : http://www.imshealth.com

Page 19: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 1

11

Etat de l’art – Le domaine pharmaceutique

6.3. Système d’aide à la prescription médicale

L’objectif est d’améliorer la prescription médicale chez les praticiens en se basant sur les résultats obtenus en appliquant la fouille de données sur les dossiers médicaux et les données de pharmacies. Cette aide aux médecins prescripteurs serait sous forme de recommandations (lettres, séminaire, sensibilisations, etc.) destinées à ces derniers.

Des exemples d’aide à la prescription :

- l’encourageant de la prescription des produits qui peuvent être moins chers et plus efficaces pour la santé du patient (Melley et Petersen, 2008), dans cet exemple nous trouvons encore une fois les organismes de fouille cités dans la section précédente (AMA et Dentrite International).

- l’exploration des réactions de médicaments défavorables afin d’alerter les médecins praticiens en prescrivant des médicaments, à certaines catégories de patients aux effets nuisibles potentiels (Chen et al., 2005). Plusieurs études ont été faites dans ce cas précis s’appuyant sur la fouille de données. Dans cet exemple un algorithme « modifié » de classification par les règles d’association aux données de santé pour explorer des facteurs de risque liés aux réactions de médicaments défavorables (Chen et al., 2005).

6.4. La gestion optimale des stocks

En répondant aux questions primordiales dans la gestion des stocks : « combien commander ? » et « quand commander ? » afin d’obtenir le « bon mélange de produits dans la bonne quantité au bon moment » tout en mettant en corrélation les données des produits avec la perspicacité du client et la gestion complexe du stock de multi-produits (Bala, 2009).

Plusieurs modèles sont obtenus, cités dans (Bala, 2009), pour étudier la dépendance d'achat dans la vente comprenant l’interdépendance de demande, le profil de client et modèle de demande, les séquences d'achat, le modèle dépendant du temps d'achat, le modèle dépendant de l’endroit, etc. Dans ce cadre, des algorithmes génétiques ont été utilisés dans la classification des stocks, et les réseaux de neurones ont été employés pour la classification des unités de stockage (Bala, 2009).

6.5. La réalisation des bénéfices dans les ventes de médicaments

Enfin, le volet commercial est le domaine le plus approprié et le plus consommateur des techniques de fouille de données afin de réaliser un maximum de profits financiers.

Des entités commerciales importantes dans le domaine pharmaceutique ont utilisé les techniques de fouille pour réaliser des bénéfices remarquables pour augmenter leurs chiffres d’affaires en observant certains attributs de produits. C’est le cas de Pharma, la chaîne d’officines pharmaceutiques au Japon (Hamuro et al., 1998). Des

Page 20: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 1

12

Etat de l’art – Le domaine pharmaceutique

modèles sont obtenus, cités dans (Hamuro et al., 1998), pour réaliser les bénéfices astronomiques de Pharma concernent l’analyse de la disposition de des produits dans chaque magasin, la découverte de la connaissance des données de déviation et l’efficacité des échantillons gratuits. En prenant, par exemple, le cas de la découverte de règles d'association entre les calmants de douleur et les produits sanitaires (Hamuro et al., 1998).

7. Conclusion

Dans ce chapitre, un tour d’horizon a été fait afin de définir le domaine de la santé publique avec son volet épidémiologique et ce que le domaine pharmaceutique peut apporter comme contribution à une démarche d’intérêt publique et scientifique.

La présente étude n’est nullement une liste exhaustive de tous les travaux réalisés dans le domaine pharmaceutique ou de la santé publique et, non plus de celui de la fouille de données, mais qui se propose comme une synthèse qui explicite certains points qui les lient.

Notre étude est motivée par ces nombreux travaux réalisés dans ce domaine et ses opportunités de recherches restant grandes ouvertes aux initiatives de toutes les disciplines scientifiques et technologiques. Nous avons pris le modèle de contrôle et de suivi des pathologies (cf. §1.6.2). Par contre, nous le généralisons à une étude complète de certaines maladies par rapport à d’autres facteurs que le suivi restreint de certains patients, mais par rapport à d’autres caractéristiques. Ces dernières sont plus au moins générales, elles prennent en compte toute la population des patients qui acquièrent les médicaments relatives aux maladies choisies. Et d’un autre point de vue, nous généralisons la notion de période choisie à tous les cas de figure qui en découlent.

Page 21: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

13

2

CHAPITRE Extraction des connaissances à partir des données

«L'absolu, s'il existe, n'est pas du ressort de nos connaissances; nous ne jugeons et nous ne pouvons juger des choses que par les rapports qu'elles ont entre elles».

Histoire naturelle (1749-1789).

Georges Louis Leclerc, comte de Buffon

1. Introduction

L’homme, tout au long de sa marche vers la science et le développement, n'a cessé de créer des données, de les stocker et de les utiliser. Aujourd’hui, une très grande partie des activités humaines sont formalisées et s'appuie sur des tâches de collecte et d’intégration de données. Le développement fulgurant des technologies de l’information, des moyens de télécommunications, des ordinateurs et des bases de données fait que le volume de données collectées, intégrées et stockées augmente constamment.

Les données stockées dans les bases de données peuvent être consultées de différentes manières. Par exemple, il est possible d'opérer selon une lecture en extension. Ceci signifie que les requêtes posées au système ont pour résultat un ou plusieurs objets précis contenus dans la base. A la requête « Quels sont les produits achetés par un tel assuré cette année ? », le système répond « METFORAL 850 MG B/120, AMAREL 2 MG B/30»6

6 Médicaments achetés par un patient diabétique.

. Il est également possible de poser la question suivante : « Quelle est, par région, la quantité moyenne vendue de METFORAL 850 MG B/120 ? ». Ce type de requête nécessite quant à elle une consultation des données à différents niveaux d'agrégats. Dans ce cas, les résultats d'une requête ne

Page 22: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

14

Extraction des connaissances à partir des données

sont pas les objets contenus dans la base mais les valeurs de fonctions d'évaluation appliquées à des sous-ensembles d'objets.

Dans les années 90, les systèmes OLAP (On Line Analytical Processing) sont apparus (Codd, 1993). Ceux-ci permettent, simultanément, de prendre en compte de très gros volumes de données et de fournir à l'utilisateur le moyen de consulter ces données et à de différents niveaux. Par contre, la consultation de ces données procède à chaque fois d'une démarche de test initiée par l'utilisateur. Autrement dit, le système peut exhiber un comportement, évaluer la pertinence d'une loi, d'une tendance, parfois à l'aide d'outils statistiques, mais cette loi doit d'abord être envisagée par l'utilisateur lui-même avant de la soumettre au système au travers d'une requête. Or, le besoin de l'utilisateur d’aujourd'hui évolue vers une suggestion automatique, par le système, des lois ou des tendances contenues dans les données ; par exemple « si un client achète METFORAL 850 MG B/120, celui-ci achète AMAREL 2MG B/30 dans 80% des cas ». C'est ce besoin de suggestion de lois qui a donné naissance à une nouvelle discipline informatique, l'Extraction de Connaissances à partir des Données (ECD) (Fayyad et al., 1996a), (Fayyad et al., 1996b), ou Knowledge Discovery in Databases (KDD). Il reste, bien évidemment, possible, dans le cadre de l'ECD, de procéder par les tests. Mais, l'apport résidant dans l'utilisation de nouvelles formes de représentations des dépendances et/ou de techniques efficaces permet de les extraire de très gros volumes de données.

2. Les étapes de l’ECD

«L’Extraction de Connaissances à partir des Données (ECD) est un processus itératif et interactif d’analyse d’un grand ensemble de données brutes afin d’en extraire des connaissances exploitables par un utilisateur- analyste qui y joue un rôle central» (Zighed et al., 2001).

L'ECD fédère des disciplines comme les statistiques, l'analyse de données, les bases de données, l'apprentissage automatique ou bien encore la visualisation (Fayyad et al., 1996c). L'ECD s'organise autour d'un processus itératif et interactif défini comme le processus non trivial d'extraction d'informations implicites, nouvelles, et potentiellement utiles à partir des données (Frawley et al., 1991). Ce processus, représenté dans la Figure 2.1, est itératif car les résultats d'une étape peuvent remettre en cause les traitements effectués durant les étapes précédentes ; et il est interactif car la qualité des résultats obtenus dépend en grande partie de l'intervention des utilisateurs finaux (Fayyad et al., 1996b).

Page 23: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

15

Extraction des connaissances à partir des données

Le processus général d’ECD (cf. Figure 2.1) est proposé dans (Fayyad et al., 1996b). Ce processus comprend des étapes de compréhension du domaine, le nettoyage et intégration des données, le prétraitement des données (sélection, préparation, transformation), la fouille de données et enfin l’évaluation et la présentation des connaissances.

FIG. 2.1 – Processus d’ECD (Fayyad et al., 1996b).

2.1. Compréhension du domaine

Appelé aussi phase d’identification du problème ou d’opportunité, la compréhension du domaine est primordiale dans la réalisation du « processus d’extraction de connaissances », c’est le facteur clé du succès de toute fouille de données. La négligence ou la sous estimation de cette étape, affectera sérieusement les résultats des projets menés par la fouille de données et qui compromettra leur développement.

Par exemple, une entreprise pharmaceutique qui obtient de mauvais taux de réponses aux mailings qu’elle envoie peut profiter de certains outils de fouille de données de manière à mieux cibler son courrier. De même une société de commercialisation et de promotion de produits pharmaceutiques peut, grâce à des outils d’analyse de liens, identifier des paires de clients qui s’appellent souvent de manière à, par exemple, leur proposer une offre spéciale (Agard et Kusiak, 2005).

Intégration des données

Fouille de données

Evaluation et présentation

Comprendre le domaine

Prétraitement

Connaissances

Page 24: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

16

Extraction des connaissances à partir des données

2.2. Intégration des données

Cette première étape permet de regrouper et de mettre en forme des données d'origines diverses au sein d'une seule et même base de données. Les données peuvent provenir de différents systèmes de gestion de bases de données, de fichiers textes, ou bien même de notes manuscrites. Les données rassemblées, par exemple au sein d'un entrepôt de données, sont également nettoyées (prise en compte des valeurs aberrantes et/ou manquantes) et codées selon un système uniforme.

Le but des opérations d’intégration et de nettoyage est de générer des entrepôts de données et/ou des magasins de données spécialisés contenant les données retravaillées pour faciliter leurs exploitations futures (Gilleron et Tommasi, 2000).

Exemple :

Soit l’exemple suivant, Tableau 2.1, qui présente une base de données d’une pharmacie qui propose des gammes différentes de médicaments pour différentes maladies. Elle souhaite mieux étudier ses clients en fonction des maladies traitées pour améliorer sa qualité de services (disponibilité des produits).

Date Vente N° Client Localité Date Naiss. Pathologie

12/03/2005 490128002461 Oran 18/12/1949 Diabète

04/05/2005 540543001166 Oran 02/01/1954 Asthme

18/01/2006 330222001773 Béthioua 11/11/2011 Diabète

23/05/2006 740421000567 Arzew 13/03/1974 Diabète

01/06/2006 550157009345 Oran 01/04/1955 HTA

11/02/2007 840037015352 Hassi Bounif 05/08/1984

25/02/2007 680292006936 03/10/1968 HTA

15/07/2007 002000410878 Oran 11/11/2011 Diabète

TAB. 2.1 – Obtention des données.

Nous notons quelques remarques sur les données obtenues concernant les points suivants :

- L’intégrité de domaine, dans notre exemple, la date de naissance des clients 330222001773, 002000410878 (11/11/11) semble plutôt correspondre à une erreur de saisie ou encore à une valeur par défaut en remplacement d'une valeur manquante,

- Les informations manquantes, dans notre exemple, nous n'avons pas la pathologie pour le client 840037015352 ; il sera écarté de notre ensemble. L'enregistrement du client 680292006936 sera conservé bien que la localité ne soit pas connue.

Après le nettoyage, nous obtenons la base de données suivante :

Page 25: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

17

Extraction des connaissances à partir des données

Date Vente N° Client Localité Date Naiss. Pathologie

12/03/2005 490128002461 Oran 18/12/1949 Diabète

04/05/2005 540543001166 Oran 02/01/1954 Asthme

18/01/2006 330222001773 Béthioua NULL Diabète

23/05/2006 740421000567 Arzew 13/03/1974 Diabète

01/06/2006 550157009345 Oran 01/04/1955 HTA

25/02/2007 680292006936 NULL 03/10/1968 HTA

15/07/2007 002000410878 Oran NULL Diabète

TAB. 2.2 – La base des données après nettoyage.

2.3. Prétraitement des données

Il peut arriver parfois que les bases de données contiennent à ce niveau un certain nombre de données incomplètes et/ou bruitées. Ces données erronées, manquantes ou inconsistantes doivent être retravaillées si cela n’a pas été fait précédemment (Han et Kamber, 2001). Dans le cas contraire, durant l’étape précédente, les données sont stockées dans un entrepôt. Cette étape permet de sélectionner et transformer des données de manière à les rendre exploitables par un outil de fouille de données.

Cette seconde étape du processus d’ECD permet d’affiner les données. Si l’entrepôt de données est bien construit, le prétraitement de données peut permettre d’améliorer les résultats lors de l’interrogation dans la phase de fouille de données (Soibelman et al., 2002).

Exemple :

Soit la base de données nettoyée précédemment (cf. Tableau 2.2), le tableau 2.3 présente le résultat de prétraitement. Les clients qui ont des informations manquantes seront supprimés de la base.

Date Vente N° Client Localité Date Naiss. Pathologie

12/03/2005 490128002461 Oran 18/12/1949 Diabète

04/05/2005 540543001166 Oran 02/01/1954 Asthme

23/05/2006 740421000567 Arzew 13/03/1974 Diabète

01/06/2006 550157009345 Oran 01/04/1955 HTA

TAB. 2.3 – La base des données après le prétraitement.

2.3.1. Sélection des données

La première phase opérationnelle consiste à présélectionner les données nécessaires au traitement (Fayyad et al., 1996b). Il s’agit de faire l’inventaire aussi bien des données a priori utiles pour atteindre l’objectif fixé que des données réellement disponibles et des moyens à mettre en œuvre pour les récupérées.

Page 26: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

18

Extraction des connaissances à partir des données

La tendance actuelle est au « Data Warehouse ». Les entreprises tentent de regrouper les informations dont elles disposent au sein de leurs différents départements en un immense « entrepôt » de données qui servira de support à de multiples décisions (Teste, 2000). Ce transfert de données des départements à l’entrepôt de données doit se faire régulièrement via des formules sophistiquées élaborées spécifiquement par des spécialistes.

Les entrepôts de données doivent contenir les données sous une forme « actionnable », c’est à dire utilisable, afin de permettre ensuite des opérations de fouille de données (Inmon, 1996).

2.3.2. Nettoyage et enrichissement des données

Selon, (Fayyad et al., 1996b) le nettoyage des données intervient immédiatement après la sélection des données. Si un enrichissement est nécessaire, une deuxième étape de nettoyage est primordiale. Dans le nettoyage, on trouve, par exemple, le traitement des données manquantes qui relève généralement du remplacement par des estimateurs : moyennes, moyennes conditionnelles, etc. ou bien encore l’enrichissement si les données disponibles ne semblent pas adéquates ou suffisantes pour la tâche prévue (Han et Kamber, 2001).

2.3.3. Transformation et réduction de la dimension

Les données doivent généralement encore être transformées afin de disposer à la fin d’une présentation standard et uniforme, compatible avec les méthodes de fouille de données qui vont être appliquées, car elles ne le sont, en effet, généralement pas sous le format adéquat. Ces transformations dépendent de la technique de fouille de données utilisée (Han et Kamber, 2001).

Une fois les données préparées et présentées sous le format standard, elles vont pouvoir être analysées. Cependant, pour les très grandes bases de données, l’analyse nécessite une étape intermédiaire, la réduction de la dimension.

En effet, aussi surprenant que cela puisse paraître, les meilleurs modèles sont parfois obtenus grâce à des groupes de données réduits. Les outils de fouille de données peuvent potentiellement s’adapter à des données de toute taille mais plus un modèle comportera de données, beaucoup plus de cas sont intégrés et qui peuvent nous manquer de précisions sur le sujet. Dans cette perspective, le modèle aura tendance à trouver des solutions qui n’en sont pas. L’étape de la réduction du nombre de dimensions élimine ce risque et permet également aux programmes d’analyse une étude moins coûteuse en temps et en puissance informatique.

Page 27: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

19

Extraction des connaissances à partir des données

2.4. Fouille de données

La fouille de données (Data Mining), est le cœur du processus d’ECD. Cette étape met en évidence des relations (i.e. des modèles, des motifs ou des schémas) contenus implicitement dans de grandes collections de données (Han et Kamber, 2001). Tout le travail consiste à appliquer des méthodes intelligentes dans le but d’extraire cette connaissance. Il est possible de définir la qualité d’un modèle en fonction de critères comme les performances obtenues, la fiabilité, la compréhensibilité, la rapidité de construction et d’utilisation et enfin l’évolutivité. Tout le problème de la fouille de données réside dans le choix de la méthode adéquate à un problème donné. Il est possible de combiner plusieurs méthodes pour essayer d’obtenir une solution optimale globale.

La fouille de données fera l’objet d’une section complète (cf. Section 3).

2.5. Evaluation et présentation

Cette phase est constituée de l’évaluation, qui mesure l’intérêt des motifs extraits, et de la présentation des résultats à l’utilisateur grâce à différentes techniques de visualisation. Cette étape est dépendante de la tâche de fouille de données employée. En effet, bien que l’interaction avec l’expert soit importante quelle que soit cette tâche, les techniques ne sont pas les mêmes. Ce n’est qu’à partir de la phase de présentation que l’on peut employer le terme de « connaissance » à condition que ces motifs soient validés par les experts du domaine. Il y a principalement deux techniques de validation qui sont la technique de validation statistique et la technique de validation par expertise.

La validation statistique consiste à utiliser des méthodes de base de statistique descriptive. L’objectif est d’obtenir des informations qui permettront de juger le résultat obtenu, ou d’estimer la qualité ou les biais des données d’apprentissage. Cette validation peut être obtenue par :

- le calcul des moyennes et variances des attributs,

- si possible, le calcul de la corrélation entre certains champs,

- ou la détermination de la classe majoritaire dans le cas de la classification.

La validation par expertise, est réalisée par un expert du domaine qui jugera la pertinence des résultats produits. Par exemple pour la recherche des règles d’induction, c’est l’expert du domaine qui jugera la pertinence des règles.

Pour certains domaines d’application, le diagnostic médical par exemple, le modèle présenté doit être compréhensible. Une première validation doit être effectuée par un expert qui juge la compréhensibilité du modèle. Cette validation peut être, éventuellement, accompagnée par une technique statistique.

Page 28: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

20

Extraction des connaissances à partir des données

Grâce aux techniques d’extraction de connaissances, les bases de données volumineuses sont devenues des sources riches et fiables pour la génération et la validation de connaissances.

3. Fouille de données

Les concepts de fouille de données (Data Mining) et d’extraction de connaissances à partir de données sont parfois confondus et considérés comme synonymes. Mais, formellement on considère la fouille de données comme une étape centrale du processus d'extraction de connaissances à partir de données.

3.1. Historique

L’expression « Data Mining » est apparue vers le début des années 1960 et avait, à cette époque, un sens péjoratif. En effet, les ordinateurs étaient de plus en plus utilisés pour toutes sortes de calculs qu’il n’était pas envisageable d’effectuer manuellement jusque là. Certains chercheurs ont commencé à traiter sans a priori statistique les tableaux de données relatifs à des enquêtes ou des expériences dont ils disposaient. Comme ils constataient que les résultats obtenus, loin d’être aberrants, étaient tout au contraire prometteurs, ils furent incités à systématiser cette approche opportuniste. Les statisticiens officiels considéraient toutefois cette démarche comme peu scientifique et utilisèrent alors les termes « Data Mining » ou « Data Fishing » pour les critiquer.

Cette attitude opportuniste face aux données coïncida avec la diffusion dans le grand public de l’analyse de données dont les promoteurs ont également dû subir dans les premiers temps les critiques venant des membres de la communauté des statisticiens.

L’analyse des données s’est développée et son intérêt grandissait en même temps que la taille des bases de données. Vers la fin des années 1980, des chercheurs en base de données ont commencé à travailler sur l’exploitation du contenu des bases de données volumineuses comme par exemple celles des tickets de caisses de grandes surfaces, convaincus de pouvoir valoriser ces masses de données dormantes. Ils utilisèrent l’expression « Database Mining » mais, celle-ci étant déjà déposée par une entreprise (Database mining workstation), ce fut « Data Mining » qui s’imposa. En 1989, Shapiro Piatetski a proposé le terme « Knowledge Discovery » à l’occasion d’un atelier sur la découverte des connaissances dans les bases de données (Piatetsky-Shapiro, 1989). Actuellement, les termes Data Mining et Knowledge Discovery in data bases (KDD, ou ECD en français) sont utilisés plus ou moins indifféremment.

Page 29: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

21

Extraction des connaissances à partir des données

3.2. Définition

« Le Data Mining, ou fouille de données, est l’ensemble des méthodes et techniques destinées à l’exploration et l’analyse de bases de données informatiques (souvent grandes), de façon automatique ou semi-automatique, en vue de détecter dans ces données des règles, des associations, des tendances inconnues ou cachées, des structures particulières restituant l’essentiel de l’information utile tout en réduisant la quantité de données» (Tufféry, 2005).

La définition la plus communément admise de fouille de données est : «Le Data Mining est un processus non trivial qui consiste à identifier, dans des données, des schémas nouveaux, valides, potentiellement utiles et surtout compréhensibles et utilisables». (Frawley et al., 1991).

En bref, la fouille de données est l’art d’extraire des informations, ou même des connaissances, à partir des données (Boussaid et Loudcher-Rabaseda, 2006).

3.3. Tâches de fouille de données

De nombreuses tâches peuvent être associées à la fouille de données, parmi elles nous pouvons citer:

3.3.1. La classification

Par définition, la classification examine les caractéristiques d’un nouvel objet pour l’affecter à une classe prédéfinie (Breiman et al., 1984) (Weiss et Kulikowski, 1991). Les classes sont bien caractérisées dans un fichier d’apprentissage (les exemples sont pré-classés). On construit alors une fonction qui permettra d’affecter à telle ou telle classe un nouvel individu. La classe est un champ particulier à valeurs discrètes. Des exemples de tâche de classification sont :

- le calcul des moyennes et variances des attributs,

- attribuer ou non un prêt à un client,

- établir un diagnostic,

- accepter ou refuser un retrait dans un distributeur,

- attribuer un sujet principal à un article de presse,

- etc.

Les techniques les plus appropriées à la classification sont :

- Les arbres de décision,

- Les plus proches voisins,

- Les réseaux de neurones.

Page 30: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

22

Extraction des connaissances à partir des données

3.3.2. L’estimation

La classification se rapporte à des événements discrets (le patient à été ou non hospitalisé). L’estimation consiste à estimer la valeur d'un champ à partir des caractéristiques d'un objet, elle se fait sur des variables continues (par exemple : la durée d’hospitalisation) contrairement à la classification.

L'estimation peut être utilisée dans un but de classification. Il suffit d'attribuer une classe particulière pour un intervalle de valeurs du champ estimé. Par exemple, on peut estimer le revenu d’un ménage selon divers critères (type de véhicule et nombre, profession ou catégorie socioprofessionnelle, type d’habitation, etc.). Il sera ensuite possible de définir des tranches de revenus pour classifier les individus.

Un des intérêts de l’estimation est de pouvoir ordonner les résultats pour ne retenir si on le désire que les n meilleures valeurs. Cette technique sera souvent utilisée en marketing pour proposer des offres aux meilleurs clients potentiels. Enfin, il est facile de mesurer la position d’un élément dans sa classe si celui ci a été estimé, ce qui peut être particulièrement important pour les cas limitrophes.

La technique la plus appropriée à l’estimation est :

- Les réseaux de neurones (Singh et Chauhan, 2005).

3.3.3. La prédiction

Cette fonction est proche de la classification ou de l’estimation mais les observations sont classées selon un comportement ou une valeur estimée futur. Les techniques précédentes peuvent être adaptées à la prédiction au moyen d’exemples d’apprentissage où la valeur à prédire est déjà connue. Le modèle, construit sur les données d’exemples et appliqué à de nouvelles données, permet de prédire un comportement futur.

Tout comme les tâches précédentes, elle s’appuie sur le passé et le présent mais son résultat se situe dans un futur généralement précisé. En général, les valeurs connues sont historisées, on cherche à prédire la valeur future d'un champ. La seule méthode pour mesurer la qualité de la prédiction est d’attendre !

Les méthodes de classification et d'estimation peuvent être utilisées en prédiction.

Les techniques les plus appropriées à la prédiction sont :

- Les règles d’association,

- Les plus proches voisins,

- Les arbres de décision,

- Les réseaux de neurones.

Page 31: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

23

Extraction des connaissances à partir des données

3.3.4. Groupement selon les affinités (les règles d’association)

Cette tâche, plus connue comme l’analyse du panier de la ménagère, consiste à déterminer les variables qui sont associées. L'exemple type est la détermination des articles (le pain et le lait, la tomate, les carottes et les oignons) qui se retrouvent ensemble sur un même ticket de supermarché. Cette tâche peut être effectuée pour identifier des opportunités de ventes croisées et concevoir des groupements attractifs de produits.

La technique la plus appropriée au regroupement par similitudes est :

- Les règles d’association (Agrawal et al., 1992).

3.3.5. La segmentation ou le Clustering

Consiste à former des groupes (clusters) homogènes à l'intérieur d'une population hétérogène d’individus. Pour cette tâche, et à la différence avec la classification, il n'y a pas de classe à expliquer ou de valeur à prédire définie a priori, il s'agit de créer des groupes homogènes dans la population (l'ensemble des enregistrements) (Jain et Dubes, 1998). Il appartient ensuite à un expert du domaine de déterminer l'intérêt et la signification des groupes ainsi constitués. Cette tâche est souvent effectuée avant les précédentes pour construire des groupes sur lesquels on applique des tâches de classification ou d'estimation.

Les techniques la plus appropriée à la segmentation est :

- L’analyse des clusters (ou segmentation)

- Les réseaux de neurones

3.3.6. La description

Parfois le but de la fouille de données est simplement de décrire ce qui se passe au sein d’une base de données complexe de manière à augmenter la compréhension de celle-ci (Agard et Kusiak, 2005).

La technique la plus appropriée à la description est :

- Les règles d’association,

- Les arbres de décisions.

3.4. Les méthodes de la fouille de données

Pour tout jeu de données et un problème spécifique, il existe plusieurs méthodes que l’on choisira en fonction de :

- La tâche à résoudre.

- La nature et la disponibilité des données.

Page 32: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

24

Extraction des connaissances à partir des données

- L’ensemble des connaissances et des compétences disponibles.

- La finalité du modèle construit.

- L’environnement social, technique, philosophique de l’entreprise.

- etc.

Deux grandes catégories de méthodes d’analyse consacrées à la fouille de données peuvent être dégagées. La frontière entre les deux peut être définie par la spécificité des techniques, et marque l’aire proprement dite de la fouille de données. On distingue donc :

A. Les méthodes classiques

On y retrouve des outils généralistes de l’informatique ou des mathématiques :

- Les requêtes dans les bases de données, simples ou multi-critères, dont la représentation est une vue,

- les requêtes d’analyse croisée, représentées par des tableaux croisés,

- les différents graphes, graphiques et représentations,

- les statistiques descriptives,

- etc.

B. Les méthodes issues de l’intelligence artificielle

Elles ont été élaborées pour résoudre des tâches bien définies. Ce sont :

- les règles d’association,

- les algorithmes de recherche du plus proche voisin,

- Les algorithmes de segmentation,

- les arbres de décision,

- les réseaux de neurones,

- les algorithmes génétiques,

- etc.

La section suivante n’est pas une présentation exhaustive de l’ensemble des techniques de la fouille de données, mais une présentation de quelques méthodes sophistiquées pour fournir un aperçu du domaine.

3.4.1. Les règles d’association

En 1992, (Agrawal et al., 1992) ont introduit le problème de l’extraction des règles d’association. Ce problème, développé à l’origine pour l’analyse de bases de données de ventes, a pour but de découvrir des relations significatives entre les

Page 33: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

25

Extraction des connaissances à partir des données

données de la base. Etant donné une base données de transactions, chacune constituée d’une liste d’articles achetés par un client.

Les règles d’association ou l’analyse du panier de la ménagère sont une des méthodes de fouille de données les plus répandus dans le domaine du marketing et de la distribution. Elles peuvent être appliquées à tout secteur d'activité pour lequel il est intéressant de rechercher des groupements potentiels de produits ou de services, par exemple : services bancaires, services de télécommunications, maintenance et dans le secteur médical pour la recherche de complications dues à des associations de médicaments ou à la recherche de fraudes en recherchant des associations inhabituelles.

Le système génère des règles d'association de forme "Si action1 ou condition alors action2". Elles peuvent se situer dans le temps : "Si action1 ou condition à l'instant t1 alors action2 à l'instant t2" c’est les règles d’association séquentielles.

3.4.2. Segmentation (Clustering)

La segmentation est l’opération qui consiste à regrouper les individus d’une population en un nombre limité de groupes, les segments (ou clusters, ou partition), qui ont deux propriétés : D’une part, ils ne sont pas prédéfinis, mais découverts automatiquement au cours de l’opération, contrairement aux classes de la classification. D’autre part, les segments regroupent les individus ayant des caractéristiques similaires et séparent les individus ayant des caractéristiques différentes (homogénéité interne et hétérogénéité externe) (Tufféry, 2005).

La segmentation est une tâche d'apprentissage "non supervisée" car on ne dispose d'aucune autre information préalable que la description des exemples. Les classes possibles et leur nombre ne sont pas connues à l'avance et les exemples disponibles sont non étiquetés. Le but est donc de découvrir des relations intéressantes qui peuvent exister implicitement entre les données et qui permettront de regrouper dans un même groupe (ou cluster) les objets considérés comme similaires, pour constituer les classes.

On distingue trois grandes familles de clustering :

1. le clustering hiérarchique, dont le but est de former une hiérarchie de clusters, telle que plus on descend dans la hiérarchie, plus les clusters sont spécifiques à un certain nombre d'objets considérés comme similaires;

2. le clustering par partition, dont le but est de former une partition de l'espace des objets, chaque partition représentant alors un cluster; dans cette famille, plusieurs méthodes se distinguent fortement:

- le clustering basé sur les K-means,

- le clustering basé sur la densité,

- le clustering basé sur l'utilisation de grilles,

Page 34: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

26

Extraction des connaissances à partir des données

- et le clustering basé sur les réseaux de neurones, appelés « auto-adaptatifs».

3. et le subspace clustering, dont le but est de cibler les clusters denses existant dans des sous-espaces de l'espace original.

3.4.3. Les réseaux neuronaux (Singh et Chauhan, 2005)

Un réseau de neurones est un des outils les plus répandus et évolués dans le module de fouille de données. C’est un domaine en pleine expansion issu de la biologie. Les réseaux de neurones représentent, de façon simplifiée, les interconnections du cerveau humain. Les réseaux neuronaux artificiels utilisent des méthodes statistiques telles que les probabilités et les distributions.

Les résultats obtenus par la méthode des réseaux neuronaux artificiels sont très faibles. Cependant, les modèles qui en découlent sont assez difficiles à comprendre et très sensibles au format des données traitées.

Il existe deux types de réseaux :

- à apprentissage supervisé où la réponse est connue

- à apprentissage non supervisé où le réseau ne connaît pas le résultat.

Ces outils sont très utilisés pour la classification, l'estimation, la prédiction et la segmentation. Ceux-ci obtiennent de bonnes performances, en particulier, pour la reconnaissance de formes et sont donc bien adaptés pour des problèmes comprenant des variables continues éventuellement bruitées. Le principal désavantage est qu'un réseau est défini par une architecture et un grand ensemble de paramètres réels (les coefficients synaptiques), le pouvoir explicatif est faible : on parle parfois de « boîte noire ».

3.4.4. Les algorithmes génétiques

Cette technique de fouille de données dirigée se base sur les mécanismes génétiques pour élaborer des paramètres de prévision des plus optimaux. Elle crée plusieurs générations de solutions qui évoluent au cours du temps afin d’obtenir la solution la plus performante (Raghavan et Birchard, 1997).

L’évolution se fait suivant trois procédés : la sélection, le croisement et la mutation. Le processus de sélection est similaire à celui de la sélection naturelle. Ainsi, uniquement les meilleures solutions se reproduisent. Le croisement se produit quand deux individus choisis au hasard parmi la population sont reliés, « accouplés » de sorte que le résultat final contient une partie de l’information de chacun de ses parents. Enfin, la mutation arrive soudainement lorsqu’il y a une erreur dans la transmission du code génétique des parents à l’enfant (Goldberg, 1989).

Page 35: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

27

Extraction des connaissances à partir des données

La méthode à base des algorithmes génétiques peut servir d’amélioration aux raisonnements basés sur la mémoire et aux réseaux neuronaux artificiels pour lesquels elle permet de décoder les solutions mais elle consiste plus en une technique de recherche qu’en un algorithme de fouille de données. Elle est plus utile à des fins d’optimisation qu’à des fins de classification ou de prédiction (Hansohm, 2000).

3.4.5. Les arbres de décision

Les arbres de décisions sont des outils puissants et connus, tant pour la classification que pour la prédiction. Les arbres de décision permettent de distinguer différentes classes et de leur associer une ou plusieurs règles. Ces dernières sont faciles à interpréter et représentent un atout principal des arbres de décisions.

L’objectif des méthodes basées sur les graphes d’induction est de construire une fonction de classement représentable par un graphe, à partir d’un ensemble d’exemples.

La section suivante abordera en détail les aspects : arbres de décision et graphes d’induction (cf. Section 4).

4. Les graphes d’induction

4.1. Présentation

Dans cette section, nous allons détailler les méthodes de fouille de données basées sur les graphes d’induction. L’objectif des méthodes basées sur les arbres de décision et les graphes d’induction est la construction d’un modèle représentable par un graphe ou par un arbre de décision7

Les travaux sur les arbres de décision datent déjà des années. Selon (Rakotomalala, 2005), la paternité en est attribuée à J. Morgan et J.A. Sonquist (1963) qui, les premiers, ont utilisé les arbres de régression dans un processus de prédiction et d’explication AID (Automatic Interaction Detection). A la suite des travaux de E.B. Hunt avec le CLS (1966), ID3 (Quinlan, 1983) a vu le jour au début des années quatre - vingt et a donné naissance à toute une série de descendants comme CART (Breiman et al., 1984), ASSISTANT 86 (Cetnik et al., 1987), GID3 (Cheng et al., 1988), KATE (Manago, 1991), O-BTree (Fayyad et

. Le graphe est obtenu par un découpage successif de la base d’apprentissage à l’aide d’un ensemble de décisions, en partant de la racine et en allant vers les feuilles (Brostaux, 2005).

7 Les arbres de décision sont un cas particulier des graphes d’induction, que nous précisons dans la suite du

document.

Page 36: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

28

Extraction des connaissances à partir des données

Irani, 1992), C4.5 (Quinlan, 1993), ... Par ailleurs, les travaux de J. Bourroche et M. Tenenhaus (1970) avec la méthode ELISEE est d’obédience statistique ; les travaux de C. Picard sur les pseudo-questionnaires (1972) sont à rapprocher de la théorie de l’information. On note surtout que de cette mouvance a émergé le concept de graphes latticiels par M. Terrenoire (1970) qui a été popularisé par les graphes d’induction avec la méthode SIPINA (Zighed, 1985).

4.2. Principe général

Il s’agit de trouver un partitionnement des individus que l’on représente sous la forme d’un graphe ou d’un arbre et produire ainsi des groupes d’individus les plus homogènes possibles par rapport à la classe à prédire (Rakotomalala, 2005).

On définit, d’une part, un graphe d'induction par un ensemble de sommets ou de nœuds, reliés par des arcs, et formant ainsi une structure de graphe. Cette structure est obtenue par découpage successif, en se basant sur les attributs d’une base d'apprentissage, qui est représentée dans un sommet particulier dit le sommet initiale, et en s'arrêtant quand on obtient un ensemble de sommets, dits sommets terminaux, qui ne représentent que des exemples appartenant à une même classe. Entre le sommet initial et les sommets terminaux, ils existent des sommets intermédiaires, qui sont obtenus après éclatement d'un sommet par un attribut, ou, dans les cas des méthodes non arborescentes, par fusion d'autres sommets.

D’autre part, on définit la décision par un test associé à chacun des nœuds internes de l’arbre. Ce test porte sur la valeur d’une variable choisie pour son lien avec la classe à prédire. Chaque donnée dont on veut prédire la classe va traverser l’arbre jusqu’à atteindre une feuille. A chaque nœud, la donnée va être orientée vers un sous-arbre en fonction du résultat du test. Chaque test permet de mieux connaitre la donnée, jusqu’à atteindre les feuilles qui sont étiquetées par une classe. Quand la donnée à classer atteint l’une des feuilles, elle se voit attribuer la classe associée à cette feuille (Preux, 2005).

A partir de cette description du graphe, il n'est donc pas difficile de déduire des règles logiques, où chaque chemin du sommet initial à un sommet terminal correspond à une règle logique sous formes de conjonctions de conditions (qui forment ainsi la prémisse de la règle), manants à une valeur de la classe (qui forme la conclusion de la règle). On peut dire alors qu'un graphe d'induction est une représentation graphique d'une fonction de classement, obtenue par l'ensemble des règles logiques (Lefébure et Venturi, 2001).

A titre illustratif du principe général des graphes d’induction, le tableau 2.4 représente un échantillon d’apprentissage de 22 exemples de détection des maladies ‘Asthme’ et ‘Diabète’ dans différentes localités. Chaque exemple (ou individu) est décrit par quatre attributs : Localité, Saison, Age et Sexe. Il s’agit d’expliquer l’apparition de la maladie (Asthme ou Diabète) dans les enregistrements des ventes en pharmacie (individus) par rapport aux descriptions

Page 37: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

29

Extraction des connaissances à partir des données

de paramètres (attributs) tels que le climat (dans une période donnée), la localité, le sexe et l’âge.

Climat Localité Sexe Age Maladies

1 Chaud Oran Homme Agé Asthme

2 Chaud Oran Homme Jeune Asthme

3 Froid Oran Homme Agé Diabète

4 Tempéré Tlemcen Homme Agé Diabète

5 Tempéré Ain Témouchent Femme Agé Diabète

6 Tempéré Ain Témouchent Femme Jeune Asthme

7 Froid Ain Témouchent Femme Jeune Diabète

8 Chaud Tlemcen Homme Agé Diabète

9 Chaud Ain Témouchent Homme Agé Asthme

10 Tempéré Tlemcen Femme Agé Diabète

11 Chaud Tlemcen Femme Jeune Diabète

12 Froid Tlemcen Homme Jeune Diabète

13 Froid Oran Femme Agé Diabète

14 Tempéré Tlemcen Homme Jeune Diabète

15 Tempéré Ain Témouchent Homme Jeune Asthme

16 Chaud Tlemcen Homme Jeune Asthme

17 Tempéré Tlemcen Femme Jeune Asthme

18 Tempéré Oran Homme Jeune Asthme

19 Tempéré Oran Homme Agé Diabète

20 Chaud Oran Femme Agé Asthme

22 Froid Ain Témouchent Femme Agé Diabète

22 Chaud Ain Témouchent Femme Jeune Asthme

TAB. 2.4 – Echantillon d’apprentissage de détection de maladies.

Le tableau 2.5 donne une notation des attributs et résume les valeurs qu’ils prennent.

Paramètres Notation Valeurs possibles

Maladies Classe Asthme, Diabète

Climat X1 CH : Chaud, FR : Froid, TP : Tempéré

Localité X2 OR : Oran, TL : Tlemcen, AT: Ain Témouchent

Sexe X3 H : Homme, F : Femme

Age X4 A : Agé, J : Jeune

TAB. 2.5 – Représentation des variables.

La Figure 2.2 est un exemple de graphe d’induction, où les attributs sont choisis arbitrairement et sans calculs de façon à reclasser correctement les exemples de l’échantillon d’apprentissage.

Page 38: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

30

Extraction des connaissances à partir des données

FIG. 2.2 – Graphe d’induction obtenu.

Du graphe précèdent on distingue les composantes suivants:

Les sommets: Ils sont représentés sous forme de rectangles divisés en deux parties, où une partie contient le nombre d'exemples ayants la première valeur de la classe, et l'autre partie contient le nombre d'exemples ayants la deuxième valeur de la classe. Les sommets sont notés : s0, s1, …, s17

Comme il a été évoqué, il existe trois types de sommets:

- Le sommet initial qui n'a pas de prédécesseurs et qui représente toute la base d'apprentissage (s0).

- Les sommets intermédiaires obtenus après des opérations d'éclatement ou de fusion (s1, s3, s5, s8, s10, s12).

- Les sommets terminaux ou les feuilles qui n'ont pas de successeurs, et qui représentent des exemples d'une même classe (s2, s4, s6, s7, s9, s11, s13, s14, s15, s16, s17).

s1

X3 = H

X3 = F

s12 1

1

s17 1

0 s16

0

1

X2 = OR

X2 = AT

X2 = TL

s8 4

1

s11 1

0 s13

2

0

X1 = TP X1 = CH

s0 10

12

Nombre d’exemples d’ « ASTHME »

Nombre d’exemples de « DIABETE »

X1 = FR

s2 0

5

X4 = J X4 = A

s3 4

5

s7 0

4

X2 = AT X2 = OR

X2 = TL

6

2

s4 3

0 s6

2

0 s5

1

2

X3 = F

s10 1

1

s14 1

0 s15

0

1

X3 = H

X4 = A

X4 = J

s9 0

1

Page 39: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

31

Extraction des connaissances à partir des données

Les arcs: Ils sont représentés sous forme de flèches reliant deux sommets, et ils représentent les opérations effectuées, et lors d'une opération d'éclatement, chaque arc porte une valeur d'un attribut.

Les partitions: Elles réunissent un ensemble de sommets issus d'une même opération à un moment donné.

Chaque partition peut être décrite par un tableau de la forme suivante:

C1 … Cj … Cm Total

S1 N11 … N1j … N1m N1 … … … … … … … Si Ni1 … Nij … Nim Ni … … … … … … … Sk Nk1 … Nkj … Nkm Nk

Total N1 … Nj … Nm N

TAB. 2.6 – Représentation des partitions.

Avec:

- k est l'indice le plus grand des partitions.

- m est le nombre de valeurs que peut prendre la classe.

- Les Si sont les partitions.

- Les Cj sont les différentes valeurs de la classe.

- Les Nij sont les effectifs des sommets sI pour la classe cj.

Comme le graphe d'induction est composé de sommets, et chaque sommet représente un sous échantillon de la base d'exemples, alors on peut dire que la construction d'un graphe d'induction est une succession d'opérations permettant de discriminer les exemples selon leur classe en fonction d'un sous-ensemble de l'ensemble d'attributs. Donc, à chaque étape est recherché l'attribut qui discrimine le mieux les exemples représentés par le sommet courant jusqu'à l'arrivé aux sommets terminaux, et de ce fait, se pose une question centrale: Quel est l'attribut à choisir à chaque étape? En répondant à cette question, on conclu immédiatement que la détermination de cet attribut « significatif » est la base des techniques de construction des graphes, et les méthodes basées sur les graphes d'induction diffèrent essentiellement à ce point (Preux, 2005).

Le choix de cet attribut permet ainsi de réduire un critère donné d'une partition à une autre qui en dérive, jusqu'à ce qu'il n'y ait aucune amélioration possible du critère donné. Ce critère est l'incertitude dans laquelle on se trouve lorsqu'on veut classer des exemples, donc le choix de l'attribut permet de réduire cette incertitude, et par conséquent, la fonction de classement représentée par le graphe résultant va permettre de prédire la classe des exemples avec le moins d'incertitude possible. Ce principe de réduction de l'incertitude est alors un principe commun sur lequel reposent pratiquement toutes les méthodes à base de graphes d'induction, malgré les critères apparentes de sélection des attributs (Preux, 2005).

Page 40: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

32

Extraction des connaissances à partir des données

Un autre point de distinction entre ces méthodes est la réduction de la taille du graphe, car, plus le graphe est simple, plus la fonction de classement est simple, et donc meilleurs seront les résultats. Par conséquent, l'ensemble des critères de sélection des attributs, et celles de limitation de la taille du graphe caractérise la stratégie de partition utilisée par chaque méthode, cependant, le principe de construction du graphe reste le même pour toutes les méthodes. Ce principe est le suivant (avec S qui représente une partition et I(S) l'indicateur d'incertitude lié à S):

Le principe de construction d'un graphe d'induction:

1. Calculer l'incertitude I(S) de la partition S.

2. Pour chaque attribut et sommet candidats à la segmentation (partitionnement), calculer I(S') avec S' la partition issue de S après la segmentation d'un sommet selon l'attribut X.

3. Sélectionner l'attribut qui maximise la réduction d'incertitude, c'est-à-dire l'écart 𝛥𝛥𝛥𝛥(𝑆𝑆) = 𝛥𝛥(𝑆𝑆) – 𝛥𝛥(𝑆𝑆′) et effectuer la segmentation selon cet attribut.

4. S → S'.

5. Si S est une partition homogène alors affecter à chacune des feuilles une classe, sinon aller en 1.

Le critère de sélection des attributs est le gain 𝛥𝛥𝛥𝛥(𝑆𝑆) = 𝛥𝛥(𝑆𝑆) – 𝛥𝛥(𝑆𝑆′) de réduction d’incertitude. Grâce à la propriété d’indépendance, il est aisé de démontrer que cette variation d’incertitude sur l’ensemble d’une partition est égale à la variation d’incertitude sur le sommet qui a été segmenté.

L'indicateur d'incertitude introduit à la section précédente doit vérifier quelques propriétés pour qu'il soit utilisable durant la construction du graphe, ces propriétés sont les suivantes (Zighed et al., 1992) :

- L'incertitude doit être minimale quand la partition résultante est homogène.

- L'incertitude doit être maximale quand dans chaque sommet, les exemples sont répartis équitablement sur les deux classes.

- L'incertitude d'une partition ne doit pas être sensible à l'ordre des sommets.

- L'incertitude d'une partition ne doit dépendre que du sommet segmenté.

Il existe d'autres propriétés qui sont propre à certaines méthodes, et qui seront introduit ultérieurement.

Comme nous pouvons remarqués du principe de construction du graphe d'induction, l'écart? I(S) égale à I(S) – I(S') est le critère de sélection des attributs dont on a parlé, et qui représente la réduction d'incertitude, et il est appelé Gain d'incertitude. Pour toutes les méthodes à base de graphe d'induction, le but est de maximiser ce critère (le gain), mais avant cela, il faut d'abord utiliser des critères pour mesurer l'incertitude. Ces critères sont différents d'une méthode à l'autre, et on peut citer par exemple celles provenant de la théorie de l'information, comme la mesure d'entropie, que se soit l'entropie quadratique, de Shannon, de Daroczy ou

Page 41: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

33

Extraction des connaissances à partir des données

autre, où la maximisation du gain par un attribut revient à choisir cet attribut de façon à ce que la quantité d'informations nécessaire pour classer un exemple quelconque soit minimale. Un autre critère provenant de la théorie de l'information est le principe MDL (Minimum Description Lenght) (Rissanem, 1978), où l'on choisit l'attribut dont la quantité d'information, à encoder (nombres de bits nécessaires pour le spécifier) pour déterminer les classes, soit minimale. Il existe aussi d'autres critères qui ne proviennent pas de la théorie de l'information, comme par exemple ceux basé sur la distance de Kolmogorov – Smirnov (Bouroche et Tenenhaus, 1970).

Chaque méthode utilise ses propres critères de sélection d'attributs, cependant il existe un problème qui soit posé, Comment décider qu'un sommet quelconque soit un sommet terminale? Autrement dit: Quand arrêter le partitionnement du graphe? Car on peut imaginer, dans le cas des données bruitées, qu'on continue à partitionner durant plusieurs itérations, et lorsqu'on arrête on obtient des partitions rassemblant des sommets ayant un seul exemple, ou obtenir des graphes complexes, ou encore avoir un taux d'erreurs élevé pour le classement d'exemples inconnus. La résolution à ces problèmes est possible grâce aux critères de limitation de la taille de graphe (on parle de profondeur de l'arbre) utilisés par chaque méthode. Ces critères peuvent se résumer dans les approches suivantes:

- Intervenir lors de la construction du graphe en fixant des critères d'arrêts de partitionnement, soit par définir une taille minimale de chaque sommet qui interdira de partitionner ce sommet si sa taille est inférieure à elle, soit par définir un gain relatif d'information apporté par une autre segmentation, qui interdira de partitionner un sommet si la partition générée permettra un gain inférieur…etc. Parmi les méthodes utilisant ces critères: SIPINA, CART, C4.5 (Breiman et al., 1984) (Zighed et al., 1992), où on utilise la taille minimale de graphe (dans SIPINA et CART on utilise 5, dans C4.5 on utilise 2), ou encore dans ID3 ou ASSISTANT 86.

- Intervenir lors de a construction du graphe en procédant à des opérations de fusion entre certains sommets, afin de limiter sa taille. SIPINA utilise largement ce principe, ainsi que CART, ASSISTAN 86 et GID3 mais sous une autre variante.

- Intervenir après la construction du graphe, qui serait un graphe maximal, en l'élaguant afin d'arriver à un graphe optimal. Cette technique repose sur le remplacement d'un sous graphe par un sommet terminal pour obtenir un taux de succès de classement des exemples comparable. Cette technique est utilisée dans CART, ASSISTANT 86 et C4.5.

Nous remarquons que certaines méthodes utilisent plus d'une technique de limitation de la taille de graphe, comme par exemple la méthode SIPINA qui utilise à la fois la taille minimale du sommet et le principe de fusion de sommets.

Page 42: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

34

Extraction des connaissances à partir des données

Toutefois, il existe d'autres problèmes fréquemment rencontrés lors de la construction du graphe, comme par exemple la gestion des données manquantes.

4.3. Comparaison entre les arbres de décision et les graphes d’induction

Dans la plupart des méthodes basées sur les graphes d’inductions, le graphe construit ne contient que des opérations d’éclatement au niveau des sommets, et de ce fait il est dit arborescent, appelé souvent arbre de décision. Dans les graphes d’induction, il a été introduit un nouvel opérateur « fusion » (des sommets) dans l’algorithme d’apprentissage lors de la construction du graphe en regroupant les individus de mêmes caractéristiques, afin de limiter la taille de ce dernier et assurer ainsi une meilleure résistance à la fragmentation des données (Rakotomalala, 2005). Dans ce cas, le graphe d’induction est dit non arborescent – généralisation de l’arbre de décision –, et il reste sous l’appellation de graphe d’induction. Le principe de fusion est donc une caractéristique propre aux graphes d’induction qui ne sont pas des arbres de décision.

4.4. Algorithmes classiques

4. 4. 1. ID3

ID3 utilise une mesure d’incertitude basée sur l’entropie de Shannon (Quinlan, 1983), (Quinlan, 1986). L’entropie exprime l’information nécessaire pour identifier la classe des exemples d’un échantillon, cela revient à dire que l’entropie exprime l’incertitude dans laquelle on se trouve si l’on veut classer les exemples.

Compte tenu de la propriété d’indépendance de la mesure d’incertitude I(S) de la partition, nous choisissons de noter maintenant S le sommet de la partition concerné par l’opération de segmentation. Le sommet S désigne l’échantillon considéré, c’est à dire un sous-ensemble de l’échantillon d’apprentissage initial. De plus, pour simplifier les notations, un attribut quelconque Xi est noté X.

Soient :

S le sommet ou l’échantillon considéré N le nombre d’exemples présents sur le sommet S, Card(S)=N M le nombre de classes y1, yj, ym les m classes, d’effectif Nj sur le sommet S X un attribut quelconque ayant k valeurs notées x1, xi, xk Si le sous-échantillon composé des exemples ayant la valeur xi

𝑆𝑆𝑖𝑖 = 𝜔𝜔 ∈ 𝑆𝑆;𝑋𝑋(𝜔𝜔) = 𝑥𝑥𝑖𝑖

Ni le nombre d’exemples dans le sous-échantillon Si, Card (Si) = Ni

Nij le nombre d’exemple dans l’échantillon Si appartenant à la classe yj

Page 43: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

35

Extraction des connaissances à partir des données

Le gain d’information, noté Gain(X), apporté par la segmentation du sommet S

selon les valeurs de l’attribut X est défini de la façon suivante :

𝐺𝐺𝐺𝐺𝑖𝑖𝐺𝐺(𝑋𝑋) = ∆𝛥𝛥(𝑆𝑆) = 𝛥𝛥(𝑆𝑆) − 𝛥𝛥𝑥𝑥(𝑆𝑆)

EQU. 2.1 – Le gain d’information dans ID3.

𝛥𝛥(𝑆𝑆) = − 𝑁𝑁𝑗𝑗𝑁𝑁∗ log2

𝑁𝑁𝑗𝑗𝑁𝑁

𝑚𝑚

𝑗𝑗=1

𝛥𝛥𝑥𝑥(𝑆𝑆) = 𝑁𝑁𝑖𝑖𝑁𝑁∗ −

𝑁𝑁𝑖𝑖𝑗𝑗𝑁𝑁𝑖𝑖

𝑚𝑚

𝑗𝑗=1

∗ log2 𝑁𝑁𝑖𝑖𝑗𝑗𝑁𝑁𝑖𝑖

𝑘𝑘

𝑖𝑖=1

EQU. 2.2 – L’entropie de Shannon.

Le gain d’information est une expression de l’information conjointe existant entre les classes et l’attribut. Plus Ix(S) est faible (c’est-à-dire moins d’information pour classer les exemples avec l’attribut X est nécessaire), plus le gain d’information apporté par l’attribut X est important.

Lors de la construction du graphe, qui est appelé arbre de décision, ID3 examine tous les attributs candidats pour une segmentation et avec le critère de gain sélectionne l’attribut qui maximise le gain d’information. Au départ, l’échantillon S considéré est Ω, c'est-à-dire l’échantillon d’apprentissage, Ω est alors partitionné selon les p valeurs de X. Sur chaque sous-échantillon Ωp est recherché récursivement, parmi les attributs non encore sélectionnés, l’attribut qui maximise le gain d’information, jusqu’à ce que tous les exemples d’un même échantillon appartiennent à une même classe.

Afin d’illustrer ce critère, soit Ω l’échantillon du tableau 2.4. Sur les 22 exemples, 10 appartiennent à la classe « Asthme », et les 12 autres appartiennent à la classe « Diabète ».

L’incertitude associée à l’échantillon est donc :

𝐈𝐈(𝛀𝛀) = 1022 ∗ log2

1022 −

1222 ∗ log2

1222 = 𝟎𝟎,𝟗𝟗𝟗𝟗𝟗𝟗

Soit une incertitude presque maximale pour deux classes.

Calculons pour chacun des quatre attributs l’entropie Ix(Ω) :

𝐈𝐈𝐂𝐂𝐂𝐂𝐂𝐂𝐂𝐂𝐂𝐂𝐂𝐂(𝛀𝛀) =8

22 ∗ −

68 ∗ log2

68 –

28 ∗ log2

28

+5

22 ∗ −

05 ∗ log2

05 –

55 ∗ log2

55

+ 9

22 ∗ −

59 ∗ log2

59 –

49 ∗ log2

49

= 𝟎𝟎,𝟕𝟕𝟎𝟎𝟎𝟎

d’où 𝑁𝑁𝑖𝑖 = ∑ 𝑁𝑁𝑖𝑖𝑗𝑗 et 𝑁𝑁 = ∑ ∑ 𝑁𝑁𝑖𝑖𝑗𝑗𝑚𝑚𝑗𝑗=1

𝑘𝑘𝑖𝑖=1 𝑚𝑚

𝑗𝑗=1 I(S) l’incertitude du sommet S Ix(S) l’incertitude du sommet S après segmentation selon les valeurs

de X.

Page 44: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

36

Extraction des connaissances à partir des données

𝐈𝐈𝐋𝐋𝐋𝐋𝐋𝐋𝐂𝐂𝐂𝐂𝐂𝐂𝐂𝐂é(𝛀𝛀) =7

22 ∗ −

47 ∗ log2

47 –

37 ∗ log2

37

+8

22 ∗ −

28 ∗ log2

28 –

68 ∗ log2

68

+ 7

22 ∗ −

46 ∗ log2

46 –

36 ∗ log2

36

= 𝟎𝟎,𝟗𝟗𝟗𝟗𝟗𝟗

𝐈𝐈𝐒𝐒𝐒𝐒𝐒𝐒𝐒𝐒(𝛀𝛀) = 𝟎𝟎,𝟗𝟗𝟗𝟗𝟕𝟕

𝐈𝐈𝐀𝐀𝐀𝐀𝐒𝐒(𝛀𝛀) = 𝟎𝟎,𝟗𝟗𝟗𝟗𝟖𝟖

Le gain d’information de chaque attribut est donc : Gain(Climat) = 0,293 Gain(Localité) = 0,072 Gain(Sexe) = 0,004 Gain(Age) = 0,104

D’après ces résultats, la méthode ID3 va donc choisir comme premier attribut le Climat pour segmenter l’échantillon d’apprentissage. L’échantillon va être partitionné selon les trois valeurs du Climat, et sur les sous-échantillons associés aux valeurs « Climat=Chaud » et « Climat=Tempéré » est réitéré le processus de recherche de l’attribut le plus discriminant. La Figure 2.2 représente en fait l'arbre obtenu par la méthode ID3 avec le critère du gain d’information.

Maintenant, intéressons nous à la taille du graphe. Cependant, l’algorithme ID3 utilise un critère d'arrêt basé sur le test d'indépendance de Chi Deux afin de limiter la taille du graphe. La statistique suivante (cf. Equation 2.3) suit approximativement une loi du Chi Deux à (k-1) degré de liberté. Cette statistique teste l’hypothèse, au risque donné, selon laquelle l’attribut X est indépendant de la distribution des exemples selon les classes dans l’échantillon. Dans la construction du graphe, à chaque sommet, est testée l’indépendance des attributs et parmi ceux non indépendants, est retenu celui qui maximise le gain d’information.

𝑁𝑁𝑖𝑖𝑗𝑗 −

𝑁𝑁𝑖𝑖 ∗ 𝑁𝑁𝑗𝑗𝑁𝑁

2

𝑁𝑁𝑖𝑖 ∗ 𝑁𝑁𝑗𝑗𝑁𝑁

𝑚𝑚

𝑗𝑗=1

𝑘𝑘

𝑖𝑖=1

EQU. 2.3 – Statistique de teste d'indépendance de l'attribut.

Sur l’échantillon du tableau 2.4, avec la condition d’arrêt basée sur le test d’indépendance du Chi Deux et un risque fixé à 5 %, ID3 construit l’arbre de la Figure 2.3

Page 45: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

37

Extraction des connaissances à partir des données

FIG. 2.3 – Graphe construit par ID3 avec une condition d’arrêt basée sur le Chi Deux.

4. 4. 2. C4.5

J. R. Quinlan a reconnu, suite à plusieurs critiques, que le gain d’information d’ID3 favorisait les attributs avec beaucoup de valeurs, ce qui lui a amené à utiliser une variante du gain d’information dans C4.5 (Quinlan, 1993). Autrement dit, la quantité d’information potentielle d’un attribut dépend de la distribution des exemples selon les valeurs possibles de cet attribut. Moins il y a de valeurs différentes dans un attribut, moins cet attribut aura d’information. D’où l’idée de normaliser le gain apparent par l’information Info(X) due au nombre de valeurs de l’attribut X et de créer un nouveau critère le Ratio de Gain :

𝑅𝑅𝐺𝐺𝑅𝑅𝑖𝑖𝑜𝑜 𝑑𝑑𝑑𝑑 𝐺𝐺𝐺𝐺𝑖𝑖𝐺𝐺 (𝑋𝑋) = 𝐺𝐺𝐺𝐺𝑖𝑖𝐺𝐺 (𝑋𝑋)𝛥𝛥𝐺𝐺𝐼𝐼𝑜𝑜 (𝑋𝑋)

𝛥𝛥𝐺𝐺𝐼𝐼𝑜𝑜(𝑋𝑋) = − ∑ 𝑁𝑁𝑖𝑖𝑁𝑁∗ log2

𝑁𝑁𝑖𝑖𝑁𝑁𝑘𝑘

𝑗𝑗=1

EQU. 2.4 – Le rapport de gain utilisé dans C4.5.

Le Ratio de Gain exprime la proportion, d’information générée par le partitionnement selon l’attribut X, qui est utilisable pour le classement. Pour éviter que le Ratio de Gain ne favorise excessivement les attributs avec un faible nombre de valeurs au détriment d’attributs ayant un fort gain, C4.5 calcule une moyenne des gains de tous les attributs candidats à la segmentation d’un sommet, et parmi ceux dont le gain est supérieur à la moyenne, est retenu l’attribut qui maximise le Ratio de Gain.

Après les critères de sélection d'attributs, Quinlan a introduit dans C4.5 un nouveau critère de limitation de la taille d'arbre, il s'agit de remplacer certain sous arbres, directement par des feuilles, et sa après la construction du graphe initiale. Cette technique peut être décrite par les étapes suivantes (Breiman et al., 1984):

- Calculer le taux d'erreur de classement des exemples d'apprentissage par chaque sous arbre.

- Estimer le taux d'erreur de classement dans le cas où ce sous arbre est remplacé par une feuille.

X1 = TP X1 = CH X1 = FR

ASTHME

DIABETE

10

11

5

2

0

5

X4 = J X4 = A

5

4

0

4

5

0

Page 46: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

38

Extraction des connaissances à partir des données

- Comparer les deux résultats, et si le deuxième est à moins d'un écart type du premier, on remplace ce sous arbre par une feuille.

4. 4. 3. CART

La méthode CART (Classification And Regression Tree) (Breiman et al., 1984) est aussi l'une des méthodes qui construisent un modèle arborescent, cependant, elle présente une particularité au niveau de la segmentation des sommets, car elle ne permet qu'une segmentation selon deux valeurs d'attributs, que l'on nomme segmentation binaire. Donc, un regroupement des valeurs d'un attribut possédant plus que deux valeurs en deux nouvelles modalités, est nécessaire.

Ayant adopté à ce principe de segmentation binaire, la méthode CART cherche pour chacun des attributs candidats le meilleur regroupement selon la mesure d'incertitude et ne retient que l'attribut maximisant le gain. Pour la mesure d'incertitude, la méthode CART utilise l'indice de diversité de Gini, et le gain serait donc (Breiman et al., 1984):

𝐺𝐺𝐺𝐺𝑖𝑖𝐺𝐺(𝑋𝑋) = ∆𝛥𝛥(𝑆𝑆) = 𝛥𝛥(𝑆𝑆) − 𝛥𝛥𝑥𝑥(𝑆𝑆)

EQU. 2.5 – Le gain d’information dans CART.

𝛥𝛥(𝑆𝑆) = − 𝑁𝑁𝑗𝑗𝑁𝑁∗

𝑚𝑚

𝑗𝑗≠𝑗𝑗′

𝑁𝑁𝑗𝑗′𝑁𝑁

𝛥𝛥𝑥𝑥(𝑆𝑆) = 𝑁𝑁𝑖𝑖𝑁𝑁∗

𝑁𝑁𝑖𝑖𝑗𝑗𝑁𝑁𝑖𝑖

∗ 𝑚𝑚

𝑗𝑗≠𝑗𝑗′

𝑁𝑁𝑖𝑖𝑗𝑗 ′𝑁𝑁𝑖𝑖

2

𝑖𝑖=1

EQU. 2.6 – L'indice de diversité de Gini utilisé dans CART.

Pour la limitation de la taille de l'arbre, la méthode CART utilise une technique d'élagage qui intervient après la construction du graphe, en construisant une séquence de sous graphes obtenues après élagage du graphe initial, et en ne retenant que le sous graphe qui présente le taux d'erreurs le plus faible. Les sous graphes sont construits par suppression des branches du graphe initial, qui sont de taille importante et ne conduisant pas à une diminution considérable du taux d'erreurs.

4. 5. La méthode SIPINA

La méthode SIPINA était proposée en France en 1985 par D.A. Zighed (Zighed, 1985) (Zighed et al., 1992), à la suite des travaux sur le gain d'information et sur le pseudo – questionnaires initiés par Picard dans les années soixante-dix. Le terme SIPINA signifie "Système Interactif pour les Processus d'interrogation Non Arborescent", et il désigne une méthode qui est non arborescente, du fait que le graphe qu'elle génère est non arborescent.

Au contraire des méthodes arborescentes citées auparavant, qui ne procèdent lors de la construction du graphe que par des opérations d'éclatement des sommets par les attributs, la méthode SIPINA introduit une opération de fusion entre sommets, dans le but de minimiser le nombre de sommets terminaux tout en

Page 47: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

39

Extraction des connaissances à partir des données

s'assurant que ces derniers aient des effectifs suffisamment importants. En effet, la méthode SIPINA utilise lors de la construction du graphe d'induction trois opérations : La fusion, la fusion – éclatement et l'éclatement, que nous les décrirons dans ce qui suit (Zighed, 1985) :

- L'opération de fusion entre des sommets consiste à regrouper les exemples appartenant à ces sommets, en un seul qui va contenir tous les exemples avec le même partage sur les valeurs de la classe (les exemples de chaque valeur de la classe sont regroupés séparément). La méthode procède à cette opération après le calcule du gain d'incertitude proposé par tout regroupement possible entre les sommets, et le choix du regroupement qui le maximise, par contre, s'il n'y a pas de gain positif par regroupement, la méthode procède à une tentative de fusion – éclatement.

- L'opération d'éclatement consiste à segmenter un sommet selon un attribut, pour générer autant de sommets que cet attribut à de valeurs, et les exemples contenus dans le sommet sont répartis sur les sommets résultants. La méthode procède à cette opération après le calcule du gain d'incertitude proposé par chaque éclatement possible par les attributs, et le choix de l'attribut qui le maximise, par contre s'il n'y a pas de gain positif par éclatement, la méthode se termine et aucune amélioration ne sera possible pour la partition courante.

- L'opération de fusion-éclatement intervient quand une tentative de fusion échoue, et, comme son nom l'indique, est composée d'une opération de fusion et une autre d'éclatement. La méthode procède à cette opération après le choix de l'attribut qui maximise le gain d'incertitude proposé par l'éclatement d'un sommet, mais que le sommet concerné sera, à son tour, obtenu après fusion de deux autres sommets.

Pour la mesure d'incertitude, la méthode SIPINA utilise généralement l'entropie quadratique (Zighed et al., 1992), qui doit vérifier les deux propriétés suivantes :

- L'incertitude doit diminuer pour une augmentation de la taille de l'échantillon (la mesure d'incertitude doit être sensible aux effectifs).

- L'incertitude doit diminuer pour une fusion de deux sommets ayant des distributions de classes similaires, et appartenant à une même partition.

Le gain d'informations 𝛥𝛥𝛥𝛥(𝑆𝑆) apporté selon l'entropie de Quadratique est donné par la formule suivante (Zighed et al., 1992) :

𝐺𝐺𝐺𝐺𝑖𝑖𝐺𝐺(𝑋𝑋) = ∆𝛥𝛥(𝑆𝑆) = 𝛥𝛥(𝑆𝑆) − 𝛥𝛥𝑥𝑥(𝑆𝑆)

EQU. 2.7 – Le gain d’information dans SIPINA.

Page 48: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

40

Extraction des connaissances à partir des données

𝛥𝛥(𝑆𝑆) = − 𝑁𝑁𝑗𝑗 + 𝜆𝜆𝑁𝑁 + 𝑚𝑚𝜆𝜆

∗ 𝑚𝑚

𝑗𝑗=1

1 −𝑁𝑁𝑗𝑗 + 𝜆𝜆𝑁𝑁 + 𝑚𝑚𝜆𝜆

𝛥𝛥𝑥𝑥(𝑆𝑆) = 𝑁𝑁𝑖𝑖𝑁𝑁∗

𝑁𝑁𝑖𝑖𝑗𝑗 + 𝜆𝜆𝑁𝑁𝑖𝑖 + 𝑚𝑚𝜆𝜆

𝑚𝑚

𝑗𝑗≠𝑗𝑗′

𝑘𝑘

𝑖𝑖=1

∗ 1 −𝑁𝑁𝑖𝑖𝑗𝑗 + 𝜆𝜆𝑁𝑁𝑖𝑖 + 𝑚𝑚𝜆𝜆

EQU. 2.8 – L'entropie Quadratique utilisée dans SIPINA.

Avec :

Reprenons l’échantillon du tableau 2.4, avec λ = 1

L’incertitude associée à l’échantillon est donc :

𝐈𝐈(𝛀𝛀) = (10 + 1) (22 + 2 ∗ 1) ∗ (1− (10 + 1) (22 + 2 ∗ 1))⁄⁄ +(12 + 1) (22 + 2 ∗ 1) ∗ (1− (12 + 1) (22 + 2 ∗ 1))⁄⁄ = 𝟎𝟎,𝟗𝟗𝟗𝟗𝟒𝟒𝟖𝟖 Soit une incertitude presque maximale pour deux classes.

Calculons pour chacun des quatre attributs l’entropie Ix(Ω) : 𝐈𝐈𝐋𝐋𝐋𝐋𝐋𝐋𝐂𝐂𝐂𝐂𝐂𝐂𝐂𝐂é(𝛀𝛀) = 8 22 ∗⁄ [((6 + 1) (8 + 2 ∗ 1)) ∗ (1− (6 + 1) (8 + 2 ∗ 1))⁄⁄ +(2+18+2∗1)∗ (1−2+18+2∗1)+ 522∗(5+15+2∗1)∗ (1−5+15+2∗1)+(0+15+2∗1)∗ (1−0+15+2∗1)+ 9 22 ∗⁄ [((5 + 1) (9 + 2 ∗ 1)) ∗ (1− (5 + 1) (9 + 2 ∗ 1))⁄⁄ +(4+19+2∗1)∗ (1−4+18+2∗1)=𝟎𝟎,𝟗𝟗𝟏𝟏𝟏𝟏

𝐈𝐈𝐋𝐋𝐋𝐋𝐋𝐋𝐂𝐂𝐂𝐂𝐂𝐂𝐂𝐂é(𝛀𝛀) = 𝟎𝟎,𝟗𝟗𝟒𝟒𝟕𝟕 𝐈𝐈𝐒𝐒𝐒𝐒𝐒𝐒𝐒𝐒(𝛀𝛀) = 𝟎𝟎,𝟗𝟗𝟗𝟗𝟒𝟒𝟒𝟒 𝐈𝐈𝐀𝐀𝐀𝐀𝐒𝐒(𝛀𝛀) = 𝟎𝟎,𝟗𝟗𝟗𝟗𝟗𝟗

Le gain de chaque attribut est donc : Gain(Climat) = 0,0855 Gain(Localité) = 0,0295 Gain(Sexe) = 0,0029

S un sommet, N son effectif (Card(S)=N) et X un attribut quelconque

Si le sous-échantillon composé des exemples ayant la valeur xi I(S) l’incertitude du sommet S Ix(S) l’incertitude du sommet S après segmentation selon les valeurs

de X. Ni le nombre d’exemples dans le sous-échantillon Si Nij le nombre d’exemple dans l’échantillon Si appartenant à la

classe yj M le nombre de classes Nj l'effectif des classes yj λ un paramètre positif non nul

Page 49: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

41

Extraction des connaissances à partir des données

Gain(Age) = 0,0475

D’après ces résultats, la méthode SIPINA va donc choisir comme premier attribut Climat et segmenter l’échantillon selon les trois valeurs.

En outre, le paramètre λ pénalise les nœuds de faibles effectifs, et il peut être à son tour calculé en fonction d'un autre paramètre τ qui décrit la contrainte d'admissibilité (c'est un entier représentant le nombre minimum d'individus supporté sur un sommet). Le calcule de λ est réalisé on maximisant la fonction z(λ) suivante (Zighed et al., 1992) :

𝑧𝑧(λ) = λ (𝑚𝑚− 1) 𝑚𝑚𝜆𝜆 + 2𝜏𝜏 + 2𝜏𝜏2 + 2𝜏𝜏𝑚𝑚𝜆𝜆(𝜏𝜏 + 𝑚𝑚𝜆𝜆)2(𝜏𝜏 + 1 + 𝑚𝑚𝜆𝜆)2

EQU. 2.8 – Calcul du paramètre 𝜆𝜆.

Dans cette fonction, le taux (τ) est soit calculé, soit fixé par l'utilisateur. Par

exemple si m = 2 et τ = 2, alors 𝑧𝑧(λ) = λ 12

. 5𝜆𝜆+ 6(1+𝜆𝜆)2(3+2𝜆𝜆)2, puis on calcule la

dérivée de z 𝜗𝜗𝑧𝑧𝜗𝜗𝜆𝜆, et on calcule ensuite la valeur de λ qui la rend nulle. La valeur

optimale est λ = 0,61098.

Sur l’échantillon du tableau 2.4, SIPINA construit le graphe de la Figure 2.4.

X3 = F X3 = H

8

0

1

1

1

2

X2 = AT X2 = OR X2 = TL

2

3

4

0

4

0

X4 = J X4 = A

0

4

4

1

0

9

10

3

X1 = TP X1 = CH X1 = FR

ASTHME

DIABETE

10

12

0

5

4

5

6

2

Page 50: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 2

42

Extraction des connaissances à partir des données

FIG. 2.4 – Graphe obtenu par la méthode SIPINA.

5. Conclusion

Dans le présent chapitre, nous avons donné un aperçu global sur l’extraction des connaissances à partir des données (ECD) et en particulier la fouille de données qui représente le cœur de l’ECD. Et nous avons terminé par les méthodes basées sur les graphes d’induction. Les concepts présentés dans ce chapitre seront utilisés dans la démarche proposée dans notre projet et qui fera l’objet du chapitre suivant.

Page 51: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

43

3

CHAPITRE Démarche proposée Plateforme SARESM

«Lorsque l'énoncé d'un problème est exactement connu, le problème est résolu; ou bien c'est qu'il est impossible. La solution n'est donc autre chose que le problème bien éclairé».

Propos de littérature (1934)

Emile-Auguste Chartier

1. Introduction

Dans ce chapitre, nous exposons notre contribution dans le domaine de la santé public et l’épidémiologie (cf. Chapitre 1) à travers la conception d’une plateforme proposant un Système d’Assistance aux Recherches Epidémiologiques et de Surveillance des Maladies (SARESM). La plateforme SARESM permettra aux différents acteurs de la santé publique une assistance à l’établissement de politiques sanitaires, notamment en matière de la planification d’acquisition des produits pharmaceutiques, par rapport à la distribution géographique de l’utilisation de ces derniers. Cette distribution géographique est établie par rapport à une mesure pathologique. Notre contribution dans ce domaine est de fournir des modèles de prédiction des maladies chroniques en utilisant les techniques de fouille de données en l’occurrence une nouvelle approche de modélisation booléenne des graphes d’induction inspirée du principe de la machine CASI (Atmani et Beldjilali, 2007) (Benamina et Atmani, 2008). Rappelons que l’étude a pour objectif d’étudier les maladies chroniques suivantes : l’asthme, l’hyper tension artérielle et le diabète, en élaborant un modèle de règles de prédiction épidémiologique par la fouille de données sur des données réelles des ventes en pharmacies (région ouest de l’Algérie). Le but, après une modélisation booléenne des règles de prédiction épidémiologique, est double : d’une part affiner le suivi par une fouille de donnée orchestrée par CASI, et d’autre part réduire la complexité de gestion de connaissances, ainsi que le temps de réponse.

La démarche adoptée pour la réalisation du projet est issue de la démarche globale du processus d’extraction de connaissances à partir des données (cf.

Page 52: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

44

Démarche proposée – Plateforme SARESM

Chapitre 2), où trois phases sont déduites du processus globale ; l’intégration des données, le prétraitement et la fouille de données (la phase de l’évaluation et de présentation sera donnée dans le chapitre suivant de l’expérimentation ainsi qu’une discussion des résultats.).

La figure 3.1 présente le schéma globale de la démarche :

- L’entreposage des données ; c’est le travail de l’acquisition, le nettoyage et la préparation des données afin de concevoir un entrepôt de données pour le projet. Nous y introduirons les éléments fondamentaux de la conception des entrepôts de données et une description des sources de données utilisées. Cette partie sera donnée sous une section consacrée aux entrepôts de données (cf. Section 2) et dans laquelle les éléments d’acquisition et intégration des données seront explicités du point de vue travaux réalisés pour le projet.

- Le prétraitement : et qui a pour but de fournir en aval la table « individus/variables » nécessaire à la fouille de données.

- Méthode de fouille de données basée sur les graphes d’induction, en l’occurrence la méthode SIPINA dans le système IGSS8

FIG. 3.1 – Schéma global de la démarche proposée - SARESM

.

2. L’entreposage de données

Nous présentons, dans cette section, la conception et la réalisation de l’entrepôt de données de notre plateforme SARESM, et qui constitue la phase en amont aux phases de prétraitement et de fouille de donnée dans SARESM, en fournissant une base de données unique, autrement dit, une source unique prête aux différentes opérations d’interrogation, d’analyse et de la prise de décision (fouille de données).

8 IGSS : Induction Graph Symbolic System.

IGSS

Entrepôt de données

Sources de données

Ph.1

Ph.2

Ph.3

Ph.n

Entreposage des données Prétraitement Fouille de données

Sélection des données

Nettoyage et Enrichissement

Transformation et Réduction de

la dimension Table Individus/Variables

Page 53: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

45

Démarche proposée – Plateforme SARESM

2.1. Introduction aux entrepôts de données

2.1.1. Définitions Les entrepôts de données ou « Data Warehouses » permettent de stocker

l'ensemble des données, issues de différentes sources, nécessaires à l’interrogation, l’analyse et la prise de décision. Ils sont unanimement reconnue comme étant une solution adaptée et performante, permettant d'améliorer la prise de décision (Teste, 2000). En 1996, Inmon définit un entrepôt de données comme étant une collection de données orientées sujet, intégrées, non volatiles et évolutives dans le temps, utilisées dans les systèmes d'aide à la décision. L’entrepôt est alimenté à travers le processus ETL (Extract, Transform and Load) qui permet d'extraire et de nettoyer les données de différentes sources (bases de données, les fichiers plats, etc.) (Inmon, 1996), puis de les charger dans l’entrepôt.

L’objectif des entrepôts de données est d’extraire des données pertinentes à partir des différentes sources de données et de les organiser suivant un modèle adapté afin de faciliter les prises de décision. Les analyses décisionnelles sont basées sur des traitements OLAP (On-Line Analytical Processing) qui sont définis comme l’analyse dynamique nécessaire pour créer, manipuler, animer et synthétiser l’information (Codd, 1993). En effet les besoins utilisateurs se portent vers un système de requêtes devant s’exécuter le plus rapidement possible. La manière la plus appropriée pour faciliter cette analyse OLAP est la modélisation multidimensionnelle des données (Cabibbo et Torlone, 1998). Cette dernière représente les données comme des points dans un espace multidimensionnel (Kimball, 1996) (Vassiliadis et Sellis, 1999). Dans ces modèles, le sujet analysé appelé aussi la mesure ou le fait est représenté dans un espace qui présente plusieurs axes d’analyse nommés dimensions. Autrement dit, le modèle multidimensionnel se compose de faits contenant les mesures à analyser et de dimensions contenant les paramètres de l'analyse (Arigon, 2003). Par exemple, dans un entrepôt portant sur des études épidémiologiques, le nombre de malades chroniques peut être analysé par zone géographique, par période de temps et par sexe. Les données dans l’entrepôt de données sont organisées en cubes de données ou des hypercubes (Selmoune et al., 2005), où chaque dimension est un axe d’analyse et chaque cellule est le fait analysé (Inmon, 1996). Il existe plusieurs modèles permettant le stockage de ces cubes, comme le modèle MOLAP (Multidimensional OLAP) qui représente le cube de données par un tableau multidimensionnel. Le plus répondu est le modèle ROLAP (Relational OLAP) qui utilise un schéma relationnel. Chaque fait est stocké dans une table de fait liée par des clés étrangères à plusieurs tables de dimension formant ainsi le schéma en étoile. La particularité de ce schéma est la redondance des données aux niveaux des dimensions pouvant être normalisées et donnant un schéma en flocon de neige. De plus, les opérations de mise à jour dans un entrepôt de données sont rares, ce qui permet de tolérer la redondance de données. Selon Harbi et al. (2008), les modèles existants, tel que le schéma en étoile, le schéma en constellation ou le schéma en

Page 54: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

46

Démarche proposée – Plateforme SARESM

flocon de neige, ont été conçus afin de rendre les données d’un entrepôt prêtes à l’analyse. Ainsi, le schéma le plus utilisé est le schéma en étoile. Ces modèles offrent un cadre agréable pour faire la modélisation multidimensionnelle des données simples (Ravat et al., 2001).

2.1.2. Concepts d’un entrepôt de données Du précédent paragraphe, nous distinguons les concepts de base de la

modélisation des entrepôts de données suivants :

2.1.2.1. Les données Les données de l’entrepôt doivent posséder les caractéristiques

suivantes (Inmon, 1996) :

Intégrées ; Les données de l’entrepôt proviennent de différentes sources éventuellement hétérogènes. L’intégration consiste à résoudre les problèmes d’hétérogénéité des systèmes de stockage, des modèles de donnée, de sémantique de données (Selmoune et al., 2005). Il est clair que la transversalité recherchée sera d'autant plus efficiente que le système d'information sera réellement intégré. Cette intégration nécessitera une forte normalisation, une bonne gestion des référentiels et de la cohérence, une parfaite maîtrise de la sémantique et des règles de gestion s'appliquant aux données manipulées (Goglin, 2001).

Dans le cadre de la présente étude, nous citons comme exemple la codification des produits manipulés, cette codification est propre à chaque base de données (chaque pharmacie) et qui doit être unique et standard dans l’entrepôt cible. Un travail a été réalisé dans ce sens en passant par une codification proposée par un référentiel proposé.

Orientées sujet (ou thématiques) ; L'objectif d'un entrepôt de données est la prise de décisions autour des activités majeures de toute institution ou entreprise. Les données sont orientées sujet dans la mesure où elles sont organisées par thème, l’entrepôt de données est organisé autour des sujets majeurs et des métiers de l’organisme (Inmon, 1996). Nous assemblons à cet effet les informations par thèmes contrairement aux modélisations traditionnelles qui regroupent les informations par fonctions. Après leur intégration dans une sorte de source globale, les données sont réorganisées autour de thèmes tels que : client, vendeur, produit, etc. ainsi, chaque décideur doit disposer d’une vue sur les informations qui lui sont pertinentes, et qui peuvent influer dans ses décisions pour une meilleure exploitation de ces données (Selmoune et al., 2005).

Dans le présent contexte, la thématique choisie est la vente des médicaments et les caractéristiques liées aux produits vendus.

Non volatiles (pas de suppression) ; Tout se conserve, rien ne se perd : cette caractéristique est primordiale dans les entrepôts. En effet, et contrairement aux bases de données classiques, un entrepôt est accessible en ajout ou en consultation

Page 55: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

47

Démarche proposée – Plateforme SARESM

uniquement. Les modifications ne sont autorisées que pour des cas particuliers (correction d’erreurs…etc.) (Favre, 2007). Afin de conserver la traçabilité des informations et des décisions prises, les informations stockées ne peuvent être supprimées. Une même requête lancée plusieurs fois, et à des mois d'intervalle, sur une même population doit restituer les mêmes résultats. Ainsi dès lors qu'une donnée a été qualifié pour être introduite au sein de l’entrepôt, elle ne peut ni être altérée, ni modifiée, ni supprimée. Elle devient de fait partie prenante de l'historique. Ceci est fondamentalement différent de la logique des systèmes de production qui bien souvent remettent à jour les données à chaque nouvelle transaction lancée.

Il est clair que nous puisons nos données directement des bases de données sources dont en nous disposons et elles ne seront en aucun cas à des manipulations transactionnelles.

Historisées ; La conservation de l’évolution des données dans le temps, constitue une caractéristique majeure et nécessaire des entrepôts. Elle consiste à s’appuyer sur les résultats passés pour la prise de décision et faire des prédictions ; autrement dit, la conservation des données afin de mieux appréhender le présent et d’anticiper le futur (Inmon, 1996) (Selmoune et al., 2005).

2.1.2.2. La modélisation Les modèles basés sur le concept « multidimensionnel », sont les plus

appropriés, à capturer les caractéristiques des entrepôts de données. Ils permettent en effet, de donner une vision simple, facilement interprétable, et de visualiser les données selon différentes dimensions (Kimball, 1996) (Cabibbo et Torlone, 1998) (Vassiliadis et Sellis, 1999).

La modélisation des entrepôts de données se base sur deux concepts fondamentaux : le concept de fait et le concept de dimension et elle est illustrée par des cubes de données (cf. Figure 3.2) ou des hypercubes (Arigon, 2003).

Les faits (mesures) ; Un fait est la plus petite information analysable. C’est une information qui contient les données observables que l'on possède sur un sujet et que l'on veut étudier, selon divers axes d'analyse (les dimensions) (Arigon, 2003). Autrement dit, un fait représente un sujet d’analyse, caractérisé par une ou plusieurs mesures. Ces dernières, appelé aussi attributs, sont numériques ; on peut les additionner, les dénombrer ou bien calculer le minimum, le maximum ou la moyenne (Arigon, 2003). Par ailleurs, La table de faits contient l’ensemble des mesures correspondant aux informations de l’activité à analyser.

Les Dimensions ; Une dimension est une table qui représente un axe d'analyse selon lequel on veut étudier des données observables (les faits) qui, soumises à une analyse multidimensionnelle, donnent aux utilisateurs des renseignements nécessaires à la prise de décision. Les dimensions servent à enregistrer les valeurs pour lesquelles sont analysées les mesures de l'activité. Une dimension est

Page 56: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

48

Démarche proposée – Plateforme SARESM

généralement formée de paramètres (attributs) textuels (pour restreindre la portée des requêtes) et discrets (les valeurs possibles sont bien déterminées et constantes) (Kimball, 1996). Une dimension peut être la table des clients, des produits, d'une période de temps comme un semestre, etc.

Cube de données ; Un cube de données représente la structure dont les cellules contiennent des données mesurées (mesures) et dont les arêtes (dimensions) contiennent les axes d’analyse naturels des données.

FIG. 3.2 – Exemple de représentation multidimensionnelle.

Un entrepôt de données présente alors une modélisation dite «multidimensionnelle» puisqu’elle répond à l’objectif d’analyser des faits en fonction de dimensions qui constituent les différents axes d’observation des mesures (Kimball, 1996). Les dimensions peuvent présenter des hiérarchies qui offrent la possibilité de réaliser des analyses à différents niveaux de détail.

Ces concepts de base ont permis de définir trois modèles : le modèle en étoile, le modèle en flocon de neige et le modèle en constellation, reconnus comme relevant d’un niveau logique de conception, en raison du recours à la notion de tables (tables de faits et tables de dimension) (Harbi et al., 2008).

Le modèle en étoile ; Cette représentation multidimensionnelle des données proposée par R. Kimball (1996). Le modèle représente une seule table des faits au centre et un ensemble de dimensions qui rayonnent autour d’elle. La table des faits contient les identifiants des tables de dimension et une ou plusieurs mesures. Les tables de dimension n’ont aucun lien entre elles.

Le modèle en flocon de neige ; Il correspond à un modèle en étoile dans lequel les dimensions ont été normalisées, faisant ainsi apparaître des hiérarchies de dimension de façon explicite. La normalisation permet un gain d’espace de stockage en évitant la redondance de données, mais engendre une dégradation des performances, dans la mesure où elle multiplie le nombre de jointures à effectuer pour l’analyse.

Janvier →

Février →

Mars →

← Est

← Ouest

← Centre

HTA →

Diabète →

Asthme → Région

Mois

Type de maladies

Ventes des médicaments pour le type de maladie « HTA » en « Mars » pour la région « Est »

Page 57: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

49

Démarche proposée – Plateforme SARESM

Le modèle en constellation ; La modélisation en constellation consiste à fusionner plusieurs modèles en étoile qui peuvent utiliser des dimensions communes. Un modèle en constellation comprend donc plusieurs tables de faits et des tables de dimensions communes ou non à ces tables de faits.

2.2. L’entrepôt de données de SARESM Rappelons que dans notre système, nous utilisons des données commerciales

(données simples des enregistrements de ventes) pour effectuer des recherches médicales (épidémiologiques), ce qui nous a amené à utiliser une modélisation multidimensionnelle classique pour l’entrepôt de données de SARESM.

La figure 3.3 présente l’architecture de l’entrepôt de données de SARESM, qui s’articule autour de trois phases, l’intégration, la construction et la structuration (Ravat et al., 2000), pour enfin l’exploitation (analyse et prise de décision).

FIG. 3.3 – Architecture de l’entrepôt de données de SARESM.

2.2.1. Les sources de données Les enregistrements de ventes en détail des officines pharmaceutiques privées

représentent les principales sources de données pour les opérations de fouille de données de notre projet.

Les bases de données sources

Les pharmacies algériennes se sont équipées depuis plusieurs années des outils logiciels et matériels pour leur gestion commerciale, depuis plus d’une dizaine d’années où il a été impérative d’utiliser les outils informatiques pour prendre en charge des systèmes9 de ventes par convention, principalement avec la Caisse Nationale d'Assurances Sociales (CNAS10

9 Un système appelé « ventes avec tiers payant ». 10 http://www.cnas.org.dz/

), ainsi que d’autres régimes d’assurance maladie tels que l’armée nationale et les professions libérales, où les assurés acquièrent les médicaments prescrits et le pharmacien se charge du remboursement

Entrepôt de données

CONSTRUCTION

STRUCTURATION

Interrogation

Analyse

. Requêtes

INTEGRATION

Sources de données

CNAS

Ph.1

Ph.2

Ph.n

Réf.

Source globale

Page 58: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

50

Démarche proposée – Plateforme SARESM

des médicaments délivrés auprès des services ou centres concernés. Tous ces régimes prennent entièrement en charge les assurés présentant des maladies chroniques. D’autre part, des logiciels de gestion commerciale de pharmacies ont été développés. Ces derniers continuent à aider les pharmaciens à enregistrer toutes les opérations d’achats et de ventes au quotidien, la tenue de plusieurs fonctions mais aussi la génération de rapports. Dans cette étude, nous avons utilisé les données de ventes générées par ce type de logiciels.

Nous notons que ce type de logiciels a été choisi pour des raisons multiples : parmi d’elles, nous soulignons l’esprit collaboratif des concepteurs et des utilisateurs de ce logiciel, pour améliorer la phase de l’entreposage.

Nous présentons le modèle de données des bases de données sources (cf. Figure 3.4.).

FI

G

.

3.4 – Schéma global de la source de données.

Page 59: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

51

Démarche proposée – Plateforme SARESM

Les sources de données externes

Nous appelons les sources des données externes les informations qui ne sont pas prises en compte dans ce type de logiciel. Ces données externes sont principalement :

- Les référentiels médicaux ; nous avons choisi celui qui concerne l’affectation des médicaments, à travers leurs dénominations communes internationales (DCI), par rapport aux classes de maladies. Par exemple, les médicaments METFORAL et GLUCOPHAGE ont la même DCI : METFORMINE CHLORHYDRATE soit la classe ANTI-DIABETIQUE.

- L’endroit où la pharmacie exerce. Par exemple, les pharmacies choisies dans la région d’Oran, on doit préciser la localité exemple « Arzew » pour divers facteurs (climat, pollution, humidité,…), afin de déterminer les paramètres nécessaires à la fouille

- Les informations relatives aux dates, où sont pris en compte les mois, les saisons,…

- Les assurés (patients), afin de déterminer les paramètres tels que l’âge et le sexe.

Ces informations sélectionnées comme sources externes ont été élaborées suite aux orientations du laboratoire de bio-statistique de la faculté de médecine de l’université d’Oran et en collaboration avec des médecins et pharmaciens.

2.2.2. L’intégration Dans cette première étape, le travail consiste à extraire et regrouper les

données provenant des différentes bases de données des pharmacies privées et des sources externes. Les bases de données sources pour SARESM sont supportées par un même SGBD relationnel, elles sont identiques du point de vue de leurs structures, et elles sont installées dans des sites différents où aucune connexion n’existe entre ces sites, ni l’existence d’un système centralisé. D’où, SARESM, dans sa partie de récolte de données, se veut un système coopératif vis-à-vis des pharmacies collaboratrices dans la réalisation du projet et non pas un système centralisé au sens propre du mot. Dans un premier temps les bases de données sources récupérées (sous formes de fichiers) sont codifiées (par rapport au code de la pharmacie11

2.2.3. La construction

) et stockées dans le système de fichiers (le système global). D’où, cette partie de l’intégration sera obsolète une fois le produit sera mis en ligne.

Elle consiste à extraire les données choisies, puis à les recopier dans l’entrepôt de données. Par conséquent, l'entrepôt de SARESM constituera une collection centralisée, de données matérialisées et historiques, disponibles pour les

11 Des codes seront donnés aux différentes pharmacies en interne tout en préservant l’anonymat.

Page 60: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

52

Démarche proposée – Plateforme SARESM

applications de fouilles. Seules les données relatives aux ventes des médicaments et les caractéristiques liées aux produits vendus, sont prises en compte dans ce cadre d’étude, et les autres données, telles que les achats, sont négligées. SARESM avec son module EXTRALAPH (cf. Figure 3.5) se charge de l’alimentation de l’entrepôt de données à partir des données stockées dans le système de fichiers. Ultérieurement, EXTRALAPH sera mis en ligne pour donner l’accès aux pharmacies désirant participer. Ce qui nous mènera à éliminer le stockage des données des pharmacies dans le système de fichiers.

FIG. 3.5 – Le module EXTRALAPH de SARESM.

D’autre part, les référentiels médicaux (médicaments et DCI), la dimension DATES, localisations des pharmacies et les assurés, seront manipulés et mis à jour directement dans l’entrepôt du fait qu’elles représentent une partie statique dans l’entrepôt et ne sont soumises à aucune extraction majeure de sources externes. Cette partie est prise en charge par le module MAINTEREF de SARESM (cf. Figure 3.6).

FIG. 3.6 – Le module MAINTREF de SARESM.

Sources de données

INTEGRATION

CNAS

Ph.1

Ph.2

Ph.n

Réf.

Source globale

CONSTRUCTION

Entrepôt de données

STRUCTURATION

Interrogation

Analyse

. Requêtes

EXTRALAPH

CONSTRUCTION

INTEGRATION Sources de

données

CNAS

Ph.1

Ph.2

Ph.n

Réf.

STRUCTURATION

Interrogation

Analyse

. Requêtes

Source globale

MAINTREF

Entrepôt de données

Page 61: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

53

Démarche proposée – Plateforme SARESM

2.2.4. La structuration Cette étape consiste à réorganiser les données, dans des magasins afin de

supporter efficacement la fouille de données ; nous créons, dans ce cadre, un magasin de données, appelé MACHR (cf. Figure 3.7), concernant uniquement les informations relatives aux maladies chroniques choisies par rapport aux ventes en détail et les caractéristiques des patients faisant partie des variables indispensables pour la fouille de données. Le magasin de données est modélisé à son tour par un schéma en étoile.

Un module sera dédié aux procédures d’alimentation et de mises à jour de ce magasin de données SYMACHR (cf. Figure 3.7).

FIG. 3.7 – Le module SYMACHR de SARESM.

2.2.5. Modélisations de l’entrepôt de données de SARESM L’entrepôt de données conçu dans SARESM se base sur le concept

multidimensionnelle, qui à son tour utilise les deux concepts fondamentaux : le concept de fait (ou mesure) et le concept de dimension, vus précédemment. Et par conséquent, l’entrepôt de données de SARESM repose sur le modèle en étoile (cf. Figure 3.8) et stocke toutes les informations liées aux ventes en détail et les données concernant les produits. Par contre, les données seront soumises à d’autres traitements dans la deuxième phase de la démarche proposée (prétraitement). Les données de l’entrepôt sont comme suit :

- La table des faits « VENTES » ; contenant les mesures telles que la quantité vendue (brut), le prix de vente, date de péremption, date d’achat, etc.

- Les tables de dimension :

- La localisation des officines choisies « LOCALISATIONS_OFFICINES ».

- Une dimension date « DATES ».

- La table des produits manipulés « PRODUITS » qui comprend le nom commercial, le dosage, le conditionnement, etc.

INTEGRATION

Sources de données

CNAS

Ph.1

Ph.2

Ph.n

Réf.

CONSTRUCTION

Entrepôt de données

STRUCTURATION

MACHR

Interrogation

Analyse

. Requêtes

Source globale

SYMACHR

Page 62: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

54

Démarche proposée – Plateforme SARESM

- Les spécialités et les sous spécialités des différents produits existants dans la base « SPECIALITES_PDT » et « SOUS_SPECIALITES_PDT ».

- Les formes des médicaments « FORMES_MEDICAMENTS ».

- Les « DCI » et les maladies correspondantes.

- Les laboratoires fabricants les produits « LABORATOIRES ».

- Les assurés de la CNAS « ASSURES ». Pris sous un anonymat total : seulement les informations concernant les dates de naissance, le sexe et la situation familiale sont reprises dans l’entrepôt.

L’entrepôt de données a été implémenté dans un SGBD relationnel vu la nature (types) des données utilisées, les fonctions de manipulation de ces données et la capacité de stockage.

FIG. 3.8 – Le modèle en étoile adoptée dans SARESM.

Page 63: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

55

Démarche proposée – Plateforme SARESM

2.2.6. Modélisations du magasin de données MACHR Selon Inmon, (1996), un magasin contient un sous ensemble des données de

l'entrepôt traitant un métier particulier. La nécessité de créer un magasin de données se nourrit du fait qu’il indispensable de se concentrer sur la gestion efficace des données extraites et sur la conservation de leurs évolutions au niveau de l’entrepôt, tandis qu'au niveau des magasins de données on se concentre sur les performances d'interrogation (Teste, 2000). Midouni et al. (2009) considèrent que la réorganisation (magasins de données) multidimensionnelle des données constitue une tâche essentielle dans l'élaboration d'un système décisionnel.

Le magasin de données MACHR est spécialisé pour l’étude épidémiologique des maladies chroniques : l’asthme, l’hyper tension artérielle et le diabète, d’où des extractions sont effectuées sur l’entrepôt de données de SARESM on ne prenant que les ventes relatives à ces pathologies. Rappelons que MACHR constitue une partie matérialisée sur les données de l’entrepôt. MACHR est modélisé par un schéma en étoile (cf. Figure 3.9), permettant ainsi de lancer des tâches de fouille de données sur plusieurs vues et ce en fonction des dimensions retenues. Les données de MACHR sont comme suit :

FIG. 3.9 – Le modèle en étoile de MACHR.

- La table des faits « VENTES » ; en substituant les quantités vendues à une unité de vente et qui seront par conséquent éliminées.

- Les tables de dimension :

- La localisation des officines choisies « LOCALISATIONS_OFFICINES ».

- Une dimension date « DATES ».

- Les « DCI » et les maladies correspondantes.

- Les patients ou assurés « ASSURES ».

Page 64: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

56

Démarche proposée – Plateforme SARESM

3. Prétraitement des données

Les données issues de l’entrepôt sont très variées et ne sont pas nécessairement toutes exploitables par les techniques de fouille de données (Soibelman et al., 2002). La majorité des techniques utilisées ne traitent que les tableaux de données sous formes lignes/colonnes, et certaines méthodes sont encore plus contraignantes que d’autres, elles peuvent ne pas accepter que des données quantitatives comme la méthode qui utilise l’algorithme ID3 par exemple (Quinlan, 1993).

Dans certaines situations les données sont déjà sous forme appropriée qu’il n’est pas nécessaire de modifier. Dans d’autres cas, elles sont sous forme tabulaire mais exigent une transformation. Le prétraitement est un acte de modélisation très important et qui relève d’une expertise qualifiée, s’il ne s’y définit pas les bonnes transformations ou les bons attributs, nous ne pouvons pas obtenir des résultats satisfaisants pour ne pas dire erronés (Ben Messaoud, 2007).

L’objectif est de préparer des tables lignes/colonnes, autrement dit, des tables individus/variables (cf. Tableau 3.1), obtenue par les étapes suivantes :

TAB. 3.1 – Exemple d’une table individus/variables.

Sélection des données :

Nous pouvons maintenant effectuer la sélection sur les données qui existent déjà dans l’entrepôt de données (cf. § 2) et qui sont sous forme tabulaire. Il s’agit ensuite d’appliquer des filtres qui nous permettront de sélectionner un sous-ensemble de lignes et de colonnes. La sélection des données repose sur les informations suivantes :

- A partir de la table des faits « VENTES », nous prenons la mesure concernant la quantité vendue « QTE_VENTE ». Cette dernière sera prise en premier dans son état « brut » et qui sera par la suite agrégée selon les dimensions choisies.

- De la table « LOCALISATIONS_OFFICINES », l’attribut « LOCALITE ».

- La dimension « DATES » afin d’effectuer la fouille sur un intervalle de temps. Dans notre cas, nous procédons par la période « MOIS ».

- De la table « DCI », nous prenons l’attribut « CLASSE_THERAP » où les différentes maladies sont présentes. Un filtre est ainsi appliqué à ce niveau afin de ne garder que les enregistrements relatifs aux maladies citées.

Localité Saison Age Sexe Maladie 𝜔𝜔1 Oran Hiver Jeune Homme Asthme 𝜔𝜔2 Oran Hiver Jeune Femme Asthme 𝜔𝜔3 Tlemcen Hiver Jeune Homme Diabète … … … … … …

Page 65: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

57

Démarche proposée – Plateforme SARESM

- Enfin, les patients, pris sous une discrétion totale, présents dans la table « ASSURES » et à partir desquels nous prenons les attributs sexe « SEXE » et âge (recommandations des experts). Etant donné que l’âge est inexistant pour le moment, la donnée date de naissance « DATE_NAISSANCE » sera prise (sous forme d’âge).

Nettoyage et enrichissement des données :

Une étape de nettoyage des données est indispensable afin de traiter les données manquantes, par exemple la suppression d’enregistrements où les dates sont incohérentes (ventes en 2014 par exemple), mais surtout la suppression de toutes les ventes qui ne concernent pas les maladies recherchées. Par contre, l’enrichissement par des sources externes a été effectué lors de la création de l’entrepôt des données. Nous citons dans cette étape la difficulté rencontrée lors de la recherche sur les dates de naissance et les sexes d’une partie des patients (surtout assurés de la CNAS) puisque ces informations ne sont stockées que pour une courte période et le type de logiciel choisis ne donnait pas d’importance quand à leurs sauvegardes.

Transformation et réduction de la dimension :

Il s’agit de transformer un attribut 𝐴𝐴 en un autre 𝐴𝐴′ qui serait plus approprié aux objectifs de l’étude. Dans cette étape, l’unique transformation qui sera effectué concerne les informations relatives aux dates de naissance des assurés. Ces dernières prendront la forme de valeurs numériques, prises par différence entre date de naissance et date de vente. Ensuite, on mettra la donnée obtenue âge sous forme d’intervalle. Différentes méthodes existent comme la discrétisation, mais dans notre cas, la transformation serait établie par rapport aux tranches d’âge recommandées par les experts du domaine.

4. Fouille de données - IGSS

Dans la phase de fouille de données nous utilisons le module IGSS (cf. Figure 3.1) dans la modélisation booléenne des règles de prédiction épidémiologique. IGSS a été développé12 afin d’intégrer le principe cellulaire (Benamina et Atmani, 2008) et enrichir l’environnement graphiques de la plateforme WEKA13

La démarche adoptée par ce système s’appuie sur la méthode cellulaire d’extraction et de gestion de règles à partir des données nommée CASI (Atmani et Beldjilali, 2007) et qui se base sur les graphes d’induction (GI) produits par la méthode SIPINA (Zighed, 1985) (Zighed et al., 1992) (cf. Chapitre 2). Il prend en

.

12 Equipe de recherche « Simulation, Intégration et Fouille de données (SIF) », Laboratoire d’Informatique d’Oran (LIO), Université d’Oran. 13 WEKA (Waikato Environment for Knowledge Analysis) est un outil de fouille de données open-source (licence GNU) développé en Java, http://www.cs.waikato.ac.nz/ml/weka.

Page 66: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

58

Démarche proposée – Plateforme SARESM

entrée l’échantillon d’apprentissage sous forme de table individus/variables afin de fournir en sortie une base de règles de prédiction épidémiologiques en binaire en appliquant le principe booléen de la machine cellulaire.

FIG. 3.10 – Architecture générale du système IGSS.

4.1 La machine cellulaire CASI Parmi les différentes stratégies d’extraction et de gestion des connaissances,

nous avons opté pour le principe booléen (Abdelouhab et Atmani, 2008), (Benamina et Atmani, 2008) de la machine CASI à base d’automate cellulaire (Atmani et Beldjilali, 2007). Un automate cellulaire est une grille composée de cellules qui changent d’état dans des étapes discrètes (Wolfram, 1986). Après chaque étape, l’état de chaque cellule est modifié selon les états de ses voisines dans l’étape précédente (Schonfisch et Roos, 1999).

Les cellules sont mises à jour d’une manière synchrone et les transitions sont effectuées, dans la théorie, simultanément. En appliquant des règles simples et des transitions spécifiques, un automate cellulaire peut effectuer, d’une manière globale, des opérations complexes. Certains des concepts principaux pour les automates cellulaires sont les suivants :

Configuration ; L’état global de l’automate cellulaire, appelé configuration, est défini par les états de toutes ses cellules. Voisinage ; Le prochain état de chaque cellule dépend de l’état actuel de ses voisines. La transition de l’automate cellulaire, d’une configuration à une autre, est la conséquence des transitions locales de toutes les cellules. Le voisinage d’une cellule est définit par l’ensemble de ses voisines dont les états sont pris en compte pour chaque transition. Parallélisme ; Toutes les cellules constituant l’automate cellulaire sont mises à jour d’une manière simultanée et synchrone. Déterministe ; Le nouvel état de chaque cellule est déterminé par son état et l’état de son voisinage seulement. Homogénéité ; Toutes les cellules utilisent la même règle de transition pour déterminer leur prochain état.

Interface

SIPINA

CASI

COG CIE CV

GI BC

GI GI

1 Ωa

2 3

4

5

Ωt Ωe

Base de Connaissances

Page 67: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

59

Démarche proposée – Plateforme SARESM

Discrétisation ; Un automate cellulaire évolue discrètement dans le temps.

Un automate cellulaire peut être décrit par les quatre composants suivants (Wolfram, 1986) :

Dimension ; Il n’y a aucune limite à la dimension d’un automate cellulaire, mais dans la pratique on utilise des automates avec 1, 2 ou, 3 dimensions. Voisinage de la cellule ; Ceci définit l’ensemble de cellules voisines dont l’état sera pris en compte pour déterminer le prochain état de chaque cellule. Espace d’état ; C’est l’ensemble fini d’éléments que peut prendre une cellule. Fonction de transition ; C’est l’ensemble de règles qui déterminent le nouvel état de chaque cellule selon son état précédent et les états précédents des cellules de son voisinage.

Le processus général d’apprentissage automatique que la machine cellulaire CASI applique à une population d’apprentissage est organisé en cinq étapes (cf. Figure 3.10):

1. A partir d’un fichier historique, appelé échantillon d’apprentissage Ω𝑎𝑎 , nous commençons le traitement symbolique pour la construction du graphe d’induction (méthode SIPINA).

2. Initialisation du graphe d’induction par automate cellulaire (coopération entre les modules COG et CIE);

3. Optimisation du graphe d’induction booléen (coopération entre les modules COG et CIE);

4. Génération cellulaire des règles de prédiction (coopération entre les modules COG et CIE);

5. Validation de la connaissance extraite (coopération entre les modules CV et CIE);

L’objectif est de rechercher un modèle ϕ de création de connaissance permettant, pour une observation ω issue de Ω𝑎𝑎 pour laquelle nous ne connaissons pas sa classe Y(ω) dans la carte mais dont nous connaissons l’état de toutes ses variables descriptives X(ω), de prédire cette valeur grâce à ϕ.

La mise au point de ϕ nécessite, comme nous l’avons déjà signalé, de prélever dans la population Ω deux échantillons notés Ω𝑎𝑎 et Ω𝑡𝑡 . Le premier dit d’apprentissage et servira à la construction de ϕ et, le second dit de test et servira à tester la validité de ϕ. Ainsi, pour toute observation ω, nous supposons connues à la fois ses valeurs X(ω) dans l’espace de représentation et sa classe Y(ω) dans la carte. Si ϕ est jugée cohérente, alors nous pourrons généraliser son emploi à toutes les observations de la population. Ainsi, grâce à ϕ, nous pourrons calculer Y(ω), pour chaque nouvelle observation, connaissant seulement sa description X(ω).

L’apprentissage automatique supervisé se propose donc de fournir des outils permettant d’extraire, à partir de l’information Ω𝑎𝑎 dont on dispose sur le domaine,

Page 68: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

60

Démarche proposée – Plateforme SARESM

le modèle de prédictionϕ. Ce modèle ϕ peut prendre la forme d’un réseau de neurones (ϕRN), d’un graphe d’induction (ϕGI) ou d’un automate cellulaire (ϕAC).

Le moteur d’inférence cellulaire (CIE) de la machine CASI utilise deux couches finies d’automates finis. La première couche, CELFAIT, pour la base des faits et, la deuxième couche, CELREGLE, pour la base de règles. Les états des cellules se composent de trois parties : EF, IF et SF, respectivement ER, IR et SR, sont l’entrée, l’état interne et la sortie d’une cellule de CELFAIT, respectivement d’une cellule de CELREGLE. L’état interne, IF d’une cellule de CELFAIT indique le rôle du fait : dans notre graphe IF = 0 correspond à un fait du type sommet (si), IF = 1 correspond à un fait du type attribut=valeur (Xi = valeur) (Atmani et Beldjilali, 2007).

Pour définir le voisinage des cellules, nous utilisons les deux matrices d’incidence d’entrée RE et de sortie RS de l’automate. RE et RS représentent la relation entrée/sortie des faits et sont utilisées en chaînage avant. On peut également utiliser RS comme relation d’entrée et RE comme relation de sortie pour lancer une inférence en chaînage arrière. Enfin, La dynamique de CASI pour simuler le fonctionnement du moteur d’inférence CIE utilise deux fonctions de transitions 𝛿𝛿𝑓𝑓𝑎𝑎𝑓𝑓𝑡𝑡 et 𝛿𝛿𝑟𝑟è𝑔𝑔𝑔𝑔𝑔𝑔 , où 𝛿𝛿𝑓𝑓𝑎𝑎𝑓𝑓𝑡𝑡 correspond à la phase d’évaluation, de sélection et de filtrage, et 𝛿𝛿𝑟𝑟è𝑔𝑔𝑔𝑔𝑔𝑔 correspond à la phase d’exécution et que toutes les cellules obéissent en parallèle à la même règle appelée fonction de transition locale, qui a comme conséquence une transformation globale synchrone du système (Atmani et Beldjilali, 2007).

4.2. Exemple d’illustration de la modélisation booléenne Le tableau 3.2 représente un échantillon d’apprentissage de 14 exemples de

détection des maladies ‘Asthme’ et ‘Diabète’ dans différentes localités. Chaque exemple ou individu est décrit par quatre attributs : Localité, Saison, Age et Sexe.

TAB. 3.2 – Exemple d’un échantillon d’apprentissage - Les maladies.

Localité Saison Age Sexe Maladie 𝜔𝜔1 Oran Hiver Jeune Homme Asthme 𝜔𝜔2 Oran Hiver Jeune Femme Asthme 𝜔𝜔3 Tlemcen Hiver Jeune Homme Diabète 𝜔𝜔4 Témouchent Printemps Jeune Homme Diabète 𝜔𝜔5 Témouchent Eté Agé Homme Diabète 𝜔𝜔6 Témouchent Eté Agé Femme Asthme 𝜔𝜔7 Tlemcen Eté Agé Femme Diabète 𝜔𝜔8 Oran Printemps Jeune Homme Asthme 𝜔𝜔9 Oran Eté Agé Homme Diabète 𝜔𝜔10 Témouchent Printemps Agé Homme Diabète 𝜔𝜔11 Oran Printemps Agé Femme Diabète 𝜔𝜔12 Tlemcen Printemps Jeune Femme Diabète 𝜔𝜔13 Tlemcen Hiver Agé Homme Diabète 𝜔𝜔14 Témouchent Printemps Jeune Femme Asthme

Page 69: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

61

Démarche proposée – Plateforme SARESM

Pour illustrer l’architecture et le principe de fonctionnement du module CIE, nous considérons le graphe d’induction (cf. Figure 3.11) obtenu par IGSS.

FIG. 3.11 – Graphe d’induction de l’échantillon du tableau 3.2 réalisé par IGSS.

CASI nous permet d’obtenir les partitions S0 (sommet (s0)), S1 (Age = Jeune (s1), Age = Agé (s2)), S2 (Localité = Oran (s3) , Localité = Tlemcen (s4), Localité = Témouchent (s5)), S3 (Localité = Tlemcen et Age = Agé (s6)), S4 (Sexe = Femme (s7), Sexe = Homme (s8)) et S5 (Localité = Oran et Sexe = Femme (s9), (s6) et Sexe = Homme (s10)).

La figure 3.12 montre comment la base de connaissances extraite à partir de ce graphe est représentée par les couches CELFAIT et CELREGLE. Initialement, toutes les entrées des cellules dans la couche CELFAIT sont passives (EF = 0), exceptées celles qui représentent la base des faits initiale (EF(1) = 1). Notons que dans cette étape des matrices d’incidence d’entrée (RE) et de sortie (RS) de CASI sont générées.

Localité=Tlemcen

Sexe=Femme Sexe=Homme

Localité=Oran

Age=Agé Age=Jeune

9

1

0

4

1

1

0

3

2

0

1

0

8

1

0

1

ASTHME

DIABETE 9

5

3

4

6

1

Localité=Témou.

s0

s1 s2

s3 s4 s5

s6

s7 s8

s9 s10

Page 70: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

62

Démarche proposée – Plateforme SARESM

FIG. 3.12 – Configuration initiale de CELFAIT / CELREGLE et les deux matrices RE / RS.

La dynamique de l’automate cellulaire CIE, pour simuler le fonctionnement d’un Moteur d’Inférence, utilise deux fonctions de transitions 𝛿𝛿𝑓𝑓𝑎𝑎𝑓𝑓𝑡𝑡 pour évaluation, sélection et filtrage et 𝛿𝛿𝑟𝑟è𝑔𝑔𝑔𝑔𝑔𝑔 pour exécution.

- La fonction de transition 𝛿𝛿𝑓𝑓𝑎𝑎𝑓𝑓𝑡𝑡 :

(𝐸𝐸𝐸𝐸, 𝐼𝐼𝐸𝐸, 𝑆𝑆𝐸𝐸,𝐸𝐸𝐸𝐸, 𝐼𝐼𝐸𝐸, 𝑆𝑆𝐸𝐸)𝛿𝛿𝑓𝑓𝑎𝑎𝑓𝑓𝑡𝑡⎯⎯ (𝐸𝐸𝐸𝐸, 𝐼𝐼𝐸𝐸,𝐸𝐸𝐸𝐸,𝐸𝐸𝐸𝐸 + (𝐸𝐸𝐸𝐸𝑇𝑇 · 𝐸𝐸𝐸𝐸), 𝐼𝐼𝐸𝐸, 𝑆𝑆𝐸𝐸)

R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 s0 1 1 0 0 0 0 0 0 0 0 Age=Jeune 0 0 0 0 0 0 0 0 0 0 s1 0 0 1 1 1 0 0 0 0 0 Age=Agé 0 0 0 0 0 0 0 0 0 0 s2 0 0 0 0 0 1 0 0 0 0 Localité=Oran 0 0 0 0 0 0 0 0 0 0 s3 0 0 0 0 0 0 0 0 0 0 Localité=Tlemcen 0 0 0 0 0 0 0 0 0 0 s4 0 0 0 0 0 1 0 0 0 0 Localité=Témouchent 0 0 0 0 0 0 0 0 0 0 s5 0 0 0 0 0 0 1 1 0 0 s6 0 0 0 0 0 0 0 0 1 0 Sexe=Femme 0 0 0 0 0 0 0 0 0 0 s7 0 0 0 0 0 0 0 0 0 1 Sexe =Homme 0 0 0 0 0 0 0 0 0 0 s8 0 0 0 0 0 0 0 0 1 0 s9 0 0 0 0 0 0 0 0 0 0 s10 0 0 0 0 0 0 0 0 0 0 RE (Relation d’Entrée)

R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 s0 0 0 0 0 0 0 0 0 0 0 Age=Jeune 1 0 0 0 0 0 0 0 0 0 S1 1 0 0 0 0 0 0 0 0 0 Age=Agé 0 1 0 0 0 0 0 0 0 0 s2 0 1 0 0 0 0 0 0 0 0 Localité=Oran 0 0 1 0 0 0 0 0 0 0 s3 0 0 1 0 0 0 0 0 0 0 Localité=Tlemcen 0 0 0 1 0 0 0 0 0 0 s4 0 0 0 1 0 0 0 0 0 0 Localité=Témouchent 0 0 0 0 1 0 0 0 0 0 s5 0 0 0 0 1 0 0 0 0 0 s6 0 0 0 0 0 1 0 0 0 0 Sexe=Femme 0 0 0 0 0 0 1 0 0 0 s7 0 0 0 0 0 0 1 0 0 0 Sexe =Homme 0 0 0 0 0 0 0 1 0 0 s8 0 0 0 0 0 0 0 1 1 0 s9 0 0 0 0 0 0 0 0 1 0 s10 0 0 0 0 0 0 0 0 0 1 RS (Relation de Sortie)

Faits EF IF SF s0 1 0 0 Age=Jeune 0 1 0 s1 0 0 0 Age=Agé 0 1 0 s2 0 0 0 Localité=Oran 0 1 0 s3 0 0 0 Localité=Tlemcen 0 1 0 s4 0 0 0 Localité=Témouchent 0 1 0 s5 0 0 0 s6 0 0 0 Sexe=Femme 0 1 0 s7 0 0 0 Sexe =Homme 0 1 0 s8 0 0 0 s9 0 0 0 S10 0 0 0

CELFAIT

Règles ER IR SR R 1 0 1 1 R 2 0 1 1 R 3 0 1 1 R 4 0 1 1 R 5 0 1 1 R 6 0 1 1 R 7 0 1 1 R 8 0 1 1 R 9 0 1 1 R 10 0 1 1

CELREGLE

Page 71: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

63

Démarche proposée – Plateforme SARESM

- La fonction de transition 𝛿𝛿𝑟𝑟è𝑔𝑔𝑔𝑔𝑔𝑔 :

(𝐸𝐸𝐸𝐸, 𝐼𝐼𝐸𝐸, 𝑆𝑆𝐸𝐸,𝐸𝐸𝐸𝐸, 𝐼𝐼𝐸𝐸, 𝑆𝑆𝐸𝐸)𝛿𝛿𝑟𝑟è𝑔𝑔𝑔𝑔𝑔𝑔⎯⎯ (𝐸𝐸𝐸𝐸 + (𝐸𝐸𝑆𝑆 · 𝐸𝐸𝐸𝐸), 𝐼𝐼𝐸𝐸, 𝑆𝑆𝐸𝐸,𝐸𝐸𝐸𝐸, 𝐼𝐼𝐸𝐸,𝐸𝐸𝐸𝐸)

Où la matrice 𝐸𝐸𝐸𝐸𝑇𝑇 désigne la transposé de RE.

Or, RE et RS sont respectivement les matrices d’entrée et de sortie (Figure 3.12) :

- La relation d’entrée, notée iREj, est formulée comme suit : ∀𝑓𝑓 = 1. . 𝑔𝑔,∀𝑗𝑗 = 1. . 𝑟𝑟, 𝑓𝑓𝑓𝑓 (𝑓𝑓𝑎𝑎𝑓𝑓𝑡𝑡 𝑓𝑓 ∈ 𝑃𝑃𝑟𝑟𝑔𝑔𝑃𝑃𝑓𝑓𝑃𝑃𝑔𝑔 𝑜𝑜𝑓𝑓 𝑟𝑟𝑟𝑟𝑔𝑔𝑔𝑔 𝑗𝑗)𝑡𝑡ℎ𝑔𝑔𝑒𝑒 𝐸𝐸𝐸𝐸 (𝑓𝑓, 𝑗𝑗) ← 1

- La relation de sortie, notée iRSj, est formulée comme suit : ∀𝑓𝑓 = 1. . 𝑔𝑔,∀𝑗𝑗 = 1. . 𝑟𝑟, 𝑓𝑓𝑓𝑓 (𝑓𝑓𝑎𝑎𝑓𝑓𝑡𝑡 𝑓𝑓 ∈ 𝐶𝐶𝑜𝑜𝑒𝑒𝑓𝑓𝑔𝑔𝑟𝑟𝑃𝑃𝑓𝑓𝑜𝑜𝑒𝑒 𝑜𝑜𝑓𝑓 𝑟𝑟𝑟𝑟𝑔𝑔𝑔𝑔 𝑗𝑗)𝑡𝑡ℎ𝑔𝑔𝑒𝑒 𝐸𝐸𝑆𝑆 (𝑓𝑓, 𝑗𝑗) ← 1

Les matrices d’incidence RE and RS représentent la relation entrée/sortie des Faits et sont utilisées en chaînage avant. On peut également utiliser RE comme relation de sortie et RS comme relation de sortie pour lancer une inférence en chaînage arrière. Nous notons qu’une cellule du voisinage d’une cellule qui appartient à CELFAIT (respectivement à CELREGLE) n’appartient pas à la couche CELFAIT (respectivement CELREGLE).

Pour produire, enfin, des règles conjonctives (cf. Tableau 3.3), le module COG coopère avec le moteur d’inférence cellulaire (CIE) qui utilise les mêmes fonctions de transition 𝛿𝛿𝑓𝑓𝑎𝑎𝑓𝑓𝑡𝑡 et 𝛿𝛿𝑟𝑟è𝑔𝑔𝑔𝑔𝑔𝑔 avec la permutation de RE et de RS du graphe, en partant du nœud terminal vers la racine s0.

FIG. 3.13 – Base de connaissance booléenne du graphe d’induction de la figure 3.12.

La représentation de la base de connaissance booléenne par CASI est illustrée par CELFAIT, CELREGLE, RE et RS (cf. Figure 3.13).

Faits EF IF SF Age=Jeune 0 1 0 Age=Agé 0 1 0 Localité=Oran 0 1 0 Localité=Tlemcen 0 1 0 Localité=Témouchent 0 1 0 Sexe=Femme 0 1 0 Sexe =Homme 0 1 0 S9 (Classe = Diabète) 0 1 0 S10 (Classe = Asthme) 0 1 0

CELFAIT

Règles ER IR SR R 1 0 1 1 R 2 0 1 1 R 3 0 1 1 R 4 0 1 1 R 5 0 1 1

CELREGLE

R1 R2 R3 R4 R5 Age=Jeune 1 1 1 1 0 Age=Agé 0 0 0 0 1 Localité=Oran 1 0 0 0 0 Localité=Tlemcen 0 1 0 0 0 Localité=Témouchent 0 0 1 1 0 Sexe=Femme 0 0 1 0 0 Sexe =Homme 0 0 0 1 0 S9 (Classe = Diabète) 0 0 0 0 0 S10 (Classe = Asthme) 0 0 0 0 0 RE (Relation d’Entrée)

R1 R2 R3 R4 R5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 0 1 0 0

RS (Relation de Sortie)

Page 72: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

64

Démarche proposée – Plateforme SARESM

1 Si (Localité = Oran Et Age = Jeune) Alors Asthme

2 Si (Localité = Tlemcen Et Age = Jeune) Alors Diabète

3 Si (Localité = Témouchent Et Age = Jeune Et Sexe = Femme) Alors Asthme

4 Si (Localité = Témouchent Et Age = Jeune Et Sexe = Homme) Alors Diabète

5 Si (Age = Agé) Alors Diabète

TAB. 3.3 – Les règles de prédiction conjonctives produites.

Maintenant, le module CV est prêt à lancer la phase de validation, en employant le même principe booléen de base du moteur d’inférence cellulaire CIE, et les mêmes fonctions de transition 𝛿𝛿𝑓𝑓𝑎𝑎𝑓𝑓𝑡𝑡 et 𝛿𝛿𝑟𝑟è𝑔𝑔𝑔𝑔𝑔𝑔 .

Supposons un échantillon de test (cf. Tableau 3.4) est composé de 5 cas de détection de maladies appartenant aux classes ‘Asthme’ et ‘Diabète’, où la classe ‘Asthme’ est la classe majoritaire de s10, et la classe ‘Diabète’ est la classe majoritaire de s6 et de s9.

TAB. 3.4 – Exemple d’un échantillon test.

La figure 3.14 résume la validation de l’individu 𝜔𝜔1.

FIG. 3.14 – Validation de 𝜔𝜔1.

4.3. Exemple de données pharmaceutiques Nous avons utilisé la modélisation booléenne pour un échantillon de 78 122

individus lors de nos expérimentations (cf. Chapitre 4 § 4), et dont les attributs et la variable à prédire sont explicités dans le tableau 3.5.

.

Localité Age Sexe Maladie

𝜔𝜔1 Oran Jeune Homme Asthme

𝜔𝜔2 Témouchent Agé Femme Asthme

𝜔𝜔3 Oran Agé Homme Diabète

𝜔𝜔4 Témouchent Agé Homme Diabète

𝜔𝜔5 Tlemcen Agé Homme Diabète

EF IF SF 0 1 0→1 0 1 0 0 1 0→1 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0

0→1 1 0 CELFAIT

ER IR SR 0 1 1→0 0 1 1 0 1 1 0 1 1 0 1 1

CELREGLE

ω5 ω4 ω3 ω2 ω1 →→ 0 0 0 0 1 Age=Jeune 1 1 1 1 0 Age=Agé 0 0 1 0 1 Localité=Oran 1 0 0 0 0 Localité=Tlemcen 0 1 0 1 0 Localité=Témouchent 0 0 0 1 0 Sexe=Femme 1 1 1 0 1 Sexe =Homme 1 1 1 0 0 Classe = Diabète 0 0 0 1 1 Classe = Asthme

Page 73: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

65

Démarche proposée – Plateforme SARESM

TAB. 3.5 – Représentation des attributs et la classe.

Ensuite, nous avons lancé l’induction en utilisant la méthode ACSIPINA d’IGSS, qui nous a donné le graphe d’induction de la figure 3.15.

FIG. 3.15 – Graphe d’induction obtenu dans l’exemple d’expérimentation.

Attribut Signification Valeurs possibles

X1 : DENSITE_DEMOG Densité démographique Grande (s’il s’agit de la concentration dans une grande ville, Banlieue sinon.

X2 : CLIMAT Le climat par rapport, principalement à l’humidité

Sec, Humide

X3 : WILAYA Le numéro du département 13(Tlemcen),22 (Sidi Belabbes) ,29 (Mascara),31(Oran),46 (Témouchent) et 48 (Relizane)

X4 : SEXE Le sexe du patient M : Masculin, F : Feminin

X5 : AGE L’âge du patient Donné en tranches : Adt1 (<=40 ans), Adt2 (entre 41 et 65 ans) et Agé (>65 ans).

X6 : SAISON La période choisie Eté, Hiver, Printemps et Automne.

Y : CLASSE_THERAP C’est la classe de la maladie à prédire

AST (Asthme), DBT (Diabète) et HTA (Hypertension artérielle).

DBT

HTA

AST

X3=46 X3=29 X3=22 X3=31

s6

s10

s4 s7 s8 s9

s15 s14 s13

s12

s11

s5

X4=M X4=F

X5=Agé

X3=48 X3=13

X5=Adt1 X5=Adt2

24393

8035

45694

0

0

26327

23144

5672

0

1249

2363

19367

372

1964

2618

0

0

4513

0

0

3228

0

0

3063

0

0

3520

0

0

2425

0 0

30840

0

0

30360

0

0

37588

s0

0

0

40651 372

1964

0

0

0

2618

s1 s2 s3

Page 74: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

66

Démarche proposée – Plateforme SARESM

La figure 3.17 montre comment la base de connaissances booléenne extraite à partir de ce graphe est représentée par les couches CELFAIT et CELREGLE. Notons que dans cette étape, les deux matrices d’incidence d’entrée (RE) et de sortie (RS) de CASI sont générées.

FIG. 3.16 – Représentation booléenne du graphe d’induction de la figure 3.16.

Faits EF IF SF s0 1 0 0 AGE = AGE 0 1 0 s1 0 0 0 AGE = AD1 0 1 0 s2 0 0 0 AGE = AD2 0 1 0 s3 0 0 0 WILAYA = 13 0 1 0 s4 0 0 0 WILAYA = 31 0 1 0 s5 0 0 0 WILAYA = 22 0 1 0 s6 0 0 0 WILAYA = 29 0 1 0 s7 0 0 0 WILAYA = 46 0 1 0 s8 0 0 0 WILAYA = 48 0 1 0 s9 0 0 0 s10 0 0 0 s11 0 0 0 s12 0 0 0 s13 0 0 0 SEXE = M 0 1 0 s14 0 0 0 SEXE = F 0 1 0 s15 0 0 0

CELFAIT

Règles ER IR SR R 1 0 1 0 R 2 0 1 0 R 3 0 1 0 R 4 0 1 0 R 5 0 1 0 R 6 0 1 0 R 7 0 1 0 R 8 0 1 0 R 9 0 1 0 R 10 0 1 0 R 11 0 1 0 R 12 0 1 0 R 13 0 1 0 R 14 0 1 0 R 15 0 1 0

CELREGLE

R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R11 R12 R13 R14 R15 s0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 AGE = AGE 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 AGE = AD1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 AGE = AD2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s3 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 WILAYA = 13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s4 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 WILAYA = 31 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s5 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 WILAYA = 22 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s6 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 WILAYA = 29 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s7 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 WILAYA = 46 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 s8 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 WILAYA = 48 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s10 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 s11 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 s12 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 s13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SEXE = M 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 SEXE = F 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 RE (Relation d’Entrée)

R1 R2 R3 R4 R5 R6 R7 R8 R9 R10 R11 R12 R13 R14 R15 s0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 AGE = AGE 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 s1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 AGE = AD1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 s2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 AGE = AD2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 s3 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 WILAYA = 13 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 s4 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 WILAYA = 31 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 s5 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 WILAYA = 22 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 s6 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 WILAYA = 29 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 s7 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 WILAYA = 46 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 s8 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 WILAYA = 48 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 s9 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 s10 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 s11 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 s12 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 s13 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 SEXE = M 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 s14 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 SEXE = F 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 s15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 Rs (Relation de Sortie)

Page 75: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

67

Démarche proposée – Plateforme SARESM

Le module COG coopère avec le moteur d’inférence cellulaire (CIE) qui utilise les mêmes fonctions de transition 𝛿𝛿𝑓𝑓𝑎𝑎𝑓𝑓𝑡𝑡 et 𝛿𝛿𝑟𝑟è𝑔𝑔𝑔𝑔𝑔𝑔 avec la permutation de RE et de RS du graphe, en partant du nœud terminal vers la racine s0.

La représentation de la base de connaissance par CASI est illustrée par CELFAIT, CELREGLE, RE et RS (Figure 3.18).

FIG. 3.17 – Modélisation booléenne de la base de connaissances.

Faits EF IF SF AGE = AGE 0 1 0 AGE = AD1 0 1 0 AGE = AD2 0 1 0 WILAYA = 13 0 1 0 WILAYA = 31 0 1 0 WILAYA = 22 0 1 0 WILAYA = 29 0 1 0 WILAYA = 46 0 1 0 WILAYA = 48 0 1 0 SEXE = M 0 1 0 SEXE = F 0 1 0 s2 (CLASSE : AST) 0 1 0 s9 (CLASSE : HTA) 0 1 0 s13 (CLASSE : HTA) 0 1 0 s14 (CLASSE : DBT) 0 1 0 s15 (CLASSE : HTA) 0 1 0

CELFAIT

Règles ER IR SR R 1 0 1 1 R 2 0 1 1 R 3 0 1 1 R 4 0 1 1 R 5 0 1 1 R 6 0 1 1 R 7 0 1 1 R 8 0 1 1 R 9 0 1 1

CELREGLE

R1 R2 R3 R4 R5 R6 R7 R8 R9 AGE = AGE 1 0 0 0 0 0 0 0 0 AGE = AD1 0 0 0 0 0 0 1 0 0 AGE = AD2 0 1 1 1 1 1 0 1 1 WILAYA = 13 0 0 0 0 0 1 0 0 1 WILAYA = 31 0 1 0 0 0 0 0 0 0 WILAYA = 22 0 0 1 0 0 0 0 0 0 WILAYA = 29 0 0 0 1 0 0 0 0 0 WILAYA = 46 0 0 0 0 1 0 0 0 1 WILAYA = 48 0 0 0 0 0 0 0 1 0 SEXE = M 0 0 0 0 0 0 0 0 1 SEXE = F 0 0 0 0 0 1 0 0 0 s2 (CLASSE : AST) 0 0 0 0 0 0 0 0 0 s9 (CLASSE : HTA) 0 0 0 0 0 0 0 0 0 s13 (CLASSE : HTA) 0 0 0 0 0 0 0 0 0 RE (Relation d’Entrée)

R1 R2 R3 R4 R5 R6 R7 R8 R9 AGE = AGE 0 0 0 0 0 0 0 0 0 AGE = AD1 0 0 0 0 0 0 0 0 0 AGE = AD2 0 0 0 0 0 0 0 0 0 WILAYA = 13 0 0 0 0 0 0 0 0 0 WILAYA = 31 0 0 0 0 0 0 0 0 0 WILAYA = 22 0 0 0 0 0 0 0 0 0 WILAYA = 29 0 0 0 0 0 0 0 0 0 WILAYA = 46 0 0 0 0 0 0 0 0 1 WILAYA = 48 0 0 0 0 0 0 0 0 0 SEXE = M 0 0 0 0 0 0 0 0 0 SEXE = F 0 0 0 0 0 0 0 0 0 s2 (CLASSE : AST) 0 0 0 0 0 0 1 0 0 s9 (CLASSE : HTA) 1 1 1 1 1 1 0 1 0 s13 (CLASSE : HTA) 0 0 0 0 0 0 0 0 1 Rs (Relation de Sortie)

Page 76: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 3

68

Démarche proposée – Plateforme SARESM

Enfin, et à titre d’exemple, nous pouvons à travers IGSS visualiser neuf (09) règles de prédiction épidémiologique (Tableau 3.6).

1 Si AGE = Agé Alors HTA

2 Si (WILAYA = 31 Et AGE = Adt2) Alors HTA

3 Si (WILAYA = 22 Et AGE = Adt2) Alors HTA

4 Si (WILAYA = 29 Et AGE = Adt2) Alors HTA

5 Si (WILAYA = 46 Et AGE = Adt2) Alors HTA

6 Si (WILAYA = 13 Et SEXE = F Et AGE = Adt2) Alors HTA

7 Si AGE = Adt1 Alors AST

8 Si (WILAYA = 48 Et AGE = Adt2) Alors HTA

9 Si (WILAYA = 13 Et SEXE = M Et AGE = Adt2) Alors DBT

TAB. 3.6 – Exemples de règles conjonctives produites dans l’expérimentation.

Nous venons de donner un exemple d’un premier modèle de règles de prédiction épidémiologique, réalisé sur six départements de la région ouest du pays. Nous remarquons que l’hypertension tension artérielle (HTA) est la maladie persistante chez les personnes les plus âgées (Agé) et à un degré moins pour la tranche d’âge suivante (Adt2). Et d’un autre coté, l’asthme (AST) touche les plus jeunes (Adt1).

5. Conclusion

Dans ce chapitre, nous avons présenté la démarche adoptée dans notre projet et ainsi la conception de notre plateforme SARESM. Une étude détaillée de la phase d’entreposage de données a été donnée et qui a constitué une partie importante dans la réalisation du projet. Enfin, des descriptions ont été données sur les techniques et les outils utilisés dans les autres phases de la démarche.

L’entrepôt de données de SARESM et le prétraitement sont réalisés, afin que les données soient prêtes aux différentes opérations de fouille de données. Les résultats des expérimentations de SARESM seront étudiés dans le chapitre suivant.

Page 77: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

69

4

CHAPITRE Implémentation et Expérimentations

«L’expérience est une connaissance empirique, c’est-à-dire une connaissance qui détermine un objet par des perceptions. Elle est donc une synthèse des perceptions qui n’est pas contenue elle-même dans la perception».

Critique de la raison pure

Emmanuel KANT-1781.

1. Introduction

Dans ce chapitre, nous allons présenter le développement de la plateforme SARESM. Ce système permet de mettre en œuvre notre démarche de modélisation du système de suivi des maladies chroniques à partir des données pharmaceutiques, en utilisant la fouille de données.

Nous présentons l’architecture fonctionnelle de la plateforme SARESM ainsi que les différents modules qui la composent.

Nous donnons par la suite les résultats obtenus des différentes expérimentations sur notre approche. Concernant la partie expérimentation, nous avons scindé le travail en deux phases :

- La première phase, est d’analyser les données obtenues à la fin du prétraitement, et qui a nécessité un contrôle rigoureux à l’aide des résultats des expérimentations utilisant les techniques de fouille de données. Cette phase est décrite dans la section (cf. § 3).

- La deuxième phase, est d’effectuer des expérimentations sur des échantillons afin d’obtenir des modèles de règles de prédiction épidémiologique où nous explicitons un exemple (cf. § 4).

Page 78: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

70

Implémentation et expérimentations

2. La plateforme SARESM

SARESM, est une plateforme informatique faisant appel à un certain nombre d’éléments et outils intégrés afin de supporter la démarche proposée dans ce cadre de travail (cf. Chapitre 3). Les différents sous systèmes utilisés sont répartis selon l’architecture globale de notre plateforme (cf. Chapitre 3, Figure 3.1).

FIG. 4.1 – Schéma global de la plateforme SARESM.

EDS Module EXTRALAPH

Pharmacies

Module MAINTREF

A

1

Module EDS_CREATION

3

Module JOURNEDS

2

MACHR

Module SYMACHR

4

Module MCR-TIV

5

IGSS

Règles de Prédiction Epidémiologique

6

Module MCR_CREATION

B

Page 79: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

71

Implémentation et expérimentations

SARESM repose sur trois grandes familles de modules :

- Modules d’entreposage des données : la création de l’entrepôt de données de SARESM (nommé : EDS) (Module : EDS_CREATION) supporté par le système de gestion de bases de données relationnel (SGBD-R) ORACLE 10g. Le développement d’outils de l’extraction de données provenant des différentes officines pharmaceutiques et de l’alimentation de l’entrepôt de données (Module : EXTRALAPH) ainsi que le suivi et le contrôle de l’entreposage sous forme de journaux (Module : JOURNESD). Enfin, La gestion des tables des références médicales (Module : MAINTREF).

- Modules de prétraitement : la création du magasin de données du suivi des maladies chroniques (magasin : MACHR) et des opérations de prétraitements des données contenues dans l’entrepôt de données et l’alimentation de ce dernier (Module : SYMACHR). Dans cette partie, nous mettons à disposition les tables individus/variables pour la fouille de données (Module : MCR_TIV).

- Modules de fouille de données : intégration de l’outil IGSS pour la tâche de fouille de données.

L’implémentation de la plateforme SARESM nécessite l’installation du SGBD-R ORACLE afin d’y créer les bases de données EDS et MACHR pour, respectivement, l’entrepôt de données de SARESM et le magasin de données. Les deux structures (schémas de base de données) sont créées en ordre de la manière suivante :

A. Création du schéma de la base de données de l’entrepôt de données EDS,

B. Création du schéma de la base de données du magasin de données MACHR.

Ainsi, nous pouvons mettre en œuvre les différents modules conçus dans notre plateforme, et que nous décrivons, succinctement, comme suit :

1. Alimentation de l’EDS par les données extraites des différentes pharmacies en utilisant le module EXTRALAPH,

2. Avec JOURNEDS, le maintien d’un journal qui permet d’enregistrer toutes les opérations d’extraction et d’alimentation de l’entrepôt et il offre ainsi le suivi du processus d’entreposage,

3. La maintenance et les mises à jour des tables de dimension (telles que les référentiels médicaux, localisations des officines, etc…) en utilisant le module MAINTREF,

4. SYMACHR permet d’alimenter le magasin de données MACHR à partir des données de l’EDS,

5. Les tables individus/variables sont générées en utilisant le module MCR_TIV,

6. Accès au module IGSS pour les opérations de fouille de données.

Page 80: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

72

Implémentation et expérimentations

Pour présenter formellement notre système, nous avons réalisé avec le logiciel Open Source StarUML une modélisation UML et, en particulier le diagramme de classes (Figure 4.2).

FIG. 4.2 – Diagramme de classe de SARESM.

2.1. Présentation du SGBD-R ORACLE Avant d’entamer ces différents outils, il est à noter que le SGBD-R ORACLE

constitue un support de données commun aux différents outils de SARESM. ORACLE est un système de gestion de base de données relationnel (SGBD-R) fourni par Oracle Corporation. Il a été développé par Larry Ellison en 1977.

Ses principales caractéristiques :

SGDB Relationnel

Architecture en couches

Langage SQL

MainSARESM

+private void execConnectionEDS()+private void execEXTRALAPH()+private void execMAINTREF()+private void execJOURNEDS()+private void execSYMACHR()+private void execConnectionMACHR()+private void execMACHR()+private void execMCRTIV()

ConnectionEDS

+public Connection cnnConnectionEDS

+public Connection connectEDS()+private void closeConnection()

MainEXTRALAPH

+public Connection cnnConnection+public Connection m_conOrclGlobLoc

+private void ouvrirDossierAssuresTxt()+private void executerImport()+private void fermerEXTRALAPH()

MainMAINTREF

+public Connection cnnConnection+public Connection m_conOrclGlobLoc

+private void execDCI()+private void execLocalisations()+private void execDates()+private void FermerMAINTREF()

MainJOURNEDS

+private void ouvrirDossierJOURNEDS()+private void fermerJOURNEDS()

MainSYMACHR

+public Connection m_conOrclGlobLocSMC

+private void fermerSYMACHR()+private void executerSYMACHR()

ConnectionMACHR

+public Connection cnnConnectionMCR

+public Connection connectMACHR()+private void closeConnection()

MainMACHR

+public Connection m_conOrclGlobLocMCR

+private void fermerMACHR()+private void executerMACHR()

MainMCR_TIV

+public Connection m_conOrclGlobLocMCR

+private void executerMCRTIV()+private void fermerMCRTIV()

LireFichiersEXTRALAPH

+private void parcourirDB_Ventes()+private void parcourirDB_AssCVM()+private void parcourirCN_AssCNS()+private void parcourirDB_Pdt()+private void parcourirCH()+private Connection connectFB()+private void parcourirAydTxt()+private void parcourirAssTxt()+public void executerTraitement()

ParcourirDossiersEXTRALAPH

+public File m_subfiles[0..*]

+public void rechercherFichiersEXTRALAPH()

MaintrefLocalisations

+public Connection cnnConnection+public Connection m_conOrclGlobLoc

+private void fermerMaintrefLocalisations()+private void chercherDonneesLocalisations()+private void lireDonneesLocalisations()+private void majDonneesLocalisations()+private void suppDonneesLocalisations()

MaintrefDCI

+public Connection cnnConnection+public Connection m_conOrclGlobLoc

+private void fermerMaintrefDCI()+private void chercherDonneesDCI()+private void lireDonneesDCI()+private void majDonneesDCI()+private void suppDonneesDCI()

MaintrefDates

+public Connection cnnConnection+public Connection m_conOrclGlobLoc

+private void fermerMaintrefDates()+private void chercherDonneesDates()+private void lireDonneesDates()+private void majDonneesDates()+private void suppDonneesDates()

LireFichiersJOURNEDS

+private void parcourirJnl()+public void executerTraitement()

ParcourirDossiersJOURNEDS

+public File m_subfiles[0..*]

+public void rechercherFichiers()

ExecuterProcSMC

+public void executerTraitement()+private void prcSMC_ALIM_VENTE_2_NN_N()+private void prcSMC_ALIM_PDT_NN_N()+private void prcSMC_ALIM_ASSURES()

AlimMACHR

+public void executerTraitement()+private void prcMCR_ALIM_MCR_VENTES()

MainIGSS

+private void ouvrirModuleIGSS()+private void fermerMainIGSS()

Page 81: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

73

Implémentation et expérimentations

Traitements stockés

Verrouillage au niveau ligne

Produit transactionnel

Répartition des données

Validation à deux phases

Oracle est présent dans de nombreux secteurs de l'activité industrielle et commerciale.

Gouvernement, administration

Spatial, avionique :

Pétrochimie, parachimie

Industrie, électronique

Banques, assurances

Bâtiments, travaux publics

Distribution, agro-alimentaire

Le choix d’un SGBD relationnel est motivé par la grande capacité de stockage ainsi la performance lors de la manipulation des données. En effet, les systèmes de gestion de bases de données relationnelles offrent d’excellentes performances en termes de rapidité d’accès, de volume de stockage et de stabilité des données.

Le choix du SGBD Oracle version 10g est justifié par plusieurs raisons :

- Oracle Database 10g est la solution idéale pour le transactionnel en ligne, l'aide à la décision et la gestion de contenus,

- c’est un produit qui combine l’analyse relationnelle (SQL) et multidimensionnelle (OLAP) et intègre des fonctions d'extraction, transfert et chargement de contenu,

- en effet, le moteur OLAP est directement intégré dans le SGBDR avec, de ce fait, un seul système de sécurité et de stockage et une maintenance grandement facilitée,

- il propose un gestionnaire de base de données capable de gérer dans un même espace de stockage des données relationnelles et multidimensionnelles accessibles à travers une interface SQL standard.

Page 82: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

74

Implémentation et expérimentations

2.2. Entreposage de données

L’entrepôt de données EDS et le module EDS_CREATION EDS est l’Entrepôt de données de SARESM, il est conçu suivant le modèle en

étoile (cf. Chapitre 3, § 2.2), autrement dit, on utilise OLAP relationnel (ROLAP), et pour ce fait, nous utilisons ORACLE 10g comme support afin d’implémenter l’entrepôt ainsi que le module EDS_CREATION qui contient un ensemble de scripts SQL, que nous décrivons :

- Création des TABLESAPACE EDS_DATA_VTE, EDS_DATA et EDS_IDX pour le stockage, respectivement, des données de ventes (faits), des données des différentes dimensions et les index.

CREATE TABLESPACE EDS_DATA

DATAFILE 'C:\EDS_TBS\EDS_DATA.ORA' SIZE 1024M AUTOEXTEND ON

NEXT 100M;

- Création du schéma de la base de données de l’EDS et l’utilisateur, appelé également EDS, ayant tous les droits y compris le droit Administrateur.

GRANT CONNECT, RESOURCE, UNLIMITED TABLESPACE TO EDS IDENTIFIED BY

SARESM;

GRANT ALL PRIVILEGES TO EDS;

GRANT DBA TO EDS;

- Création des tables des faits et de dimensions. Le modèle physique est composé des tables suivantes (cf. Chapitre 3, § 2.1.2.2) :

La table des faits EDS_VENTES_G.

CREATE TABLE EDS_VENTES_G (

CODE_VENTE VARCHAR2(14),

CODE_DATE VARCHAR2(10),

QTE_VENTE NUMBER(6,0),

PRIX_VENTE NUMBER(11,2),

ASSURE VARCHAR2(17),

CODE_SPECIALIT VARCHAR2(2),

CODE_S_SPECIALITE CHAR(1),

CODE_DCI VARCHAR2(14),

… )

Page 83: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

75

Implémentation et expérimentations

TABLESPACE EDS_DATA_VTE;

ALTER TABLE EDS_VENTES_G ADD CONSTRAINT EDS_VENTES_G_P PRIMARY KEY (..,

CODE_VENTE, ..) USING INDEX TABLESPACE EDS_IDX;

Des tables de dimensions :

- La table EDS_LOCALISATIONS_OFFICINES.

- La table EDS_DCI.

- La table EDS_ASSURES.

- La table EDS_DATES.

- La table EDS_PRODUITS.

- La table EDS_SPECIALITES_PDT.

- La table EDS_SOUS_SPECIALITES_PDT.

- La table EDS_FORMES_MEDICAMENTS.

- La table EDS_LABORATOIRES.

CREATE TABLE EDS_DCI (

CODE_DCI VARCHAR2(14) NOT NULL,

DES_DCI VARCHAR2(200),

CLASSE_THERAP VARCHAR2(200) );

ALTER TABLE EDS_DCI ADD CONSTRAINT EDS_DCI_P PRIMARY KEY (CODE_DCI)

USING INDEX TABLESPACE EDS_IDX;

- Création de VUES (simplification de l’accès pour les tables de dimensions EDS_PRODUITS et EDS_DCI)

CREATE OR REPLACE VIEW EDS_W_PRODUITS_DCI AS

SELECT P.N_ENREGISTREMENT NUM_ENR, NVL(D.CLASSE_THERAP,'ND')

CLASSE_THERAP

FROM EDS_PRODUITS P LEFT JOIN EDS_DCI D ON P.CODE_DCI = D.CODE_DCI;

- Alimentation des tables de dimensions telles que les référentiels médicaux et les localisations des officines,… (EDS_DCI, EDS_LOCALISATIONS_OFFICINES, …).

INSERT INTO EDS_DCI (CODE_DCI, DES_DCI, CLASSE_THERAP) VALUES ('06E158',

'VALSATRAN/HYDROCHLOROTHIAZIDE', 'HTA');

Page 84: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

76

Implémentation et expérimentations

INSERT INTO EDS_DCI (CODE_DCI, DES_DCI, CLASSE_THERAP) VALUES ('14A305',

'GLIQUIDONE', 'DBT');

INSERT INTO EDS_LOCALISATIONS_OFFICINES (CODE_OFFICINE, LOCALITE,

LOCALITE2, VILLE, DENSITE_DEMOG, VILLE_PROCHE, CODE_WILAYA,

PROXIMITE_MER, CLIMAT) VALUES (314370465,' SENIA

','ORAN','ORAN','Grande','ORAN','31','Côtière','Humide');

Le module EXTRALAPH EXTRALAPH consiste à extraire les données des différentes bases de

données récupérées et de leur intégration dans EDS. Les bases de données récupérées sont codifiées (pour préserver l’anonymat) et stockées dans le système de fichiers de la machine sur laquelle est implémentée la plateforme SARESM.

Le module EXTRALAPH récupère les données de ventes des différentes bases de données sources et alimente la table de faits EDS_VENTES_G de l’EDS ainsi que les assurés concernés par les ventes réalisées dans le cadre de convention avec les assurances sociales et alimenter ainsi la table de dimension EDS_ASSURES.

Avant de lancer le module EXTRALAPH, nous devons nous connecter à EDS sous ORACLE et exécuter le module EXTRALAPH (des exemples de captures d’écrans sont donnés dans l’annexe A).

Le module JOURNEDS JOURNEDS gère les journaux générés lors de la phase de l’alimentation

d’EDS par le module EXTRALAPH. Ces journaux résument le déroulement des opérations, le suivi des données récupérées (officines, dates,..) ainsi que les éventuelles erreurs (des exemples de captures d’écrans sont donnés dans l’annexe A).

JOURNEDS maintient, d’une part, un ensemble de fichiers textes (journaux) dans le système de fichiers de la machine (plateforme SARESM) et d’autre part, une méta-base de données stockant les informations relatives aux pharmacies, les dates de récupérations, les intervalles de ventes observées,…

Le module MAINTREF MAINTREF assure la gestion (mises à jour des données) des tables de

dimensions non obtenues à partir des bases de données sources telles que les référentiels médicaux (EDS_DCI,…), la localisation des officines (EDS_LOCALISATIONS_OFFICINES) et les attributs relatives aux régions (climat, densité démographiques, …) et les informations relatives aux dates (EDS_DATES).

Page 85: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

77

Implémentation et expérimentations

Nous notons à ce niveau que les informations contenues dans ces tables de référence relèvent de la responsabilité des organismes spécialisés (organismes de santé pour les classes thérapeutiques et médicaments, géographiques et administratives pour les localisations, climat, …) et par conséquent, SARESM par le biais de son module MAINTREF, permet de maintenir à jour ces précieuses informations (des exemples de captures d’écrans sont donnés dans l’annexe A).

2.3. Prétraitement Dans cette catégorie, nous signalons que la création du magasin MACHR a été

effectuée on prenant en compte les opérations de prétraitement (ECD).

Le magasin MACHR et le module MCR_CREATION MACHR est le magasin de données dédié à l’étude des maladies chroniques

choisies (Asthme, Diabète et l’hypertension artérielle). Il est conçu suivant le modèle en étoile et implémenté dans la base de données ORACLE. La mise en place de MACHR a été réalisée à l’aide du module MCR_CREATION :

- Création du schéma de la base de données et l’utilisateur, appelé MCR, ayant tous les droits y compris le droit Administrateur.

GRANT CONNECT, RESOURCE, UNLIMITED TABLESPACE TO MCR IDENTIFIED BY

SARESM;

GRANT DBA TO MCR;

- Création des tables des faits et des vues comme dimensions. Le modèle physique est composé de :

La table des faits MCR_VENTES, obtenue après le prétraitement des données des ventes de l’EDS.

CREATE TABLE MCR_VENTES (

CODE_OFFICINE VARCHAR2(14)

, CODE_VENTE VARCHAR2(14)

, CODE_DATE VARCHAR2(10)

, NUM_ENR VARCHAR2(11)

, CLASSE_THERAP VARCHAR2(10)

, ASSURE VARCHAR2(17)

, SEXE CHAR(1)

, AGE VARCHAR2(5),

);

Page 86: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

78

Implémentation et expérimentations

Des tables (vues) de dimensions :

- La vue MCR_LOCALISATIONS_OFFICINES, qui permet l’accès aux informations de la table MCR_LOCALISATIONS_OFFICINES existante dans le schéma de l’EDS, à partir du schéma MCR.

CREATE OR REPLACE VIEW MCR_LOCALISATIONS_OFFICINES AS

SELECT * FROM EDS.EDS_LOCALISATIONS_OFFICINES;

- La table MCR_DATES, à son tour permet l’accès à la table EDS_DATES de l’EDS.

CREATE OR REPLACE VIEW MCR_DATES AS

SELECT * FROM EDS.EDS_ DATES;

Le module SYMACHR SYMACHR représente le noyau de SARESM, il est à la fois un outil de

prétraitement de données et d’alimentation du magasin.

La réalisation du module SYMACHR a nécessité la création de tables intermédiaires pour le stockage des résultats de traitements, la création de vues (servant aussi aux traitements), et le développement de fonctions/procédures stockées en PL-SQL pour le prétraitement, greffées dans la base de données de l’EDS.

Le déclenchement des différents traitements dans le module SYMACHR s’effectue à travers l’interface conçue dans le système SARESM (Figure 4.2).

Les principales composantes de SARESM sont :

- Création des tables de traitement :

La table SMC_ASSURES, qui recevra les enregistrements des assurés après nettoyage.

CREATE TABLE SMC_ASSURES (

ASSURE VARCHAR(17),

SEXE CHAR(1),

DATE_NAISSANCE DATE

);

La table SMC_VENTES_1, pour recevoir les données obtenues par le trigger EDS_SMC_MAJ_VTE_N_NN_N.

CREATE TABLE SMC_VENTES_1 (

CODE_OFFICINE VARCHAR(14),

Page 87: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

79

Implémentation et expérimentations

);

La table SMC_VENTES_2, pour y enregistrer le résultat du traitement obtenu par la procédure SMC_ALIM_VENTE_2_NN_N.

CREATE TABLE SMC_VENTES_2 (

CODE_OFFICINE VARCHAR(14),

);

La table SMC_VENTES_PDT, permet d’enregistrer les produits corrigés par la procédure SMC_ALIM_PDT_NN_N.

CREATE TABLE SMC_VENTES_PDT (

CODE_OFFICINE VARCHAR(14)

);

- Création des vues pour la suite des traitements tels que la correction des dates de naissances (pour les années), la création des tranches d’âge des assurés,…

CREATE OR REPLACE VIEW SMC_W_MACHR_0 AS …;

CREATE OR REPLACE VIEW SMC_W_MACHR_1 AS …;

CREATE OR REPLACE VIEW SMC_W_MACHR_2 AS …;

CREATE OR REPLACE VIEW SMC_W_MACHR_3 AS …;

CREATE OR REPLACE VIEW SMC_W_MACHR_4 AS …;

CREATE OR REPLACE VIEW SMC_W_MACHR_5 AS …;

CREATE OR REPLACE VIEW SMC_W_MACHR_6 AS …;

CREATE OR REPLACE VIEW SMC_W_MACHR AS …;

CREATE OR REPLACE VIEW SMC_W_MACHR_VENTES AS …;

- Création des fonctions et procédures stockées (PL-SQL d’ORACLE):

Page 88: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

80

Implémentation et expérimentations

La fonction EDS_NUM_ENR_STD permettant de corriger la codification des produits par rapport à la table EDS_DCI.

CREATE OR REPLACE FUNCTION EDS_NUM_ENR_STD (strA_NUM_ENR IN VARCHAR2)

RETURN VARCHAR2 IS

BEGIN

END EDS_NUM_ENR_STD;

Le Trigger EDS_SMC_MAJ_VTE_N_NN_N se déclenche automatiquement lors de l’alimentation de la table des faits (EDS_VENTES_G) de l’EDS pour insérer les enregistrements dans la table SMC_VENTES_1. cette insertion concerne quatre points essentiels : prendre seulement les médicaments, les ventes prises en charge par l’assurance sociale, correction des codes des médicaments et corriger les dates de ventes (cf. chapitre 3 § 2.2.5)

CREATE OR REPLACE TRIGGER EDS_SMC_MAJ_VTE_N_NN_N AFTER INSERT OR

UPDATE OR DELETE ON EDS_VENTES_G FOR EACH ROW

BEGIN

END EDS_MAJ_VTE_N_NN_N;

La procédure de traitement SMC_ALIM_VENTE_2_NN_N regroupe les produits d’une même ordonnance médicale (somme) pour alimenter la table SMC_VENTES_2 à partir de la table SMC_VENTES_1.

CREATE OR REPLACE PROCEDURE SMC_ALIM_VENTE_2_NN_N IS

BEGIN

END SMC_ALIM_VENTE_2_NN_N;

La procédure de traitement SMC_ALIM_PDT_NN_N permet d’insérer dans la table SMC_VENTES_PDT les produits concernant les maladies chroniques à partir de la table SMC_VENTES_2 M ainsi que l’unification du code produit.

CREATE OR REPLACE PROCEDURE SMC_ALIM_PDT_NN_N IS

BEGIN

END SMC_ALIM_PDT_NN_N;

Page 89: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

81

Implémentation et expérimentations

La procédure de traitement SMC_ALIM_ASSURES permet d’insérer dans la table SMC_ASSURES les assurés récupérés avec EXTRALAPH (EDS_ASSURES_BRUT) en corrigeant les dates de naissances.

CREATE OR REPLACE PROCEDURE SMC_ALIM_ASSURES IS

BEGIN

END SMC_ALIM_ASSURES;

La procédure d’alimentation du magasin MACHR à partir de l’EDS.

CREATE OR REPLACE PROCEDURE MCR_ALIM_MCR_VENTES IS

BEGIN

END MCR_ALIM_MCR_VENTES;

Les différents traitements de SYMACHR sont lancés à partir de l’interface graphique du système SARESM (Captures d’écrans sont donnés dans l’annexe A).

Un journal est obtenu à la fin du traitement afin de consulter le déroulement du traitement (succès, échecs, erreurs, …).

Le module MCR_TIV MCR_TIV est un éditeur de requête SQL, permet de créer les tables

individus/variables sous forme de vues ORACLE en choisissant les critères de choix des individus selon les régions, les périodes,… et les attributs souhaités et ensuite les soumettre au module IGSS pour effectuer la tâche de fouille de données. MCR_TIV permet également de sauvegarder les définitions de vues (les requêtes) sous forme de fichiers pour d’éventuelles restitutions et réexécutions.

A cette étape, SARESM est prêt à lancer la fouille de données avec le module IGSS.

2.4. IGSS IGSS a été développé au sein de l’équipe « Simulation, Intégration et Fouille

de données » afin d’intégrer le principe cellulaire et la modélisation booléenne (CASI). Il présente une interface graphique conviviale pour effectuer les tâches de fouille de données (cf. annexe B).

Nous pouvons en ce moment nous connecter au magasin de données MACHR pour accéder aux tables individus/variables ORACLE pour les quelles nous souhaitons effectuer les différentes expérimentations.

A partir de ces tables, IGSS permet de créer le jeu d’enregistrement afin d’appliquer l’une des techniques de fouille de données (la méthode ACSIPINA),

Page 90: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

82

Implémentation et expérimentations

visualiser le graphe d’induction obtenu, les règles conjonctives et la modélisation booléenne du système.

3. Données exploitables de SARESM

Avant de donner les résultats des différentes expérimentations, nous tenons à rappeler que la phase d’entreposage des données a représenté une tâche fastidieuse dans la mise en œuvre du projet, notamment dans la collecte des données. Les difficultés rencontrées que nous citons à ce niveau, et à titre d’exemple et non d’une façon exhaustif, sont :

- Sensibilisation des pharmaciens, - Récupération des bases de données sources, - Récupération des données des référentiels médicaux et leur adéquation

avec l’objectif de notre étude (associations des médicaments avec les classes thérapeutiques ciblées) ; tâches réalisées en collaboration avec des experts dans le domaine (pharmaciens, médecins généralistes, médecins spécialistes, responsables de laboratoires pharmaceutiques,…)

- Stockage et codifications des données (officines, produits, assurés, …), - Le temps considérable de traitements, principalement dans l’alimentation

et la manipulation des données de l’entrepôt de données (volume de données très important),

- …

Nous avons, tout de même, pu mettre dans SARESM plus de trente millions d’enregistrements de ventes, échelonnés entre janvier 2003 et Avril 2010.

Il est à noter que ces enregistrements représentent des données brutes de ventes sur lesquelles aucune forme d’agrégation n’a été effectuée. Pour obtenir enfin, après le prétraitement (§ 2.3) et la tâche d’identification des caractéristiques des patients (Sexe et Age), plus de huit cent mille lignes d’actes de ventes14

1er résultat

pour les maladies choisies (Asthme, Diabète et l’hypertension artérielle).

Nos premières expérimentations, de fouille de données, ont montré que les données obtenues à cette étape de traitement, ne pouvaient être exploitables pour la création d’un modèle de fouille de données. Les taux de réussite ne pouvaient dépasser les 55%, autrement dit, presque la moitié des données traitées étaient erronées.

Après les investigations, en utilisant les rapports générés par les différentes méthodes de fouille de données dans IGSS et les multiples interrogations de la base

14 Nous appelons actes de ventes les ordonnances qui ne concernent que les maladies étudiées.

Page 91: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

83

Implémentation et expérimentations

de données, nous nous sommes rendu compte qu’il existait un nombre important de redondances d’actes de ventes pour les maladies choisies.

Ce qui nous a amené, dans cette étape que nous qualifions de « cruciale », à impliquer d’une manière quasi totale les experts du domaine. Pour arriver, enfin, à expliquer le phénomène de la redondance des actes de ventes. Le résultat de cette collaboration a donné comme orientations de procéder par l’analyse des prescriptions (les ordonnances médicales) au lieu des actes de ventes pris séparément. Ce qui a été justifié par l’existence de combinaisons, d’une part, de plusieurs produits concernant la même pathologie dans la même ordonnances et d’autre part, des produits de deux ou des trois maladies choisies dans une même prescription, par exemple les patients hypertendus présentaient étaient également des diabétiques.

Et par conséquent, la génération des données pour le magasin MACHR, par le biais du module SYMACHR, a été améliorée, ce qui nous a permis d’avoir un total d’environ cinq cent mille actes de prescriptions (combinaison d’actes de ventes).

2ème résultat D’un autre coté, nous avons effectué une analyse statistique, recommandée par

les experts du domaine épidémiologique, associée aux résultats de fouille de données citées ci-dessus, afin d’étudier profondément les données contenues dans le magasin MACHR (rappelons que MACHR stocke le résultat du prétraitement de données).

L’analyse a donné les résultats suivants : un taux de 44,13% concernant l’hypertension artérielle de la totalité des actes de prescriptions, un taux de 25,24% pour l’asthme, 16,46% pour le diabète, 11,24% pour la combinaison diabète-hypertension artérielle et 2,93% pour les autres combinaisons (diabète-asthme : 0,53%, diabète-hypertension artérielle-asthme : 0,28% et hypertension artérielle-asthme : 2,12%). Cette analyse nous a conduit à choisir les classes thérapeutiques asthme, diabète et la combinaison diabète-hypertension artérielle.

Ce choix a été justifié par :

- Les combinaisons (diabète-asthme, diabète-hypertension artérielle-asthme et hypertension artérielle-asthme) présentent des taux faibles et par conséquent sont insignifiantes et ne donnait pas d’intérêt épidémiologique, par contre elles peuvent faire l’objet d’études spécialisées, par exemple l’analyse des prescriptions pour la détection des anomalies (cf. chapitre 1).

- En ce qui concerne l’hypertension artérielle qui, rappelons-le, présente presque la moitié des actes de prescriptions et dont plus de 90% de la population concernée sont des personnes ayant plus de 40 ans, sera substituée et mise en évidence à travers une nouvelle classe obtenue par la combinaison diabète-hypertension artérielle. La substitution est motivée

Page 92: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

84

Implémentation et expérimentations

par le besoin d’étudier la population qui présente l’une des deux pathologies et susceptibles de contracter l’autre.

4. Expérimentations

Nous testons la plateforme SARESM avec cinq bases différentes issues du magasin de données des maladies chroniques (MACHR). Nous avons d’abord choisi d’appliquer la fouille de données sur un extrait de la base de données concernant la région ouest du pays (appelée BRO) relatif aux départements (Wilayas) de Tlemcen, Oran, Sidi Bel Abbes et Ain Témouchent. Nous avons commencé par la Base Région Ouest afin de pouvoir donner des règles de prédiction épidémiologique de la région et de comparer sa performance par rapport à d’autre systèmes d’apprentissage automatique.

Ensuite nous sommes passés aux quatre autres bases départementales appelées Base TLM, Base SBA, Base ORN et Base ATM relatives, respectivement, aux départements de Tlemcen, Sidi Bel Abbes, Oran et Ain Témouchent. Ces bases sont décrites par des mêmes attributs communs (géographiques et climatiques), par contre les descripteurs concernant le découpage administratif (exemple départements) ne sont pas reconduits.

La figure 4.3 présente différentes caractéristiques des bases d’expérimentation en termes de nombre d’individus des échantillons d’apprentissages, le nombre de localités prises pour chaque base.

FIG. 4.3 – Caractéristiques des cinq bases d’expérimentation.

ORN 67994

Individus 14

Localités

SBA 17758

Individus 2

Localités

ATM 28475

Individus 10

Localités

BRO 124246

Individus 30

Localités

TLM 7862

Individus 4

Localités

Page 93: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

85

Implémentation et expérimentations

Pour les cinq bases choisies, nous avons utilisé les mêmes attributs que nous donnons dans le tableau 4.1, à quelques différences en l’occurrence l’omission des attributs non indispensables (exemple départements).

TAB. 4.1 – Représentation des attributs et la classe.

Dans les sections qui suivent, nous allons donner les résultats obtenus en utilisant notre plateforme.

Afin de réaliser les expérimentations, nous avons utilisé l’induction en utilisant la méthode ACSIPINA d’IGSS (la machine CASI) et nous comparons les résultats donnés par ACSIPINA aves d’autres méthodes d’apprentissage automatique par induction, à savoir deux algorithmes ID3 et C4.5.

4.1. Base Région Ouest (BRO) La BRO contient les données des quatre départements cités ci-dessus, et

représente un échantillon de 124 246 actes de prescriptions et dont les attributs et la variable à prédire sont explicités dans le tableau 4.1.

Nous effectuons trois expérimentations sur la base BRO, nous détaillons dans le présent chapitre deux d’entre elles et la troisième expérimentation sera donnée dans l’annexe C :

1ère expérimentation BRO La première expérimentation est caractérisée par l’omission des attributs X2 :

WILAYA et X3 : LOCALITE, autrement dit, les attributs administratifs.

Attribut Signification Valeurs possibles

X1 : MOIS La période choisie est le mois calendaire

01 (Janvier), .., 12 (Décembre).

X2 : WILAYA Le numéro du département 13(Tlemcen), 22 (Sidi Bel Abbes), 31(Oran) et 46 (Ain Témouchent)

X3 : LOCALITE La localité ou ville relative à la pharmacie choisie

TLEMCEN, SENIA, ARZEW…

X4 : CLIMAT Le climat par rapport, principalement à l’humidité

H-Elev (Humidité élevée), H-Moy (Humidité moyenne), Sec (Humidité Faible)

X5 : PROXIMITE_MER La proximité de la localisation par rapport à la mer

Intérieur, Côtière

X6 : SEXE Le sexe du patient M : Masculin, F : Féminin

X7 : AGE L’âge du patient donné en tranches

Enf (<=16 ans) Adt1 (entre 16 et 40 ans), Adt2 (entre 41 et 65 ans) et Agé (>65 ans).

Y : CLASSE_THERAP C’est la classe de la maladie à prédire

AST (Asthme), DBT (Diabète) et DBT-HTA (Diabète-Hypertension artérielle).

Page 94: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

86

Implémentation et expérimentations

Pour tester notre système, l’expérimentation a été effectuée avec succès et nous avons obtenu les résultats de comparaison avec les autres méthodes présentés dans le tableau 4.2.

TAB. 4.2 – Tableau de comparaison pour la 1ère expérimentation de BRO.

Enfin, nous pouvons visualiser 22 règles de prédiction épidémiologique (règles conjonctives) produites par notre système présentées dans le tableau 4.3.

TAB. 4.3 – Les règles conjonctives produites dans la 1ère expérimentation de BRO.

Méthodes Résultats

ACSIPINA ID3 C4.5

Taux de réussite (%) 86.3915 86.435 86.369

Instances correctes 107338 107392 107310

1 Si (AGE = Agé) Alors DBT-HTA

2 Si (AGE = Adt1) Alors AST

3 Si (AGE = Enf) Alors AST

4 Si (CLIMAT = H-Moy Et PROXIMITE_MER = Intérieure Et SEXE = F Et AGE = Adt2) Alors DBT

5 Si (CLIMAT = H-Moy Et PROXIMITE_MER = Côtière Et SEXE = F Et AGE = Adt2) Alors AST

6 Si (CLIMAT = H-Moy Et PROXIMITE_MER = Intérieure Et SEXE = M Et AGE = Adt2) Alors DBT

7 Si (CLIMAT = H-Moy Et PROXIMITE_MER = Côtière Et SEXE = M Et AGE = Adt2) Alors DBT

8 Si (CLIMAT = H-Elev Et SEXE = M Et AGE = Adt2) Alors AST

9 Si (CLIMAT = Sec Et SEXE = F Et AGE = Adt2) Alors DBT

10 Si (CLIMAT = Sec Et SEXE = M Et AGE = Adt2) Alors DBT

11 Si (MOIS = 06 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

12 Si (MOIS = 10 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

13 Si (MOIS = 09 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

14 Si (MOIS = 07 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

15 Si (MOIS = 08 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

16 Si (MOIS = 11 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

17 Si (MOIS = 03 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

18 Si (MOIS = 01 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

19 Si (MOIS = 04 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

20 Si (MOIS = 05 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

21 Si (MOIS = 02 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

22 Si (MOIS = 12 Et CLIMAT = H-Elev Et SEXE = F Et AGE = Adt2) Alors AST

Page 95: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

87

Implémentation et expérimentations

2ème expérimentation BRO Dans la deuxième expérimentation nous intégrons l’attribut X2 : WILAYA afin

d’affiner nos recherches et donner des précisions par rapport à l’aspect administratif.

En suivant la même démarque de l’expérimentation précédente, nous avons obtenu les résultats suivants (Tableau 4.4).

TAB. 4.4 – Tableau de comparaison pour la 2ème expérimentation de BRO.

Et nous visualisons ainsi 13 règles de prédiction épidémiologique (Tableau 4.5).

TAB. 4.5 – Les règles conjonctives produites dans la 2ème expérimentation de BRO.

4.2. Bases départementales Le tableau 4.6 présente les différents résultats obtenus par l’expérimentation

des quatre autres bases en utilisant les mêmes méthodes d’apprentissage par induction. Les bases retenues, citées plus haut, dans cette expérimentation sont décrites avec les attributs du tableau 4.1 sans les attributs X2 : WILAYA, ce dernier étant le principal critère de sélection pour l’obtention des bases, et X3 : LOCALITE, qui sera donné dans l’annexe C.

Méthodes Résultats

ACSIPINA ID3 C4.5

Taux de réussite (%) 86.7988 87.3058 87.2841

Instances correctes 107844 108474 108447

1 Si (AGE = Agé) Alors DBT-HTA

2 Si (AGE = Adt1) Alors AST

3 Si (AGE = Enf) Alors AST

4 Si (CLIMAT = Elevée Et AGE = Adt2) Alors AST

5 Si (WILAYA = 46 Et CLIMAT = Moyenne Et AGE = Adt2) Alors AST

6 Si (WILAYA = 31 Et CLIMAT = Moyenne Et SEXE = M Et AGE = Adt2) Alors DBT

7 Si (WILAYA = 31 Et CLIMAT = Moyenne Et PROXIMITE_MER = Côtière Et SEXE = F Et AGE = Adt2) Alors DBT

8 Si (WILAYA = 13 Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

9 Si (WILAYA = 46 Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

10 Si (WILAYA = 31 Et CLIMAT = Moyenne Et PROXIMITE_MER = Intérieure Et SEXE = F Et AGE = Adt2) Alors DBT

11 Si (WILAYA = 22 Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

12 Si (WILAYA = 31 Et CLIMAT = Sec Et PROXIMITE_MER = Intérieure Et AGE = Adt2) Alors AST

13 Si (WILAYA = 31 Et CLIMAT = Sec Et PROXIMITE_MER = Côtière Et AGE = Adt2) Alors DBT

Page 96: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Chapitre 4

88

Implémentation et expérimentations

TAB. 4.6 – Résultats des expérimentations sur les quatre base ORN, SBA, ATM et TLM.

Les règles de prédiction épidémiologique produites pour chaque base seront données dans l’annexe C.

4.3. Discussion Nous venons de donner des exemples de modèles de règles de prédiction

épidémiologique, réalisé sur la région ouest du pays. Nous remarquons que la combinaison diabète-hypertension tension artérielle (DBT-HTA) est la maladie persistante chez les personnes les plus âgées (Agé) et l’asthme (AST) touche les plus jeunes (Enf et Adt1). Nous remarquons aussi que le descripteur AGE joue un rôle très important dans la classification des maladies chroniques ainsi que les caractéristiques géographiques et climatiques que nous retrouvons dans les deux expérimentations de la base BRO. Ces résultats ont été confirmés par les experts du domaine, ils reflètent un constat national, principalement pour l’hypertension tension artérielle et le diabète qui représentent une réalité vécue dans le pays et ce quelque soient les conditions (climat, période ou la densité démographique). Nous constatons, enfin, que la période (MOIS) n’influe pas sur les résultats malgré sa présence dans la première expérimentation (Tableau 4.3) et nous voyant clairement qu’elle ne figure plus dans le modèle de la deuxième expérimentation (Tableau 4.5).

Du point de vue comparaison avec les autres méthodes d’apprentissage par induction (ID3 et C4.5), nous soulignons que l’approche booléenne est compétitive avec ces méthodes classiques (confirmation par les taux de réussite donnés) sans citer les avantages que nous préconisons par l’adoption d’une telle approche.

5. Conclusion

Dans ce chapitre, nous avons abordé l’implémentation du système SARESM et l’application la fouille de données, dans le domaine pharmaceutique orienté vers l’épidémiologie, en fournissant des modèles de prédiction des maladies chroniques par la modélisation booléenne des règles de prédiction épidémiologique.

Nombre de règles Taux de réussite (%)

ACSIPINA ACSIPINA ID3 C4.5

Base ORN 21 86.5047 86.6003 86.5047

Base SBA 6 93.5635 93.5635 93.5635

Base ATM 40 90.9429 92.137 92.137

Base TLM 4 85.7288 85.7288 85.7288

Page 97: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

89

Conclusion et perspectives

Le développement des systèmes d’informations et des technologies des ordinateurs a permis d’automatiser les activités de tous les domaines du monde réel, ce qui a entraîné un accroissement rapide de l'information disponible, le développement des entrepôts de grands volumes de données, et finalement, l'émergence du Data Mining. Le but de ce dernier est d'extraire des connaissances disponibles et jusque là cachées au sein des données pour être exploitables dans différents domaines, tels que le commerce, les banques, la santé publique, etc. Le domaine de la santé publique est la principale préoccupation de toute la population mondiale et fait recours à plusieurs disciplines afin de permettre le bien être des gens.

Notre thème de recherche, qui s’inscrit dans le projet de l’équipe « Simulation, Intégration et Fouille de données » (SIF), concerne la contribution dans le monde de la santé publique et de l’épidémiologie à travers la conception et la réalisation d’un Système d’Assistance aux Recherches Epidémiologiques et de Surveillance des Maladies (SARESM), qui est issu de la démarche globale du processus d’extraction de connaissances à partir des données.

SARESM permettra aux différents acteurs de la santé publique une assistance à l’établissement de politiques sanitaires, notamment en matière de la planification d’acquisition des produits pharmaceutiques, par rapport à la distribution géographique de leurs utilisations. Cette distribution géographique est établie par rapport à une mesure pathologique. De plus, SARESM permet d’extraire des modèles pour la surveillance des maladies chroniques, basés sur une exploitation des données réelles de ventes de médicaments dans les pharmacies privées.

Nous avons procédé notre travail de la manière suivante :

- Conception d’un entrepôt de données pour lequel nous avons pu collecter un nombre important des données pharmaceutiques. Cette phase d’entreposage des données a représenté une tâche fastidieuse dans la mise en œuvre de notre projet. Nous avons, tout de même, pu mettre dans SARESM plus de trente millions d’enregistrements de ventes, échelonnés entre janvier 2003 et Avril 2010, et relatifs à plus d’une centaine de pharmacies réparties sur 10 départements.

- La phase de prétraitement et la tâche d’identification des caractéristiques des patients (Sexe et Age), nous ont permis d’aboutir à un total d’actes de

Page 98: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

90

ventes pour les maladies choisies (Asthme, Hypertension Artérielle et Diabète).

- L’expérimentation a été réalisée sur un échantillon d’actes de ventes des maladies décrites précédemment.

- Elaboration du modèle de règles de prédiction épidémiologique, dans la phase de fouille de données, basée sur une nouvelle approche de modélisation booléenne des graphes d’induction inspirée du principe de la machine CASI (Cellular Automata for Symbolic Induction). Le but, après une modélisation booléenne des règles de prédiction épidémiologique, est double : d’une part, affiner le suivi par une fouille de donnée orchestrée par CASI, et d’autre part réduire la complexité de gestion de connaissances, ainsi que le temps de réponse.

- Validation des résultats des différentes expérimentations en collaboration avec le laboratoire de bio-statistique de l’université d’Oran.

Les résultats de ces travaux offrent plusieurs perspectives de recherches ultérieures au niveau théorique et au niveau pratique. D’où, nous présentons succinctement quelques unes de ces perspectives :

- Entamer, en collaboration avec le laboratoire Biostatistique, la phase de généralisation de notre démarche sur des données récoltées d’autres régions.

- Etendre notre travail pour son application à d’autres maladies.

- Enrichir la plateforme SARESM par d’autres données (médicales, biologiques, environnement,…).

- Améliorer la plateforme par l’intégration de techniques avancées de l’informatique (services web), pour ainsi permettre une collaboration plus étendue de la communauté des pharmaciens et les chercheurs en épidémiologie.

Page 99: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

91

Bibliographie

«La lecture est l'apothéose de l'écriture». Alberto Manguel

Abdelouhab F. et B. Atmani (2008). Intégration automatique des données semi-structurées dans

un entrepôt cellulaire, Troisième atelier sur les systèmes décisionnels, Mohammadia – Maroc,

pp. 109-120, le 10 et 11 Octobre 2008.

Agard B. et A. Kusiak (2) (2005). Exploration des bases de données industrielles à l’aide du data

mining – Perspectives. 9ème Colloque National AIP PRIMECA, La Plagne : 5-8 avril 2005.

Agrawal R., S. Ghosh, T. Imielinski, B. Lyer, et A. Swami (1992). An interval classifier for

database mining applications. In proceedings of the 18th international conference on Very

Large Data Bases (VLDB’92), pp. 560-573, Morgan Kaufmann, August 1992.

Arigon A.M. (2003). Intégration de versions fonctionnelles dans les entrepôts de données

multimédias au sein des systèmes OLAP. Rapport de DEA, LIRIS – INSA de Lyon.

Atmani B. et B. Beldjilali (2007). Knowledge Discovery in Database : Induction Graph and

Cellular Automaton, Computing and Informatics Journal, Vol.26, N°2, pp. 171-197.

Bala P.K. (2009). Advances in Electrical Engineering and Computational Science. pp. 587-598.

Xavier Institute of Management, Bhubaneswar, India. DOI 10.1007/s11096-008-9242-3

Ben Messaoud R. (2007). Cours « Data mining ». Université Lyon 2. Consulter le site web :

http://eric.univ-lyon2.fr/~rbenmessaoud/supports/datamining/data_mining.pdf

Benamina M. et B. Atmani (2008). WCSS: un système cellulaire d'extraction et de gestion des

connaissances, Troisième atelier sur les systèmes décisionnels, 10 et 11 octobre 2008,

Mohammadia – Maroc, pp. 223-234.

Bereznicki B.J., G.M. Peterson, S.L. Jackson, H. Walters, K. Fitzmaurice, et P. Gee (2008).

Pharmacist-initiated general practitioner referral of patients with suboptimal asthma

management. Pharm World Pharm World Sci. pp. 869-875. Springer Science+Business Media

B.V. 2008. Published online: 5 August 2008. DOI 10.1007/s11096-008-9242-3

Bettcher D.W., S. Sapirie, et E.H.T. Goon (1998). Essential public health functions: Results of The

International Delphi Study. Vol. 51, N°1, pp. 44-54.

Page 100: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

92

Bibliographie

Bouroche J. et M. Tenenhaus (1970). Quelques méthodes de segmentation, RAIRO, 42, pp. 29-42,

1970.

Boussaid O. et S. Loudcher-Rabaseda (2006). Intégration des méta-donnèes dans la fouille de

données. INFORSID06.

Breiman L., J. Friedman, C.J. Stone, et R. A. Olshen (1984). Classification and Regression Trees.

Chapman & Hall/CRC, January 1984.

Brostaux Y. (2005). Etude du classement par forêts aléatoires d'échantillons perturbés à forte

structure d'interaction, (thèse de doctorat). Université Gembloux, Belgique, 2005.

Cabibbo L. et R. Torlone (1998). A logical approach to multidimensional databases, EDBT.

Cetnik B., I. Kononenko et I. Brackto (1987). Assistant 86: A knowledge-elicitation tool for

sophisticated users. Progress in Machine Learning, 2nd European Working Session on

Learning, 1987. pp. 31-45.

Chen J., H. He, J. Li, H. Jin, D. McAullay, G. Williams, R. Sparks, et C. Kelman (2005).

Representing Association Classification Rules Mined from Health Data. International

Conference on Knowledge-Based Intelligent Information and Engineering Systems No9,

Melbourne, Australia. Springer-Verlag Berlin Heidelberg 2005

Cheng J., U. M. Fayyad, K. B. Irani, et Z. Qian (1988). Improved Decision Trees: A Generalized

Version of ID3, Proceedings of the 5th Internationnal Conference on Machine Learning, 1988.

pp. 100-105.

Codd E.F. (1993). Providing OLAP (on-line analytical processing) to user-analysts, an IT

mandate, Technical Report, E.F. Codd and Associates.

Favre C. (2007). Évolution de schémas dans les entrepôts de données : mise à jour de hiérarchies

de dimension pour la personnalisation des analyses. Thèse de Doctorat, Université Lyon 2.

Fayyad U.M et K.B. Irani (1992). The Attribute Selection Problem in Decision Tree Generation.

Proceedings of th 10th National Conference on Artificial Inteligence, 1992. pp. 104-110.

Fayyad U.M., G. Piatetsky-Shapiro, et P. Smyth (1996a). The KDD process for extracting useful

knowledge from volumes of data. In : Communications of the ACM, vol. 39, 11, nov. 1996, pp.

27 - 34.

Fayyad U.M., G. Piatetsky-Shapiro, P. Smyth, et R. Uthurusamy (1996b). Advances in Knowledge

Discovery and Data Mining, AAAI Press, ISBN 0-262-56097-6, 1996.

Fayyad U.M., G. Piatetsky-Shapiro, et P. Smyth (1996c). Knowledge discovery and data mining :

Towards a unifying framework. In : Proc. of the 2nd International Conference on Knowledge

Discovery and Data Mining (KDD'96). Portland, Oregon, August 1996, pp. 82-88.

Frawley W., G. Piatetsky-Shapiro, et C. Matheus (1991). Knowledge discovery in databases : an

overview. Menlo Park : AAAI Press, 1991, pp. 1-27.

Fugh-Berman A. (2008). Prescription Tracking and Public Health. Department of Physiology and

Biophysics, Georgetown University Medical Center, Washington, DC, USA. J Gen Intern Med.

Page 101: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

93

Bibliographie

2008 August; 23(8): pp. 1277-1280. Published online 2008 May 13. DOI : 10.1007/s11606-

008-0630-0.

Gilleron R. et M. Tommasi (2000). Découverte de connaissances à partir de données. Technical

report, Grappa - Université de Lille.

Goglin J.F. (2001). Construction du datawarehouse - Du datamart au dataweb. 2ème édition

2001, Edition Hermès - Lavoisier, ISBN10 : 2-7462-0242-5, ISBN13 : 978-2-7462-0242-9,

EAN13 : 9782746202429.

Goldberg D.E. (1989). Genetic Algorithms in Search, Optimization and Machine Learning.

Addison-Wesley.

Hamuro Y., N. Katoh, Y. Matsuda, et K. Yada (1998). Mining Pharmacy Data Helps to Make

Profits. Data Mining and Knowledge Discovery 2, pp. 391-398. Kluwer Academic Publishers.

Manufactured in The Netherlands.

Han J. et M. Kamber (2001). Data Mining : Concepts and Techniques. Morgan Kaufmann

Publishers Inc., San Francisco, CA, USA, 2001.

Hansohm J. (2000). Clustering with genetic algorithms. In Classification, Automation, and New

Media, Proceedings of the 24th Annual Conferenceb of the Gesellschaft Fur Klassifikation

E.V., pp. 87-94.

Harbi N., O. Boussaid, et F. Bentayeb (2008). Propriétés d’un modèle conceptuel

multidimensionnel pour les données complexes. 8èmes Journées Francophones Extraction et

Gestion des Connaissances, Sophia Antipolis.

Hunt E.B., J. Martin, et P. J. Stone (1966). Experiments In Induction. Publié : 1966, Academic

Press (New York)

Inmon W.H. (1996). Building the Data Warehouse, 2nd Edition John Wiley & Sons, Inc., ISBN

n°0471-14161-5, USA.

Jain A.K. et R.C. Dubes (1998). Algorithms for clustering data. Prentice-Hall, Inc., Upper Saddle

River, NJ, USA, 1988.

Kimball R. (1996). The data warehouse toolkit : practical techniques for building dimensional

data warehouses. John Wiley & Sons, Inc., New York, NY, USA.

Lefébure R. et G. Venturi (2001). Data mining, Gestion de la relation client, Personnalisation des

sites web. Eyrolles, 2001.

Manago M. (1991). Kate: intégration de techniques symboliques te numériques en apprentissage.

In Induction symbolique et numérique à partir des données. Cépadues, 1991, pp. 125-149.

Martin M.K., DVM, MPH, K.P. Shuster, RPH, MBA (2002). Mining an Administrative Pharmacy

Database for Practice Patterns. Chime® Inc., An Affiliate of the Connecticut Hospital

Association - Health Connecticut. Proceedings of the AMIA 2002 Annual Symposium, Page

1097.

Page 102: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

94

Bibliographie

Melley K. et K. Petersen (2008). Fact Sheet : Prescription Data Mining. Pew Prescription Project

: http://www.prescriptionproject.org.

Midouni S-A-D, J. Darmont, et F. Bentayeb (2009). Approche de modélisation

multidimensionnelle des données - complexes : Application aux données médicales. EDA’09,

Montpellier, France, Juin 2009.

Morgan J. et J.A.Sonquist (1963), Problems in the Analysis of Survey Data, and a Proposal,

Journal of the American Statistical Association, 58:415-435, 1963.

Piatetsky-Shapiro G. (1989). Workshop Knowledge Discovery in Databases, (KDD'89). Notes of

IJCAI'89. Detroit, MI, July 1989.

Picard C. (1972). Graphes et questionnaires, Gauthier-Villars, 1972.

Pommier J. et O. Grimaud (2007). Les fonctions essentielles de santé publique : histoire, définition

et applications possibles, Santé publique 2007/0, N° 19, pp. 9-14.

Preux P. (2005). Fouille de données, Notes de cours. Université de Lille, 2005.

Quinlan J.R. (1983). Learning efficient classification procedures and their applications to chess

endgames. InMachine learning: An artificial intelligence approach, R.S. Michalski, J.

Carbonell, & T. Mitchell, (Eds.), Tioga Publishing Co., Palo Acto, CA.

Quinlan J.R. (1986). Induction of decision trees. InMachine learning 1986. pp. 81-106.

Quinlan J.R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA,

1993.

Raghavan V.V. et K. Birchard (1997). A clustering strategy based on a formalism of the

reproductive process in natural systems. In Information Implications into the Eighties,

Proceedings of the Second International Conference on Information Storage and Retrieval, pp.

10-22. ACM, 1997.

Rakotomalala R. (2005). Arbres de Décision. Revue MODULAD, Numéro 33, 2005, pp. 163-187.

Ravat F., O. Teste, et G. Zurfluh (2000). Modélisation et extraction de données pour un entrepôt

objet. Université Paul Sabatier (Toulouse III), IRIT, équipe SIG.

Ravat F., O. Teste, et G. Zurfluh (2001). Modélisation multidimensionnelle des systèmes

décisionnels. Revue des Sciences et Technologies de l’information, Vol n°1-2/200, pp. 201-

212, EGC 2001 17-19 2001, Nantes, France.

Rissanem J. (1978). Modeling By Shortest Data Description. Automatica. 1978. 14, pp. 465-471.

Rouillon F. (2001). Epidémiologie des troubles bipolaires. ARGOS. Publié sur le site web :

http//argos.2001.free.fr.

Sabhnani M.R., D.B. Neill et A.W. Moore (2005). Detecting Anomalous Patterns in Pharmacy

Retail Data. AD-KDD’05, August 21, 2005, Chicago, Illinois, USA.

Schonfisch and Ross, (1999). Synchronous and asynchronous updating in cellular automata.

Journal of Biosystem. v51, P.123-143.

Page 103: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

95

Bibliographie

Selmoune N., S. Boukhedouma, et Z. Alimazighi (2005). Conception d’un outil décisionnel pour

la gestion de la relation client dans un site de e-commerce. SETIT 3rd International

Conference, Tunisie.

Singh Y. et A.S. Chauhan (2005). Neural networks in data mining, journal of theoretical and

applied information technology, Vol N° : 5, Article N° :6 http://www.jatit.org

Soibelman L., M. Asce, K. Hyunjoo (2002). Data Preparation Process for Construction

Knowledge Generation through Knowledge Discovery in Databases, Journal Of Computing In

Civil Engineering, January, 2002.

Sumathi S. et S.N. Sivanandam (2006). Data Mining in Biomedicine and Science, Studies in

Computational Intelligence. Chap 21, pp. 499-543.

Terrenoire M. (1970). Un modèle mathématique de processus d’interrogation : les pseudo-

questionnaires, PhD Thesis, Université de Grenoble, 1970.

Teste O. (2000). Elaboration d'entrepôts de données complexes. Actes du XVIIIème Congrès

INFormatique des ORganisations et Systèmes d'Information et de Décision - INFORSID'00,

ed. INFORSID - ISBN 2-906855-16-2, p229-245, 16-19 mai 2000, Lyon, France.

Touré K. (2009). Cours « Introduction à l’épidémiologie ». Service de Santé Publique et de

Médecine Préventive, Faculté de Médecine, Pharmacie et Odontologie,Université Cheikh Anta

Diop de Dakar.

Tufféry S. (2005). Data Mining et Statistique Décisionnell , l'intelligence dans les bases de

données. Editions Technip, 2005.

Vassiliadis P. et T. Sellis (1999). A Survey on Logical Models for OLAP Databases, SIGMOD

Record 28(4), pp. 64-69.

Velten M. (2005). Cours « Epidémiologie ». Laboratoire d’épidémiologie et de santé publique -

Université Louis Pasteur – Strasbourg. Consulter le site web : http://www-

ulpmed.ustrasbg.fr/medecine/cours_en_ligne/e_cours/1ercycle/epidemiologie/EPIDEMIOLOG

IE_01.pdf

Weiss S.M. et C.A. Kulikowski (1991). Computer systems that learn : classification and

prediction methods from statistics, neural nets, machine learning, and expert systems. Morgan

Kaufmann Publishers Inc., San Francisco, CA, USA, 1991.

Wolfram S. (1986), Theory and Application of Cellular Automata, World Scientific.

Zighed D.A. (1985). Méthodes et outils pour les processus d'interrogation non arborescents.

Thèse de Doctorat, Université Lyon 1.

Zighed D.A., J.P. Auray, et G. Duru (1992). SIPINA: Méthode et Logiciel, Lacassagne.

Zighed D.A., Y. Kodratoff, et A. Napoli (2001). Extraction de connaissance à partir d’une base

de données. Bulletin AFIA’01.

Page 104: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

A- 1

A

Annexe SARESM

Dans cette annexe, nous présentons quelques écrans de l’interface graphique qu’offre le système SARESM.

1. Connection à l’EDS sous ORACLE

FIG. 1 – Connection à EDS.

2. Le module EXTRALAPH

FIG. 2 – Le module EXTRALAPH.

Page 105: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Annexe A

A- 2

SARESM

3. Le module JOURNEDS

FIG. 3 – Exemple de fichier de JOURNEDS.

4. Le module MAINTREF

FIG. 4 – Module MAINTREF.

5. Le module SYMACHR

FIG. 5 – Exécution de SYMACHR.

Page 106: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

B-1

B

Annexe IGSS

Dans cette annexe nous présentons IGSS à travers l’exemple du chapitre 3 (§. 4.3. Exemple de données pharmaceutiques).

1. Le module IGSS IGSS présente une interface graphique conviviale pour effectuer les tâches de

fouille de données (Figure 1).

.

FIG. 1 – Le module IGSS.

Nous nous connectons à MACHR pour accéder aux tables individus/variables (Figure 2).

FIG. 2 – Connection d’IGSS au magasin de données MACHR.

Page 107: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Annexe B

B-2

IGSS

A partir de ces tables, IGSS permet de créer le jeu d’enregistrement (DATASET) afin d’appliquer l’une des techniques de fouille de données (la méthode ACSIPINA) (Figure 3).

FIG. 3 – Présentation de la fin traitement dans IGSS.

2. La fouille de données Nous reprenons l’exemple du chapitre 3, en lançant la méthode ACSIPINA

d’IGSS, le graphe d’induction suivant est obtenu (Figure 4).

FIG. 4 – Graphe d’induction obtenu.

Page 108: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Annexe B

B-3

IGSS

La figure 5 montre comment la base de connaissances extraite à partir de ce graphe est représentée par les couches CELFAIT et CELREGLE (cf. chapitre 3 § 4.1). Notons que dans cette étape les deux matrices d’incidence d’entrée (RE) et de sortie (RS) de CASI sont générées.

FIG. 5 - Configuration initiale de l’automate cellulaire et les deux matrices RE et RS.

Le module COG coopère avec le moteur d’inférence cellulaire (CIE) qui utilise les mêmes fonctions de transition • fait et • regle (cf. chapitre 3 § 4.2) avec la permutation de RE et de RS du graphe, en partant du nœud terminal

Page 109: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Annexe B

B-4

IGSS

vers la racine s0. La représentation de la base de connaissance par CASI est illustrée par CELFAIT, CELREGLE, RE et RS (Figure 6).

Fig. 6. Base de connaissances issue du graphe d’induction de la figure 4.

Enfin, nous pouvons à travers IGSS visualiser les règles de prédiction épidémiologique (Figure 7) qui sont de la forme: Si Condition Alors Conclusion.

Fig. 7. Exemples de règles conjonctives produites dans l’expérimentation.

Page 110: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

C-1

C

Annexe Expérimentations Détails

1. Base Région Ouest (BRO) – 3ème expérimentation Nous détaillons dans cette section de l’annexe la troisième expérimentation de

la base BRO qui concerne l’utilisation de tous les attributs du tableau 1.

TAB. 1 – Représentation des attributs et la classe de BRO.

Comme elle a été présentée dans le chapitre 4, la BRO contient les données de quatre départements (Tableau 1 ; attribut X2 : WILAYA), et représente un échantillon de 124 246 actes de prescriptions et dont les attributs et la variable à prédire sont explicités dans le tableau 1.

Nous avons obtenu les résultats de comparaison avec les autres méthodes présentés dans le tableau 2.

Attribut Signification Valeurs possibles

X1 : MOIS La période choisie est le mois calendaire

01 (Janvier), .., 12 (Décembre).

X2 : WILAYA Le numéro du département 13(Tlemcen), 22 (Sidi Bel Abbes), 31(Oran) et 46 (Ain Témouchent)

X3 : LOCALITE La localité ou ville relative à la pharmacie choisie

TLEMCEN, SENIA, ARZEW…

X4 : CLIMAT Le climat par rapport, principalement à l’humidité

H-Elev (Humidité élevée), H-Moy (Humidité moyenne), Sec (Humidité Faible)

X5 : PROXIMITE_MER La proximité de la localisation par rapport à la mer

Intérieur, Côtière

X6 : SEXE Le sexe du patient M : Masculin, F : Féminin

X7 : AGE L’âge du patient donné en tranches

Enf (<=16 ans) Adt1 (entre 16 et 40 ans), Adt2 (entre 41 et 65 ans) et Agé (>65 ans).

Y : CLASSE_THERAP C’est la classe de la maladie à prédire

AST (Asthme), DBT (Diabète) et DBT-HTA (Diabète-Hypertension artérielle).

Page 111: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Annexe C

C-2

Expérimentations – Détails

TAB. 2 – Tableau de comparaison pour la 3ème expérimentation de BRO.

Et nous pouvons visualiser 34 règles de prédiction épidémiologique présentées dans le tableau 3.

Méthodes Résultats

ACSIPINA ID3 C4.5

Taux de réussite (%) 91.2158 92.5808 92.5591

Instances correctes 113332 115028 115001

1 Si (AGE = Agé) Alors DBT-HTA

2 Si (AGE = Adt1) Alors AST

3 Si (AGE = Enf) Alors AST

4 Si (VILLE = SIDI-LAHCEN Et AGE = Adt2) Alors DBT

5 Si (VILLE = AIN-EL-TURCK Et AGE = Adt2) Alors AST

6 Si (VILLE = OUED-TLELAT Et AGE = Adt2) Alors AST

7 Si (VILLE = HASSI-AMEUR Et AGE = Adt2) Alors AST

8 Si (VILLE = BENI-SAF Et AGE = Adt2) Alors AST

9 Si (VILLE = BIR-EL-DJIR Et AGE = Adt2) Alors AST

10 Si (VILLE = AIN-EL-ARBAA Et AGE = Adt2) Alors AST

11 Si (VILLE = BOUFATIS Et AGE = Adt2) Alors DBT

12 Si (VILLE = MAGHNIA Et AGE = Adt2) Alors DBT

13 Si (VILLE = BOUTLELIS Et AGE = Adt2) Alors DBT

14 Si (VILLE = TLEMCEN Et AGE = Adt2) Alors DBT

15 Si (VILLE = AIN-YOUCEF Et AGE = Adt2) Alors DBT

16 Si (VILLE = TAFRAOUI Et AGE = Adt2) Alors DBT

17 Si (VILLE = SBA Et AGE = Adt2) Alors DBT

18 Si (VILLE = SENIA Et AGE = Adt2) Alors DBT

19 Si (VILLE = MOUHGUEUNE Et AGE = Adt2) Alors DBT

20 Si (VILLE = ARZEW Et AGE = Adt2) Alors DBT

21 Si (VILLE = AIN-TOLBA Et AGE = Adt2) Alors DBT

22 Si (VILLE = BETHIOUA Et AGE = Adt2) Alors DBT

23 Si (VILLE = EL-AMRIA Et AGE = Adt2) Alors DBT

24 Si (VILLE = HAMMAM-BOUHADJAR Et AGE = Adt2) Alors DBT

25 Si (VILLE = GHLAL Et AGE = Adt2) Alors DBT

26 Si (VILLE = BENFREHA Et AGE = Adt2) Alors AST

27 Si (VILLE = OULED-MIMOUN Et AGE = Adt2) Alors AST

28 Si (VILLE = ORAN Et AGE = Adt2) Alors AST

29 Si (VILLE = SIDI-SAFI Et AGE = Adt2) Alors AST

Page 112: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Annexe C

C-3

Expérimentations – Détails

TAB. 3 – Les règles conjonctives produites dans la 3ème expérimentation de BRO.

2. Les Bases départementales Les attributs et la variable à prédire de toutes les bases départementales sont

explicités dans le tableau 4.

TAB. 4 – Représentation des attributs et la classe des bases départementales.

2.1. Base ORN La base ORN contient les données du département d’Oran et représente un

échantillon de 67 994 individus réparti sur 10 localités. Nous pouvons visualiser 21 règles de prédiction épidémiologique présentées dans le tableau 5.

30 Si (VILLE = CHABAT-ELHAM Et AGE = Adt2) Alors DBT

31 Si (VILLE = AIN-TEMOUCHENT Et AGE = Adt2) Alors DBT

32 Si (VILLE = SIDI-BENADDA Et AGE = Adt2) Alors DBT

33 Si (VILLE = GDYEL Et SEXE = F Et AGE = Adt2) Alors DBT

34 Si (VILLE = GDYEL Et SEXE = M Et AGE = Adt2) Alors AST

Attribut Signification Valeurs possibles

X1 : MOIS La période choisie est le mois calendaire

01 (Janvier), .., 12 (Décembre).

X4 : CLIMAT Le climat par rapport, principalement à l’humidité

H-Elev (Humidité élevée), H-Moy (Humidité moyenne), Sec (Humidité Faible)

X5 : PROXIMITE_MER La proximité de la localisation par rapport à la mer

Intérieur, Côtière

X6 : SEXE Le sexe du patient M : Masculin, F : Féminin

X7 : AGE L’âge du patient donné en tranches

Enf (<=16 ans) Adt1 (entre 16 et 40 ans), Adt2 (entre 41 et 65 ans) et Agé (>65 ans).

Y : CLASSE_THERAP C’est la classe de la maladie à prédire

AST (Asthme), DBT (Diabète) et DBT-HTA (Diabète-Hypertension artérielle).

1 Si (AGE = Agé) Alors DBT-HTA

2 Si (AGE = Adt1) Alors AST

3 Si (AGE = Enf) Alors AST

4 Si (CLIMAT = Elevée Et AGE = Adt2) Alors AST

5 Si (PROXIMITE_MER = Intérieure Et CLIMAT = Sec Et SEXE = M Et AGE = Adt2) Alors AST

6 Si (PROXIMITE_MER = Intérieure Et CLIMAT = Sec Et SEXE = F Et AGE = Adt2) Alors DBT

7 Si (CLIMAT = Moyenne Et SEXE = M Et AGE = Adt2) Alors DBT

8 Si (PROXIMITE_MER = Côtière Et CLIMAT = Moyenne Et SEXE = F Et AGE = Adt2) Alors DBT

Page 113: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Annexe C

C-4

Expérimentations – Détails

TAB. 5 – Les règles conjonctives produites d’ORN.

2.2. Base SBA La base SBA contient les données du département de Sidi Bel Abbes et

représente un échantillon de 17 758 individus réparti sur 2 localités. Nous pouvons visualiser 6 règles de prédiction épidémiologique présentées dans le tableau 6.

TAB. 6 – Les règles conjonctives produites de SBA.

2.3. Base ATM La base ATM contient les données du département d’Ain Témouchent et

représente un échantillon de 28 475 individus réparti sur 10 localités. Nous pouvons visualiser 40 règles de prédiction épidémiologique présentées dans le tableau 7.

9 Si (MOIS = 04 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

10 Si (MOIS = 01 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

11 Si (MOIS = 11 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

12 Si (MOIS = 12 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

13 Si (MOIS = 10 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

14 Si (MOIS = 07 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

15 Si (MOIS = 02 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

16 Si (MOIS = 03 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

17 Si (MOIS = 09 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

18 Si (MOIS = 05 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

19 Si (MOIS = 08 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

20 Si (PROXIMITE_MER = Intérieure Et CLIMAT = Moyenne Et SEXE = F Et AGE = Adt2) Alors DBT

21 Si (MOIS = 06 Et PROXIMITE_MER = Côtière Et CLIMAT = Sec Et AGE = Adt2) Alors DBT

1 Si (AGE = Enf) Alors AST

2 Si (AGE = Adt1) Alors AST

3 Si (SEXE = M Et AGE = Agé) Alors DBT-HTA

4 Si (SEXE = F Et AGE = Agé) Alors DBT-HTA

5 Si (SEXE = M Et AGE = Adt2) Alors DBT

6 Si (SEXE = F Et AGE = Adt2) Alors DBT

1 Si (AGE = Agé) Alors DBT-HTA

2 Si (CLIMAT = Sec Et AGE = Adt2) Alors DBT

3 Si (CLIMAT = Moyenne Et AGE = Adt2) Alors AST

4 Si (CLIMAT = Elevée Et SEXE = F Et AGE = Adt2) Alors AST

Page 114: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Annexe C

C-5

Expérimentations – Détails

TAB. 7 – Les règles conjonctives produites d’ATM.

5 Si (MOIS = 10 Et AGE = Enf) Alors AST

6 Si (MOIS = 10 Et AGE = Adt1) Alors AST

7 Si (MOIS = 10 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

8 Si (MOIS = 12 Et AGE = Enf) Alors AST

9 Si (MOIS = 12 Et AGE = Adt1) Alors AST

10 Si (MOIS = 12 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

11 Si (MOIS = 01 Et AGE = Enf) Alors AST

12 Si (MOIS = 01 Et AGE = Adt1) Alors AST

13 Si (MOIS = 01 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

14 Si (MOIS = 07 Et AGE = Enf) Alors AST

15 Si (MOIS = 07 Et AGE = Adt1) Alors AST

16 Si (MOIS = 07 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

17 Si (MOIS = 08 Et AGE = Enf) Alors AST

18 Si (MOIS = 08 Et AGE = Adt1) Alors AST

19 Si (MOIS = 08 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

20 Si (MOIS = 09 Et AGE = Enf) Alors AST

21 Si (MOIS = 09 Et AGE = Adt1) Alors AST

22 Si (MOIS = 09 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

23 Si (MOIS = 06 Et AGE = Enf) Alors AST

24 Si (MOIS = 06 Et AGE = Adt1) Alors AST

25 Si (MOIS = 06 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

26 Si (MOIS = 02 Et AGE = Enf) Alors AST

27 Si (MOIS = 02 Et AGE = Adt1) Alors AST

28 Si (MOIS = 02 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

29 Si (MOIS = 03 Et AGE = Enf) Alors AST

30 Si (MOIS = 03 Et AGE = Adt1) Alors AST

31 Si (MOIS = 03 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

32 Si (MOIS = 11 Et AGE = Enf) Alors AST

33 Si (MOIS = 11 Et AGE = Adt1) Alors AST

34 Si (MOIS = 11 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

35 Si (MOIS = 04 Et AGE = Enf) Alors AST

36 Si (MOIS = 04 Et AGE = Adt1) Alors AST

37 Si (MOIS = 04 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

38 Si (MOIS = 05 Et AGE = Enf) Alors AST

39 Si (MOIS = 05 Et AGE = Adt1) Alors AST

40 Si (MOIS = 05 Et CLIMAT = Elevée Et SEXE = M Et AGE = Adt2) Alors AST

Page 115: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

Annexe C

C-6

Expérimentations – Détails

2.4. Base TLM La base TLM contient les données du département de Tlemcen et représente

un échantillon de 7 832 individus réparti sur 4 localités. Nous pouvons visualiser 4 règles de prédiction épidémiologique présentées dans le tableau 8.

TAB. 8 – Les règles conjonctives produites de TLM.

1 Si (AGE = Agé) Alors DBT-HTA

2 Si (AGE = Adt2) Alors DBT

3 Si (AGE = Adt1) Alors AST

4 Si (AGE = Enf) Alors AST

Page 116: Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le …theses.univ-oran1.dz/document/TH3231.pdf · Soutenue le : 31/10/2010 à la salle de

MR SABRI MOHAMMED Option :Département Informatique

Informatique & Automatique

Email : [email protected]

ENCADREUR : Dr. ATMANI Baghdad

THEME :Système d’Aide à la Distribution des Produits Pharmaceutiques en Algérie en utilisant le

Data Mining.

Le domaine de la santé publique, avec ses différents aspects et ses nombreuses branches, reste la principale préoccupation de toute la population mondiale. Nous étudions, dans ce cadre de travail, une démarche de la fouille de données dans le monde de la santé publique, où nous contribuons par l’extraction de modèles pratiques – de suivi et de surveillance des maladies chroniques – basés sur une exploitation des données réelles de ventes en détail des médicaments dans les pharmacies. Notre objectif est de concevoir un système d’aide à la distribution des produits pharmaceutiques en Algérie guidé par la fouille de données. Ce système offre une aide à la prise de décision concernant principalement l’établissement de politiques pour la planification de l’acquisition des produits pharmaceutiques par rapport à la distribution géographique de leurs utilisations. Cette distribution géographique est établie par rapport à une mesure : « aspect pathologique ».

RESUME

Fouille de données, Entrepôts de données (Data Warehouse), Extraction des connaissances à partir des données (ECD), Graphe d’induction, SIPINA, CASI, Santé publique, Epidémiologie, Pharmacie.

MOTS CLES


Top Related