Réalisé à l’Inra de Sophia-Antipolis . U.M.R. 1112 Biologie des populations en intéraction

36
24 Aout 2006 R.Boll, N.M ezencev 1 Concepts de gestion et d'exploitation d'une base de données générique de biologie des populations Réalisé à l’Inra de Sophia-Antipolis. U.M.R. 1112 Biologie des populations en intéraction U.R.I.H. Unité de recherche intégrée en horticulture

description

Concepts de gestion et d' exploitation d'une base de données générique de biologie des populations. Réalisé à l’Inra de Sophia-Antipolis . U.M.R. 1112 Biologie des populations en intéraction U.R.I.H . Unité de recherche intégrée en horticulture. Q’est ce qu’un Data-mart:. - PowerPoint PPT Presentation

Transcript of Réalisé à l’Inra de Sophia-Antipolis . U.M.R. 1112 Biologie des populations en intéraction

24 Aout 2006 R.Boll, N.Mezencev

1

Concepts de gestion et d'exploitation d'une base de

données générique de biologie des populations

Réalisé à l’Inra de Sophia-Antipolis.

U.M.R. 1112 Biologie des populations en intéraction

U.R.I.H. Unité de recherche intégrée en horticulture

24 Aout 2006 R.Boll, N.Mezencev

2

Q’est ce qu’un Data-mart:• Un data-mart est un magasin de données.

• C’ est une base de données décisionnelle structurée et formatée en fonction d'un métier précis ou d'un usage particulier.

• L'information y est préparée pour être « consommée » telle quelle.

24 Aout 2006 R.Boll, N.Mezencev

3

C’est l’ensemble des…

Algorithmes et méthodes Destinées à l’exploration et à l’analyse

De grandes bases de données Sans à priori En vue de détecter dans ces données

Des Règles Des tendances inconnues Des structures particulières

Restituant de façon concise l’essentiel de l’information utile

Pour l’aide à la décisionStéphane Tuffery(2005)

Le data mining :

24 Aout 2006 R.Boll, N.Mezencev

4

• Le Data Mining effectue l’analyse exploratoire des données (On recherche un ordonnancement dans un flot de données collecté avec peu d’à priori).

• et non plus seulement une analyse confirmatoire (Analyse d’un essai planifié avec

l’objectif de prouver un phénomène).

Le data mining (Suite)

24 Aout 2006 R.Boll, N.Mezencev

5

Pourquoi faire du Data Mining ?

• Les volumes de données sont trop importants pour un traitement à l’aide de techniques d’analyses classiques ;

• L’utilisateur final n’est pas, en général statisticien de métier ;

24 Aout 2006 R.Boll, N.Mezencev

6

Objectifs du stage :

Renforcer le schéma conceptuel de la base de donnée BPI existante.

Développer une interface web générique avec cette base répondant aux requêtes usuelles (data mining).

24 Aout 2006 R.Boll, N.Mezencev

7

La base de données BPI :

Base SQL (structured Query Language) hébergée par le serveur UNIX du centre.

Constituée de 42 tables créées au fil des besoins.

Regroupe 97 Mo de données (1,2 millions

d’enregistrements).

24 Aout 2006 R.Boll, N.Mezencev

8

Les choix logiciels : La base de donnée MySQL 4.1.13_max

La gestion administrative du SGBD (Systeme de gestion de bases de données) est réalisée avec phpMyAdmin 2.6.3_pl1

Le requêtage est réalisé en SQL 3

Les langages de programmation choisis sont le PHP 4.0 et le HTML, pour des raisons de généricité

24 Aout 2006 R.Boll, N.Mezencev

9

Le nouveau modèle relationnel :

Dérive relationnelles de la base d’origine :

Analyse des blocages fonctionnels par la méthode

Merise assistée par le logiciel Power AMC.

Nouveau ‘modèle physique de données’ aboutissant à une base BPI2, conservant les

informations contenues dans les tables d’origine.

24 Aout 2006 R.Boll, N.Mezencev

10

Principes pour la reconstitution de la base : 1. Les données doivent occuper le moins de place

possible…mais doivent cependant laisser une liberté de codage et de commentaires suffisante à l’utilisateur.

2. La redondance d’information est interdite.

3. Les mises à jour/suppression de données doivent laisser la base intègre.

4. La recherche d’information doit être sécurisée et rapide.

5. Les tables ne doivent représenter que des données de même nature.

24 Aout 2006 R.Boll, N.Mezencev

11

Le Modèle Conceptuel de Données : Regroupement au sein d’entités homogènes des attributs indispensables  pour caractériser:

Un projet Un essai Une collecte Un site Les informations agronomiques correspondant à l’essai réalisé Le matériel végétal travaillé Les variables mesurées Le plan du dispositif. Les événements liés à la temporalité. Les éléments de constitution du masque de saisie. Une table de correspondance entre les méthodes et les variables. La gestion des droits des utilisateurs.

24 Aout 2006 R.Boll, N.Mezencev

12

Le nouveau modèle physique de données

FK_EXPERIMENTER

FK_PARTICIPE

FK_OBS_TEMP

FK_SPATIALISER

FK_CORRESPONDRE

FK_DECRIRE

FK_DECODER

FK_MESURER

FK_COMPLETER

FK_PROVENIR

FK_DETAILLER

FK_IDENTIFIER

FK_SAISIR

FK_COMPOSER FK_IMPOSER

FK_SELECTIONNER

sites

ref_siteprod1prod2prod3prod4propriprenomtelexpltelpexplcontact1contact2telc1telc2lieu_essaiadrexplcp_adr1adr2altmerlatlongiventtyp_lutrem_sitespays

intchar(15)char(15)char(15)char(15)char(30)char(30)char(30)char(30)char(50)char(50)char(30)char(30)char(100)char(200)char(5)char(100)intdecimal(4,1)decimal(8,6)decimal(7,6)char(5)char(20)char(200)char(20)

<pk>

essais

titrerefref_siteorgannée_debutnblignbcolinterColinterLigbiounittrait_statpechantdiryquant_modever_ref_modeprotocole

char(50)intintintintintintdecimal(4,1)decimal(4,1)char(15)char(30)char(15)char(3)char(20)intchar(200)

<pk><fk1><fk2>

projects

orgNomProjetresptelfaxadrmaildesprotocolespecies

intchar(50)char(20)char(20)char(20)char(50)char(30)char(50)char(200)char(50)

<pk>

temporals

tempsrefanneerelrreltemps_abstrait1pro1dose1trait2pro2dose2trait3pro3dose3tsoladvphenopheno_rampheno_flpheno_feupheno_frclim_exceptirrigationfertil isationcommoperateur

intintintdateintintchar(30)char(30)char(30)char(30)char(30)char(30)char(30)char(30)char(30)textchar(15)char(30)char(30)char(30)char(30)char(30)char(30)char(30)char(30)char(200)char(30)

<pk><fk>

spatials

tempsref_varcoorycoorxnatvalrem_spatial

inttextintinttextdecimal(12,2)text

<fk1><fk2>

cultures

refnom_cultgenreespecevarpgrerem_cult

intchar(30)char(30)char(30)char(30)char(30)char(200)

<fk>

agronomie

refsubstrattexture_solproxi_cultant_cultmode_prodsuperserre_hauserre_hau_totser_ouvtuteurser_couvirr_modepaille_typerem_agro

intchar(30)char(30)char(30)char(30)char(30)intdecimal(2,1)decimal(2,1)char(30)decimal(2,1)char(30)char(30)char(30)char(100)

<fk>

variables_exist

ref_varcode_varsignigenre_espstadecom

textchar(11)char(70)char(30)char(30)char(60)

<pk>

methods

ref_varcultunit_obsnotatech

textchar(15)char(15)texttext

<fk>

collects

ref_popref_siteorgref_essaicode_popd_collectcollectorplantfam_plantnindgenre_esph_speciesrem_collects

intintintinttextintchar(30)char(30)char(30)intchar(30)char(30)char(100)

<pk><fk2><fk1>

mspa_orchards

tempsref_varbranche_refram_reffeu_refram_agebourg_refbranche_agepou_agepou_nbfldirtyp_bourgprofhaupou_nbfrpou_longpou_diafru_diaphenoremarquespou_refval

inttextintintintintintintintintchar(2)char(10)char(2)char(1)intintintintchar(30)char(50)intdecimal(12,2)

<fk1><fk2>

masques

nom_masquerefnom_createur

char(15)intchar(30)

<pk><fk>

dispositif

nom_masqueordre_coordcoorxcoory

char(15)intintint

<fk>

variables_masques

nom_masqueref_varnclassesordre

char(15)textintint

<fk1><fk2>

droits

refnompwddroitLdroitWdroitMorgorgLorgWorgM

integerchar(50)char(15)char(1)char(1)char(1)integerchar(1)char(1)char(1)

Power AMC

24 Aout 2006 R.Boll, N.Mezencev

14

Le menu général :[email protected]

24 Aout 2006 R.Boll, N.Mezencev

15

Vérification des droits

24 Aout 2006 R.Boll, N.Mezencev

16

Saisie du formulaire [email protected]

24 Aout 2006 R.Boll, N.Mezencev

17

Saisie du formulaire concernant le site d’essai

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

18

Saisie des paramètres de l’essai

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

19

Saisie des paramètres agronomiques :

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

20

Support végétal de l’essai

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

21

Collecte d’organismes :[email protected]

24 Aout 2006 R.Boll, N.Mezencev

22

Création du masque de saisie

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

23

Les coordonnées du masque :

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

24

Renseignement des variables :[email protected]

24 Aout 2006 R.Boll, N.Mezencev

25

saisie des valeurs spatio-temporelles

Entrée de la date d’échantillonnage

Liste des dates précédentes d’échantillonnage sur cet essai

Fourniture de quelques données temporelles

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

26

Evénements survenus entre 2 saisies :

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

27

Choix d’un masque pour la saisie des données :

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

28

Le masque de saisie :

Ici pour des données en classe

Champs de commentaires

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

29

Menu de visualisation des données de la base :

Date de début et de fin d’extraction

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

30

Choix des champs à extraire :

[email protected]

24 Aout 2006 R.Boll, N.Mezencev

31

Les tableaux de données extraites

[email protected]

Triées par variable; par date et par

coordonnées X et Y

Disponibles sous format compatible excel par E_Mail

24 Aout 2006 R.Boll, N.Mezencev

32

Le module de correction :

24 Aout 2006 R.Boll, N.Mezencev

33

Principales qualités d'un outil de Data Mining :

• Richesses analytiques d'un niveau équivalent aux outils statistiques traditionnels.

• destinés à des utilisateurs "métier" sans compétences statistiques ou informatiques particulières.

24 Aout 2006 R.Boll, N.Mezencev

34

• L'utilisateur doit pouvoir saisir ses propres paramètres.

• Les résultats fournis par l'outil doivent être clairs et compréhensibles (pas trop de termes statistiques par exemple)

• L’accès aux données doit être simple.• Ne doit pas être dédié à un domaine particulier

• Doit pouvoir résoudre des problèmes provenant de contextes différents.

Cahier des charges d'un outil de Data Mining :

24 Aout 2006 R.Boll, N.Mezencev

35

Le couplage data mining/data mart

Développement d’applications statistiques et graphiques :

Un véritable outil de data mining se doit d’etre couplé avec des outils statistiques, ceux-ci peuvent etre réalisés en php ou profiter de possibilités d’interfaçage avec des logiciels statistiques.

Développement d’outils graphiques :PHP offre une classe graphique complete

(jpgraphe) Permettant le tracé de courbes et d’histogrammes…

24 Aout 2006 R.Boll, N.Mezencev

36

Perspectives et discussion :

Extension du data mart sur des données climatiques.

L’affichage spatial ou temporel d’une observation, sous la forme d’un histogramme, d’une courbe ou de toute autre représentation.

Intégration des modèles de dénombrement existants.

Intégration de modèles prédictifs de D.D.P.

24 Aout 2006 R.Boll, N.Mezencev

37

Remerciements :• Je tiens à remercier tout d’abord, Roger Boll pour ses conseils et ses

encouragements.

• Je remercie Christine Poncet directrice de l’unité qui m’a donné l’opportunité de réaliser ce stage.

• Merci à Séverine Doise dont l’aide m’a été précieuse dans l’élaboration de l’INTRANET de l’URIH.

• Merci à Alexandre Bout qui fut notre beta testeur

• Merci à mon épouse qui m’a laissé partir pendant quatre longs mois, et à mes enfants qui cochent scupuleusement les cases du calendrier.

• Merci à tous enfin, dont les encouragements et les conseils m’ont donné envie de poursuivre mes efforts dans le domaine de l’informatique.