Download - Base de connaissances sur les coraux des Mascareignes

Transcript
Page 1: Base de connaissances sur les coraux des Mascareignes

Base de connaissances sur lescoraux des Mascareignes

Identification d’objets biologiquesavec IKBS et Xper2

Y. GEYNET, D. GROSSER

U n i v e r s i t é d e L a   R é u n i o n

séminaire IREMIA – 22 novembre 2007

Cette présentation est sous licence Creative Commons france 2.0 (by nc nd), c.f. dernière diapositive

Page 2: Base de connaissances sur les coraux des Mascareignes

Au menu

1. Projet BC coraux des Mascareignes‣ Histoire‣ Les objectifs‣ Site Web‣ Pourquoi une base de connaissances ?

2. Identification‣ L’identification en biologie‣ Les arbres de décision‣ Les bases de connaissances

3. Perspectives

Yannick Geynet, David Grosser cc by-nc-nd 2007

2 / 30

Page 3: Base de connaissances sur les coraux des Mascareignes

• Pour cataloguer, suivre, gérer et préserver la biodiversité, nous avons besoin de nommer les spécimens

• Les systématiciens savent comment nommer, classer et identifier les spécimens

• Hélas, la discipline “systématique” est en perte de vitesse depuis de nombreuses années : un savoir essentiel risque d’être perdu

Les systématiciens représententune espèce en voie de disparition !

Histoire1. Projet Coraux

Yannick Geynet, David Grosser cc by-nc-nd 2007

3 / 30

Page 4: Base de connaissances sur les coraux des Mascareignes

• (re) Créer des associations, des organismes, des financements, etc> IFB (2000), appels à projets %ançais et européens

• Ajouter/renforcer des cours de systématique dans les cursus de biologie> Master/SEP Paris 6 (2002/03)

• ...

• Utiliser l’informatique pour partager/transmettre une partie des connaissances des systématiciens

1994 > N. Conruyt est recruté à l’IREMIA et imagine avec P. Gigord le programme “Valorisation des bases de données scientifiques”1995 > N. Conruyt rencontre G. Faure, expert systématicien des Scléractiniaires : naissance du projet (idée de G. Ancel & P. Gigord)1996 > D. Grosser se lance dans une thèse : débuts d’IKBS1997 > Y. Geynet est recruté sur le projet en tant qu’objecteur de conscience

Histoire1. Projet Coraux

Yannick Geynet, David Grosser cc by-nc-nd 2007

4 / 30

Page 5: Base de connaissances sur les coraux des Mascareignes

• 1996-97 Phase I - financements UniversitéPrototype (Poci)opora)

• 1998-01 Phase II - financements Région + Université4 familles 13 genres 36 espèces (20%) Astrocoeniidae, Poci)oporidae, Fungiidae, Siderastreidae

• 2004-07 Phase III - financements Europe/Etat/Région + Université4 familles 25 genres 108 espèces (59%) Poritidae, Faviidae, Acropora, Mussidae + Scléractiniaires

• 2008 - ? Phase IV - ?5 familles 16 genres 38 espèces (21%)Montipora, Agariciidae, Oculiniidae, Pectiniidae, Caryophy)iidae, Dendrophy)iidae, (... ?)

Histoire1. Projet Coraux

Yannick Geynet, David Grosser cc by-nc-nd 2007

5 / 30

Page 6: Base de connaissances sur les coraux des Mascareignes

1. Développer des outils génériques de construction de BC> IKBS (IREMIA) et XPER2 (LIS)

2. Réaliser une BC sur les coraux des Mascareignes (connaissances liée à la systématique des Scléractiniaires)> modèles IKBS et Xper2 + liste des espèces

3. Valoriser et diffuser les résultats de ce travail vers des publics différents (chercheurs, décideurs, éducation, grand public)> portail Web http://coraux.univ-reunion.%

Les objectifs1. Projet Coraux

Yannick Geynet, David Grosser cc by-nc-nd 2007

6 / 30

Page 7: Base de connaissances sur les coraux des Mascareignes

• Données encyclopédiques : biologie (anatomie, nutrition, reproduction, ...), classification, localisation, protection, etc.

• Services : actualités (RSS), Clefs ID, documents à télécharger, annuaire, galeries, etc.

• Les contenus en Fr et En > fin 2007

D E M O

Le site Web : coraux.univ-reunion.%1. Projet Coraux

Yannick Geynet, David Grosser cc by-nc-nd 2007

7 / 30

Page 8: Base de connaissances sur les coraux des Mascareignes

• La connaissance évolue : les taxons ne sont pas stables

• Les caractères discriminants ne sont pas toujours bien clairs pour chaque taxon, surtout au niveau générique et spécifique> l’usage d’une approche purement déductive(l’intention > connaissance) est difficile> on utilise donc aussi une approche inductive(connaissance < l’extension)

1. Projet Coraux Pourquoi une BC ?

Genre

Espèce

Individus

déduction

intention

extension

induction

Yannick Geynet, David Grosser cc by-nc-nd 2007

8 / 30

Page 9: Base de connaissances sur les coraux des Mascareignes

L’identification en biologie

• Les arbres de décision

• Les Bases de Connaissances

2. Identification

Yannick Geynet, David Grosser cc by-nc-nd 2007

9 / 30

Page 10: Base de connaissances sur les coraux des Mascareignes

• Identifier : associer un objet inconnu à un concept pré-existant, afin de déterminer sa nature.

• préalable indispensable à un grand nombre de travaux en biologie :- épidémiologie, génétique, écologie.

• Problème souvent difficile (Lebbe 1991)- nombre considérable de concepts (plusieurs millions)

Affiner le classement de l’objet dans les hiérarchies préexistantes.

Hypothèse sur l’objet d’étude

Yannick Geynet, David Grosser cc by-nc-nd 2007

10 / 30

2.1 L’identification en biologie

Page 11: Base de connaissances sur les coraux des Mascareignes

2.1 L’identification en biologie

• Difficiles à conserver vivants : on travaille sur des squelettes. Difficile à observer.

• Classification “floues”, pas stable, pas toujours très cohérentes.

• Organismes coloniaux et polymorphes.

• Variabilité intra-spécifique et intra-coloniale.

Yannick Geynet, David Grosser cc by-nc-nd 2007

11 / 30

Les coraux

Page 12: Base de connaissances sur les coraux des Mascareignes

2.1 L’identification en biologie

• Méthode synthétique et méthode analytique

• Synthétique : identification par observation globale sans détailler les caractéristiques.- nécessite expérience, intuition.- raisonnement difficile à expliquer

• Analytique : comparaison de la description de l’individu aux concepts

Approche mixte : synthétique puis analytique

Yannick Geynet, David Grosser cc by-nc-nd 2007

12 / 30

Méthodes

Page 13: Base de connaissances sur les coraux des Mascareignes

• Deux variantes :

• La discrimination- monothétique (un seul critère)- clefs d’identification ou clefs dichotomiques

• La correspondance (matching)- polythétique (plusieurs critères). - mesure de ressemblance (similarité)

Yannick Geynet, David Grosser cc by-nc-nd 2007

13 / 30

Méthodes analytiques

2.1 L’identification en biologie

Page 14: Base de connaissances sur les coraux des Mascareignes

• Années 70 : clefs dichotomiques, tableaux de données (Pankhurst, Dallwitz, Payne) numériques complets.

• Années 80 : langage DELTA (Dallwitz). Représentation de connaissances en systématique.

• Logiciels : Pankey, Confor, Intkey, Makey, etc.

Yannick Geynet, David Grosser cc by-nc-nd 2007

14 / 30

I.A.O. Identification Assistée par Ordinateur2.1 L’identification en biologie

Page 15: Base de connaissances sur les coraux des Mascareignes

• Les méthodes sont très nombreuses :

• méthodes de discrimination (analyse discriminante)

• arbre de décision (apprentissage)- CART (Breiman 1984)- ID3 (Quinlan 1986)- C4.5 (Quinlan 1992)- ...

Yannick Geynet, David Grosser cc by-nc-nd 2007

15 / 30

En analyse de données et apprentissage2.1 L’identification en biologie

Page 16: Base de connaissances sur les coraux des Mascareignes

• L’identification en biologie

Les arbres de décision

• Les Bases de Connaissances

Yannick Geynet, David Grosser cc by-nc-nd 2007

16 / 30

2. Identification

Page 17: Base de connaissances sur les coraux des Mascareignes

• Données pour construire un arbre de décision binaire

• A partir d’un ensemble O ={X1, ..., Xn} d’individus : ensemble d’apprentissage

• Les individus sont décrits par des attributs A = {A1, ..., Ap}. Attributs typés et domaine de valeurs.

• et d’une partition en k classes {C1, ..., Ck} Yannick Geynet, David Grosser cc by-nc-nd 2007

17 / 30

Données2.2 Les arbres de décision

Page 18: Base de connaissances sur les coraux des Mascareignes

• Méthode analytique, monothétique

• Arbre de décision construit par application récursive de :

1. Fonction d’arrêt. Noeud terminal. Classe la plus probable (fréquence)

2. Fonction de sélection. Meilleur descripteur permettant de créer une partition optimale des cas. Pouvoir discriminant (Gain d’information, Gini index, Sokal & Michener, etc.)

3. Fonction de partionnement. L’ensemble des cas est découpés en sous-ensemble disjoints.

• Techniques d’élagage

Yannick Geynet, David Grosser cc by-nc-nd 2007

18 / 30

Principes2.2 Les arbres de décision

Page 19: Base de connaissances sur les coraux des Mascareignes

Yannick Geynet, David Grosser cc by-nc-nd 2007

19 / 30

Exemple2.2 Les arbres de décision

Page 20: Base de connaissances sur les coraux des Mascareignes

• SI [Température < 38 = oui] et [maux de gorge = non] ALORS Bonne santé

• SI [Température < 38 = oui] et [maux de gorge = oui] ALORS Malade

• SI [Température < 38 = non] ALORS malade

fort pouvoir explicatif de la méthode

Yannick Geynet, David Grosser cc by-nc-nd 2007

20 / 30

Règles de décision2.2 Les arbres de décision

Page 21: Base de connaissances sur les coraux des Mascareignes

• Pas de “connaissances de fond” du domaine (Background knowledge)

• Arbres statiques

• Typage faible des descripteurs et des valeurs

• Pas de relations de dépendances entre descripteurs

• Pas de connaissances stratégiques (pondération)

• Identification k classes non hiérarchisées

Bases de Connaissances

Yannick Geynet, David Grosser cc by-nc-nd 2007

21 / 30

Limites2.2 Les arbres de décision

Page 22: Base de connaissances sur les coraux des Mascareignes

• L’identification en biologie

• Les arbres de décision

Les Bases de Connaissances

Yannick Geynet, David Grosser cc by-nc-nd 2007

22 / 30

2. Identification

Page 23: Base de connaissances sur les coraux des Mascareignes

Base de connaissances

processusitératif

Modèle stable

Base de cas “complète”

+Données contextuelles

IdentificationsClassifications

Traitement Algo. IA

3. Validation

2. Descriptions des spécimens (cas)

1. Modèle descriptif

Yannick Geynet, David Grosser cc by-nc-nd 2007

23 / 30

2.3 Les bases de connaissances

Page 24: Base de connaissances sur les coraux des Mascareignes

Modèle descriptif

Un cas

ValuesObject

Attributes

textual

taxonomicnumerical symbolic

Yannick Geynet, David Grosser cc by-nc-nd 2007

24 / 30

2.3 Les bases de connaissances

Page 25: Base de connaissances sur les coraux des Mascareignes

Clefs d’identification dynamique

Arbre d’identification des familles

Arbre des genres

Yannick Geynet, David Grosser cc by-nc-nd 2007

25 / 30

2.3 Les bases de connaissances

Page 26: Base de connaissances sur les coraux des Mascareignes

• Approche monothétique

• Faible tolérance aux erreurs (réponse erronée)

• Problème des attributs continus (valeur seuil)

Yannick Geynet, David Grosser cc by-nc-nd 2007

26 / 30

2.3 Les bases de connaissancesLimites des arbres d ’identification

Page 27: Base de connaissances sur les coraux des Mascareignes

• Méthode analytique polythétique

• de type k-plus proche voisins

• Comparaison des individus (mesure de similarité)

• Approche globale, fonctionne sur une description partielle

• Assez peu explicative

Yannick Geynet, David Grosser cc by-nc-nd 2007

27 / 30

2.3 Les bases de connaissancesRaisonnement à partir de cas (RàPC ou CBR)

Page 28: Base de connaissances sur les coraux des Mascareignes

Identification multi-critères : algo. type k + proches voisins

RàPC

Yannick Geynet, David Grosser cc by-nc-nd 2007

28 / 30

2.3 Les bases de connaissancesRaisonnement à partir de cas (RàPC ou CBR)

Page 29: Base de connaissances sur les coraux des Mascareignes

• Base de connaissances sur les coraux des Mascareignes- lancer la phase IV > terminer la modélisation des familles- étendre au Sud-Ouest de l’océan Indien- revoir/mettre à jour les classifications- lier ce travail avec d’autres (monitoring > COREMO, gestion de la biodiversité > SI Biodiv d’ETIC, CoralBase, etc...)- etc.

• IKBS- nouvelle interface d’identification en ligne (client/serveur)- Construire un système d’identification hybride, couplant AD et RàPC- Ontologie des coraux sur la base des travaux du Web sémantique (OWL)

Yannick Geynet cc by-nc-nd 2007

3. Perspectives

Yannick Geynet, David Grosser cc by-nc-nd 2007

29 / 30

Page 30: Base de connaissances sur les coraux des Mascareignes

CC Creative Commonshttp://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Vous êtes libres de reproduire, distribuer et communiquer cette création au public selon les conditions suivantes :

À chaque réutilisation ou distribution, vous devez faire apparaître clairement aux autresles conditions contractuelles de mise à disposition de cette création.

(by) Paternité : Vous devez citer le nom de l'auteur original.

(nd) Pas de Modification : Vous n'avez pas le droit de modifier,de transformer ou d'adapter cette création.

(nc) Pas d'Utilisation Commerciale : Vous n'avez pas le droit d'utiliser cette création à des fins commerciales.

Si vous désirez utiliser cette présentation sous d’autres conditions, merci de me contacter : Yannick GEYNET – contact @ y-gey.net

by:

=

Yannick Geynet, David Grosser cc by-nc-nd 2007

30 / 30