Base de connaissances sur les coraux des Mascareignes

30
Base de connaissances sur les coraux des Mascareignes Identication dobjets biologiques avec IKBS et Xper2 Y. GEYNET, D. GROSSER Université de La Réunion séminaire IREMIA 22 novembre 2007 Cette présentation est sous licence Creative Commons france 2.0 (by nc nd), c.f. dernière diapositive

Transcript of Base de connaissances sur les coraux des Mascareignes

Page 1: Base de connaissances sur les coraux des Mascareignes

Base de connaissances sur lescoraux des Mascareignes

Identification d’objets biologiquesavec IKBS et Xper2

Y. GEYNET, D. GROSSER

U n i v e r s i t é d e L a   R é u n i o n

séminaire IREMIA – 22 novembre 2007

Cette présentation est sous licence Creative Commons france 2.0 (by nc nd), c.f. dernière diapositive

Page 2: Base de connaissances sur les coraux des Mascareignes

Au menu

1. Projet BC coraux des Mascareignes‣ Histoire‣ Les objectifs‣ Site Web‣ Pourquoi une base de connaissances ?

2. Identification‣ L’identification en biologie‣ Les arbres de décision‣ Les bases de connaissances

3. Perspectives

Yannick Geynet, David Grosser cc by-nc-nd 2007

2 / 30

Page 3: Base de connaissances sur les coraux des Mascareignes

• Pour cataloguer, suivre, gérer et préserver la biodiversité, nous avons besoin de nommer les spécimens

• Les systématiciens savent comment nommer, classer et identifier les spécimens

• Hélas, la discipline “systématique” est en perte de vitesse depuis de nombreuses années : un savoir essentiel risque d’être perdu

Les systématiciens représententune espèce en voie de disparition !

Histoire1. Projet Coraux

Yannick Geynet, David Grosser cc by-nc-nd 2007

3 / 30

Page 4: Base de connaissances sur les coraux des Mascareignes

• (re) Créer des associations, des organismes, des financements, etc> IFB (2000), appels à projets %ançais et européens

• Ajouter/renforcer des cours de systématique dans les cursus de biologie> Master/SEP Paris 6 (2002/03)

• ...

• Utiliser l’informatique pour partager/transmettre une partie des connaissances des systématiciens

1994 > N. Conruyt est recruté à l’IREMIA et imagine avec P. Gigord le programme “Valorisation des bases de données scientifiques”1995 > N. Conruyt rencontre G. Faure, expert systématicien des Scléractiniaires : naissance du projet (idée de G. Ancel & P. Gigord)1996 > D. Grosser se lance dans une thèse : débuts d’IKBS1997 > Y. Geynet est recruté sur le projet en tant qu’objecteur de conscience

Histoire1. Projet Coraux

Yannick Geynet, David Grosser cc by-nc-nd 2007

4 / 30

Page 5: Base de connaissances sur les coraux des Mascareignes

• 1996-97 Phase I - financements UniversitéPrototype (Poci)opora)

• 1998-01 Phase II - financements Région + Université4 familles 13 genres 36 espèces (20%) Astrocoeniidae, Poci)oporidae, Fungiidae, Siderastreidae

• 2004-07 Phase III - financements Europe/Etat/Région + Université4 familles 25 genres 108 espèces (59%) Poritidae, Faviidae, Acropora, Mussidae + Scléractiniaires

• 2008 - ? Phase IV - ?5 familles 16 genres 38 espèces (21%)Montipora, Agariciidae, Oculiniidae, Pectiniidae, Caryophy)iidae, Dendrophy)iidae, (... ?)

Histoire1. Projet Coraux

Yannick Geynet, David Grosser cc by-nc-nd 2007

5 / 30

Page 6: Base de connaissances sur les coraux des Mascareignes

1. Développer des outils génériques de construction de BC> IKBS (IREMIA) et XPER2 (LIS)

2. Réaliser une BC sur les coraux des Mascareignes (connaissances liée à la systématique des Scléractiniaires)> modèles IKBS et Xper2 + liste des espèces

3. Valoriser et diffuser les résultats de ce travail vers des publics différents (chercheurs, décideurs, éducation, grand public)> portail Web http://coraux.univ-reunion.%

Les objectifs1. Projet Coraux

Yannick Geynet, David Grosser cc by-nc-nd 2007

6 / 30

Page 7: Base de connaissances sur les coraux des Mascareignes

• Données encyclopédiques : biologie (anatomie, nutrition, reproduction, ...), classification, localisation, protection, etc.

• Services : actualités (RSS), Clefs ID, documents à télécharger, annuaire, galeries, etc.

• Les contenus en Fr et En > fin 2007

D E M O

Le site Web : coraux.univ-reunion.%1. Projet Coraux

Yannick Geynet, David Grosser cc by-nc-nd 2007

7 / 30

Page 8: Base de connaissances sur les coraux des Mascareignes

• La connaissance évolue : les taxons ne sont pas stables

• Les caractères discriminants ne sont pas toujours bien clairs pour chaque taxon, surtout au niveau générique et spécifique> l’usage d’une approche purement déductive(l’intention > connaissance) est difficile> on utilise donc aussi une approche inductive(connaissance < l’extension)

1. Projet Coraux Pourquoi une BC ?

Genre

Espèce

Individus

déduction

intention

extension

induction

Yannick Geynet, David Grosser cc by-nc-nd 2007

8 / 30

Page 9: Base de connaissances sur les coraux des Mascareignes

L’identification en biologie

• Les arbres de décision

• Les Bases de Connaissances

2. Identification

Yannick Geynet, David Grosser cc by-nc-nd 2007

9 / 30

Page 10: Base de connaissances sur les coraux des Mascareignes

• Identifier : associer un objet inconnu à un concept pré-existant, afin de déterminer sa nature.

• préalable indispensable à un grand nombre de travaux en biologie :- épidémiologie, génétique, écologie.

• Problème souvent difficile (Lebbe 1991)- nombre considérable de concepts (plusieurs millions)

Affiner le classement de l’objet dans les hiérarchies préexistantes.

Hypothèse sur l’objet d’étude

Yannick Geynet, David Grosser cc by-nc-nd 2007

10 / 30

2.1 L’identification en biologie

Page 11: Base de connaissances sur les coraux des Mascareignes

2.1 L’identification en biologie

• Difficiles à conserver vivants : on travaille sur des squelettes. Difficile à observer.

• Classification “floues”, pas stable, pas toujours très cohérentes.

• Organismes coloniaux et polymorphes.

• Variabilité intra-spécifique et intra-coloniale.

Yannick Geynet, David Grosser cc by-nc-nd 2007

11 / 30

Les coraux

Page 12: Base de connaissances sur les coraux des Mascareignes

2.1 L’identification en biologie

• Méthode synthétique et méthode analytique

• Synthétique : identification par observation globale sans détailler les caractéristiques.- nécessite expérience, intuition.- raisonnement difficile à expliquer

• Analytique : comparaison de la description de l’individu aux concepts

Approche mixte : synthétique puis analytique

Yannick Geynet, David Grosser cc by-nc-nd 2007

12 / 30

Méthodes

Page 13: Base de connaissances sur les coraux des Mascareignes

• Deux variantes :

• La discrimination- monothétique (un seul critère)- clefs d’identification ou clefs dichotomiques

• La correspondance (matching)- polythétique (plusieurs critères). - mesure de ressemblance (similarité)

Yannick Geynet, David Grosser cc by-nc-nd 2007

13 / 30

Méthodes analytiques

2.1 L’identification en biologie

Page 14: Base de connaissances sur les coraux des Mascareignes

• Années 70 : clefs dichotomiques, tableaux de données (Pankhurst, Dallwitz, Payne) numériques complets.

• Années 80 : langage DELTA (Dallwitz). Représentation de connaissances en systématique.

• Logiciels : Pankey, Confor, Intkey, Makey, etc.

Yannick Geynet, David Grosser cc by-nc-nd 2007

14 / 30

I.A.O. Identification Assistée par Ordinateur2.1 L’identification en biologie

Page 15: Base de connaissances sur les coraux des Mascareignes

• Les méthodes sont très nombreuses :

• méthodes de discrimination (analyse discriminante)

• arbre de décision (apprentissage)- CART (Breiman 1984)- ID3 (Quinlan 1986)- C4.5 (Quinlan 1992)- ...

Yannick Geynet, David Grosser cc by-nc-nd 2007

15 / 30

En analyse de données et apprentissage2.1 L’identification en biologie

Page 16: Base de connaissances sur les coraux des Mascareignes

• L’identification en biologie

Les arbres de décision

• Les Bases de Connaissances

Yannick Geynet, David Grosser cc by-nc-nd 2007

16 / 30

2. Identification

Page 17: Base de connaissances sur les coraux des Mascareignes

• Données pour construire un arbre de décision binaire

• A partir d’un ensemble O ={X1, ..., Xn} d’individus : ensemble d’apprentissage

• Les individus sont décrits par des attributs A = {A1, ..., Ap}. Attributs typés et domaine de valeurs.

• et d’une partition en k classes {C1, ..., Ck} Yannick Geynet, David Grosser cc by-nc-nd 2007

17 / 30

Données2.2 Les arbres de décision

Page 18: Base de connaissances sur les coraux des Mascareignes

• Méthode analytique, monothétique

• Arbre de décision construit par application récursive de :

1. Fonction d’arrêt. Noeud terminal. Classe la plus probable (fréquence)

2. Fonction de sélection. Meilleur descripteur permettant de créer une partition optimale des cas. Pouvoir discriminant (Gain d’information, Gini index, Sokal & Michener, etc.)

3. Fonction de partionnement. L’ensemble des cas est découpés en sous-ensemble disjoints.

• Techniques d’élagage

Yannick Geynet, David Grosser cc by-nc-nd 2007

18 / 30

Principes2.2 Les arbres de décision

Page 19: Base de connaissances sur les coraux des Mascareignes

Yannick Geynet, David Grosser cc by-nc-nd 2007

19 / 30

Exemple2.2 Les arbres de décision

Page 20: Base de connaissances sur les coraux des Mascareignes

• SI [Température < 38 = oui] et [maux de gorge = non] ALORS Bonne santé

• SI [Température < 38 = oui] et [maux de gorge = oui] ALORS Malade

• SI [Température < 38 = non] ALORS malade

fort pouvoir explicatif de la méthode

Yannick Geynet, David Grosser cc by-nc-nd 2007

20 / 30

Règles de décision2.2 Les arbres de décision

Page 21: Base de connaissances sur les coraux des Mascareignes

• Pas de “connaissances de fond” du domaine (Background knowledge)

• Arbres statiques

• Typage faible des descripteurs et des valeurs

• Pas de relations de dépendances entre descripteurs

• Pas de connaissances stratégiques (pondération)

• Identification k classes non hiérarchisées

Bases de Connaissances

Yannick Geynet, David Grosser cc by-nc-nd 2007

21 / 30

Limites2.2 Les arbres de décision

Page 22: Base de connaissances sur les coraux des Mascareignes

• L’identification en biologie

• Les arbres de décision

Les Bases de Connaissances

Yannick Geynet, David Grosser cc by-nc-nd 2007

22 / 30

2. Identification

Page 23: Base de connaissances sur les coraux des Mascareignes

Base de connaissances

processusitératif

Modèle stable

Base de cas “complète”

+Données contextuelles

IdentificationsClassifications

Traitement Algo. IA

3. Validation

2. Descriptions des spécimens (cas)

1. Modèle descriptif

Yannick Geynet, David Grosser cc by-nc-nd 2007

23 / 30

2.3 Les bases de connaissances

Page 24: Base de connaissances sur les coraux des Mascareignes

Modèle descriptif

Un cas

ValuesObject

Attributes

textual

taxonomicnumerical symbolic

Yannick Geynet, David Grosser cc by-nc-nd 2007

24 / 30

2.3 Les bases de connaissances

Page 25: Base de connaissances sur les coraux des Mascareignes

Clefs d’identification dynamique

Arbre d’identification des familles

Arbre des genres

Yannick Geynet, David Grosser cc by-nc-nd 2007

25 / 30

2.3 Les bases de connaissances

Page 26: Base de connaissances sur les coraux des Mascareignes

• Approche monothétique

• Faible tolérance aux erreurs (réponse erronée)

• Problème des attributs continus (valeur seuil)

Yannick Geynet, David Grosser cc by-nc-nd 2007

26 / 30

2.3 Les bases de connaissancesLimites des arbres d ’identification

Page 27: Base de connaissances sur les coraux des Mascareignes

• Méthode analytique polythétique

• de type k-plus proche voisins

• Comparaison des individus (mesure de similarité)

• Approche globale, fonctionne sur une description partielle

• Assez peu explicative

Yannick Geynet, David Grosser cc by-nc-nd 2007

27 / 30

2.3 Les bases de connaissancesRaisonnement à partir de cas (RàPC ou CBR)

Page 28: Base de connaissances sur les coraux des Mascareignes

Identification multi-critères : algo. type k + proches voisins

RàPC

Yannick Geynet, David Grosser cc by-nc-nd 2007

28 / 30

2.3 Les bases de connaissancesRaisonnement à partir de cas (RàPC ou CBR)

Page 29: Base de connaissances sur les coraux des Mascareignes

• Base de connaissances sur les coraux des Mascareignes- lancer la phase IV > terminer la modélisation des familles- étendre au Sud-Ouest de l’océan Indien- revoir/mettre à jour les classifications- lier ce travail avec d’autres (monitoring > COREMO, gestion de la biodiversité > SI Biodiv d’ETIC, CoralBase, etc...)- etc.

• IKBS- nouvelle interface d’identification en ligne (client/serveur)- Construire un système d’identification hybride, couplant AD et RàPC- Ontologie des coraux sur la base des travaux du Web sémantique (OWL)

Yannick Geynet cc by-nc-nd 2007

3. Perspectives

Yannick Geynet, David Grosser cc by-nc-nd 2007

29 / 30

Page 30: Base de connaissances sur les coraux des Mascareignes

CC Creative Commonshttp://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Vous êtes libres de reproduire, distribuer et communiquer cette création au public selon les conditions suivantes :

À chaque réutilisation ou distribution, vous devez faire apparaître clairement aux autresles conditions contractuelles de mise à disposition de cette création.

(by) Paternité : Vous devez citer le nom de l'auteur original.

(nd) Pas de Modification : Vous n'avez pas le droit de modifier,de transformer ou d'adapter cette création.

(nc) Pas d'Utilisation Commerciale : Vous n'avez pas le droit d'utiliser cette création à des fins commerciales.

Si vous désirez utiliser cette présentation sous d’autres conditions, merci de me contacter : Yannick GEYNET – contact @ y-gey.net

by:

=

Yannick Geynet, David Grosser cc by-nc-nd 2007

30 / 30