Base de connaissances sur les coraux des Mascareignes
Transcript of Base de connaissances sur les coraux des Mascareignes
Base de connaissances sur lescoraux des Mascareignes
Identification d’objets biologiquesavec IKBS et Xper2
Y. GEYNET, D. GROSSER
U n i v e r s i t é d e L a R é u n i o n
séminaire IREMIA – 22 novembre 2007
Cette présentation est sous licence Creative Commons france 2.0 (by nc nd), c.f. dernière diapositive
Au menu
1. Projet BC coraux des Mascareignes‣ Histoire‣ Les objectifs‣ Site Web‣ Pourquoi une base de connaissances ?
2. Identification‣ L’identification en biologie‣ Les arbres de décision‣ Les bases de connaissances
3. Perspectives
Yannick Geynet, David Grosser cc by-nc-nd 2007
2 / 30
• Pour cataloguer, suivre, gérer et préserver la biodiversité, nous avons besoin de nommer les spécimens
• Les systématiciens savent comment nommer, classer et identifier les spécimens
• Hélas, la discipline “systématique” est en perte de vitesse depuis de nombreuses années : un savoir essentiel risque d’être perdu
Les systématiciens représententune espèce en voie de disparition !
Histoire1. Projet Coraux
Yannick Geynet, David Grosser cc by-nc-nd 2007
3 / 30
• (re) Créer des associations, des organismes, des financements, etc> IFB (2000), appels à projets %ançais et européens
• Ajouter/renforcer des cours de systématique dans les cursus de biologie> Master/SEP Paris 6 (2002/03)
• ...
• Utiliser l’informatique pour partager/transmettre une partie des connaissances des systématiciens
1994 > N. Conruyt est recruté à l’IREMIA et imagine avec P. Gigord le programme “Valorisation des bases de données scientifiques”1995 > N. Conruyt rencontre G. Faure, expert systématicien des Scléractiniaires : naissance du projet (idée de G. Ancel & P. Gigord)1996 > D. Grosser se lance dans une thèse : débuts d’IKBS1997 > Y. Geynet est recruté sur le projet en tant qu’objecteur de conscience
Histoire1. Projet Coraux
Yannick Geynet, David Grosser cc by-nc-nd 2007
4 / 30
• 1996-97 Phase I - financements UniversitéPrototype (Poci)opora)
• 1998-01 Phase II - financements Région + Université4 familles 13 genres 36 espèces (20%) Astrocoeniidae, Poci)oporidae, Fungiidae, Siderastreidae
• 2004-07 Phase III - financements Europe/Etat/Région + Université4 familles 25 genres 108 espèces (59%) Poritidae, Faviidae, Acropora, Mussidae + Scléractiniaires
• 2008 - ? Phase IV - ?5 familles 16 genres 38 espèces (21%)Montipora, Agariciidae, Oculiniidae, Pectiniidae, Caryophy)iidae, Dendrophy)iidae, (... ?)
Histoire1. Projet Coraux
Yannick Geynet, David Grosser cc by-nc-nd 2007
5 / 30
1. Développer des outils génériques de construction de BC> IKBS (IREMIA) et XPER2 (LIS)
2. Réaliser une BC sur les coraux des Mascareignes (connaissances liée à la systématique des Scléractiniaires)> modèles IKBS et Xper2 + liste des espèces
3. Valoriser et diffuser les résultats de ce travail vers des publics différents (chercheurs, décideurs, éducation, grand public)> portail Web http://coraux.univ-reunion.%
Les objectifs1. Projet Coraux
Yannick Geynet, David Grosser cc by-nc-nd 2007
6 / 30
• Données encyclopédiques : biologie (anatomie, nutrition, reproduction, ...), classification, localisation, protection, etc.
• Services : actualités (RSS), Clefs ID, documents à télécharger, annuaire, galeries, etc.
• Les contenus en Fr et En > fin 2007
D E M O
Le site Web : coraux.univ-reunion.%1. Projet Coraux
Yannick Geynet, David Grosser cc by-nc-nd 2007
7 / 30
• La connaissance évolue : les taxons ne sont pas stables
• Les caractères discriminants ne sont pas toujours bien clairs pour chaque taxon, surtout au niveau générique et spécifique> l’usage d’une approche purement déductive(l’intention > connaissance) est difficile> on utilise donc aussi une approche inductive(connaissance < l’extension)
1. Projet Coraux Pourquoi une BC ?
Genre
Espèce
Individus
déduction
intention
extension
induction
Yannick Geynet, David Grosser cc by-nc-nd 2007
8 / 30
L’identification en biologie
• Les arbres de décision
• Les Bases de Connaissances
2. Identification
Yannick Geynet, David Grosser cc by-nc-nd 2007
9 / 30
• Identifier : associer un objet inconnu à un concept pré-existant, afin de déterminer sa nature.
• préalable indispensable à un grand nombre de travaux en biologie :- épidémiologie, génétique, écologie.
• Problème souvent difficile (Lebbe 1991)- nombre considérable de concepts (plusieurs millions)
Affiner le classement de l’objet dans les hiérarchies préexistantes.
Hypothèse sur l’objet d’étude
Yannick Geynet, David Grosser cc by-nc-nd 2007
10 / 30
2.1 L’identification en biologie
2.1 L’identification en biologie
• Difficiles à conserver vivants : on travaille sur des squelettes. Difficile à observer.
• Classification “floues”, pas stable, pas toujours très cohérentes.
• Organismes coloniaux et polymorphes.
• Variabilité intra-spécifique et intra-coloniale.
Yannick Geynet, David Grosser cc by-nc-nd 2007
11 / 30
Les coraux
2.1 L’identification en biologie
• Méthode synthétique et méthode analytique
• Synthétique : identification par observation globale sans détailler les caractéristiques.- nécessite expérience, intuition.- raisonnement difficile à expliquer
• Analytique : comparaison de la description de l’individu aux concepts
Approche mixte : synthétique puis analytique
Yannick Geynet, David Grosser cc by-nc-nd 2007
12 / 30
Méthodes
• Deux variantes :
• La discrimination- monothétique (un seul critère)- clefs d’identification ou clefs dichotomiques
• La correspondance (matching)- polythétique (plusieurs critères). - mesure de ressemblance (similarité)
Yannick Geynet, David Grosser cc by-nc-nd 2007
13 / 30
Méthodes analytiques
2.1 L’identification en biologie
• Années 70 : clefs dichotomiques, tableaux de données (Pankhurst, Dallwitz, Payne) numériques complets.
• Années 80 : langage DELTA (Dallwitz). Représentation de connaissances en systématique.
• Logiciels : Pankey, Confor, Intkey, Makey, etc.
Yannick Geynet, David Grosser cc by-nc-nd 2007
14 / 30
I.A.O. Identification Assistée par Ordinateur2.1 L’identification en biologie
• Les méthodes sont très nombreuses :
• méthodes de discrimination (analyse discriminante)
• arbre de décision (apprentissage)- CART (Breiman 1984)- ID3 (Quinlan 1986)- C4.5 (Quinlan 1992)- ...
Yannick Geynet, David Grosser cc by-nc-nd 2007
15 / 30
En analyse de données et apprentissage2.1 L’identification en biologie
• L’identification en biologie
Les arbres de décision
• Les Bases de Connaissances
Yannick Geynet, David Grosser cc by-nc-nd 2007
16 / 30
2. Identification
• Données pour construire un arbre de décision binaire
• A partir d’un ensemble O ={X1, ..., Xn} d’individus : ensemble d’apprentissage
• Les individus sont décrits par des attributs A = {A1, ..., Ap}. Attributs typés et domaine de valeurs.
• et d’une partition en k classes {C1, ..., Ck} Yannick Geynet, David Grosser cc by-nc-nd 2007
17 / 30
Données2.2 Les arbres de décision
• Méthode analytique, monothétique
• Arbre de décision construit par application récursive de :
1. Fonction d’arrêt. Noeud terminal. Classe la plus probable (fréquence)
2. Fonction de sélection. Meilleur descripteur permettant de créer une partition optimale des cas. Pouvoir discriminant (Gain d’information, Gini index, Sokal & Michener, etc.)
3. Fonction de partionnement. L’ensemble des cas est découpés en sous-ensemble disjoints.
• Techniques d’élagage
Yannick Geynet, David Grosser cc by-nc-nd 2007
18 / 30
Principes2.2 Les arbres de décision
Yannick Geynet, David Grosser cc by-nc-nd 2007
19 / 30
Exemple2.2 Les arbres de décision
• SI [Température < 38 = oui] et [maux de gorge = non] ALORS Bonne santé
• SI [Température < 38 = oui] et [maux de gorge = oui] ALORS Malade
• SI [Température < 38 = non] ALORS malade
fort pouvoir explicatif de la méthode
Yannick Geynet, David Grosser cc by-nc-nd 2007
20 / 30
Règles de décision2.2 Les arbres de décision
• Pas de “connaissances de fond” du domaine (Background knowledge)
• Arbres statiques
• Typage faible des descripteurs et des valeurs
• Pas de relations de dépendances entre descripteurs
• Pas de connaissances stratégiques (pondération)
• Identification k classes non hiérarchisées
Bases de Connaissances
Yannick Geynet, David Grosser cc by-nc-nd 2007
21 / 30
Limites2.2 Les arbres de décision
• L’identification en biologie
• Les arbres de décision
Les Bases de Connaissances
Yannick Geynet, David Grosser cc by-nc-nd 2007
22 / 30
2. Identification
Base de connaissances
processusitératif
Modèle stable
Base de cas “complète”
+Données contextuelles
IdentificationsClassifications
Traitement Algo. IA
3. Validation
2. Descriptions des spécimens (cas)
1. Modèle descriptif
Yannick Geynet, David Grosser cc by-nc-nd 2007
23 / 30
2.3 Les bases de connaissances
Modèle descriptif
Un cas
ValuesObject
Attributes
textual
taxonomicnumerical symbolic
Yannick Geynet, David Grosser cc by-nc-nd 2007
24 / 30
2.3 Les bases de connaissances
Clefs d’identification dynamique
Arbre d’identification des familles
Arbre des genres
Yannick Geynet, David Grosser cc by-nc-nd 2007
25 / 30
2.3 Les bases de connaissances
• Approche monothétique
• Faible tolérance aux erreurs (réponse erronée)
• Problème des attributs continus (valeur seuil)
Yannick Geynet, David Grosser cc by-nc-nd 2007
26 / 30
2.3 Les bases de connaissancesLimites des arbres d ’identification
• Méthode analytique polythétique
• de type k-plus proche voisins
• Comparaison des individus (mesure de similarité)
• Approche globale, fonctionne sur une description partielle
• Assez peu explicative
Yannick Geynet, David Grosser cc by-nc-nd 2007
27 / 30
2.3 Les bases de connaissancesRaisonnement à partir de cas (RàPC ou CBR)
Identification multi-critères : algo. type k + proches voisins
RàPC
Yannick Geynet, David Grosser cc by-nc-nd 2007
28 / 30
2.3 Les bases de connaissancesRaisonnement à partir de cas (RàPC ou CBR)
• Base de connaissances sur les coraux des Mascareignes- lancer la phase IV > terminer la modélisation des familles- étendre au Sud-Ouest de l’océan Indien- revoir/mettre à jour les classifications- lier ce travail avec d’autres (monitoring > COREMO, gestion de la biodiversité > SI Biodiv d’ETIC, CoralBase, etc...)- etc.
• IKBS- nouvelle interface d’identification en ligne (client/serveur)- Construire un système d’identification hybride, couplant AD et RàPC- Ontologie des coraux sur la base des travaux du Web sémantique (OWL)
Yannick Geynet cc by-nc-nd 2007
3. Perspectives
Yannick Geynet, David Grosser cc by-nc-nd 2007
29 / 30
CC Creative Commonshttp://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Vous êtes libres de reproduire, distribuer et communiquer cette création au public selon les conditions suivantes :
À chaque réutilisation ou distribution, vous devez faire apparaître clairement aux autresles conditions contractuelles de mise à disposition de cette création.
(by) Paternité : Vous devez citer le nom de l'auteur original.
(nd) Pas de Modification : Vous n'avez pas le droit de modifier,de transformer ou d'adapter cette création.
(nc) Pas d'Utilisation Commerciale : Vous n'avez pas le droit d'utiliser cette création à des fins commerciales.
Si vous désirez utiliser cette présentation sous d’autres conditions, merci de me contacter : Yannick GEYNET – contact @ y-gey.net
by:
€
=
Yannick Geynet, David Grosser cc by-nc-nd 2007
30 / 30