Intégration incrémentale de données (Valenciennes juin 2010)

30
Intégra(on Incrémentale de Données Basée sur les Retours U(lisateur Khalid Belhajjame Université de Manchester Royaume Uni Valenciennes 1 18 juin 2010

description

An invited talk at the University of Valenciennes-France on

Transcript of Intégration incrémentale de données (Valenciennes juin 2010)

Page 1: Intégration incrémentale de données (Valenciennes juin 2010)

Intégra(on  Incrémentale  de  Données  Basée  sur  les  Retours  U(lisateur    

Khalid Belhajjame Université de Manchester

Royaume Uni

Valenciennes   1  18  juin  2010  

Page 2: Intégration incrémentale de données (Valenciennes juin 2010)

Intégra(on  de  Données  

Chercheur  

Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?    

     Schéma        central  

PedroDB   PepSeeker   Pride   GPMDB  

Mappings  

Valenciennes   2  18  juin  2010  

Page 3: Intégration incrémentale de données (Valenciennes juin 2010)

Intégra(on  Incrémentale  de  Données  

  Intégra(on  de  Données  

–  La  spécifica(on  de  mappings  est  une  ac(vité  couteuse  qui  requière  une  connaissance  profonde  des  sources  de  données  aussi  bien  que  les  besoins  des  u(lisateurs.  

  Dataspaces:  Pay-­‐as-­‐you-­‐go  Data  Integra3on  [Franklin  et  al.  2005]  –  Réduire  le  temps  d’installa(on  du  système  d’intégra(on  de  données.    

–  Améliore  les  services  fournis  par  le  system  d’une  façon  incrémentale  en  interagissant  avec  les  u(lisateurs.  

M.  J.  Franklin,  A.  Y.  Halevy,  and  D.  Maier.  From  databases  to  dataspaces:  a  new  abstrac(on  for  informa(on  management.  SIGMOD  Record,  34(4):27–33,  2005.  

Valenciennes   3  18  juin  2010  

Page 4: Intégration incrémentale de données (Valenciennes juin 2010)

Intégra(on  Incrémentale  de  Données  

PedroDB   PepSeeker   Pride   GPMDB  

Chercheur  

Schéma  central  

Mappings  

Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?    

Bootstrap  Dataspaces  

Objec(ve:    Étudiez  l'annota(on,  la  sélec(on  et  le  raffinement  incrémental  des  mappings  

Valenciennes   4  18  juin  2010  

Page 5: Intégration incrémentale de données (Valenciennes juin 2010)

Pay-­‐as-­‐you-­‐go  Data  Integra(on  

 Nous  considérons  que  les  schémas  des  sources  et  le  schéma  central  sont  

rela(onels,  et  que  les  mappings  u(lisés  pour  peupler  les  éléments  du  schéma  

central  sont  glabal-­‐as-­‐view  de  la  forme  suivante  :

⟨r,qs⟩ r est une relation du schéma central et qs est une requête spécifiée en terme de sources.

  Une  rela(on  du  schéma  central  peut  être  associée  avec  plusieurs  mappings  

candidates  pour  sa  popula(on  :  Nous  considérons  une  configura(on  dans  

laquelle  mul(ple  mécanismes  de  matching  et  de  mapping  de  schémas  sont  

u(lisés.

Valenciennes   5  18  juin  2010  

Page 6: Intégration incrémentale de données (Valenciennes juin 2010)

Plan  

  Retour  U(lisateur  (feedback)  

  Annota(on  de  Mappings  

  Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur  

  Raffinement  de  Mappings    

Valenciennes   6  18  juin  2010  

Page 7: Intégration incrémentale de données (Valenciennes juin 2010)

Retour  U(lisateur  

  Requête:  Quels  sont  le  protéines  disponibles  de  la  mouche  des  fruits?    

  Results:  

Feedback  

✔  

✖  

✖  

✔  

Valenciennes   7  18  juin  2010  

Page 8: Intégration incrémentale de données (Valenciennes juin 2010)

Retour  U(lisateur  (cont.)  

  Considérons  m  un  mapping,  et  UF  un  ensemble  de  retours  u(lisateur  (feedback  instances):    

  tp(m,UF):  les  tuples  qui  sont  prévus  par  l'u(lisateur  et  qui  sont  retournés  par  le  mapping  m.  

  fp(m,UF):  les  tuples  qui  ne  sont  pas  prévus  par  l'u(lisateur  et  qui  sont  retournés  par  le  mapping  m.    

  fn(m,UF):  les  tuples  qui  sont  prévus  par  l'u(lisateur  et  qui  ne  sont  pas  retournés  par  le  mapping  m.  

Valenciennes   8  18  juin  2010  

Page 9: Intégration incrémentale de données (Valenciennes juin 2010)

Plan  

 Retour  U(lisateur  (feedback)  

  Annota(on  de  Mappings  

  Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur  

  Raffinement  de  Mappings    

Valenciennes   9  18  juin  2010  

Page 10: Intégration incrémentale de données (Valenciennes juin 2010)

Annota(on  de  Mappings  

On  peut  u(liser  un  schéma  d’annota(on  simple  pour  é(queter  les  mappings  comme:  

   Correct  

   Incorrect  

L'ensemble  de  mappings  peut  être  incomplete,  et,  par  consequent,  nous  allows  tout  simplement  annoter  tout  les  mappings  comme  incorrect,  ce  qui  est  inu(le.  

Pour  ceme  raison,  nous  u(lisons  un  schéma  plus  fine  pour  l’annota(on  de  mappings.  

Valenciennes   10  18  juin  2010  

Page 11: Intégration incrémentale de données (Valenciennes juin 2010)

Annota(on  de  Mappings  (cont.)  

Nous  avons  u(lisé  et  adapté  les  no(ons  de  précision  et  de  rappel  u(lisés  dans  la  recherche  d'informa(on  pour  mesurer  la  qualité  d'un  mapping.  

   Precision:  

   Rappel:  

   F  mésure:  

Valenciennes   11  18  juin  2010  

Page 12: Intégration incrémentale de données (Valenciennes juin 2010)

Annota(on  de  Mappings:  Valida(on  

Ques(ons:    

– Combien  de  retours  u(lisateur  (feedback  instances)  faut-­‐il  pour  rapprocher  la  précision  et  le  rappel  réels,  c'est  à  dire  calculés  on  se  basant  sur  la  connaissance  complète  des  résultats  prévues?  

– Est  ce  que  la  philosophie  “pay-­‐as-­‐you-­‐go”  préconisée  par  la  vision  espaces  de  données  (dataspaces)  est  valide  dans  ce  context?  

Valenciennes   12  18  juin  2010  

Page 13: Intégration incrémentale de données (Valenciennes juin 2010)

Annota(on  de  Mappings:  Valida(on  (cont.)  

Expérience:  

  Données:  

–  Deux  collec(ons  de  données:  la  base  de  données  géographiques  Mondial  et  la  base  de  données  bibliographique  amalgames.  

–  Les  mappings  candidats:  créés  en  u(lisant  IBM  InfoSphere  Data  Architect.    

  Processus:  nous  avons  appliqué  le  processus  illustrées  ci-­‐dessous  pour  de  mul(ples  itéra(ons.  

1.  Générer  un  échan(llon  de  retours  u(lisateur  (feedback  instances).  

2.  Calculer  la  précision  et  le  rappel  des  mappings  candidats  en  u(lisant  le  retours  u(lisateur  cumulés.  

Valenciennes   13  18  juin  2010  

Page 14: Intégration incrémentale de données (Valenciennes juin 2010)

Annota(on  de  Mappings:    Erreur  dans  la  Precision  

Error  

Valenciennes   14  18  juin  2010  

Page 15: Intégration incrémentale de données (Valenciennes juin 2010)

Mapping  Annota(on:    Erreur  dans  le  rappel  

Valenciennes  

Error  

Valenciennes   15  18  juin  2010  

Page 16: Intégration incrémentale de données (Valenciennes juin 2010)

Plan  

 Retour  U(lisateur  (feedback)  

 Annota(on  de  Mappings  

  Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur  

  Raffinement  de  Mappings    

Valenciennes   16  18  juin  2010  

Page 17: Intégration incrémentale de données (Valenciennes juin 2010)

Sélec(on  de  Mappings  

  La  sélec(on  de  mappings  doit  être  adaptée  pour  répondre  aux  besoins  des  u(lisateurs.  

  Nous  u(lisons  une  méthode  de  sélec(on  qui  vise  à  maximiser  le  rappel  de  telle  sorte  que  la  précision  des  résultats  est  supérieur  à  un  seuil  de  précision  donnée.  

  Nous  avons  défini  ceme  méthode    comme  un  problème  d’op(misa(on  qui  vise  à  maximiser  la  fonc(on  d'u(lité  suivantes:  

D.  A.  Menascé  and  V.  Dubey.  U(lity-­‐based  qos  brokering  in  service  oriented  architectures.  In  ICWS,  pages  422–430.  IEEE  CS,  2007.  

Valenciennes   17  18  juin  2010  

Page 18: Intégration incrémentale de données (Valenciennes juin 2010)

Sélec(on  de  Mappings:  Precision  

Est-­‐ce  que  ceme  méthode  permet  de  respecter  la  précision  spécifiée  par  l'u(lisateur?  

Valenciennes   18  18  juin  2010  

Page 19: Intégration incrémentale de données (Valenciennes juin 2010)

Sélec(on  de  Mappings:  Rappel  

Est-­‐ce  que  ceme  méthode  permet  de  maximiser  le  rappel?  

Valenciennes   19  18  juin  2010  

Page 20: Intégration incrémentale de données (Valenciennes juin 2010)

Plan  

 Retour  U(lisateur  (feedback)  

 Annota(on  de  Mappings  

 Sélec(on  de  Mappings  Considérant  les  Besoins  U(lisateur  

  raffinement  de  Mappings    

Valenciennes   20  18  juin  2010  

Page 21: Intégration incrémentale de données (Valenciennes juin 2010)

raffinement  de  Mappings  

  Nous  dis(nguons  deux  types  de  Raffinement:  

  Raffinement  de  mappings  qui  vise  à  réduire  le  nombre  de  faux  posi(fs  

  Un  mapping  candidat  est  affinée  par  la  modifica(on  de  sa  requête  source  de  sorte  que  le  nombre  de  faux  posi(fs  retournés  est  réduit.    

  Raffinement  de  mappings  qui  vise  à  accroître  le  nombre  de  vrais  posi(fs  

  Un  mapping  candidat  est  affinée  par  la  modifica(on  de  sa  requête  source  de  sorte  que  le  nombre  de  faux  posi(fs  retournés  est  accrue.    

Valenciennes   21  18  juin  2010  

Page 22: Intégration incrémentale de données (Valenciennes juin 2010)

Mapping  Refinement:  Exemple  

Accession name gene

Protein

Je veux les proteins de

mouche de fruit

Schéma cebtral

Schéma source

m = <Protein, ProteinEntry>

Valenciennes   22  18  juin  2010  

Page 23: Intégration incrémentale de données (Valenciennes juin 2010)

Raffinement  de  Mappings:    l'espace  des  solu(ons  

L'espace  des  solu(ons  est  composé  des  mappings  qui  peuvent  être  construits  à  par(r  des  mappings  candidats  ini(aux.  Plus  précisément,  les  mappings  obtenu  en:  

i.   appliquant  la  jointure  à  la  requête  source  d’un  mapping,  

ii.   augmentant  la  requête  source  d'un  mapping  avec  une  condi(on  de  sélec(on,  

iii.   assouplissant  la  condi(on  de  sélec(on  de  la  requête  source  d’un  mapping,  

iv.   combinant  les  requêtes  sources  de  deux  ou  plusieurs  mappings  en  u(lisant  l'Union,  la  différence  et  intersec(on.  

Valenciennes   23  18  juin  2010  

Page 24: Intégration incrémentale de données (Valenciennes juin 2010)

Explora(on  de  l'Espace  des  Solu(ons  

  L'espace  des  mappings  qui  peuvent  être  obtenus  par  raffinement  est  poten(ellement  large.  

  Un  algorithme  de  recherche  qui  explore  tout  l'espace  des  mappings  possibles  peut  ne  pas  être  en  mésure  de  trouver  une  solu(on  dans  un  temps  limité.  

  Dans  le  cadre  du  présent  travail,  nous  avons  u(lisé  un  algorithme  évolu(onnaire  pour  explorer  l'espace  de  mappings  qui  peuvent  être  obtenus  par  raffinement.  

Valenciennes   24  18  juin  2010  

Page 25: Intégration incrémentale de données (Valenciennes juin 2010)

Algorithm  pour  le  Raffinement  de  Mappings  

Valenciennes   25  18  juin  2010  

Page 26: Intégration incrémentale de données (Valenciennes juin 2010)

Raffinement  de  Mappings:  Valida(on  

  Ques(on:     Est-­‐ce  qu’on  peut  améliorer  la  qualité  des  mappings  

candidats  iniDaux  par  raffinement,  et,  si  c’est  le  cas,  à  quel  prix,  à  savoir,  combien  de  retours  uDlisateur  sont  requis?      

  Expérience:  Pour  répondre  à  la  ques(on  ci-­‐dessus,  nous  avons  appliqué  le  processus  suivant  pour  de  mul(ples  itéra(ons.  

1) Générer  un  échan(llon  de  retours  u(lisateur  2) Annoter  l'ensemble  des  mappings  candidats.  3) Raffiner  les  mappings  candidats.  

Valenciennes   26  18  juin  2010  

Page 27: Intégration incrémentale de données (Valenciennes juin 2010)

Raffinement  de  Mappings:  Valida(on  (cont.)  

Valenciennes  Valenciennes   27  18  juin  2010  

Page 28: Intégration incrémentale de données (Valenciennes juin 2010)

Conclusions  

  Annota(on  incrémentale  de  Mappings  

  Nous  avons  montré  comment  les  mappings  peuvent  être  annoter  progressivement  en  fonc(on  des  retours  u(lisateurs.  

  Nous  avons  également  montré  à  travers  un  exercice  d'évalua(on  que  plus  de  retours  u(lisateur  nous  avons,  meilleur  est  la  qualité  des  annota(ons  calculées.  

    Applica(on:  Sélec(on  et  Raffinement  des  mappings  

  Les  annota(ons  calculées  sont  u(lisées  comme  entrée  pour  permemre  la  sélec(on  et  le  raffinement  de  mappings.  

  Les  exercices  d'évalua(on  ont  également  montré  que  le  raffinement  mappings  est  plus  rentable  (cost-­‐effec(ve)  dans  les  itéra(ons  premiers.  

Valenciennes   28  18  juin  2010  

Page 29: Intégration incrémentale de données (Valenciennes juin 2010)

Travaux  en  Cours  

  Propaga(on  de  retour  u(lisateur  et  des  annota(ons.  

  Retours  u(lisateur  inconsistant.  

Valenciennes   29  18  juin  2010  

Page 30: Intégration incrémentale de données (Valenciennes juin 2010)

Intégra(on  Incrémentale  de  Données  Basée  sur  les  Retours  U(lisateur  

Khalid Belhajjame Université de Manchester

Royaume Uni

Valenciennes   30  18  juin  2010