1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin...

48
1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009

Transcript of 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin...

Page 1: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

1

S. Abiteboul – INRIA Saclay

Web et Industrie

Serge Abiteboul, INRIA Saclay & ENS Cachan

Juin 2009

Page 2: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

2

S. Abiteboul – INRIA Saclay

Organisation

Le Web grand public

Le Web dans l’industrie

Gestion d’information en P2P

Perspective de recherche• A l’INRIA

• Zooms sur des sujets de recherche

Conclusion

Page 3: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

3

Le Web grand public

Page 4: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

4

S. Abiteboul – INRIA Saclay

Success stories sur le Web

Google: gestion des pages du Web

Amazon, eBay: catalogues de vente sur le Web

Facebook: informations personnelles et communautés

Emule: musique en ligne

Flickr: base de données de photos

Myspace: pages Web

YouTube: vidéos

Wikipedia: dictionnaire

Meetic: fiches individuelles

Dailymotion: vidéos

Quel est leur point commun ?

Gestion d’information sur le Web

Page 5: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

5

S. Abiteboul – INRIA Saclay

La gestion d’information – contexte

Un grand succès de l’informatique du 20ème siècle• Le modèle relationnel

• Des tableaux à deux dimensions sur des serveurs centralisés

Page 6: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

6

S. Abiteboul – INRIA Saclay

Ca a bougé…

Page 7: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

7

S. Abiteboul – INRIA Saclay

Pour quelles sources d’information?

Base de données sur un serveur

Un système de fichier

Un serveur Web

Un PC

Un PDA

Un smartphone

Un senseur

Un objet communicant - domotique

Une voiture

Une machine outil

Un équipement télécom

Un jouet

Etc. ?

N’importe quel objet ou logiciel connecté au réseau avec de l’information à partager

Page 8: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

8

S. Abiteboul – INRIA Saclay

Le risque: se noyer sous un océan de données

De plus en plus facile de publier

De plus en plus de données publiées

De plus en plus difficile de trouver l’info

De plus en plus difficile de l’avoir à temps

données

données

temps temps

Page 9: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

9

S. Abiteboul – INRIA Saclay

Ca a bougé

Un grand succès de l’informatique du 20ème siècle• Le modèle relationnel

• Des tableaux à deux dimensions sur des serveurs centralisés

Avec le Web, aujourd’hui• Les données sont hétérogènes (format, structure,

métadonnées, ontologies, multimédia, etc.)

• Les serveurs de données sont hétérogènes, distribués, autonomes, parfois mobiles (BDs, PDA, téléphones, objets communicants, senseurs…)

• L’information est changeante, imprécise, incohérente parfois

• Parfois grande échelle: Millions de serveurs, terra octets de données, milliards d’objets communicants

Page 10: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

10

S. Abiteboul – INRIA Saclay

L’information résidait sur des iles avec des formats, des langages de programmation, des applications, des systèmes d’exploitations différents

Mais ça a changé avec les standards du Web

• XML : données• Xquery : requêtes• SOAP : calcul distribué

Services Web - BPEL• Owl : sémantique

Accès uniforme et universel à l’information…

Les standards du Web

SOAPWSDLBPEL

XML

XqueryXpath

OwlRDFS

Page 11: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

11

S. Abiteboul – INRIA Saclay

XML et tout le spectre d’information

Structured Data

Minimal structure

Meta dataHierarchy +

Books Contracts Catalogs Bank accounts

Emails Financial Reports Insurance Policies

Economical Analysis Derivatives Inventory

Political analysis Insurance Claims

Financial News Sports News Resumes

Page 12: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

12

S. Abiteboul – INRIA Saclay

Xquery (et Xpath)

Une « logique » pour des arbres étiquetés, ordonnés, non bornés

• langage déclaratif

Inspiré de SQL: standard pour données relationnelles

Inspiré de OQL: standard pour données objet

Mélange le contenu et la structure: BD et recherche d’information

• Documents où Twingo apparait dans le titre

• Langage de mise-à-jour

Page 13: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

13

S. Abiteboul – INRIA Saclay

Services Web et calcul distribué

Possibilité d’activer une méthode sur un serveur Web distant

(un peu Corba en moins sophistiqué)

Echange d’information en XML: input/résultat en XML

Infrastructure pour faire du calcul distribué partout

Avec XML et les services Web, il est devenu possible• D’obtenir de l’information de quasiment partout• De publier de l’information de quasiment partout

Une famille de standards: SOAP, WSDL, UDDI

Page 14: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

14

S. Abiteboul – INRIA Saclay

Les workflows: chorégraphie de services

Wikipedia: On appelle « workflow » la modélisation et la gestion informatique de l'ensemble des tâches à accomplir et des différents acteurs impliqués dans la réalisation d'un processus métier

Un workflow est un flux d'informations au sein d'une organisation

Business Process Execution Language (BPEL), un standards exécutable pour spécifier des interactions avec des services Web

Page 15: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

15

S. Abiteboul – INRIA Saclay

Sémantique: des standards émergeants

Web sémantique

Domaine très actif

Standards encore peu figés

Je ne vais beaucoup parler de sémantique

Page 16: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

16

Un accès uniforme à l’information …

… Le rêve de la gestion de données distribuées

Page 17: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

17

S. Abiteboul – INRIA Saclay

Tendances

Plus de sémantique: Web sémantique

• Un programme peut poser des questions précises et obtenir des réponses précises

Plus d’interaction

• Web 2.0 & réseaux sociaux

• Wiki, mashups, facebook, twitter…

Applications de plus en plus distribuées &pair-à-pair

Page 18: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

18

Et l’industrie

Page 19: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

19

S. Abiteboul – INRIA Saclay

Ils font comme tout le monde

Ils utilisent• Google

• Leurs réseaux sociaux comme Linkedin

• Youtube et Dailymotion (pour la pub, la formation…)

• Twitter pour le buzz

• Des sites d’emploi (leur Meetic)

Ils vendent/achètent sur e-bay

Ils font des sites Webs

Page 20: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

20

S. Abiteboul – INRIA Saclay

Ils ont leurs propres applications

Commerce: propres sites• Vendre: e-business

• Achat: e-approvisionnement

Ils utilisent le Web pour informatiser leurs processus• Web service et workflows BPEL

• Fabrication

• Traçabilité

Même si ça se voit moins, ils l’utilisent énormément• Virage XML plus rapide que le grand public qui reste textuel

• Virage Web service plus rapide – car ça demande des ingénieurs

Page 21: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

21

S. Abiteboul – INRIA Saclay

Ce qui leur plait

Outils de gestion/partage de données distribuées• Standard d’ échanges: XML.

• Possibilité de déploiement très rapide

• Moteur de recherche Web

Faire baisser les coûts de développement d’applications réparties• Outils de composition et d’orchestration de services - Web services

• Outils de déploiement rapide d’applications réparties - Mashups

Page 22: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

22

S. Abiteboul – INRIA Saclay

Ils ont des contraintes particulières

Qualité de service: performance, sécurité, disponibilité

• Souvent inacceptable pour eux sur le Web aujourd’hui

Contrôle d’accès et confidentialité• Idem

• Facebook comme réseau social d’entreprise – c’est pas sérieux

Ils commencent à trouver que l’informatique coûte cher et aiment bien le gratuit même si • Ils ne peuvent pas se permettre le piratage

• Ils n’hésitent pas à payer

Page 23: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

23

Gestion d’information en pair-à-pair

Page 24: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

24

S. Abiteboul – INRIA Saclay

Gestion d’information en P2P

Content Sharing Community (CSC): Un groupe d’utilisateurs qui partagent de l’information à l’intérieur d’un domaine particulier

• Exemples: Un groupes de sociétés, des scientifiques dans un certain domaine, une association, un groupe d’amis

Problème nouveau de gestion de données• Les données sont hétérogènes et dynamiques

• Les données sont distribuées

Page 25: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

25

S. Abiteboul – INRIA Saclay

La difficulté

Arriver à faire coopérer des machines autonomes

SGBD distribués• Depuis longtemps un écueil de la gestion de données

• Lourds à mettre en place

• Nombre restreint de machine & Souvent systèmes homogènes

Pourquoi c’est devenu faisable• On va limiter nos exigences

• On va utiliser la puissance du parallélisme

• Et surtout: les nouveaux standards du Web

Page 26: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

26

S. Abiteboul – INRIA Saclay

Pair-à-pair

Pair-à-pair: un nombre important et changeant de systèmes coopèrent pour réaliser une tache sans aucune autorité centrale

Pair-à-pair massif: musique en ligne avec des millions de pairs

Pair-à-pair pas massif: gestion de données dans une entreprise avec des dizaines de pairs

Page 27: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

27

S. Abiteboul – INRIA Saclay

De bonnes raisons pour une gestion P2P de données

Des raisons techniques• Performance

• Disponibilité

Des raisons socio-économiques • Coût

• Organisation décentralisée

• Contrôle des données

Page 28: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

28

S. Abiteboul – INRIA Saclay

Exemple: Dans un système centralisé, plus un document est populaire, plus ça prend du temps de l’obtenir

Avec un système P2P comme BitTorrent, c’est le contraire

Serveur saturé Accélération

Avantage technique:performances

Page 29: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

29

S. Abiteboul – INRIA Saclay

Avantage technique:disponibilité

Avantages• Plusieurs copies d’une même donnée, disponible même en cas de

panne

• Système d’archivage et de sauvegarde en P2P

Aussi des désavantages d’un point de vue technique• Plus complexe donc risque de pannes

• Difficile de gérer les mises-à-jour

• Difficile de contrôler la qualité de service

Page 30: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

30

S. Abiteboul – INRIA Saclay

Avantage économique:gestion de données à coût zéro

On utilise un système P2P gratuit

On utilise des machines existantes (pc, livebox, etc.)

On utilise les ingénieurs qui gèrent déjà ces systèmes et leurs applications

Bien adapté au Web et sa philosophie du « tout gratuit »• Moins que pour le grand public

• Même les entreprises s’habituent au « free »

Page 31: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

31

S. Abiteboul – INRIA Saclay

Avantage économique:bien adapté aux organisations peu centralisées

Avantages du P2P

• Pas nécessaire de trouver un leader

• Pas nécessaire de décider/imposer des règles fortes

• Possibilité de laisser chacun indépendant et autonome

Désavantages du P2P pour des organisations très centralisées

• Plus difficile d’imposer des règles fortes

• Plus difficile de garantir la cohérence des données en présence de mises-à-jour

Bien adapté aux gros groupes avec des entités indépendantes – même s’ils n’en sont pas encore convaincus

Page 32: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

32

S. Abiteboul – INRIA Saclay

Mais des difficultés aussi

Complexité• Cause sérieuse de pannes

Difficulté de gérer les mises-à-jour

Difficulté de contrôler la qualité de service

Comportement asociaux• Spam, spamdexing & autres

• Confiance

Page 33: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

33

S. Abiteboul – INRIA Saclay

Ça n’arrive pas vite dans l’industrie

QoS

Business model pas clair• Qui paie?

• Pour quoi?

Page 34: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

34

Perspective de rechercheA l’INRIA

Zooms sur des sujets de recherche

Page 35: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

35

S. Abiteboul – INRIA Saclay

A l’INRIA

De nombreuses équipes travaille autour du Web

Nombreux verrous technologiques

Gestion de données distribuées

Gestion de connaissance

Linguistique computationnelle

Systèmes pair-à-pair

Spécification et vérification d’applications réparties

Interface humain-machine

Etc.

Page 36: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

36

S. Abiteboul – INRIA Saclay

3 Zooms

(sûrement moins par manque de temps)

• Surveillance du Web

• Facebook en P2P

• Artifacts business

Page 37: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

37

S. Abiteboul – INRIA Saclay

Surveillance du Web: Fonctionnalités

Acquisition de données• Crawl du Web focalisé sur un domaine

• Surveillance des changements: gestion de flux de données

• Intégration avec les données de l’entreprise: outils LTE

Gestion de données• Stockage, indexation, requêtes/mises-à-jour, contrôle d’accès

Enrichissement• Classification, annotations sémantiques

• Multilinguisme

• Gestion d’ontologies, extraction de connaissances

Exploitation• IHM, fouille de données

Page 38: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

38

S. Abiteboul – INRIA Saclay

Surveillance du Web: Webcontent (1)

Plateforme ANR

Entrepôt pour le Web sémantique• http://www.webcontent.fr

• INRIA, CEA, Thales, EADS, Soredab, INRA, Exalead, etc.

Premières applications• Veille économique en aéronautique

• Intelligence stratégique

• Risque alimentaire microbiologique et chimique

• Surveillance d’évènements sismique

Page 39: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

39

S. Abiteboul – INRIA Saclay

Surveillance du Web: Webcontent (2)

Archi basée sur XML et les services Web• Services d’acquisition, enrichissement, d’exploitation

• Autour d’un service de gestion de données XML

2 architectures• Archi centralisée autour d’un bus logiciel

• Archi P2P autour d’un système de gestion de XML en P2P

Page 40: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

40

S. Abiteboul – INRIA Saclay

Facebook stocke des données personnelles

Plein d’autres systèmes également

Difficile de contrôler ce qu’ils en font

Difficile de garder mes données à jour

Page 41: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

41

S. Abiteboul – INRIA Saclay

Facebook: Architecture

SueBob

Bob

XXX

Sue

Sue

Facebook

DeliciousMyspaceGmailLinkedIn

Page 42: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

42

S. Abiteboul – INRIA Saclay

FacebookFacebook en P2P

Directes interactions

Je garde le contrôle sur mes données personnelles

Toutes les applications qui me concernent partagent les mêmes données • Si je change de numéro

de téléphone, je n’ai pas à le changer dans 100 systèmes

SueProxy

Bob

BobSue

SueProxy

Sue

FacebookFacebookFacebook

chez Bob

Page 43: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

43

S. Abiteboul – INRIA Saclay

Facebook en P2P (fin)

Droits d’accès en P2P – cryptographie

Index en P2P (avec des données cryptées)

Faire tourner chez soi des applications développées par des inconnus

Page 44: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

44

S. Abiteboul – INRIA Saclay

Workflows centrés sur les données (1)

Artifact business: document qui représente une activité humaine• Commande, voyage, objet à construire

• Évolue dans le temps suivant certaines règles

Active XML Artifacts• Modèle basé sur XML avec des appels de services imbriqués

• Documents que l’ont peut s’échanger

Domaine général: workflow centré sur les données• Combine les systèmes de workflow et les systèmes de gestion de

données

• Bien adapté pour des applications distribuées

Application jouet: le système de fabrication de Dell: sites commerciaux, banques, usines, entrepôts, société livraison

Page 45: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

45

S. Abiteboul – INRIA Saclay

Workflows centrés sur les données (2)

Quelques sujets de recherche dans ce cadre

Aide à la conception de tels systèmes• Vérifier que le code est conforme aux spécifications

Surveillance de tels systèmes• Prévoir les ruptures de stock de pièces détachés

• Aider au dispatching

• Détecter les disfonctionnement et en trouver les causes

Passage à l’échelle

Contrôle accès, qualité des données et confiance

Page 46: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

46

Conclusion

Page 47: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

47

S. Abiteboul – INRIA Saclay

Conclusion

Prévision sur le Web : il faut être très modeste

Ça va ralentir – on a fait le plus facile et on arrive aux sujets durs

• Linguistique

• Gestion de connaissances…

Ça va continuer à bouger – créativité humaine

• Web sémantique : Web de connaissances plutôt que de texte

• Web 2.0 : un Web plus interactif, plus communautaire

• Web des objets

• Web du pair-a-pair

Histoire : pour le Web, on a toujours sous-estimé la créativité humaine

Page 48: 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin 2009.

48

Merci