1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin...
Transcript of 1 S. Abiteboul – INRIA Saclay Web et Industrie Serge Abiteboul, INRIA Saclay & ENS Cachan Juin...
1
S. Abiteboul – INRIA Saclay
Web et Industrie
Serge Abiteboul, INRIA Saclay & ENS Cachan
Juin 2009
2
S. Abiteboul – INRIA Saclay
Organisation
Le Web grand public
Le Web dans l’industrie
Gestion d’information en P2P
Perspective de recherche• A l’INRIA
• Zooms sur des sujets de recherche
Conclusion
3
Le Web grand public
4
S. Abiteboul – INRIA Saclay
Success stories sur le Web
Google: gestion des pages du Web
Amazon, eBay: catalogues de vente sur le Web
Facebook: informations personnelles et communautés
Emule: musique en ligne
Flickr: base de données de photos
Myspace: pages Web
YouTube: vidéos
Wikipedia: dictionnaire
Meetic: fiches individuelles
Dailymotion: vidéos
Quel est leur point commun ?
Gestion d’information sur le Web
5
S. Abiteboul – INRIA Saclay
La gestion d’information – contexte
Un grand succès de l’informatique du 20ème siècle• Le modèle relationnel
• Des tableaux à deux dimensions sur des serveurs centralisés
6
S. Abiteboul – INRIA Saclay
Ca a bougé…
7
S. Abiteboul – INRIA Saclay
Pour quelles sources d’information?
Base de données sur un serveur
Un système de fichier
Un serveur Web
Un PC
Un PDA
Un smartphone
Un senseur
Un objet communicant - domotique
Une voiture
Une machine outil
Un équipement télécom
Un jouet
Etc. ?
N’importe quel objet ou logiciel connecté au réseau avec de l’information à partager
8
S. Abiteboul – INRIA Saclay
Le risque: se noyer sous un océan de données
De plus en plus facile de publier
De plus en plus de données publiées
De plus en plus difficile de trouver l’info
De plus en plus difficile de l’avoir à temps
données
données
temps temps
9
S. Abiteboul – INRIA Saclay
Ca a bougé
Un grand succès de l’informatique du 20ème siècle• Le modèle relationnel
• Des tableaux à deux dimensions sur des serveurs centralisés
Avec le Web, aujourd’hui• Les données sont hétérogènes (format, structure,
métadonnées, ontologies, multimédia, etc.)
• Les serveurs de données sont hétérogènes, distribués, autonomes, parfois mobiles (BDs, PDA, téléphones, objets communicants, senseurs…)
• L’information est changeante, imprécise, incohérente parfois
• Parfois grande échelle: Millions de serveurs, terra octets de données, milliards d’objets communicants
10
S. Abiteboul – INRIA Saclay
L’information résidait sur des iles avec des formats, des langages de programmation, des applications, des systèmes d’exploitations différents
Mais ça a changé avec les standards du Web
• XML : données• Xquery : requêtes• SOAP : calcul distribué
Services Web - BPEL• Owl : sémantique
Accès uniforme et universel à l’information…
Les standards du Web
SOAPWSDLBPEL
XML
XqueryXpath
OwlRDFS
11
S. Abiteboul – INRIA Saclay
XML et tout le spectre d’information
Structured Data
Minimal structure
Meta dataHierarchy +
Books Contracts Catalogs Bank accounts
Emails Financial Reports Insurance Policies
Economical Analysis Derivatives Inventory
Political analysis Insurance Claims
Financial News Sports News Resumes
12
S. Abiteboul – INRIA Saclay
Xquery (et Xpath)
Une « logique » pour des arbres étiquetés, ordonnés, non bornés
• langage déclaratif
Inspiré de SQL: standard pour données relationnelles
Inspiré de OQL: standard pour données objet
Mélange le contenu et la structure: BD et recherche d’information
• Documents où Twingo apparait dans le titre
• Langage de mise-à-jour
13
S. Abiteboul – INRIA Saclay
Services Web et calcul distribué
Possibilité d’activer une méthode sur un serveur Web distant
(un peu Corba en moins sophistiqué)
Echange d’information en XML: input/résultat en XML
Infrastructure pour faire du calcul distribué partout
Avec XML et les services Web, il est devenu possible• D’obtenir de l’information de quasiment partout• De publier de l’information de quasiment partout
Une famille de standards: SOAP, WSDL, UDDI
14
S. Abiteboul – INRIA Saclay
Les workflows: chorégraphie de services
Wikipedia: On appelle « workflow » la modélisation et la gestion informatique de l'ensemble des tâches à accomplir et des différents acteurs impliqués dans la réalisation d'un processus métier
Un workflow est un flux d'informations au sein d'une organisation
Business Process Execution Language (BPEL), un standards exécutable pour spécifier des interactions avec des services Web
15
S. Abiteboul – INRIA Saclay
Sémantique: des standards émergeants
Web sémantique
Domaine très actif
Standards encore peu figés
Je ne vais beaucoup parler de sémantique
16
Un accès uniforme à l’information …
… Le rêve de la gestion de données distribuées
17
S. Abiteboul – INRIA Saclay
Tendances
Plus de sémantique: Web sémantique
• Un programme peut poser des questions précises et obtenir des réponses précises
Plus d’interaction
• Web 2.0 & réseaux sociaux
• Wiki, mashups, facebook, twitter…
Applications de plus en plus distribuées &pair-à-pair
18
Et l’industrie
19
S. Abiteboul – INRIA Saclay
Ils font comme tout le monde
Ils utilisent• Google
• Leurs réseaux sociaux comme Linkedin
• Youtube et Dailymotion (pour la pub, la formation…)
• Twitter pour le buzz
• Des sites d’emploi (leur Meetic)
Ils vendent/achètent sur e-bay
Ils font des sites Webs
20
S. Abiteboul – INRIA Saclay
Ils ont leurs propres applications
Commerce: propres sites• Vendre: e-business
• Achat: e-approvisionnement
Ils utilisent le Web pour informatiser leurs processus• Web service et workflows BPEL
• Fabrication
• Traçabilité
Même si ça se voit moins, ils l’utilisent énormément• Virage XML plus rapide que le grand public qui reste textuel
• Virage Web service plus rapide – car ça demande des ingénieurs
21
S. Abiteboul – INRIA Saclay
Ce qui leur plait
Outils de gestion/partage de données distribuées• Standard d’ échanges: XML.
• Possibilité de déploiement très rapide
• Moteur de recherche Web
Faire baisser les coûts de développement d’applications réparties• Outils de composition et d’orchestration de services - Web services
• Outils de déploiement rapide d’applications réparties - Mashups
22
S. Abiteboul – INRIA Saclay
Ils ont des contraintes particulières
Qualité de service: performance, sécurité, disponibilité
• Souvent inacceptable pour eux sur le Web aujourd’hui
Contrôle d’accès et confidentialité• Idem
• Facebook comme réseau social d’entreprise – c’est pas sérieux
Ils commencent à trouver que l’informatique coûte cher et aiment bien le gratuit même si • Ils ne peuvent pas se permettre le piratage
• Ils n’hésitent pas à payer
23
Gestion d’information en pair-à-pair
24
S. Abiteboul – INRIA Saclay
Gestion d’information en P2P
Content Sharing Community (CSC): Un groupe d’utilisateurs qui partagent de l’information à l’intérieur d’un domaine particulier
• Exemples: Un groupes de sociétés, des scientifiques dans un certain domaine, une association, un groupe d’amis
Problème nouveau de gestion de données• Les données sont hétérogènes et dynamiques
• Les données sont distribuées
25
S. Abiteboul – INRIA Saclay
La difficulté
Arriver à faire coopérer des machines autonomes
SGBD distribués• Depuis longtemps un écueil de la gestion de données
• Lourds à mettre en place
• Nombre restreint de machine & Souvent systèmes homogènes
Pourquoi c’est devenu faisable• On va limiter nos exigences
• On va utiliser la puissance du parallélisme
• Et surtout: les nouveaux standards du Web
26
S. Abiteboul – INRIA Saclay
Pair-à-pair
Pair-à-pair: un nombre important et changeant de systèmes coopèrent pour réaliser une tache sans aucune autorité centrale
Pair-à-pair massif: musique en ligne avec des millions de pairs
Pair-à-pair pas massif: gestion de données dans une entreprise avec des dizaines de pairs
27
S. Abiteboul – INRIA Saclay
De bonnes raisons pour une gestion P2P de données
Des raisons techniques• Performance
• Disponibilité
Des raisons socio-économiques • Coût
• Organisation décentralisée
• Contrôle des données
28
S. Abiteboul – INRIA Saclay
Exemple: Dans un système centralisé, plus un document est populaire, plus ça prend du temps de l’obtenir
Avec un système P2P comme BitTorrent, c’est le contraire
Serveur saturé Accélération
Avantage technique:performances
29
S. Abiteboul – INRIA Saclay
Avantage technique:disponibilité
Avantages• Plusieurs copies d’une même donnée, disponible même en cas de
panne
• Système d’archivage et de sauvegarde en P2P
Aussi des désavantages d’un point de vue technique• Plus complexe donc risque de pannes
• Difficile de gérer les mises-à-jour
• Difficile de contrôler la qualité de service
30
S. Abiteboul – INRIA Saclay
Avantage économique:gestion de données à coût zéro
On utilise un système P2P gratuit
On utilise des machines existantes (pc, livebox, etc.)
On utilise les ingénieurs qui gèrent déjà ces systèmes et leurs applications
Bien adapté au Web et sa philosophie du « tout gratuit »• Moins que pour le grand public
• Même les entreprises s’habituent au « free »
31
S. Abiteboul – INRIA Saclay
Avantage économique:bien adapté aux organisations peu centralisées
Avantages du P2P
• Pas nécessaire de trouver un leader
• Pas nécessaire de décider/imposer des règles fortes
• Possibilité de laisser chacun indépendant et autonome
Désavantages du P2P pour des organisations très centralisées
• Plus difficile d’imposer des règles fortes
• Plus difficile de garantir la cohérence des données en présence de mises-à-jour
Bien adapté aux gros groupes avec des entités indépendantes – même s’ils n’en sont pas encore convaincus
32
S. Abiteboul – INRIA Saclay
Mais des difficultés aussi
Complexité• Cause sérieuse de pannes
Difficulté de gérer les mises-à-jour
Difficulté de contrôler la qualité de service
Comportement asociaux• Spam, spamdexing & autres
• Confiance
33
S. Abiteboul – INRIA Saclay
Ça n’arrive pas vite dans l’industrie
QoS
Business model pas clair• Qui paie?
• Pour quoi?
34
Perspective de rechercheA l’INRIA
Zooms sur des sujets de recherche
35
S. Abiteboul – INRIA Saclay
A l’INRIA
De nombreuses équipes travaille autour du Web
Nombreux verrous technologiques
Gestion de données distribuées
Gestion de connaissance
Linguistique computationnelle
Systèmes pair-à-pair
Spécification et vérification d’applications réparties
Interface humain-machine
Etc.
36
S. Abiteboul – INRIA Saclay
3 Zooms
(sûrement moins par manque de temps)
• Surveillance du Web
• Facebook en P2P
• Artifacts business
37
S. Abiteboul – INRIA Saclay
Surveillance du Web: Fonctionnalités
Acquisition de données• Crawl du Web focalisé sur un domaine
• Surveillance des changements: gestion de flux de données
• Intégration avec les données de l’entreprise: outils LTE
Gestion de données• Stockage, indexation, requêtes/mises-à-jour, contrôle d’accès
Enrichissement• Classification, annotations sémantiques
• Multilinguisme
• Gestion d’ontologies, extraction de connaissances
Exploitation• IHM, fouille de données
38
S. Abiteboul – INRIA Saclay
Surveillance du Web: Webcontent (1)
Plateforme ANR
Entrepôt pour le Web sémantique• http://www.webcontent.fr
• INRIA, CEA, Thales, EADS, Soredab, INRA, Exalead, etc.
Premières applications• Veille économique en aéronautique
• Intelligence stratégique
• Risque alimentaire microbiologique et chimique
• Surveillance d’évènements sismique
39
S. Abiteboul – INRIA Saclay
Surveillance du Web: Webcontent (2)
Archi basée sur XML et les services Web• Services d’acquisition, enrichissement, d’exploitation
• Autour d’un service de gestion de données XML
2 architectures• Archi centralisée autour d’un bus logiciel
• Archi P2P autour d’un système de gestion de XML en P2P
40
S. Abiteboul – INRIA Saclay
Facebook stocke des données personnelles
Plein d’autres systèmes également
Difficile de contrôler ce qu’ils en font
Difficile de garder mes données à jour
41
S. Abiteboul – INRIA Saclay
Facebook: Architecture
SueBob
Bob
XXX
Sue
Sue
DeliciousMyspaceGmailLinkedIn
42
S. Abiteboul – INRIA Saclay
FacebookFacebook en P2P
Directes interactions
Je garde le contrôle sur mes données personnelles
Toutes les applications qui me concernent partagent les mêmes données • Si je change de numéro
de téléphone, je n’ai pas à le changer dans 100 systèmes
SueProxy
Bob
BobSue
SueProxy
Sue
FacebookFacebookFacebook
chez Bob
43
S. Abiteboul – INRIA Saclay
Facebook en P2P (fin)
Droits d’accès en P2P – cryptographie
Index en P2P (avec des données cryptées)
Faire tourner chez soi des applications développées par des inconnus
44
S. Abiteboul – INRIA Saclay
Workflows centrés sur les données (1)
Artifact business: document qui représente une activité humaine• Commande, voyage, objet à construire
• Évolue dans le temps suivant certaines règles
Active XML Artifacts• Modèle basé sur XML avec des appels de services imbriqués
• Documents que l’ont peut s’échanger
Domaine général: workflow centré sur les données• Combine les systèmes de workflow et les systèmes de gestion de
données
• Bien adapté pour des applications distribuées
Application jouet: le système de fabrication de Dell: sites commerciaux, banques, usines, entrepôts, société livraison
45
S. Abiteboul – INRIA Saclay
Workflows centrés sur les données (2)
Quelques sujets de recherche dans ce cadre
Aide à la conception de tels systèmes• Vérifier que le code est conforme aux spécifications
Surveillance de tels systèmes• Prévoir les ruptures de stock de pièces détachés
• Aider au dispatching
• Détecter les disfonctionnement et en trouver les causes
Passage à l’échelle
Contrôle accès, qualité des données et confiance
46
Conclusion
47
S. Abiteboul – INRIA Saclay
Conclusion
Prévision sur le Web : il faut être très modeste
Ça va ralentir – on a fait le plus facile et on arrive aux sujets durs
• Linguistique
• Gestion de connaissances…
Ça va continuer à bouger – créativité humaine
• Web sémantique : Web de connaissances plutôt que de texte
• Web 2.0 : un Web plus interactif, plus communautaire
• Web des objets
• Web du pair-a-pair
Histoire : pour le Web, on a toujours sous-estimé la créativité humaine
48
Merci