Bibliographie - Ouverture des données

15
Bibliographie & Ressources Ouverture des données : technologies et usages Classement thématique / chronologique. Entrée en matière : Quelques définitions : Open Data ou Donnée ouverte Une donnée ouverte est une information publique brute, qui a vocation à être librement accessible et réutilisable. La philosophie pratique de l'open data préconise une libre disponibilité pour tous et chacun, sans restriction de copyright, brevets ou d'autres mécanismes de contrôle. En informatique, l’open data est une information structurée publique ou privée et généralement non utilisable par un humain mais interprétable par une machine. <http://fr.wikipedia.org/wiki/Donn%C3%A9es_ouvertes > -[Consulté le 29 mai 2012] Linked Data ou Web de données Initiative du W3C (Consortium World Wide Web) visant à favoriser la publication de données structurées sur le Web, non pas sous la forme de silos de données isolés les uns des autres, mais en les reliant entre elles pour constituer un réseau global d'informations. Il s'appuie sur les standards du Web, tels que HTTP et URI - mais plutôt qu'utiliser ces standards uniquement pour faciliter la navigation par les êtres humains, le Web des données les étend pour partager l'information également entre machines. Cela permet d'interroger automatiquement les données, quels que soient leurs lieux de stockage, et sans avoir à les dupliquer. Tim Berners-Lee, directeur du W3C, a inventé et défini le terme Linked Data et son synonyme Web of Data au sein d'un ouvrage portant sur l'avenir du Web Sémantique 2 . En France, le terme Web des données est de plus en plus utilisé par la communauté des professionnels du domaine. <http://fr.wikipedia.org/wiki/Web_des_donn%C3%A9es > -[Consulté le 29 mai 2012] Les Principes du Web de Données (par Tim Berners-Lee) 1. Use URIs as names for things 2. Use HTTP URIs so that people can look up those names. 3. When someone looks up a URI, provide useful information, using the standards (RDF*, SPARQL) 4. Include links to other URIs. so that they can discover more things. <http://www.w3.org/DesignIssues/LinkedData.html > - [Consulté le 29 mai 2012] Références : Circulaire du 26 mai 2011 relative à la création du portail unique des informations publiques de l'Etat « data.gouv.fr » par la mission « Etalab » et l'application des dispositions régissant le droit de réutilisation des informations publiques. JORF n°0123 du 27 mai 2011 page 9140 texte n° 5 - <http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000024072788 > - [Consulté le 29 mai 2012]

Transcript of Bibliographie - Ouverture des données

Page 1: Bibliographie - Ouverture des données

Bibliographie & Ressources Ouverture des données : technologies et usages Classement thématique / chronologique.

Entrée en matière :

Quelques définitions :

Open Data ou Donnée ouverte Une donnée ouverte est une information publique brute, qui a vocation à être librement accessible et réutilisable. La philosophie pratique de l'open data préconise une libre disponibilité pour tous et chacun, sans restriction de copyright, brevets ou d'autres mécanismes de contrôle. En informatique, l’open data est une information structurée publique ou privée et généralement non utilisable par un humain mais interprétable par une machine. <http://fr.wikipedia.org/wiki/Donn%C3%A9es_ouvertes> -[Consulté le 29 mai 2012] Linked Data ou Web de données Initiative du W3C (Consortium World Wide Web) visant à favoriser la publication de données structurées sur le Web, non pas sous la forme de silos de données isolés les uns des autres, mais en les reliant entre elles pour constituer un réseau global d'informations. Il s'appuie sur les standards du Web, tels que HTTP et URI - mais plutôt qu'utiliser ces standards uniquement pour faciliter la navigation par les êtres humains, le Web des données les étend pour partager l'information également entre machines. Cela permet d'interroger automatiquement les données, quels que soient leurs lieux de stockage, et sans avoir à les dupliquer. Tim Berners-Lee, directeur du W3C, a inventé et défini le terme Linked Data et son synonyme Web of Data au sein d'un ouvrage portant sur l'avenir du Web Sémantique2. En France, le terme Web des données est de plus en plus utilisé par la communauté des professionnels du domaine. <http://fr.wikipedia.org/wiki/Web_des_donn%C3%A9es> -[Consulté le 29 mai 2012]

Les Principes du Web de Données (par Tim Berners-Lee) 1. Use URIs as names for things 2. Use HTTP URIs so that people can look up those names. 3. When someone looks up a URI, provide useful information, using the standards (RDF*,

SPARQL) 4. Include links to other URIs. so that they can discover more things.

<http://www.w3.org/DesignIssues/LinkedData.html > - [Consulté le 29 mai 2012]

Références :

Circulaire du 26 mai 2011 relative à la création du portail unique des informations publiques de l'Etat « data.gouv.fr » par la mission « Etalab » et l'application des dispositions régissant le droit de réutilisation des informations publiques. JORF n°0123 du 27 mai 2011 page 9140 texte n° 5 - <http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000024072788> - [Consulté le 29 mai 2012]

Page 2: Bibliographie - Ouverture des données

Pour commencer :

Euzenat, J. L'intelligence du web : l'information utile à portée de lien, in Bulletin de l'AFIA 72:13-16, 2011. <ftp://ftp.inrialpes.fr/pub/exmo/publications/euzenat2011a.pdf > -[Consulté le 29 mai 2012] Guillaud, H. Open Data : l’avenir de la réutilisation des données publiques, Le Monde Blogs, InternetActu, 2 décembre 2011. Alors que le 6 décembre 2011 devrait enfin ouvrir le portail de données publiques de l'Etat français (plus de 2 ans après l'initiative américaine Data.gov), nous vous proposons de faire un rapide point sur "l'open data", ce mouvement d'ouverture des données publiques, qui vise à rendre accessible dans un format lisible tant par les humains que les machines, des ensembles de données publiques. A quoi cela sert-il ? Qui cela sert-il ? <http://internetactu.blog.lemonde.fr/2011/12/02/open-data-lavenir-de-la-reutilisation-des-donnees-publiques/ > -[Consulté le 29 mai 2012] Brugière, A. Népote, C. Guide pratique de l’ouverture des données publiques territoriales : Guide à l’usage des territoires et de leurs partenaires, version de travail n° 1, FING, janvier 2011. Ce guide pratique se fixe pour objectif de faciliter l’engagement des collectivités territoriales dans une démarche d’ouverture de leurs données publiques. Il se fonde sur une observation des expériences françaises et européennes, et notamment sur les démarches des Communautés urbaines de Bordeaux et Rennes. <http://doc.openfing.org/RDPU/GuidePratiqueDonneesPubliquesv1beta.pdf> Document téléchargeable : [Consulté le 29 mai 2012]

Le coin des spécialistes :

Ouvrages (par ordre d’importance)

Heath,T. Bizer, C. Web de données : méthodes et outils pour les données liées, Pearson, 2012.

Cet ouvrage est un outil de formation et de référence pour les professionnels des métiers du web (développeurs, administrateurs bases de données, Architectes) et des métiers scientifiques. Il présente l'ensemble des formats, techniques, méthodes et outils (RDF , SPARQL, OWL et RDFS) pour la publication d'informations sous forme de données liées sur le web, que ces données soient existantes (mais de sources ou de format différents) ou à créer. Tout au long du livre, on suit l'avancement d'un projet exemple « Production Big Lynx » au fur et à mesure de son développement. Il comporte des chapitres inédits, écrits pour l’édition française, spécifiques sur certaines notions : les ontologies (conception, définition, bonnes pratiques), les formats RDF (les différentes façons d’écrire du RDF) et les avantages de l’adoption du Web sémantique par les entreprises (référencement, accessibilité des données, faible coût).

Heath, T. Bizer, C. Linked data : evolving the web into a global data space, Morgan & Claypool publishers, 2011

The World Wide Web has enabled the creation of a global information space comprising linked documents. As the Web becomes ever more enmeshed with our daily lives, there is a growing desire for direct access to raw data not currently available on the Web or bound up in hypertext documents. Linked Data provides a publishing paradigm in which not only documents, but also data, can be a first class citizen of the Web, thereby enabling the extension of the Web with a global data

Page 3: Bibliographie - Ouverture des données

space based on open standards - the Web of Data. In this Synthesis lecture we provide readers with a detailed technical introduction to Linked Data. We begin by outlining the basic principles of Linked Data, including coverage of relevant aspects of Web architecture. The remainder of the text is based around two main themes - the publication and consumption of Linked Data. Drawing on a practical Linked Data scenario, we provide guidance and best practices on: architectural approaches to publishing Linked Data; choosing URIs and vocabularies to identify and describe resources; deciding what data to return in a description of a resource on the Web; methods and frameworks for automated linking of data sets; and testing and debugging approaches for Linked Data deployments. We give an overview of existing Linked Data applications and then examine the architectures that are used to consume Linked Data from the Web, alongside existing tools and frameworks that enable these. Readers can expect to gain a rich technical understanding of Linked Data fundamentals, as the basis for application development, research or further study. . <http://linkeddatabook.com/editions/1.0/> accessible en ligne au format HTML [Consulté le 29 mai 2012]

[Ouvrage disponible dans le réseau des bibliothèques Inria]

Gandon, F. Faron-Zucker, C. Corby, O. Le Web sémantique : comment lier les données et les schémas sur le web ? Dunod, 2012.

Le web sémantique désigne un ensemble de technologies visant à rendre les ressources du web plus largement utilisables ou plus pertinentes grâce à un système de métadonnées qui utilisent notamment la famille des langages développés par le W3C (World Wide Web Consortium). Cet ouvrage offre dans un langage accessible une synthèse de ce qu'il faut aujourd'hui savoir du web sémantique. Il explique simplement quelles sont les techniques mises en oeuvre et dresse un panorama des utilisations potentielles et des bénéfices attendus.

[Ouvrage disponible dans le réseau des bibliothèques Inria]

Voir aussi :

Chignard, S. Open Data, comprendre l’ouverture des données publiques. FYP, 2012.

La donnée est au cœur du fonctionnement des territoires. Elle permet d’aider à la décision, d’évaluer les politiques mises en œuvre ou de faire vivre les services urbains de notre vie quotidienne (transports, vie culturelle, économie, politique sociale, etc.). L’open data — la donnée ouverte — mouvement apparu à partir de 2007, consiste en la mise à disposition d’informations publiques brutes qui ont vocation à être librement accessibles.

Barnickel, N. Flügge, M. Hanke, D. Berliner Open Data strategie, Fraunhofer Irb Stuttgart, 2012.

Nicht zuletzt der unerwartete Erfolg der Piratenpartei bei den Wahlen zum Berliner Abgeordnetenhaus und zu den Bezirksparlamenten hat deutlich gemacht, dass Forderungen nach offenem Regierungs- und Verwaltungshandeln, Öffnung von Datenbeständen und aktivem Bereitstellen von Regierungs- und Verwaltungsinformationen über Gesetzestexte und Verordnungen hinaus nicht irgendwo vom Rand der Gesellschaft erhoben werden. Bürgerbegehren, Bürgerbeteiligung, Bürgerproteste, Bürgerhaushalte zeigen, dass diese Themen in der Mitte der Gesellschaft angekommen sind. Dass diese Erwartungen mehrheitsfähig sind, hat eine SAS-Umfrage1 vom Sommer 2010 eindrücklich nachgewiesen, in der sich 88% der Befragten für eine Veröffentlichung nicht personenbezogener Informationen durch die Behörden aussprachen und 81% darin eine Chance für mehr Partizipation sahen. Alle demokratischen Parteien haben die Themen

Page 4: Bibliographie - Ouverture des données

Transparenz und Open Government in ihre Wahlprogramme aufgenommen, die aus den letzten Wahlen hervorgegangene Berliner Regierungskoalition aus SPD und CDU kündigt in ihrem Koalitionsvertrag die Fortsetzung und den Ausbau der Open Data-Initiative des Landes an. Abiteboul, S. Manolescu, I. Rigaux, P. Web data management, Cambridge University Press, 2012.

The Internet and World Wide Web have revolutionized access to information. Users now store information across multiple platforms from personal computers, to smartphones, to Web sites such as YouTube and Picasa. As a consequence, data management concepts, methods, and techniques are increasingly focused on distribution concerns. That information largely resides in the network, as do the tools that process this information. This book explains the foundations of XML, the Web standard for data management, with a focus on data distribution. It covers the many facets of distributed data management on the Web, such as description logics, that are already emerging in today's data integration applications and herald tomorrow's semantic Web. It also introduces the machinery used to manipulate the unprecedented amount of data collected on the Web. Several "Putting into Practice" chapters describe detailed practical applications of the technologies and techniques. Striking a balance between the conceptual and the practical, the book will serve as an introduction to the new, global, information systems for Web professionals as well as for master's level courses

[Ouvrage disponible dans le réseau des bibliothèques Inria]

Articles

Boulton, G. Rawlins, M. Vallance, P. Science as public enterprise : the case of Open Data, Lancet, vol. 377, n° 9778,. 14 mai 2011, pp. 1633-1635.

The past half-century has seen a breathtaking surge in scientific discovery. We have put satellites into orbit and probed the universe; we have discovered the chemical structure of living organisms and learned to manipulate it; we have been able to read the Earth's history in minute detail from ice-sheet and ocean cores; and we have improved human and animal health through increasingly large epidemiological studies and clinical trials. All of these achievements have necessitated new ways of collecting, storing, manipulating, and transmitting information that far surpass anything previously dreamed of. The information technology that permits this has not only removed geographical barriers but also put immense power to access, manipulate, and communicate information (including scientific data) in the hands of ordinary citizens. Yet many of the habits of scientists have barely changed since the 18th century. Driven by curiosity, they have typically pursued their research, published their findings, usually in peer-reviewed journals, filed their data, and then moved on. But such detachment is now questionable as science profoundly changes the lives of citizens, and scientists collect more and more evidence of the human assault on the natural systems of the planet. Science has become woven into the fabric of modern civilisation and should be, and be seen to be, a public enterprise, not a private enterprise done behind closed laboratory doors.

[Full-text accessible en intranet Inria]

Ferrara, A. Nikolov, A. Scharffe, F. Data Linking for the Semantic Web. in International Journal on Semantic Web and Information Systems, vol. 7, n°3, 2011. pp.46-76.

By specifying that published datasets must link to other existing datasets, the 4th linked data principle ensures a Web of data and not just a set of unconnected data islands. The authors propose in this paper the term data linking to name the problem of finding equivalent resources on the Web of linked data. In order to perform data linking, many techniques were developed, finding their roots

Page 5: Bibliographie - Ouverture des données

in statistics, database, natural language processing and graph theory. The authors begin this paper by providing background information and terminological clarifications related to data linking. Then a comprehensive survey over the various techniques available for data linking is provided. These techniques are classified along the three criteria of granularity, type of evidence, and source of the evidence. Finally, the authors survey eleven recent tools performing data linking and we classify them according to the surveyed techniques.

Molloy, JC. The Open Knowledge Foundation : Open data means better science, PLoS Biology, vol. 9, n° 12, déc. 2011. doi:10.1371/journal.pbio.1001195

Data provides the evidence for the published body of scientific knowledge, which is the foundation for all scientific progress. The more data is made openly available in a useful manner, the greater the level of transparency and reproducibility and hence the more efficient the scientific process becomes, to the benefit of society. This viewpoint is becoming mainstream among many funders, publishers, scientists, and other stakeholders in research, but barriers to achieving widespread publication of open data remain. The Open Data in Science working group at the Open Knowledge Foundation is a community that works to develop tools, applications, datasets, and guidelines to promote the open sharing of scientific data. This article focuses on the Open Knowledge Definition and the Panton Principles for Open Data in Science. We also discuss some of the tools the group has developed to facilitate the generation and use of open data and the potential uses that we hope will encourage further movement towards an open scientific knowledge commons.

[Full-text accessible]

Bizer, C. Heath, T. Berners-Lee, T. Linked Data – The Story so far. Special Issue on Linked Data in International Journal on Semantic Web and Information Systems, vol. 5, n° 3, 2009, pp. 1-22 doi:10.4018/jswis.2009081901

The term “Linked Data” refers to a set of best practices for publishing and connecting structured data on the Web. These best practices have been adopted by an increasing number of data providers over the last three years, leading to the creation of a global data space containing billions of assertions— the Web of Data. In this article, the authors present the concept and technical principles of Linked Data, and situate these within the broader context of related technological developments. They describe progress to date in publishing Linked Data on the Web, review applications that have been developed to exploit the Web of Data, and map out a research agenda for the Linked Data community as it moves forward.

Pre-print : <http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf> - [Consulté le 29 mai 2012]

Auer, S. Bizer, C. Kobilarov, G. Lehmann, J. Cyganiak, R. Ives, Z. DBpedia : a nucleus for a web of open data in Lecture Notes in Computer Science, vol. 4825, 2007, pp. 722-735, doi: 10.1007/978-3-540-76298-0-52

DBpedia is a community effort to extract structured information from Wikipedia and to make this information available on the Web. DBpedia allows you to ask sophisticated queries against datasets derived from Wikipedia and to link other datasets on the Web to Wikipedia data. We describe the extraction of the DBpedia datasets, and how the resulting information is published on the Web for human- and machine-consumption. We describe some emerging applications from the DBpedia community and show how website authors can facilitate DBpedia content within their sites. Finally,

Page 6: Bibliographie - Ouverture des données

we present the current status of interlinking DBpedia with other open datasets on the Web and outline how DBpedia could serve as a nucleus for an emerging Web of open data.

[Full-text accessible en intranet Inria]

Actes de Conférences

David, J. Euzenat, J. Rosoiu, M. Linked data from your pocket, in Christophe Guéret, Stefan Schlobach, Florent Pigout (eds), Proceedings 1st ESWC workshop on downscaling the semantic web, Hersounissos (GR), pp 6-13, 2012.

The paper describes a lightweight general purpose RDF framework for Android. It allows to deal uniformly with RDF, whether it comes from the web or from applications inside the device. It extends the Android content provider framework and introduces a transparent URI dereferencing scheme allowing for exposing device content as linked data. <http://ceur-ws.org/Vol-844/paper_3.pdf > -[Consulté le 29 mai 2012]

Hyman, P. European Union’s Open data Initiative, Communication of the ACM, vol. 55, n° 2, février 2012, pp. 18-18.

Data provides the evidence for the published body of scientific knowledge, which is the foundation for all scientific progress. The more data is made openly available in a useful manner, the greater the level of transparency and reproducibility and hence the more efficient the scientific process becomes, to the benefit of society. This viewpoint is becoming mainstream among many funders, publishers, scientists, and other stakeholders in research, but barriers to achieving widespread publication of open data remain. The Open Data in Science working group at the Open Knowledge Foundation is a community that works to develop tools, applications, datasets, and guidelines to promote the open sharing of scientific data. This article focuses on the Open Knowledge Definition and the Panton Principles for Open Data in Science. We also discuss some of the tools the group has developed to facilitate the generation and use of open data and the potential uses that we hope will encourage further movement towards an open scientific knowledge commons.

Lebraty, JF. Lobre, K. Les risques de l’Open Data, Actes du 9e colloque ORIANE, Bayonne, 2011. pp. 1-18.

This communication aims to answer to the following question: "what are the organizational risks of Open Data?". This exploratory study examine both perceived risks and theoretical risks. 5 risks are exposed and discussed. <http://halshs.archives-ouvertes.fr/halshs-00632857/en/> - [Consulté le 30 mai 2012]

[Full-text accessible]

Scharffe, F. Euzenat, J Méthodes et outils pour lier le web des données, in Actes de RFIA 2010, 2010.

Le web des données consiste à publier des données sur le web de telle sorte qu'elles puissent être interprétées et connectées entre elles. Il est donc vital d'établir les liens entre ces données à la fois pour le web des données et pour le web sémantique qu'il contribue à nourrir. Nous proposons un cadre général dans lequel s'inscrivent les différentes techniques utilisées pour établir ces liens et nous montrons comment elles s'y insèrent. Nous proposons ensuite une architecture permettant d'associer les différents systèmes de liage de données et de les faire collaborer avec les systèmes

Page 7: Bibliographie - Ouverture des données

développés pour la mise en correspondance d'ontologies qui présente de nombreux points communs avec la découverte de liens. <http://scharffe.fr/pub/un-cadre-general-pour-lier-le-web-des-donnees-RFIA-2010.pdf> - [Consulté le 30 mai 2012]

Rapport de Recherche

Scharffe, F. Euzenat, J. MeLinDa : an interlinking framework for the web of data, Rapport de recherche , RR-7691, 2011.< http://hal.inria.fr/inria-00610160> - [Consulté le 30 mai 2012]

The web of data consists of data published on the web in such a way that they can be interpreted and connected together. It is thus critical to establish links between these data, both for the web of data and for the semantic web that it contributes to feed. We consider here the various techniques developed for that purpose and analyze their commonalities and differences. We propose a general framework and show how the diverse techniques fit in the framework. From this framework we consider the relation between data interlinking and ontology matching. Although, they can be considered similar at a certain level (they both relate formal entities), they serve different purposes, but would find a mutual benefit at collaborating. We thus present a scheme under which it is possible for data linking tools to take advantage of ontology alignments.

[Full-text accessible]

Outils et applications :

Présentations

Davis, I. Heath, T. The thirty minute guide to RDF and Linked Data. Code4lib Linked Data conference, 2009. Diaporama en ligne. < http://www.slideshare.net/iandavis/30-minute-guide-to-rdf-and-linked-data >- [Consulté le 30 mai 2012]

Hausenblas, M. Linked Data : A practical introduction. Digital Enterprise Research Institute, 2008. Diaporama en ligne. <http://www.slideshare.net/mediasemanticweb/linked-data-michael-hausenblas-2009-03-05> - [Consulté le 30 mai 2012]

Sequeda, J. Introduction to Linked Data : Consuming Linked Data tutorial, International Semantic Web Conference, 2009. Diaporama en ligne. <http://www.slideshare.net/juansequeda/introduction-to-linked-data-2341398 >- [Consulté le 30 mai 2012]

Calls for papers / Events (sélection)

COLD 2012 (Consuming Linked Data) The quantity of published Linked Data is increasing dramatically. However, applications that consume Linked Data are not yet widespread. Current approaches lack methods for seamless integration of Linked Data from multiple sources, dynamic discovery of available data and data sources, provenance and information quality assessment, application development environments, and appropriate end user interfaces. Addressing these issues requires well-founded research, including the development and investigation of concepts that can be applied in systems which consume Linked Data from the Web. Following the success of the 1st International Workshop on Consuming Linked Data, we organize the second edition of this workshop in order to provide a platform for discussion

Page 8: Bibliographie - Ouverture des données

and work on these open research problems. The main objective is to provide a venue for scientific discourse — including systematic analysis and rigorous evaluation — of concepts, algorithms and approaches for consuming Linked Data http://km.aifb.kit.edu/ws/cold2012/ ISWC 2012 (International Semantic Web Conference ) ISWC 2012 is the premier international forum, for the Semantic Web / Linked Data Community. Here, scientists, industry specialists, and practitioners meet to discuss the future of of practical, scalable, user-friendly, and game changing solutions. http://iswc2012.semanticweb.org/

Know@LOD 2012 (Knowledge Discovery and Data Mining Meets Linked Open Data) The first international workshop on Knowledge Discovery and Data Mining Meets Linked Open Data (Know@LOD) will be held at the 9th Extended Semantic Web Conference (ESWC). Knowledge discovery and data mining (KDD) is a well-established field with a large community investigating methods for the discovery of patterns and regularities in large data sets, including relational databases and unstructured text. Research in this field has led to the development of practically relevant and scalable approaches such as association rule mining, subgroup discovery, graph mining, and clustering. At the same time, the Web of Data has grown to one of the largest publicly available collections of structured, cross-domain data sets. While the growing success of Linked Data and its use in applications, e.g., in the e-Government area, has provided numerous novel opportunities, its scale and heterogeneity is posing challenges to the field of knowledge discovery and data mining:

The extraction and discovery of knowledge from very large data sets; The maintenance of high quality data and provenance information; The scalability of processing and mining the distributed Web of Data; and The discovery of novel links, both on the instance and the schema level.

http://www.ke.tu-darmstadt.de/know-a-lod-2012/ LDOW 2012 (Linked Data in the Web) The Web is continuing to develop from a medium for publishing textual documents into a medium for sharing structured data. In 2011, the Web of Linked Data grew to a size of about 32 billion RDF triples, with contributions coming increasingly from companies, governments and other public sector bodies such as libraries, statistical bodies or environmental agencies. In parallel, Google, Yahoo and Bing have established the schema.org initiative, a shared set of schemata for publishing structured data on the Web that focuses on vocabulary agreement and low barriers of entry for data publishers. These developments create a positive feedback loop for data publishers and highlight new opportunities for commercial exploitation of Web data. In this context, the LDOW2012 workshop provides a forum for presenting the latest research on Linked Data and driving forward the research agenda in this area. We expect submissions that discuss the deployment of Linked Data in different application domains and explore the motivation, value proposition and business models behind these deployments, especially in relation to complementary and alternative techniques for data provision (e.g. Web APIs, Microdata, Microformats) and proprietary data sharing platforms (e.g. Facebook, Twitter, Flickr, LastFM). http://events.linkeddata.org/ldow2012/ WOD 2012 (First International Workshop on Open Data) The 1st International Workshop on Open Data (WOD), to be held in Nantes, France, on May 25, 2012, is one of the very first events that stresses new and exciting challenges offered by the emerging field of Open Data, from the viewpoint of scientific research in computer science.

Page 9: Bibliographie - Ouverture des données

How are the following computer science topics renewed by the Open Data movement - new issues and new solutions ? What should computer science research learn from other fields of Open Data ? The workshop aims at facilitating new trends and ideas from a broad range of topics concerned within the widely-spread Open Data movement: Big Data management, data management in the cloud, web data integration, linked data and semantic web, data science and data analytics, social web, data privacy, data visualization, data curation, data provenance…http://sites.google.com/site/opendata2012/

Equipes de recherche

Exmo (Computer mediated exchange of structured knowledge) Responsable: Jérôme Euzenat - http://exmo.inrialpes.fr/people/euzenat/ Expressing formalised knowledge on a computer is useful, not especially for the need of the computer, but for communication. In future information systems, formalised knowledge will be massively exchanged. The goal of Exmo is the development of theoretical and software tools for enabling interoperability in formalised knowledge exchange. Exmo contributes to an emerging field called the semantic web which blends the communication capabilities of the web with knowledge representation http://exmo.inrialpes.fr/ Oak (Database optimizations and architectures for complex large data) Responsable : Ioana Manolescu - http://www-roc.inria.fr/~manolesc/ The goal of OAK is to devise expressive models and languages, and efficient algorithms, in order to support complex processing on large-scale complex data. In particular, our focus will be on:

data with complex structure, such as: structured documents, or trees (in particular XML or JSON), graph-based data (typically RDF), data described by complex schema and semantics (such as, for instance, expressed by an XML Schema or an RDF Schema)

complex processing understood as fine-granularity search, transformation and update of data. While XQuery and SPARQL frame most of our prior and current work, we are more generally interested in formats for structured complex data, typically represented by nested records or graphs of connected objects;

efficient algorithms for (i) analyzing the specification of a given processing task and identifying interesting equivalent specifications and/or decompositions of the original task into subtasks (corresponding to the traditional logical optimization step in a DBMS) and (ii) efficiently executing a given processing task, possibly with the help of specialized data structures. Distribution of the data and processing plays an important role here, in particular from a perspective of parallel evaluation in the cloud.

http://team.inria.fr/oak/ Wimmics (Web-Instrumented Man-Machine Interactions, Communities and Semantics) Responsable : Fabien Gandon http://www-sop.inria.fr/members/Fabien.Gandon/wakka.php?wiki=FabienGandon Wimmics is a proposal for a joint research team between INRIA Sophia Antipolis - Méditerranée and I3S (CNRS and University of Nice – Sophia Antipolis). The research fields of this team are graph-oriented knowledge representation, reasoning and operationalization to model and support actors, actions and interactions in web-based epistemic communities. Wimmics is a follow-up of the teams Acacia, Edelweiss and Kewi. http://wimmics.inria.fr/ Zenith (Scientific Data Management) Responsable : Patrick Valduriez - http://www-sop.inria.fr/members/Patrick.Valduriez/

Page 10: Bibliographie - Ouverture des données

Modern science such as agronomy, bio-informatics, and environmental science must deal with overwhelming amounts of experimental data. Such data must be processed (cleaned, transformed, analyzed) in all kinds of ways in order to draw new conclusions, prove scientific theories and produce knowledge. However, constant progress in scientific observational instruments and simulation tools creates a huge data overload. For example, climate modeling data are growing so fast that they will lead to collections of hundreds of exabytes expected by 2020. Scientific data is also very complex, in particular because of heterogeneous methods used for producing data, the uncertainty of captured data, the inherently multi-scale nature of many sciences and the growing use of imaging, resulting in data with hundreds of attributes, dimensions or descriptors. Processing and analyzing such massive sets of complex data is therefore a major challenge since solutions must combine new data management techniques with large-scale parallelism in cluster, grid or cloud environments. http://www-sop.inria.fr/teams/zenith/

Eurecom Raphaël Troncy- http://www.eurecom.fr/fr/people/troncy-raphael Intérêts de recherche : le Web sémantique et les technologies multimédia, la représentation des connaissances, la modélisation et l'alignement ontologiques et la Science du Web. Sujets : la sémantique multimédia, l'interconnexion multimédia, l'interopérabilité des métadonnées multimédia, la provenance des métadonnées multimédia http://www.eurecom.fr/fr Lirmm François Scharffe - http://www.scharffe.fr/ Le Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM) est une Unité Mixte de Recherche de l'Université Montpellier 2 (UM2) et du Centre National de la Recherche Scientifique (CNRS), Institut des sciences informatiques et de leurs interactions (INS2I) http://www.lirmm.fr

Projets Européens

LATC LATC, Linked Open Data Around-The-Clock is a Specific Support Action in the context of the FP7 ICT Programme. Our mission is to support people and organisations to better publish and consume Linked Open Data. http://latc-project.eu/ LOD2 LOD2 is a large-scale integrating project co-funded by the European Commission within the FP7 Information and Communication Technologies Work Programme (Grant Agreement No. 257943). Commencing in September 2010, this 4-year project comprises leading Linked Open Data technology researchers, companies, and service providers (15 partners) from across 11 European countries (and one associated partner from Korea) and is coordinated by the AKSW research group at the University of Leipzig. http://lod2.eu/Welcome.html

Outils et technologies

Linking Open Data cloud diagram This web page is the home of the LOD cloud diagram. This image shows datasets that have been published in Linked Data format, by contributors to the Linking Open Data community project and other individuals and organisations. It is based on metadata collected and curated by contributors to the CKAN directory. Clicking the image will take you to an image map, where each dataset is a

Page 11: Bibliographie - Ouverture des données

hyperlink to its homepage. http://richard.cyganiak.de/2007/10/lod/ (Richard Cyganiak, Anja Jentzsch) Linked Data The Semantic Web is a Web of Data — of dates and titles and part numbers and chemical properties and any other data one might conceive of. The collection of Semantic Web technologies (RDF, OWL, SKOS, SPARQL, etc.) provides an environment where application can query that data, draw inferences using vocabularies, etc. However, to make the Web of Data a reality, it is important to have the huge amount of data on the Web available in a standard format, reachable and manageable by Semantic Web tools. Furthermore, not only does the Semantic Web need access to data, but relationships among data should be made available, too, to create a Web of Data (as opposed to a sheer collection of datasets). This collection of interrelated datasets on the Web can also be referred to as Linked Data. To achieve and create Linked Data, technologies should be available for a common format (RDF), to make either conversion or on-the-fly access to existing databases (relational, XML, HTML, etc). It is also important to be able to setup query endpoints to access that data more conveniently. W3C provides a palette of technologies (RDF, GRDDL, POWDER, RDFa, the upcoming R2RML, RIF, SPARQL) to get access to the data. http://www.w3.org/standards/semanticweb/data Linked Open Data star scheme by example Tim Berners-Lee suggested a 5-star deployment scheme for Linked Open Data and Ed Summers provided a nice rendering of it.

★ make your stuff available on the Web (whatever format) under an open license

★★ make it available as structured data (e.g., Excel instead of image scan of a table)

★★★ use non-proprietary formats (e.g., CSV instead of Excel)

★★★★ use URIs to identify things, so that people can point at your stuff

★★★★★ link your data to other data to provide context http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/ OWL Web Ontology Language (OWL) est un langage de représentation des connaissances construit sur le modèle de données de RDF. Il fournit les moyens pour définir des ontologies web structurées. Le langage OWL est basé sur la recherche effectuée dans le domaine de la logique de description. Il peut être vu en quelque sorte comme un format de fichier pour certaines logiques de description. Il permet de décrire des ontologies, c'est-à-dire qu'il permet de définir des terminologies pour décrire des domaines concrets. Une terminologie se constitue de concepts et de propriétés (aussi appelés « rôles » en logiques de description). Un domaine se compose d'instance de concepts. http://fr.wikipedia.org/wiki/Web_Ontology_Language

RDFa C’est une syntaxe qui permet de décrire des données structurées dans une page web. Ainsi formellement décrites, les données peuvent alors faire l'objet de traitements automatisés complexes, via des outils adaptés. Le code RDFa est invisible pour l'internaute et n'affecte pas le contenu de la page. RDFa est un standard en cours d'élaboration au W3C. Il a atteint le statut de

recommandation le 14 octobre 2008

http://fr.wikipedia.org/wiki/RDFa

RDF Resource Description Framework (RDF) est un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées, de façon à permettre le traitement automatique de telles descriptions. Développé par le W3C, RDF est le langage de base du Web sémantique. http://fr.wikipedia.org/wiki/Resource_Description_Framework

Page 12: Bibliographie - Ouverture des données

Voir aussi : La traduction française de la spécification du modèle et la syntaxe du cadre de description des ressources (Resource Description Framework ou RDF) - Recommandation du W3C 22 février 1999 http://www.la-grange.net/w3c/REC-rdf-syntax/ SPARQL C’est à la fois un langage de requête et un protocole qui permettra de rechercher, d'ajouter, de modifier ou de supprimer des données RDF disponible à travers Internet. Son nom est un acronyme qui signifie SPARQL Protocol and RDF Query Language. SPARQL est l'équivalent de SQL car comme en SQL, on accède aux données d'une base de données via ce langage de requête alors qu'avec SPARQL, on accède aux données du Web des données. Cela signifie qu'en théorie, on pourrait accéder à toutes les données du Web avec ce standard. L'ambition du W3C est d'offrir une interopérabilité non pas seulement aux niveaux des services, comme avec les services Web, mais aussi aux niveaux des données structurées ou non qui sont disponible à travers l'Internet. http://fr.wikipedia.org/wiki/SPARQL

Sociétés / Starts-Up

Antidot Dans un environnement économique toujours plus concurrentiel qui exige une réactivité et une maîtrise des savoirs accrues, l’accès à l’information est un enjeu stratégique pour les entreprises et les organisations, leurs collaborateurs, leurs partenaires et leurs clients. Depuis 1999, Antidot conçoit des solutions d’accès à l’information permettant aux organisations et aux hommes de comprendre, de décider et d’agir : moteurs de recherche, solutions de veille, outils de navigation dans l'information, analyse et consolidation de données … Editeur logiciel leader dans le domaine des outils de recherche, Antidot conçoit et développe Antidot Finder Suite (AFS) basée sur une technologie innovante plusieurs fois primée, et nous vous accompagnons dans votre réflexion et dans la mise en place de votre solution et son évolution. Qu’il s’agisse de données internes ou de données externes, les facteurs clés de succès pour l’accès à l’information sont : la simplicité d’usage, la prise en compte des différents types d’utilisateurs et de leurs spécificités, ainsi que l’intégration des stratégies de communication, marketing et commerciale de l’entreprise. La solution déployée doit s'adapter spécifiquement à vos contraintes, être performante, flexible et évolutive. L’objectif d’Antidot est de mettre sa technologie, son expertise logicielle, sa connaissance de l’Internet et sa maîtrise en recherche d’information au service des entreprises en leur proposant des solutions adaptées, performantes et compétitives qui leur permettront de valoriser leurs contenus tout en maximisant la satisfaction des utilisateurs. http://www.antidot.net/ Atos Atos, acteur international des services informatiques avec un chiffre d’affaires annuel de 8,6 milliards d’euros et 74 000 collaborateurs dans 48 pays, fournit à ses clients du monde entier des services transactionnels de haute technologie, des solutions de conseil et de services technologiques, d’intégration de systèmes et d’infogérance. Grâce à son expertise technologique et sa connaissance industrielle, il sert ses clients dans les secteurs suivants : Industrie, Distribution & Services ; Public, Santé & Transport ; Services Financiers ; Télécoms, Médias & Technologie ; Energie & Services Publics. Atos délivre les technologies qui accélèrent le développement de ses clients et les aide à réaliser leur vision de l’entreprise du futur. Atos est le partenaire informatique mondial des Jeux Olympiques. Le Groupe est coté sur le marché Eurolist de Paris et exerce ses activités sous les noms d’Atos, Atos Consulting and Technology Services, Atos Worldline et Atos Worldgrid. http://fr.atos.net/fr-fr/

Data publica

Page 13: Bibliographie - Ouverture des données

A l’origine de Data Publica est un projet de R&D conçu par François Bancilhon et partiellement financé par l’appel à projet web Innovant émis par le Secrétariat d’Etat à l’Economie Numérique en 2009. A l’issue de ce projet, dont le résultat a été la mise en place du premier annuaire de données publiques en septembre 2010, l’idée de créer une société pour exploiter les résultats est envisagée. En octobre 2010, Christian Frisch rejoint François Bancilhon pour travailler sur un modèle économique. Le lancement officiel de la société a lieu en mars 2011. Après un long investissement de recherche et de développement, Data Publica a mis en place une plateforme unique par sa technologie et ses fonctionnalités. Il s’agit à la fois d’un annuaire référençant les données publiques françaises (en service aujourd’hui) et d’un portail de vente des données. Ainsi sur Data Publica les utilisateurs trouveront toutes les données dont ils ont besoin, qu’elles soient publiques ou privées, gratuites ou payantes. http://www.data-publica.com/ Etalab Etalab est chargé de la création d'un portail unique interministériel « data.gouv.fr » destiné à rassembler et à mettre à disposition librement l'ensemble des informations publiques de l'Etat, de ses établissements publics administratifs et, si elles le souhaitent, des collectivités territoriales et des personnes de droit public ou de droit privé chargées d'une mission de service public. Etalab mettra à disposition librement des données brutes dans des formats exploitables. La réutilisation de ces informations offre de larges opportunités à la communauté des développeurs et des entrepreneurs qui pourra les réutiliser afin de proposer des services applicatifs innovants. Par ailleurs, « data.gouv.fr » proposera aux citoyens des services en ligne, conçus à partir de certaines données publiques, qui participeront à renforcer la transparence de l’action de l’Etat. http://www.etalab.gouv.fr/ Mondeca Mondeca is the leading European provider of technology for the management of advanced knowledge structures: ontologies, thesauri, taxonomies, terminologies, metadata repositories, knowledge bases, and Linked Open Data. Mondeca's products help enterprises to integrate and interlink heterogeneous information by mapping it to explicit knowledge references. The products also improve the way information is retrieved, analysed, and reused by producing consistent, precise, and relevant metadata as well as supplying the relevant context. Mondeca's technology is at the core of the Semantic Enterprise Information Architecture that allows to interconnect people and resources as well as to extract the most value from information. http://www.mondeca.com/

Administration /Communautés / Associations / Sociétés savantes

CKAN CKAN is the world’s leading open-source data portal platform. It is a complete out-of-the-box software solution that makes data accessible – by providing tools to streamline publishing, sharing, finding and using data. CKAN is aimed at data publishers (national and regional governments, companies and organizations) wanting to make their data open and available. A slide-deck overview of CKAN can be found here. CKAN is currently used by governments and user groups worldwide to power both official and community data portals. CKAN was developed by the non-profit Open Knowledge Foundation to run TheDatahub.org, a public registry of open knowledge datasets. It now powers more than 40 data hubs around the world, including portals for local, national and international government, such as the UK’s data.gov.uk and the European Union’s publicdata.eu. http://ckan.org/ Data.gouv.fr

Page 14: Bibliographie - Ouverture des données

Plateforme française d'ouverture des données publiques. Ce portail unique interministériel est destiné à rassembler et à mettre à disposition librement l'ensemble des informations publiques de l'Etat, de ses établissements publics administratifs et, si elles le souhaitent, des collectivités territoriales et des personnes de droit public ou de droit privé chargées d'une mission de service public. Data.gouv.fr est développé par Etalab, la mission sous l’autorité du Premier ministre chargée de coordonner l’action des administrations de l'Etat et d’apporter son appui à ses établissements publics administratifs pour faciliter la réutilisation la plus large possible de leurs informations publiques. Les données publiques recensées sur data.gouv.fr sont réutilisables librement et gratuitement, dans les conditions définies par la « Licence Ouverte / Open Licence ». Data.gouv.fr a vocation à s’améliorer continuellement à l’avenir. Pour mettre à disposition toujours plus de données, plus facilement réutilisables, data.gouv.fr pourra automatiser progressivement la mise en ligne des données et leur actualisation. Un effort de long terme portera sur l’harmonisation des référentiels de données et de formats, et la généralisation de l’utilisation de formats ouverts. http://www.data.gouv.fr/ Datalift Un catalyseur pour le web de données Datalift porte les données brutes structurées venant de plusieurs formats (bases de données, CSV, XML) vers des données sémantiques interconnectées sur le Web de données. Datalift est un projet de recherche expérimentale financé par l'agence nationale de la recherche. Le but du projet est de développer une plateforme pour publier et interconnecter des jeux de données sur le web de données. Datalift à la fois publie des jeux de données provenant d'un réseau de partenaires et propose un ensemble d'outils facilitant le processus de publication de jeux de données. http://datalift.org/ DBpedia DBpedia is a community effort to extract structured information from Wikipedia and to make this information available on the Web. DBpedia allows you to ask sophisticated queries against Wikipedia, and to link other data sets on the Web to Wikipedia data. We hope this will make it easier for the amazing amount of information in Wikipedia to be used in new and interesting ways, and that it might inspire new mechanisms for navigating, linking and improving the encyclopaedia itself. http://dbpedia.org/About - voir aussi la version francophone: http://wimmics.inria.fr/projects/dbpedia/ FING : Fondation Internet Nouvelle Génération Depuis 10 ans, la Fing aide les entreprises, les institutions et les territoires à anticiper les mutations liées aux technologies et à leurs usages. Elle a construit un nouveau genre de think tank, dont les productions sont largement reconnues et Europe et ailleurs. http://fing.org/ Kit de ressources OpenData : Between nothing and a blog

No clutter No registration. No set-up. No save button. No sidebar.

Clear privacy Create and share on your terms.

Temporary or permanent One day, one week, one month. You choose.

Public or private Open to the world or password-protected. One editor or many.

http://checkthis.com/ji0b Les Interconnectés : le réseau des territoires innovants

Page 15: Bibliographie - Ouverture des données

Le Réseau des Territoires innovants est une association indépendante qui a pour objectif de favoriser la diffusion des usages des nouvelles technologies dans les collectivités locales. L'Assemblée des Communautés de France et l'Association des Communautés Urbaines de France, en sont les fondateurs et invitent les autres associations territoriales à se joindre à elles afin de développer un programme d'innovation et de diffusion des usages des nouvelles technologies sur le territoire français. http://www.interconnectes.com/fr/ LiberTIC Depuis 2010, l’association Libertic invite régulièrement les internautes et membres de la communauté open data à remonter les initiatives en matière d’ouverture de données publiques en France afin d’en réaliser une cartographie et suivre les avancées du mouvement. http://libertic.wordpress.com/ LOV (Linked Open Vocabularies) Welcome to LOV, your entry point to the growing ecosystem of linked open vocabularies (RDFS or OWL ontologies) used in the Linked Data Cloud. Here you will find vocabularies listed and individually described by metadata, classified by vocabulary spaces, interlinked using the dedicated vocabulary VOAF. You will enjoy querying the LOV dataset either at vocabulary level or at element level, exploring the vocabulary content using full-text faceted search, and finding metrics about the use of vocabularies in the Semantic Web. http://labs.mondeca.com/dataset/lov/ Open Data Consortium The ODC project was established to derive a model policy for distributing governmental geospatial data, that can serve as a de-facto example to guide public agencies. The model policy has been developed with representatives from local government, private companies, federal and state agencies who were willing to pursue a broad consensus of agreement. We also discovered many ways local agencies can support their GIS operations without having to sell their public geospatial data. http://www.opendataconsortium.net/ OWNI OWNI is a social media which brings you the very best news and prospective ideas on the ever-changing digital age – today in France, tomorrow all around Europe & in USA. www.owni.fr Planet Data The PlanetData project aims to establish a sustainable European community of researchers that supports organizations in exposing their data in new and useful ways. This section will give an overview of our efforts, our partners and programs. http://www.planet-data.eu/

Bibliographie/Ressources réalisée par le service IST INRIA Grenoble - Rhône-Alpes/ Juin 2012 Pour tout renseignement, contactez [email protected] / La version web de cette bibliographie est (lien à

intégrer)