Les flux RSS

7
Introduction On parle en général de «syndication de contenu» pour désigner la possibilité de republier sur un site Web - en principe de façon automatisée - du contenu provenant d’un autre site Web. Depuis l’origine du Web ou presque, de nombreux procédés ont vu le jour, pour permettre cette syndi- cation. Les éditeurs Web ont rapidement perçu l’intérêt d’afficher sur leur site des actualités provenant d’autres sources, sans avoir à produire eux-mêmes ce contenu. Pour les sites «classiques», c’était un bon moyen de faire vivre la page d’accueil sans avoir à effectuer des mises à jour quotidennes. Pour les sites d’actualités, il s’agissait à l’inverse de gagner du trafic, en étant «visible» sur d’autres sites : seuls les titres des actualités étaient «syndiqués», et il fallait cliquer pour parvenir à l’information pro- prement dite. Par la suite, la syndication de contenu a également constitué une possible source de revenus pour les éditeurs Web. Via des processus automatiques, il devenait possible de «livrer» du contenu périodique à d’autre éditeurs, de façon plus simple qu’en envoyant des fichiers par email par exemple. Dans les dernières années, un ou plutôt plusieurs format(s) se sont imposés pour assurer la syndica- tion de contenu, regroupés sour le terme «RSS». RSS n’est pas une norme, comme nous le verrons, et fait même l’objet d’une véritable bataille de standards. Pourtant, ce format est aujourd’hui très populaire, et va assurément jouer un rôle majeur dans l’avenir du Web, changeant nos habitudes de consommation de l’information, et constituant une alternative aux lettres d’information diffusées par email. Du reste, si RSS est particulièrement bien adapté aux sites d’actualités, donc aux weblogs, il peut également être utilisé dans d’autres cadres. Qu’est ce que RSS ? RSS signifiait initialement «Rich Site Summary» (Som- maire de site enrichi) mais l’acronyme est souvent interprété comme «Really Simple Syndication» (une Syndication vraiment simple). Concrètement, RSS est un moyen de décrire un con- tenu Web, à l’aide de balises spécifiques. Le principe de fonctionnement de RSS est très simple : un fichier texte est généré par un site Web ou un blog. Ce fichier comporte des «tags», qui caractérisent le contenu et sont décodés par des logiciels conçus à cet effet. Le principe est donc très similaire à celui de HTML. Un fichier HTML est décodé par un navigateur Web, qui «comprend» la signification des balises, les inter- prète, et affiche le résultat sans les tags (texte formatté, liens hypertextes actifs, etc.). C’est la même chose pour RSS, dont la lecture nécessite un outil spécial, un «agrégateur» ou «lecteur RSS». Ce qu’on appelle «flux» ou «fil» RSS est donc un simple fichier texte, comprenant du contenu (en général une succession d’actualités) et des balises délimitant les champs de ce contenu (titres, dates, auteurs). En quelque sorte, c’est un «résumé propre», formatté dans une syntaxe précise, de ce qu’il y a de nouveau sur un site Web. Ce fichier est le plus souvent généré automatiquement, au fur et à mesure de la publication de nouvel- les actualités, de sorte qu’il n’existe qu’un fichier RSS pour un site Web ou blog donné (il est toutefois possible de générer plusieurs fils RSS, un par rubrique du site par exemple, mais le principe reste le même). L’utilisateur qui veut ensuite tirer parti de ce contenu, c’est-à-dire le syndiquer sur son propre site ou simplement consulter le fil d’actualités correspondant, n’a plus qu’à récupérer ce «fichier RSS», accessible par une URL unique. Dans les faits, les choses sont un peu plus compliquées, du fait de l’histoire mouvementée de la syn- taxe RSS, et des conflits d’intérêt qui en ont découlé. Par abus de langage, j’ai parlé de «fichier RSS», mais il existe en réalité plusieurs types de flux RSS, correspondant à des formats différents. Veille documentaire sur le Web Utilisation des fils de nouvelles

description

RSS flux les

Transcript of Les flux RSS

Introduction

On parle en général de «syndication de contenu» pour désigner la possibilité de republier sur un site Web - en principe de façon automatisée - du contenu provenant d’un autre site Web.Depuis l’origine du Web ou presque, de nombreux procédés ont vu le jour, pour permettre cette syndi-cation. Les éditeurs Web ont rapidement perçu l’intérêt d’afficher sur leur site des actualités provenant d’autres sources, sans avoir à produire eux-mêmes ce contenu. Pour les sites «classiques», c’était un bon moyen de faire vivre la page d’accueil sans avoir à effectuer des mises à jour quotidennes. Pour les sites d’actualités, il s’agissait à l’inverse de gagner du trafic, en étant «visible» sur d’autres sites : seuls les titres des actualités étaient «syndiqués», et il fallait cliquer pour parvenir à l’information pro-prement dite.Par la suite, la syndication de contenu a également constitué une possible source de revenus pour les éditeurs Web. Via des processus automatiques, il devenait possible de «livrer» du contenu périodique à d’autre éditeurs, de façon plus simple qu’en envoyant des fichiers par email par exemple.Dans les dernières années, un ou plutôt plusieurs format(s) se sont imposés pour assurer la syndica-tion de contenu, regroupés sour le terme «RSS».RSS n’est pas une norme, comme nous le verrons, et fait même l’objet d’une véritable bataille de standards. Pourtant, ce format est aujourd’hui très populaire, et va assurément jouer un rôle majeur dans l’avenir du Web, changeant nos habitudes de consommation de l’information, et constituant une alternative aux lettres d’information diffusées par email.Du reste, si RSS est particulièrement bien adapté aux sites d’actualités, donc aux weblogs, il peut également être utilisé dans d’autres cadres.

Qu’est ce que RSS ?

RSS signifiait initialement «Rich Site Summary» (Som-maire de site enrichi) mais l’acronyme est souvent interprété comme «Really Simple Syndication» (une Syndication vraiment simple).Concrètement, RSS est un moyen de décrire un con-tenu Web, à l’aide de balises spécifiques. Le principe de fonctionnement de RSS est très simple : un fichier texte est généré par un site Web ou un blog. Ce fichier comporte des «tags», qui caractérisent le contenu et sont décodés par des logiciels conçus à cet effet. Le principe est donc très similaire à celui de HTML. Un fichier HTML est décodé par un navigateur Web, qui «comprend» la signification des balises, les inter-prète, et affiche le résultat sans les tags (texte formatté, liens hypertextes actifs, etc.). C’est la même chose pour RSS, dont la lecture nécessite un outil spécial, un «agrégateur» ou «lecteur RSS».Ce qu’on appelle «flux» ou «fil» RSS est donc un simple fichier texte, comprenant du contenu (en général une succession d’actualités) et des balises délimitant les champs de ce contenu (titres, dates, auteurs). En quelque sorte, c’est un «résumé propre», formatté dans une syntaxe précise, de ce qu’il y a de nouveau sur un site Web.Ce fichier est le plus souvent généré automatiquement, au fur et à mesure de la publication de nouvel-les actualités, de sorte qu’il n’existe qu’un fichier RSS pour un site Web ou blog donné (il est toutefois possible de générer plusieurs fils RSS, un par rubrique du site par exemple, mais le principe reste le même). L’utilisateur qui veut ensuite tirer parti de ce contenu, c’est-à-dire le syndiquer sur son propre site ou simplement consulter le fil d’actualités correspondant, n’a plus qu’à récupérer ce «fichier RSS», accessible par une URL unique.Dans les faits, les choses sont un peu plus compliquées, du fait de l’histoire mouvementée de la syn-taxe RSS, et des conflits d’intérêt qui en ont découlé. Par abus de langage, j’ai parlé de «fichier RSS», mais il existe en réalité plusieurs types de flux RSS, correspondant à des formats différents.

Veille documentaire sur le WebUtilisation des fils de nouvelles

Un peu d’histoire

La société Userland Software, éditeur du fameux outil de blogging «Radio», a commencé à propo-ser une méthode de syndication en décembre 1997. Basé sur XML, le format était appelé «Scripting News».Le nom RSS a été utilisé pour la première fois par Netscape, qui a créé en mars 1999 la méthode RSS. La société a par la suite abandonné le format, alors dans sa version «RSS 0.91».RSS a continué d’évoluer, mais simultanément dans deux directions divergentes.D’un côté Userland Software, animée par Dave Winer, a proposé plusieurs versions : RSS 0.92, 0.93, 0.94, puis 2.0.De l’autre un groupe de travail, RSS-DEV, a défini RSS 1.0 en s’appuyant sur la norme de description RDF («Resource Description Framework», ou Cadre de description de ressources, destiné à normaliser la syntaxe d’un document et des meta-données servant à le décrire).Il existe donc de multiples versions de RSS, qui se caractérisent par des syntaxes (certains diront «des philosophies») différentes. Et, outre le fait que ces formats ne sont pas tous compatibles entre eux, on peut déplorer que le même nom (RSS) s’applique à des choses différentes, et qu’il ne s’agisse toujours pas d’une norme officielle, comme pour HTML ou XML.Du reste, si on peut reconnaître à Dave Winer le fait d’avoir rendu populaire RSS, on lui a souvent reproché d’avoir tenté de s’approprier ce «non-standard» pour en faire un format propriétaire. Toujours est-il qu’il semble un peu tard pour refaire l’histoire, d’autant que Winer a «libéré» RSS 2.0 en juillet 2003, en transférant la propriété des spécifications au «Berkman Center for Internet & Society» de l’Ecole de Droit de Harvard. La gestion du RSS 2.0. est depuis lors assurée par un comité consultatif, dont Dave Winer a démissioné en juillet 2004.Mais l’histoire ne s’arrête pas là, puisqu’un format de syndication alternatif est en passe de devenir un standard reconnu par l’Internet Engineering Task Force (IETF). Dénommé «Atom», il est né des dispu-tes entre les différents protagonistes des versions successives de RSS.Si certains voient en Atom la consécration d’un véritable standard, universel et ouvert, d’autres repro-chent au projet d’ajouter à la confusion géné- rale. La spécification du format Atom n’est pas encore tout à fait finalisée, mais plusieurs acteurs importants de la blogosphère, dont Google, basent déjà certains de leurs services sur Atom et la grande majorité des lecteurs RSS sont capables de lire des flux Atom.

Les principaux formats

En conséquence de ce qui précède, les formats de syndication les plus répandus aujourd’hui sont :

RSS 0.91 RSS 0.92 RSS 2.0

Le «fichier RSS» est souvent de type «rss.xml».Il doit être conforme aux spécifications XML. Le fichier contient un élément <rss> (indiquant la version utilisée), comprenant lui-même un seul éle-ment <channel>. Ce «channel» (canal, ou flux) comporte le contenu et les meta-données le décrivant (balises), tout étant décrit dans plusieurs champs <item>. Un «item» est en général une actualité.La version 2.0 est bien sûr la plus complète (par exemple, en version 0.91, on ne gère pas de date de publication et d’auteur par actualité, mais globalement pour tout le flux).

RSS 1.0

Le «fichier RSS» est souvent de type «rss.rdf».Il commence par l’élement principal <rdf>, puis par un élément <channel>, et enfin par une liste d’éléments <item> qui sont traités séparément (contrairement à RSS 0.91, qui englobe tous les items dans un «channel»).

Atom

La spécification Atom n’est pas finalisée et peut donc encore évoluer. La structure d’un fichier Atom est similaire à celle d’un flux RSS. Le fichier contient une balise <feed>, qui englobe le reste du contenu, soit : une balise <head> décrivant les en-têtes du fichier et une série de balises <entry> qui définis-sent les données relatives à chacune des entrées.

Ces trois types de formats sont donc différents, tant dans leurs syntaxes que dans les normes sur les-quelles ils s’appuient.Toutefois, en pratique, ce problème n’apparaît pas réellement pour l’utilisateur final. Typiquement, un blogueur produira l’un ou l’autre des flux, voire les trois, sans vraiment avoir le choix, celui-ci étant souvent imposé par l’outil de blogging utilisé. Quant au consommateur qui lit des flux RSS, il utilisera un lecteur qui accepte le plus souvent les différents formats.A noter également que ni le nom ni l’extension du fichier n’ont d’importance. Un fil RSS 1.0 ou 2.0 peut tres bien s’appeller «truc.rss», de même que les fichiers de syndication sur l’outil SPIP sont géné-riquement appelés «backend.php3».

Avantages

Avant d’aller plus loin dans l’utilisation de RSS, il est utile de rappeler son intérêt.

Pour le webmaster/blogueur

Proposer un flux de contenu en syndication est simple et de plus en plus automatisé par les outils de blogging. La méthode est en particulier plus facile à mettre en place qu’une newsletter email, et moins lourde à gérer (pas d’abonnement/désabonnement, c’est l’utilisateur qui vient récupérer lui-même le flux RSS).Tout le contenu n’étant pas syndiqué, RSS constitue donc un moyen de récupérer du trafic : l’utilisa-teur consulte les fils d’actualités, et parvient au site d’origine en cliquant sur l’actualité qui l’intéresse.

Pour l’internaute

RSS ouvre une voie nouvelle en matière de con-sultation d’information en ligne. Via les outils dont nous allons parler, l’utilisateur peut consulter très facilement les flux provenant de multiples sources d’information différentes. Il peut donc rapidement voir les sites mis à jour, et traquer ce qui l’inté-resse, sans avoir à visiter chacun des sites (pour s’apercevoir, souvent, qu’ils n’ont pas été mis à jour).RSS est aussi un bon moyen d’éviter les (nom-breux) désagréments des lettres d’informations : on ne donne plus son adresse email, on va cher-cher une fois pour toutes l’URL du flux que l’on souhaite, et on le consulte ensuite dans un lecteur RSS. Il est ensuite facile de supprimer ce flux en cas de déception. Et contrairement à l’email, RSS rend impossible la diffusion de spam et de virus.

Au total, RSS rend donc possible la promesse d’un Web plus intelligent et moins contraignant, personnalisé en fonction des besoins de chaque internaute. En outre, en se généralisant, RSS peut s’ouvrir à de multiples applications, et pas seulement aux fils d’actualités proprement dits : on peut imaginer que dans un avenir proche, programmes TV, prévisions météo, informations boursières ou autres «best-of» soient publiés dans ce format, devenant ainsi un nouvel «esperanto du Web».

Source : http://www.pointblog.com/abc/rss_et_syndication_1.htmIntroduction : RSS/ATOM ou la syndication de contenu

La masse d’informations disponibles sur les sites web croît sans cesse. L’information. Voila bien le nouveau nerf de la guerre dans la galaxie internet. Avec sa popularité, Internet est un nouveau mé-dia qui compte chaque jour de nouveaux adeptes. Et chose nouvelle, tout un chacun peut produire de l’information. Ce n’est plus un domaine réservé, comme ce peut être le cas des médias télévisuels ou de presse écrite. Ce nouveau phénomène, porté par les weblogs (ou carnet web) pose un nouveau problème. Si l’information est alors plus disponible, et les avis plus variés, la multiplication des sour-ces crée paradoxalement de la sur-information. Il y a donc une place pour des sites Internet «portails» qui agrège l’information, c’est à dire qui sélectionnent les sources de données pour leur qualité ou leur spécificité et présente cette information d’une façon agréable et lisible.

Par exemple, un site financier peut proposer une liste d’articles décrivant des analyses, un site de sport peut proposer plusieurs canaux de brèves (une par sport), etc... Il est alors possible pour un site por-tail de «picorer» à droite, à gauche pour former sa propre identité (par exemple, présenter les derniè-res nouvelles sur des équipes sportives avec des informations financières sur leurs sponsors, des com-mentaires de sportifs issus de leur weblog...). Le portail se contente d’afficher une liste de brèves avec un design qui lui est propre. Les actualités sportives et financières étant fournies par le site concerné. Ainsi, le site peut présenter une autre façon de voir l’information, plus ciblée.

Pour réaliser cela, deux approches sont possibles :

- lire le fichier HTML contenant l’information, analyser sa structure et extraire les données intéressan-tes. Cette solution nécessite du code adapté au format du fichier HTML, susceptible de changer à tout moment au gré du fournisseur de contenu (les relookages sur le web sont fréquents).

- utiliser un fichier qui sépare complètement les données de la présentation, éliminant ainsi les défauts décrits ci-dessus. Cette approche est celle de RSS, où, dans un fichier RSS, seul le contenu est présent (avec omission totale d’éléments de présentation). Ce format de fichier permet de décrire un ensemble d’informations (sous forme de brèves), offrant pour chacune un lien vers une description plus consé-quente. Les nouvelles sont associées à un canal particulier (c’est à dire un type d’information en parti-culier : sport, finances,...).

Les apports de RSS pour les fournisseurs d’information sont multiples. Le format est défini une fois pour toutes, et il est partagé par tout le monde. De plus, dans un fichier RSS, seuls des titres sont fournis (une collection de liens avec éventuellement par chaque lien une brève description).Le coût de mise en place est donc très faible : mettre à jour un fichier de contenu !

Deux aspects sont importants pour un fournisseur de contenu :

- Communication externe : le fournisseur met à disposition un fichier RSS qu’il actualise selon la fré-quence qu’il désire. Il enregistre le lien (URI) vers ce fichier auprès d’agrégateur(s) de contenu (New-sIsFree, Syndic8, 2rss) et/ou le laisse disponible sur son site. Enfin, il laisse les utilisateurs qui surfent sur différents sites reprenant l’information ainsi publiée (par présentation du fichier RSS) générer du trafic (puisque l’article complet est localisé chez lui)...

- Communication interne : des collaborateurs d’une même entreprise localisés à différents endroits peuvent se tenir au courant des activités des différentes équipes. Chaque équipe maintient un fichier RSS décrivant quelles sont les nouvelles sur leur activité.

Le partage d’informations est couramment désigné par le terme de syndication. La pratique qui con-siste, pour un site portail par exemple, à regrouper plusieurs canaux à un même endroit est désignée par le terme agrégation. (Source : http://www.opikanoba.org/xml/030501/)

Sites ressources :

http://klogfr.blogspot.com/2004/09/systemes-automatiques-dagregations-de.htmlTrès bon article sur l’agrégation de contenu avec des exemples d’utilisation dans des collectivités loca-les.

Comment créer un fil RSS ?

Toute personne déjà initiée au principe de programmation sémantique (balises) va pouvoir programmer son flux RSS en quelques minutes.

1. Remarques préliminaires

Il subsiste un grand nombre de problèmes autour du format RSS, qui sont exactement inverses aux problèmes du HTML.

En HTML les codeurs se sont mis d’accord sur un petit nombre de standards (X)HTML. Hélas pour eux, les navigateurs Internet présentent parfois de grandes différences de compréhension face à ces stan-dards (les marges CSS sous Internet Explorer, par exemple.)

En RSS, les newsreaders comprennent à peu de choses près tous les formats, de la même manière. En revanche les programmeurs se livrent à différentes batailles rangées autour des formats RSS, autour de sa syntaxe, son appellation etc.

Dans cet article on utilise RSS 2.0 (le plus répandu) que l’on teste sous NetNewsWire Lite.

2. rss.xml

Créez votre fichier rss.xml (le nom importe peu, en réalité, le suffixe même peut changer, le plus sûr restant .xml) et entrez les informations suivantes :

<?xml version=»1.0» encoding=»utf-8»?><rss version=»2.0»><channel><title>Annuaire des Bouilleurs de Cru</title><link>http://www.abc-cognac.com/</link><description>Toutes les nouveautés sur les bouilleurs de cru.</description><language>fr</language><copyright>2004 Association des viticulteurs bouilleurs de cru du cognac</copyright><webMaster>[email protected]</webMaster>

Vous allez proposer sur votre site un flux XML rédigé en RSS 2.0, titré “Annuaire des Bouilleurs de Cru”, où vous publierez l’actualité des viticulteurs du Cognac. La balise <link> pointe vers la racine du site. Le reste des balises est parfaitement explicite.

Vos premières news sur le sujet :

<item><title>Exposition régionale</title><link>http://www.abc-cognac.com/expo.html</link><description>L’expo-cognac 2004 en détails.</description></item>

<item><title>Lancement du site</title><link>http://www.abc-cognac.com/plan.html</link><description>Le site des Bouilleurs de Cru est lancé. Une carte du site est disponible.</description></item>

Votre flux RSS peut contenir 15 items, des plus récents vers les plus anciens. La balise <link> indique un lien vers la page dont dépend la news. Dans les systèmes automatisés (blogs), le <link> pointe vers la news en question ; ici, on a fait pointer le lien vers une page d’approfondissement.

Refermez le fichier :

</channel></rss>

Conclusion

En passant l’exemple «Cognac» dans le validateur RSS de Mark Pilgrim, vous n’obtiendrez pas d’erreur significative. Avec le peu de syntaxe donnée dans cet article, avec le validateur et avec NetNewsWire Lite, vous avez de quoi découvrir le début du RSS. Pour approfondir, il vous suffira de décortiquer votre weblog pour voir comment il gère la syndication.

(Source : http://phnk.com/design/rss/)

Sites ressources :

http://www.commentcamarche.net/www/rss.php3Article technique sur la création d’un fil RSS (version 0.91 et 1.0)

http://developpeur.journaldunet.com/tutoriel/xml/020912xml_rssintro.shtmlArticle sur les fils RSS et la méthode de création d’une page XML.

Les annuaires de flux RSS/ATOM :

Il existe sur la toile des annuaires de flux RSS/ATOM qui se proposent d’indexer les différents sites compatibles avec cette technologie. Souvent assez peu exhaustifs, ils s’étoffent cependant au fur et à mesure des semaines. Ces annuaires proposent les sites par catégories (information, informatique, loi-sirs etc..) Certains proposent en plus des fils qui n’existent pas « officiellement » et qui ont été générés automatiquement. (ex : http://www.retronimo.com)

De plus en plus souvent, les annuaires proposent d’afficher leurs ressources (c’est à dire les flux RSS qu’ils ont repérés) sur son propre site. Le code à intégrer dans sa page est alors fourni. Un didacticiel est souvent mis à disposition des webmestres.

Sites ressources :

Annuaires en français :http://www.lamoooche.com/http://www.retronimo.comhttp://www.rssreporter.net/html/

Annuaires en anglais (disposant de flux en français) : http://www.newsisfree.comhttp://www.syndic8.com/feedlist.php?ShowLanguage=fr&ShowStatus=all (résultats pour les flux fran-çais)

Le Podcasting et la diffusion d’autres « médias » par les flux RSS/ATOM :

La notion de Podcasting vient de l’alliance des mots Pod (pour l’iPod, baladeur numérique) et casting (diffusion) C’est une technologie qui permet d’insérer dans ses flux RSS des fichiers audio ou vidéo. Cela permet à un audioblog ou une radio en ligne de diffuser ses articles ou émissions dans des fichiers audio téléchargeables. Ensuite il est aisé de les transférer dans un baladeur numérique (mp3). Cela préfigure le concept de radio ou télévision à la carte.

http://fr.wikipedia.org/wiki/PodcastingArticle sur le Podcasting (historique, concept, utilisation etc..)

http://www.iPodder.org (anglais) - http://ipodder.sourceforge.net/index.php Une grande sélection de podcasts et un logiciel (Windows) à télécharger pour récupérer les flux RSS audio sur son PC ou son baladeur numérique.

http://www.arteradio.com/home.htmlLes émissions de Arte-Radio sont disponibles en Podcasting.

http://www.blog-art.com/infos/blog_art__informations/2005/01/11/tout_sur_le_podcast.htmlArticle sur un blog avec des liens intéressants.