Les mesures hybrides - Médiamétrie, Mesure … · 2010-11-25 · La théorie de...

48
Les mesures hybrides Synergies et rapprochements entre les mesures de l’internet //

Transcript of Les mesures hybrides - Médiamétrie, Mesure … · 2010-11-25 · La théorie de...

Les mesures hybridesSynergies et rapprochements entre les mesures de l’internet

//

Ont contribué à la rédaction de ce livre blanc :

Estelle DUVAL, Directeur marketing et développement,Médiamétrie//NetRatings

Aurélie VANHEUVERZWYN,Directeur de la DAMS(Direction Analyses etMéthodes Scientifiques)

Julien ROSANVALLON, DirecteurMédiamétrie//NetRatings

Benoît CASSAIGNE, Directeur des Mesuresd’Audience

Philippe TASSI, Directeur Général Adjoint

Avec la participation de Médiamétrie-eStat

• 2004-2005. Mesure de l’effacement de cookies et premiers tests de rapprochement dupanel et du site-centric > P.11 • 2007. Lancement du médiaplanning « standard 3 », unemesure d’audience tous lieux de connexion intégrant les pages vues site-centric > P.15

• 2008. Lancement du médiaplanning « Audiweb » en Italie, une mesure d’audience touslieux de connexion intégrant un redressement des données user à partir des pages vues site-centric > P.19 • 2009. Lancement de la mesure d’Efficacité Publicitaire « Ad Effective-ness » > P.20 • 2010. Lancement de la mesure de l’Internet Mobile et de la mesure Streaming > P.21 • 2011. Lancement d’une nouvelle mesure hybride du web français > P.23

Historique des mesures hybrides

• 1- Périmètre de mesure > P.25 • 2- Univers de mesure > P.25 • 3- Indicateursmesurés > P.26 • 4- Exhaustivité de la base site-centric > P.27 • 5- Données individuellesou agrégées ? > P.28 • 6- Nomenclature > P.29 • 7- Cohérence et qualité des bases utili-sées > P.30

Les points clés d’une mesure hybride réussie

Synthèse des mesures hybrides

Quelle mesure hybride pour demain ?

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 2010

Préface de Philippe TASSI > P.5

La mesure hybride, une innovation ?

Sommaire

3

• 1. Mesure d’audience par panel enrichie des niveaux d’usage issus du site-centric –mesure hybride partielle > P.33 • 2. Mesure d’audience avec redressement du panel sur lesrésultats site-centric – mesure hybride globale > P.35 • 3. Mesure site-centric marché avecdes données de profil issues du panel > P.38 • 4. Mesure logs marché + panel > P.40

• Conclusion > P.42

Vers les mesures d’audiences de demainTexte de Benoît CASSAIGNE > P.45

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 2010

Préface

1 – IIS : L’Institut International de Statistique a été créé à Londres en 1885 dans le cadre dujubilé célébrant le cinquantenaire de la Royal Statistical Society. Sa vocation première,développer et améliorer les méthodes statistiques et leurs applications.

5

a statistique est la science de la connaissance chiffréed’un phénomène. Pendant longtemps, des millénai-res, cette science d’observation a été régie parl’exhaustivité, au sens où toutes les entités observa-

bles devaient l’être : d’où le concept de recensement.

En outre, le protocole d’observation se devait d’êtreunique, et l’ensemble des données ainsi collectées était « la » basedes analyses et des synthèses réalisées sur le sujet d’intérêt. Ces deuxcomposantes, exhaustivité et mono-source, ont bien évolué dans letemps.

Même si de brèves tentatives avaient eu lieu auparavant, l’appari-tion visible de la notion d’échantillon dans l’exposé d’Anders Kiaer en1895, au congrès de l’Institut International de Statistique1 de Berne, aouvert la porte à la « pars pro toto ».

L’arrivée de la logique d’échantillonnage dans la démarche scienti-fique ne fût pas chose évidente ou aisée, et il faudra attendre 1925 pourque la Commission d’évaluation ad-hoc de l’IIS en reconnaisse le bien-fondé. Et face à la potentielle diminution de l’information disponibleperçue par les tenants de l’exhaustivité, conséquence éventuelle dupassage de la totalité au partiel, le mélange des sources et desconnaissances est une réponse satisfaisante.

Le fait de mêler des sources diverses existe fugitivement, presquetrois siècles plus tôt, dans l’approche de Colbert et Vauban tentantd’avoir une vision globale de l’économie de la France, par juxtapositionde données disparates, ou encore dans le cadre de l’Ecole anglaise ditede l’arithmétique politique, de John Graunt et William Petty ; ces der-niers, pour estimer la population de Londres, vont marier deux typesde données : les premières sont de nature administrative et portentsur le nombre de logements (les « feux », suivis par le Bureau desFeux), les secondes proviennent d’une estimation partielle du nombremoyen de personnes par logement.

Au XXème siècle, dès les travaux fondateurs de la théorie des sonda-ges menés par Jerzy Neymann, au début des années trente, le recoursà une information auxiliaire est implicite ; la création de la Sociétéd’Econométrie en 1930, puis de la revue Econometrica en 1933, don-nent un vrai statut aux modèles liant variables exogènes et variables

La mesure hybrideune innovation ?

L

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 20106

Le livre blanc

endogènes. Or, que sont ces modèles sinon des tentatives de lien entreune variable à expliquer et des informations extérieures ?

Mélanger deux sources d’information de natures et de niveaux dif-férents, les croiser mutuellement pour en créer une troisième, plusfine ou plus riche, est une démarche devenue naturelle. C’est cettedernière que nous qualifierons de mesure hybride, employant en celale terme bien connu issu de la génétique et qui désigne simplement lecroisement de deux objets préexistants pour en créer un nouveau ; cesobjets, pour nous, ne seront pas des individus ou des espèces, maisdes systèmes d’information au sens large du terme.

L’hybridation est donc un processus qui s‘appuie sur des mesurespréalables. Et, pour continuer le parallèle avec la génétique, il estnécessaire de partir de deux sources de qualité pour obtenir, par hybri-dation, une information encore plus riche, plus puissante. Ceci estpeut-être une évidence, mais mérite d’être rappelé.

Dans ce cas, à l’observation mono-source directe, vient se juxtapo-ser une « intelligence » d’un autre type, pour établir le lien entre lessources, les rendre cohérentes, donner naissance à une nouvelle infor-mation : on est alors tout près de la notion de modèle ou de rappro-chement.

6

La mesure hybride une innovation ?

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 2010

Préface

La théorie de l’échantillonnage, ou des « sondages », comme onl’a traduite en français, a parfaitement intégré cette démarche d’enri-chissement. Elle est présente après 1946 à l’INSEE dès les travaux dePierre Thionet et de Raymond Lévy-Bruhl, dans le cadre de son Ecoled’Application, la future ENSAE2, ou de Jacques Desabie, directeur de laStatistique Générale, professeur à l’ENSAE et auteur de l’ouvrage deréférence Théorie et Pratique des sondages, et qui fût président duComité Scientifique du CESP3.

Plus récemment, le recours à des informations auxiliaires pouraméliorer des résultats issus d’un échantillon fait l’objet de chapitresdans les ouvrages de Pascal Ardilly4 (1994), Yves Tillé5 (2001), ou encoredans le livre de Carl-Erik Särndal, Bengt Swensson et Jan Wretman(1992)6.

Ardilly écrit ainsi : « Le principe fondamental à retenir est le sui-vant : lorsqu’on dispose d’une information auxiliaire, il faut chercher àl’utiliser …. ». Pour cet auteur, le redressement a posteriori d’unéchantillon relève, par exemple, entièrement de cette philosophie ; et,par ailleurs, la qualité d’une nouvelle source obtenue en recalant undispositif initial sur des informations additionnelles montre bien l’im-portance que ces informations soient les meilleures possibles. Quel’algorithme de redressement soit pertinent et convergent est unecondition nécessaire, mais que dirait-on de coefficients individuels depondération construits en recalant un échantillon sur des objectifserronés ?

Deux exemples parmi d’autres : aux Journées de MéthodologieStatistique de l’INSEE, en 2009, Philippe Brion présente l’utilisationcombinée de données d’enquêtes et de données administratives pourla production des statistiques structurelles d’entreprises dans le cadredu projet ESANE (Élaboration des Statistiques Annuellesd’Entreprises), dans la lignée du Système Unifié de Statistiques

2 – ENSAE : Ecole Nationale de la Statistique et de l’Administration Economique – Créée en1942, l'ENSAE est une école d'application de l'École Polytechnique depuis l'origine. Elleforme aujourd'hui principalement des statisticiens économistes, non fonctionnaires, touten conservant sa mission de formation des administrateurs de l'INSEE.

3 – CESP : Centre d’Etudes des Supports de Publicité - Créé en 1957, le CESP est l'associationinterprofessionnelle qui regroupe l'ensemble des acteurs du marché publicitaire concer-nés par l'étude de l'audience des médias. C'est un organisme tripartite qui regroupe à lafois les médias (ou leurs régies), et les utilisateurs des données d'audience (annonceurs,centrales d'achat, agences de publicité). La mission première du CESP est l'audit des étu-des d'audience qui servent à réguler le marché de l'espace publicitaire.

4 – Pascal Ardilly, Les Techniques de Sondage, éd. Technip, 1994

5 – Yves Tillé, La Théorie des Sondages, éd. Dunod, 2001

6 – Carl-Erik Särndal, Bengt Swensson et Jan Wretman, Model-Assisted Survey Sampling, éd.Springer Verlag, 1992

7

La mesure hybride une innovation ?

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 20108

Le livre blanc

d’Entreprises (SUSE) lancé au début des années 70 ; et, au ColloqueFrancophone sur les Sondages (Tanger, 2010), Richard Laroche, deStatistique Canada, expose une démarche analogue combinant desinformations financières et fiscales sur les entreprises.

Dans de nombreux autres domaines, la culture, les spectacles, lesport, il est fréquent de chercher à réconcilier la mesure de la fréquen-tation – le nombre de billets vendus – et les comportements indivi-duels, c’est-à-dire l’audience. Pour énoncer des évidences, sur unelongue période, le nombre de billets vendus dans un musée, un stadeou une salle de cinéma ne correspond pas au nombre de personnesayant fréquenté ce lieu, puisqu’on peut y revenir.

En médias, essayer de tirer profit de la concomitance de deux sour-ces – ou plus – n’est pas une pure innovation.Ainsi, dans les années 80’s, Alain Parodi, vice-président du Credome,recherche, dans le cas de la presse, à mettre en cohérence les donnéesde diffusion de l’OJD7 et les résultats d’audience des études adminis-trées par le CESP.À la fin de cette même période, alors que la mesure d’audience de latélévision est encore régie par l’Audimat, c’est-à-dire une audiencedénombrant les foyers, Médiamétrie produit l’Audimat + en enrichis-sant les comportements TV des foyers par l’audience individuellerecueillie par téléphone dans son étude 55000, permettant ainsi depasser à des résultats individuels par cible.

Autre illustration : la probabilisation conjointe des données d’au-dience de la radio provenant des sources 75000 et Panel, à la fin desannées 90 (J-L. Chandon, P. Mauris, J-L. Stehlé, 1999)

Les fusions, qu’elles soient bi-médias ou plus récemment cross-médias, procèdent de cette même logique d’hybridation, de même quela volonté de recaler des données de voie de retour, exhaustives oupresque mais qui ne comptent « que » l’activation ou non d’un boîtiernumérique, sur des comportements individuels d’audience issus d’unéchantillon ou d’un panel. Ce dernier exemple montre les apports réci-proques et les complémentarités de l’exhaustivité d’une part, permisepar la technologie de voie de retour, mais à un niveau de granularitéassez agrégé – un boîtier –, et de l’échantillon d’autre part, fournissantdes données recueillies par nature sur un champ partiel, mais fines,détaillées, et au niveau individu.

7 – OJD : Créé en 1922, la mission de l'OJD est de certifier la diffusion, la distribution et ledénombrement des journaux, périodiques et de tout autre support de publicité.Baromètre de la diffusion des titres de la presse française, L'OJD certifie également la fré-quentation des sites web.

8

La mesure hybride une innovation ?

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 2010

Préface

Ce qui est passionnant dans cette logique d’enrichissement, c’estqu’aux travaux et aux réflexions inévitables liés à chacune des sourcesutilisées, à leur conception, leur amélioration et leur optimisation,s’ajoute une dimension majeure que nous qualifierons de « modèle »,mettant sous ce vocable de vrais modèles probabilistes ou statistiquesou des méthodes algorithmiques ou numériques de rapprochement.

Nous pensons qu’il s’agit là d’une évolution du paradigme de lamesure, qui recourt à une démarche somme toute parfaitement natu-relle : aller encore plus loin dans les systèmes d’observation mono-sources actuels, et aller chercher, pour s’en servir utilement et aubénéfice de tous, l’information où qu’elle se trouve.

Et s’il est un champ d’application pertinente de cette approchehybride, c’est Internet : les pages qui suivent vont le prouver.

Philippe TASSI

9

La mesure hybride une innovation ?

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201010

Le livre blanc

Internet : un champ d’application idéal desmesures hybrides

L’Internet, comme média numérique, offre de très nombreuses pos-sibilités de mesure. Les premières mesures du web sont apparues dèsle début des années 90 avec une analyse des logs des serveurs. Cettemesure fut complétée par une approche plus fine via des tags dès lemilieu des années 90. C’est ce que l’on appelle aujourd’hui la mesuresite-centric. Les premières mesures d’audience par panel sont appa-rues en 1996. Ces deux dispositifs, ont été historiquement conçus defaçon autonome, car abordant des concepts distincts : trafic etaudience.

Sur le marché publicitaire, les plans médias sont préparés à partirde données issues des panels, le comptage des contacts délivrés estfait avec des outils de dénombrement (les ad-servers sont des outils aufonctionnement similaire à celui de la mesure site-centric).

Ces deux outils apportent donc une perspective différente sur l’ana-lyse des usages internet. Ces différences portent aussi bien sur lesconventions que sur l’aspect technique de la mesure.

Depuis 2004, Médiamétrie//NetRatings et Médiamétrie travaillentau rapprochement du user et du site-centric et disposent d’un réelsavoir-faire dans ce domaine à travers différents dispositifs dits « hybrides » ayant vu le jour depuis.

Ces nombreuses expériences nous ont appris que si cette réconci-liation semble idéale, elle demande une extrême rigueur dans le pro-cessus d’hybridation et une grande précaution dans les détails du faitdes différences qui existent entre ces deux mesures, notamment surdes indicateurs comme les visites, les pages ou le temps.

Par ailleurs, il est évident que pour mettre en place une mesurehybride de qualité rendant cohérents résultats de trafic et d’audience,il est nécessaire de s’appuyer sur un panel (mesure user-centric) dequalité ET une mesure site-centric de qualité.

L’objectif de ce livre blanc est de présenter les dispositifs expéri-mentés par Médiamétrie//NetRatings, Médiamétrie et ses partenairesau cours de ces dernières années pour offrir une base à la construc-tion des mesures hybrides de demain.

10

La mesure hybride une innovation ?

1 // Historique

Historique des mesures hybrides

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201011

des mesures hybrides

Historique des mesures hybrides

2004 - 2005Mesure de l’effacement de cookies et premiers tests de rapprochement du panel et du site-centric.

L’expérience de Médiamétrie : Le projet SQU (Site Questionnaire User)

Dès 2004, Médiamétrie s’est penché sur la possibilité derapprocher les mesures panel et site-centric, c’est-à-diredonnées sites et individus, dans l’optique de calculer uneaudience globale tous lieux de connexion. Dans ces pre-miers travaux, deux hypothèses fortes avaient été posées :

- Le panel et le site-centric mesurent les visites de lamême façon.

- Les différences entre le nombre de visites panel et sitesont liées à la différence de périmètre (le site intégranttous les lieux de connexion, donc les autres lieux etl’étranger alors que le panel ne comptabilisait alorsque le domicile et le lieu de travail sur le territoirefrançais).*

Sur la base de ce constat, un modèle avait été bâti de lafaçon suivante :

Visites Totales (Source site) = Visites Domicile & Travail (Source panel)

+ Visites Autres Lieux (Inconnue)

+ Visites Étranger (Source site sur la base des adresses IP)

Par différence, on peut recalculer l’inconnue de l’équation,le nombre de visites Autres Lieux.

À ce stade du modèle, un questionnaire était diffusé sur lesite (via le tag eStat) pour recueillir des données de profilet d’usages en fonction du lieu de connexion. Nous cher-chions à calculer le nombre de visites par visiteur pourpasser d’une équation de visites à une équation de visi-teurs. Les résultats du questionnaire étaient redressés

* – Il conviendrait aujourd’hui de retirer le trafic issu des terminaux autre que lesordinateurs personnels (Téléphones, TV connectées, Consoles de jeux,Tablettes…)

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201012

Le livre blanc

1 // Historique des mesures hybrides

12

Le livre blanc

sur la base des résultats mesurés sur le domicile et le lieu de travailpar le panel (nombre de visites par visiteur) pour corriger les biais dudéclaratif sur internet.

Ainsi, nous en déduisions le nombre de visites par visiteur pour chaquelieu de connexion.

Sur la base de ces résultats, nous avons pu en déduire le nombre devisiteurs uniques au global et par lieu de connexion.

De nombreux tests ont été menés de façon satisfaisante sur plusieurssites en 2004 et 2005.

Ce qu’il faut retenir de cette approche :

Cette méthode avait pour principal objectif de montrer de façon claire l’impact des différences de périmètredes deux mesures, mais surtout de calculer une audience glo-bale sans restriction de lieux (en intégrant notamment lesautres lieux).

Sur le plan pratique, l’approche s’est révélée relativementlourde à mettre en place puisqu’elle nécessitait la mise en placed’une enquête (et d’un redressement ad-hoc) pour chaque sitemesuré.

L’expérience de Nielsen : Black Velvet

Dans le cadre des premiers travaux sur le rapprochement entre lesmesures panel et site-centric menés avec notre partenaire Nielsen,nous avons été amenés à mesurer le taux d’effacement de cookies.Pour des raisons pratiques ces mesures ont été faites en Italie.

Les résultats ont fait apparaître qu’environ 30% des personnes effacentleurs cookies au moins une fois par mois. Si cela représente une mino-rité de la population, la fréquence d’effacement mesurée induit au finalqu’un cookie sur deux est effacé au cours d’une période d’un mois. Sur

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201013

Historique des mesures hybridesHistorique des mesures hybrides

l’ensemble des visites internet au cours d’un mois, la moitié des coo-kies générés est donc effacée par 30% seulement des internautes.

Figure 1 :

Distribution de l’effacement des cookies

(Mesure effectuée en Italie en Juillet 2005 sur les sites mesurés parNielsen)

Pour mesurer l’effacement des cookies, le meter du panel Nielsen uti-lise sa capacité à identifier les cookies présents sur le(s) poste(s) dupanéliste. En enregistrant ces informations tout au long du mois, lecalcul de l’effacement des cookies est ainsi possible. Ainsi, si un pané-liste efface ses cookies une fois et visite à nouveau le site concerné, lemeter enregistrera que deux cookies différents ont été déposés surson poste.

Bien que réalisée en 2005, cette expérience semble garder toute sapertinence. Des analyses plus récentes (menées par Nielsen et destiers sur le marché) corroborent ces résultats et confirment cette ten-dance.

L’objectif alors poursuivi était de fournir des clés de passage entrenavigateurs uniques et visiteurs uniques, ces éléments clés étant

1 // Historique des mesures hybrides

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201014

Le livre blanc

1 // Historique des mesures hybrides

essentiellement mesurés par le panel. Par exemple le panel peutmesurer le nombre d’utilisateurs sur un même ordinateur ou détecterlorsqu’une même personne se connecte à un même site depuis plu-sieurs lieux.

Figure 2 :

Ce qu’il faut retenir de cette approche:

Sur le plan théorique cette méthode est séduisante car elle per-met de comprendre en détail les écarts entre une mesure panelet une mesure site-centric sur la comptabilisation du nombrede visiteurs uniques.

Sur un plan pratique, la méthode est assez complexe à mettreen place par site car elle nécessite un calcul de nombreux para-mètres sur tous les sites mesurés. Par ailleurs, cette méthoderepose principalement sur la mesure site-centric, le panel

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201015

Historique des mesures hybrides

1 // Historique des mesures hybrides

n’apportant qu’une correction aux données site. Dans les faits,cela implique que la couverture du marché d’une telle mesuresoit égale à la part de marché du mesureur site-centric.L’utilisation des données site-centric comme données référen-tes rend toute utilisation médiaplanning impossible (ou trèsdélicate) car cette mesure ne produit pas de données indivi-duelles.

2007 Lancement du médiaplanning « standard 3 », une mesure d’audience tous lieux de connexion intégrant lespages vues site-centric

Les premières expériences de réconciliation des mesures panel etsite-centric avaient mis en avant deux éléments essentiels dans le rap-prochement panel et site-centric pour le marché :

– La nécessité de cohérence des données de pages vues (panel) avecles niveaux de volume achetés et vendus par le marché publicitaire(site/ad-centric).

– La valorisation d’une audience globale tous lieux de connexion

Le médiaplanning « standard 3 » avait pour but de répondre à cesobjectifs en deux étapes. La première consistant à rapprocher lesmesures panel et site-centric sur le même périmètre France « touslieux de connexion » : pour cela, à partir de résultats en domicile etlieu de travail, il était nécessaire de produire des résultats d’audiencepanel incluant les « autres lieux » (universités, cybercafés, chez unami, parent…). La seconde permettant d’intégrer dans les résultats dupanel tous les usages dénombrés en site-centric : pour se faire, aprèsvalidation de l’uniformité des périmètres user (panel) et site-centric, ilétait possible de remplacer les pages vues panel par les pages vuessite-centric.

EEnn ssaavvooiirr pplluuss ssuurr ll’’eeffffaacceemmeenntt ddeess ccooookkiieess : De nombreusesétudes ont étémenées depuis2005 avec desméthodologiesdifférentes pourmesurer ce tauxd’effacement decookies. Toutesles mesuresconvergent etconfirment l’ordrede grandeurdonné par l’étudede Nielsen en2005 (entre 30 et40% de personneseffacent leurscookies au moinsune fois parmois).

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201016

Le livre blanc

1 // Historique des mesures hybrides

Une audience tous lieux de connexion

Les équipes scientifiques de Médiamétrie ont orienté leurs recherchessur la mise au point d’un modèle qui permettrait d’élargir le périmètre depanel à l’ensemble des lieux de connexion.

Le modèle repose sur un volet spécifique de l’étude de cadrage danslequel nous mesurons les usages internet (par type) en fonction du lieu deconnexion. Cette étude nous permet ainsi de dresser un portrait type desinternautes autres lieux (exclusifs et non exclusifs).

À partir de ces résultats deux étapes s’enchaînent :

- La modélisation des usages des internautes exclusifs autres lieux(n’ayant pas accès depuis le domicile et/ou le lieu de travail) :

Par définition, ces internautes ne sont pas représentés dans le panel. Àpartir d’une analyse discriminante menée sur l’étude spécifique, nousidentifions au sein du panel les individus dont le surf s’apparente à celuides internautes exclusifs autres lieux. Ces panélistes sont « dupli-qués » pour créer des sosies. L’intégralité des usages de ces sosies estreportée comme surf depuis les autres lieux.

- La modélisation des usages des internautes autres lieux non exclusifs(ayant également accès depuis le domicile et/ou le lieu de travail) :

Les connexions des individus qui ne se connectent pas exclusivementdepuis leur domicile et/ou leur lieu de travail doivent être prises encompte : ces individus sont déjà présents au sein du panel mais le surfdepuis les autres lieux n’est pas pris en compte.

Deux étapes sont alors nécessaires :

Étape 1 : identifier au sein du panel les internautes dont le profil cor-respond à celui des autres lieux non exclusifs

Étape 2 : compléter le surf des individus sélectionnés en introduisantleur surf depuis les autres lieux

Les usages autres lieux des « autres lieux non exclusifs » étant forte-ment corrélés aux usages domicile et/ou lieu de travail, on sélectionnealéatoirement, au sein du surf domicile et/ou lieu de travail, des sessionsqui sont attribuées par la suite aux autres lieux.

Plus concrètement, on se base sur un ficher d’audience individuelle parjour daté et par site. Le tirage aléatoire est basé sur un pas défini par :

Nombre moyen de jours de connexion depuis un autre lieu

Nombre moyen de jours de connexion domicile et/ou sur le lieu de travail

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201017

Historique des mesures hybrides

1 // Historique des mesures hybrides

La population des « autres lieux non exclusifs » représentant unsous-ensemble de la population sous mesure dans le panel, les indi-vidus disposent donc déjà d’un poids de redressement.On dispose ainsi au final d’une vue complète de l’audience des sitesdepuis l’ensemble des lieux de connexion en France.

Un brevet a été déposé par Médiamétrie pour protéger les algorithmeset le principe de ce modèle.

Cohérence des niveaux d’usages (pages) avec les outils site-centric

Dans un deuxième temps, il devient possible de rapprocher les résul-tats de la mesure site-centric avec ceux du panel. Concrètement, leniveau des pages vues du panel est remplacé site à site par le nombrede pages vues issues de la mesure site-centric sur le même périmètre.La correction est apportée de façon uniforme sur l’ensemble de laconsommation du site (sans modifier la structure de consommation).

Pour ce faire, il faut toutefois s’assurer que les données site-centric enentrée sont définies sur un même périmètre de mesure. Les donnéessite-centric sont recalculées par les mesureurs site-centric selon troisfacteurs :

- Périmètre d’urls : Le dictionnaire panel du site est envoyé au mesureur site-centric.Celui-ci recalcule les logs en prenant en compte ce nouveau péri-mètre. Cette opération est de loin la plus complexe et longue à opé-rer.

- Pays de consultation : Le panel mesurant une audience France tous lieux de connexion, ilconvient de filtrer les données site-centric pour retirer les consul-tations depuis l’étranger. Cela se fait à partir des adresses IP enre-gistrées par les outils site croisées avec des bases de données liantchaque adresse IP (des plages) à un pays (voir pour certaines à unerégion, une ville…).

- Terminal de consultation : La mesure site-centric comptabilise les consultations depuis tousles terminaux existants (ordinateurs, mais aussi téléphones ouconsoles de jeux). En toute rigueur, il convient donc d’exclure lesconsultations depuis des terminaux autres que les ordinateurs (lepanel ne mesurant pas les usages de l’internet mobile).

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201018

Le livre blanc

1 // Historique des mesures hybrides

Ce qu’il faut retenir de cette approche:

Le premier intérêt de cette méthodologie est l’extension del’univers de mesure du panel à tous les lieux de connexion.C’est la condition sine qua non à tout rapprochement avec unedonnée site-centric qui ne peut discerner un usage « domicile», « travail », « cybercafé » ou « université ». Sur le planthéorique, le fait de disposer d’une cohérence entre les don-nées de pages vues du panel et du site (elle-même cohérenteavec les ad-serveurs) crée une réelle valeur ajoutée. Toutefois,le modèle ici développé n’apporte cette correction que site àsite. Il faut donc disposer d’une base importante pour que cettemesure hybride prenne tout son sens.

La correction apportée se limite aux pages vues, dans cemodèle, aucune correction sur l’indicateur des visiteurs uni-ques n’est apportée.

2008Lancement du médiaplanning « Audiweb » en Italie, une mesure d’audience tous lieux de connexion intégrant un redressement des données user àpartir des pages vues site-centric

À la demande de Nielsen et d’Audiweb, Médiamétrie a proposé unemesure hybride de nouvelle génération pour le marché Italien. Cettemesure repose sur la modélisation des autres lieux développée dans lecadre du standard 3 et sur un redressement du panel sur les résultatssite-centric.

Contrairement à la méthode Standard 3, les données site-centric ser-vent à redresser le panel. L’impact est donc global et a un effet sur lesvisiteurs uniques, les pages vues, le temps passé… Et tous les sitesmesurés dans le panel voient leurs résultats d’audience touchés.

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201019

Historique des mesures hybrides

1 // Historique des mesures hybrides

Afin de mettre en place ce calage, Audiweb fournit à Médiamétrie desdonnées (pages vues) d’usage site-centric segmentées par catégorieet avec un détail pouvant aller jusqu’à la tranche horaire.

L’outil de Nielsen bénéficie d’une part de marché importante en Italie,cela permet de garantir que le modèle s’appuie sur une très grandevariété de sites. Sans être exhaustive, la liste des sites contribuant aumodèle est très importante et concerne aussi bien des portails que deséditeurs spécialisés ou des pure-players.

Ce qu’il faut retenir de cette approche:

Ce type de mesure hybride va plus loin que le Standard 3 enoffrant un redressement général des données du panel sur lesdonnées site-centric.

Une des difficultés identifiées est de s’assurer que les pagesvues d’un site sont mesurées de façon homogène entre panel etsite. Si l’écart entre les deux provient d’une différence dans lefonctionnement, cela peut induire des biais. Par exemple, unsite totalement en flash ne se verra crédité que d’une page parvisite. À l’inverse, avec la mesure site-centric celui-ci peut enfonction des choix de taggage comptabiliser bien plus de pages.

L’application sans discernement du redressement dans un telcas pourrait conduire à une hausse artificielle du nombre devisiteurs uniques dans le panel. Par ailleurs, l’intégration decontraintes site dans la méthodologie s’apparente à l’intégra-tion de nouvelles variables de redressement. Or aucun modèlede redressement ne peut intégrer indéfiniment de nouvellescontraintes sans mettre en péril la qualité et la stabilité desrésultats, mais aussi la capacité à faire converger le modèle(vers les variables théoriques du redressement).

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201020

Le livre blanc

1 // Historique des mesures hybrides

2009Lancement de la mesure d’Efficacité Publicitaire« Ad Effectiveness »

Depuis 2009, Médiamétrie propose une mesure de l’efficacité publici-taire qui repose sur une utilisation croisée de données panel et site.

Le meter du panel permet d’identifier si un tag site-centric (ou ad-cen-tric) est « vu » par un internaute.

Le principe de cette mesure consiste donc à tagger une campagne don-née et à mesurer son audience non pas en fonction d’une liste d’urlsdéfinissant a priori le plan média, mais à partir de l’exposition réelleaux éléments publicitaires.

Dans un deuxième temps, les données peuvent de façon ad-hoc êtreredressées sur la volumétrie mesurée par les outils ad-centric.

Ce qu’il faut retenir de cette approche:

La qualité et la simplicité de ce produit hybride ont incontesta-blement eu un fort attrait sur le marché avec un succès com-mercial à la clé.

Une des difficultés des mesures hybrides consiste à avoir unpérimètre identique pour le panel et le site. En utilisant la capa-cité du meter du panel à lire un tag, cette étape est simplifiée.La mesure se fait dans ce cas sur la base du périmètre du site-centric (ou de l’adserver). Si une telle approche était translatée à une mesure marché, ilconviendrait de s’assurer que les règles de nomenclature dusite-centric sont conformes à celles utilisées par le marché(règles de branding ou de co-branding par exemple).

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201021

Historique des mesures hybrides

1 // Historique des mesures hybrides

2010Lancement de la mesure de l’Internet Mobile etde la mesure Streaming

La mesure de l’Internet Mobile :

Médiamétrie a remporté en 2009 un appel d’offre de l’AssociationFrançaise du Multimédia Mobile pour mesurer l’audience de l’Internetmobile. Cette mesure repose sur une analyse de l’exhaustivité des logsde consultation de l’internet mobile fournis par les opérateurs. Lesdonnées sont anonymisées par un tiers de confiance de telle sortequ’aucun acteur ne puisse reconstituer l’intégralité de l’information.En parallèle un panel de 10 000 mobinautes est constitué.

La base de la mesure d’audience repose sur les logs des opérateurs.Cette donnée peut servir à produire des données d’audience car lemobile est un terminal de consultation personnel, contrairement à unordinateur qui peut (et est souvent) utilisé par plus d’une personne.L’intégration des données du panel permet ensuite d’apporter uneinformation additionnelle sur le profil individuel que l’on ne peutdéduire de l’analyse des logs.

Afin d’offrir une vue globale de l’Internet mobile, il a été décidé, encomplément, d’ajouter une modélisation des usages en Wifi (nonrépertoriés dans les logs). Le modèle sera établi à partir de l’observa-tion de données site-centric collectées sur le marché (le site-centricpouvant détecter le réseau par lequel une machine s’est connectée àun site).

Ce qu’il faut retenir de cette approche:

La base de logs fournis par les opérateurs représente la quasi-exhaustivité des usages de l’internet mobile français. Celaconstitue une force majeure du dispositif. Le fait que le mobilesoit un terminal utilisé par une seule personne facilite par ail-leurs la mesure individuelle.

Ce modèle est une démonstration de l’intérêt de constituer unebase site-centric la plus large possible pour produire unemesure hybride de qualité.

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201022

Le livre blanc

1 // Historique des mesures hybrides

La mesure du streaming :

Le projet de mesure du streaming sur lequel Médiamétrie travailleactuellement combinera plusieurs techniques hybrides :

– Lecture du tag site-centric streaming par le panel :Cette phase répond à deux problématiques. Tout d’abord, cela per-met de reprendre la segmentation définie dans les outils site-cen-tric de façon très aisée. Mais elle autorise le contournement d’unedifficulté technique que les panels rencontrent pour la mesure de lavidéo : en effet, de nombreux sites utilisent des algorithmes anti-piratage qui rendent invisibles, pour un panel, les flux ainsi cryptés.La présence d’un tag site-centric permet de passer outre.

– Calage ou redressement des usages sur la base des donnéessite-centric.

Ce qu’il faut retenir de cette approche:

La problématique du cryptage des flux est critique. Pour mesu-rer l’ensemble des flux, une mesure hybride est nécessaire.Dans ce cas de figure, la mesure reste une mesure panel, maiselle s’appuie sur la solution de marquage du site-centric pourcompléter le périmètre de mesure.

2011Lancement d’une nouvelle mesure hybride du web françaisMédiamétrie travaille au lancement d’une mesure hybride pour l’en-semble du marché français. Cette nouvelle mesure s’appuiera sur lesconnaissances engrangées dans le cadre des différentes expériencesexposées ci-dessus, mais aussi en fonction de discussions avec les ins-tances du marché. Ce livre blanc servira de base de travail pour acterla méthodologie finale retenue.

En synthèse des travaux menés depuis près de 7 ans, ces différentesexpériences sur les mesures hybrides que ce soit sur l’internet fixe, lavidéo ou l’internet mobile, nous ont appris qu’elles permettaientd’améliorer :

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201023

Historique des mesures hybrides

1 // Historique des mesures hybrides

– La précision des mesures sur les usages (en l’occurrence les pagesvues dans le médiaplanning « standard 3 »)

– La précision des mesures sur l’audience et les usages (non seule-ment les pages vues mais aussi les visiteurs uniques sont redres-sés dans le médiaplanning italien « Audiweb »)

– L’élargissement de la couverture des mesures (aux flux, en particu-lier les flux cryptés s’agissant de la vidéo et aux campagnes publi-citaires pour « Ad Effectiveness »)

– La prise en compte de terminaux non panélisables (une alternativeà l’implémentation d’un meter parfois impossible dans tous lestypes de téléphones mobiles, l’iPad, etc.)

– La prise en compte d’univers non panélisables (les autres lieux deconnexion comme les universités ou les cybercafés)

Elles nous ouvrent ainsi des pistes pour les mesures hybrides dedemain.

Les points clés d’une mesure hybride réussie

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201025

Les différentes expériences menées sur l’hybridation desdeux mesures Internet montrent tout l’intérêt, mais aussitoute la complexité de cette approche se devant de répondreà des pré-requis incontournables pour obtenir une mesurehybride réussie, à savoir :

- Deux sources de qualité

- Faire coïncider les périmètres

- La bonne source pour le bon indicateur

À partir du bilan sur ces expériences passées, 7 élémentsconstitutifs d’une bonne mesure hybride, autrement dit maî-trisée, se dégagent :

1- Périmètre de mesure

Ordinateurs vs autres terminaux :

Si le panel ne mesure que des ordinateurs, il est nécessairede pouvoir filtrer les connexions selon les terminaux. Lamesure site-centric peut opérer assez simplement ce calculcar elle dispose pour chaque log du type de système d’exploi-tation de la machine appelant la page. La part de non résolu-tion est très faible.

Robots :

La mesure site-centric comptabilise par défaut le trafic pro-venant de robots ou crawlers. Il existe des bases de donnéesrépertoriant leur liste, mais aussi des algorithmes de détec-tion. Ceux-ci doivent être opérationnels pour envisager unemesure hybride.

2 - Univers de mesure

Mesure panel des autres lieux :

Grâce à la mise en place du modèle « autres lieux », le panelreprésente l’intégralité des lieux de connexion en France. Sinous disposons d’une base de données site-centric suffi-sante, il serait possible d’envisager un modèle enrichi dedonnées site-centric. En faisant la différence entre les usa-

2 // Les points clésd’une mesure hybride réussie

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201026

Le livre blanc

2 // Les points clés d’une mesure hybride réussie

ges site France et Domicile/Lieu de travail du panel, on en déduit enthéorie les usages autres lieux. C’est le principe de la méthode BISQUque nous avions développée en 2005.

Plages d’adresses IP

Afin d’obtenir une mesure site sur le même univers, il faut filtrer lesdonnées sur la base des adresses IP correspondant à la France. Cetexercice est rendu possible grâce à des prestataires qui mettent à jourdes bases liant des plages d’adresses IP avec un lieu de connexion.Toutefois ces bases peuvent contenir des erreurs. Certains fournis-seurs d’accès ont, dans le passé, utilisé des adresses IP étrangèrespour leurs abonnés français, la distinction devenant alors impossible.

Dans tous les cas, il s’avère donc que la qualité de la base utilisée estfondamentale.

Au sein des 200 premiers sites web français, les taux de connexiondepuis l’étranger varient considérablement, de quelques pourcents àplus de 30% pour certains sites.

3- Indicateurs mesurés

Afin de faire le pont entre les différentes mesures, un (ou plusieurs)indicateur(s) sera utilisé pour opérer la mise en cohérence des mesu-res que ce soit par un calage ou un redressement. Toute la complexitéde cette opération est de s’assurer que l’indicateur retenu ne sera passtructurellement différent et que seul un facteur lié à l’échantillon dupanel peut en expliquer les différences. Or, nous savons que pour latotalité des indicateurs les conventions et règles de mesure diffèrent. Ilconvient alors d’identifier ces biais afin de les minimiser en imposantun filtrage ou des règles de mesure ad hoc.

Les pages vues

Dans le panel, l’auto-refresh* n’est pas comptabilisé alors qu’il l’est ensite-centric et on ne compte qu’une seule page pour les sites en flashalors qu’on en dénombre autant qu’il y a de tags en site-centric (leparamétrage dépend de l’éditeur).

* – Auto-refresh : rafraîchissement du contenu d’une page sans modification de l’url de lapage (url de la main frame affichée dans la barre de navigation).

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201027

Les points clés d’une mesure hybride réussie

2 // Les points clés d’une mesure hybride réussie

Les visites

Dans le panel, l’auto-refresh n’est pas comptabilisé ; en site-centric,une nouvelle visite est enregistrée s’il y a un auto-refresh au-delà de 30minutes.

Le temps passé

Le panel ne prend en compte que ce qui est visible à l’écran. Lorsqu’unutilisateur passe d’un onglet à un autre, la mesure du temps s’inter-rompt.

Avec l’approche site-centric, la mesure capte le temps en déduction del’écart entre deux appels. Les visites de sites à une page ne peuventgénérer du temps. Pour le streaming, la mesure du temps est beau-coup plus fine. En revanche, le bon paramétrage du tag est nécessaire.Ce paramétrage s’il est différent peut induire des écarts importants surla durée.

4- Exhaustivité de la base site-centric

Impact de l’exhaustivité sur le modèle hybride

D’une façon générale, la capacité à disposer d’une base de donnéessite-centric la plus exhaustive possible conditionne la qualité desrésultats de la mesure hybride obtenue.

Toutefois, l’impact de la non-exhaustivité de la base de données site-centric sera différent selon l’approche choisie. Ainsi dans un modèled’enrichissement des données panel par les résultats site-centric,l’impact de l’hybridation ne sera effectif que pour les sites contribuantavec leurs propres résultats site-centric. Le modèle sera d’autant plusriche que le nombre de sites participant est important. On peut parlerd’un modèle hybride partiel.

Dans un modèle comparable à celui d’Audiweb/Nielsen Online, mêmesi nous ne disposons pas de l’intégralité des données site-centric, ellescontribuent au redressement du panel et par conséquent aux résultatsde l’ensemble des sites. Pour se faire, une matrice est réalisée à par-tir des données site centric provenant des acteurs du marché italien etdes données panel de NetView Italie. C’est une grille comportant desobjectifs de pages vues par catégories dans des niveaux de détail allantjusqu'à la tranche horaire. L’étude de calage nous permet en parallèlede produire la duplication Domicile/Travail avec la méthode de fusion

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201028

Le livre blanc

2 // Les points clés d’une mesure hybride réussie

et le "Tous Lieux" italien sur le modèle français. Les poids des panélis-tes sont enfin ajustés en fonction des objectifs fixés par la matrice. Ilen résulte un fichier final d'audience après fusion, redressement TousLieux et redressement site centric.

Les résultats site-centric sont ainsi utilisés dans le redressement dupanel. Par conséquent, ce modèle ne sera pertinent qu’à partir d’unebase de données site-centric suffisamment large. Dans ce cas, on par-lera d’un modèle hybride global.

Impact de l’exhaustivité de la base site-centricsur la qualité des résultats

On comprend bien l’importance de disposer d’une base site-centric laplus exhaustive possible pour que le modèle hybride remplisse sesobjectifs. Toutefois, dans le cas d’un modèle hybride total, pour des rai-sons opérationnelles liées au nombre de contraintes de l’algorithme,l’ensemble des données site-centric ne pourra être intégré au redres-sement. Dans ce cas, des analyses discriminantes seront menées poursélectionner les informations les plus pertinentes ; ces analyses serontd’autant plus robustes que la base de données est exhaustive.

5- Données individuelles ou agrégées ?

La forme des données restituées au marché dépend de la méthodolo-gie d’hybridation. Par exemple, une mesure hybride reposant sur desdonnées d’origine site-centric enrichies avec des données panel rendtrès complexe la production de données de médiaplanning. En effet,afin de produire un tel format de fichier (chaque ligne correspond à unindividu par jour et par site), il est plus naturel de partir d’une mesureindividuelle, donc du panel.

Si l’objectif est simplement de produire une mesure « à plat », sansdonnées individuelles (un simple classement par exemple), lescontraintes du modèle sont moindres. À partir du moment où les péri-mètres des deux mesures sont bien alignés, une mesure hybrideconsiste à réunir les résultats des deux outils dans un même reporting.

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201029

Les points clés d’une mesure hybride réussie

2 // Les points clés d’une mesure hybride réussie

6- Nomenclature

Il est impératif de faire coïncider de façon précise les nomenclaturesdes deux outils avant tout rapprochement. Pour cela plusieurs métho-des peuvent être envisagées :

Manuelle

Un expert connaissant bien la nomenclature panel et site-centric éta-blit « à la main » la correspondance entre les niveaux site-centric etpanel. Si cette solution est simple techniquement, elle induit un risqued’erreur, notamment si les niveaux créés dans l’outil site ne permet-tent pas un rapprochement avec le panel (ou inversement).

Recalcul des données site

À partir de la nomenclature du panel, la mesure site-centric recalculeles niveaux d’usage en se basant sur ces urls. Cela nécessite d’agir surla chaîne de traitement du mesureur site-centric. La nomenclature dupanel étant contrôlée, cela garantit la fiabilité de tels résultats.

Recalcul des données panel

La dernière alternative consiste à faire lire le tag du site-centric par lepanel et à recalculer l’audience panel sur la base des informations denomenclature contenues dans le tag.

D’un point de vue technique, c’est la solution la plus satisfaisante ;toutefois elle impose un contrôle sur les périmètres de taggage quidevront de fait respecter les règles de la nomenclature actée par lemarché (branding, co-branding). Cela peut être fait à partir d’un exportdes urls sur lesquelles le tag a été placé (c’est une fonctionnalité desoutils site).

Le cas des mash-ups

De fait le site-centric permet de tagger tout élément éditorial, que cesoit une page entière, ou encore un mash-up présent sur un autre site.Les règles de nomenclature devront évoluer afin de prévoir ces cas.

La réunion des deux mesures Internet aura pour conséquence uneinterdépendance forte qu’il sera nécessaire de maîtriser, notammentau sujet de la qualité des données ainsi produites. Le résultat d’unemesure hybride ne peut être satisfaisant que si les sources utilisées lesont chacune au préalable indépendamment l’une de l’autre et si l’adé-quation entre les deux est respectée.

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201030

Le livre blanc

2 // Les points clés d’une mesure hybride réussie

7- Cohérence et qualité des bases utilisées

Unicité des règles de mesure

Pour des raisons de cohérence de résultats entre les sites mesurés pardes opérateurs site-centric différents, il est fondamental de définir desrègles uniques déterminant les éléments décrits précédemment (péri-mètre, univers, indicateurs, nomenclature).

Paramétrage du tag

De la même façon, le paramétrage et les règles de positionnement dutag doivent suivre des lignes directrices communes entre les opéra-teurs site-centric pour garantir la qualité et l’homogénéité de la base.

Adéquation de la base site-centric avec lesconventions de mesure panel

Une fois la cohérence de la base site-centric acquise, l’adéquation avecles conventions de mesure du panel définies par le marché permettrade garantir la continuité dans leur application.

Qualité du panel

Enfin, le niveau de qualité et de transparence requis est le même pourune mesure panel seule qu’au sein d’une mesure hybride.

Pour conclure sur ces enseignements et pré-requis, dansle cadre d’un audit, la qualité du système de mesurehybride est conditionné par ces trois éléments : la cohé-rence de la base site-centric, l’homogénéité des conven-tions panel et site-centric et enfin, la qualité du panel.

3 // Quelle mesure hybride

Quelle mesure hybride pour demain ?

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201031

pour demain ?

Chaque mesure hybride peut être caractérisée par troisgrandes dimensions :

- Précision et exhaustivité du périmètre de la mesure

- Diversité des sites mesurés (mesure site à site vs marché)

- Données individuelles

Sur la base de ces dimensions, une représentation graphiqueà trois dimensions des mesures peut être donnée. Ci-des-sous, la représentation des mesures site-centric et panel.

La mesure site-centric

Chaque barre violette sur le graphique ci-dessus représenteles résultats d’un site mesuré par une mesure site-centric.Cette mesure se caractérise par une précision très grande,une donnée limitée au site lui-même et l’absence de donnéesindividuelles de profil. La diversité des sites est fonction dunombre de sites taggés. Sur une mesure panel, elle dépendde la taille de l’échantillon.

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201032

Le livre blanc

3 // Quelle mesure hybride pour demain ?

La mesure panel

Les logs (ensemble des opérateurs)

Par définition, les logs des opérateurs couvrent l’ensemble du marchéavec une grande précision. Ils n’offrent en revanche aucune informa-tion individuelle puisqu’ils sont totalement anonymisés.

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201033

Quelle mesure hybride pour demain ?

3 // Quelle mesure hybride pour demain ?

1. Mesure d’audience par panel enrichie desniveaux d’usage issus du site-centric – mesurehybride partielle

Principe de la mesure

Le principe de l’hybridation consiste à caler les usages (pages vues) dupanel sur ceux issus du site-centric. Le nombre de pages vues de lamesure est ainsi rigoureusement égal à celui issu de la mesure site-centric. La procédure de calage intervient après la procédure deredressement.Médiamétrie édite un cahier des charges détaillant les pré-requis pourle recalcul des usages site-centric. Le cahier des charges prévoit ainsi,par exemple, l’exclusion du trafic issu de l’étranger, ainsi que le recal-cul des données site sur un périmètre identique à l’url près sur celuidu panel.

Comme le graphique ci-dessous l’indique, l’amélioration ne porte quesur les sites pour lesquels une donnée site-centric est apportée au dis-positif.

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201034

Le livre blanc

3 // Quelle mesure hybride pour demain ?

Partenaires site-centric

Tous les acteurs de la mesure site-centric qui rempliront et respecte-ront un cahier des charges donné. Par exemple, pour le Standard 3, Xitiet eStat y participent. Les participants doivent être capables de recal-culer des données site sur un périmètre panel.

Variantes et améliorations possibles

Modèle tous lieux :

Il serait envisageable, si nous disposons d’une base de données suffi-sante, d’enrichir la modélisation tous lieux de connexion avec des don-nées site-centric.

Indicateur retenu:

Si le temps ne semble pas être un bon candidat pour caler les deuxmesures, nous pourrions utiliser l’indicateur des visites ou du nombrede jours de visites. Il est difficile d’arbitrer entre les deux. Une alterna-tive serait de corriger les pages, mais aussi les visites (ou nombre dejours de visites).

Etendre la correction aux sites non mesurés :

Si les données site-centric font apparaître des écarts « types » selonles cibles, les catégories de sites, la correction pourrait, via un modèle,être étendue aux sites non directement mesurés. La mesure hybridedeviendrait ainsi globale, dans le sens ou tous les acteurs seraient tou-chés.

Intérêt :

Sur le papier cette mesure hybride est simple à mettre en place. Ellenécessite simplement qu’un acteur donné souscrive à ce serviceoptionnel. Les usages site-centric sont calés exactement sur le mêmepérimètre que celui des « brands » & « channels » de la mesurepanel. Par ailleurs, l’adéquation est possible avec les adservers s’ilsrespectent les mêmes normes de mesure.

Limites :

Cette mesure hybride n’a pas de conséquence sur le nombre de visi-teurs uniques. Il y a de fait un risque que seuls les acteurs pour les-quels l’apport de l’hybride sur les usages est très important, y souscri-vent.

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201035

Quelle mesure hybride pour demain ?

3 // Quelle mesure hybride pour demain ?

Dans le cas d’un acteur que l’on sous-évaluerait ou que l’on sur-éva-luerait, le système ne répond pas au problème de cohérence globaledes visiteurs cookies et des visiteurs uniques.

Difficultés :

Constituer une base de données des usages site la plus large possible.

2. Mesure d’audience avec redressement du panelsur les résultats site-centric – mesure hybrideglobale

Principe de la mesure

Il s’agit d’un redressement des niveaux d'audience du panel par le dis-positif site. Dans ce modèle, les résultats site-centric rentrent directe-ment dans la procédure de redressement. Les résultats finaux sontplus proches du site-centric, mais pas nécessairement identiques siteà site.

C'est le « modèle italien » que Médiamétrie réalise pour le compted’Audiweb/Nielsen Online. Une matrice de redressement site-centricest créée en détaillant les résultats de plusieurs sites et des principa-les sous-catégories en les croisant par moment (mois, semaine, jour,

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201036

Le livre blanc

3 // Quelle mesure hybride pour demain ?

tranche horaire…) de consultation. Par ailleurs, le redressement intè-gre bien entendu des variables sociodémographiques. Le calage n’estpas réalisé systématiquement sur un mois, certaines variables d’usa-ges sont analysées au jour près.

Variantes et améliorations possibles

Modèle tous lieux : cf. mesure hybride partielle

Indicateur retenu : cf. mesure hybride partielle

Redressement site à site :Le redressement par défaut a un impact sur la donnée désagrégée(individuelle). L’intégration de la donnée d’un site touche potentielle-ment l’ensemble de la base. On peut imaginer de faire de façon plussimple un calage des visiteurs uniques et des usages panel site à site.Mais dans ce cas, le modèle sera limité à la production de données àplat (et non individuelles) rendant très complexe la production defichiers de médiaplanning.

Partenaires site-centric cf. mesure hybride partielle

Intérêt

C’est une approche plus globale et large du user/site qui concerne l’in-tégralité du marché (client ou pas d’une solution site). Les clients decette mesure hybride globale retrouvent également les valeurs mesu-rées par leur outil site.

La mesure site-centric en Italie permet une gestion intéressante et ori-ginale des périmètres. On peut aussi bien allouer une page à une sec-tion en utilisant des paramètres spécifiques du tag. On peut aussi uti-liser une liste d’urls qui définiront une rubrique (comme sur le panel).C’est ainsi que le périmètre du site et du panel peuvent être rappro-chés.

Dans la mesure hybride globale, le modèle « tous lieux » peut sebaser sur un échantillon d’observations site-centric.

Limites

Dans le cas d’un site où il existe un écart important sur le nombre depages vues, le redressement peut induire une progression ou unebaisse importante du nombre de visiteurs uniques. Sur certains sites,on peut parfois enregistrer beaucoup plus de pages vues en site quedans le panel (parfois dans un rapport multiple). Il peut en résulter une

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201037

Quelle mesure hybride pour demain ?

3 // Quelle mesure hybride pour demain ?

surestimation du nombre de visiteurs uniques si l’écart des pages vuesprovient de différences de conventions (exemple des pages en flash).

Nielsen Online dispose d’une part de marché importante sur le site-centric en Italie. Mais l’ensemble des acteurs (portails, pure players…)sont loin de souscrire tous à la mesure.

Le modèle de redressement du panel sur les données site affectedirectement le poids des panélistes ; si l’on atteint un nombre de cri-tères de redressement trop important, le modèle aura des difficultés àopérer. Il faut dans ce cas imaginer une sélection d’acteurs.

Difficultés

Constituer une base de données des usages site-centric la plus largepossible.

Plusieurs déclinaisons de ce modèle peuvent s’envisager :

2.1 Redressement du panel sur les pages vues

Dans ce cas, l’indicateur de pages vues sert de pivot pour effectuer leredressement.

2.2 Redressement du panel sur les visites

Ici c’est l’indicateur des visites qui est le pivot du redressement. Lesnormes de mesure de cet indicateur sont moins complexes que cellesdes pages vues. Il existera donc structurellement moins de distorsionentre panel et site sur cet indicateur. Dans la version française dupanel, le nombre de jours de visites remplace l’indicateur de visites. Ilconviendra donc d’enrichir le panel de cet indicateur pour envisager cedéveloppement.

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201038

Le livre blanc

3 // Quelle mesure hybride pour demain ?

3. Mesure site-centric marché avec des donnéesde profil issues du panel

Principe de la mesure

L’analyse des données désagrégées du panel permet de faire émergerdes « signatures » d’usage des internautes. À partir de donnéescomme les tranches horaires, l’intensité de l’usage (nombre de pages,fréquence) mais aussi les catégories, types de sites visités ou encoreles chemins de navigation, il est possible de bâtir un modèle statistiqueprédictif. Ainsi, à partir d’une mesure site-centric qui enregistre ce typede paramètres, il est envisageable d’en déduire, par exemple, un profilsociodémographique. Pour enrichir et consolider un tel modèle, d’au-tres études que le panel pourraient être utilisées, notamment pour desusages non mesurés par celui-ci (tablettes numériques par exemple).

En créant parallèlement une base site-centric sur un segment de mar-ché, il devient envisageable de produire une mesure marché indivi-duelle. Contrairement à des données issues d’un panel, les données deprofil peuvent être assignées à un site ou une page, mais pas à unniveau individuel (seule la notion de cookies existant dans les basessite-centric).

Il s’agit donc d’une mesure marché site-centric (avec les indicateurs dusite-centric) à laquelle une nouvelle dimension est rajoutée (le profil).L’approche est bien hybride puisque l’on place côte à côte (sur unmême périmètre) les résultats des deux mesures.

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201039

Quelle mesure hybride pour demain ?

3 // Quelle mesure hybride pour demain ?

Variantes et améliorations possibles

Modélisation des données panel :

- Une évolution de ce modèle consisterait à déduire du modèle statis-tique un nombre de visiteurs uniques en complément du profil.

- Si un tel modèle se révèle opérationnel, il serait envisageable d’in-terfacer celui-ci avec des outils ad-servers. En déclinant le modèlestatistique sur une approche temps réel, on pourrait ainsi imaginerde produire à la volée le profil de chaque « cookie » exposé à unepublicité, et de faire ainsi un ciblage ad-hoc.

- La création d’un panel sur certains terminaux est particulièrementcomplexe. Si un tel modèle fonctionne, il serait possible d’étendrela mesure à ces terminaux grâce à une mesure site-centric « mar-ché » complétée par un modèle qui fournira une donnée de profil.

Intérêt

C’est une offre simple à mettre en place. La déclinaison avec unmodèle prédictif apporterait une valeur ajoutée très forte permettantde s’affranchir des limites du panel liées à la taille de l’échantillon.

Limites

La mesure est limitée par le nombre de visiteurs uniques de l’approchesite-centric. Les non clients du site-centric ne sont pas mesurés. Lamesure ne permet pas de créer une réelle cohérence entre les résul-tats d’un panel et du site. On injecte les données de l’un dans l’autre.Le modèle est très éloigné d’une approche par panel, aucune donnéede médiaplanning n’est disponible. On est limité à une approche partableaux. Les données de profil ne sont disponibles que dans la limitede la taille d’échantillon du panel.

Difficultés

Constituer une base de données des usages site-centric la plus largepossible (d’autant plus qu’il n’y a pas de socle panel). Il est nécessaired’ajuster le périmètre du site sur le panel. La mise au point du modèleprédictif représente un travail important.

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201040

Le livre blanc

3 // Quelle mesure hybride pour demain ?

4. Mesure logs marché + panel

Principe de la mesure

Cette solution est celle qui a été développée dans le cadre de l’InternetMobile par Médiamétrie. Elle consiste à rapprocher des données delogs exhaustifs (mais anonymisés) des usages avec un panel d’indivi-dus.

Variantes et améliorations possibles

Ce modèle pourrait être adapté à d’autres usages que celui del’Internet Mobile.

Intérêt

Ce type de mesure présente un avantage considérable sur les autresmodèles de mesure hybride car il repose sur des données de dénom-brement couvrant tout le marché. La principale difficulté des modèleshybrides, à savoir constituer une base de données site-centric, estainsi levée.

Limites

La mesure peut nécessiter un modèle pour compléter certains typesd’usages non couverts par les données de dénombrement. Ainsi dansla mesure de l’Internet Mobile, les connexions via le Wi-Fi ne font pasparties des données sources. Un modèle à partir d’autres données de

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201041

Quelle mesure hybride pour demain ?

3 // Quelle mesure hybride pour demain ?

dénombrement (site-centric) a été développé pour inclure cet usagedans la mesure globale.

Difficultés

Les usages du web français génèrent des logs très importants. Unearchitecture très particulière est nécessaire pour assurer un tel traite-ment sur de tels volumes (tant du côté du mesureur que de celui desopérateurs). Par ailleurs, préalablement au traitement pour la mesured’audience un filtrage est nécessaire pour ne retenir des logs que leséléments correspondant à des usages que l’on souhaite mesurer.L’importance de la base rend ce travail très complexe.

Conclusion :quelle mesure hybride pour quelle application ?

Quatre grandes familles de mesures hybrides ont été exposées ci-des-sus. Pour déterminer le type de mesure hybride adapté, il est néces-saire d’identifier pour chaque application ses objectifs et ses contrain-tes afin de définir de quelle source native doit naître l’hybridation etenfin quelle famille adopter.

Pour une application à l’Internet mobile, à l’heure actuelle l’ensembledes terminaux mobiles ne sont pas panélisables, c’est-à-dire que l’ins-tallation d’une sonde ou d’un meter sur tous les types de téléphonesmobiles, notamment certains smartphones, est difficilement envisa-geable. La volumétrie des logs opérateurs permettant de pouvoir tra-vailler sur l’intégralité de la base des trois principaux opérateurs fran-çais, la source des logs est privilégiée à celle du site-centric nettementplus réduite. Concernant l’Internet mobile, la source native est doncconstituée des logs opérateurs pour un dénombrement exhaustif, àlaquelle il convient de rapprocher un panel afin de qualifier l’audienceet de pouvoir envisager de produire des données individuelles demédiaplanning. Enfin, l’utilisation de données site-centric pour ali-menter le modèle WIFI ferait intervenir une troisième source à l’hybri-dation.

Que ce soit pour la mesure web ou vidéo, l’importance des usages aatteint un seuil critique rendant très complexe un éventuel travail surdes logs exhaustifs. Par ailleurs, un échantillon de logs serait-il mêmesuffisant pour représenter la fragmentation de ces usages ? À l’excep-tion des logs, dans le cadre d’une mesure marché web ou vidéo, la plus

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201042

Le livre blanc

3 // Quelle mesure hybride pour demain ?

grande diversité d’acteurs est atteinte par le biais d’un panel. En par-tant de données natives du site-centric, les non clients ne sont pasmesurés. On peut donc travailler au mieux sur un segment de marchétraité par le même mesureur. Cela rend par ailleurs extrêmementcomplexe la production de données de médiaplanning. Seule uneapproche par panel permet d’obtenir des données natives individuellesnécessaires au médiaplanning. L’ajout d’une deuxième source que sontles données site-centric est ensuite possible selon les objectifs fixéspar les mesures web ou vidéo. Ces objectifs sont en outre déterminantsdans le choix entre une mesure hybride partielle ou une mesurehybride globale.

Pour une application à la vidéo, le premier objectif est d’élargir le péri-mètre de la mesure panel aux flux cryptés en s’appuyant sur la recon-naissance d’un tag site-centric par le meter, tout en restant dans lecadre d’une mesure panel. Le second objectif serait de caler les données d’usage du panel à partir des données mesurées par le site-centric afin d’apporter une plus grande précision dans la mesure desusages vidéo. On rentre ici dans le cadre d’une mesure hybride par-tielle. Dans le cadre d’une mesure hybride globale, l’indicateur dedurée finement mesuré par le site-centric sur la vidéo, semble être unbon candidat au redressement des niveaux d’audience du panel pourapporter une plus grande précision dans la mesure de l’audience etdes usages vidéo.

Pour une application au web, la mesure hybride partielle a déjà étééprouvée au travers du médiaplanning « standard 3 » avec une valeurajoutée limitée aux pages vues et dépendante d’un écart panel vs site-centric suffisant pour justifier d’une telle opération. Ainsi, la mesureweb de demain ne nous porterait-elle pas davantage vers une réconci-liation totale du panel avec le site-centric au sein même de l’audience,autrement dit du « visiteur unique », en faisant le choix d’une mesurehybride globale ?

43

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 2010

existence de deux sources de données distinctes pourapprécier les performances du média Internet n’est pasune anomalie, c’est un atout.

Disposer de deux sources permet d’enrichir l’analysed’indicateurs et de données complémentaires.

La Presse en bénéficie avec des données d’audience d’une partet de diffusion d’autre part, inspirant de nombreux travaux depuis plusde 50 ans ; dans l’univers intrinsèque de l’audience, c’est le cas de laRadio avec le double dispositif de la 126 000 et du panel qui permet àla fois précision statistique, dispersion géographique et médiaplan-ning.

En pratique, cette situation présente cependant dans le cas d’Internetcertains inconvénients :

- Elle nécessite une pédagogie de tous les instants pour expliquerles différences d’indicateurs* et de méthodologie.

- Elle ne favorise pas la lisibilité du marché dès lors qu’il y a lemoindre signe apparent de contradiction entre les deux sources.

Dans ce contexte, la mesure hybride est intéressante et comporte denombreux avantages. Elle préserve l’unicité de la mesure sans renon-cer à la richesse des sources : les anglo-saxons parlent d’ailleurs dedémarche de réconciliation entre le user et le site-centric.

D’un côté, les mesures de dénombrement site-centric permettent unequantification fine des volumes de consultation, de l’autre le panel offreune base de mesure individuelle robuste.

Mais comme nous l’avons vu tout au long de ce Livre Blanc, deux pré-requis indispensables doivent être respectés : la qualité des deuxmesures en entrée et la cohérence de leurs périmètres.

- La qualité des mesures passe par des contrôles de tiers. Le CESPpour l’audience et l’OJD pour les outils de dénombrement y tien-nent un rôle central. L’éventuelle trop grande diversité des sour-ces utilisées pour le site-centric doit être regardée avec attention.

- La cohérence des périmètres d’études doit être validée en amontpar un travail très minutieux des personnes chargées de la codifi-cation des sites, et en aval par les organismes de contrôle.

L’

// Vers les mesures d’audiencesde demain

* – Terminologie Internet CESP 2002

44

Le livre blanc

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201045

Vers les mesures d’audiences de demain ?

Dans ces conditions, la mesure hybride pourra être d’abord validée parles experts scientifiques du marché, puis adoptée par l’interprofessionmédia et publicitaire.

La mesure d’audience doit être évolutive et avoir la capacité à s’adap-ter à l’évolution constante de l’offre médias et du numérique. Tous lesmédias sont aujourd'hui confrontés à une consommation de leurscontenus de plus en plus fragmentée dans l'espace et dans le temps,"où je veux, quand je veux". Leur accès en mobilité s'est largementdémocratisé. À cela s'ajoute la multiplicité des terminaux qui fontconverger des contenus TV, Radio, Presse vers Internet en passant parl'ordinateur, la tablette ou encore le téléphone mobile. La mesure d'audience a plus que jamais besoin de garantir une couverture et uneprécision au plus près de ces nouveaux usages.

Cette nécessaire adaptation nourrit notre motivation et inspire notreréflexion dans la définition des solutions de mesure d’audiences dedemain : la mesure hybride est au cœur de cette réflexion stratégique.

Benoît CASSAIGNE

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201046

Le livre blanc

Mesure site-centric marchéavec des données de profilissues du panel

• Principe

Le principe de l’hybridation consiste enune mesure marché site-centric (avecles indicateurs du site-centric) àlaquelle une nouvelle dimension estrajoutée (le profil). On place côte à côte(sur un même périmètre) les résultatsdes deux mesures.

• Intérêts

La déclinaison avec un modèle prédictifapporterait une valeur ajoutée forte per-mettant de s’affranchir des limites dupanel liées à la prise en compte de cer-tains usages (ex. streaming radio)

• Limites

Les non clients du site-centric ne sontpas mesurés. La mesure ne permet pasde créer une réelle cohérence entre lesrésultats d’un panel et du site. Oninjecte les données de l’un dans l’autre.Le modèle est très éloigné d’une appro-che par panel, aucune donnée demédiaplanning n’est disponible. On estlimité à une approche par tableaux. Lesdonnées de profil ne sont disponiblesque dans la limite de la taille d’échantil-lon du panel.

Mesure d’audience par panelenrichie des niveaux d’usageissus du site-centric> mesure hybride partielle

• Principe

Le principe de l’hybridation consiste àcaler les usages du panel sur ceux issusdu site-centric.

Tous les partenaires site-centric peu-vent y participer à condition de respec-ter un cahier des charges.

• Intérêts

Cette mesure est relativement simple àmettre en place.

• Limites

L’amélioration ne porte que sur les sitespour lesquels une donnée site-centricest apportée au dispositif.

Cette mesure hybride n’a pas de consé-quence sur les visiteurs uniques.

Il y a un risque que seuls les acteurspour lesquels l’apport de l’hybride surles usages est très important, y partici-pent.

1 2

Synthèse des mesures hybrides

Copyright Médiamétrie-Médiamétrie//NetRatings © - Tous droits réservés 201047

Synthèsde des mesures hybrides

Mesure logs marché + panel

• Principe

Le principe de l’hybridation consiste àrapprocher des données de logsexhaustifs (mais anonymisés) des usa-ges avec un panel d’individus.

• Intérêts

Cette mesure repose sur des donnéesde dénombrement couvrant tout le mar-ché. La principale difficulté des modèleshybrides, à savoir constituer une basede données site-centric, est ainsi levée.

• Limites

Les usages du web français génèrentdes logs très importants. Une architec-ture très particulière est nécessairepour assurer un tel traitement sur detels volumes. Par ailleurs, préalable-ment au traitement pour la mesured’audience un filtrage est nécessairepour ne retenir des logs que les élé-ments correspondant à des usages quel’on souhaite mesurer. L’importance dela base rend ce travail très complexe.

Mesure d’audience avecredressement du panel sur les résultats site-centric> mesure hybride globale

• Principe

Le principe de l’hybridation consiste àredresser les niveaux d’audience dupanel par le dispositif site-centric.

Tous les partenaires site-centric peu-vent y participer à condition de respec-ter un cahier des charges.

Les résultats finaux sont plus prochesdu site-centric, mais pas nécessaire-ment identiques site à site.

• Intérêts

C’est une approche plus globale et largedu user/site qui concerne l’intégralitédu marché (client ou pas d’une solutionsite).

• Limites

Dans le cas d’un site où il existe un écartimportant sur les usages, le redresse-ment peut induire une progression ouune baisse importante du nombre devisiteurs uniques.

3 4

Synthèse des mesures hybrides

Médiamétrie70 Rue Rivay92532 Levallois-Perret CedexFRANCE

Tél : 01 47 58 97 58Fax : 01 47 58 09 26www.mediametrie.fr