Parcours sur Internet analyse des traces d’usage

29
Parcours sur Internet analyse des traces d’usage Valérie Beaudouin - France Télécom R&D (DIH/UCE) : Valérie Beaudouin (resp. projet), Houssem Assadi, Thomas Beauvisage, Benoit Lelong, Christian Licoppe, Cezary Ziemlicki. - NetValue : Laurent Arbues

description

Parcours sur Internet analyse des traces d’usage. Valérie Beaudouin - France Télécom R&D (DIH/UCE) : Valérie Beaudouin (resp. projet), Houssem Assadi, Thomas Beauvisage, Benoit Lelong, Christian Licoppe, Cezary Ziemlicki. - NetValue : Laurent Arbues. Plan de la présentation. Contexte - PowerPoint PPT Presentation

Transcript of Parcours sur Internet analyse des traces d’usage

Page 1: Parcours sur Internet  analyse des traces d’usage

Parcours sur Internet analyse des traces d’usage

Valérie Beaudouin

- France Télécom R&D (DIH/UCE) : Valérie Beaudouin (resp. projet), Houssem Assadi, Thomas Beauvisage, Benoit Lelong, Christian Licoppe, Cezary Ziemlicki.- NetValue : Laurent Arbues

Page 2: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D2 - 22/09/2000

France Télécom R&D

Plan de la présentation

1. Contexte

2. Points méthodologiques

3. Données de cadrage sur l’utilisation d’Internet

4. Exemple 1 : Utilisation des moteurs de recherche

5. Exemple 2 : Segmentation des internautes

6. Perspectives

Page 3: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D3 - 22/09/2000

France Télécom R&D

1. Contexte (1)

Objectif global : Développer une expertise dans l'analyse des usages d ’Internet en croisant : Recueil et analyse du trafic Internet Qualification des pages vues Enquêtes auprès des internautes Entretiens/observations in situ

// études sur la sociabilité téléphonique menées dans le laboratoire UCE

Décomposer l’activité de l’utilisateur derrière son écran pour recomposer des profils d’utilisateurs

Difficultés  :

Recueillir le trafic  : sondes sur le réseau, sur le poste de l’utilisateur, cookies…?

Qualifier les contenus vus  : comment faire à partir d’une simple URL ? identifier les types de services utilisés (communication, consultation, recherche,

achat…(services utilisés, types de sites consultés) Caractériser les pages visitées en terme de forme et de contenu : de quoi parlent les

pages visitées, comment en parlent-t-elles ?

Tenir compte de l’ensemble des protocoles  : Web, mail, messageries instantanées, FTP, NNTP…

Page 4: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D4 - 22/09/2000

France Télécom R&D

1. Contexte (2)

Partenariat entre France Télécom R&D, NetValue et HEC en 2000-2001

Exploitation les données du panel NetValue France en 2000 : Une cohorte tirée d’un échantillon représentatif (pas un échantillon « maison »)

des données sur une longue période (pas une enquête ponctuelle)

des données « trafic » sur tous les protocoles Internet (pas seulement le Web)

des informations sur le client (pas une approche site centric)

Méthodes de traitement mises au point à FT R&D Catégoriser les services (outil &CatService) pour analyser les usages

Croiser analyse des usages et profil des utilisateurs

Articuler les résultats quantitatifs avec des vagues d’entretiens quali, qui permettent de donner sens aux observations

Analyse fine des usages et comportements sur Internet (portails, moteurs de recherche, sites marchands, pages personnelles, outils de communication) pour  :

Apporter des éléments de compréhension sur les usages et leur évolution

Page 5: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D5 - 22/09/2000

France Télécom R&D

2. Points méthodologiques

L’adresse d’un site est vide de sens => donner du sens aux URL Catégoriser les URL qui correspondent à des services (&CatServices, H.

Assadi)  : Moteurs, WebMail, services des principaux portails…

Analyser les contenus des pages vues (Beaudouin, Fleury, Habert, Illouz, Licoppe, Pasquier, 2001)

Exploiter les annuaires du Web (Beauvisage, Assadi, 2002)

Créer une notion de session Internet qui intègre tous les protocoles Internet

pouvoir comparer des activités aux temporalités différentes (chat et mail) tenter de rendre compte de l’activité de l’utilisateur

Session  : suite d’activités sur le réseau sans interruption de plus de 30 minutes.

Page 6: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D6 - 22/09/2000

France Télécom R&D

 2. Point méthodologique  : session Internet

| pan_id | date | type | proto | duree |+--------+---------------------+------+----------+-------+| 18829 | 2000-06-24 12:31:45 | Web | http | 8 || 18829 | 2000-06-24 12:31:53 | Web | http | 12 ||

| 18829 | 2000-06-24 14:43:12 | Web | http | 10 || 18829 | 2000-06-24 14:43:22 | Web | http | 12 |

| 18829 | 2000-06-24 17:32:05 | Web | http | 24 || 18829 | 2000-06-24 17:32:29 | Web | http | 283 |

| 18829 | 2000-06-24 18:32:33 | Web | http | 7 || 18829 | 2000-06-24 18:32:58 | Web | http | 4 |

| 18829 | 2000-06-24 18:49:26 | Web | http | 5 || 18829 | 2000-06-24 18:49:31 | Web | http | 13 |

| 18829 | 2000-06-24 19:07:24 | Web | http | 6 || 18829 | 2000-06-24 19:07:30 | Web | http | 11 |

| pan_id | date | type | proto | duree |+--------+---------------------+------+----------+-------+| 18829 | 2000-06-24 12:31:45 | Web | http | 8 || 18829 | 2000-06-24 12:31:53 | Web | http | 12 || 18829 | 2000-06-24 12:32:25 | Autre| Messager | 4 || 18829 | 2000-06-24 12:33:20 | Autre| Messager | 1925 |…………………………………………| 18829 | 2000-06-24 12:55:31 | Autre| Messager | 563 || 18829 | 2000-06-24 13:02:52 | Autre| Messager | 10 || 18829 | 2000-06-24 13:03:57 | Autre| Messager | 6 || 18829 | 2000-06-24 14:42:58 | Mail | sendmail | 0 || 18829 | 2000-06-24 14:43:12 | Web | http | 10 || 18829 | 2000-06-24 14:43:22 | Web | http | 12 || 18829 | 2000-06-24 14:43:56 | Autre| Messager | 4 || 18829 | 2000-06-24 17:32:05 | Web | http | 24 || 18829 | 2000-06-24 17:32:29 | Web | http | 283 || 18829 | 2000-06-24 17:32:46 | Autre| Messager | 3 || 18829 | 2000-06-24 17:33:24 | Autre| Messager | 105 || 18829 | 2000-06-24 18:32:33 | Web | http | 7 || 18829 | 2000-06-24 18:32:58 | Web | http | 4 || 18829 | 2000-06-24 18:33:27 | Autre| Messager | 45 || 18829 | 2000-06-24 18:36:09 | Mail | recvmail | 0 || 18829 | 2000-06-24 18:38:51 | Autre| Messager | 607 || 18829 | 2000-06-24 18:39:24 | Autre| Messager | 6 |……………………………………………………| 18829 | 2000-06-24 18:48:40 | Autre| Messager | 4 || 18829 | 2000-06-24 18:48:49 | Autre| Messager | 5 || 18829 | 2000-06-24 18:49:26 | Web | http | 5 || 18829 | 2000-06-24 18:49:31 | Web | http | 13 || 18829 | 2000-06-24 18:50:04 | Autre| Messager | 4 || 18829 | 2000-06-24 19:06:11 | Mail | sendmail | 0 || 18829 | 2000-06-24 19:07:24 | Web | http | 6 || 18829 | 2000-06-24 19:07:30 | Web | http | 11 || 18829 | 2000-06-24 19:08:01 | Autre| Messager | 4 |

Ce panéliste entre 12h55 et 14h43 a fait du web, a utilisé le Messager et envoyé un mail : on voit à travers ce simple exemple comment sont entrelacés les usages. => l’intégration de l’ensemble des protocoles est indispensable pour comprendre les usages.

Page 7: Parcours sur Internet  analyse des traces d’usage

Le nombre de sessions Internet est stable au cours de l’année

Le nombre d’internautes actifs diminue de mois en mois De 900 à 700

Le nombre moyen de sessions pour les internautes actifs progresse

5 sessions en moyenne par semaine contre moins de 4 en début d’année

901

859

818833

774

729

681

645

705706

703699

3,8

3,9

4,1

3,9

4,2

4,4 4,4 4,3

5,0 4,9

5,2

5,0

500

550

600

650

700

750

800

850

900

950

jan

v-00

févr

-00

mar

s-00

avr-

00

mai

-00

juin

-00

juil-

00

aoû

t-00

sep

t-00

oct-

00

nov

-00

déc

-00

3,00

3,50

4,00

4,50

5,00

5,50

nb d'internautesactifs

nb moyen deconnexions parsemaine pour lesinternautes actifs

0

0,2

0,4

0,6

0,8

1

1,2

janv

-00

févr

-00

mar

s-00

avr-

00

mai

-00

juin

-00

juil-

00

août

-00

sept

-00

oct-

00

nov-

00

déc-

00

Très faiblesutilisateurs

Ensemble

Courbe de Gini

0%10%20%30%40%50%60%70%80%90%

100%

0% 6%

11%

17%

23%

28%

34%

39%

45%

51%

56%

62%

67%

73%

79%

84%

90%

96%

% panelistes

% S

essi

ons

14% de panelistes = 50% de sessions

50% de panelistes = 90% de sessions

Une distribution très inégale des usages d’Internet 14% des internautes font 50% des sessions

Deux trajectoires opposées  :

les très faibles utilisateurs voient leurs usages décroître

Les forts utilisateurs progressent

3. Données de cadrage en 2000

Page 8: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D8 - 22/09/2000

France Télécom R&D

Exemple 1 : Utilisation des moteurs de recherche

Usages des moteurs de recherche  : une approche centrée utilisateurs Houssem Assadi, Valérie Beaudouin

Plan Etat de l’art Spécificité de notre démarche Terminologie et méthode Identité des moteurs Typologie des utilisateurs selon les thèmes de recherche Typologie des internautes selon leurs profils de session Évolution  : diminution des usages des moteurs et complexification des

requêtes

Page 9: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D9 - 22/09/2000

France Télécom R&D

Etude des usages des moteurs de recherche : état de l’art

Instituts de mesure d’audience : analyse globale des portails : pas de détail sur l’utilisation des différents

services, dont le moteur de recherche analyses mensuelles  : pas d’évolution Pas d’analyse du contenu des requêtes

Etudes centrées moteur (analyse des logs de serveurs) : Analyse des requêtes adressées au moteur Un moteur n’est pas représentatif de tous les moteurs Aucune donnée sur les utilisateurs du moteur Périodes d’observation courtes

Expérimentations de type psychologie cognitive : Permet de comprendre la logique des stratégies de recherche Sous-échantillons très atypiques (ex : étudiants en psycho) Situations « artificielles » de recherche d’information  : tâches pré-définies

par l’expérimentateur

Page 10: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D10 - 22/09/2000

France Télécom R&D

Notre approche

Cohorte représentative de la population connectée à Internet à domicile fin 1999 ;

Suivi des usages sur une année complète  : permet de mesurer les évolutions ;

Prise en compte de l’ensemble des moteurs de recherche du marché ;Description fine du profil des utilisateurs  : données socio-

démographiques et informations fines sur les pratiques d’Internet (calculées sur l’ensemble des données du panel)

Croisement entre des méthodes de statistique traditionnelle (utilisation des différents moteurs) et de statistique textuelle (analyse du contenu des requêtes)  => caractérisation des classes de requêtes par le profil des utilisateurs…

Croisement avec entretiens qualitatifs pour susciter et valider des hypothèses

Page 11: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D11 - 22/09/2000

France Télécom R&D

Identification des requêtes dans l’ensemble des pages Web visitées

Définitions : Session  : séquence d’URL visitées sans interruption de plus de 30 minutes Requête : une suite de mots-clefs adressée par un internaute à un moteur au cour

d’une session Internet Pages réponse : pages de réponses renvoyées par le moteur et consultées par

l’internaute pour une requête donnée Mot-clef  : « forme » au sens de la statistique textuelle (les opérateurs booléens ne

sont pas considérés comme mots-clefs) Opérateur  : opérateurs utilisés dans la requête (and, or, +, -, …)

Reconnaissance des requêtes moteur et pré-traitements  (logiciel &CatService) Identification des URL correspondant à des requêtes (règles représentées sous

forme d’expressions régulières) Transcodage, reconnaissance des mots-clefs et des opérateursExemple : URL de départ :http://www.euroseek.net/query?ifl=uk&query=photoshop+AND+6+AND+t%E9l

%E9charger&domain=world&domain=world&domain=world&lang=frRequête transcodée : photoshop AND 6 AND téléchargerMots-clefs : photoshop 6 téléchargerOpérateurs : AND (2)

Page 12: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D12 - 22/09/2000

France Télécom R&D

Données de cadrage sur les moteurs

29 moteurs de recherche différents ont été utilisés par les internautes en 2000

100 000 requêtes sur 7,5 millions de pages vues (1,5%) en 2000

Mais 20% de sessions Web avec requête moteur (31873 sur 161000 sessions)

230 000 pages de réponses consultées : pour une requête, en moyenne deux accès aux pages de résultats

Intensité d’usage des moteurs corrélée à intensité d’usage d’Internet (non utilisateurs  : sur-représentation des femmes, des moins de 15 ans; forts utilisateurs  : sur-représentation des hommes)

Autres moteurs

20%

Excite3%

Google3%

Lycos7%

Nomade5%

altavista.com9%altavista.fr

2%

voila.fr12%

wanadoo.fr14%

yahoo.com9%

yahoo.fr16%

Page 13: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D13 - 22/09/2000

France Télécom R&D

Identité des moteurs de rechercheExtraction des mots clefs dans les requêtesAnalyse avec les outils de statistique textuelle : Alceste et Lexico

Mots les plus fréquents (fréquence >150) dans les requêtes (hors mots grammaticaux):

mp3, jeu, gratuit, com, sexe, paris, photo, carte, www, fr, nu, français, crack, video, sex, location, national, emploi, vente, pokemon, musique, annuaire, the, hotel<, histoire, immobilier, telephone, free, voyage, porte-avions, download, of, port+er, femme+, plan+, resultat+, recette+, informat+16, ecole+, eroti+, air+, telecom, driver, gite, image, lyon, gay, cours, logiciel, code, electif, voiture, universit, Rom, web, achat, marine, porno, chat, vacances, cinema, club+, petit+, dvd, gif, credit, site+, sncf, annonce+, caramail, star+, meteo, cd, automobile, formation, ecran, radio, tourisme, anpe, webcam, http, centre+, ministere, recherche, football, bac, nouvel+, game, page , ville, sport, travail, internet, fnac, clipart, warez, yahoo, social, lyric, concours, telecharger, prix, midi, genealogie, education, bourse, ile, jeune, programmer, cuisine.

Page 14: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D14 - 22/09/2000

France Télécom R&D

Positionnement des moteurs

Altavista  : requêtes en anglais ; recherches informatique, musique, sexe  et jeux / hommes, anciens internautes

Wanadoo  : confusion entre requête et adresses de sites / femmes, internautes récents

Yahoo et Voilà  : profils d’usage proches mixte entre requêtes « vie pratique » et « culture Internet » (Yahoo plus de jeunes et d’anciens internautes que Voilà)

Voilà et Wanadoo  : même moteur, profils d’usage différents

La langue est un facteur de discrimination fort des thèmes de recherche : sexe, piratage, musique… mobilisent davantage l’anglais que la vie pratique.

Requêtes en anglais, jargon technique

Recherche de sites

Altavista

Wanadoo

Voilà

YahooRecherche thématique

Requêtes en français

dow

Download, crack, warezsex,starwars, dongeonMp3, music

www. --------.com

www. --------.fr

Altavista, yahoo, multimania, caramailIti…

Vie pratique : Emploi, people, région, sport, généalogie,

Google

Sexe, Musique, jeux

Page 15: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D15 - 22/09/2000

France Télécom R&D

Segmentation en fonction des thèmes de recherche

Classification des internautes en fonction des mots clés qu'ils utilisent dans leurs requêtes.

Deux grandes classes émergent :Classe "culture Internet"

Thèmes de recherche : multimédia, sexe, jeux et piratage.Caractéristiques socio-démo : homme, < 24ans, étudiant, pas de

revenus.Usages : Web++, mail+-.

Classe "il y a une vie en dehors du Net"Thèmes de recherche : vie pratique, tourisme, actualités.Caractéristiques socio-démo : femme, 50-64 ans, prof. inter., rurauxUsages : Web++, mail++.

Non utilisateurs des moteurs : femme, moins de 15 ans, sans profession.

Page 16: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D16 - 22/09/2000

France Télécom R&D

Segmentation en fonction des thèmes de recherche (suite)

Analyse plus fine, 5 classes intéressantes parmi les utilisateurs de moteurs :

Multimédia  : homme, 15-24ans, anciens internautes, région parisienne. Utilisateurs des outils de communication (chat, Messagerie instantanée)

jeux/piratage (chanson, vidéo, jeu, mp3, crack, unreal, windows) : homme, 15-24 ans, étudiant, pas de revenus, < 15 ans. Mail+, Web++

Sexe (nu, porno, gratuit, photo, sexe, nude) : homme, < 24ans, étudiant, pas de revenus. Mail-, Web+

Vie pratique/idées (voyage, fiscalité, santé, marketing, beauté, humour, mort) : femme, 25-34 ans, prof. interm. Mail++, Web++

"fourre-tout" (pratique, hobbies, ...) : 50-64 ans, retraité, ruraux. Mail++, Web++

Actualités/politique (noms de pays, régions, institutions, événements) : aggl. de 2000-20000 habitants, 35-49 ans. Mail++

Page 17: Parcours sur Internet  analyse des traces d’usage

Profil des sessions avec requête moteur

20% des sessions Web avec au moins une requête moteur, parmi celles-ci :

43% des sessions n’ont qu’une seule requête, 30% avec 2 ou 3.

68% de sessions monomoteurs 32% des sessions sont

multimoteurs (avec 7, 5% de sessions avec un métamoteur)

Répartition de sessions selon

leur profil effectifs % Un Seul moteur SAltavista 1916 7

68% SWanadoo 5147 18 SVoila 2444 8 Syahoo.com 1186 4 Syahoo.fr 4628 16 SLycos 879 3 SNomade 898 3 SGoogle 347 1 SExcite 242 1 SAutres 2121 7 Plusieurs moteurs AltavistaAutres 863 3

32% WanadooVoila 973 3

WanadooVoilaAutres (Yahoo, Altavista, autres) 1117 4

YahooFC 1411 5 NomadeAutresLycos 1230 4

LycosAutresYahoo 1706 6 AutresExciteGoogleLycos 1968 7 Total 29076 100

Profils de sessions (résumé) effectifs % Altavista 2779 10 Wanadoo-Voilà 9681 33 Yahoo (.fr et .com) 7225 25 Autres moteurs utilisés seuls 4487 15 Multimoteurs 4904 17

Page 18: Parcours sur Internet  analyse des traces d’usage

Typologie des internautes selon leur profil de sessions (1)

2/3 des internautes ont principalement utilisé un seul moteur

1/3 utilisent plusieurs moteurs dans leur sessions et/ou ont testé beaucoup de moteurs dans l’année.

Utilisateurs de Wanadoo et Voilà : accès récent à internet / profil classe moyenne / sur-représentation des femmes. Utilisateurs de Yahoo : étudiants / parisiens et plutôt anciens internautes. Utilisateurs d’Altavista : hommes et anciens internautes. Utilisateurs d’un seul moteur moins connu : très faibles utilisateurs des moteurs.

Multimoteurs : profil moyenProfils mixtes : intenses utilisateurs des moteurs / surtout des hommes, des parisiens, et d’anciens internautes.

0%10%20%30%40%50%60%70%80%90%

100%

29 30 31 15 27 32

27% 18% 6% 16% 9% 23%

Wanadoo Yahoo Altavista Autresmoteurs

Multimoteurs Profilsmixtes

Sessions Multimoteurs

Sessions Autres moteurs seuls

Sessions Yahoo

Sessions Wanadoo Voilà

Sessions Altavista

Clef de lecture : Le groupe Wanadoo, 29% des internautes, a utilisé les moteurs Wanadoo ou Voila dans plus de 85% de leurs sessions.

Page 19: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D19 - 22/09/2000

France Télécom R&D

Typologie des internautes selon leur profil de sessions (2)

L’intensification de l’usage des moteurs passe par une diversification des moteurs utilisés

Classe « autres moteurs »  : 15 requêtes en moyenne (12% du 4ème quartile) contre 32 pour la classe « profil mixte » (34% du 4ème quartile)

Croisement entre les deux typologies des internautes (en fonction des thèmes de recherche et du profil des sessions)

Les utilisateurs de Voilà/Wanadoo font plutôt des recherches « vie pratique »

Les internautes « profils mixtes » et « multimoteurs » plutôt orientés vers requêtes « culture Internet »

Types de moteurs/ Types de requêtes

Wanadoo/Voila Yahoo Altavista Autres moteurs

Multimoteur Mixte Total

Vie pratique

72 54 35 64 56 56 60

Internet 28 46 65 36 44 44 40

Page 20: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D20 - 22/09/2000

France Télécom R&D

Évolution de la complexité des requêtes (1)

Contexte Diminution de l’usage des moteurs

Récents internautes  : deux courbes d’apprentissage

Pas de « décollage » de l’usage pour les faibles utilisateurs des moteurs

Apprentissage rapide  : profil similaire aux anciens internautes

Nombre moyen de sessions moteur par jour

0

20

40

60

80

100

janv

-00

févr

-00

mar

s-00

avr-

00m

ai-0

0ju

in-0

0ju

il-00

août

-00

sept

-00

oct-

00no

v-00

déc-

00 7% 6% 8% 12%17%

25% 27%28%

50%47% 44% 36%

26% 22% 22% 24%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Avant1998

En 1998 01-061999

07-121999

Forts utilisateurs

Moyens utilisateurs

Faibles utilisateurs

Non utilisateur

Page 21: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D21 - 22/09/2000

France Télécom R&D

Évolution de la complexité des requêtes (2)

Longueur moyenne des requêtes  : 1,88 mots-clefs

87% des requêtes sans opérateurs booléens

20% des faibles utilisateurs des moteurs (Q1) ont utilisé des opérateurs et ils en utilisent de moins en moins …

… alors que 90% des forts utilisateurs (Q4) en utilisent et en utilisent de plus en plus

Deux trajectoires d’apprentissage opposées

0

1

2

3

4

5

6

7

8

9

10

1 2 3 4 5 6 7 8 9 10 11 12

mois

pro

po

rtio

n d

es r

equ

êtes

ave

c u

tilis

atio

n

d'o

pér

ateu

rs (

%)

faibles utilisateurs

forts utilisateurs

Page 22: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D22 - 22/09/2000

France Télécom R&D

Conclusion et perspectives

Meilleure connaissance sur les usages d’un des services phare d’Internet

Photographie d’une année d’utilisation des moteurs par un groupe représentatif

Chaque moteur a une identité propreLes utilisateurs repèrent ces identités et choisissent leur moteur en

fonction de leur rechercheL’utilisation avancée (=intense) des moteurs passe par l’exploration et la

comparaison de l’offre et par l’utilisation des opérateurs booléens

Poursuivre sur les données NetValue 2001 l’analyse des usagesEffets de Google sur les usages (la diminution des usages des moteurs se

maintient-elle ?)Analyser les parcours avec requête moteurMener des entretiens qualitatifs et observation in situ pour comprendre la

logique des usages

Page 23: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D23 - 22/09/2000

France Télécom R&D

5. Exemple 2 : Segmentation des internautes

Identifier la diversité des pratiques des internautes en tenant compte de la diversité des protocoles utilisés

Services retenus : Web Moteurs de recherche Messagerie électronique classique ou via le Web (WebMail) Chat Messagerie Instantanée Forum

Page 24: Parcours sur Internet  analyse des traces d’usage

Service % de

sessions Durée

moyenne % d'internautes Mail 38% 23 ' 79% WebMail 13% 37' 74% Messageries instantanées 11% 36' 25% Forum (Newsgroups) 5% 31' 24% Chat 3% 58' 28% Moteur 17% 43' 93% WEB 76% 30 ' 100%

Utilisation des différents services

Web et mail sont utilisés par tous les internautes. Chat, Messagerie instantanées et forums ne sont utilisés que par un

quart des internautes. La durée des sessions varie considérablement selon service utilisés.

Le mail classique se pratique plutôt en mode déconnecté contrairement au chat qui implique une co-présence, donc connexion

Page 25: Parcours sur Internet  analyse des traces d’usage

Construire une typologie des internautes

Définir un ensemble de services, protocoles

Profil des sessions (présence/absence d’un service)

Profil des internautes (part des sessions avec accès au service

Analyse factorielle et classification ascendante hiérarchique

Web Moteur Mail WebMail Chat ICQutilisateur 1 session 1 1 1 0 0 0 0utilisateur 1 session 2 1 1 0 0 0 0utilisateur 1 session 3 1 1 0 0 0 0…utilisateur 1140 1 0 0 1 0 1utilisateur 1140 0 0 1 1 0 1utilisateur 1140 1 1 0 1 0 1utilisateur 1140 0 0 1 1 0 1utilisateur 1140session 170 000 1 0 0 1 0 1

Web Moteur Mail WebMail Chat ICQ Intensité pratiqueutilisateur 1 1 1 0 0 0 0 2…utilisateur 1140 0,6 0,2 0,4 1 0 1 3

Sept groupes d’internautes

Page 26: Parcours sur Internet  analyse des traces d’usage

Segmentation des internautes

WWW

Utilisateurs intensifs du Web (22%)Hommes, anciens internautes, retraités,

Gp «Messageries Instantanées» (7%)

15-24 ans, étudiants, employés

Gp « Outils de communication » (5%)Chat, WebMail, MI / 15-24 ans, étudiants

Gp «  WebMail » (7%)15-24 ans, sans profession

Gp "Mail classique" (14%)35-49 ans, Cadres sup et PIS, Prof intermédiaires

Faibles utilisateurs Internet (21%)Bcp de moteur, peu de mailConnectés en 98, foyers de 4 personnes

Très faibles utilisateurs Internet (25%)Décroissance des usagesFemmes, moins de 15 ans

Information Communication

sess

ions

ave

c en

trel

ace

men

t d

e se

rvic

es (

26%

web

-m

ail-I

M)

15-2

4 an

s

46%

de

s in

tern

aut

es15

% d

es

sess

ions

54%

de

s in

tern

aut

es,

85%

de

s se

ssio

ns

Page 27: Parcours sur Internet  analyse des traces d’usage

Une pluralité de profils

Les faibles utilisateurs du Web vs les utilisateurs intensifs Faibles utilisateurs ont peu de contacts, or les liens ancrent les usages d’Internet

Les internautes « chercheurs » vs les internautes « communicants »

Les internautes « communicants » Utilisateurs du mail (milieu aisé) vs utilisateurs du chat et messageries instantanée (milieu modeste)  :

importance de l’opposition entre les modes « conversationnel » et « connecté » (Licoppe) 15-24 ans  : habileté à entrelacer usages du Web, du mail et des messageries instantanées (26% des

sessions)

Page 28: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D28 - 22/09/2000

France Télécom R&D

Typologie et caractéristiques socio-démographiques

Trois groupes de forts utilisateurs (53% des internautes, 85% des sessions)Utilisateurs intensifs du Web

Groupe “Courrier” : utilisation du mail classique ou WebMail

Groupe “Conversation” : utilisation du Web, du mail et des messageries instantanées ou chat

Femmes et jeunes : fortement impliqués dans pratiques de communication, jeunes surtout dans chat et messageries instantanées

Avec l’âge : glissement de la communication vers la recherche d’information Cadres et PIS : rejet des pratiques de conversation sur internet, au bénéfice du

courrier (attachement au contenu, à la forme)

0%

20%

40%

60%

80%

100%

homme femme

Groupe"Conversation"

Groupe "Courrier"

Utilisateursintensif du Web

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Cadres et pis Professionsintermediaires

Employés Ouvriers0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

15-24 ans 25-34 ans 35-49 ans Plus de 50 ans

Page 29: Parcours sur Internet  analyse des traces d’usage

La communication de ce document est soumise à autorisation de France Télécom R&D

(Nom du fichier) - D29 - 22/09/2000

France Télécom R&D

6. Prolongement  : SensNet

SensNet : catégoriser les usages et les parcours sur InternetProjet RNRTPartenaires  : FT R&D, NetValue, LIMSI, Paris III

Mettre en place d’un système de catégorisation sémantique des usages et des parcours sur Internet qui tienne compte :

de la diversité des types d’activité possibles sur Internet (communiquer, rechercher de l’information, consulter, acheter) => crucial pour des sites portails qui agrègent une grande diversité de services

de la dimension hypermédia d’internet : tenir compte de l’organisation formelle des documents, de la structure hypertextuelle, des medias autres que le texte=> l’organisation formelle des documents informe sur les contenus

de la production et de la réception dans l’analyse des pages vues : la page est une composante d’un site qui révèle le projet de son concepteurla page s’inscrit dans un parcours d’utilisateur qui révèle sa logique de

navigation Rencontrer les internautes pour comprendre la logique de leurs parcours pour aboutir à des segmentations fines des internautes sur la base de leurs

parcours