Folksonomies scientifiques : une étude exploratoire comparative

41
Folksonomies scientifiques : une étude exploratoire comparative Dominique Besagni, Cecilia Fabry, Claire François, Clotilde Roussel INIST / CNRS Evelyne Broudoux UVSQ, DICEN

description

Folksonomies scientifiques : une étude exploratoire comparative. Dominique Besagni, Cecilia Fabry, Claire François, Clotilde Roussel INIST / CNRS Evelyne Broudoux UVSQ, DICEN. Objectifs généraux de l’étude. De quoi se composent les folksonomies scientifiques ? - PowerPoint PPT Presentation

Transcript of Folksonomies scientifiques : une étude exploratoire comparative

Page 1: Folksonomies  scientifiques : une étude exploratoire comparative

Folksonomies scientifiques : une étude exploratoire comparative

Dominique Besagni, Cecilia Fabry, Claire François, Clotilde Roussel

INIST / CNRSEvelyne Broudoux

UVSQ, DICEN

Page 2: Folksonomies  scientifiques : une étude exploratoire comparative

22

Objectifs généraux de l’étude

De quoi se composent les folksonomies scientifiques ?

Une question : que révèlent les usages ?

– Activité réelle des usagers dans et hors les groupes ?– Représentativité des domaines scientifiques ?

Méthodologie

– Une entrée par les groupes – Une entrée par les tags

Page 3: Folksonomies  scientifiques : une étude exploratoire comparative

33

Objectifs spécifiques de l’étude

Quels groupes utilisent quels tags pour quels articles ?

Informations sur les groupes • Membres• Tags utilisés• Articles et/ou références répertoriés dans les bibliothèques des groupes• Dates (utilisateur et/ou article)

Analyses • Dynamique des groupes

– Taille, âge des groupes, dernière arrivée d’un membre• Activité des groupes

– Taille des bibliothèques, dernier article ajouté,– Tags associés aux articles

• Analyse de contenu– Réseau de partage des tags par les groupes

Page 4: Folksonomies  scientifiques : une étude exploratoire comparative

44

Protocole opératoire

Récupération des données à partir de pages HTML :– Scripts Perl– Module WWW::Mechanize qui peut :

• décharger les pages HTML,• suivre les liens,• remplir les formulaires,• cliquer sur les boutons,• gérer les cookies,• mais ne peut pas interpréter JavaScript (exemple 2Collab) !• (existe pour la plupart des langages : java, python, ruby, php ...)

– Module WWW::RobotRules :• respect des consignes du serveur

Page 5: Folksonomies  scientifiques : une étude exploratoire comparative

55

Protocole opératoire

Récupération des données à partir d’une API :– Sur certains sites comme Bibsonomy– Scripts Perl– Module WWW

• requête simple,• syntaxe dépendante du site,• résultat sous forme de fichiers XML,

– Module XML::TokeParser

Page 6: Folksonomies  scientifiques : une étude exploratoire comparative

66

CiteULike

Page 7: Folksonomies  scientifiques : une étude exploratoire comparative

77

Recherche des groupesURL : http://www.citeulike.org/groups/browse

Page 8: Folksonomies  scientifiques : une étude exploratoire comparative

88

Recherche sur un groupe (1)URL : http://www.citeulike.org/group/22

Page 9: Folksonomies  scientifiques : une étude exploratoire comparative

99

Recherche sur un groupe (2)URL : http://www.citeulike.org/group/22

Page 10: Folksonomies  scientifiques : une étude exploratoire comparative

1010

Recherche sur un groupe (3)URL : http://www.citeulike.org/groupfunc/22/members

Page 11: Folksonomies  scientifiques : une étude exploratoire comparative

1111

Recherche sur un groupe (4)URL : http://www.citeulike.org/group/22/article/1073937

Page 12: Folksonomies  scientifiques : une étude exploratoire comparative

1212

Résultats

Effectifs et dynamique des groupes

Activité des groupes

Tags utilisés par l’ensemble des groupes

Réseau d’un sous-ensemble :– 17 groupes partageant le tag « deforestation »

Page 13: Folksonomies  scientifiques : une étude exploratoire comparative

1313

CiteUlike : Effectifs des 2871 groupes

1

10

100

1 101 201 301 401 501 601 701 801 901 1001 1101 1201 1301 1401 1501 1601 1701 1801 1901 2001 2101 2201 2301 2401 2501 2601 2701 2801

Utilisateurs

0

20

40

60

80

100

120

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Utilisateurs

1434 groupes d’un seul membre

Max 99 membres

Page 14: Folksonomies  scientifiques : une étude exploratoire comparative

1414

Dynamique des groupes

2009

2008

2007

2006

2005

dernier membre ajouté

Année de création

2009

2004

2005

2006

2007

2008

21%

9%

15%

17%

37% 6%

11%

14%

31%

38%

Page 15: Folksonomies  scientifiques : une étude exploratoire comparative

1515

Le groupe contenant le + d’inscrits

Bioinformatics

Groupe libre99 membresCrée le 10/10/2007Dernier membre ajouté le 06/08/20093 769 articlesDernier article ajouté le 18/09/2009Description :Analysis and modelling of molecular biology data

Page 16: Folksonomies  scientifiques : une étude exploratoire comparative

1616

Activité des groupes

1

10

100

1000

10000

100000

1 100 199 298 397 496 595 694 793 892 991 109 1189 128 1387 148 1585 168 1783 188 1981 208 2179 227 2377 247 2575 267 2773

236 groupes avec un seul article

524 groupes sans articles

Max 27 741 articlesarticles

0

5000

10000

15000

20000

25000

30000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Page 17: Folksonomies  scientifiques : une étude exploratoire comparative

1717

Activité des groupes

2009

2008

20072006

2005

dernier article ajouté

33%

18%

3%

7%

15%

23%

dernier membre ajouté

2009

2008

2007

2006

20056%

11%

14%

31%

38%

Page 18: Folksonomies  scientifiques : une étude exploratoire comparative

1818

Le groupe contenant le + d’articles

C. elegans /WormBase

Groupe libre2 membres

Crée le 02/08/2008

Dernier membre ajouté le 17/09/200827 741 articles

Dernier article ajouté le 14/09/2009 Description :Articles of note for the nematode research community in general and the C.

elegans community in particular.

Le plus gros groupe n’est géré que par 2

utilisateurs.Il est actif depuis plus d’un an et est mis à

jour très régulièrement

Page 19: Folksonomies  scientifiques : une étude exploratoire comparative

1919

1

0

50

100

150

200

250

300

350

400

450

0 1 2 3 4 5 6 11 8 25 10

1

Groupes

ARTICLES

Utilisateurs

1

0

50

100

150

200

250

300

350

400

450

0 1 2 3 4 5 6 11 8 25 10

1

Groupes

ARTICLES

Utilisateurs

Les groupes de 1 membre

Plus de 350 groupes d’un seul membre ne

contenant pas d’article

TESTS ????

Nb articles

Nb groupes

Page 20: Folksonomies  scientifiques : une étude exploratoire comparative

2020

Répartition du nombre d'utilisateurs pour les groupes sans article

0

50

100

150

200

250

300

350

400

450

1 2 3 4 5 6 7 8 11 12 14 (vide)

0

Nombre de groupes

Utilisateurs

ARTICLES

Répartition du nombre d'utilisateurs pour les groupes sans article

0

50

100

150

200

250

300

350

400

450

1 2 3 4 5 6 7 8 11 12 14 (vide)

0

Nombre de groupes

Utilisateurs

ARTICLES

Les groupes sans article

Un groupe de 14 membres sans

articles

Nb membres

Nb groupes

Page 21: Folksonomies  scientifiques : une étude exploratoire comparative

2121

Répartition du nombre d'utilisateurs pour les groupes avec 1 seul article

0

20

40

60

80

100

120

140

160

180

1 2 3 4 5 6 7 11

1

Nombre de groupe

Utilisateurs

ARTICLES

Répartition du nombre d'utilisateurs pour les groupes avec 1 seul article

0

20

40

60

80

100

120

140

160

180

1 2 3 4 5 6 7 11

1

Nombre de groupe

Utilisateurs

ARTICLES

Les groupes avec 1 seul article

150 groupes constitués d’un seul membre ont un seul

articleTESTS ????

Nb membres

Nb groupes

Page 22: Folksonomies  scientifiques : une étude exploratoire comparative

2222

Tags de l’ensemble des groupes

• 68 522 tags

• 26 668 tags de fréquence 1

• 43 820 tags dans un seul groupe

0500

100015002000250030003500400045005000550060006500700075008000850090009500

10000

1 24 47 70 93 116 139 162 185 208 231 254 277 300 323 346 369 392 415 438 461 484 507 530 553 576 599 622 645

Répartition des tags par fréquence

Nb. tags Nb. occurrences

26 668 1

10 654 2

5 149 3

4 002 4

2 295 5

2 022 6

1 281 7

2 186 8

941 9

929 10

… …

1 27 743

1 27 756

1 27 759

1 27 803

1 47 178

Page 23: Folksonomies  scientifiques : une étude exploratoire comparative

2323

Les tags les plus fréquentsTAG FREQUENCE

NB GROUPE

bibtex-import 47178 240

c_elegans 27803 16

nematode 27759 17

elegans 27756 11

c-elegans 27743 7

caenorhabditis_elegans 27735 1

wormbase 27735 1

meeting_abstract 13694 1

article 7909 28

mdb 6717 2

review 5514 363

ewd-bib 5048 4

model 3952 316

learning 3562 292

Le vocabulaire du plus gros groupe en terme d’article (27741) se retrouve dans ce

classement (C. elegans /WormBase )

Page 24: Folksonomies  scientifiques : une étude exploratoire comparative

2424

Répartition des tags par groupeNb. tags Nb. groupes

43820 1

9780 2

3562 3

2330 4

1459 5

943 6

612 7

1661 8

591 9

466 10

… …

1 289

1 292

1 316

1 346

1 363

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

50000

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169

Répartition des tags par groupe

1

10

100

1000

10000

100000

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169

Répartition des tags par groupe

Page 25: Folksonomies  scientifiques : une étude exploratoire comparative

2525

Les tags partagés par les groupes

TAG FREQUENCE NB GROUPE

review 5514 363network 3236 346model 3952 316learning 3562 292design 2617 289theory 2295 278social 2009 275system 1552 261information 1241 242bibtex-import 47178 240analysis 1473 231web 1057 221software 1733 220

Page 26: Folksonomies  scientifiques : une étude exploratoire comparative

2626

Le réseau « deforestation »

Page 27: Folksonomies  scientifiques : une étude exploratoire comparative

2727

Le réseau « deforestation »

Page 28: Folksonomies  scientifiques : une étude exploratoire comparative

2828

Tags :1860 bibtex-import1861 Species1862 Habitat1863 Spatial1864 Control1865 Management1866 Biodiversity1867 Conservation1868 Population1869 Diversity1870 Biological1871 Litchi1872 Mode1873 Plant45 landscape

Entomologytaxonomy, ecology, conservation, evolution,

physiology, genetics10 utilisateurs,1862 articles,Créé en 2007, dernier utilisateur en 09/2009dernier article en 06/2007 2938 tags

Botanytaxonomy, evolution, physiology, ecology,

genetics11 utilisateurs,1862 articles,Créé en 2007, dernier utilisateur en 08/2009dernier article en 06/2007 2938 tags

EarthEnvironmentalSciencesMajor researches on various environmental,

ecological, socio-economic, geographical, biodiversity issues. From earth climate change to minute soil pores studies. From microbiotic crusts to Amazon forest study. From polar ice caps to Sahara desert.

12 utilisateurs,1862 articles,Créé en 2008, dernier utilisateur en 08/2009dernier article en 06/2007 2938 tags

Une bibliothèque pour 3  groupes

Page 29: Folksonomies  scientifiques : une étude exploratoire comparative

29

Bibsonomy

29

Page 30: Folksonomies  scientifiques : une étude exploratoire comparative

3030

Recherche des groupes

Page 31: Folksonomies  scientifiques : une étude exploratoire comparative

31

Recherche sur un groupe (1)BIBLIOTHEK 2.0

Séparation url (bookmarks) et publications (notices)

Page 32: Folksonomies  scientifiques : une étude exploratoire comparative

320 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 500

10

20

30

40

50

60

70

80

90

nb de groupes

Effectifs des 169 groupes

85 groupes de zéro membre ????????

Max 47 membres pour le plus grand

groupe

Particularités de ce logiciel le 1er membre donne son nom au groupe et n’est pas compté

Page 33: Folksonomies  scientifiques : une étude exploratoire comparative

33

Dernier article ajouté

20062%

20077%

200811%

200930%

201050%

20050%

2005

2006

2007

2008

2009

2010

Dynamique des groupes

dernier article ajouté

Année de créationcreation

20059%

200617%

200724%

200829%

200917%

20104%

2005

2006

2007

2008

2009

2010

50% des groupes sont mis à jour depuis janvier 2010

Page 34: Folksonomies  scientifiques : une étude exploratoire comparative

34

Les tags les plus

fréquents

# Intitulé Nb.d'occurrences

imported 18207

web 6578

learning 6369

tool 6091

folksonomy 5307

semantic 4526

social 4500

web-2.0 4368

software 4011

tagging 3823

design 3806

ontology 3771

analysis 3604

my-own 3264

network 3103

search 3018

blog 2910

education 2868

clustering 2607

conference 2602

to-read 2572

fca 2519

TAG automatique

Page 35: Folksonomies  scientifiques : une étude exploratoire comparative

35

Connotea

Page 36: Folksonomies  scientifiques : une étude exploratoire comparative

36

Connotea

Page 37: Folksonomies  scientifiques : une étude exploratoire comparative

37

Groupes

Répartition du type d'accès

24%

76%

Ouvert

Privé

Page 38: Folksonomies  scientifiques : une étude exploratoire comparative

38

2collab

38

Page 39: Folksonomies  scientifiques : une étude exploratoire comparative

39

2collab

39

Type de groupe

15%

26%

59%

1 membre, 0 signet1 membre, 1 signetAutres

Page 40: Folksonomies  scientifiques : une étude exploratoire comparative

4040

Conclusion - Perspectives

Premières analyses exploratoires– Analyse guidée par les groupes et les tags– Réseaux de groupe par tags partagés

Profils des groupes– Une activité différenciée dans les groupes

• Des testeurs en nombre (groupes de 1 personne)• Des petits groupes très actifs (2 personnes)• Des groupes qui continuent de croître sans activité de tagging

– Des longues traines de tags

Page 41: Folksonomies  scientifiques : une étude exploratoire comparative

4141

Conclusion - Perspectives

Les domaines représentés– Les groupes représentant les domaines

Reste à évaluer– Le poids de l’activité des individus hors groupes– Le poids des références importées des autres serveurs

(recoupements)