theses.fr tutoriel

32
theses.fr tutoriel Isabelle Mauger Perez et Aurélien Charot, ABES Journées ABES – 20 juin 2012

description

theses.fr tutoriel. Isabelle Mauger Perez et Aurélien Charot , ABES. theses.fr : des données, une interface, des services. Une application en production depuis le 11 juillet 2011. Que trouve-t-on aujourd’hui dans theses.fr ?. Toutes les données validées dans STAR - PowerPoint PPT Presentation

Transcript of theses.fr tutoriel

Page 1: theses.fr tutoriel

Journées ABES – 20 juin 2012

theses.frtutoriel

Isabelle Mauger Perez et Aurélien Charot, ABES

Page 2: theses.fr tutoriel

UNE APPLICATION EN PRODUCTION DEPUIS LE 11 JUILLET 2011

theses.fr : des données, une interface, des services

Page 3: theses.fr tutoriel

Que trouve-t-on aujourd’huidans theses.fr ?

• Toutes les données validées dans STAR– Description de 11 397 thèses soutenues à partir de 2006– Indexation du texte intégral– Accès au texte intégral dans 70% des cas (8 019 thèses)

• Toutes les données de STEP lorsqu’une certaine finesse de description est atteinte– Description de 64 812 thèses en préparation depuis 2002

• 131 335 personnes– Une base de données de personnes qualifiées par les thèses qui

leur sont liées– Exemple : jazz Brésil

Page 4: theses.fr tutoriel

• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,

– Les pages de personnes– Les pages d’organismes

Les pages « finales »

Page 5: theses.fr tutoriel

• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,

– Les pages de personnes– Les pages d’organismes

Les pages « finales »

http://www.theses.fr/2011REN20056

Page 6: theses.fr tutoriel

• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,

– Les pages de personnes– Les pages d’organismes

Les pages « finales »

http://www.theses.fr/2011REN20056

http://www.theses.fr/s57810

Page 7: theses.fr tutoriel

• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,

– Les pages de personnes– Les pages d’organismes

Les pages « finales »

http://www.theses.fr/2011REN20056

http://www.theses.fr/s57810

http://www.theses.fr/154887528

Page 8: theses.fr tutoriel

http://www.theses.fr/ 079486304

Page 9: theses.fr tutoriel

Les trois onglets de recherche

• Toutes les thèses– Deux restrictions possibles :

• uniquement les thèses soutenues• uniquement les thèses soutenues accessibles en ligne

• Thèses en préparation– Restriction possible : uniquement les thèses en préparation dont

la soutenance est prévue dans les 6 prochains mois

• Personnes : docteurs, directeurs de thèse, membres du jury– Restriction possible : uniquement les personnes en lien avec

une thèse soutenue ou en préparation depuis moins de 5 ans

Page 10: theses.fr tutoriel

Au choix de l’utilisateur

• Consultation par l’encart de recherche– Requête sur les métadonnées et le texte intégral

• Consultation par l’encart de recherche puis raffinement par utilisation des facettes

date de soutenance, établissementdiscipline, école doctorale,langue de la thèse, directeur de thèse,domaine

• Consultation par navigation pure via les facettes

Page 11: theses.fr tutoriel

Page d’accueil : www.theses.fr

Page 12: theses.fr tutoriel

Page de résultats obtenue après utilisation de l’encart de recherche

Page 13: theses.fr tutoriel

Page de résultats obtenue après raffinement par la facette Etablissement

Page 14: theses.fr tutoriel

Page de la thèse soutenue obtenue en cliquant sur le titre

Page 15: theses.fr tutoriel

Page d’un organisme obtenue en cliquant sur le nom de l’organisme

Page 16: theses.fr tutoriel

Page de la thèse en préparation obtenue en cliquant sur le titre

Page 17: theses.fr tutoriel

Page d’une personne obtenue en cliquant sur le nom de la personne

Page 18: theses.fr tutoriel

Les services• Rebonds vers des applications du web 2.0 via AddThis• Recommandations• – des flux ATOM par défaut

• thèses soutenues récemment,• soutenues récemment accessibles en ligne,• nouvelles thèses en préparation,• annonces de soutenance

– et des flux personnalisables : flux de recherche•

– Zotero– format txt– format csv– formats « machines »

Page 19: theses.fr tutoriel

Un service particulier :

• Rendre possible un cercle vertueux : l’utilisateur entre en contact avec le producteur pour signaler une erreur

Jul-11 Aug-11 Sep-11 Oct-11 Nov-11 Dec-11 Jan-12 Feb-12 Mar-12 Apr-12 May-120

20

40

60

80

100

120

140

160

180

200

16 7 10

9576

4558 68

48 37 28

147 154

Assistance de theses.fr

signaler une erreur

ABESstp

• Depuis avril 2012

• Mail au correspondant STEP ou au correspondant STAR

Page 20: theses.fr tutoriel

Les données brutes• Ouvertes, réutilisables via une API.

– pour une liste de résultats : ajouter &format=xml ou &format=json ou &format=atom ou &format=csv ou &format=txt en paramètre de l’url de recherche

– pour une page finale : ajouter .xml (ou .rdf ) à l’url de la page

• Ce principe permet d’ajouter autant de formats que nécessaire.

• Exemple : récupérer la description de la thèse 2010MON30067– dans l’interface– en rdf/xml

• Exemple : récupérer la liste de toutes les thèses soutenues à Toulouse 2 et accessibles en ligne dans l’ED Science du langage.– dans l’interface– en xml (solr)– en json

Page 21: theses.fr tutoriel

theses.fr et Google• Description de

toutes les pages de theses.fr dans un fichier sitemap pour faciliter l’indexation des robots

• 77% du trafic provient des moteurs de recherche

Jul-11

Aug-11

Sep-11

Oct-11

Nov-11

Dec-11

Jan-12

Feb-12

Mar-12

Apr-12

May-12

0

20,000

40,000

60,000

80,000

100,000

120,00099,674

13,218

10,671

Source de trafic (nb de visites)

trafic de recherche

sites référents

accés directs

77%

14%9%

Source de trafic (% du nb de visites)juillet 2011-mai 2012

trafic de recherchesites référents

accés directs

Page 22: theses.fr tutoriel

0

20,000

40,000

60,000

80,000

100,000

120,000

12,71111,868 15,961

61,815

73,306

66,891

91,055

95,259 99,652

93,250

97,161

Visiteurs uniques

Quelques chiffres

Jul-11

Aug-11

Sep-11

Oct-11

Nov-11

Dec-11

Jan-12

Feb-12

Mar-12

Apr-12

May-12

050,000

100,000150,000200,000250,000300,000350,000400,000450,000500,000

86,81075,383116,255

402,331 399,129

349,976

427,499 440,975467,914

426,059

427,365

Pages vues

Page 23: theses.fr tutoriel

Plus de détails• Le cercle vertueux de theses.fr : mise en relation de l’utilisateur

et du producteur de données, Punktokomo, 10 avril 2012

• theses.fr : comment fonctionne l’onglet « personnes » ?, Punktokomo ,19 janvier 2012

• theses.fr : l’API XML de recherche, Punktokomo, 22 juillet 2011

• theses.fr : l’API XML des personnes, Punktokomo, 12 juillet 2011

• theses.fr : l’API XML des thèses, Punktokomo , 12 juillet 2011

• theses.fr : les technologies utilisées, Punktokomo, 12 juillet 2011

Page 24: theses.fr tutoriel

UN PROJET DOTÉ DE MOYENS SPÉCIFIQUES JUSQU’A FIN 2012

theses.fr : les prochains développements

Page 25: theses.fr tutoriel

Quelles fonctionnalités demain dans theses.fr ? (1)

• Une interface en trois langues– Français, anglais, italien

• Un module de recherche avancée– exclure la recherche dans le texte intégral– ne pas tenir compte de la pertinence définie par

défaut (pondération des index)– faciliter la recherche exacte

• Calendrier : fin septembre 2012

Page 26: theses.fr tutoriel

Quelles fonctionnalités demain dans theses.fr ? (2)

• Des services accessibles sur authentification– paniers– alerte mail– …

• Des services spécifiques pour les personnes reconnues comme étant l’auteur d’une thèse– mise en relation : être contacté via theses.fr– accès aux statistiques de sa page de thèse– …

• Impossibilité d’offrir de tels services pourles directeurs de thèse

• Calendrier : fin 2012

Page 27: theses.fr tutoriel

Que trouvera-t-on demaindans theses.fr ? (1)

• Toutes les données du Sudoc relatives aux thèses de doctorat françaises soutenues depuis 1985

• Toutes ? Non. Celles qui passent avec succès l’algorithme de chargement qui a pour but de les « FRBriser ».

• Regroupement des notices Sudoc en familles composées de :– la notice mère (la notice de la thèse originelle telle que validée par le

jury : zone 105$m)– Éventuellement, les notices enfants (les notices de reproduction : zone

105$bv)• Chaque famille aura une page propre : www.theses.fr/NNT• Conséquence pour theses.fr : recherche de l’exhaustivité

depuis 1985.• Calendrier : fin septembre 2012.

Page 28: theses.fr tutoriel

Que trouvera-t-on demaindans theses.fr ? (2)

• Toutes les données de TEL et l’indexation du texte intégral sous réserve que le lien à la thèse originelle ait été trouvé.

• Principe : chargement de toutes les données de TEL dans le Sudoc par moissonnage oai-pmh de TEL.– Création de notices probablement assez pauvres (pas de liens

IdRef) mais avec l’accès au texte intégral.• Algorithme « FRBrisateur » de chargement dans theses.fr

– Si la notice mère est trouvée, ajout dans theses.fr de l’accès au texte intégral

• Conséquence pour theses.fr : faciliter l’accès au texte intégral sur le web

• Calendrier : fin 2012

Page 29: theses.fr tutoriel

Que trouvera-t-on demaindans theses.fr ? (3)

• Des liens vers le catalogue des « thèses à la carte » de l’ANRT de Lille

• Principe : envoi régulier (mensuel ?) de la liste de NNT disponibles dans « thèses à la carte ».

• Conséquence pour theses.fr : faciliter l’accès au texte intégral avec la possibilité de commander un fac-similé de la thèse.

• Calendrier : soumis aux contraintes de l’ANRT, sans doute fin 2012.

Page 30: theses.fr tutoriel

Que trouvera-t-on demaindans theses.fr ? (4)

• Les données de Thésa pour les thèses en préparation au sein d’établissements relevant de la CGE et non utilisateurs de STEP.

• Principe : envoi régulier (mensuel ?) des données par l’INIST.

• Conséquence pour theses.fr : recenser toutes les thèses en préparation

• Calendrier : soumis aux contraintes de l’INIST, sans doute fin 2012.

Page 31: theses.fr tutoriel

Que trouvera-t-on demaindans theses.fr ? (5)

• Des liens vers les données non-documentaires issus des partenaires associatifs du projet : Intelli’Agence-ABG par exemple.– Cvthèque– Offres d’emploi– …

• Conséquence pour theses.fr : servir les docteurs et les doctorants au-delà de leur travail académique

• Calendrier : soumis aux contraintes de l’ Intelli’Agence-ABG, sans doute fin 2012.

Page 32: theses.fr tutoriel

Journées ABES – 20 juin 2012