theses.fr tutoriel

Post on 24-Feb-2016

86 views 1 download

description

theses.fr tutoriel. Isabelle Mauger Perez et Aurélien Charot , ABES. theses.fr : des données, une interface, des services. Une application en production depuis le 11 juillet 2011. Que trouve-t-on aujourd’hui dans theses.fr ?. Toutes les données validées dans STAR - PowerPoint PPT Presentation

Transcript of theses.fr tutoriel

Journées ABES – 20 juin 2012

theses.frtutoriel

Isabelle Mauger Perez et Aurélien Charot, ABES

UNE APPLICATION EN PRODUCTION DEPUIS LE 11 JUILLET 2011

theses.fr : des données, une interface, des services

Que trouve-t-on aujourd’huidans theses.fr ?

• Toutes les données validées dans STAR– Description de 11 397 thèses soutenues à partir de 2006– Indexation du texte intégral– Accès au texte intégral dans 70% des cas (8 019 thèses)

• Toutes les données de STEP lorsqu’une certaine finesse de description est atteinte– Description de 64 812 thèses en préparation depuis 2002

• 131 335 personnes– Une base de données de personnes qualifiées par les thèses qui

leur sont liées– Exemple : jazz Brésil

• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,

– Les pages de personnes– Les pages d’organismes

Les pages « finales »

• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,

– Les pages de personnes– Les pages d’organismes

Les pages « finales »

http://www.theses.fr/2011REN20056

• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,

– Les pages de personnes– Les pages d’organismes

Les pages « finales »

http://www.theses.fr/2011REN20056

http://www.theses.fr/s57810

• Les pages de thèses soutenues• Les pages de thèses en préparation• sous réserve d’un lien IdRef-autorités Sudoc,

– Les pages de personnes– Les pages d’organismes

Les pages « finales »

http://www.theses.fr/2011REN20056

http://www.theses.fr/s57810

http://www.theses.fr/154887528

http://www.theses.fr/ 079486304

Les trois onglets de recherche

• Toutes les thèses– Deux restrictions possibles :

• uniquement les thèses soutenues• uniquement les thèses soutenues accessibles en ligne

• Thèses en préparation– Restriction possible : uniquement les thèses en préparation dont

la soutenance est prévue dans les 6 prochains mois

• Personnes : docteurs, directeurs de thèse, membres du jury– Restriction possible : uniquement les personnes en lien avec

une thèse soutenue ou en préparation depuis moins de 5 ans

Au choix de l’utilisateur

• Consultation par l’encart de recherche– Requête sur les métadonnées et le texte intégral

• Consultation par l’encart de recherche puis raffinement par utilisation des facettes

date de soutenance, établissementdiscipline, école doctorale,langue de la thèse, directeur de thèse,domaine

• Consultation par navigation pure via les facettes

Page d’accueil : www.theses.fr

Page de résultats obtenue après utilisation de l’encart de recherche

Page de résultats obtenue après raffinement par la facette Etablissement

Page de la thèse soutenue obtenue en cliquant sur le titre

Page d’un organisme obtenue en cliquant sur le nom de l’organisme

Page de la thèse en préparation obtenue en cliquant sur le titre

Page d’une personne obtenue en cliquant sur le nom de la personne

Les services• Rebonds vers des applications du web 2.0 via AddThis• Recommandations• – des flux ATOM par défaut

• thèses soutenues récemment,• soutenues récemment accessibles en ligne,• nouvelles thèses en préparation,• annonces de soutenance

– et des flux personnalisables : flux de recherche•

– Zotero– format txt– format csv– formats « machines »

Un service particulier :

• Rendre possible un cercle vertueux : l’utilisateur entre en contact avec le producteur pour signaler une erreur

Jul-11 Aug-11 Sep-11 Oct-11 Nov-11 Dec-11 Jan-12 Feb-12 Mar-12 Apr-12 May-120

20

40

60

80

100

120

140

160

180

200

16 7 10

9576

4558 68

48 37 28

147 154

Assistance de theses.fr

signaler une erreur

ABESstp

• Depuis avril 2012

• Mail au correspondant STEP ou au correspondant STAR

Les données brutes• Ouvertes, réutilisables via une API.

– pour une liste de résultats : ajouter &format=xml ou &format=json ou &format=atom ou &format=csv ou &format=txt en paramètre de l’url de recherche

– pour une page finale : ajouter .xml (ou .rdf ) à l’url de la page

• Ce principe permet d’ajouter autant de formats que nécessaire.

• Exemple : récupérer la description de la thèse 2010MON30067– dans l’interface– en rdf/xml

• Exemple : récupérer la liste de toutes les thèses soutenues à Toulouse 2 et accessibles en ligne dans l’ED Science du langage.– dans l’interface– en xml (solr)– en json

theses.fr et Google• Description de

toutes les pages de theses.fr dans un fichier sitemap pour faciliter l’indexation des robots

• 77% du trafic provient des moteurs de recherche

Jul-11

Aug-11

Sep-11

Oct-11

Nov-11

Dec-11

Jan-12

Feb-12

Mar-12

Apr-12

May-12

0

20,000

40,000

60,000

80,000

100,000

120,00099,674

13,218

10,671

Source de trafic (nb de visites)

trafic de recherche

sites référents

accés directs

77%

14%9%

Source de trafic (% du nb de visites)juillet 2011-mai 2012

trafic de recherchesites référents

accés directs

0

20,000

40,000

60,000

80,000

100,000

120,000

12,71111,868 15,961

61,815

73,306

66,891

91,055

95,259 99,652

93,250

97,161

Visiteurs uniques

Quelques chiffres

Jul-11

Aug-11

Sep-11

Oct-11

Nov-11

Dec-11

Jan-12

Feb-12

Mar-12

Apr-12

May-12

050,000

100,000150,000200,000250,000300,000350,000400,000450,000500,000

86,81075,383116,255

402,331 399,129

349,976

427,499 440,975467,914

426,059

427,365

Pages vues

Plus de détails• Le cercle vertueux de theses.fr : mise en relation de l’utilisateur

et du producteur de données, Punktokomo, 10 avril 2012

• theses.fr : comment fonctionne l’onglet « personnes » ?, Punktokomo ,19 janvier 2012

• theses.fr : l’API XML de recherche, Punktokomo, 22 juillet 2011

• theses.fr : l’API XML des personnes, Punktokomo, 12 juillet 2011

• theses.fr : l’API XML des thèses, Punktokomo , 12 juillet 2011

• theses.fr : les technologies utilisées, Punktokomo, 12 juillet 2011

UN PROJET DOTÉ DE MOYENS SPÉCIFIQUES JUSQU’A FIN 2012

theses.fr : les prochains développements

Quelles fonctionnalités demain dans theses.fr ? (1)

• Une interface en trois langues– Français, anglais, italien

• Un module de recherche avancée– exclure la recherche dans le texte intégral– ne pas tenir compte de la pertinence définie par

défaut (pondération des index)– faciliter la recherche exacte

• Calendrier : fin septembre 2012

Quelles fonctionnalités demain dans theses.fr ? (2)

• Des services accessibles sur authentification– paniers– alerte mail– …

• Des services spécifiques pour les personnes reconnues comme étant l’auteur d’une thèse– mise en relation : être contacté via theses.fr– accès aux statistiques de sa page de thèse– …

• Impossibilité d’offrir de tels services pourles directeurs de thèse

• Calendrier : fin 2012

Que trouvera-t-on demaindans theses.fr ? (1)

• Toutes les données du Sudoc relatives aux thèses de doctorat françaises soutenues depuis 1985

• Toutes ? Non. Celles qui passent avec succès l’algorithme de chargement qui a pour but de les « FRBriser ».

• Regroupement des notices Sudoc en familles composées de :– la notice mère (la notice de la thèse originelle telle que validée par le

jury : zone 105$m)– Éventuellement, les notices enfants (les notices de reproduction : zone

105$bv)• Chaque famille aura une page propre : www.theses.fr/NNT• Conséquence pour theses.fr : recherche de l’exhaustivité

depuis 1985.• Calendrier : fin septembre 2012.

Que trouvera-t-on demaindans theses.fr ? (2)

• Toutes les données de TEL et l’indexation du texte intégral sous réserve que le lien à la thèse originelle ait été trouvé.

• Principe : chargement de toutes les données de TEL dans le Sudoc par moissonnage oai-pmh de TEL.– Création de notices probablement assez pauvres (pas de liens

IdRef) mais avec l’accès au texte intégral.• Algorithme « FRBrisateur » de chargement dans theses.fr

– Si la notice mère est trouvée, ajout dans theses.fr de l’accès au texte intégral

• Conséquence pour theses.fr : faciliter l’accès au texte intégral sur le web

• Calendrier : fin 2012

Que trouvera-t-on demaindans theses.fr ? (3)

• Des liens vers le catalogue des « thèses à la carte » de l’ANRT de Lille

• Principe : envoi régulier (mensuel ?) de la liste de NNT disponibles dans « thèses à la carte ».

• Conséquence pour theses.fr : faciliter l’accès au texte intégral avec la possibilité de commander un fac-similé de la thèse.

• Calendrier : soumis aux contraintes de l’ANRT, sans doute fin 2012.

Que trouvera-t-on demaindans theses.fr ? (4)

• Les données de Thésa pour les thèses en préparation au sein d’établissements relevant de la CGE et non utilisateurs de STEP.

• Principe : envoi régulier (mensuel ?) des données par l’INIST.

• Conséquence pour theses.fr : recenser toutes les thèses en préparation

• Calendrier : soumis aux contraintes de l’INIST, sans doute fin 2012.

Que trouvera-t-on demaindans theses.fr ? (5)

• Des liens vers les données non-documentaires issus des partenaires associatifs du projet : Intelli’Agence-ABG par exemple.– Cvthèque– Offres d’emploi– …

• Conséquence pour theses.fr : servir les docteurs et les doctorants au-delà de leur travail académique

• Calendrier : soumis aux contraintes de l’ Intelli’Agence-ABG, sans doute fin 2012.

Journées ABES – 20 juin 2012