Les trois applications du projet portail des thèses
description
Transcript of Les trois applications du projet portail des thèses
Les trois applications du projet portail des thèses
Equipe Portail des thèses - ABES
Journées ABES - 17 mai 2011
Le projet Portail des thèses• Rapport du comité Information Scientifique et Technique présidé par Jean Salençon (mai
2008)• Rapport final du groupe de travail FutuRIS Entreprise et recherche publique : développer les
synergies, « Adéquation public - privé », Avril 2008 présidé par Germain Sanz (avril 2008)
• L’accès aux thèses françaises, en cours et soutenues, est très difficile. L’absence de guichet unique nuit :– au monde académique– et au monde économique
• Fin 2008, commande du Ministère (MISTRD) à l’ABES
Journées ABES - 17 mai 2011
Les principes directeurs
• Exhaustivité : toutes les thèses françaises de doctorat
• Validation : des données validées par l’établissement de soutenance
• Actualité : des données à jour• Utilité : des services autour des données• Réutilisation : des données ouvertes• Ubiquité : des données pour le web
3Journées ABES - 17 mai 2011
La structure du projet• Un comité de pilotage qui réunit des acteurs des thèses en France
– administration centrale ( MISTRD, DGESIP, DGRI)– Conférence des Présidents d’Université et Conférence des Grandes
Ecoles– représentants des formations doctorales dans les établissements
habilités– représentants de la recherche privée et du monde économique– opérateurs documentaires nationaux des thèses (CNRS-INIST, Atelier
national de reproduction des thèses, CINES)– des représentants d’associations : Intelli’agence (ex-Association Bernard
Gregory), ADBU, AURA.
Toutes les décisions du comité de pilotage ont fait l’objet de compte-rendus sur le blog de l’ABES : Fil ABES, thème Portail des thèses
4Journées ABES - 17 mai 2011
Le périmètre du projet
• Toutes les thèses de doctorat (mais uniquement les thèses de doctorat)
– En préparation en France– Soutenues en France• Quel que soit le type de dépôt• Quel que soit le support matériel
• Toutes les personnes et tous les organismes liés à ces thèses
Journées ABES - 17 mai 2011
Calendrier du projet• 2010 :
• Hébergement du Fichier central des thèses• Refonte de STAR
• 2011 :• Une application professionnelle pour les thèses en
préparation• Un moteur de recherche pour les thèses de STAR• Le chargement des données de Thésa• Un moteur de recherche pour les thèses en préparation• « FRBrisation » et moteur de recherche pour les thèses du
Sudoc• 2012 :
• Amélioration du moteur de recherche• Lien vers les thèses en ligne externes : TEL et archives
institutionnelles• Lien vers les données des partenaires : Intelli’Agence, ANRT..
Les applications relatives aux thèses et gérées par l’ABES de 2000 à 2006
Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses
Interface de consultation
Les applications relatives aux thèses et gérées par l’ABES fin 2006
Gestion professionnelle des thèses soutenues sur support électronique
Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses
Interface de consultation
Les applications relatives aux thèses et gérées par l’ABES en 2010
Gestion professionnelle des thèses soutenues sur support électronique
Gestion professionnelle des thèses en préparation
Interface de consultation des thèses en préparation
Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses
Interface de consultation
Les applications relatives aux thèses et gérées par l’ABES courant 2011
Gestion professionnelle des thèses soutenues sur support électronique
Gestion professionnelle des thèses en préparation
Gestion professionnelle de tous les documents possédés par les bibliothèques dont les thèses
Interface de consultationMoteur de recherche pour toutes les thèses françaises
Gestion professionnelle des thèses soutenues sur support électronique
Gestion professionnelle des thèses en préparation
Moteur de recherche pour toutes les thèses françaises
Les trois applications du projet Portail des thèses
I. Les thèses en préparation
Journées ABES - 17 mai 2011
Plan
1. Le FCT aujourd’hui2. Les remplaçants du FCT : STEP et theses.fr3. Le workflow de STEP4. Les flux des données de STEP5. La structure et la migration des données du
FCT vers STEP6. Le calendrier
Journées ABES - 17 mai 2011
1. Deux fichiers nationaux de thèses en cours
• Le Fichier Central des Thèses (FCT) géré par l’ABES depuis le 1er janvier 2010– Constitué selon un axe disciplinaire, il concerne les
thèses de lettres, de sciences humaines et sociales
• Thésa, le portail des Thèses de doctorat en cours dans les Grandes Ecoles de la CGE, géré par l’INIST et la CGE– Fédère les thèses des établissements d’un type
particulier : les Grandes Ecoles
Journées ABES - 17 mai 2011
1. Le réseau FCT
• En 2010, 92 établissements sont des partenaires actifs du FCT
• 165 personnes, travaillant au sein des services de scolarité et les écoles doctorales, saisissent et mettent à jour les données relatives aux thèses en cours de leur établissement
Journées ABES - 17 mai 2011
1. Les statistiques en 2010
• En 2010, 8671 sujets de thèses en cours ont été signalés et 11498 mis à jour
• Aujourd’hui, environ 73 000 thèses sont signalées comme en cours dans le Fichier Central des Thèses (2001-2011)
Journées ABES - 17 mai 2011
2. Deux nouvelles applications pour le signalement des thèses en
cours• L’interface actuelle du Fichier Central des Thèses va
disparaître.
• Une application professionnelle va le remplacer -> STEP (signalement des thèses en préparation)– Le périmètre va être étendu à toutes les disciplines
• Une interface publique va permettre la visualisation des thèses en préparation issues de STEP -> theses.fr (périmètre des thèses en préparation)– Les données de Thésa y seront accessibles
Journées ABES - 17 mai 2011
2. Zoom sur STEP
STEP signalement des thèses en préparationhttp://step.theses.frUne application jumelle de STAR pour :• Saisir les métadonnées de description des thèses en
préparation• Importer ces métadonnées depuis les applications
locales de gestion des doctorants• Exporter ces métadonnées
Journées ABES - 17 mai 2011
Etablissement de soutenance
Créé la ficheDoit saisir :•l’identité du doctorant•la date d’inscription dans l’établissement
Initialisation du workflow par l’établissement
3. Le workflow dans l’éditeur de métadonnées de STEP
Etablissement de soutenance
Doit compléter la fiche
Doctorant
Doit saisir :•le directeur de thèse•le titre du projet•l’école doctoralePeut saisir plus
Peut saisir :•la description du projet•les mots-clés
Visible dans Thèses en préparation
Peut compléter la fiche
Visibilité selon la complétude des métadonnées
Etablissement de soutenance
Peut mettre à jourPeut saisir un indicateur d’invisibilité
Visible dans Thèses en préparation
Rendre invisible
Etablissement de soutenance
Doit saisir :La date de soutenance
Visible dans Toutes les thèses
Doit mettre à jour
Fin du workflow : la soutenance
Etablissement de soutenance
Doit mettre à jour
Doctorant
Doit saisir :•La date d’abandon
Peut saisir :•La date d’abandon
Peut mettre à jour
Fin du workflow : l’abandon
Processus de création dans STEP
4. STEP : les flux de données en amont• En amont, STEP pourra être alimenté par les établissements par export des
données présentes dans leur logiciel de gestion administrative des doctorants.• Le cas APOGEE : partenariat avec l’AMUE pour que le module Thèses d’APOGEE
(2012) soit nativement interconnecté avec STEP.
4. STEP : les flux de données en aval
• Les données de STEP seront visibles dans le périmètre « thèses en préparation » de theses.fr
• STEP sera connecté à STAR• STEP interrogera régulièrement le Sudoc pour vérifier qu’une
thèse en préparation n’est pas soutenue
Journées ABES - 17 mai 2011
Si l’établissement est en production dans STAR,Lorsque la date de soutenance est saisie dans STEP :
- push vers STAR en cycle dépôt national statut « à traiter »,
- statut soutenu dans STEP.
Processus d’alimentation de STAR
Périmètre « thèses en préparation »
Lorsque la thèse soutenue est traitée dans STAR- alerte de STAR : statut thèse dans STEP
- visibilité dans les thèses de theses.fr.
Processus de mise à jour de STEP par interrogation de STAR et d’alimentation de theses.fr par STAR
Puis périmètre « toutes les thèses »Périmètre « thèses en préparation »
Puis périmètre « toutes les thèses »
Périmètre « thèses en préparation »
Si l’établissement n’est pas en production dans STAR,lorsque la date de soutenance est saisie dans STEP , requête régulière du Sudoc pour savoir si la thèse soutenue existe dans le Sudoc.Si oui,
- visibilité dans les thèses de theses.fr- et statut thèse dans STEP.
Processus de mise à jour de STEP par interrogation du Sudoc
5. Transformer et enrichir les données du FCT
• Les données du FCT sont aujourd’hui stockées dans une base relationnelle traditionnelle.
• Chaque thèse sera convertie en un fichier XML fortement inspiré du modèle de données TEF.
• Les données issues du FCT vont être enrichies avant la migration dans STEP :
– Lien entre les directeurs de thèses en préparation et les autorités personnes physiques (PPN) via le WS d'IdRef
– Lien entre les établissement du FCT et les autorités collectivités (PPN)
– Attribution à chaque thèse en préparation d’un code de domaine basé sur la classification Dewey (« oaiset », déjà utilisé dans STAR)
Journées ABES - 17 mai 2011
5. Migration des données• Seules les thèses en préparation depuis moins de 10 ans seront
migrées dans STEP (décision du comité de pilotage du Portail des Thèses)– A l’avenir, les thèses en préparation depuis plus de 10 ans seront
automatiquement supprimées de STEP
• Pour les 70 000 thèses en préparation (2001-2011) à migrer, la qualité des données a été expertisée et est en cours d’amélioration :– Traitement des doublons en collaboration avec les
établissements– Comparaison entre les thèses en préparation du FCT et les
thèses soutenues signalées dans le SUDOC– Subsiste le problème des thèses abandonnées pour lesquelles
seul l’établissement possède l’information
Journées ABES - 17 mai 2011
6. Calendrier du sous-projet
• Septembre 2011 : – arrêt de l’interface professionnelle du FCT– Migration des données dans STEP et dans
theses.fr– Arrêt de l’interface publique du FCT– Ouverture du périmètre « thèses en préparation »
dans theses.fr
• Fin septembre 2011 : ouverture de STEP
Journées ABES - 17 mai 2011
II. Un moteur de recherche pour les thèses françaises
Journées ABES - 17 mai 2011
Plan
1. Présentation de l’application et démonstration2. Point technique
1. L’application2. Les données3. L’indexation et la recherche4. Les principaux problèmes rencontrés5. La plateforme de production
3. Les données disponibles à l’ouverture de theses.fr
Journées ABES - 17 mai 2011
1. Les quatre périmètres
• Toutes les thèses : une page par thèse– Les thèses soutenues et les thèses en préparation– Deux restrictions possibles :
• uniquement les thèses soutenues• uniquement les thèses soutenues accessibles en ligne
• Thèses en préparation : une page par thèse en préparation
• Personnes : docteurs, directeurs de thèse, membres du jury
• Organismes : établissement de soutenance, de co-tutelle, écoles doctorales, partenaires de recherche
Journées ABES - 17 mai 2011
1. Au choix de l’utilisateur
• Consultation par l’encart de recherche• Consultation par l’encart de recherche puis
raffinement par utilisation des facettes• Consultation par navigation pure via les facettes
Journées ABES - 17 mai 2011
1. L’encart de recherche
• Moteur de recherche présent sur toutes les pages– Périmètre toutes les thèses : métadonnées et
texte intégral.• Affichage d’un extrait du texte intégral contenant le
mot recherché (highlight = surlignage)
– Autres périmètres : métadonnées
• Autocomplétion de deux types : personne ou sujet
1. La recherche par facettes• Sept facettes
disponibles pour le périmètre Toutes les thèses
• Multisélection possible au sein d’une facette (OU) et croisement entre facettes (ET).
• Deux affichages possibles des facettes :– liste courte– ou surimpression
1. La page de la thèse
• Une page par thèse:– www.theses.fr/NNT pour les thèses soutenues– www.theses.fr/sXXX pour les thèses en
préparation saisies dans STEP– www.theses.fr/tXXX pour les thèses en
préparation saisies dans Thésa
• Eventuellement, accès au texte intégral
Journées ABES - 17 mai 2011
1. La page d’une personne
• Docteurs, directeurs de thèse, président du jury, rapporteurs, autres membres du jury
• Une page par personne : www.theses.fr/PPN sous réserve que les personnes soient identifiées par leur notice d’autorité dans le Sudoc
• Rôle de la personne et affichage d’un extrait des thèses liées
• Nuage de mots construit à partir de l’indexation de toutes les thèses liées
Journées ABES - 17 mai 2011
1. La page d’un organisme
• Etablissement de soutenance, de cotutelle, écoles doctorales, partenaires de recherche (laboratoire, entreprise…)
• Une page par organisme : www.theses.fr/PPN sous réserve que les organismes soient identifiés par leur notice d’autorité dans le Sudoc
• Affichage d’un extrait des thèses liées• Nuage de mots construit à partir de l’indexation
de toutes les thèses liées
Journées ABES - 17 mai 2011
1. Les services proposés par l’interface
• Panier de requêtes ou panier de notices
• Exporter les résultats ou une notice : format bureautique (CSV, text) mais aussi format des logiciels de références bibliographiques
• S’abonner par fil RSS ou par courriel à tout changement dans une requête ou dans une page
• Partager (delicious..)Journées ABES - 17 mai 2011
1. L’authentification sur theses.fr
• Disposer d’un compte sur theses.fr permettra de bénéficier de certains services précités.
• Deux modalités techniques :– création ex nihilo d’un compte– utilisation d’un compte existant (Gmail, twitter,
facebook…) reconnu via janrain
• Si une personne est reconnue comme étant l’auteur d’une thèse, elle disposera de droits supplémentaires sur la page de sa thèse :– Accès aux statistiques de consultation de la page
de sa thèse– autorisation d’être contacté par d’autres
utilisateurs de theses.fr– … Journées ABES - 17 mai 2011
Page d’accueil : www.theses.fr
Page de résultats obtenue après utilisation de l’encart de recherche
Page de résultats obtenue après raffinement par la facette Etablissement
Page de la thèse obtenue en cliquant sur le titre
Page d’une personne obtenue en cliquant sur le nom de la personne
Page d’un organisme obtenue en cliquant sur le nom de l’organisme
2.1. L’application• Application web développée en Java :– Réécriture d’URL : Apache– Conteneur de servlet : Tomcat– Langage Java : JSP / Servlet– Librairies utilisées : Saxon / JDOM / SolrJ / JSON …
• Application web, donc : – HTML – CSS (charte graphique réalisée par Oxynel)– Javascript : JQuery
• Pour les widgets : autocompleter / slider / checkers …
Journées ABES - 17 mai 2011
2.1. D’autres moyens d’accès aux données
• Pas seulement une interface HTML• Les servlets peuvent aussi délivrer le contenu
sous d’autres formats : – Fils RSS– Alertes mail– API REST XML qui peut être utilisée par d’autres
sites : pour la recherche/résultat et le détail– TEF, RDF, Marc XML, Dublin Core, etc.
Journées ABES – 17 mai 2011
2.2. Les données
• Base de données Oracle : – La base de données de la nouvelle plateforme de
production de l’ABES (IdRef, Star, SelfSudoc, …)– Une table contenant les métadonnées des sujets
(STEP et THESA) et des thèses (Sudoc et STAR)• Métadonnées sous format TEF étendu• Clé unique : n°de sujet ou n° national de thèse,
accessible à l’adresse : www.theses.fr/n°
– Des tables pour gérer les comptes utilisateurs, etc.
Journées ABES - 17 mai 2011
2.3. L’indexation et la recherche• C’est le point le plus important / critique de l’application• A terme, on aura :
– les métadonnées des thèses en préparation – les métadonnées (et si possible le plein texte du document) de
toutes les thèses soutenues au moins depuis 1985• Soit :
– 70 000 thèses en préparation du FCT à migrer– 450 000 (?) notices de thèses soutenues dans le Sudoc à
« FRBriser » puis à migrer
– accroissement annuel :• 11 000 thèses soutenues • 8 000 thèses en préparation en lettres, sciences humaines et sociales
• Choix d’Apache Solr Journées ABES - 17 mai 2011
Apache Solr• Apache Solr : plateforme de recherche
opensource, basée sur le projet Apache Lucene
• Fonctions principales :– Recherche plein texte– Highlighting (surlignage)– Facettes– Support de différent type de document (word, pdf…)– Recherche distribuée– Réplication d’index automatique
Journées ABES – 17 mai 2011
Apache Solr• Se lance comme un serveur indépendant de recherche (dans un
conteneur de servlet, comme Apache Tomcat).
• Ecrit en Java, utilise Lucene comme moteur de recherche.• APIs (interfaces) de type REST XML et JSON, ce qui le rend facile à
utiliser avec n’importe quel langage de programmation.
• Est utilisé à l’ABES par les applications et projets :• IdRef, Star et API Sudoc (« Solr total », SudocAD), Step, Portail des
thèses.
• Dans le monde des bibliothèques, est de plus en plus utilisé par les catalogues de nouvelle génération : Blacklight, VuFind, etc.
Journées ABES – 17 mai 2011
2.4. Les problèmes rencontrés :la recherche par personne
• Nous avons indexé des métadonnées de thèses• Ces métadonnées décrivent la thèse ainsi :
– Titre, sujets, auteur, directeurs de thèses, etc.• Nous avons 1 description de thèse = 1 document solr• Solr indexe des documents « à plat » (pas de liens possibles
entre différents documents)
• Problème : on veut effectuer des recherches, par personne (auteur, directeur, …), et non pas uniquement par thèse.C’est à dire, être capable de trouver une personne qui aurait participé à des thèses qui correspondent à un ou plusieurs critères de recherche
Journées ABES - 17 et 18 mai 2011
Exemple de document indexé TEF Document Solr correspondant
Journées ABES - 17 et 18 mai 2011
Comment faire ?
• Créer un solr « personne » dédié, donnant une vue par personne, et non plus, par thèse
• A chaque ajout / modification / suppression de métadonnées d’une thèse, pour chaque personne concernée, on recalcule intégralement sa fiche à partir des métadonnées de toutes les thèses
Journées ABES – 17 mai 2011
Exemple
TEF
Document solr personneDocument solr personne
Une fiche personne
2.4. Les problèmes rencontrés :le surlignage du plein texte
• Solr a des problèmes de performance sur le surlignage de mot quand le texte est important (plein texte d’une thèse) :
• C’est d’autant plus lent que le texte est long• Car solr effectue une recherche par expression
régulière sur la totalité du texte
Journées ABES - 17 mai 2011
Idée / solution
• Découper ce plein texte en « page », lors de l’indexation :A chaque plein texte extrait d’un document de thèse, on découpe ce texte tous les x milliers de mots, afin d’obtenir des pages
• Ces pages sont placées dans un solr dédié• La recherche sur ce plein texte s’effectue sur
le solr principal, et le surlignage est fait, pour chaque document trouvé sur le solr dédié
Journées ABES - 17 mai 2011
A l’indexation : découpage du texte
Extraction du texte (Apache Tika)
Découpage enpages
Document de thèse Plein texte extrait
Journées ABES - 17 mai 2011
Ajout du surlignage aux résultats
1) Recherche sur les métadonnéeset le plein texte
3) Surlignage sur critères de recherche + identifiant
2) Liste de résultat (identifiants)
4) Extrait surligné
Solr des métadonnées
Solr dédié au surlignage
Journées ABES - 17 mai 2011
Pour chaque résultat :
2.5. La plateforme de production
• Serveurs Red Hat Enterprise (linux) :– 2 boîtiers de répartition de charge– 2 serveurs frontaux (Apache + Tomcat)– 1 serveur de fichiers (NAS)– 2 serveurs de recherche (Tomcat + Solr)– 2 serveurs de base de données (Oracle en SAN)
Journées ABES - 17 mai 2011
2.5. La plateforme de productionInternet
Boîtiers de répartition de charge
Serveurs frontaux
Serveur de fichiers
Serveurs de recherche
Serveurs de base de données
Front end Back end
3. Les données disponibles à l’ouverture de theses.fr
• Toutes les thèses validées dans STAR (4 765 le 1er mai 2011)
• L’utilisateur lambda peut signaler un problème relatif aux données
Journées ABES - 17 mai 2011
3. La complétude des données saisies dans STAR
• Saisir les écoles doctorales
3. La qualité des données• Attention aux textes libres !
3. L’exploitation des autorités
• Saisir le lien aux autorités dans STAR pour permettre son exploitation dans une page de personne ou une page d’organisme.
Conclusion
Journées ABES - 17 mai 2011
Suite du projet• 2010 :
• Hébergement du Fichier central des thèses• Refonte de STAR
• 2011 :• Une application professionnelle pour les thèses en
préparation• Un moteur de recherche pour les thèses de STAR• Le chargement des données de Thésa• Un moteur de recherche pour les thèses en préparation• « FRBrisation » et moteur de recherche pour les thèses du
Sudoc• 2012 :
• Amélioration du moteur de recherche• Lien vers les thèses en ligne externes : TEL et archives
institutionnelles• Lien vers les données des partenaires : Intelli’Agence, ANRT..
Contacts• L’équipe projet portail des thèses : [email protected]
• Avec le soutien actif du Département Etudes Projets : [email protected]
• Les sites :http://www.theses.fr http://step.theses.fr http://star.theses.fr • Crédits icônes :
– gakuseiSean , Jack Cai, Mayosoft, YellowIcon, Oxygen Team, silvestre herrera