Trouver et manipuler des données et des sources...

163
Trouver et manipuler des données et des sources numériques 1 Parcours sciences humaines Formation doctorale LASH et DESPEG 4 mai 2017 Mathieu Saby

Transcript of Trouver et manipuler des données et des sources...

  • Trouver et manipuler des donnes et

    des sources numriques

    1

    Parcours sciences humaines

    Formation doctorale LASH et DESPEG

    4 mai 2017

    Mathieu Saby

  • Plan

    Introduction: ce que le numrique fait aux SHS

    Prsentez vos donnes

    Rechercher des donnes: quelques sources utiles en SHS

    Prcautions et bons usages

    Choisir les outils adapts

    Comment limiter les ambiguts : mtadonnes, thsaurus et rfrentiels

    Principaux modles de donnes

    Principes de reprsentation informatique de linformation

    Contrle, nettoyage et prparation des donnes

    Extraction et rcupration des donnes (documents, sites web, API)

    Visualisation et exploration (graphiques, rseaux, cartes simples)

    2

  • Ce que le numrique fait aux SHS

    3

  • Facilite laccs tous les types de sources et la constitution de corpus: Sources primaires : matriau de recherche

    Numrisation de documents physiques (archives, livres, manuscrits, cartes, objets patrimoniaux, documents sonores)

    Sources nativement numriques : SMS, tweets, photos, vidos, musique, sites web, traces dactivit numrique, etc.

    Sources constitues par le chercheur : notes, enregistrements, photos

    Sources secondaires : littrature scientifique Sources tertiaires : synthses, encyclopdies, dictionnaires, outils de

    recherche (catalogues, bibliographie, inventaires) permettant de localiser et daccder des sources

    Tout peut devenir une source primaire pour la recherche, mme une source secondaire ou tertiaire! Ex: utilisation des catalogues de bibliothques comme sources pour lhistoire des bibliothques ou lhistoire de ldition (et non comme outil)

    Ce que le numrique fait la recherche en SHS

  • Mais labondance de sources est parfois une illusion:

    Tout nest pas numris

    Tout ce qui est numris nest pas signal

    Tout ce qui est signal nest pas et facilement accessible

    Tout ce qui est accessible nest pas exploitable :

    limitations juridiques,

    limitations techniques,

    qualit des donnes insuffisante

    Ce que le numrique fait la recherche en SHS

  • On peut utiliser ces sources numriques

    Comme des sources traditionnelles

    En tirant parti de leur forme numrique (dmarche indispensable pour les sources nativement numrique)

    Le numrique rend possible et ncessaire

    la cration de nouveaux outils pour traiter des donnes abondantes et diverses

    le dveloppement de nouvelles mthodes

    lmergence de nouveaux questionnements scientifiques

    des collaborations entre disciplines

    Tout cela est rsum par la formule humanits numriques (digital humanities)

    Ce que le numrique fait la recherche en SHS

  • Rflexion intense sur cette volution depuis quelques annes, en France et ltranger.

    Infrastructures et rseaux

    Vidos introductivesM. Doueihi, Les humanits numriques: quand la donne devient culture,2016

    A. Berra, Faire des humanits numriques, 2012

    F. Clavert, Comprendre les humanits numriques : enjeux, outils, rseaux, 2015

    Journes dtudes et rencontres gnrales, disciplinaires ou thmatiquesLes 3 THATCamp (2010, 2012, 2015)

    DIGIT_HUM 2015: Paysage et structuration des Humanits numriques lENS, 28/9/2015

    DH Nord 2014 : Humanits numriques : des outils, des mthodes, une culture, 2014

    DH Nord 2015 Humanits numriques : recherches et pratiques, 2015 (vidos https://www.canal-u.tv/producteurs/meshs/savoirs_numeriques )

    DH Nord 2016 : Humanits numriques: thories, dbats, approches critique , 2016 (vidos https://publi.meshs.fr/ressources/view#text=DHnord2016 )

    HumaNDoc 2015

    Sciences XXL, Ce que labondance et la diversit des donnes font aux sciences sociales. 16/3/2017. Compte-Rendu

    Formations spcialises

    Ce que le numrique fait la recherche en SHS

    L'association francophone des

    humanits numriques/digitales

    La grande infrastructure de recherche

    (TGIR) des humanits numriques

    https://www.youtube.com/watch?v=dS5M4nI8BrAhttps://vimeo.com/36492838https://www.youtube.com/watch?v=8zdyETW-oAohttp://tcp.hypotheses.org/category/thatcamp-paris-2015https://transfers.huma-num.fr/digithum2015/http://dhnord2014.meshs.fr/https://www.meshs.fr/page/dhnord_2015https://www.canal-u.tv/producteurs/meshs/savoirs_numeriqueshttps://www.meshs.fr/page/dhnord_2016https://publi.meshs.fr/ressources/view#text=DHnord2016https://humandoc2015.wordpress.com/http://data.hypotheses.org/1154http://www.humanisti.ca/http://www.huma-num.fr/

  • Quelques livresF. Gillet, M. De Wilde, S. Van Hooland et S. Hengchen, Introduction aux humanits numriques : mthodes et pratiques sciences humaines et sociales. De Boeck, 2016. BU Sciences 025.04 INT

    O. Le Deuff, Le temps des humanits digitales : la mutation des sciences humaines et sociales. FYP, 2015. BU Lettres 001.4 TEM

    L. Burnard. Quest-ce que la Text encoding initiative? OpenEdition Press, 2015

    Thatcamp Paris 2012. ditions de la Maison des sciences de lhomme, 2012

    READ/WRITE BOOK 2. Une introduction aux humanits numriques. OpenEdition Press, 2012

    M. Cocaud, J. Cellier, Le traitement des donnes en histoire et sciences sociales : mthodes et outils, PUR, 2012. BU Lettres 300.15 COC

    C. Lemercier, C. Zalc, Mthodes quantitatives pour l'historien, La Dcouverte, 2008. BU Lettres 900.15 LEM

    F. Moretti. Graphes, cartes et arbres : modles abstraits pour une autre histoire de la littrature. Les prairies ordinaires. 2008. BU Lettres 850.96 MOR

    D. Demazire, C. Brossaud, P. Trabal, Analyses textuelles en sociologie : logiciels, mthodes, usages. PUR, 2006. BU Lettres 301.015 ANA

    M. Cocaud, J. Cellier, Traiter des donnes historiques : mthodes statistiques, techniques informatiques, PUR, 2001, BU Lettres. 900.15 CEL

    Quelques articlesF. Lecercle, C. Mainardi, C. Thouret. Pour une exploration numrique des polmiques sur le thtre. Revue dhistoire littraire de la France. Dcembre 2016, Vol. 116, no 4, p. 773-790

    F. Heimburger et E. Ruiz. Faire de lhistoire lre numrique : retours dexpriences. Revue d Histoire Moderne et Contemporaine. 2012, Vol. 58, no 4bis, p. 70-89

    Ce que le numrique fait la recherche en SHS

    http://books.openedition.org/oep/1237http://books.openedition.org/editionsmsh/278http://books.openedition.org/oep/226http://www.cairn.info/revue-d-histoire-litteraire-de-la-france-2016-4-page-773.htmhttps://halshs.archives-ouvertes.fr/halshs-01319209/document

  • Vos donnes en 180 secondes

    9

  • Votre sujet de thse et votre discipline

    Produisez vous des donnes (enqutes, entretiens) ?

    Exploitez-vous des sources sous forme numrique?

    sources numrises ?

    nativement numriques ?

    type (textes, sites internet, images, sons) ?

    producteurs ?

    Type dutilisation ?

    lecture, interprtation

    exploitation informatique (statistiques, extraction dinformation, visualisation)

    Difficults rencontres ?

    5 minutes de prparation, 3 minutes de

    prsentation

  • Rechercher des donnes patrimoniales

    11

  • Panorama de ressources utiles

    Productions universitaires

    Revues en ligne en libre accs, intgralement ou partir dune certaine date. Revues.org, CAIRN, Perse, DOAJ (international)

    E-books en libre accs. Notamment OpenEdition Books, DOAB (international)

    Thses en ligne en France ou en Europe

    Archives ouvertes: notamment HAL en France, BASE (international)

    Articles, textes, sources et donnes en SHS : ISIDORE

    Documents numriss par des institutions

    Bibliothques (nationales, locales, universitaires)

    Archives

    Muses

    Documents et corpus produits par des chercheurs

    12

    http://www.revues.org/http://www.cairn.info/http://www.persee.fr/https://doaj.org/https://books.openedition.org/http://www.doabooks.org/http://theses.fr/http://www.dart-europe.eu/basic-search.phphttps://hal.archives-ouvertes.fr/https://www.base-search.net/about/fr/https://www.rechercheisidore.fr/

  • Panorama de ressources utiles

    Ressources acquises par la BU : page Ressources en ligne

    bouquets de revues et de-books

    Bases bibliographiques Bibliographie de la littrature franaise : Plus de 150 000 notices dtailles

    d'tudes et articles parus depuis 1998 sur la littrature franaise et francophone du XVIe sicle nos jours

    MLA International Bibliography : Bibliographie dtaille d'articles de revues, de livres et de thses. Elle remonte aux annes 1920 et contient plus de 2,2 millions de citations. Les sources indexes sont internationales et multidisciplinaires (langues, littrature, ethnologie...).

    Corpus de textes Library of Latin Texts , series A (Brepols): Editions modernes de 3850 textes latins

    de l'Antiquit au XXme sicle.

    Frantext: Corpus d'environ 5000 textes en franais, du XVIe au XXe sicle. Pas exhaustif mais se veut un chantillon reprsentatif de la langue.

    13

    http://bibliotheque.unice.fr/ressources/presentation-des-ressources/ressources-en-lignehttp://proxy.unice.fr/login?url=https://www.classiques-garnier.com/numerique-bases/blfhttp://proxy.unice.fr/login?url=http://search.proquest.com/mlaib/literature/fromDatabasesLayer?accountid=16644http://proxy.unice.fr/login?url=http://www.brepolis.net/http://www.frantext.fr.proxy.unice.fr/

  • Bibliothques numriques

    Sites offrant des ensembles slectionns et organiss de documents numriques

    issus dopration numrisation et/ou nativement numriques

    textuels et/ou multimdia (images, sons, vidos)

    Peuvent tre lies o non aux institutions dtenant les originaux (bibliothques, archives)

    Il existe des portails donnant un accs unifi plusieurs bibliothques numriques.

    14

  • Bibliothques numriques

    En France :

    Gallica : bibliothque numrique de la BNF et portail donnant accs des documents issus dautres institutions

    Nombreuses autres bibliothques numriques, souvent listes dans les partenaires de Gallica ou sur cette page collaborative

    Pays trangers

    USA: Digital public library of America (portail) https://dp.la/ (tous types de documents)

    Royaume-Uni: British Library https://www.bl.uk/

    Espagne: Hispania (portail) http://hispana.mcu.es/

    Italie: Internet culturale (portail) www.internetculturale.it

    Allemagne: Deutsche digitale bibliothek (portail) https://www.deutsche-digitale-bibliothek.de/

    15

    http://gallica.bnf.fr/http://gallica.bnf.fr/html/decouvrir-nos-partenaireshttps://bibliopedia.fr/wiki/Biblioth%C3%A8ques_num%C3%A9riqueshttps://dp.la/https://www.bl.uk/http://hispana.mcu.es/http://www.internetculturale.it/https://www.deutsche-digitale-bibliothek.de/

  • Bibliothques numriques

    Internationales ou spcialises

    Europeana http://www.europeana.eu (collections de tous types issues de bibliothques, archives, muses et fonds audiovisuels ; plusieurs sites secondaires comme http://research.europeana.eu/itemtype/newspapers )

    Hathi Trust http://www.hathitrust.org/ (surtout USA)

    Internet Archive https://archive.org/ (documents de tout type)

    Projet Gutenberg http://www.gutenberg.org/ (lanctre! lance en 1971)

    Google Books http://books.google.com/

    Perseus http://www.perseus.tufts.edu (textes grecs et latins)

    16

    http://www.europeana.eu/http://research.europeana.eu/itemtype/newspapershttp://www.hathitrust.org/https://archive.org/http://www.gutenberg.org/http://books.google.com/http://www.perseus.tufts.edu/

  • Bibliothques numriques

    Cherchez les reproductions des manuscrits et des ditions des uvres de Baudelaire (1821-1867) parues de son vivant

    17

  • Bibliothques numriques

    QUI est susceptible de possder ces documents? Une bibliothque franaise. Donc commenons par chercher sur Gallica.

    Une recherche simple donne normment de rponses!

    Utilisez la fonction Auteurs suggrs : Charles Baudelaire = 118 rsultats

    Autre solution : filtrer les rsultats avec le menu de gauche.

    18

  • Bibliothques numriques

    Dtails des rsultats : nombreuses adaptations en musique ; 43 ditions du XIXe sicle mais on ne peut pas filtrer par date prcise! On va donc utiliser la recherche avance

    19

  • Bibliothques numriques

    La recherche avance (indispensable pour les recherches complexes)

    20

  • Bibliothques numriques

    18 livres parus avant 1867 sont numriss et accessibles dans Gallica. Dans certains cas Baudelaire nest que prfacier. Dans dautres il sagit danthologies.Certains livres sont issus des collections de partenaires de la BNF. Ici la BM dAlenon

    Pas de manuscrits de Baudelaire, ils sont tous perdus! Mais la BNF possde des preuves corrigs des Fleurs du Mal (1857) et des Petits Pomes en prose (1862)

    21

  • Bibliothques numriques

    Dans Gallica, cherchez les articles de presse citant Baudelaire, publis avant le 01/01/1900 (utilisez recherche avance)

    22

  • Bibliothques numriques

    678 rponses

    23

  • Bibliothques numriques

    Dans Gallica, cherchez les livres du XVIIIe sicle comprenant le mot terroriste

    24

  • Bibliothques numriques

    Pour faire une recherche sur la forme exacte (et non des formes proches), saisir le mot entre guillemets

    86 rponses

    293 rponses (renvoit aussi terrorisme etc)

    25

  • Bibliothques numriques

    Dans le premier document (Le commissaire du directoire excutif prs l'administration centrale du dpartement d'Eure-et-Loir

    au conseil des Cinq-Cents 1799), cherchez les occurrences du mot sang

    26

  • Bibliothques numriques

    Dans la rhtorique de lauteur, les terroristes sont buveurs de sang

    27

  • Bibliothques numriques

    Les documents numriss le plus rcemment par Gallica sont en mode texte . Le menu Mode daffichage permet dafficher le texte en regard de limage. Les caractres prsent dans limage ont t reconnus par un logiciel, mais il reste toujours des erreurs.

    28

  • Bibliothques numriques

    Tlcharger et rutiliser un document de Gallica

    29

    1/ Les contenus accessibles sur le site Gallica sont pour la plupart des reproductions

    numriques d'uvres tombes dans le domaine public provenant des collections de

    la BnF.

    Ces contenus sont considrs, en vertu du code des relations entre le public et

    ladministration, comme tant des informations publiques et leur rutilisation s'inscrit

    dans le cadre des dispositions prvues aux articles L. 321-1 L. 327-1 de ce code.

    Ds lors :

    - La rutilisation non commerciale de ces contenus est libre et gratuite dans le

    respect de la lgislation en vigueur et notamment du maintien de la mention de

    source des contenus telle que prcise ci-aprs : Source gallica.bnf.fr /

    Bibliothque nationale de France ou Source gallica.bnf.fr / BnF .

    - La rutilisation commerciale de ces contenus est payante et fait l'objet d'une

    licence. Est entendue par rutilisation commerciale la revente de contenus sous

    forme de produits labors ou de fourniture de service ou toute autre rutilisation des

    contenus gnrant directement des revenus. Cliquer ici pour accder aux tarifs et la

    licence

    2/ Quelques contenus sont soumis un rgime de rutilisation particulier. Il s'agit :

    - des reproductions de documents protgs par un droit d'auteur appartenant un

    tiers. Ces documents ne peuvent tre rutiliss sans lobtention pralable de

    lautorisation du titulaire de droits, sauf dans le cadre de la copie prive.

    - des reproductions de documents conservs dans les bibliothques ou autres

    institutions partenaires de la BnF. Ceux-ci sont signals par la mention :

    Source gallica.bnf.fr / Nom du partenaire de la BnF . L'utilisateur est invit

    s'informer auprs de ces bibliothques ou institutions de leurs conditions de

    rutilisation.

    Plusieurs formats

    http://www.bnf.fr/fr/collections_et_services/reproductions_document/a.repro_reutilisation_documents.html

  • Bibliothques numriques

    Tlcharger la liste de tous les rsultats dune recherche Gallica (pour linstant fonction limite)

    30

  • Les archives publiques

    Le portail FranceArchives : https://francearchives.fr/

    31

    https://francearchives.fr/

  • Les archives publiques

    Les Archives nationales: https://www.siv.archives-nationales.culture.gouv.fr

    32

    https://www.siv.archives-nationales.culture.gouv.fr/

  • Les archives publiques

    Les Archives nationales: https://www.siv.archives-nationales.culture.gouv.fr

    Existe-t-il un fonds consacr Saint-Exupry aux AN?

    Existe-t-il un testament de Balzac aux AN?

    33

    https://www.siv.archives-nationales.culture.gouv.fr/

  • Les archives publiques

    Le portail europen des archives: https://www.archivesportaleurope.net

    34

    https://www.archivesportaleurope.net/

  • Muses, patrimoine mobilier et architectural

    Moteur Collections du ministre de la Culture et de la Communication http://www.culture.fr/Ressources/Moteur-Collections : interroge simultanment 70 bases de donnes, 586expositions virtuelles, 177 sites internet produits par le ministre et diffrents partenaires

    35

    http://www.culture.fr/Ressources/Moteur-Collections

  • Muses, patrimoine mobilier et architectural

    Bases spcialises du MCC

    Joconde (muses de France) http://www.culture.gouv.fr/documentation/joconde/fr/

    Mrime (patrimoine architectural franais), Palissy (patrimoine mobilier franais hors collections de muses), Mmoire (images) http://www.culture.gouv.fr/culture/inventai/patrimoine/

    Bases de la RNM-Grand Palais

    Agence photographique de la Runion des muses nationaux http://www.photo.rmn.fr/

    Images dart (plus grand public)

    Portail Arago (collections de photographies)

    Sites dinstitutions. Ex: Louvre: Base Atlas des uvres exposes http://cartelfr.louvre.fr/ ; Inventaire du dpartement des arts graphiques http://arts-graphiques.louvre.fr/

    Portail de lINHA : AGORHA

    36

    http://www.culture.gouv.fr/documentation/joconde/fr/http://www.culture.gouv.fr/culture/inventai/patrimoine/http://www.photo.rmn.fr/http://art.rmngp.fr/frhttp://www.photo-arago.fr/http://cartelfr.louvre.fr/http://arts-graphiques.louvre.fr/http://agorha.inha.fr/inhaprod/servlet/LoginServlet

  • Exemple de recherche en histoire de lart

    Recherchez des uvres du peintre niois Louis Bra dans la base Atlas du Louvre

    la base Joconde

    le moteur Collections

    37

  • Exemple de recherche en histoire de lart

    la base Atlas du Louvre : 1 rponse (Pieta)

    la base Joconde : 3 rponse (Pieta du Louvre + 2 tableaux Avignon)

    le moteur Collections : 189 rponses provenant de diffrentes bases

    Mmoire (144)

    Palissy (24)

    Agorha (INHA) (8)

    Joconde (5)

    RMN-Grand Palais (4)

    Sites Internet (1)

    Mrime (1)

    Mdiathek (1)

    Louvre-Atlas (1

    38

    http://www.culture.fr/collections/resultats?keywords=louis+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=listhttp://www.culture.fr/collections/resultats?keywords=louis+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=list&display_mode=list&filter_base[]=M%C3%A9moirehttp://www.culture.fr/collections/resultats?keywords=louis+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=list&display_mode=list&filter_base[]=Palissyhttp://www.culture.fr/collections/resultats?keywords=louis+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=list&display_mode=list&filter_base[]=Agorha+(INHA)http://www.culture.fr/collections/resultats?keywords=louis+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=list&display_mode=list&filter_base[]=Jocondehttp://www.culture.fr/collections/resultats?keywords=louis+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=list&display_mode=list&filter_base[]=RMN-Grand+Palaishttp://www.culture.fr/collections/resultats?keywords=louis+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=list&display_mode=list&filter_base[]=Sites+Internethttp://www.culture.fr/collections/resultats?keywords=louis+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=list&display_mode=list&filter_base[]=M%C3%A9rim%C3%A9ehttp://www.culture.fr/collections/resultats?keywords=louis+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=list&display_mode=list&filter_base[]=M%C3%A9diathekhttp://www.culture.fr/collections/resultats?keywords=louis+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=list&display_mode=list&filter_base[]=Louvre-Atlas

  • Exemple de recherche en histoire de lart

    Il faut interprter les rsultats : pertinence ( bruit ou silence , imprcisions, erreurs, doublons)

    Ex: anomalies apparentes dans les rponses du moteur Collection

    Joconde (5) or on ne devrait avoir que 3 rponses! En fait le moteur Collection liste galement les uvres anciennement attribues Bra. Ex: http://www.culture.gouv.fr/public/mistral/joconde_fr?ACTION=CHERCHER&FIELD_1=REF&VALUE_1=000PE019543

    Recherchez Pieta dans la page. Il y a trois fiches pour le mme tableau, issues de trois bases diffrentes

    Bizarrement, un filtre sur le lieu Paris dans le menu de gauche ne permet disoler que deux de ces fiches

    Autres doublons : la base Mmoire contient de 31 photos dlments du retable de lglise des Arcs (Var), qui a aussi une fiche issue de la base Palissy. Il ny a pas 31 uvres de Bra aux Arcs, mais une seule

    39

    http://www.culture.fr/collections/resultats?keywords=louis+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=list&display_mode=list&filter_base[]=Jocondehttp://www.culture.gouv.fr/public/mistral/joconde_fr?ACTION=CHERCHER&FIELD_1=REF&VALUE_1=000PE019543http://www.culture.gouv.fr/public/mistral/palissy_fr?ACTION=CHERCHER&FIELD_1=REF&VALUE_1=PM83000007

  • Exemple de recherche

    Plus grave: Plusieurs formes de nom sont listes dans le menu Qui , dont Brea, Ludovico . Si on reproduit la recherche avec Brea Ludovico, on obtient 62 rsultats!

    Dont un retable du muse des beaux arts de Nice, qui napparaissait pas dans Joconde, ce qui prouve bien que la base Joconde nest pas complte. La fiche est issue dune base spcialise : le Rpertoire des tableaux italiens dans les collections publiques franaises, source utile qui permet didentifier un ouvrage de rfrence sur Bra: Schwok, Claire-Lise. Louis Bra, ca. 1450-ca. 1523. Paris : Arthena, 2005. 255 p. : ill.

    Donc, limites du moteur Collection : recherche avance limite (apparemment pas de moyen de rechercher la fois Louis Bra et Ludovido Bra; pas moyen dinterroger un champ prcis) nombreux doublons ; les variantes des noms des artistes ne sont pas harmoniss ;

    40

    http://www.culture.fr/collections/resultats?keywords=ludovico+brea&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=listhttp://www.culture.fr/collections/resultats?keywords=ludovico+br%C3%A9a&sel_search_mode=tous_les_termes&sel_filter_ortho=sel_filter_ortho&sel_filter_syn=sel_filter_syn&filter_date_debut=&filter_date_fin=&filter_date_fixe=&display_mode=list&display_mode=list&filter_ou[]=Mus%C3%A9e+des+Beaux-Arts+(Nice).+Cote/num+inventaire+:+243+et+257http://agorha.inha.fr/inhaprod/jsp/reference.jsp?reference=INHA__OEUVRE__137450

  • Prcautions et bons usages

    41

  • Du bon usage des donnes

    Ai-je le droit dutiliser et de diffuser les donnes que jai trouv, comme je lentends ?

    Les donnes que je souhaite utiliser sont elles des donnes publiques ou produites par un organisme priv ?

    La nature des donnes induit-elle des restrictions dusage?

    La volont du producteur ou diffuseur induit-elle des restrictions dusage?

    Plusieurs dimensions peuvent entrer en jeu: droit dauteur gnral et droit des bases de donnes droit des archives (volution en 2008) droit des donnes publiques (volution en 2015 et 2016) droit des donnes personnelles (volution en 2018) secret statistique dimension contractuelle (CGU, contrat explicite, licences creative

    commons, etc.)

    42

  • 43

    Citer les sources et les donnes

    La citation des sources et des donnes est imprative et doit tre le plus prcise possible

    Pour des donnes numriques , le format minimal dune rfrence bibliographique comporte 5 lments (recommandation du consortium DataCite)

    Auteur

    Anne de publication

    Titre

    Editeur

    Identifiant

    Cela peut diffrer pour des sources textuelles ou audiovisuelles, ou dans votre discipline. Renseignez-vous!

  • Attention aux donnes personnelles

    Donnes personnelles : toute information relative une personne physique identifie ou identifiable, directement ou indirectement par rfrence un numro didentification ou un ou plusieurs lments spcifiques ou par recoupements

    Tout traitement implique selon les cas une dclaration auprs de la CNIL ou une autorisation explicite (pour les donnes sensibles)

    Le nouveau rglement europen sur la protection des donnes personnelles entrera en application le 24 mai 2018. Prsentation par le Correspondant Informatique et Liberts de lUNS: http://urfist-apps.unice.fr/documents/160623_JE_DR/160623_blanc_protection.pdf

    44

    https://www.cnil.fr/fr/reglement-europeen-protection-donneeshttp://urfist-apps.unice.fr/documents/160623_JE_DR/160623_blanc_protection.pdf

  • Comment limiter les ambiguts?

    45

  • Je cherche une photo de kiwi. Est-ce un poisson oiseau, ou un fruit?

    Comment rduire les ambiguts?

    Question qui se pose lors de la production, la diffusion, la

    recherche, ou lexploitation de donnes

  • Le fruit : Kiwi (fruit) http://catalogue.bnf.fr/ark:/12148/cb11976178z

    La plante Kiwi (plantes) http://catalogue.bnf.fr/ark:/12148/cb125625937

    Lanimal : Kiwi austral http://catalogue.bnf.fr/ark:/12148/cb150108902

    3 fiches du thsaurus Rameau de la BNF

    Un thsaurus dcrit des concepts, retenant pour chacun une forme de rfrence et des synonymes, et tablissant des relations hirarchiques et dassociation entre chacun deux. Ex: Rameau (bibliothques) Thesaurus W (Archives), PACTOLS (Archologie), Getty Vocabulary (Art), Garnier (Art), etc.

    Un thsaurus peut tre utilis pour faciliter la comprhension des mtadonnes (ensemble structur d'informations dcrivant une ressource quelconque) ou des donnes elles-mmes

    Ex : les mtadonnes de ces documents font rfrence au Kiwi (fruit)

    Comment rduire les ambiguts?

    http://catalogue.bnf.fr/ark:/12148/cb11976178zhttp://catalogue.bnf.fr/ark:/12148/cb125625937http://catalogue.bnf.fr/ark:/12148/cb150108902http://rameau.bnf.fr/https://francearchives.fr/article/37828http://pactols.frantiq.fr/opentheso/http://www.getty.edu/vow/AATFullDisplay?find=canvas&logic=AND&note=&page=1&subjectid=300033618http://www.culture.gouv.fr/documentation/joconde/fr/partenaires/AIDEMUSEES/thesaurus-garnier/thesaurus-pres.htmhttp://catalogue.bnf.fr/rechercher.do?index=SUJ3&numNotice=11976178&typeNotice=m

  • Un thsaurus peut tre utilis pour faciliter la comprhension des mtadonnes (ensemble structur d'informations dcrivant une ressource quelconque) ou des donnes elles-mmes.

    Ex : les mtadonnes de ces documents font rfrence au Kiwi (fruit)

    Les mtadonnes (descriptives ou techniques) sont indispensable pour permettre la localisation et lutilisation des ressources numrique.

    Comment rduire les ambiguts?

    http://catalogue.bnf.fr/rechercher.do?index=SUJ3&numNotice=11976178&typeNotice=m

  • Les thsaurus ne sont quun des types de vocabulaire contrl : liste de mots ou dexpressions prdfinies et non ambigus

    Il en existe dautres types : listes simples, nomenclatures, taxonomie

    Le type le plus complexe : ontologies qui dcrivent de manire fine des objets du monde rel et leurs relations

    Comment partager des connaissances?

  • Cf. exemple de Bra : plusieurs formes pour une mme personne, et risques dhomonymie.

    Pour amliorer la recherche dans le portail Collection, il faudrait remplacer les variantes de nom par une forme unique, si possible rattach un rfrentiel international connu de tous.

    Dmarche galement valable si vous constituez un fichier listant des oeuvres et des artistes.

    Rattacher les noms propres des rfrentiels

    50

  • Plusieurs systmes existent mais en histoire de lart, lUnion List of ArtistNames fait rfrence. Ex: Bra, Louis (French painter, active 1475-1522/1523) http://www.getty.edu/vow/ULANFullDisplay?find=br%C3%A9a&role=&nation=&prev_page=1&subjectid=500016177)

    Dautres rfrentiels en bibliothques. Ex: la BNF: Brea, Ludovico (1450?-1523?) forme internationalehttp://catalogue.bnf.fr/ark:/12148/cb122130074

    Rattacher les noms propres des rfrentiels

    51

    http://www.getty.edu/vow/ULANFullDisplay?find=br%C3%A9a&role=&nation=&prev_page=1&subjectid=500016177)http://catalogue.bnf.fr/ark:/12148/cb122130074

  • Les identifiants sont des numros ou des chaines de caractres identifiant de manire unique une personne, une chose, un concept dans un systme donn. Certains peuvent tre directement utiliss sur le web.

    Ils permettent de rduire les ambiguts, mais aussi de relier des donnes issues de diffrentes sources.

    Ex de Louis Bra:

    Boite en bas de la page Wikipedia

    Getty : 500016177

    BNF : FRBNF12213007 et cb122130074

    ISNI : 0000 0000 5759 5579

    Wikidata : Q1147374

    Le rle des identifiants

    52

    http://data.bnf.fr/12213007/ludovico_brea/http://www.isni.org/isni/0000000057595579https://www.wikidata.org/wiki/Q1147374

  • Enjeu actuel : faire communiquer entre elles des fiches issues de systmes (listes de noms, thsaurus) grs par diffrentes institutions, pour faciliter les changes et les projets culturels et scientifiques.

    Une des solutions : les technologies du web smantique (ou web de donnes ). Mais la question est loin dtre juste technique!

    Les enjeux

    53

  • Les principaux modles de donnes

    54

  • Paris et Nice sont deux villes franaises comptant respectivement 2 220 445 et 343 895 habitants daprs Wikipedia.

    Quelle exploitation possible de cette phrase?

    Donnes non structure et structures

  • Paris et Nice sont deux villes franaises comptant respectivement 2 220 445 et 343 895 habitants daprs Wikipedia.

    Selon les disciplines on parlera de donnes non structures ou on considrera quil ne sagit mme pas de donnes

    Pourtant, plusieurs analyses possibles:

    Analyse informatique : suite de 115 signes comprenant 19 ensembles de signes ( mots ) spars par des espaces ou des ponctuations.

    Analyse linguistique : phrase en franais, tude grammaticale

    Analyse du contenu informationnel : 6 informations et une source

    Donne non structure et structures

  • Paris et Nice sont deux villes franaises comptant respectivement 2 220 445 et 343 895 habitants daprs Wikipedia.

    Extraction des grains dinformation:

    Paris est une ville

    Nice est une ville

    Paris est en France

    Nice est en France

    Paris a 2 220 445 habitants

    Nice a 343 895 habitants

    Information issues de Wikipedia

    Donne non structure et structures

  • Paris et Nice sont deux villes franaises comptant respectivement 2 220 445 et 343 895 habitants daprs Wikipedia.

    Transformation en donnes structures , prsentable sous forme de tableau avec 1 observation par lignes et une variable par colonne.

    Donne non structure et structures

    NOM TYPE_LIEU PAYS POPULATION SOURCE

    Paris ville France 2 220 445 Wikipedia

    Nice ville France 343 895 Wikipedia

  • Peut-on aller plus loin pour prciser et enrichir ces informations?

    Enrichir et prciser les donnes

    NOM TYPE_LIEU PAYS POPULATION SOURCE

    Paris ville France 2 220 445 Wikipedia

    Nice ville France 343 895 Wikipedia

  • Peut-on aller plus loin pour prciser et enrichir ces informations?

    Imprcision : considre-t-on la ville comme une commune ou une agglomration ?

    Quest-ce quune commune ? Quest-ce que la France? Des objets qui ont certaines proprits gographiques (coordonnes, une surface) et administratives (code officiel, fait partie dune rgion ou dun ensemble de pays, etc.).?

    A quelle anne correspondent les chiffres de la population?

    Quest-ce quun habitant ? Les tudiants sont-ils compts? Les SDF ? Quelle mthodologie a t utilise pour laborer ces chiffres?

    Quelle page prcise de Wikipedia donne ces informations? Do viennent les informations de Wikipdia? (Toute information saisie dans une base doit tre source au maximum)

    Enrichir et prciser les donnes

  • Quelques enrichissements et harmonisation (Wikipedia donnait la population de Nice en 2012 et non en 2014)

    Enjeu du numrique : comment faire ces oprations (et bien dautres) automatiquement pour des milliers de villes? Comment explorer ces donnes, les analyser, les visualiser ?

    Diffrents types de donnes

    NOM TYPE_LIE

    U

    CODE

    _INSE

    E

    PAYS CODE

    _PAY

    S_ISO

    _3166

    POPULA

    TION_LE

    GALE

    DATE

    _POP

    ULATI

    ON

    SOURCE_C

    ODE_PAYS

    SOURCE_PO

    PULATION

    Paris commune 75056 France FR 2 220 445 2014 https://www.iso.org/obp/ui/fr/#iso:code:3

    166:FR

    https://www.insee.fr/fr/

    statistiques/2534314?

    geo=COM-75056

    Nice commune 06088 France FR 347 636 2014 https://www.iso.org/obp/ui/fr/#iso:code:3

    166:FR

    https://www.insee.fr/fr/

    statistiques/2534314?

    geo=COM-06088

    https://www.iso.org/obp/ui/fr/#iso:code:3166:FRhttps://www.insee.fr/fr/statistiques/2534314?geo=COM-75056https://www.iso.org/obp/ui/fr/#iso:code:3166:FRhttps://www.insee.fr/fr/statistiques/2534314?geo=COM-06088

  • Plusieurs manires de modliser les mmes donnes (et plusieurs types de fichiers pour chaque modle) :

    Tableau (ex. prcdent)

    Plusieurs tableaux ( tables ) relis

    Arbre

    Graphe

    Diffrents types de donnes

  • Plusieurs tableaux ( tables ) relis (modle des bases de donnes relationnelles : Access, MySQL, etc.)

    Diffrents types de donnes

    CODE_IN

    SEE

    DATE_PO

    PULATIO

    N

    POPULAT

    ION_LEG

    ALE

    SOURCE_PO

    PULATION

    75056 2014 2 220 445 https://www.insee.fr/fr/statistiques/2534314?ge

    o=COM-75056

    06088 2014 347 636 https://www.insee.fr/fr/statistiques/2534314?ge

    o=COM-06088

    CODE_PAYS

    _ISO_3166

    PAYS SOURCE_

    CODE_PA

    YS

    FR France https://www.iso.org/obp/ui/fr/#iso:co

    de:3166:FR

    CODE

    _INSE

    E

    NOM TYPE_LIEU CODE_

    PAYS_I

    SO_316

    6

    75056 Paris commune FR

    06088 Nice commune FR

    cl identifiant chaque ligne de chaque table

    https://www.insee.fr/fr/statistiques/2534314?geo=COM-75056https://www.insee.fr/fr/statistiques/2534314?geo=COM-06088https://www.iso.org/obp/ui/fr/#iso:code:3166:FR

  • Arbre (modle hirarchique)

    Diffrents types de donnes

    Ensemble des donnes

    Donnes sur Paris Donnes sur Nice

    NOM TYPE_LIEU CODE_INSEE Etc. NOM TYPE_LIEU CODE_INSEE Etc.

    commune

    06088Nicecomm

    une75056Paris

  • Arbre (syntaxe XML)

    Diffrents types de donnes

    Paris

    commune

    75056

    France

    FR

    2 220 445

    2014

    https://www.iso.org/obp/ui/fr/#iso:code:3166:FR

    https://www.insee.fr/fr/statistiques/2534314?geo=COM-75056

    Nice

    commune

    6088

    France

    FR

    347 636

    2014

    https://www.iso.org/obp/ui/fr/#iso:code:3166:FR

    https://www.insee.fr/fr/statistiques/2534314?geo=COM-06088

  • Arbre (syntaxe JSON, plus compacte)

    Diffrents types de donnes

    [

    {

    "NOM": "Paris",

    "TYPE_LIEU": "commune",

    "CODE_INSEE": 75056,

    "PAYS": "France",

    "CODE_PAYS_ISO_3166": "FR",

    "POPULATION_LEGALE": "2 220 445",

    "DATE_POPULATION": 2014,

    "SOURCE_CODE_PAYS": "https://www.iso.org/obp/ui/fr/#iso:code:3166:FR ",

    "SOURCE_POPULATION": "https://www.insee.fr/fr/statistiques/2534314?geo=COM-75056 "

    },

    {

    "NOM": "Nice",

    "TYPE_LIEU": "commune",

    "CODE_INSEE": 6088,

    "PAYS": "France",

    "CODE_PAYS_ISO_3166": "FR",

    "POPULATION_LEGALE": "347 636",

    "DATE_POPULATION": 2014,

    "SOURCE_CODE_PAYS": "https://www.iso.org/obp/ui/fr/#iso:code:3166:FR ",

    "SOURCE_POPULATION": "https://www.insee.fr/fr/statistiques/2534314?geo=COM-06088 "

    }

    ]

  • Graphe reliant des objets

    Diffrents types de donnes

    Objet Paris Objet Nice

    Objet France

  • Graphe reliant des objets des proprits

    Diffrents types de donnes

    Objet Paris Objet Nice

    Objet France

    FR

    France

    Nice

    06088

    347636

  • Le modle de graphe est la base du web de donnes :

    Chaque objet et chaque proprits sont dsign par une URL

    Diffrents types de donnes

    http://objetparis http://objetnice

    http://objetfrance

    FR

    France

    Nice

    06088

    347636

  • Le modle de graphe est la base du web de donnes :

    Chaque objet et chaque proprits sont dsign par une URL

    Diffrents types de donnes

    http://objetparis http://objetnice

    http://objetfrance

    FR

    France

    Nice

    06088

    347636

  • Le modle de graphe est la base du web de donnes :

    Les informations peuvent tre distribues diffrents endroits sur internet et relies entre elles avec les protocoles du web

    Diffrents types de donnes

    http://objetparis http://objetnice

    http://objetfrance

    FR

    France

    Nice

    06088

    347636

  • Nouvelle recherche

    Cherchez dans Google les auteurs ns en 1789. Qui est fournisseur du premier lien?

    72

  • Nouvelle recherche

    La BNF propose une page pour chaque anne!

    Donnes issues de son catalogue, transformes pour tre interrogeables sur le web de donnes

    73

  • Nouvelle recherche

    Rcupration possible sous forme de liste exploitable, mais cela demande des comptences techniques (connaissance du web smantique)

    Ex: http://bit.ly/2p8AMjw

    74

    http://bit.ly/2p8AMjw

  • Choisir des outils adapts

    Vous devez choisir un outil pour nettoyer, analyser ou visualiser des donnes.

    Quelles questions vous posez-vous?

    75

  • Choisir des outils adapts

    Fonctionnalits attendues (que veut-on faire avec loutil?)

    Format de donnes requis

    Contexte dutilisation (scientifique, journalistique)

    Prix

    Astuce : profiter des versions pour tudiant ou versions dessai

    Matriel et systme dexploitation requis

    Windows / Mac / Linux / Serveur local / cloud

    Facilit dinstallation et dusage

    Prennit de loutil

    Scurit des donnes

    Attention au cloud pour les donnes sensibles

    Interoprabilit avec dautres outils

    Popularit

    Tutoriels en ligne? Formations? Communaut dutilisateurs ?

    76

  • Choisir des outils adapts

    Avec quels outils pouvez-vous lire et modifier des informations prsentes sous forme de tableau?

    77

    age sexe revenu code_ville

    Persone1 18 1 15000 06088

    Persone2 23 0 45000 75013

    Persone3 65 1 30000 33063

  • Choisir des outils adapts

    Cas le plus courant

    Tableur (sur ordinateur ou en ligne)

    MS Excel LibreOffice Google Sheet

    (Win, Mac ) (Win, Mac, Linux) (en ligne)

    (payant) (gratuit) (gratuit)

    78

    https://en.wikipedia.org/wiki/Comparison_of_spreadsheet_software

  • Choisir des outils adapts

    Quelques rpertoires doutils gnraux mais bien pratiques

    79

    http://dirtdirectory.org/ http://connectedresearchers.com/

    http://tapor.ca/https://www.projet-plume.org/

    http://dirtdirectory.org/http://connectedresearchers.com/https://www.projet-plume.org/http://tapor.ca/

  • La reprsentation informatique de

    linformationEncodage, formats et autres conventions

    80

  • Reprsentation de linformation

    Avez-vous dj rencontr ces bizarreries?

    81

  • Les formats de fichiers

    Un format est une structure partage par un ensemble de fichiers, portant en gnral une mme extension.

    Les mmes donnes peuvent tre disponible dans plusieurs formats:

    Tableaux : CSV, XLSX ou ODS

    Images : JPEG, TIFF, etc.

    82

  • Le format CSV

    Exemple : Un fichier CSV est

    un ensemble de sries de valeurs

    o les sries sont spares par des sauts de ligne

    et les valeurs sont en gnral spares par des virgules

    Ex:Nice,France,06

    Rennes,France,34

    83

    Affichage dans Excel

  • Le format CSV

    Exemple : Un fichier CSV est

    un ensemble de sries de valeurs

    o les sries sont spares par des sauts de ligne

    et les valeurs sont en gnral spares par des virgules

    Le diable se cache dans les dtails !

    Les valeurs peuvent aussi tre spares par des points-virgules ou des tabulations. Elles sont parfois encadres par des guillemets. Etc.

    84

  • Le format CSV

    Problme : par dfaut, la version franaise dExcel considre que les valeurs des CSV sont spares par des points-virgules

    Consquence frquente:

    85

  • Le format CSV

    Le MoMA publie en ligne la liste de toutes ses uvres, sur le site

    https://github.com/MuseumofModernArt/collection (cherchez Github Moma dans Google)

    Dans ce dossier tlchargez le fichier Artists.csv (cliquez sur le nom du fichier puis sur View Raw ). Ouvrez le dans Excel

    Pbm : Excel na pas considr les virgules comme des sparateurs. Toutes les informations sont dans la colonne A !

    Comment corriger ce problme?

    86

    https://github.com/MuseumofModernArt/collection

  • Le format CSV

    Solution 1 : convertir les donnes

    Slectionner la colonne A

    Dans longlet Donnes du ruban, cliquez sur Convertir

    Choisir comme unique dlimiteur ,

    Excel demande le format de chaque colonne

    Gnral : permet de dtecter les nombres

    Texte : mme si une valeur ressemble un nombre elle seraconsidre comme du texte (pratique pour les n de tl.)

    Date selon plusieurs formats

    Conserver Gnral

    87

  • Le format CSV

    Solution 2 : rimporter les donnes dans une feuille existante

    Ouvrir un nouvel onglet

    Dans longlet Donnes du ruban, cliquez sur Donnesexternes puis partir du texte

    Slectionner le fichier sur le disque

    Puis mme logique que pour la solution 1

    88

  • CSV et format Excel, quelles diffrences?

    Daprs vous quels sont les avantages et les inconvnients du format CSV par rapport au format Excel?

    89

  • CSV et format Excel, quelles diffrences?

    Un fichier CSV :

    une seule feuille

    pas de mise en forme (typographie, couleurs, bordures, dimension des cellules, cellules fusionnes)

    pas dindication sur le type des donnes (tout est du texte )

    pas de formules

    pas de graphiques

    pas de macros

    En apparence trs limit mais cela facilite la lecture par des ordinateurs (sans logiciel spcifique) et la prservation des fichiers.

    90

  • Lencodage des caractres

    Lordinateur ne connat que des 0 et des 1. Les lettres et symboles doivent donc tre traduites en 0 et 1.

    Cet encodage est arbitraire mais fait lobjet de normes internationales.

    91

  • Lencodage des caractres

    Lordinateur ne connat que des 0 et des 1. Les lettres et symboles doivent donc tre traduites en 0 et 1.

    Cet encodage est arbitraire mais fait lobjet de normes internationales.

    Sauf que

    consensus pour les lettres non accentues

    A reprsent par 1000001 (norme ANSI, reprise par dautres)

    mais pas de consensus pour les lettres accentues (ni le chinois)

    reprsent par 11101001 (norme ISO 8859-1)

    reprsent par 11000011 10101001 (norme UTF-8)

    92

  • Lencodage des caractres

    Problme: Excel considre que les fichiers CSV encods en UTF-8 sont encods en ISO 8859-1 !

    Exemple du fichier des prnoms de lINSEE:

    93

  • Lencodage des caractres

    Solution la plus simple :

    Ouvrir le fichier CSV dans LibreOffice au lieu dExcel, qui permet de choisir lencodage (jeu de caractres).

    Pour travailler malgr tout dans Excel, enregistrer le fichier au format Excel dans LibreOffice et le rouvrir dans Excel

    94

  • Les formats de nombres

    Voyez-vous un problme dans ces donnes (fichier sur les causes de mort New York)?

    95

  • Les formats de nombres

    Il y en a un!

    Alignement droite : valeur numriqueAlignement gauche : texteEn G3, 18.2 nest pas interprt comme un nombre. La preuve: la formule =G3/2 renvoit une erreur

    96

  • Les formats de nombres

    Le problme : la version franaise dExcel attend des nombresformats la franaise avec une virgule entre les units et lesdcimales.

    Savez vous comment corrigerautomatiquement ce problme?

    97

  • Les formats de nombres

    Solution 1 : Slectionnez toutes les colonnes problmatiques, utilisez la fonction Rechercher/Remplacer (menu Edition) : remplacez tous les . par des ,

    Solution 2: Annulez toutes les oprations (Ctrl+Z), recliquez surConvertir mais cette fois cliquez sur Avanc lors de la derniretape et choisissez le . comme sparateur de dcimale

    Solution 3 : paramtrer Excel pour quil utilise le format amricain(faisable chez vous mais pas sur un PC partag)

    98

    https://support.office.com/fr-fr/article/Modifier-le-caract%C3%A8re-de-s%C3%A9paration-des-milliers-ou-des-d%C3%A9cimales-c093b545-71cb-4903-b205-aebb9837bd1e

  • Les dates dans Excel

    Dans une cellule, saisissez la date 01/01/2017

    Dans le menu Format de cellule (clic droit), modifiez le format en Standard

    Que sest-il pass?

    99

  • Les dates dans Excel

    Les dates sont stockes par Excel sous forme de nombres.

    A quelle date correspond le nombre 1?

    A quelle date correspond le nombre -1 ?

    Quen dduisez-vous?

    100

  • Les dates dans Excel

    Les dates sont stockes par Excel sous forme de nombres.

    A quelle date correspond le nombre 1?1/1/1900

    A quelle date correspond le nombre -1 ?ERREUR

    Quen dduisez-vous?Excel ne gre pas bien les dates antrieures au 01/01/1900 (et sous Excel Mac, le calendrier commence parfois au 01/01/1904)

    101

  • Les dates dans Excel

    Solution possible si cela pose problme:

    forcer Excel stocker les dates comme des suites de caractres, sans les interprter (lors dun import de fichier CSV, dclarer la colonne comme du texte simple)

    partir de cette information, calculer dans 3 colonnes spares lanne, le mois et le jour

    102

  • Gnralisation

    Ces problmes se retrouvent dans dautres outils, sous des formes plus ou moins proches. Ex: certaines bases de donnes grent bien les dates partir de lan 1000.

    Consquence : des problmes peuvent apparatre lorsque des donnes crs avec un outil sont lues ou analyses avec un autre !

    103

  • Des conventions partages

    1 information -> plusieurs reprsentations possibles

    Laffichage ne reprsente pas toujours fidlement les donnes

    Chaque reprsentation est le rsultat de rgles conventionnelles.

    On a voqu des rgles techniques purement informatique, mais dautres dpendent de pratiques professionnelles ou scientifiques.

    104

  • Gnralisation

    Quelles diffrences entre ces 4 tableaux? Sont-ils cohrents?

    105

    AG SE RB CO

    18 1 15 500 06088

    23 0 45 100 75013

    age sexe revenu

    _brut

    commune important

    18 H 15.50 NICE 1

    Vingt-

    trois

    Fem

    me

    45.10 PARIS(13) 0

    variables id1 id2

    ge 18 23

    genre 0 1

    revenu brut 15,50 45,10

    commune NICE PARIS 13

    age et

    sexe

    Revenu Code commune

    H, 18

    ans

    15,500 06088

    F, 23 ans 45 k 75013

    A

    B

    C

    D

  • Reprsentation de linformation

    Les mmes informations mais 4 reprsentations diffrentes

    Aucune nest pleinement satisfaisante

    2 incohrences internes : B (ge) et C (revenu en et k)

    Diffrences entre chaque tableau

    Disposition gnrale des observations et des variables (A,B,C D)

    Nom des variables (codes, groupes de mots, mots)

    Typographie et couleur pour coder une information (A,C,D B)

    Plusieurs variables dans une mme colonne (C)

    Information numrique en chiffres ou en toutes lettres

    Codage des variables

    Units diffrentes

    Prsence d units dans les cellules (A,B,D vs C)

    Formats de chiffres et de dates franais ou anglo-saxons

    106

  • Des conventions partages

    Il faut connatre les rgles utilises pour pouvoir

    lire des donnes ( les chiffres sont au format franais )

    les comprendre ( H signifie homme et F femme )

    les croiser ou comparer avec dautres donnes

    Il faut donc quelles soient explicites par le producteur!

    Plusieurs type de documentation : normes, standards, rfrentiels, dictionnaires de donnes

    107

  • Contrler, nettoyer et prparer ses

    donnes

    108

  • Contrle qualit rapide

    Devant un nouveau fichier, toujours se demander

    Qui la produit

    Dans quel but

    Ce quil est cens contenir

    Ce quil contient effectivement

    109

  • Contrle qualit rapide

    Avant danalyser des donnes il faut souvent les nettoyer, surtout si elles proviennent de sources multiples ou non officielles.

    Plusieurs niveaux danalyse :

    Lisibilit des donnes (bonne lecture du fichier par le programme): encodage, nombre de colonnes et de lignes

    Validit des donnes : doublons, mlange de chiffres et de texte, orthographe variable, espaces superflus, valeurs manquantes, codage invalide

    Cohrence et exactitude des donnes : Ex: Lycen g de 90 ans, commune Nice mais dpartement du Var

    110

  • Contrle qualit rapide

    Quelles oprations dans Excel pour contrler les donnes dun fichier inconnu?

    111

  • Contrle qualit rapide

    Quelques oprations de base (non exhaustives):

    Filtre automatique et tri de chaque colonne : reprage des valeurs anormales ou vides

    Recherche de doublons

    Statistiques descriptives pour chaque colonne : nombre de valeurs, nombre de valeurs vides, nombre de valeurs distinctes, liste des valeurs distinctes, moyenne, mdiane, cart-type

    Synthse du fichier : tableau crois dynamique

    Graphiques simples : la distribution des donnes est-elle celle attendue?

    112

  • Nettoyer ses donnes avec Excel

    Quelques fonctions utiles : RECHERCHEV (les valeurs servant de cls doivent tre exactement identiques), DROITE, GAUCHE, STXT, SUBSTITUE, CONCAT, NB.SI

    Conseils de Microsoft :

    vrification orthographique

    suppression des lignes en double

    recherche et remplacement de texte

    modifier la casse du texte

    suppression des espaces et les caractres non imprimables du texte

    rsolution des nombres et des signes de nombre

    rsolution des dates et heures

    fusion et le fractionnement de colonnes

    transformation et la rorganisation des colonnes et des lignes

    rapprochement des donnes de la table rejoindre ou une correspondance

    113

    https://support.office.com/fr-fr/article/Les-dix-meilleures-solutions-pour-nettoyer-vos-donn%c3%a9es-a64879eb-115f-4e3d-a3bf-9cfc08a0a4e3?ui=fr-FR&rs=fr-FR&ad=FR

  • Contrle qualit rapide

    Exemple : liste des communes des Alpes-Maritimes (fichier Exo_1.csv)

    114

  • Contrle qualit rapide

    Ajouter un filtre automatique sur les donnes

    115

  • Contrle qualit rapide

    Reprer des anomalies avec les filtres et des tris

    Tri croissant de la 1re colonne: espaces avant 2 valeurs ; code au lieu du nom pour 1 valeur.

    Correction manuelle pour le code ( Venanson )

    Suppression de tous les espaces superflux : fonction SUPPRESPACE() applique A1, puis toute la colonne A ; puis copie des valeurs nettoyes dans la colonne A

    116

    https://support.office.com/fr-fr/article/SUPPRESPACE-SUPPRESPACE-fonction-410388fa-c5df-49c6-b16c-9e5630b479f9

  • Contrle qualit rapide

    Reprer des anomalies avec les filtres et des tris

    Tri alphabtique : 4 latitudes avec , au lieu dun . avant la dcimale. Dont 1 est trait comme du texte et 3 comme un chiffre.

    Dans le filtre recherche , : une 5e latitude est concerne

    Correction : Chercher/Remplacer : remplacer , par .

    117

  • Contrle qualit rapide

    Le fichier contient-ils des doublons?

    Possible dutiliser le menu Donnes > Supprimer les doublons. Mais parfois dangereux car ne permet pas de contrler visuellement les doublons

    118

  • Contrle qualit rapide

    Le fichier contient-ils des doublons?

    - Slectionner la colonne A (nom des villes)

    - Accueil > Mise en forme conditionnelle > Rgles de mise en surbrillance des cellules > Valeurs en doubles

    119

  • Contrle qualit rapide

    La 1re colonne contient-elle des doublons?

    Oui !

    120

  • Contrle qualit rapide

    La 1re colonne contient-elle des doublons?

    Pour tous les voir : dans le filtre de la col. A, tri par couleur

    Une dtection portant sur les lignes entires naurait pas rvl le doublon pour Castillon, car latitude et longitude diffrent!

    Nettoyage manuel : supprimer les lignes inutiles

    121

  • Contrle qualit rapide

    Certaines colonne contiennent-elle des valeurs vides?

    Oui. Filtre et tri sur (vide)

    Coordonnes manquantes

    Nom ou code manquant

    122

  • Prparer ses donnes

    Mme si les donnes sont nettoyes , leur format, leur organisation ou le codage des valeurs ne sont pas forcment adapts aux problmatiques que lon souhaite explorer et loutil danalyse.

    Il peut tre ncessaire de regrouper, croiser, enrichir ou synthtiser des donnes avant de les analyser.

    123

  • Prparer ses donnes

    Oprations frquentes:

    Changer le nom et/ou lordre des colonnes

    Changer les units

    Croiser deux tableaux

    Extraire des lments des cellules

    Enrichir les donnes avec une source externe

    Eclater ou regrouper des cellules ou des lignes

    124

  • Les outils de nettoyage et de prparation

    Tableurs

    Scripts

    Logiciels spcialiss

    125

  • Extraire et rcuprer des donnes

    126

  • Utiliser une API web

    Dans le contexte du web, une API (Application programming interface) est une interface permettant des ordinateurs de communiquer et dchanger des donnes sans action humaine. Quasi synonyme de Web service

    Elles peuvent tre payantes ou gratuites, librement accessibles ou sur authentification.

    Les donnes sont tlchargeables en JSON, XML et parfois CSV

    Un rpertoire mondial dAPI : Programmableweb dont nombreusesAPI culturelles

    Intrts:

    Cration de sites interactifs

    Rcupration de donnes (Flux Twitter, titres doeuvres...)

    Enrichissement de donnes (coordonnes dun lieu)

    127

    https://www.programmableweb.com/https://www.programmableweb.com/category/museums/api

  • Extraire des donnes depuis un site sans API

    Est-ce lgal ou pas?

    En principe, si on a le droit de tlcharger un document manuellement, on a le droit de le tlcharger de manire automatise

    Mais situation juridique plus complexe dans le dtail :

    Droit applicable chaque lment tlcharg (ex: diffrentes pages peut avoir diffrents auteurs)

    Droit applicable lensemble : CGU + Droit spcial protgeant les bases de donnes produites en Europe

    Evolution lgislative et rglementaire en cours pour faciliter le travail des chercheurs

    128

  • Extraire des informations depuis un site web

    Ce quil faut viter tout prix:

    Dmarche pouvant tre perue comme une attaque informatique : prvoir un dlai entre chaque requte (autour d1 seconde)

    Nuire au producteur des donnes (concurrence dloyale, parasitisme conomique, perte de revenu)

    129

  • Extraire des informations depuis un site web

    Plusieurs techniques pour scraper une page ou un site web:

    Logiciels spcifique: souvent sous forme de plugins pour un navigateur

    Tableurs : Google Sheets, versions rcentes dExcel et LibreOffice

    Logiciel de prparation de donnes : OpenRefine

    Programmation : scripts en R, Python, javascript, PHP

    130

  • Extraire des informations depuis un site web

    Quelques outils ddis (crawlers)

    Webscraper.io (gratuit, extension Chrome)

    Outwit Hub (payant mais version gratuite, spar et extension FF)

    Import.io (gratuit, service en ligne)

    iMacros (payant mais version gratuite, spar et extension FF et Chrome)

    Httrack (gratuit)

    Hyphe (gratuit, prvu pour un usage de recherche)

    131

    http://webscraper.io/http://www.outwit.com/https://www.import.io/https://imacros.net/http://www.httrack.com/http://hyphe.medialab.sciences-po.fr/

  • Extraire des informations depuis un site web

    Fonctions Excel, Calc et Google Sheet.

    Appel dune URL et rcupration du rsultat

    Si besoin, filtre du rsultat avec la syntaxe XPATH (commande spare ou 2e argument de la commande)

    Excel 2013/2016: fonction SERVICEWEB, couple FILTRE-XML

    Calc : fonction SERVICEWEB, couple FILTREXML

    Google Sheet : fonction IMPORTXML

    Limites :

    Excel et Calc bloquent si la page ne tient pas dans une cellule. Donc pas fait pour rcuprer des pages entires mais plutt des donnes formates via une API

    mauvais support du format JSON

    132

    https://support.office.com/fr-fr/article/SERVICEWEB-SERVICEWEB-fonction-0546a35a-ecc6-4739-aed7-c0b7ce1562c4https://support.office.com/fr-fr/article/FILTRE-XML-FILTRE-XML-fonction-4df72efc-11ec-4951-86f5-c1374812f5b7https://help.libreoffice.org/Calc/WEBSERVICE/frhttps://support.google.com/docs/answer/3093342?hl=en

  • Dmonstration avec Google Sheets

    Exemple dutilisation dIMPORTXML

    http://bit.ly/2pna4aF

    Scraping dune page du site de lAssemble Nationale

    133

    http://bit.ly/2pna4aFhttp://www2.assemblee-nationale.fr/deputes/liste/alphabetique

  • Dmonstration avec Google Sheets

    Utilisation de lAPI de Geonames

    134

  • Dmonstration avec Google Sheets

    Utilisation de lAPI du Rijksmuseum dAmsterdam (uvres de Rembrandt)

    Renvoit des donnes en JSON ou en XML

    Il faut demander une cl pour pouvoir utiliser lAPI

    Voir dmo en ligne : https://rijksmuseum.github.io/demos/

    135

    https://rijksmuseum.github.io/demos/

  • Rcupration de tweets

    liste doutils de D. Freelon

    Voir en particulier

    TAGS : modle de feuille de calcul Google gratuit qui permet de configurer et d'excuter la collecte automatise des rsultats de recherche de Twitter.

    NodeXL : extension Excel

    Nombreux exemples de scripts dans diffrents langages

    136

    http://socialmediadata.wikidot.com/https://tags.hawksey.info/https://nodexl.codeplex.com/

  • Extraire des donnes depuis des documents

    Extraction de tableaux inclus dans des PDF: http://tabula.technology/

    Extraction dinformations depuis des fichiers Word ou en texte brut : faisable mais non dvelopp ici

    137

    http://tabula.technology/

  • Outil gratuit et multifonction, pour analyser des textes non structurs. Permet de sinitier la fouille de texte.

    Version internationale https://voyant-tools.org/ ou installe sur les serveurs dHuma-Num (pas de diffrence) http://voyant.tools.huma-num.fr/

    Attention, donnes traites en ligne (pas adapt des donnes sensibles)

    Voyant Tools : un outil pour sinitier au text mining

    https://voyant-tools.org/http://voyant.tools.huma-num.fr/

  • Ex de corpus de dmonstration : uvres de Jane Austen http://voyant-tools.org/?corpus=austen

    Voyant Tools : un outil pour sinitier au text mining

    http://voyant-tools.org/?corpus=austen

  • Guides et analysesVoyant Tools. Edutech wiki. 2014.

    Hermeneuti.ca

    Deschamps,Christophe. 2016. Voyant Tools, un puissant service de text mining en open source. 5 fvrier 2016 . Outils froids. http://www.outilsfroids.net/2016/02/voyant-tools-un-puissant-service-de-text-mining-en-open-source/

    Voyant Tools

    http://edutechwiki.unige.ch/fr/Voyant_Toolshttp://hermeneuti.ca/http://www.outilsfroids.net/2016/02/voyant-tools-un-puissant-service-de-text-mining-en-open-source/

  • Visualiser des donnesOutils et conseils

    141

  • Adapter ses graphiques

    Aux donnes

    Type gnral : quantitatives, discrtes, continues, catgorielles

    Nombre de variables visualiser

    Dimension temporelle : statique, volution, cycle

    lobjectif gnral (dcrire, expliquer, convaincre)

    Au message (quelle volution, quel motif dans les donnes?)

    Au public

    Au medium (impression, cran)

    142

  • Comment rater un graphique

    Quelques exemples de mauvais graphiques

    https://flowingdata.com/category/visualization/ugly-visualization/

    http://junkcharts.typepad.com/

    http://viz.wtf/

    143

    https://flowingdata.com/category/visualization/ugly-visualization/http://junkcharts.typepad.com/http://viz.wtf/

  • Pour viter le pire

    Faire le plus simple possible (viter la 3D, les lments graphiques inutiles, les variables superflues)

    Expliquer ce qui doit ltre (lgende, titres des axes, units)

    Au besoin, faire plusieurs graphiques au lieu dun

    viter les couleurs ou les formes difficiles dinstinguer

    Adapter lchelle aux donnes et leur variation (montrer directement la diffrences entre deux variables si les deux variables sont trs proches)

    Respecter la logique de chaque type de graphique (la somme des parts dun camembert ne peut pas dpasser 100% ; lchelle dun diagramme en barre doit commencer 0, etc)

    Respecter les principes de la perception visuelle et de la psychologie (plus facile de comparer des droites que des courbes, perception prattentionnelle de certains lments)

    Rviser sa gomtrie (valeur proportionnelle la surface dun carr ou dun cercle, pas sa largeur)

    Limiter les camemberts au maximum

    Cf. Nathan Yau https://flowingdata.com/2015/08/11/real-chart-rules-to-follow/ ; https://flowingdata.com/2015/08/31/bar-chart-baselines-start-at-zero/ 144

    https://flowingdata.com/2015/08/11/real-chart-rules-to-follow/https://flowingdata.com/2015/08/31/bar-chart-baselines-start-at-zero/

  • Pour en savoir plus sur la visualisation

    Datavisualization Tools http://keshif.me/demo/VisTools

    Datavisualization.ch http://selection.datavisualization.ch/

    Visualising Data Ressources http://www.visualisingdata.com/resources/

    Prsentation de S. Courrier. Dataviz, quels outils pour quelles visualisations(2016)

    N. Yau, Site FlowingData

    A. Cairo, Site The functional art

    Cours de F. Rossi: Visualisation de donnes et Visualisation dinformation, 2016

    Cours de L. Wilkinson Data Analysis, Statistics, Machine Learning. Session 03 (Visualizing), 2016.

    145

    http://keshif.me/demo/VisToolshttp://selection.datavisualization.ch/http://www.visualisingdata.com/resources/http://www.slideshare.net/serge.courrier/dataviz-quels-outils-pour-quelles-visualisations-serge-courrierhttp://flowingdata.com/http://www.thefunctionalart.com/http://apiacoa.org/publications/teaching/data-mining/m2p6/visualisation-slides.pdfhttp://apiacoa.org/publications/teaching/visualization/visual-perception.pdfhttps://www.cs.uic.edu/~wilkinson/DataAnalysisCourse/Session 03 (Visualizing).pdfhttps://www.cs.uic.edu/~wilkinson/DataAnalysisCourse/Session 03 (Visualizing).pdfhttps://www.cs.uic.edu/~wilkinson/DataAnalysisCourse/Session 03 (Visualizing).pdfhttps://www.cs.uic.edu/~wilkinson/DataAnalysisCourse/Session 03 (Visualizing).pdfhttps://www.cs.uic.edu/~wilkinson/DataAnalysisCourse/Session 03 (Visualizing).pdf

  • Quelques outils

    Logiciels bureautique (Excel, Calc, Google Sheets)

    Librairies R, Python, Javascript

    Outils intgrs aux sites statistiques ou dopen data. Ex : Banque mondiale

    Graphiques dynamiques:

    Google Charts, Google Fusion Tables, Infog.am, Highcharts, Datawrapper, Timeline.js, Plot.ly

    Pour trouver linspiration, analyser les sources et outils utiliss par des scientifiques ou des data journalists

    Forum sur Reddit https://www.reddit.com/r/dataisbeautiful/

    Visualisations du Monde, Libration, Wall Street Journal, Guardian,etc

    146

    http://databank.banquemondiale.org/data/reports.aspx?Code=NY.GDP.MKTP.KD.ZG&id=1ff4a498&report_name=Popular-Indicators&populartype=series&ispopular=y&Type=CHARThttps://developers.google.com/chart/https://support.google.com/fusiontables/answer/2571232?hl=enhttps://infogr.am/https://cloud.highcharts.com/https://www.datawrapper.de/http://timeline.knightlab.com/https://plot.ly/https://www.reddit.com/r/dataisbeautiful/http://www.lemonde.fr/data-visualisation/http://www.liberation.fr/data,100545http://graphics.wsj.com/https://www.theguardian.com/data

  • Visualisation de rseaux

    Usages varis (exploration, dmonstration, communication)

    En gnral transformation ncessaire des donnes avant de pouvoir les analyser.

    Au-del du choix dun outil, enjeux mthodologiques et scientifiques fondamentaux!

    Toutes les proprits dun rseau ne peuvent tre reprsentes graphiquement. Limage nest quune projection du rseau.

    147

  • Visualisation de rseaux

    Quelques exemples

    - Co-directions de thse en sociologie

    148B. Coulmont, Les amis de mes amis sont directeurs de thse, 2013. http://coulmont.com/blog/2013/11/29/amis-amis/

    http://coulmont.com/blog/2013/11/29/amis-amis/

  • Visualisation de rseaux

    Quelques exemples

    - Marques de bires

    149M. Grandjean, Visualiser des donnes : lexemple du march de la bire, 2014

    http://www.martingrandjean.ch/visualiser-donnees-marche-biere/

  • Visualisation de rseaux

    Avec quels outils raliser ce type de visualisation?

    150

  • Visualisation de rseaux

    Avec quels outils raliser ce type de visualisation?

    Gephi (libre et gratuit, installer, nombreux tutoriels, communaut importante)

    Mais aussi:

    Cytoscape

    Pajek

    NodeXL

    NodeGoat

    Outils spcialiss. Ex: VOSViewer (donnes bibliographiques), Palladio ou Vistorian (donnes historiques)

    Code en R, Python, javascript

    151

    https://gephi.org/http://www.cytoscape.org/http://mrvar.fdv.uni-lj.si/pajek/https://nodexl.codeplex.com/https://nodegoat.net/http://www.vosviewer.com/http://hdlab.stanford.edu/palladio/#/https://connectoscope.azurewebsites.net/vistorian/

  • Visualisation de rseaux

    Quelques liens utilesGroupe Flux Matrices Rseaux

    Groupe de Recherche Analyse de rseaux en sciences humaines

    Groupe Rseaux et Histoire

    Y. Delabrire, Data visualisation & social network analysis: visualiser le big data par la cartographie

    Mathilde P. et William G., Bien dbuter avec Gephi 0.9.1, 2017

    Alice T. et Mael B., Dbuter avec Cytoscape 3.4.0, 2017

    K. Ognyanova, tr. L. Beauguitte, Visualisation dynamique de rseaux avec R, 2017

    A. Courtin, (Brve) Introduction la visualisation de donnes (en SHS), 2016

    M. Grandjean, GEPHI Introduction to Network Analysis and Visualization, 2015

    L. Beauguitte et P. Merckl, Analyse des rseaux : une introduction Pajek, 2011

    L. Beaugitte, Analyse des rseaux sociaux, spatiaux et complexes , cours ENSAI 2017

    C. Lemercier, Faire simple mais rigoureux : saisir des donnes sur des liens dans un tableur, 2017

    L. Beaugitte, L'analyse de rseaux en sciences sociales et en histoire, 2017

    G. Garrote, Rseaux : de la notion lanalyse. Heurs et malheurs dun outil, 2014

    M. Grandjean, Larchive mise en rseau, 2013

    M. Grandjean, Introduction la visualisation de donnes : lanalyse de rseau en histoire, 2015

    L. Hammer, Guide: Analyzing Twitter Networks with Gephi 0.9.1, 2016

    J. Cauden, G. Sylvestre, Utilisation du logiciel Gephi pour lanalyse cartographique, 2015

    http://master-iesc-angers.com/introduction-a-la-cartographie-de-communautes-twitter/ 152

    http://groupefmr.hypotheses.org/http://arshs.hypotheses.org/http://reshist.hypotheses.org/Data visualisation & social network analysis: visualiser le big data par la cartographiehttp://arshs.hypotheses.org/321http://arshs.hypotheses.org/248http://arshs.hypotheses.org/414https://www.slideshare.net/antoinecourtin/brve-introduction-la-visualisation-de-donnes-en-shshttp://www.martingrandjean.ch/gephi-introduction/http://quanti.hypotheses.org/512/http://arshs.hypotheses.org/171http://reshist.hypotheses.org/1071https://halshs.archives-ouvertes.fr/halshs-01476090/documenthttp://reshist.hypotheses.org/464http://www.martingrandjean.ch/archive-reseau-visualisation-donnes-sciences-humaines/https://serval.unil.ch/resource/serval:BIB_EB4602016B9E.P001/REFhttps://medium.com/@Luca/guide-analyzing-twitter-networks-with-gephi-0-9-1-2e0220d9097dhttp://master-iesc-angers.com/utilisation-du-logiciel-gephi-pour-lanalyse-cartographique/http://master-iesc-angers.com/introduction-a-la-cartographie-de-communautes-twitter/

  • Exemple doutil exprimental permettant dexplorer des donnes

    comprenant des dates et des lieux, avec plusieurs types de

    visualisations.

    Attention: donnes traites en ligne.

    Ouvrir http://hdlab.stanford.edu/palladio/ dans Firefox (fonctionne mieux quavec Chrome)

    Visualiser des donnes avec Palladio

    http://hdlab.stanford.edu/palladio/

  • Visualiser des donnes avec Palladio

    Dans laide en ligne (http://hdlab.stanford.edu/palladio/help/ ), trouver les informations sur la manire de structurer le fichier de donnes importer (format, nom des colonnes, format des dates, coordonnes gographiques)

    http://hdlab.stanford.edu/palladio/help/

  • Importer le jeu de donnes de dmonstration ( try with sampledata

    Visualiser des donnes avec Palladio

  • Visualiser des donnes avec Palladio

    4 onglets :

    Data : importer des donnes

    Map : crer une carte

    Graph : crer un graphique en rseau

    Table : crer un tableau de donnes dnormalises

    Gallery : afficher des images avec un descriptif

    Export des images ralises (format svg)

    Export possible du projet, dans un format spcifique, rimporter dans Palladio

  • A. Courtin, Exploiter des cartes anciennes numrisesTrucs et astuces (avec du Mapwarper, Palladio,

    umaps), 24/2/2017

    A. Courtin, Cartographie du RETIF (Rpertoire des tableaux italiens dans les collections publiques

    franaises) dans le Hauts-de-France : manipulation avec Palladio, 8/3/2017

    M. Posner, Getting Started With Palladio, 2014

    M. Dring , From Hermeneutics to Data to Networks: Data Extraction and Network Visualization of Historical Sources, in Programming Historian, 18/2/2015

    M. Lincoln, Exploring Depictions of Amsterdam with Palladio, 7/4/2016

    Visualiser des donnes avec Palladio

    https://medium.com/@seeksanusername/exploiter-des-cartes-anciennes-num%C3%A9ris%C3%A9es-99d4ffc7788ahttps://medium.com/@seeksanusername/cartographie-du-retif-r%C3%A9pertoire-des-tableaux-italiens-dans-les-collections-publiques-fran%C3%A7aises-2223aee8c639http://miriamposner.com/blog/getting-started-with-palladio/http://programminghistorian.org/lessons/creating-network-diagrams-from-historical-sourceshttp://matthewlincoln.net/2016/04/07/exploring-depictions-of-amsterdam-with-palladio.html

  • Cartes simples

    Avec quel outil est faite cette carte?http://www.ouest-france.fr/elections/presidentielle/carte-presidentielle-comment-t-vote-dans-votre-commune-4945838

    Loutil est-il gratuit ou payant? Faut-il linstaller? O sont stockes les donnes?

    158

    http://www.ouest-france.fr/elections/presidentielle/carte-presidentielle-comment-t-vote-dans-votre-commune-4945838

  • Cartes simples

    Carte ralise avec le service en ligne Carto. Commercial mais avec une version gratuite. Trs utilis. Donnes hberges en ligne

    Autres outils en ligne gratuits ou ayant une version gratuite:

    Mapbox. Mme principe que Carto

    Google My Map. Plus sommaire. Trs utilis

    Umap. quivalent libre de Google My Map mais plus limit

    Magrit. Cartographie thmatique

    Khartis. Cartographie thmatique. Moins abouti que Magrit

    Autres outils gratuits, installer:

    Philcarto. Carto thmatique. Trs complet. Sous Windows

    QGIS. Systme dinformation gographique. Tous systmes

    Cartes et donns. Payant

    Librairies R, Python, Javascript159

    https://carto.com/https://www.mapbox.com/https://www.google.com/maps/d/https://umap.openstreetmap.fr/fr/http://magrit.cnrs.fr/http://www.sciencespo.fr/cartographie/khartis/http://philcarto.free.fr/https://www.qgis.org/

  • Tableau, un outil de visualisation multi-tches

    Logiciel Tableau : version de base gratuite, version pro gratuite pour tudiants et enseignants

    Trs utilis dans le monde de lentreprise et des mdias

    Permet dexplorer des donnes, de raliser diffrents types de graphiques et des cartes simples, et de les articuler en racontant une histoire . Peut grer des donnes massives.

    Ex : https://public.tableau.com/en-us/s/gallery/food-security-around-world

    https://public.tableau.com/en-us/s/gallery/offenses-ivy-league-schools

    https://public.tableau.com/en-us/s/gallery/history-us

    https://public.tableau.com/profile/fusco#!/vizhome/RepresentingUncertainFutures/Story1

    160

    https://public.tableau.com/s/https://public.tableau.com/en-us/s/gallery/food-security-around-worldhttps://public.tableau.com/en-us/s/gallery/offenses-ivy-league-schoolshttps://public.tableau.com/en-us/s/gallery/history-ushttps://public.tableau.com/profile/fusco#!/vizhome/RepresentingUncertainFutures/Story1

  • Dmonstration : le 1er tour des prsidentielles

    dans les Alpes Maritimes

    Donnes de base: http://elections.interieur.gouv.fr/telechargements/PR2017/resultatsT1/093/006/006com.xml

    Prparation : transformation des donnes XML en Excel, suppression de colonnes inutiles, enrichissement avec la golocalisation des communes

    161

    http://elections.interieur.gouv.fr/telechargements/PR2017/resultatsT1/093/006/006com.xml

  • Dmonstration : le 1er tour des prsidentielles

    dans les Alpes Maritimes

    Version Carto :

    162https://mathsabypro.carto.com/viz/f6747668-2a84-

    11e7-a42d-0e3ebc282e83/public_map

    https://mathsabypro.carto.com/viz/f6747668-2a84-11e7-a42d-0e3ebc282e83/public_map

  • Dmonstration : le 1er tour des prsidentielles

    dans les Alpes Maritimes

    Version Tableau:

    163http://tabsoft.co/2qeMXMI

    http://tabsoft.co/2qeMXMI