Sciences Numériques et Technologiemaths.spip.ac-rouen.fr/IMG/pdf/livret_snt_donnees.pdf ·...

41
Sciences Numériques et Technologie Livret « Les données structurées et leur traitement » Soutien aux formations assurées dans l’Académie de Rouen en mai 2019

Transcript of Sciences Numériques et Technologiemaths.spip.ac-rouen.fr/IMG/pdf/livret_snt_donnees.pdf ·...

Sciences Numériques et Technologie

Livret « Les données structurées et leur traitement »

Soutien aux formations assurées dans l’Académie de Rouen en mai 2019

Préambule

Depuis la publication du Bulletin officiel spécial n°1 du 22 janvier 2019, l’enseignement de sciences numé-riques et technologie (SNT) est officiellement programmé pour la classe de seconde générale et technolo-gique dès la rentrée 2019. A destination des enseignants susceptibles d’enseigner cette nouvelle discipline,une formation de 4 journées a été prévue dans l’Académie de Rouen, répartie entre mai 2019 et oc-tobre 2019. Sous l’impulsion de plusieurs corps d’inspection, des professeurs de collèges et de lycées del’académie rouennaise se sont impliqués dans la conception de cette formation.

Ce livret regroupe une partie du contenu de cette formation. Ce document est donc destiné à des en-seignants et donne des pistes de réflexion, sans donner, pour autant, systématiquement, des activitésfournies clé en main. Ce recueil ne se veut pas être un modèle exclusif d’activités à mener avec ses élèvesmais est le fruit de travaux de professeurs, de disciplines variées, ayant réfléchi sur un thème particulier.La compilation de ces productions servira de support de travail lors des formations. Selon les sensibilités(matière d’origine, expertise dans un thème...) de chaque concepteur d’activités, les contenus sont d’uneapproche et d’un niveau différents. Le choix a été de conserver cette hétérogénéité car les enseignants,destinataires de cette formation, n’ont justement pas la même homogénéité de connaissances et ce livretespère, ainsi, satisfaire le plus grand nombre. Ce recueil conserve toutefois la perception officielle de cetenseignement : « L’enseignement de sciences numériques et technologie en classe de seconde a pour objetde permettre d’appréhender les principaux concepts des sciences numériques, mais également de permettreaux élèves, à partir d’un objet technologique, de comprendre le poids croissant du numérique et les enjeuxqui en découlent ». Il n’est donc pas question de trouver, ici, des activités expertes mais plutôt de quoienrichir la culture numérique de tous les élèves.

Dans le cadre de cet enseignement, sept thématiques sont au programme :• Internet• Le Web• Les réseaux sociaux• Les données structurées et leur traitement• Localisation, cartographie et mobilité• Informatique embarquée et objets connectés• La photographie numérique

Une thématique transversale est l’algorithmique par l’utilisation de Python. Pour plus d’informations à cesujet, le lecteur est invité à consulter le livret de formation sur Python que le pôle de compétences demathématiques de l’Académie de Rouen a créé pour les formations académiques 2018 dans le cadre desprogrammes de seconde.

Ce livret traite principalement du thème « Les données structurées et leur traitement » même si partransversalité, d’autres thèmes pourront être abordés.

Ce recueil est téléchargeable sur le site académique de Rouen à l’adresse suivante :http://maths.spip.ac-rouen.fr/spip.php?article785.

Outre ce document, y sont entreposés des compléments comme des approfondissements, des corrections,des fichiers Python, une sitographie, certaines activités nationales... Notamment, tous les fichiers évoquésdans les activités de ce livret, suivis d’un astérisque (∗), seront téléchargeables sur le site académique deRouen à l’adresse ci-dessus.

2

Afin de faciliter l’usage de ce livret, sont listés ci-dessous, les contenus et capacités attendues dans leprogramme de SNT. Même si ce tableau est donné à titre indicatif et que ses informations sont reprises,adéquatement, dans chaque activité, il ne remplace pas le contenu explicite du programme de SNT.

Contenus Capacités attendues

Données Identifier les principaux formats et représentations de données.

Données structuréesIdentifier les différents descripteurs d’un objet.Distinguer la valeur d’une donnée de son descripteur.Utiliser un site de données ouvertes, pour sélectionner et récupérerdes données.

Traitement de données structurées Réaliser des opérations de recherche, filtre, tri ou calcul sur uneou plusieurs tables.

Métadonnées Retrouver les métadonnées d’un fichier personnel.

Données dans le nuage (cloud)Utiliser un support de stockage dans le nuage.Partager des fichiers, paramétrer des modes de synchronisation.Identifier les principales causes de la consommation énergétiquedes centres de données ainsi que leur ordre de grandeur.

Exemples d’activités

• Consulter les métadonnées de fichiers correspondant à des informations différentes et repérer cellescollectées par un dispositif et celles renseignées par l’utilisateur.

• Télécharger des données ouvertes (sous forme d’un fichier au format CSV avec les métadonnéesassociées), observer les différences de traitements possibles selon le logiciel choisi pour lire le fichier :programme Python, tableur, éditeur de textes ou encore outils spécialisés en ligne.

• Explorer les données d’un fichier CSV à l’aide d’opérations de tri et de filtre, effectuer des calculssur ces données, réaliser une visualisation graphique des données.

• À partir de deux tables de données ayant en commun un descripteur, montrer l’intérêt des deux tablespour éviter les redondances et les anomalies d’insertion et de suppression, réaliser un croisement desdonnées permettant d’obtenir une nouvelle information.

• Illustrer, par des exemples simples, la consommation énergétique induite par le traitement et lestockage des données.

3

Table des matières

4

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : David-Yann Vincent d’après Philippe Dutartre

Les données

structurées etleur traitement

La catastrophe du TitanicVersion Tableur

Fiche élève

Le RMS Titanic est un paquebot transatlantique britannique qui fait naufrage dans l’océan AtlantiqueNord en 1912 à la suite d’une collision avec un iceberg, lors de son voyage inaugural de Southamptonà New York. C’est l’une des plus grandes catastrophes maritimes survenues en temps de paix et la plusgrande pour l’époque.

Ce paquebot de la White Star Line, construit à l’initiative de JosephBruce Ismay en 1907, a été conçu par les architectes Alexander Mont-gomery Carlisle et Thomas Andrews des chantiers navals Harland &Wolff. Sa construction débute en 1909 à Belfast et se termine en1912. C’est à l’époque le plus luxueux et le plus grand paquebot jamaisconstruit. Le Titanic est dirigé par le Capitaine Edward Smith, qui aégalement sombré avec le navire. Le paquebot portait certains des gensles plus riches de l’époque, de même que des centaines d’émigrants deGrande-Bretagne et d’Irlande et d’ailleurs en Europe qui cherchaientune nouvelle vie aux États-Unis.

Le 14 avril 1912, quatre jours après le commencement de son voyage inaugural, il heurte un iceberg à23 h 40 (heure locale) et coule le 15 avril 1912 à 2 h 20 au large de Terre-Neuve. Le drame met enévidence l’insuffisance des règles de sécurité de l’époque, notamment le nombre insuffisant de canots desauvetage et les carences dans les procédures d’évacuation d’urgence.

L’épave du Titanic est localisée le 1er septembre 1985 par le professeur Robert Ballard. Elle gît à 3 843mètres de profondeur à 650 km au sud-est de Terre-Neuve. L’histoire du paquebot a marqué les mémoires,et suscité la publication de nombreux ouvrages (historiques ou de fiction) et la réalisation de longs métragesdont le film du même nom Titanic de James Cameron, sorti en 1997 et ayant entraîné un important regaind’intérêt pour le paquebot et son histoire.

Source : D’après https://fr.wikipedia.org/wiki/Titanic

Partie A — Exploration du fichier des passagers

Question 1 : Ouvrir le fichier « titanic.csv∗ » à l’aide du tableur de LibreOffice. Ce fichier contientde nombreuses données sur certains passagers du Titanic (les membres d’équipage n’y figurent pas).

Un formulaire de mise en forme est proposé, il est important de paramétrer « l’option de séparateur ».Faire plusieurs essais afin de comprendre le fonctionnement et jusqu’à obtenir un aperçu lisible et organisé.Valider enfin l’ouverture du fichier.

Le séparateur utilisé dans le fichier est le symbole ...... et il sert à . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

Question 2 : On retrouve les descripteurs du fichier dans la première ligne du fichier obtenu. Quelssont-ils ? Que permettent-ils ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 3 : À part la première ligne, chaque autre ligne du fichier correspond à un objet. Pour chaqueobjet, on a donc les valeurs pour chaque descripteur.• Pour le descripteur « sexe », à quoi correspond la valeur « 1 » ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .• Pour le descripteur « tarif », à quoi correspond la valeur indiquée pour chaque objet ? . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .• Pour le descripteur « survie », à quoi correspondent la valeur « 0 » et la valeur « 1 » ? . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Choisir un objet du fichier et rédiger un texte faisant référence aux descripteurs qui montre votre compré-hension de l’organisation du fichier de données structurées.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Partie B — Exploitation basique des données

Question 4 : À l’aide des fonctions usuelles du tableur que vous préciserez ci-dessous, déterminer l’âgemoyen des passagers, le tarif moyen payé et le tarif le plus élevé qui a été payé.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 5 : À l’aide des fonctions usuelles du tableur que vous préciserez ci-dessous, déterminer l’écartinterquartile des tarifs. Quelle(s) interprétation(s) peut-on en donner ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 6 : L’outil Données/Autofiltre permet de réaliser des filtres sur les valeurs de chaquedescripteur. En activant cet outil, trier les tarifs par ordre croissant et compléter le tableau suivant :

Tarif[0 ;50[ [50 ;100[ [100 ;150[ [150 ;200[ [200 ;250[ [250 ;300[ [300 ;350[ [350 ;400[ [400 ;450[ [450 ;500[ [500 ;550[payé

en £

Effectif

Recopier ce tableau dans une nouvelle feuille du tableur et représenter graphiquement ces données. Quel(s)commentaire(s) peut-on faire quant à la répartition des tarifs payés sur le Titanic ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

Partie C — Exploitation plus fine des données

Question 7 : À l’aide des fonctions usuelles du tableur, déterminer la moyenne des données du descripteur« survie ». Quelle interprétation peut-on en donner ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 8 : Il n’y avait pas suffisamment de places dans les canots de sauvetage du Titanic pour tousles passagers et les membres de l’équipage (et certains canots sont partis à peine remplis). On souhaiteexaminer l’influence de la classe sociale des passagers sur l’obtention d’une place sur un canot de sauvetage.

Trier les données du descripteur « classe » par ordre croissant à l’aide de l’autofiltre, copier et collerles données pour chaque classe dans des nouvelles feuille du tableur et déterminer la fréquence de surviepour chaque classe. Que peut-on en conclure ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 9 : Dans le film de James Cameron, lors de l’évacuation du Titanic, on voit que les femmesembarquent davantage sur les canots que les hommes. On peut donc supposer que la fréquence de surviepour les femmes a été supérieure à celle des hommes... Est-ce la réalité ? Répondre en adoptant unedémarche similaire à celle utilisée à la question 8.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 10 : La fréquence de survie chez les femmes a-t-elle été indépendante de la classe dans laquellevoyageaient les passagères ? Pour répondre à cette question, extraire les données comme précédemmenten n’oubliant pas de copier-coller la ligne des descripteurs pour pouvoir faire un deuxième tri.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Partie D — À vous de jouer !

Le site institutionnel français data.gouv.fr est la plate-forme ouverte des données publiques françaises.Elle permet de télécharger de très nombreuses données structurées et de les traiter ensuite.Télécharger sur le site data.gouv.fr un fichier de données (au format CSV) de votre choix. Le présenter etexpliquer quels en sont les objets et les descripteurs. À l’aide du programme Python et en vous inspirant dela situation étudiée avec le Titanic, manipuler les données afin d’en extraire de l’information (commencerpar un exemple d’exploitation basique et ensuite poursuivre avec un exemple d’exploitation plus fine deces données). Rédiger l’ensemble en l’agrémentant de captures d’écran.

7

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : David-Yann Vincent d’après Philippe Dutartre

Les données

structurées etleur traitement

La catastrophe du TitanicVersion Tableur

Fiche professeur

Contenus et capacités

Contenus Capacités attendues

Données structurées

Identifier les différents descripteurs d’un objet.

Distinguer la valeur d’une donnée de son descripteur.

Utiliser un site de données ouvertes, pour sélectionner et récupérerdes données.

Traitement de données structurées Réaliser des opérations de recherche, filtre, tri ou calcul sur uneou plusieurs tables.

Modalités

L’activité proposée est déclinée en deux versions :• une version tableur, accessible avec les outils connus des élèves au collège,• une version python est également proposée.La manipulation du tableur peut s’avérer un peu fastidieuse d’où l’idée de l’autre version sous Python.

L’activité est construite dans l’esprit suivant : c’est d’abord un travail de découverte des élèves puis unréinvestissement par l’élève lui-même sur un fichier de son choix. Ce réinvestissement peut être le supportde l’évaluation.

Descriptif

Le RMS Titanic est un paquebot transatlantique britannique qui fait naufrage dans l’océan AtlantiqueNord en 1912 à la suite d’une collision avec un iceberg, lors de son voyage inaugural de Southamptonà New York. C’est l’une des plus grandes catastrophes maritimes survenues en temps de paix et la plusgrande pour l’époque.

Ce paquebot de la White Star Line, construit à l’initiative de JosephBruce Ismay en 1907, a été conçu par les architectes Alexander Mont-gomery Carlisle et Thomas Andrews des chantiers navals Harland &Wolff. Sa construction débute en 1909 à Belfast et se termine en1912. C’est à l’époque le plus luxueux et le plus grand paquebot jamaisconstruit. Le Titanic est dirigé par le Capitaine Edward Smith, qui aégalement sombré avec le navire. Le paquebot portait certains des gensles plus riches de l’époque, de même que des centaines d’émigrants deGrande-Bretagne et d’Irlande et d’ailleurs en Europe qui cherchaientune nouvelle vie aux États-Unis.

8

Le 14 avril 1912, quatre jours après le commencement de son voyage inaugural, il heurte un iceberg à23 h 40 (heure locale) et coule le 15 avril 1912 à 2 h 20 au large de Terre-Neuve. Le drame met enévidence l’insuffisance des règles de sécurité de l’époque, notamment le nombre insuffisant de canots desauvetage et les carences dans les procédures d’évacuation d’urgence.

L’épave du Titanic est localisée le 1er septembre 1985 par le professeur Robert Ballard. Elle gît à 3 843mètres de profondeur à 650 km au sud-est de Terre-Neuve. L’histoire du paquebot a marqué les mémoires,et suscité la publication de nombreux ouvrages (historiques ou de fiction) et la réalisation de longs métragesdont le film du même nom Titanic de James Cameron, sorti en 1997 et ayant entraîné un important regaind’intérêt pour le paquebot et son histoire.

Source : D’après https://fr.wikipedia.org/wiki/Titanic

Partie A — Exploration du fichier des passagers

Question 1 : Ouvrir le fichier « titanic.csv∗ » à l’aide du tableur de LibreOffice. Ce fichier contientde nombreuses données sur certains passagers du Titanic (les membres d’équipage n’y figurent pas).

Un formulaire de mise en forme est proposé, il est important de paramétrer « l’option de séparateur ».Faire plusieurs essais afin de comprendre le fonctionnement et jusqu’à obtenir un aperçu lisible et organisé.Valider enfin l’ouverture du fichier.

Éléments de réponse : Le séparateur utilisé dans le fichier est le symbole « ; » et il sert à séparer lesdonnées qui sont écrites à la suite les unes des autres.Question 2 : On retrouve les descripteurs du fichier dans la première ligne du fichier obtenu. Quelssont-ils ? Que permettent-ils ?Éléments de réponse : Il existe 6 descripteurs dans ce fichier (classe, survie, nom, sexe, âge et tarif). Ilspermettent d’organiser les données et de faire un tri selon les choix de celui qui a élaboré le fichier.

Question 3 : À part la première ligne, chaque autre ligne du fichier correspond à un objet. Pour chaqueobjet, on a donc les valeurs pour chaque descripteur.• Pour le descripteur « sexe », à quoi correspond la valeur « 1 » ?

Éléments de réponse : 1 correspond à un homme.• Pour le descripteur « tarif », à quoi correspond la valeur indiquée pour chaque objet ?

Éléments de réponse : C’est le tarif en £ payé par chaque passager. Certaines données peuvent êtremanquantes mais cela n’empêche pas de traiter le reste.

• Pour le descripteur « survie », à quoi correspondent la valeur « 0 » et la valeur « 1 » ?Éléments de réponse : 0 correspond à un décès lors du naufrage, 1 à la survie.

Choisir un objet du fichier et rédiger un texte faisant référence aux descripteurs qui montre votre compré-hension de l’organisation du fichier de données structurées.Éléments de réponse : L’objet situé à la ligne 272 du tableur (si le fichier n’a pas été réorganisé) est MmeSmith qui était passagère de 1ère classe, âgée de 18 ans, qui avait payé son voyage 60£ et qui a survécuau naufrage.

9

Partie B — Exploitation basique des données

Question 4 : À l’aide des fonctions usuelles du tableur que vous préciserez ci-dessous, déterminer l’âgemoyen des passagers, le tarif moyen payé et le tarif le plus élevé qui a été payé.

Éléments de réponse : =MOYENNE(E2:E2000)

=MOYENNE(F2:F2000)

=MAX(F2:F2000)

L’âge moyen des passagers était de 30 ans environ, le tarif moyen était de 33£ et le tarif maximal étaitde 512£.

Question 5 : À l’aide des fonctions usuelles du tableur que vous préciserez ci-dessous, déterminer l’écartinterquartile des tarifs. Quelle(s) interprétation(s) peut-on en donner ?Éléments de réponse : =QUARTILE(F2:F2000 ;3)-QUARTILE(F2:F2000 ;1)L’écart interquartile des tarifs vaut 23£ ce qui montre qu’environ la moitié des passagers ont payé unbillet avec un écart de prix de 23£. La dispersion semble être faible... ce qui est trompeur car les valeursextrêmes ne sont pas prises en compte !

Question 6 : L’outil Données/Autofiltre permet de réaliser des filtres sur les valeurs de chaquedescripteur. En activant cet outil, trier les tarifs par ordre croissant et compléter le tableau suivant :

Tarif[0 ;50[ [50 ;100[ [100 ;150[ [150 ;200[ [200 ;250[ [250 ;300[ [300 ;350[ [350 ;400[ [400 ;450[ [450 ;500[ [500 ;550[payé

en £

Effectif 1063 161 33 13 21 13 0 0 0 0 4

Recopier ce tableau dans une nouvelle feuille du tableur et représenter graphiquement ces données. Quel(s)commentaire(s) peut-on faire quant à la répartition des tarifs payés sur le Titanic ?

Éléments de réponse : On remarque le fort déséquilibre des tarifs payés sur le Titanic, témoin des fortesinégalités sociales des passagers !

Partie C — Exploitation plus fine des données

Question 7 : À l’aide des fonctions usuelles du tableur, déterminer la moyenne des données du descripteur« survie ». Quelle interprétation peut-on en donner ?Éléments de réponse : On peut donc en conclure que 38 % environ des passagers ont survécu au naufrage...et donc 62 % des passagers ont péri ce qui explique le fort écho médiatique qu’a eu ce naufrage.

10

Question 8 : Il n’y avait pas suffisamment de places dans les canots de sauvetage du Titanic pour tousles passagers et les membres de l’équipage (et certains canots sont partis à peine remplis). On souhaiteexaminer l’influence de la classe sociale des passagers sur l’obtention d’une place sur un canot de sauvetage.

Trier les données du descripteur « classe » par ordre croissant à l’aide de l’autofiltre, copier et collerles données pour chaque classe dans des nouvelles feuille du tableur et déterminer la fréquence de surviepour chaque classe. Que peut-on en conclure ?Éléments de réponse : Il y a de fortes disparités selon la classe : 62% de survivants en 1ère classe, 43%en 2nde classe et seulement 26% en 3ème classe.

Question 9 : Dans le film de James Cameron, lors de l’évacuation du Titanic, on voit que les femmesembarquent davantage sur les canots que les hommes. On peut donc supposer que la fréquence de surviepour les femmes a été supérieure à celle des hommes... Est-ce la réalité ? Répondre en adoptant unedémarche similaire à celle utilisée à la question 8.Éléments de réponse : Seulement 19 % des hommes ont survécu au naufrage alors que 73 % des femmesont survécu (toutes classes confondues). L’illustration de James Cameron est donc fidèle à la réalité, lescanots étaient essentiellement composés de femmes.

Question 10 : La fréquence de survie chez les femmes a-t-elle été indépendante de la classe dans laquellevoyageaient les passagères ? Pour répondre à cette question, extraire les données comme précédemmenten n’oubliant pas de copier-coller la ligne des descripteurs pour pouvoir faire un deuxième tri.Éléments de réponse : Là encore, les inégalités sont très fortes selon la classe. Alors que 49 % des femmesde 3ème classe vont survivre, 89 % des femmes de 2nde classe et 97 % des femmes de 1ère classe vontsurvivre ! Les canots de sauvetage étaient donc essentiellement composés de passagères de 1ère et 2èmeclasse. . .

Partie D — À vous de jouer !

Le site institutionnel français data.gouv.fr est la plate-forme ouverte des données publiques françaises.Elle permet de télécharger de très nombreuses données structurées et de les traiter ensuite.Télécharger sur le site data.gouv.fr un fichier de données (au format CSV) de votre choix. Le présenter etexpliquer quels en sont les objets et les descripteurs. À l’aide du programme Python et en vous inspirant dela situation étudiée avec le Titanic, manipuler les données afin d’en extraire de l’information (commencerpar un exemple d’exploitation basique et ensuite poursuivre avec un exemple d’exploitation plus fine deces données). Rédiger l’ensemble en l’agrémentant de captures d’écran.Éléments de réponse : Ce travail permet de réaliser une évaluation de la compréhension de la structured’un fichier de données type CSV, des opérations simples sur les objets et les valeurs selon les descripteurs.L’extraction d’informations et leur interprétation sont également évaluées. Le travail demandé peut êtreréalisé en groupe afin de faire émerger que chaque élève peut extraire des informations différentes à partirdu même fichier.

11

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : David-Yann Vincent d’après Philippe Dutartre

Les données

structurées etleur traitement

La catastrophe du TitanicVersion Python

Fiche élève

Le RMS Titanic est un paquebot transatlantique britannique qui fait naufrage dans l’océan AtlantiqueNord en 1912 à la suite d’une collision avec un iceberg, lors de son voyage inaugural de Southamptonà New York. C’est l’une des plus grandes catastrophes maritimes survenues en temps de paix et la plusgrande pour l’époque.

Ce paquebot de la White Star Line, construit à l’initiative de JosephBruce Ismay en 1907, a été conçu par les architectes Alexander Mont-gomery Carlisle et Thomas Andrews des chantiers navals Harland &Wolff. Sa construction débute en 1909 à Belfast et se termine en1912. C’est à l’époque le plus luxueux et le plus grand paquebot jamaisconstruit. Le Titanic est dirigé par le Capitaine Edward Smith, qui aégalement sombré avec le navire. Le paquebot portait certains des gensles plus riches de l’époque, de même que des centaines d’émigrants deGrande-Bretagne et d’Irlande et d’ailleurs en Europe qui cherchaientune nouvelle vie aux États-Unis.

Le 14 avril 1912, quatre jours après le commencement de son voyage inaugural, il heurte un iceberg à23 h 40 (heure locale) et coule le 15 avril 1912 à 2 h 20 au large de Terre-Neuve. Le drame met enévidence l’insuffisance des règles de sécurité de l’époque, notamment le nombre insuffisant de canots desauvetage et les carences dans les procédures d’évacuation d’urgence.

L’épave du Titanic est localisée le 1er septembre 1985 par le professeur Robert Ballard. Elle gît à 3 843mètres de profondeur à 650 km au sud-est de Terre-Neuve. L’histoire du paquebot a marqué les mémoires,et suscité la publication de nombreux ouvrages (historiques ou de fiction) et la réalisation de longs métragesdont le film du même nom Titanic de James Cameron, sorti en 1997 et ayant entraîné un important regaind’intérêt pour le paquebot et son histoire.

Source : D’après https://fr.wikipedia.org/wiki/Titanic

Partie A — Exploration du fichier des passagers

Question 1 : Ouvrir le fichier « titanic.csv∗ » à l’aide du programme Python suivant (le fichier CSV

doit être dans le même dossier que le programme Python). Ce fichier contient de nombreuses données surcertains passagers du Titanic (les membres d’équipage n’y figurent pas). Elles sont toutes stockées dansla variable data.

import matplotlib.pyplot as plt

import pandas

data = pandas.read_csv(’titanic.csv’, sep = ’;’)

12

Les données sont stockées à la suite les unes des autres, simplement séparées par un séparateur qui estle symbole . . . . . . . . . . . . . En écrivant simplement le nom de la variable data, il s’affiche son contenu :comment les données sont-elles organisées ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 2 : Chaque colonne est identifiée par un descripteur. Quels sont-ils ? Que permettent-ils ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 3 : Chaque ligne du fichier correspond à un objet. Pour chaque objet, on a donc les valeurspour chaque descripteur. Elles sont de différents types en Python et on peut les afficher avec la commandedata.dtypes.• Pour le descripteur « sexe », à quoi correspond la valeur « 1 » ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .• Pour le descripteur « tarif », à quoi correspond la valeur indiquée pour chaque objet ? . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .• Pour le descripteur « survie », à quoi correspondent la valeur « 0 » et la valeur « 1 » ? . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

À l’aide de la commande data.loc[numéro de l’objet], choisir un objet du fichier et rédiger un textefaisant référence aux descripteurs qui montre votre compréhension de l’organisation du fichier de donnéesstructurées.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Partie B — Exploitation basique des données

Question 4 : À l’aide de la commande data.describe(), déterminer l’âge moyen des passagers, le tarifmoyen payé et le tarif le plus élevé qui a été payé.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 5 : Déterminer l’écart interquartile des tarifs. Quelle(s) interprétation(s) peut-on en donner ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 6 : Il est possible de représenter graphiquement certaines données à l’aide des commandessuivantes.

data.hist(column = ’tarif’, figsize = (9,6), bins = 10)

plt.show()

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

Partie C — Exploitation plus fine des données

Question 7 : Quelle est la moyenne des données du descripteur « survie » ? On peut utiliser les donnéesprécédemment acquises ou utiliser simplement la commande data[‘survie’].mean().Quelle interprétation peut-on en donner ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 8 : Il n’y avait pas suffisamment de places dans les canots de sauvetage du Titanic pour tousles passagers et les membres de l’équipage (et certains canots sont partis à peine remplis). On souhaiteexaminer l’influence de la classe sociale des passagers sur l’obtention d’une place sur un canot de sauvetage.On va donc extraire les données groupées par « classe » et afficher la moyenne des données numériquescorrespondant aux différents descripteurs.

gr1 = data.groupby([’classe’]).mean()

gr1

Déterminer la fréquence de survie pour chaque classe. Que peut-on en conclure ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 9 : Dans le film de James Cameron, lors de l’évacuation du Titanic, on voit que les femmesembarquent davantage sur les canots que les hommes. On peut donc supposer que la fréquence de surviepour les femmes a été supérieure à celle des hommes... Est-ce la réalité ? Répondre en adoptant unedémarche similaire à celle utilisée à la question 8.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Question 10 : La fréquence de survie chez les femmes a-t-elle été indépendante de la classe dans laquellevoyageaient les passagères ? Pour répondre à cette question, extraire les données comme précédemmenten indiquant deux descripteurs « classe », « sexe » pour pouvoir faire un deuxième tri.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Partie D — À vous de jouer !

Le site institutionnel français data.gouv.fr est la plate-forme ouverte des données publiques françaises.Elle permet de télécharger de très nombreuses données structurées et de les traiter ensuite.Télécharger sur le site data.gouv.fr un fichier de données (au format CSV) de votre choix. Le présenter etexpliquer quels en sont les objets et les descripteurs. À l’aide du programme Python et en vous inspirant dela situation étudiée avec le Titanic, manipuler les données afin d’en extraire de l’information (commencerpar un exemple d’exploitation basique et ensuite poursuivre avec un exemple d’exploitation plus fine deces données). Rédiger l’ensemble en l’agrémentant de captures d’écran.

14

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : David-Yann Vincent d’après Philippe Dutartre

Les données

structurées etleur traitement

La catastrophe du TitanicVersion Python

Fiche professeur

Contenus et capacités

Contenus Capacités attendues

Données structurées

Identifier les différents descripteurs d’un objet.

Distinguer la valeur d’une donnée de son descripteur.

Utiliser un site de données ouvertes, pour sélectionner et récupérerdes données.

Traitement de données structurées Réaliser des opérations de recherche, filtre, tri ou calcul sur uneou plusieurs tables.

Modalités

L’activité proposée est déclinée en deux versions :• une version tableur, accessible avec les outils connus des élèves au collège,• une version python est également proposée.La manipulation du tableur peut s’avérer un peu fastidieuse d’où l’idée de l’autre version sous Python.Dans la version Python, le fichier au format csv doit être dans le même répertoire que le fichier Jupyterau format ipynb. La correction du fichier Python est « Titanic.ipynb ».

L’activité est construite dans l’esprit suivant : c’est d’abord un travail de découverte des élèves puis unréinvestissement par l’élève lui-même sur un fichier de son choix. Ce réinvestissement peut être le supportde l’évaluation.

Descriptif

Le RMS Titanic est un paquebot transatlantique britannique qui fait naufrage dans l’océan AtlantiqueNord en 1912 à la suite d’une collision avec un iceberg, lors de son voyage inaugural de Southamptonà New York. C’est l’une des plus grandes catastrophes maritimes survenues en temps de paix et la plusgrande pour l’époque.

15

Ce paquebot de la White Star Line, construit à l’initiative de JosephBruce Ismay en 1907, a été conçu par les architectes Alexander Mont-gomery Carlisle et Thomas Andrews des chantiers navals Harland &Wolff. Sa construction débute en 1909 à Belfast et se termine en1912. C’est à l’époque le plus luxueux et le plus grand paquebot jamaisconstruit. Le Titanic est dirigé par le Capitaine Edward Smith, qui aégalement sombré avec le navire. Le paquebot portait certains des gensles plus riches de l’époque, de même que des centaines d’émigrants deGrande-Bretagne et d’Irlande et d’ailleurs en Europe qui cherchaientune nouvelle vie aux États-Unis.

Le 14 avril 1912, quatre jours après le commencement de son voyage inaugural, il heurte un iceberg à23 h 40 (heure locale) et coule le 15 avril 1912 à 2 h 20 au large de Terre-Neuve. Le drame met enévidence l’insuffisance des règles de sécurité de l’époque, notamment le nombre insuffisant de canots desauvetage et les carences dans les procédures d’évacuation d’urgence.

L’épave du Titanic est localisée le 1er septembre 1985 par le professeur Robert Ballard. Elle gît à 3 843mètres de profondeur à 650 km au sud-est de Terre-Neuve. L’histoire du paquebot a marqué les mémoires,et suscité la publication de nombreux ouvrages (historiques ou de fiction) et la réalisation de longs métragesdont le film du même nom Titanic de James Cameron, sorti en 1997 et ayant entraîné un important regaind’intérêt pour le paquebot et son histoire.

Source : D’après https://fr.wikipedia.org/wiki/Titanic

Partie A — Exploration du fichier des passagers

Question 1 : Ouvrir le fichier « titanic.csv∗ » à l’aide du programme Python suivant (le fichier CSV

doit être dans le même dossier que le programme Python). Ce fichier contient de nombreuses données surcertains passagers du Titanic (les membres d’équipage n’y figurent pas). Elles sont toutes stockées dansla variable data.

import matplotlib.pyplot as plt

import pandas

data = pandas.read_csv(’titanic.csv’, sep = ’;’)

Les données sont stockées à la suite les unes des autres, simplement séparées par un séparateur qui estle symbole . . . . . . . . . . . . . En écrivant simplement le nom de la variable data, il s’affiche son contenu :comment les données sont-elles organisées ?Éléments de réponse : Les données sont organisées sous forme d’un tableau de 1 309 lignes et de 6colonnes.

Question 2 : Chaque colonne est identifiée par un descripteur. Quels sont-ils ? Que permettent-ils ?Éléments de réponse : Il existe 6 descripteurs dans ce fichier : classe, survie, nom, sexe, âge, tarif.Ils permettent d’organiser les données et de faire un tri selon les choix de celui qui a élaboré le fichier.

Question 3 : Chaque ligne du fichier correspond à un objet. Pour chaque objet, on a donc les valeurspour chaque descripteur. Elles sont de différents types en Python et on peut les afficher avec la commandedata.dtypes.• Pour le descripteur « sexe », à quoi correspond la valeur « 1 » ?

Éléments de réponse : 1 correspond à un homme.• Pour le descripteur « tarif », à quoi correspond la valeur indiquée pour chaque objet ?

Éléments de réponse : C’est le tarif en £ payé par chaque passager. Certaines données peuvent êtremanquantes mais cela n’empêche pas de traiter le reste.

16

• Pour le descripteur « survie », à quoi correspondent la valeur « 0 » et la valeur « 1 » ?Éléments de réponse : 0 correspond à un décès lors du naufrage, 1 à la survie.

À l’aide de la commande data.loc[numéro de l’objet], choisir un objet du fichier et rédiger un textefaisant référence aux descripteurs qui montre votre compréhension de l’organisation du fichier de donnéesstructurées.

Éléments de réponse : 0 correspond à un décès lors du naufrage, 1 à la survie.

Partie B — Exploitation basique des données

Question 4 : À l’aide de la commande data.describe(), déterminer l’âge moyen des passagers, le tarifmoyen payé et le tarif le plus élevé qui a été payé.

Éléments de réponse : L’affichage permet d’avoir la moyenne (mean), l’écart-type (std), les valeurs mini-males et maximales, la médiane et les quartiles. Certaines valeurs n’ont aucun intérêt et sont inexploitables(moyenne de la classe par exemple).L’âge moyen des passagers était de 30 ans environ, le tarif moyen était de 33£ et le tarif maximal de512£.

Question 5 : Déterminer l’écart interquartile des tarifs. Quelle(s) interprétation(s) peut-on en donner ?Éléments de réponse : Il vaut 23£ ce qui montre qu’environ la moitié des passagers ont payé un billet avecun écart de prix de 23£. La dispersion semble être faible... ce qui est trompeur car les valeurs extrêmesne sont pas prises en compte !

17

Question 6 : Il est possible de représenter graphiquement certaines données à l’aide des commandessuivantes.

data.hist(column = ’tarif’, figsize = (9,6), bins = 10)

plt.show()

Éléments de réponse : On remarque le fort déséquilibre des tarifs payés sur le Titanic, témoin des fortesinégalités sociales des passagers !

Partie C — Exploitation plus fine des données

Question 7 : Quelle est la moyenne des données du descripteur « survie » ? On peut utiliser les donnéesprécédemment acquises ou utiliser simplement la commande data[‘survie’].mean().Quelle interprétation peut-on en donner ?

Éléments de réponse : On peut donc en conclure que 38 % environ des passagers ont survécu au naufrage...et donc 62 % des passagers ont péri ce qui explique le fort écho médiatique qu’a eu ce naufrage.Remarque : il est tout à fait possible d’élaborer un programme pour calculer la moyenne des données dela liste data[‘survie’], il peut prendre la forme suivante pour éviter de manipuler les index.

18

Question 8 : Il n’y avait pas suffisamment de places dans les canots de sauvetage du Titanic pour tousles passagers et les membres de l’équipage (et certains canots sont partis à peine remplis). On souhaiteexaminer l’influence de la classe sociale des passagers sur l’obtention d’une place sur un canot de sauvetage.On va donc extraire les données groupées par « classe » et afficher la moyenne des données numériquescorrespondant aux différents descripteurs.

gr1 = data.groupby([’classe’]).mean()

gr1

Déterminer la fréquence de survie pour chaque classe. Que peut-on en conclure ?

Éléments de réponse : Il y a de fortes disparités selon la classe : 62% de survivants en 1ère classe, 43%en 2nde classe et seulement 26% en 3ème classe.

Question 9 : Dans le film de James Cameron, lors de l’évacuation du Titanic, on voit que les femmesembarquent davantage sur les canots que les hommes. On peut donc supposer que la fréquence de surviepour les femmes a été supérieure à celle des hommes... Est-ce la réalité ? Répondre en adoptant unedémarche similaire à celle utilisée à la question 8.

Éléments de réponse : Seulement 19 % des hommes ont survécu au naufrage alors que 73 % des femmesont survécu (toutes classes confondues). L’illustration de James Cameron est donc fidèle à la réalité, lescanots étaient essentiellement composés de femmes.

19

Question 10 : La fréquence de survie chez les femmes a-t-elle été indépendante de la classe dans laquellevoyageaient les passagères ? Pour répondre à cette question, extraire les données comme précédemmenten indiquant deux descripteurs « classe », « sexe » pour pouvoir faire un deuxième tri.

Éléments de réponse : Là encore, les inégalités sont très fortes selon la classe. Alors que 49 % des femmesde 3ème classe vont survivre, 89 % des femmes de 2nde classe et 97 % des femmes de 1ère classe vontsurvivre ! Les canots de sauvetage étaient donc essentiellement composés de passagères de 1ère et 2èmeclasse. . .

Partie D — À vous de jouer !

Le site institutionnel français data.gouv.fr est la plate-forme ouverte des données publiques françaises.Elle permet de télécharger de très nombreuses données structurées et de les traiter ensuite.Télécharger sur le site data.gouv.fr un fichier de données (au format CSV) de votre choix. Le présenter etexpliquer quels en sont les objets et les descripteurs. À l’aide du programme Python et en vous inspirant dela situation étudiée avec le Titanic, manipuler les données afin d’en extraire de l’information (commencerpar un exemple d’exploitation basique et ensuite poursuivre avec un exemple d’exploitation plus fine deces données). Rédiger l’ensemble en l’agrémentant de captures d’écran.Éléments de réponse : Ce travail permet de réaliser une évaluation de la compréhension de la structured’un fichier de données type CSV, des opérations simples sur les objets et les valeurs selon les descripteurs.L’extraction d’informations et leur interprétation sont également évaluées. Le travail demandé peut êtreréalisé en groupe afin de faire émerger que chaque élève peut extraire des informations différentes à partirdu même fichier.

20

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : Alexis Lecomte

Les données

structurées etleur traitement

Tableur et fichier CSV Fiche élève

Etude d’un exemple :

Objectif : réaliser un document numérique présentant les réponses aux ques-tions posées.

Vous trouverez, dans votre casier de l’ENT, le fichier « Eleves_etablissement » au format CSV conte-nant des informations administratives sur les élèves d’un lycée d’environ 1 000 élèves (datées de débutseptembre).Télécharger ce fichier et l’ouvrir avec un tableur en prenant garde au choix du séparateur.

1. Sachant qu’un objet est, ici, un élève, citer dans votre document quelques-uns des descripteurs présentsdans ce fichier.

2. Combien d’élèves sont représentés dans ce fichier ? Est-ce cohérent avec le nombre d’élèves de celycée ? Si non, trouver comment adapter le fichier pour régler cette question (étape à valider auprès del’enseignant).Résumer la méthode choisie dans votre document.

3. A l’aide des possibilités de filtres, afficher uniquement les élèves suivant Allemand en LV2 (trouver deuxméthodes différentes à expliquer dans votre document).

4. Supprimer ce filtre afin de retrouver l’ensemble des élèves. En se documentant sur la fonction NB.SI

(ou COUNTIF en anglais), utiliser le tableur pour calculer le nombre d’externes et le nombre de demi-pensionnaires puis réaliser un diagramme circulaire pour visualiser la répartition.Copier, dans votre document, les éléments pouvant servir à présenter la méthode.

5. Ce fichier ne contient ni nom, ni prénom, ni adresse. Si l’un de ces éléments avait été présent, est-ceque cela aurait été autorisé par la loi ? Faire une recherche sur la RGPD pour argumenter la réponse,en présentant ce qu’est une donnée personnelle.

21

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : Alexis Lecomte

Les données

structurées etleur traitement

Tableur et fichier CSV Fiche professeur

Contenus et capacités

Contenus Capacités attendues

Données structurées Identifier les différents descripteurs d’un objet.Distinguer la valeur d’une donnée de son descripteur.

Traitement de données structurées Réaliser des opérations de recherche, filtre, tri ou calculsur une ou plusieurs tables.

Exemple d’activités

Explorer les données d’un fichier CSV à l’aide d’opérations de tri et de filtre, effectuer des calculs surces données, réaliser une visualisation graphique des données.

Modalités

Une séance d’1h en salle informatique.

Descriptif

On fournit aux élèves un fichier CSV récupéré auprès de l’administration avec les données des élèves (ouauprès du collègue administrateur du réseau). Celui-ci est soigneusement anonymé afin de ne pas pouvoiridentifier des élèves (suppression des champs nom, prénom, date de naissance, adresse. . .)En général, en début d’année, ce fichier contient encore des données des anciens élèves (ce qui estpédagogiquement intéressant).

On peut toujours utiliser « Eleves_etablissement.csv∗ ». On veillera à tester l’ouverture du fichier CSV, enamont de la séance, pour vérifier que celui-ci laisse bien le choix à l’utilisateur du séparateur des données. . .

Les consignes sont relativement ouvertes pour laisser place à la recherche (dans les menus ou sur Internet)sur les techniques de tris et de filtre des tableurs.La dernière question est une ouverture sur le RGPD qui permet notamment d’occuper les élèves les plusrapides sur le sujet.La restitution peut faire l’œuvre d’un petit exposé oral (présentation du diagramme, des techniques de triet de filtre, de la RGPD).

22

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : Alexis Lecomte d’après Stéphan Van Zuijlen

Les données

structurées etleur traitement

Usage de Python pour traiter degrandes quantités de données

Fiche élève

Objectif :

A partir du fichier « etablissement.csv∗ » (de 12 Mo, donc usage à éviter avec un tableur classique) et enutilisant l’aide technique (voir ci-dessous), récupérer certaines informations concernant votre lycée.

1. Trouver la liste des descripteurs (présents comme souvent sur la première ligne du fichier) et les noterci-dessous :

2. Trouver les valeurs des données correspondantes à votre établissement et afficher à l’aide de Python,un texte de la forme « Notre établissement est le ... , c’est un lycée ... et il se situe au ... ». Les pointillésdevront être remplacés par des données issues du fichier.

Aide technique :

On commence par importer le module csv de Python :

from csv import *

import codecs

Ces deux lignes permettent de stocker dans la variable « contenu » l’ensemble du fichier csv :

f=open(‘etablissements.csv’, ‘rb’)

contenu = reader(codecs.iterdecode(f, ‘utf-8’))

Enfin, on peut parcourir chaque ligne de la variable contenu en utilisant la boucle :

for ligne in contenu :

Et la variable ligne sera alors une liste dont les éléments sont les différentes valeurs des données d’unétablissement.

Pour réussir le second objectif, vous aurez besoin de connaître le numéro UAI de votre lycée, le demanderà votre enseignant.

23

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : Alexis Lecomte d’après Stéphan Van Zuijlen

Les données

structurées etleur traitement

Usage de Python pour traiter degrandes quantités de données

Fiche professeur

Contenus et capacités

Contenus Capacités attendues

Données structurées Identifier les différents descripteurs d’un objet.Distinguer la valeur d’une donnée de son descripteur.

Traitement de données structurées Réaliser des opérations de recherche, filtre, tri ou calculsur une ou plusieurs tables.

Exemple d’activités

Observer les différences de traitements possibles selon le logiciel choisi pour lire le fichier : programmePython, tableur, éditeur de textes ou encore outils spécialisés en ligne.

Modalités

Une séance d’1h en salle informatique.

Descriptif

Cette activité fait suite à une activité d’usage du tableur sur le tri et le filtre des données. Le fichier« etablissement.csv∗ » étant d’une taille importante (12 Mo), l’idée est d’initier les élèves aux traitementsde données en grande quantité et de leur montrer qu’il n’est pas pertinent d’ouvrir le fichier avec untableur pour le visualiser en entier. . .

On cherchera donc à utiliser Python pour afficher uniquement les données qui nous intéressent.Comme précisé dans la fiche élève, on commence par donner aux élèves les lignes permettant de créer unevariable « contenu » stockant les informations du fichier CSV (ces lignes n’ont pas grand intérêt dans lecadre du programme SNT).

from csv import *

import codecs

f = open("etablissements.csv","rb")

contenu = reader(codecs.iterdecode(f, "utf-8"))

24

Comme le stipule le programme, on peut utiliser cette activité pour utiliser de façon pertinente les fonctionsPython.Pour l’obtention des descripteurs, on peut envisager d’obtenir cette fonction :

def extraction():

k = 0

for ligne in contenu :

if k == 0:

return ligne

k = k+1

On pourra modifier cette fonction pour obtenir les informations de la seconde question :

def extraction(UAI):

k = 0

for ligne in contenu :

if ligne[0] == UAI:

return ligne

k = k+1

Il suffira ensuite d’appeler en console la fonction de la manière ci-dessous pour le premier cas :

extraction()

Dans le second cas, on procédera de la manière ci-dessous :

liste_informations = extraction(’0760029U’)

On peut alors utiliser liste_informations de la façon suivante pour terminer le travail :

print("Notre établissement est le ", liste_informations[1], ".")

print("C’est un lycée ", liste_informations[4], ".")

print("Il se situe au ", liste_informations[5])

print(liste_informations[8], liste_informations[9], ".")

Pour un code plus propre, on pensera à la fin à fermer le fichier :

f.close()

25

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : Jean-Michel Garnier

Les données

structurées etleur traitement

Prise en main de Khartis Fiche élève

Objectif :

Khartis est un projet open source de Sciences Po - Atelier de cartographie.Le but est de visualiser des données CSV sur un fond de carte.On peut aussi importer des données CSV dans Khartis pour obtenir une carte au format PNG.Khartis s’utilise en ligne ou est téléchargeable 1.

1. Chargement de données ou utilisation des données pré-existantes

Préambule : qu’est ce que l’IDH ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1. Aller sur le site de Khartis 2.

2. Choisir « Utiliser en ligne » puis « Monde ».3. Utiliser les données test (on pourra aussi glisser-déposer un

fichier CSV récupéré sur www.data.gouv.fr dans le TP 2).

4. Choisir l’IDH, valider avec « Suivant » puis cliquersur « Ajouter une visualisation ».

5. Choisir « couleurs ordonnées ».

1. https://www.sciencespo.fr/cartographie/khartis/#download2. https://www.sciencespo.fr/cartographie/khartis/

26

6. Sélectionner « Regrouper les données en classes ».7. Choisir une variable : IDH_2014.

Pour « Discrétisation », choisir « quantiles » (avec 4 classes).

2. Exportation de la carte au format PNG

Passer à l’exportation de la carte (avec la possibilité d’ajouter un titre).Vous devriez obtenir une carte, comme ci-dessous, que vous pouvezenregistrer dans vos documents.

Citer des pays dont l’IDH est supérieur au troisième quartile (Q3).Citer des pays dont l’IDH est inférieur au premier quartile (Q1).

27

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : Jean-Michel Garnier

Les données

structurées etleur traitement

Utilisation de données publiques etinterprétation avec Khartis

Fiche élève

Prérequis : notions d’objet et de descripteur

1. Recherche des données

1. Rechercher, sur Internet, le site www.data.gouv.fr.C’est une plate-forme ouverte de données publiques.Qu’est-ce que l’open data ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Sur ce site, chercher des données sur les lieux culturels en Normandie.Télécharger, depuis ce site et dans votre répertoire de travail, le fichier « lieux culturels en Normandie »au format CSV. Pour cela, taper textuellement dans le moteur de recherche de ce site : lieux culturelsen Normandie (sans cliquer sur le lien qui se présente, en cours de saisie) et valider ensuite.

3. Dans un tableur (comme Calc de LibreOffice), ouvrir « lieux culturels en Normandie.csv ».

Pour éviter les problèmes de police et de sépa-ration de données, choisir « Unicode (UTF-8) »,« Par défaut Français », séparé par « Point-virgule » et décocher « Espace » si nécessaire.

4. Réenregistrer ce fichier au format ods : (« En-registrer sous / lieux culturels en Norman-die.ods »).

28

2. Exploitation des données

1. Un objet est ici un lieu culturel, citer quelques-uns des descripteurs présents dans ce fichier.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Combien de lieux sont représentés dans ce fichier ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3. À l’aide des possibilités de filtres, afficher uniquement les lieux correspondant à « patrimoines » (des-

cripteur « SOUS-DOMAINE »).

Via « Filtre standard » :

Via « Autofiltre » :

Citer le dernier élément de cette liste filtrée : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Comment filtrer les lieux de patrimoine situés dans le département de l’Eure ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Comment filtrer les lieux de patrimoine situés dans le département de l’Eure correspondant à desmusées ?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4. Supprimer ces filtres afin de retrouver l’ensemble des lieux.En utilisant la fonction « NB.SI », utiliser le tableur pour calculer le nombre de cinémas en Normandie(descripteur « SECTEUR »).

Quel est le nombre de cinémas ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

3. Interprétation avec Khartis

Khartis est un projet open source de Sciences Po - Atelier de cartographie.On peut importer des données CSV dans Khartis pour obtenir une carte au format PNG.Khartis s’utilise en ligne ou est téléchargeable 3.1. Aller sur le site de Khartis 4.

2. Choisir « Utiliser en ligne » puis France > communes2016 > Normandie.

3. Glisser-déposer le fichier CSV « lieux culturels en Normandie.csv ».

4. Ajouter une visualisation > Symboles différents.

5. Choisir comme variable : « Domaine » (la colonne C du tableur) ; ne garder que la rubrique« LivresArtsPlasCinéma ».

6. Exporter la carte obtenue au format PNG (taille normale) comme ci-dessous.

7. Interprétation de la carte.Citer les deux départements où l’implantation est uniforme : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Citer des zones à forte densité culturelle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Quel département semble être culturellement sous-doté ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. https://www.sciencespo.fr/cartographie/khartis/#download4. https://www.sciencespo.fr/cartographie/khartis/

30

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : Jean-Michel Garnier

Les données

structurées etleur traitement

TP1 : Prise en main de Khartis

TP2 : Utilisation de donnéespubliques et interprétation avec

Khartis

Fiche professeur

Contenus et capacités

Contenus Capacités attendues

Données structurées Utiliser un site de données ouvertes, pour sélectionner et récupérerdes données.

Traitement de données structurées Réaliser des opérations de recherche, filtre, tri ou calculsur une ou plusieurs tables.

Exemple d’activités

Observer les différences de traitements possibles selon le logiciel choisi pour lire le fichier : programmePython, tableur, éditeur de textes ou encore outils spécialisés en ligne.

Modalités

Classe entière ou demi-classe, un ordinateur connecté à Internet pour 2 élèves.

Descriptif

Le TP 1 (Prise en main de Khartis) est une introduction au logiciel Khartis, projet open source de SciencesPo - Atelier de cartographie. Les élèves vont utiliser des données directement mises à disposition par lesite (l’IDH) pour obtenir une carte au format PNG.

Khartis s’utilise en ligne ou est téléchargeable 5. Si, parmi les données, il y a des longitudes et des latitudes,elles sont reconnues instantanément et les points sont placés sur le fond de carte choisi.

Dans le TP 2 (Utilisation de données publiques et interprétation avec Khartis), les élèves vont travailleravec des données ouvertes, les traiter, les trier puis les importer sous le format CSV dans Khartis.

5. https://www.sciencespo.fr/cartographie/khartis/#download

31

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : Laurent Cournil

Données

structurées

Étude des températures en Francedepuis 1996 — 1

ère partieFiche élève

Partie A — Données publiques de Météo France

1. Aller sur le site : https://donneespubliques.meteofrance.fr/, onglet « Données libres d’accès ».Rechercher alors la page « Données SYNOP essentielles OMM », et sélectionner dans cette page« Téléchargement de données archivées ».Sélectionner un mois et une année, télécharger le fichier correspondant.Ne pas fermer la fenêtre lorsque le fichier est téléchargé, mais copier-coller l’adresse URL de la pageen question dans Notepad++ (ou tout autre éditeur de texte) ; cela doit ressembler à :

https://donneespubliques.meteofrance.fr/?fond=donnee_libre

&prefixe=Txt%2FSynop%2FArchive%2Fsynop&extension=csv.gz&date=200708

2. En comparant l’adresse URL saisie à la question précédente, et celle ci-dessus, identifier :• le nom de domaine ;• les 4 variables passées au serveur pour qu’il délivre la page souhaitée.

3. Préciser ce qu’il faudrait changer dans cette adresse pour accéder aux données SYNOP de décembre1997.

Partie B — Exploration du fichier téléchargé

1. Décompresser le fichier téléchargé, et récupérer le fichier CSV contenant les données.Ouvrir ce fichier avec LibreOffice Calc (ou tout autre tableur).Un formulaire de mise en forme est proposé ; le point important à paramétrer est « l’option de sépara-teur ».Faire des essais, jusqu’à ce que les données semblent « bien rangées » dans l’aperçu. Valider alorsl’ouverture du fichier.Préciser sur papier quel séparateur est adapté ici, et quel est son rôle.

2. En annexe sont listés :• certains des « descripteurs » du fichier de données. On retrouve ces descripteurs dans la première

ligne du fichier ;• les indicatifs de quelques stations qui ont produit les enregistrements.

Dans le fichier de données ouvert dans le tableur, choisir une ligne correspondant à une station référencéeen annexe.Expliciter les valeurs correspondant aux descripteurs de l’annexe, à la façon d’un bulletin météo pourle grand public : « Dans la station météo de . . ., le . . ., la pression. . . »Petite aide sur une unité : le Kelvin est l’unité internationale de température.Zéro Kelvin correspond à −273, 15 degrés Celsius : c’est le « zéro absolu ».

3. Chaque ligne du fichier de données correspond à un « objet », identifié de façon unique.Cet objet n’est pas la station qui a fait les mesures, puisqu’elle apparaît dans plusieurs lignes.Définir précisément ce qu’est un « objet » dans ce fichier.

32

4. Dans cette question, on se propose d’utiliser les filtres : « Données / Autofiltre ».a) Dans la colonne des stations, désélectionner « Tout », puis cocher une seule

station au choix (voir exemple ci-contre).Préciser quelle est la périodicité des observations, dans cette station.Vérifier si les autres stations ont la même périodicité d’observation.

b) Choisir à nouveau une station. Préciser les températures minimale et maximalerelevées par votre station, le 23 du mois, et les heures de ces relevés.

c) Toujours dans cette station, préciser les températures minimale et maximale surle mois, et les dates et heures de ces relevés.

Partie C — Exploitation basique des données

1. Pour la station choisie, copier-coller les dates et les températures dans un nouveau fichier tableur deLibreOffice, colonnes A et B.À l’aide de « Édition / Rechercher & remplacer », remplacer les points (« . ») par des virgules (« , »).

Séparateurs décimauxDans le monde anglo-saxon, le séparateur décimal est le point :1015.23 veut dire mille quinze virgule vingt-trois.C’est ce standard que l’on retrouve dans tous les logiciels de calcul et de programmation :Python, calculatrices. . .En France, le séparateur décimal est la virgule. Les logiciels « grand public » comme lestableurs, les traitements de texte, configurés pour un usage selon les normes françaises,interprètent donc mal les nombres utilisant le point comme séparateur décimal : ils lesvoient comme des chaînes de caractères.

2. À l’aide des filtres, ou plus simple avec « Données / Trier », classer les deux colonnes selon l’ordrecroissant des dates.Dans la colonne C, calculer, en utilisant les fonctions du tableur listées en annexe :a) la température moyenne du mois ;b) les températures moyennes de quelques jours ;c) les conversions de ces températures en degrés Celsius.Écrire sur papier les résultats obtenus, sans oublier de préciser le contexte : dates et heures. . .

33

Annexe

Paramètres inclus dans les fichiers de données SYNOP (extrait)car : caractère ASCII, int : nombre entier, réel : nombre réel (avec décimale).mq : donnée manquante.

Descriptif Mnémonique type unité

Indicatif OMM station numer_sta car

Date (UTC) date car AAAAMMDDHHMISS

Pression au niveau mer pmer int Pa

Variation de pression en 3 heures tend int Pa

Direction du vent moyen 10 mn dd int degré

Vitesse du vent moyen 10 mn ff réel m/s

Température t réel K

Nebulosité totale n réel %

Pression station pres int Pa

Hauteur totale de la couche de neige, glace, autre, au sol ht_neige réel m

Indicatifs et positions de quelques stations

ID Nom Latitude Longitude Altitude

07005 ABBEVILLE 50.136000 1.834000 69

07015 LILLE-LESQUIN 50.570000 3.097500 47

07020 PTE DE LA HAGUE 49.725167 -1.939833 6

07027 CAEN-CARPIQUET 49.180000 -0.456167 67

07037 ROUEN-BOOS 49.383000 1.181667 151

07072 REIMS-PRUNAY 49.209667 4.155333 95

07110 BREST-GUIPAVAS 48.444167 -4.412000 94

07558 MILLAU 44.118500 3.019500 712

07577 MONTELIMAR 44.581167 4.733000 73

07591 EMBRUN 44.565667 6.502333 871

07607 MONT-DE-MARSAN 43.909833 -0.500167 59

61976 TROMELIN -15.887667 54.520667 7

61980 GILLOT-AEROPORT -20.892500 55.528667 8

61996 NOUVELLE AMSTERDAM -37.795167 77.569167 27

61997 CROZET -46.432500 51.856667 146

61998 KERGUELEN -49.352333 70.243333 29

81415 MARIPASOULA 3.640167 -54.028333 106

89642 DUMONT D’URVILLE -66.663167 140.001000 43

Quelques fonctions tableur

• Une plage de cellules, de A1 à D20 par exemple : A1:D20

• Moyenne des valeurs des cellules A1 à D20 : =MOYENNE(A1:D20)

• Maximum des valeurs des cellules A1 à D20 : =MAX(A1:D20)

• Il existe aussi une fonction MIN.

34

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : Laurent Cournil

Données

structurées

Étude des températures en Francedepuis 1996 — 2

e partieFiche élève

Partie A — Extraction de données

La bibliothèque Python « csv » permet de lire dans un fichier de données comme celui ci-dessous (extraitd’un fichier de données météorologiques SYNOP).Le TP précédent et ses annexes peuvent être utiles.

numer_sta ; date ; pmer ; tend ; cod_tend ; dd ; ff ; t ; td ;

07005 ; 20030801000000 ; 101990 ; -30 ; 8 ; 140 ; 3.100000 ; 286.550000 ; 285.650000 ;

07577 ; 20030805180000 ; 101720 ; -30 ; 5 ; 190 ; 2.100000 ; 310.450000 ; 285.850000 ;

07149 ; 20030809060000 ; 101940 ; 110 ; 3 ; 70 ; 3.100000 ; 296.350000 ; 292.750000 ;

07481 ; 20030811120000 ; 101630 ; -60 ; 8 ; 360 ; 3.100000 ; 308.550000 ; 286.150000 ;

07005 ; 20030815210000 ; 101830 ; 110 ; 3 ; 60 ; 7.200000 ; 290.150000 ; 282.350000 ;

Principe de lecture

Le fichier est ouvert et représenté par une variable spéciale, nommée lecteur.La première ligne, par convention, contient les descripteurs des données.Chaque ligne est ensuite appelée « objet ».Les objets sont « lus » un par un, grâce à une boucle Pour : for objet in lecteur

Quand on lit un objet, celui-ci se comporte comme une liste :

objet[0], objet[1]. . .

Mise en pratique

1. En utilisant les principes décrits ci-dessus, dire les données contenues dans :a) objet[0], lors de la première itération de la boucle Pour.b) objet[7], lors de la première itération de la boucle Pour.c) objet[0], lors de la deuxième itération de la boucle Pour.d) objet[7], lors de la quatrième itération de la boucle Pour.

2. D’après l’extrait de fichier ci-dessus, préciser le nombre d’itérations nécessaires pour obtenir la tempé-rature 290,15 K.Préciser dans quelle station cette température est atteinte, et à quelles date et heure.Convertir cette température en degrés Celsius.

35

Partie B — Que faire de données extraites ?Une fonction Python appliquant les principes de la partie A a extrait les températuresrelevées par la station de Rouen, ainsi que les dates de ces relevés.Pour simplifier la lecture, les températures ont été converties en degrés Celsius, et lesdates sont au format AAAAMMJJHH.Les données sont contenues dans deux listes : dates et temp. Les débuts de ces deuxlistes sont présentés ci-contre.

1. a) On suppose qu’aucune donnée n’est manquante. Préciser quelle est alors lalongueur de ces deux listes.

b) L’instruction len(dates) renvoie en réalité : 246. Interpréter ce résultat.

2. On dispose d’une fonction Python temp_jour :• dont les arguments sont la liste des dates (D), la liste des températures (T), et

un jour (j) au format AAAAMMJJ ;• qui renvoie la liste des températures relevées ce jour-là.

a) Préciser ce que renvoie : temp_jour(dates , temp , 20030805).b) Calculer la moyenne des températures relevées ce jour-là.c) Rédiger une fonction Python moyenne dont l’argument est une liste de nombres

et qui renvoie la moyenne de cette liste.

3. La fonction Python ci-dessous a pour but de tracer la courbe des températuresmoyennes quotidiennes du mois écoulé.

1 def temp_moy_quot(D,T):

2 jour_debut = D[0]//100

3 jour_fin = D[-1]//100

4 jours = []

5 temp_quotidienne = []

6 for j in range(jour_debut,jour_fin+1):

7 # extraction de la liste des

8 # températures du jour j

9 Tj = ........

10 if Tj != []:

11 jours.append(j)

12 temp_quotidienne.append(........)

13 plt.plot(jours , temp_quotidienne , "b-")

a) Expliquer comment les deux premières lignes de la fonction permettent d’obtenirle premier et le dernier jours du mois.

b) À la ligne 9, la variable Tj doit recevoir la liste des températures du jour j.Compléter cette ligne à l’aide de la question 2.

c) Préciser l’utilité du test : if Tj != [], ligne 10.d) Finir de compléter cette fonction pour qu’elle remplisse son objectif.e) Envisager les modifications nécessaires pour tracer les courbes des températures

minimale et maximale quotidiennes.

dates temp

[2003080100,2003080103,2003080106,2003080109,2003080112,2003080115,2003080118,2003080121,2003080200,2003080203,2003080206,2003080209,2003080212,2003080215,2003080218,2003080221,2003080300,2003080303,2003080306,2003080309,2003080312,2003080315,2003080318,2003080321,2003080400,2003080403,2003080406,2003080409,2003080412,2003080415,2003080418,2003080421,2003080500,2003080503,2003080506,2003080509,2003080512,2003080515,2003080518,2003080521,2003080600,2003080603,2003080606,2003080609,2003080612,2003080615,2003080618,2003080621,2003080700,2003080703,2003080706,2003080709,2003080712,2003080715,2003080718,2003080721,2003080800,2003080803,2003080806,2003080809,2003080812,2003080815,2003080818,2003080821,2003080900,2003080903,2003080906,2003080909,2003080912,2003080915,2003080918,2003080921,. . .]

[13.7,12.9,14.8,21.0,25.3,27.6,23.9,18.5,14.6,14.0,15.5,18.3,25.7,28.1,23.5,18.6,16.9,16.1,17.2,24.4,29.1,31.6,29.1,23.9,21.8,19.9,20.8,28.1,31.7,33.2,32.0,25.0,24.0,20.6,20.6,28.6,33.4,35.1,32.6,26.9,24.6,21.6,22.7,29.6,35.0,33.8,28.9,22.9,19.1,17.3,17.5,22.3,29.1,31.3,26.8,20.8,18.8,17.9,18.8,25.9,29.9,32.0,29.3,22.7,20.6,19.0,19.3,26.2,32.0,34.1,32.9,25.2,. . .]

36

Partie C — Programmation

Dans l’ENT, partie « espace des groupes », récupérer le fichier « temperature.ipynb∗ » et le recopierdans votre espace personnel.Faire de même avec un fichier au choix de données SYNOP.Ouvrir alors le fichier « temperature.ipynb » :• examiner les fonctions déjà fournies et les commentaires associés, extraire les données du fichier SY-

NOP ;• certaines fonctions Python sont incomplètes : les compléter, puis tracer les graphiques évoqués en fin

de partie B.

37

Sciences numériques et technologieAcadémie de Rouen — Formations 2019

Auteur : Laurent Cournil

Données

structurées

Étude des températures en Francedepuis 1996

Fiche professeur

Contenus et capacités

Contenus Capacités attendues

Données structurées Identifier les différents descripteurs d’un objet.Distinguer la valeur d’une donnée de son descripteur.Utiliser un site de données ouvertes.

Traitement de données structurées Réaliser des opérations de recherche, filtre, tri ou calcul surune ou plusieurs tables.

Modalités

Deux séances d’1h30 chacune.• Première séance : classe entière ou demi-classe, un ordinateur connecté à Internet pour 2 élèves. Un

compte-rendu de TP est à rédiger et à rendre en fin d’heure.• Seconde séance : Les parties A et B peuvent être réalisées en mode « débranché », cependant il serait

dommage de renvoyer la partie C à une autre séance.Vu la partie C (programmation), mieux vaut être en demi-classe. Cependant les élèves peuvent toujourstravailler en binôme.Chaque binôme dispose d’un ordinateur et d’une connexion à l’ENT de l’établissement, sur lequelJupyter Notebook est disponible.Sinon, il faudra adapter le fichier « temperature.ipynb∗ » en séparant le texte des fonctions Python.La partie texte pourrait alors être complétée sur papier.Comme pour la première séance, un compte-rendu de TP est rédigé et relevé.Les élèves renvoient le fichier temperature.ipynb complété au professeur.

Descriptif

Séance 1 : tableur

Objectif : découvrir à la fois le type de fichier csv, la structuration des données (descripteurs, objets. . .),et les fonctionnalités de tri d’un tableur.

Remarque 1 : mieux vaut avoir préparé des téléchargements en amont des fichiers csv, pour éviter leséventuels problèmes techniques (échec de téléchargement, de décompression. . .).

Remarque 2 : dans la partie A, la question 2 concernant les variables passées à un script via une adressede site peut être un rappel de notions vues précédemment. Sinon, il est possible de détailler cette notionde variable, soit en direct au tableau, soit en détaillant les questions.

38

Séance 2 : extraction et traitement de données avec Python

Objectif : utiliser la bibliothèque Python « csv » pour extraire des données d’un fichier, puis pour réaliserdes calculs statistiques et des représentations graphiques (courbes de températures).

Fichier de programmation et de compte-rendu : temperature.ipynb∗

Fichier de programmation seul, avec « trous » à compléter : temperature.py∗

Fichier exemple, complété :• temperature_clermont.ipynb∗

• temperature_clermont_temporaire.ipynb∗ (seul complètement fonctionnel au printemps 2019 ;voir encadré ci-dessous).

Jupyter Notebook

Au printemps 2019, sur l’ENT de l’académie de Rouen, Jupyter Notebook permet de pro-grammer en Python tout en associant des commentaires, des parties rédigées. C’est un bonsupport pour des compte-rendus de TP informatique. Les fichiers Jupyter portent l’extensionipynb, et on peut exporter ces fichiers au format Python classique (extension py), tout ce quin’est pas programme Python étant alors commenté.

Une des limitations de Jupyter dans l’ENT est l’impossibilité de traiter des fichiers, comme lescsv de ce TP. Ceci devrait évoluer pour la rentrée 2019, avec le passage à JupyterLab.

En attendant, il est possible de télécharger les fichiers csv, s’ils sont disponibles sur Internet :c’est ce qui est fait dans le fichier temperature_clermont_temporaire.ipynb.

Pour une utilisation en Python classique (Edupython, Pyzo, Idle. . .), le fichiertemperature.py∗ reprend les fonctions du fichier temperature.ipynb.

Variantes possibles

2e séance, partie A : autour de la fonction extraction_temperatures_station

La bibliothèque Python « csv » propose deux types de « lecteurs » : reader et DictReader.Le premier permet de considérer chaque objet comme une liste classique : objet[0], objet[1]. . . C’estcelui qui est utilisé dans l’activité.Le second fonctionne sur le modèle du dictionnaire. Voici ce que serait la fonction l’utilisant.

1 def extraction_temperatures_station(fichier_source,station):

2 fichier = open(fichier_source,"r")

3 lecteur = DictReader(fichier,delimiter=";")

4 D = []

5 T = []

6 for objet in lecteur:

7 if objet["numer_sta"]==station and objet["t"]!="mq":

8 date = int(objet["date"])//10**4

9 temp = round(float(objet["t"])-273.15,2)

10 D.append(date)

11 T.append(temp)

12 return D,T

Les valeurs renvoyées après lecture du fichier csv sont des chaînes de caractères, qu’il faut convertir sibesoin est en valeurs numériques : c’est le rôle des fonctions int et float, lignes 8 et 9.

39

Pour prolonger la partie C (séance 2)

Bien d’autres traitements statistiques sont possibles : diagrammes en boîtes, extraction de données deplusieurs fichiers à des fins de comparaison. . .

Une coopération avec le professeur de mathématiques de la classe permettrait d’aller plus loin en ce quiconcerne le traitement statistique.À titre d’exemple, le fichier temperatures_Rouen_1996_2018.ipynb∗ :• extrait les données de tous les fichiers du mois d’août, de 1996 à 2018 ;• construit le graphique des diagrammes en boîtes des températures quotidiennes de ces mois.On reconnaît clairement la canicule de 2003. Des travaux d’interprétation statistique pourraient êtreréalisés.

40

Synthèse du contenu des activités

Act

ivit

éco

nnec

tée

Act

ivit

édé

bran

chée

Intr

oduc

tion

deP

ytho

n

Lien avec d’autres thématiques

La catastrophe du Titanic x x

Tableur et fichier CSV x

Usage de Python pour traiter des données x x

Utilisation de données ouvertes. . . x Géolocalisation

Étude des températures en France depuis 1996 x x x

Artisans de ce livret

41