CONCOURS EXTERNE DE TECHNICIEN DE CLASSE NORMALE …...> L’introduction d’une solution...

CONCOURS EXTERNE DE TECHNICIEN DE CLASSE NORMALE

DES SYSTEMES D’INFORMATION ET DE COMMUNICATION

- Session 2016 -

Mardi 6 septembre 2016

Spécialité : Solutions logicielles et systèmes d’information

Traitement de questions et résolution de cas pratiques dans la spécialité choisie, à partir d’un

dossier, permettant d’évaluer le niveau de connaissances du candidat, sa capacité à les ordonner pour proposer des solutions techniques pertinentes et à les argumenter.

Le dossier ne peut excéder 20 pages.

(Durée : 3 heures – Coefficient 2)

Le dossier documentaire comporte 20 pages.

IMPORTANT

IL EST RAPPELE AUX CANDIDATS QU’AUCUN SIGNE DISTINCTIF NE DOIT APPARAITRE NI SUR LA COPIE NI SUR LES INTERCALAIRES.

SEULE L'ENCRE NOIRE OU BLEUE EST AUTORISEE

QUESTIONS

Les réponses devront être rédigées. L’ensemble des questions sera noté sur 10 points.

Question 1 :

Qu'est ce qu'un système d'exploitation? Question2 :

Sous Linux, qu'est ce qu'un processus zombie?

Question3 :

A quoi sert le BIOS? Question4 :

Quelle est l'unité fondamentale en informatique?

Question5 :

Sous Windows 7, la configuration est enregistrée dans un fichier ou une base? Précisez votre réponse.

Question6 :

Donnez les deux types de mémoire que l'on rencontre dans un équipement informatique.

Question7 :

Que signifie « phishing »? Question8 :

Qu'est-ce que le « cloud computing »? Question 9 :

En sécurité de systèmes d'information, parle t-on de chiffrement ou de cryptage?

Question 10 :

Qu'est ce que le « Big Data »?

CAS PRATIQUES

Le cas pratique se subdivise en deux parties distinctes. L’ensemble de ces parties sera noté sur 10 points.

Vous êtes affecté(e) à la Direction des Systèmes d'Information et de Communication (DSIC) du Ministère de l'Intérieur, dans une équipe d'administrateurs système dédiée à l’implémentation de projets novateurs du Ministère de l’Intérieur (Cloud Computing / Mobilité / Big Data). Afin de gérer le volume de données exponentiel provenant notamment des logs systèmes et applicatifs de l’ensemble du parc de serveurs ou bien encore des événements liés à leur supervision, la DSIC souhaite mettre en place une infrastructure matérielle et logicielle permettant leur stockage et leur gestion. Dans le cadre de ce projet dénommé « Big Data MI », votre service souhaite mettre en place une architecture répondant à ce besoin et à la norme ministérielle.

Sous la responsabilité d'un chef de projet, il vous est demandé d'être l'administrateur système référent sur le sujet.

Cas1:

Afin de préparer la présentation du projet « Big Data MI », votre chef de projet vous demande de lui adresser un argumentaire détaillant votre choix logiciel. Ce dernier, sous forme de développement structuré, devra répondre aux questions suivantes :

– Quelles sont les caractéristiques communes à tout projet relatif au Big Data ? – Quelle est la démarche permettant de choisir la solution logicielle et son

infrastructure ? – Ce projet est-il impacté par les bonnes pratiques de la sécurité des systèmes

d’information ? NB : Un schéma de la solution retenue illustrant votre argumentaire sera apprécié

Cas2:

Afin de préparer la réunion de lancement du projet « Big Data MI » votre chef de projet vous demande de lui adresser un argumentaire détaillant les grands axes de l’implémentation de votre solution logicielle. Ce dernier, sous forme de développement structuré, devra répondre aux questions suivantes :

– Quelles sont les étapes clés à suivre permettant son implémentation ? – Dans la démarche projet en cours, quels sont les principaux jalons à venir ? – Quels sont les facteurs clés de succès de ce projet ?

Dossier documentaire :

Document 1

Extrait du Cadre de Cohérence Technique V2.7.2, Référentiel des produits utilisés au Ministère de l’Intérieur (5 avril 2016) : Partie 1 : Exploitation & hébergement

Pages 1 à 2

Document 2

Big Data : de nouveaux challenges pour la sécurité des SI http://itbulletin.fr/2014/02/03/big-data-de-nouveauxchallenges- pour-la-securite-des-si/ 03 février 2014, Sébastien Gelgon

Pages 3 à 4

Document 3

Big data, l’envers du décor L’évolution des architectures décisionnelles avec Big Data http://blog.octo.com/levolution-des-architecturesdecisionnelles- avec-big-data/ 20 août 2012, Joseph Glorieux

Pages 5 à 10

Document 4

La technologie mise en œuvre « sous » le Big Data http://www.piloter.org/business-intelligence/technologiebig- data.htm 1998 – 2016, Alain Fernandez

Page 11

Document 5

Cinq étapes pour se préparer au traitement des Big Data http://www.lemondeinformatique.fr/actualites/lire-cinqetapes- pour-se-preparer-au-traitement-des-big-data-47780-page-1.html http://www.lemondeinformatique.fr/actualites/lire-cinqetapes- pour-se-preparer-au-traitement-des-big-data-47780-page-2.html 14 février 2012, M.G. avec IDG News Service

Pages 12 à 14

Document 6

Faire des Big data une "révolution juste" https://rslnmag.fr/faire-des-big-data-une-revolution-juste/ 16 septembre 2013, Rédaction rslnmag.fr

Page 15

Document 7

Panorama des technologies Big Data http://blog.xebia.fr/2013/11/13/panorama-destechnologies- big-data-it-expert-magazine/ 2013, Pablo Lopez

Pages 16 à 19

Document 8

Les principaux jalons de la conduite de projet Frise de la démarche projet DSIC. 15 novembre 2011, SG/DSIC/SGSIC/BP

Page 20

/24

DOCUMENT 1

page 1

Remarque :Pour chaque choix effectué, un statut est associé pour préciser le cadre d'utilisation du produit:- Recommandé : Lettre "R" . Le produit peut être utilisé librement aussi bien pour un nouveau système quepour une intégration ou un portage d'un système existant.- Migration : Lettre "M". Le produit ne peut être utilisé que pour faciliter la migration ou le portage d'unsystème existant.- Assujetti : Lettre "A". L'utilisation du produit est soumise à autorisation des référents CCT du ministère.Il peut s'agir d'un produit soumis à licence, ou d'un produit dont on ne souhaite la diffusion au sein du ministère[[email protected]]- Observation : lettre "O". Le produit est prometteur mais pas nécessairement pérenne. Son utilisationdu produit est soumise à autorisation des référents CCT du ministère. Ce statut est temporaire, selon le résultat despremières expérimentations, le produit pourra être passé en recommandé, ou en migration avant d'être retiré.

page 2

Big Data : de nouveaux challenges pourla sécurité des SI

Le 03 février 2014 par Sébastien Gelgon, Manager cybersécurité, Bull

Une solution Big Data est en soi un véritable système d’information, comportant des applications, des composants de calcul, du réseau, du stockage de données, avec la particularité de faire appel à un usage massif de données de provenances diverses et de ressources de calcul et de stockage distribuées.

Sans surprise, les actions de sécurisation à prendre en compte dans un tel environnement sont celles que l’on met en œuvre pour sécuriser un système d’information. On les décline habituellement dans trois domaines :

• la gouvernance de la sécurité de façon à définir des mesures de protection et descontrôles bien adaptés aux enjeux métier du Big Data ;

• la protection du SI par la mise en place de mesures adaptées et au bon niveau, sansexcès, mais aussi sans naïveté ;

• et enfin la supervision du SI car désormais les mesures de protection ne sont plussuffisantes faces aux menaces avancées.

Le big data soulève cependant quelques points spécifiques dans chacun de ces trois domaines :

Gouvernance : l’utilisation des données pour de nouveaux usages implique une adaptation des politiques de sécurité.

Les données métier constituent le cœur du patrimoine informationnel des entreprises. Leurs politiques de sécurité sont fondées sur une expression du besoin en sécurité des données en termes de disponibilité et d’accessibilité, d’intégrité et de consistance, de confidentialité, ainsi que de traçabilité et de preuve, et ceci pour des usages définis par les métiers. L’introduction d’outils d’analyse basés sur des volumes massifs engendre :

• d’une part, l’accès à des données existantes, mais pour des usages nonnécessairement répertoriés. Ces usages peuvent amener à des violations despolitiques de sécurité en place, en particulier vis-à-vis des contraintes réglementaires(protection de la vie privée, des données de santé, des données bancaires, etc.) ;

• d’autre part l’import, par exemple depuis des réseaux sociaux, de nouvelles donnéesnon encore répertoriées dans l’entreprise. Ces nouvelles données demandent unerévision des politiques prenant en compte leur sensibilité particulière.

• Enfin, les résultats obtenus de l’analyse constituent en eux-mêmes de nouvellesdonnées métier à très forte valeur ajoutée et qu’il est impératif de protéger.

> L’introduction d’une solution d’analyse de données impose à la fois une révision des politiques existantes pour intégrer les nouveaux usages des données métier, et une extension de celles-ci pour intégrer les problématiques propres aux nouvelles données.

Protection : confidentialité des données par le contrôle des accès, plutôt que le chiffrement

En termes de protection, en plus des mesures classiques de protection périmétrique et de défense en profondeur, des mesures spécifiques sont à prendre en compte selon la sensibilité des données analysées. Pour ce qui concerne la confidentialité, nous conseillons deux moyens d’actions :

• Le premier moyen (et le plus simple) est d’assurer un contrôle fin de l’accès aux

DOCUMENT 2

page 3

données, au moins via une gestion des accès et des identités (ex : s’assurer que les données brutes ne peuvent être accédées par des utilisateurs humains, contrôler les accès aux requêteurs, authentifier ses utilisateurs).

• Si cela est nécessaire (du point de vue réglementaire), chiffrer les données les plussensibles. Mais pour être efficiente, une solution de chiffrement doit s’adjoindre demoyens de contrôle d’accès aux données de granularité fine et de gestion des clés dechiffrement, tout en maintenant un degré élevé de performance.

> La confidentialité : d’abord et surtout par le contrôle des accès, et quand cela est nécessairepar le chiffrement.

Protection : les traces d’activité, essentielles pour la sécurité, ont une nouvelle valeur métier

Deux facteurs technologiques rendent possible la valorisation des traces. Tout d’abord, la disponibilité de volumes de stockage considérables permet la production massive des traces de l’activité des systèmes et des utilisateurs : qui (processus, utilisateur) importe des données ? Quand ? D’où proviennent-elles ? Qui les consulte (processus, utilisateur) ? Quand? Pourquoi ? Par ailleurs, le développement des outils d’analyse confère non seulement une nouvelle valeur métier à ces traces, mais les rend aussi exploitables par une supervision de la sécurité plus intelligente.

Supervision : étendre la supervision de la sécurité à l’ensemble des composants pour la rendre plus intelligente

Ces dernières années ont vu l’émergence de menaces avancées persistantes (ou advanced persistent threats – APT), attaques ciblées contre des systèmes d’information, dont le but premier est d’exfiltrer des données valorisables par l’attaquant. Dans ce contexte, l’intégration de mesures de sécurité périmétriques reste évidemment un impératif mais, du fait des nouvelles menaces qui les contournent, la seule supervision de ces mesures relève maintenant uniquement de l’hygiène informatique. Ainsi, pour faire face à ces menaces de manière efficace et plus proactive, il est dorénavant nécessaire d’intégrer un Security Operation Center de deuxième génération. Le SOC V2 permet en effet une supervision de l’ensemble des traces produites par le système, de les corréler et de les analyser afin d’identifier les signaux faibles (ex : ouverture puis fermeture d’un port sur un serveur, flux vers des serveurs de destinations exotiques, etc.) qui sont la signature d’une attaque évoluée active.

> Dans ce domaine, les technologies d’analyse apportées par le Big Data fournissent des moyens de compléter l’arsenal sécuritaire en rendant la supervision plus intelligente et donc plus efficace contre des menaces concrètes.

page 4

Big data, l’envers du décor

le 20/08/2012 par Joseph Glorieux Nous vivons une époque formidable. En revenant un peu sur l’histoire de l’informatique, on apprend que les capacités que cela soit de RAM, disque ou CPU sont de grands sponsors de la loi de Moore au sens commun du terme (« quelque chose » qui double tous les dix- huit mois). Ces efforts seraient vains si les prix ne suivaient pas le phénomène inverse (divisés par 200 000 en 30 ans pour le disque par exemple).

Exposé comme cela, on se dit que nos envies ne peuvent connaitre de limite et qu’il suffit de changer la RAM, le disque ou le CPU pour prendre en charge l’explosion du volume de données à traiter qui globalement suit bien la loi de Moore aussi.

Figure 1 Evolutions hardware, 2011, http://radar.oreilly.com/2011/08/building-data-startups.html

Alors où est le problème, qu’est qui fait que nos architectures décisionnelles aujourd’hui, non contentes de coûter de plus en plus chères, sont aussi en incapacité à se projeter sur des Tera ou des Peta de données. C’est bien simple, un vilain petit canard ne suit pas cette fameuse loi de Moore et il tire vers le bas tous ses petits camarades. Ce vilain petit canard c’est le « disk throughput », soit la capacité de débit des disques. En effet, quand la capacité de stockage des disques a augmenté de 100 000, le débit lui n’a augmenté que de 100… Donc, en schématisant on peut stocker 100 000 fois plus d’information, par contre, ce stockage prendra 1000 fois plus de temps. Allo Houston, on a un problème…

DOCUMENT 3

page 5

Figure 2 Evolution du débit des disques durs, source : wikipedia

Ce problème est aujourd’hui insoluble techniquement. C’est donc en réfléchissant au-delà du carcan des architectures traditionnelles que des acteurs (les grands du web notamment) ont trouvé des solutions. Si le débit des disques est le bottleneck de l’architecture, alors 2 possibilités de solutions sont offertes :

• Limiter au maximum l’utilisation des disques• Paralléliser un maximum ce débit pour le rendre acceptable

Pour limiter l’utilisation du débit des disques, une première catégorie d’acteur mettait en place une stratégie dite « in memory » (qlikview, Hana…), pendant qu’une deuxième catégorie d’acteur qui s’attaquait à la parallélisation se lançait dans les architectures distribuées (avec Hadoop en fer de lance). Et c’est véritablement ces solutions qui amènent aujourd’hui les technologies nécessaires à l’avènement de ce qu’on appelle le Big Data.

page 6

3 classes d’architecture décisionnelleArchitecture décisionnelle « traditionnelle »Catégorie de solutions : Oracle, SQL Server, MySQL, Informatica, Datastage, …

Figure 4 Architecture d’un système décisionnel « traditionnel », source OCTO 2012

L’architecture décisionnelle « traditionnelle » fonctionne comme un pipeline d’alimentation par étages des systèmes opérationnels jusqu’aux datamarts. Chaque étage dispose de son modèle de données spécialisé optimisé pour sa mission, pour garantir des performances idéales à chaque étage.

Plus le volume de données manipulé par chacun des étages augmente, plus le système ETL doit être capable de fournir un débit important.

Cette architecture est performante lorsque le volume de données à transférer entre chaque étage reste limité, mais se transforme en voie de garage lorsque la taille des photos opérationnelles quotidienne augmente. Cela vient du fait que le système décisionnel va passer principalement son temps à transférer des données plutôt qu’à les traiter.

L’architecture décisionnelle « traditionnelle » est adaptée aux volumes de données stableset aux chaines d’industrialisation de production d’indicateurs stable dans le temps.

page 7

Architecture In MemoryCatégorie de solutions : Qlicview, ActivePivot, HANA, …

Figure 5

Architecture d’un système décisionnel In Memory, source OCTO 2012

L’architecture d’un système In Memory repose sur la capacité à monter en RAM l’ensemble des données à analyser dans un système unique qui assure l’ensemble des fonctions décisionnelles.

Cette architecture In Memory a été rendue possible par l’évolution des capacités RAM desserveurs et la diminution sa diminution des coûts. Un serveur commodity hardware peut posséder très facilement jusqu’à 512 Go de RAM[1], en 2012.

Pour dépasser cette limite, deux types d’architecture In Memory ont émergée :

• Distribuée : les données sont partitionnées sur plusieurs machines de typecommodity hardware

• Approche appliance : les données sont montées en mémoire sur des systèmescapables de supporter plusieurs To de RAM.

Les fichiers d’entrée sont conservés pour assurer le stockage persistant. Les disques SSD, dont la capacité peut atteindre 200 Go en version commodity (< 300 USD)[2], permettent de bénéficier d’un débit de chargement 10 fois supérieur à celui d’un disque dur HDD. Les données In Memory n’ont plus besoin d’être stockées.

L’architecture des processeurs multi-core permet de traiter un grand nombre de requêtesen parallèle sans la contention qu’on observerait avec les I/O des disques durs.

Cette architecture permet d’offrir des services d’analyses performants, même en tempsréel (mise à jour des données et re-calcul au fil de l’eau des agrégats) et de simulation.

page 8

Architecture Massivement ParallèleCatégorie de solutions : Hadoop,Teradata

Figure 6 Architecture massivement parallèle, source OCTO 2012

L’architecture Massivement Parallèle repose sur la division du stockage et des traitements sur une grille de serveurs. Les données sont stockées par block et répliqués entre les serveurs et les traitements (script SQL et code de calculs) sont transférés sur les serveurs impliqués par le traitement. La donnée ne bouge pas d’un serveur à l’autre, c’est le code de traitement (d’un volume toujours très faible) qui se déplace. Ce principe s’appelle la colocalisation entre traitements et données.

L’architecture Massivement Parallèle permet de stocker une quantité de données immenses (sans limites) et de manière élastique. Plus la taille de la grille augmente, plus sa capacité de traitement augmente.

Hadoop est une solution Massivement Parallèle Open Source, conçue pour fonctionner sur du commodity hardware.

L’architecture massivement parallèle est idéale et nécessaire pour des systèmes qui vont dépasser la dizaine de 10 To et au-delà.

Elle permet également de mettre en œuvre des traitements particulièrement complexes (datamining & machine learning, simulation numérique, …)

page 9

ConclusionL’évolution des technologies hardware (RAM, multi-core, SSD, parallel computing) et software (architecture distribuée) est en train de fondamentalement bouleverser le paysage des architectures décisionnelles et de datamining.

L’architecture décisionnelle « traditionnelle » avec sa base de données n’est plus l’unique architecture de référence. Il existe à présent 3 architectures de référence complémentairesà maîtriser : base de données, In Memory et massivement parallèle. Ces 3 architectures continuent cependant à partager un facteur de taille, à savoir la qualité de données.

Si on s’intéresse enfin à la dimension humaine associée à ces changements, la mobilisation est à l’ordre du jour :

• Les équipes de production doivent à présent être capable de maitriser desinfrastructures unitairement plus simples, mais de plus grande taille à base decommodity hardware ou du matériel spécifique (appliance).

• Les équipes de développement doivent comprendre comment utiliser la puissancedu massivement In Memory et de la programmation parallèle, en se détachantprogressivement des bases de données relationnelles.

• Les centres de compétences décisionnelles doivent pouvoir accompagner ceséquipes à maitriser les évolutions profondes de la technologie, pour tirer profit aumieux de ces architectures et des réductions de coûts qu’elles offrent pour dessystèmes de plus en plus puissants.

[1] Taille de la RAM d’un serveur DELL[2] Source DELL

page 10

La technologie mise en œuvre "sous" leBig Data

Par Alain Fernandez

Soulevons le capot…... et observons le moteur

Toute la puissance du Big Data repose sur une technologie pour le moins révolutionnaire. En tout cas, elle l'est pour des vieux spécialistes de l'informatique à papa. Les traitements massivement parallèles, la gestion en temps réel des pannes systèmes ou la redondance systématique des données (out la normalisation des bddd..), c'est un peu tout cela le Big Data. Bon pas seulement, après il y a les utilisations et là c'est une autre paire de manches. Mais intéressons déjà aux technos proprement dites.

Technologies du big data. Map Reduce

Au départ, il y eut "Map Reduce", une méthode et une technologie de traitement massivement parallèle issues des laboratoires Google Corp ® avec gestion de la tolérance aux pannes et système de gestion de fichiers spécifiques (Google File System). On parle làde traitement sur des milliers de machines réparties en grappes (clusters).

• HadoopEnsuite, il eut "Hadoop", un framework mis au point par la Apache Software Fundation afinde mieux généraliser l'usage du stockage et traitement massivement parallèle de MapReduce et de Google File System. Bien entendu, Hadoop possède ses limites. Quoi qu'il ensoit, c'est une solution de big data très largement utilisée pour effectuer des analyses surde très grands nombres de données.

• Bases No SQLLes bases de données relationnelles ont une philosophie d'organisation des données bienspécifiques, avec notamment le langage d'interrogation SQL, le principe d'intégrité destransactions (ACID), et les lois de normalisation. Bien utiles pour gérer les donnéesqualifiées de l'entreprise, elles ne sont pas du tout adaptées au stockage de très grandesdimension et au traitement ultra rapide. Les bases NoSQL autorisent la redondance pourmieux servir les besoins en matière de flexibilité, de tolérance aux pannes et d'évolutivité.

• Stockage "In-Memory"Pour des analyses encore plus rapide, les traitements directement en mémoire sont unesolution. Une technologie bien qu'encore trop coûteuse il est vrai pour être généralisée. Leservice est-il à la hauteur de l'investissement ?

• Cloud ComputingLe Big Data exige une capacité matérielle hors du commun, que ce soit pour le stockagecomme pour les ressources processeurs nécessaires au traitement. Nul besoin des'équiper outre mesure, le "Cloud" est là pour cela. Encore faut-il avoir bien compris leconcept pour différencier, le cloud privé du cloud public, l'interne de l'externe et les hybridescombinant plusieurs types de solutions. Ensuite il est aussi prudent de différencier lesniveaux de services de chacune des solutions : IAAS, PAAS, SAAS...

DOCUMENT 4

page 11

Cinq étapes pour se préparer autraitement des big data

On parle beaucoup de « big bata » ces temps-ci. Un peu trop au goût de certains. Les acteurs IT et les experts qui s'y réfèrent les présentent néanmoins comme un actif stratégique clé des prochaines années. C'est sans doute le bon moment pour réfléchir auxorientations à prendre.

Manipuler de larges volumes de données n'est pas une nouveauté pour les départements informatiques, mais derrière le battage fait sur la question, les big data diffèrent vraiment du datawarehouse, du datamining et de l'analyse décisionnelle qui les ont précédées, souligne Beth Stackpole, de Computerworld, dans un article publié cette semaine.

Les données sont générées de plus en plus vite, la plupart étant désormais récupérées sous leur forme brute. Les blogs, les réseaux sociaux, les outils de localisation, de même que les informations remontées des capteurs et sondes diverses, créent un nouvel universde données non structurées. Si celles-ci sont rapidement capturées, gérées et analysées, elles peuvent aider les entreprises à découvrir des faits et des modèles qu'elles n'avaient pas été capables de reconnaître jusque-là. « Nous avons recueilli beaucoup de données pendant longtemps », relate ainsi Paul Gustafson, directeur des programmes technologiques du Leading Edge Forum de CSC. Archivées, elles étaient modélisées autour des processus métiers, mais elles ne l'étaient pas comme un ensemble de connaissances plus large pour l'entreprise, pouvant être reliées entre elles. L'informatique se trouve à l'avant-garde de cette révolution. Les responsables IT devraient commencer à préparer leur entreprise pour cette transformation, estiment des analystes tels que Mark Beyer, de Gartner. Voici cinq actions à entreprendre pour en poser les fondations.

1 - Faire l'inventaire de ses données.

Toutes les entreprises, ou à peu près, ont accès à un flux régulier de données non structurées, que celles-ci proviennent des médias sociaux, ou de capteurs surveillant une usine, par exemple. Cela ne signifie pas qu'elles doivent toutes les sauvegarder et les exploiter. Cet afflux soudain a suscité un besoin artificiel d'essayer de comprendre toutes ces données, remarque Neil Raden, un analyste de Constellation Research. Ce souci a puêtre provoqué par des consultants ou fournisseurs soucieux de promouvoir leurs solutions.« Il y a une certaine pression de la part de ceux qui commercialisent la technologie », observe Neil Raden. Sans urgence, une première étape pourrait consister à inventorier quelles données sont créées en interne et déterminer quelles sont les sources externes, s'il y en a, qui pourraient apporter des informations complémentaires sur l'activité de l'entreprise, explique l'analyste de Constellation Research.

Une fois cet état des lieux engagé, les équipes informatiques devraient entreprendre des projets très ciblés qui pourraient être utilisés pour montrer quels résultats on peut obtenir, plutôt que d'opter pour des projets en mode big-bang. Mieux vaut éviter de dépenser plusieurs millions de dollars pour déterminer si un projet vaut la peine d'être mené, souligne Neil Raden.

DOCUMENT 5

page 12

http://adserver.adtech.de/?adlink/866/5698326/0/16/AdId=-3;BnId=0;itime=635851522;

2 - Donner la priorité aux métiers

Aligner l'IT avec les métiers est indispensable dans le cas d'un chantier aussi important que peut l'être le traitement des big data. Les premières occasions de traiter ces volumes se sont trouvées hors du périmètre de la IT. Par exemple dans des départements marketing qui ont décidé de récolter les flux des médias sociaux pour gagner en visibilité sur les besoins des clients et les tendances en matière d'achats. Si c'est effectivement du côté business que l'on devrait identifier l'intérêt de ces analyses, c'est à la IT que revient de prendre en charge la fédération et le partage des données et de mettre en oeuvre la stratégie big data. Pour Dave Patton, analyste chez PricewaterhouseCoopers, ce n'est pas une démarche que la IT peut faire seule de son côté. « Il sera difficile d'en faire une success story si le projet n'est pas aligné sur les objectifs business ».

3 - Réévaluer l'infrastructure

Dans la plupart des entreprises, les projets big data vont demander des changements importants. D'une part sur les infrastructures serveurs et de stockage, d'autre part sur la gestion des données, si l'on en croit Mark Beyer, du cabinet Gartner, ainsi que d'autres experts. Les responsables informatiques doivent se préparer à étendre leurs systèmes pour qu'ils supportent des bases en perpétuelle expansion, recevant données structurées et non structurées. Cela signifie qu'il faut trouver la meilleure approche pour rendre les systèmes à la fois extensibles et évolutifs et qu'il fautélaborer une feuille de route pour intégrer tous les systèmes disparates qui vont alimenter l'effort d'analyse des big data.

« Actuellement, les entreprises ont souvent des systèmes disparates et séparés pour gérer la paie, les relations clients, le marketing », indique Anjul Bhambhri, vice-président, responsable des produits big data chez IBM. Les CIO ont besoin de mettre en place une stratégie pour les faire converger. « Il faut pouvoir poser des questions qui traversent tous ces systèmes pour obtenir des réponses », précise le VP d'IBM.

4 - Etudier les technologies associées

Evidemment, le monde des big data apporte sa liste d'acronymes et de technologies. Les outils en Open Source sont ceux qui retiennent le plus l'attention. On met au crédit des Hadoop, MapReduce et NoSQL d'avoir aidé les géants du web que sont Google et Facebook à naviguer à travers leurs réservoirs de big data. La plupart de ces technologies, même si elles sont désormais disponibles sous une forme commerciale, sont encore assez immatures et requièrent pour s'en servir des compétences très spécifiques. Parmi les autres technologies importantes dans le mondedes big data figurent l'analytique in-database pour être au plus près des données, les bases exploitant le stockage en colonnes et les appliances de datawarehouse. Les équipes IT vont devoircomprendre ces nouveaux outils pour pouvoir faire des choix avertis en matière de big data.

5 - Préparer ses équipes

Qu'elles aient besoin d'experts Hadoop ou de spécialistes des données (data scientists), lesdépartements IT manquent sévèrement des talents nécessaires pour aller plus loin avec les big data. Les compétences en matière d'analytique sont peut-être les plus cruciales et c'est là que se trouvent les manques les plus importants.

McKinsey prévoit que, pour les seuls Etats-Unis, on aura besoin d'ici 2018 de 140 000 à 190 000 experts supplémentaires spécialisés dans les méthodes statistiques et l'analyse de

page 13

http://adserver.adtech.de/?adlink/866/5698326/0/16/AdId=-3;BnId=0;itime=635851640;

données. Parmi les postes les plus demandés se trouvera la fonction de plus en plus médiatisée de « data scientist ». En outre, McKinsey s'attend à des demandes à la fois du côté métier et technique pour quelque 1,5 million de managers à l'aise avec les données, disposant d'une formation reconnue dans l'analyse prédictive et les statistiques.

Pour quelques entreprises, particulièrement celles qui se trouvent dans les zones les moinspeuplées, trouver des compétences sera l'un des aspects les plus délicats des projets de big data. Pour une structure de taille moyenne, ce sera un défi de constituer une équipe et de faire en sorte qu'elle suive le rythme en constante évolution de cet environnement, estime Rick Cowan, CIO de True Textiles, un fabricant américain de tissu situé dans le Maine. Pour y faire face, il a commencé à reconvertir des développeurs et des spécialistes des bases de données pour les faire progresser sur les analyses avancées.

Les directions des départements IT vont devoir elles-mêmes se transformer pour exceller dans ce nouveau monde. Les managers IT du futur combineront des compétences sur l'analyse de données et les processus métiers, estime Mark Beyer, de Gartner. « Les CIO ont eu l'habitude de gérer des infrastructures à partir des prescriptions des métiers, par opposition à un CIO qui serait capable d'identifier une opportunité et par conséquent de pousser vers une utilisation innovante de l'information », explique-t-il. C'est la transformation qui devra se produire.

page 14

Faire des Big data une "révolution juste"16 septembre 2013

Face à l’arrivée des Big data, certains s’inquiètent de ce qui pourrait advenir à ceux qui laissent trop de traces numériques à leur sujet, sans pouvoir les contrôler. D’autres s’inquiètent précisément de l’inverse : alors que de plus en plus de décisions sont prises à partir des données laissées sur le web par ceux qui l’utilisent, qu’arrivera-t-il aux gens qui ne génèrent pas de données du tout ? C’est la question que pose Jonas Lerman, un conseiller juridique au Département d’État américain dans un essai paru dans le Stanford Law Review, et que relaie Fast Co.Exist.

Y aura-t-il une nouvelle fracture numérique spécifique aux Big data ? Quand l’analyse dedonnées sert à produire des biens et services au plus proche des besoins du consommateur, et à prendre des décisions comme le lieu d’ouverture d’un nouveau magasin ou un prix de vente, ceux qui ne participent pas à la production de données pourraient bien être laissés pour compte – en quelque sorte, « privés de parole », avertit Jonas Lerman. Et les décisions commerciales ne sont pas les seules concernées, la Maison Blanche ayant décidé d’investir 200 millions de dollars dans l’analyse de données comme aide à la décision politique.

« Cela pourrait restructurer la société de sorte que les seules personnes qui comptent soient celles qui contribuent régulièrement aux bons flux de données », explique Jonas Lerman.

En prenant pour exemple deux usagers d’Internet, un cadre hyperconnecté vivant à Manhattan et usant de nombreux services numériques, et un travailleur pauvre d’une petite ville, Jonas Lerman montre qu’en étant invisible aux Big data, le second connaîtrait encore moins d’opportunités dans un monde façonné par les Big data que dans l’actuel.

La solution ? Qu’en connaissant ce biais, les analystes de données fassent systématiquement deux analyses, dont une adaptée aux publics qui ont une moindre empreinte numérique. Selon lui, cette précaution pourrait même être imposée par la loi, par exemple au moyen d’un amendement de la loi de 2008 qui interdit, aux Etats-Unis, toute discrimination sur la base d’informations génétiques.

« Veiller à ce que la révolution Big Data soit une révolution juste, dont les fruits sont largement et équitablement partagés, peut également exiger, paradoxalement, un droit de ne pas être oublié, un droit contre l’exclusion », conclut-il.

DOCUMENT 6

page 15

Panorama des technologies Big Data

(IT-expert Magazine) Big Data : le mot est sur toutes les lèvres, dans toutes les DSI et toutes les directions marketing. Mêmeles médias grand public y consacrent des sujets à une heure de grande écoute.

Il est de notoriété publique que certains grands acteurs du Web, qu’ils soient américains ou français, ont réussi à transformer d’énormes quantités de données non structurées en informations valorisables, directement pour leur métier ou auprès de leurs partenaires et clients.

Toutes les entreprises que nous avons pu rencontrer autour de ce sujet le sentent bien : elles possèdent quelques pierres qui n’attendent que d’être taillées et polies pour révéler leur vraie valeur. Mais par quel bout entame-t-on un projet Big Data ?

Avant tout, il faut bien comprendre que l’écosystème dit « Big Data » est extrêmement riche et varié, et que les projets open ou commerciaux fleurissent chaque semaine.

Le but de cet article est de donner un aperçu des principaux acteurs technologiques et des cas d’utilisation que l’on peut leur associer.

Les caractéristiques communes de tout projet Big Data

Le mouvement Big Data est né à la suite de publications scientifiques issues des géants américains comme Google ou Yahoo… Ils ont rompu avec les systèmes traditionnels, en anticipant que les quantités de données échangées sur le Web allaient exploser. Ils ont donc développé des logiciels novateurs, en insistant sur des axes originaux :

• La scalabilité : derrière cet anglicisme barbare se cache la notion d’adaptabilité. Nul n’est à cejour capable de prévoir avec précision quelle sera la réaction « du Web » à la publication d’unproduit. Par exemple, des entreprises de jeux comme Facebook qui tablaient sur quelquesmilliers d’utilisateurs ont dû faire face à un afflux de plusieurs millions d’abonnés. Sans unsystème hautement adaptable, et malgré un business model mûrement réfléchi, l’incapacité defaire croître rapidement et simplement leur SI aurait contraint ces entreprises à mettre la clésous la porte.

• Un coût mesuré : c’est un corollaire de la scalabilité. Le SI doit être en mesure de croîtresimplement, mais aussi à un coût mesuré. C’est pour cette raison que la plupart des systèmesBig Data repose sur des serveurs d’entrée de gamme. Leur multiplication permet une montéeen puissance adaptée à la taille de l’entreprise, avec un coût linéaire et contrôlé.

• L’open source. C’est là la grande révolution : les acteurs majeurs de Big Data ont quasimenttous reversé le cœur de leur système à la communauté open source. C’est là un changementmajeur. Auparavant les éditeurs faisaient la loi, ces derniers courent maintenant après lacommunauté Open Source et cherchent à offrir des fonctionnalités avancées.

• La tolérance à la panne. Les sites à fort trafic outre atlantique l’ont rapidement décelé : la panneest aujourd’hui, en regard de la taille des data-centers et des données brassées, un nonévénement. Les systèmes Big Data sont donc taillés pour résister à des pannes nombreuses etvariées.

• Le polymorphisme. La grande majorité des systèmes Big Data actuels expose des APIdisponibles dans plusieurs langages (Java, Python, Ruby, R, SQL, C#…).

Hadoop, ou la démultiplication des traitements batch

Hadoop est une plate-forme open source, développée à l’origine par Yahoo!, sur une idée originale de Google. C’est la plate-forme Big Data par excellence et on la trouve presque systématiquement dans un projet qui vise à traiter de grandes quantités de données.

En effet, de par sa nature, Hadoop s’adresse avant tout à ceux qui ont des volumes de données colossaux. En dessous de 10 To de données, l’utilisation de Hadoop en tant que tel peut apparaître comme contre productive. De plus, le cœur d’Hadoop est réellement destiné à traiter des données en

DOCUMENT 7

page 16

mode batch, avec une latence au lancement des traitements qui peut paraître importante (plusieurs dizaines de secondes, voire plusieurs minutes).

Hadoop Distributed File System (HDFS)

HDFS est comme son nom l’indique un système de fichiers distribué, c’est-à-dire que chaque machine composant la grille Hadoop (cluster en anglais) va héberger une partie des fichiers. Pour simplifier, on peut comparer HDFS à un RAID logiciel distribué sur plusieurs serveurs.

Ce système de fichiers possède une capacité d’hébergement parfaitement linéaire (chaque octet de disque ajouté à la grille peut participer à l’hébergement des fichiers), une forte tolérance à la panne, pardéfaut, chaque fichier est présent en trois exemplaires distribués sur des machines, des racks, voire des data-centers différents. De la même façon, chaque machine apporte ses capacités en I/O au cluster et la grille est donc capable d’absorber rapidement de grandes quantités d’écriture.

Pour autant, le système de fichiers n’est pas parfait : contrairement à une base de données, il est impossible d’amender (update) les fichiers écrits sur le système. Il est donc nécessaire de fonctionner par recopie complète du fichier avec une modification par batch.

Framework Map/Reduce

L’autre composant majeur de Hadoop est son framework Map/Reduce. Map/Reduce est un paradigme de programmation permettant de distribuer les algorithmes de traitements au cœur de la donnée. La phase de Map permet de sélectionner et d’organiser les données « intéressantes » pour le traitement, et la phase de Reduce permet de les agréger, en réalisant par exemple des opérations mathématiques.

Chaque machine du cluster participe aux traitements Map / Reduce, en « apportant » une fois de plus ses I/O mais aussi sa CPU. Là encore, la puissance de calcul disponible est linéaire, et chaque machine ajoutée au cluster ajoutera de la puissance globale.

La distribution des traitements Map/Reduce sur le système de fichiers lui-même distribué est la grande force de Hadoop. Chaque traitement étant découpé en lot, il « suffit » d’augmenter la puissance du cluster pour avoir plus de parallélisation des traitements et donc de réduire les temps de traitement de plusieurs To voire Po. Dans la mesure du possible, les traitements sont placés où la donnée se situe, permettant ainsi de profiter au maximum des I/O d’une machine tout en minimisant l’impact sur le réseau du cluster.

Hadoop est particulièrement performant sur de gros volumes de données, traités en mode batch. Il est par exemple utilisé par Yahoo! ou Criteo pour exécuter leurs algorithmes de ciblage publicitaire.

Aujourd’hui, Hadoop est distribué sous de nombreuses versions : le projet OpenSource hébergé par Apache bien sûr, mais aussi des distributions « améliorées », qui offrent du support comme Cloudera, HortonWorks et MapR, ou enfin des éditeurs qui offrent une solution embarquant Hadoop intégrée dansleur propre écosystème (comme Microsoft ou IBM). Le choix de la distribution sera probablement le premier chantier à adresser dans votre projet Hadoop.

La base de données orientée colonne

Autre pan incontestable du Big Data, la base de données orientée colonne trouve là aussi ses origines chez Google. Le but du projet était de réaliser une base de données accessible par des milliers, voire des millions d’utilisateurs simultanés tout en offrant des possibilités de stockage quasi infinies et des performances adaptés aux exigences du Web moderne.

La solution proposée par Google a été de modifier l’organisation des données sur le disque : là où les bases de données relationnelles classiques raisonnent en terme de lignes dans une table, BigTable (le projet de Google) propose de raisonner en terme de colonnes.

Ce modèle permet un modèle de données flexibles (chaque colonne n’est pas forcément présente danstous les enregistrements d’une table), particulièrement adapté à la modélisation des relations un-à-plusieurs.

La lecture et l’écriture de très grandes quantités de données sont extrêmement performantes. Mais celase fait au prix des possibilités de requêtage qui sont, elles, très limitées.

Deux acteurs se distinguent, HBase, apparenté au projet Hadoop (car HBase repose sur HDFS),

page 17

supporté par l’entreprise Cloudera, et Cassandra, initié par FaceBook et supporté par DataStax.

Les cas d’utilisations sont nombreux. On peut par exemple parler du stockage de constructions tarifaires complexes (cas des Tour Operator par exemple), ou plus récemment de la société Netflix qui a analysé les tendances de ses utilisateurs avant de lancer sa série House Of Cards.

Machine learning

Le « machine learning » est une branche de l’intelligence artificielle. Elle est bien antérieure au mouvement Big Data, et n’y est pas reliée directement. Néanmoins, le « machine learning » bénéficie d’un fort regain d’intérêt grâce aux nouvelles possibilités offertes par les technologies Big Data.

Le « machine learning » consiste à construire des systèmes qui apprennent des données qu’ils reçoivent. Autrement dit, à partir d’un comportement initial, les algorithmes de « machine learning » sont capables de se corriger et d’évoluer en fonction des faits dont on les alimente.

L’exemple le plus courant est celui du moteur de recommandation d’Amazon.com. Celui-ci va bien au-delà d’un simple « regroupement » d’articles : en plus de ces liens entre divers produits, le moteur analyse le comportement de l’utilisateur, et tente de le catégoriser pour l’orienter vers les offres les pluspertinentes.

Ces systèmes sont le plus souvent sur des modèles mathématiques, comme les réseaux bayésiens naïfs ou les réseaux neuronaux, pour lesquels on va chercher un paramétrage optimal. La construction d’un système comporte ainsi deux phases. La phase initiale consiste à « entraîner » la machine, à partir d’un jeu de données connu. Une fois le système entraîné, il faut le confronter au monde réel et l’évaluer régulièrement afin qu’il se corrige et s’améliore à chaque nouvelle donnée reçue.

Le principe même du « machine learning » explique son regain d’intérêt avec l’apparition de Big Data : la démultiplication des données et des puissances de calcul permettent de gérer de plus en plus de données, et donc d’affiner de manière spectaculaire la pertinence des prévisions des systèmes apprenant. En pratique, la différence entre deux moteurs se fait bien souvent sur le volume des données et le choix des attributs (features) décrivant les données, et non pas nécessairement sur le modèle mathématique du moteur. La révolution n’est donc pas tant théorique que pratique.

Le porte étendard de l’association Machine Learning / Big Data est sans conteste Mahout, un logiciel libre issu de la fondation Apache. Mahout repose sur Hadoop, et distribue ses algorithmes de calcul sous forme de Map / Reduce sur la grille. Néanmoins, l’utilisation de Mahout demande de solides connaissances mathématiques alliées à une très bonne connaissance de l’écosystème Hadoop. Sa maîtrise n’est donc pas à la portée du premier programmeur venu.

C’est pour cette raison que de nombreux logiciels de « machine learning » prêt à l’emploi voient régulièrement le jour. Les startups portant ces projets rejoignent bien vite le portefeuille des grands acteurs du Big Data. Par exemple, la société Myrrix, qui propose un logiciel de recommandation « plug and play », disponible en SaaS sur le cloud, vient d’être rachetée par Cloudera, qui va rapidement l’intégrer à son offre standard Big Data.

Les systèmes de « machine learning » apportent des réponses satisfaisantes dans de nombreux contextes métier, comme la catégorisation client, l’analyse d’opinion…

L’émergence du temps réel

L’un des axes de développement du monde du Big Data est de se rapprocher du temps réel. Les systèmes actuels sont capables de traiter des milliards d’octets de données, mais leur latence est aujourd’hui un véritable enjeu.

Hadoop a posé les standards du monde Big Data, mais son fonctionnement en mode batch l’empêche d’adresser l’ensemble des problématiques de l’industrie du Web. Le temps réel (ou plus pragmatiquement, le besoin d’interactivité) est aujourd’hui un facteur différenciant. Chacun des acteurs majeurs du Web l’a bien compris, et tous se concentrent aujourd’hui sur la réduction des temps de traitements.

De nombreux projets OpenSource émergent, et visent tous le même but. Réitérer ce qui a fait la puissance de Map Reduce : son côté distribué, hautement scalable et résistant à la panne, mais sans son défaut majeur : sa latence.

page 18

Actuellement, on ne peut parler de standard, mais plusieurs projets font la course en tête : Twitter a donné à la communauté le projet Storm, Yahoo! a publié les premières versions de son logiciel S4, et lafondation Apache supporte Spark. Derrière tous ces logiciels, la même idée : aller vite, très vite, tout en maintenant une quantité astronomique de données en entrée.

Mais la réduction de la latence n’est pas le seul critère de compétition. L’autre problématique est de fournir un langage facile à apprendre et utiliser : pour faire simple, le plus proche possible de SQL. Le composant Hive a rempli cet objectif pour l’approche MapReduce. Apache Drill, le projet Impala de Cloudera ou encore Apache Shark pour Spark se positionnent également sur ce terrain, en traitant en parallèle la problématique de la latence. Au final le but est de permettre une exploration interactive des données, et d’ouvrir la plateforme à une population plus large que celle des programmeurs.

Conclusion

L’écosystème Big Data est en permanente évolution, et en dresser un panorama exhaustif est un exercice périlleux. Au final, cet article est une photographie du temps présent, et il sera peut-être obsolète l’année prochaine.

Il existe néanmoins des acteurs très sérieusement installés, et sur lesquels reposent des projets vitaux pour des groupes qui pèsent plusieurs milliards d’euros :

• Hadoop, qui permet de traiter en mode batch plusieurs TeraOctets de données,

• Cassandra, la base de données orientée colonne, qui sacrifie le requêtage complexe à desperformances exceptionnelles en lecture / écriture,

• Mahout qui permet d’exécuter des algorithmes de machines learning sur de largeclusters Hadoop.

page 19

DOCUMENT 8

page 20

CONCOURS EXTERNE DE TECHNICIEN DE CLASSE NORMALE …...> L’introduction d’une solution...

Documents

Transcript of CONCOURS EXTERNE DE TECHNICIEN DE CLASSE NORMALE …...> L’introduction d’une solution...