Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des...

27
Le scientifique, l’ingénieur et l’entrepôt Donald Farmer Directeur de TreeHive Strategy Créer la bonne équipe d’analyse de données pour l’ère du nuage

Transcript of Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des...

Page 1: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

1 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Le scientifique, l’ingénieur et l’entrepôt

Donald Farmer Directeur de TreeHive Strategy

Créer la bonne équipe d’analyse de données pour l’ère du nuage

Page 2: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

2 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Table des matières

Introduction ....................................................................................................3

Au scientifique des données, l’expérience ..............................................5

À l’ingénieur des données, les processus ................................................9

À l’entrepôt de données, le modèle .........................................................11

L’entrepôt de données comme source pour la science des données .................13

L’entrepôt de données fournit des modèles ......................................... 13

L’entrepôt de données infonuagique .....................................................14

L’architecture de la science des données dans l’entreprise ...............15

Assimilation et stockage des données ................................................... 16

Azure Data Factory .................................................................................................................16

Azure Data Lake .......................................................................................................................17

Préparation des données et formation .................................................. 18

Service Azure Machine Learning .......................................................................................19

Azure Databricks .....................................................................................................................19

Fourniture et présentation de modèles ................................................ 20

Fourniture de données issues d’Azure Databricks avec Azure Synapse Analytics ......................................................................................................................................21

Fourniture de modèles d’apprentissage automatique avec Azure Synapse Analytics ......................................................................................................................................22

Conclusion .................................................................................................... 25

La très petite entreprise ........................................................................................................27

Page 3: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

3 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Introduction« Il faut embaucher un scientifique des données! »

Presque chaque semaine, nous entendons ces paroles pressantes de la part des directeurs de l’information (DSI) et de la technologie (CTO). C’est compréhensible. On s’enthousiasme facilement pour une nouvelle technologie, en particulier lorsqu’elle promet de parvenir plus rapidement aux objectifs stratégiques alléchants : l’innovation, l’avantage concurrentiel et l’efficacité. Ces derniers temps, peu de domaines ont suscité autant d’enthousiasme que la science des données. Son champ d’application est vaste : l’apprentissage automatique, l’intelligence artificielle et les données massives. Dans la plupart des cas, cet engouement est justifié : les premiers résultats furent souvent stupéfiants.

L’enthousiasme s’atténue (du moins, pour ceux qui rédigent les grands titres) en ce qui concerne l’évolution de la gestion et de l’architecture requises pour adopter les nouvelles pratiques à mesure qu’elles émergent. Trop peu d’entreprises ont déjà songé à mettre en œuvre la science des données comme une pratique à la fois technique et commerciale. Cela découle en partie d’une connaissance insuffisante du fonctionnement de l’apprentissage automatique, et plus particulièrement de l’intelligence artificielle. Ces pratiques sont entourées d’un certain mystère et paraissent très éloignées du travail quotidien du service informatique. Les entreprises manquent aussi souvent de prévoyance. Les résultats des modèles prédictifs doivent être disponibles et applicables dans le monde réel des opérations, à l’échelle souhaitée et avec une fiabilité qui réponde aux demandes de l’entreprise.

Le stockage de données est une technologie fondamentale qui permet d’alimenter l’activité par la science des données. C’est une pratique bien rodée et largement disponible. Le concept d’entrepôt de données, défini pour la première fois en 1985 chez IBM par Barry Devlin, est toujours une technologie puissante qui n’est pas près d’être dépassée par les lacs de données, les canaux, les scripts et les algorithmes. En fait, le rôle central de l’entrepôt de données, qui consiste à servir des données intégrées et un modèle d’opérations cohérent, n’a jamais été aussi prépondérant. Grâce aux nouvelles architectures infonuagiques et aux moteurs en mémoire, sa plateforme technique demeure tout à fait d’actualité.

Chez les entreprises qui se démarquent dans le domaine de la science des données, on a vu apparaître trois nouveaux rôles organisationnels : le scientifique des données, l’ingénieur des données (responsable de veiller à ce que les modèles prédictifs soient prêts à passer en production) et une nouvelle génération d’analystes de données spécialisés dans le marketing, les finances et la vente.

Trop peu d’entreprises ont déjà songé à mettre en œuvre la science des données comme une pratique à la fois technique et commerciale.

Page 4: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

4 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

D’un certain point de vue, les utilisateurs professionnels sont remarquablement indépendants. Nous l’avons constaté lorsqu’ils ont commencé à apporter leurs propres appareils mobiles dans leur environnement de travail, avec ou sans l’autorisation du service informatique. Aujourd’hui, ces mêmes utilisateurs acquièrent des compétences dans le domaine des données dès l’université, puis au fil de leur contribution quotidienne aux systèmes de l’entreprise. Ils adoptent des outils d’analyse libre-service selon leurs besoins. Toutefois, il incombe toujours au service informatique d’appuyer les employés, même alors que leurs compétences et exigences augmentent naturellement au sein de l’entreprise moderne.

L’embauche d’un scientifique des données est un choix mûrement réfléchi vers un nouvel horizon stratégique. Dans le présent article, nous allons étudier comment assumer ces nouveaux rôles et quel rôle incontournable l’entrepôt de données infonuagique moderne exerce dans cet espace. Vous allez vite comprendre pourquoi vous direz : « Je dois aussi embaucher un ingénieur des données ».

4 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Page 5: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

5 Livre blanc Le scientifique, l’ingénieur et l’entrepôt5 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Au scientifique des données : l’expérience

Page 6: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

6 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

L’expression « science des données », que nous employons tant de nos jours, a été inventée pour définir un rôle d’affaires particulièrement orienté vers les données massives. Même si l’on n’en parle vraiment que depuis peu les scientifiques des données existent depuis longtemps. Auparavant, divers secteurs (des chemins de fer à l’assurance en passant par la pharmacologie et l’agriculture) employaient des spécialistes de la modélisation statistique et, souvent, de la programmation linéaire. Ces spécialistes utilisaient de grands volumes de données brutes, des scripts et des algorithmes. Toutefois, le terme science des données, tel qu’il est employé maintenant, fut inventé par D.J. Patil et Jeff Hammerbacher autour de 2008, pour définir un rôle d’affaires particulièrement orienté vers les données massives.Personne ne devient un bon scientifique des données en se contentant de travailler sur des données. Il convient au contraire d’aborder ce rôle sous l’angle de trois compétences : les mathématiques et les statistiques, la programmation et la préparation des données, toutes étant adaptées aux réalités commerciales de l’activité de l’employeur. En toute honnêteté, ces dernières compétences sont souvent acquises « sur le terrain », en particulier dans les marchés verticaux spécialisés. Mais aucun scientifique des données ne peut se permettre d’envisager son travail comme une étude abstraite, en marge des réalités du monde.Il existe une différence notable entre ce nouveau rôle et celui d’un analyste d’entreprise classique : l’importance de l’expérimentation dans la pratique. Souvenez-vous de la méthode scientifique empirique apprise à l’école : une séquence d’étapes partant de la formulation d’une hypothèse à la mise à l’essai de celle-ci à travers des expériences, pour enfin affiner l’hypothèse à la lumière des résultats expérimentaux.Le scientifique des données travaille de la même manière. Tout d’abord, il formule une hypothèse possiblement intéressante et utile pour l’entreprise, et rassemble des données pertinentes dans le cadre de cette hypothèse. Cette « ingestion de données », expression qui sonne comme un processus biologique peu ragoûtant, correspond simplement au travail du scientifique des données qui rassemble des données issues de sources diverses dans le but de les exploiter sans avoir d’incidence sur quiconque. La deuxième phase méthodologique de la science des données consiste à faire des expériences avec des modèles et des données. Ensuite, tout comme en sciences naturelles, l’hypothèse est affinée en fonction des résultats obtenus afin d’améliorer son applicabilité et sa précision. C’est au cours de ces étapes qu’interviennent les opérations mathématiques les plus poussées. Pour finir, les conclusions sont mises en pratique, souvent sous la forme d’un ensemble de règles dérivées du modèle.

L’expression « science des données », que nous employons tant de nos jours, a été inventée pour définir un rôle d’affaires particulièrement orienté vers les données massives.

Page 7: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

7 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Le flux de travail de l’apprentissage automatique a, entre autres implications, besoin de données brutes, lesquelles doivent être dans un état aussi proche que celui d’origine. En effet, chaque processus de préparation et de nettoyage des données, ainsi que toute initiative pour y faire correspondre un modèle, repose sur un ensemble d’hypothèses quant au fonctionnement de l’entreprise. Nous pouvons penser que ces hypothèses sont fondamentales, car nous les acceptons comme vraies ou certaines. Mais le scientifique des données aime souvent creuser sous la surface des suppositions pour découvrir ce que disent véritablement les données sur les opérations, plutôt que d’accepter ce que nous croyons qu’elles sont censées dire. La plupart des plus passionnantes découvertes en science des données, tout comme dans les sciences naturelles, ont bouleversé les idées reçues quant au fonctionnement des choses. Autrement dit, le but des expériences d’analyse est de révéler des informations qui resteraient sinon inconnues de la direction et des opérations. Et cela est impossible si les données brutes sont cachées derrière un processus normalisé.

En revanche, comme nous le verrons plus tard (dans « L’entrepôt de données comme source pour la science des données »), le schéma de l’entrepôt peut être une précieuse source de connaissances structurelles et les données mises en conformité constituent un ensemble de références inestimable. C’est une chose d’analyser les données brutes, non transformées, par exemple issues des fichiers journaux du contrôleur d’un tapis roulant. Mais si les identifiants, les numéros de modèle et les emplacements de tous les tapis roulants de l’usine ont déjà été collectés et standardisés dans des tables de dimension, ce travail n’est plus à faire et il peut être utile d’exploiter les données de référence validées au moment d’appliquer les modèles résultants à l’activité.

Un autre aspect révélateur de la méthode d’un scientifique des données, qui peut être très différente de celle d’un analyste d’entreprise, est la diversité des sources de données utilisées et les volumes de données concernés. Si notre hypothèse requiert d’analyser des fichiers journaux provenant de l’Internet des objets, ou l’activité de clients sur des sites de réseaux sociaux, les sources de données peuvent être variées et les volumes très difficiles, voire impossibles à exploiter à l’aide des techniques de veille stratégique standard. Par conséquent, notre ensemble d’outils de science des données comprend des routines mathématiques évoluées, ainsi que des technologies spéciales pour le déplacement et la préparation des données.

Le but des expériences d’analyse est de révéler des informations qui resteraient sinon opaques à la gestion et aux opérations.

Page 8: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

8 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres rôles, par exemple d’un développeur de base de données ou d’applications. C’est trop souvent source de confusion, voire de confrontation avec le soutien informatique lors de la mise en production d’un modèle. Pour le soutien informatique, le nettoyage et la mise en forme effectués lors de l’acquisition et de la préparation des données peuvent sembler hasardeux et improvisés. On y remarque en effet de nombreux couper-coller dans des feuilles de calcul, de nombreux scripts Python et parfois, une algèbre linéaire assez complexe. Cela peut être difficile à faire concorder avec les exigences de gouvernance, d’audibilité, de sécurité, de disponibilité et d’évolutivité de l’entreprise.

En conséquence, dans les entreprises modernes, nous voyons émerger un nouveau rôle : l’ingénieur des données.

8 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Nous voyons émerger un nouveau rôle : l’ingénieur des données.

Page 9: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

9 Livre blanc Le scientifique, l’ingénieur et l’entrepôt9 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

À l’ingénieur des données : les processus

Page 10: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

10 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Nous avons vu que l’éventail de compétences du scientifique des données est étendu et que, compte tenu de l’importance des mathématiques et des statistiques, ces compétences semblent chères. En comparaison, le titre d’ingénieur des données semble un peu moins séduisant. C’est un peu ce qu’est le Scotty pragmatique au M. Spock mathématique. Malgré leur savoir-faire, il y a beaucoup d’applications possibles de leur travail dans une entreprise qui ne ressortent pas de leur responsabilité ou de leur compétence. C’est de plus en plus le cas pour le domaine de l’ingénierie des données.

Par exemple, il peut ne pas être approprié de donner à un scientifique des données un accès direct aux systèmes de production aux fins de recherche et d’expérimentation. Bien que ce scientifique souhaite probablement obtenir des données brutes, la confidentialité et la conformité réglementaire peuvent être régies par de nombreux règlements professionnels (tout particulièrement à l’ère du Règlement général sur la protection des données (RGPD) et d’autres lois sur la protection de la vie privée); ces règles doivent être appliquées aux données avant de les partager pour un objectif quelconque. Ne vous attendez pas à ce que les scientifiques des données connaissent sur le bout des doigts les réglementations en vigueur, externes ou internes, quand bien même ces réglementations sont bien souvent édictées en réponse à l’action de la science des données. C’est l’ingénieur des données qui peut fabriquer les jeux de données nécessaires et les rendre disponibles avec les autorisations appropriées. Néanmoins, le travail de l’ingénieur des données ne se termine pas au moment où il livre ses produits. Il y aura certainement de nombreux problèmes à résoudre et on peut faire appel à lui pour toutes sortes de tâches, comme importer des jeux de données de référence ou étudier la cause de l’absence de valeurs.

De la même manière, quand il s’agit de mettre des modèles en production, ne demandez pas aux scientifiques des données d’estimer les besoins de stockage, le coût de traitement des flux de données, les dépenses probables de calcul infonuagique ou l’évolutivité de la solution. Trouver la réponse à ces questions nécessite une très bonne compréhension du déploiement, de l’utilisation et de la prise en charge du modèle en production. C’est le travail de l’ingénieur des données.

Mais soyons clairs : l’ingénieur des données n’est pas complètement étranger à l’apprentissage automatique et au codage. Il peut lire les algorithmes et les scripts, sans toutefois comprendre totalement du point de vue statistique ou mathématique les modèles et les expériences. Mais il a le savoir-faire pour construire des canaux et des déploiements de données robustes capables d’exécuter les modèles en production dans des conditions exigeantes. Leur travail repose sur une connaissance fine, et souvent chèrement acquise, de la façon dont sont déployés et gérés les logiciels modernes.

Le scientifique des données construit des canaux et des déploiements de données robustes capables d’exécuter les modèles en production dans des conditions exigeantes.

Page 11: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

11 Livre blanc Le scientifique, l’ingénieur et l’entrepôt11 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

À l’entrepôt de données : le modèle

Page 12: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

12 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Le schéma du modèle est crucial, car il représente la façon dont les différentes sources de données et les systèmes opérationnels sont liés entre eux et il tient également compte de toutes les règles d’affaires concernées. Par exemple, c’est à partir du modèle de données de l’entreprise que nous savons que les magasins de Francfort se situent en Allemagne pour les questions fiscales, mais dans la région de DACH en ce qui concerne le marketing. En même temps, les employés qui travaillent là-bas sont supervisés par l’équipe des ressources humaines de la région EMEA. Ces relations peuvent ne pas apparaître dans les données non intégrées recueillies à partir des systèmes opérationnels, mais peuvent être représentées dans le modèle de données de l’entreprise. Pourtant, les entreprises modernes souhaitent aussi stocker et gérer ces données brutes, et pas seulement aux fins de l’apprentissage automatique qui, comme nous l’avons dit, s’applique en deçà du modèle d’affaires standardisé. C’est l’une des raisons pour lesquelles le lac de données est l’une des innovations architecturales les plus réussies des dernières années. Un lac de données stocke les données (souvent en grandes quantités) dans leur état naturel. Ces données peuvent être en désordre et non structurées, mais constituent la matière première de la science des données. Alors que le scientifique des données sera ravi de travailler avec des données brutes dans un lac de données, les concepteurs de rapports et les utilisateurs de veille stratégique souhaiteront plus probablement utiliser des données nettoyées et modélisées pour refléter les exigences et les normes de l’entreprise. Néanmoins, l’entrepôt de données moderne peut être une source de connaissances et de données utile. Reportez-vous au menu latéral : L’entrepôt de données comme source pour la science des données.

Un lac de données stocke les données (souvent en grandes quantités) dans leur état naturel.

Page 13: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

13 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Comme dans tout projet d’analyse de données, l’identification et l’accès aux sources des données sont des éléments fondamentaux. La plupart des scientifiques des données aiment travailler avec des données brutes, issues de fichiers journaux et de systèmes de production, mais l’entrepôt de données moderne peut être utile à cette phase de deux façons.

Tout d’abord, le modèle de données de l’entreprise représente en lui-même une compréhension particulière des opérations commerciales. Un schéma en étoile ne contient pas seulement des données. La modélisation des faits reflète la façon dont une organisation mesure ses activités. La modélisation des dimensions reflète la façon dont la direction perçoit la structure interne de l’entreprise et ses relations avec ses clients, ses fournisseurs et d’autres entités. En d’autres termes, un scientifique des données intelligent peut tout savoir sur une entreprise, jusque dans ses angles morts, à partir de l’entrepôt de données.

Deuxièmement, l’entrepôt de données sert les données qui sont passées par un processus de regroupement et de nettoyage. Cela concerne tout particulièrement les données de dimension. Les noms des services, les zones géographiques, les intitulés de poste et toutes les autres dimensions ont été réconciliés et approuvés. Même si le scientifique des données souhaite principalement utiliser des données numériques brutes ou textuelles à des fins d’analyse, cette source de données de référence peut l’aider à vérifier que son modèle est bien compatible avec les conditions de l’activité.

L’entrepôt de données fournit des modèles

Comme nous l’avons vu, l’entrepôt de données fournit des données structurées selon le modèle de données de l’entreprise, mais il peut aussi prendre en charge d’autres modèles. Les analystes d’entreprise qui utilisent des applications en libre-service, comme Microsoft Power BI, créent souvent leurs propres modèles qui peuvent être temporaires ou limités à l’utilisation dans leur service. Par exemple, une équipe marketing peut créer un modèle pour une campagne estivale qui ne sera utilisé que pendant quelques mois et qui intègre des données de feuilles de calcul Microsoft Excel, comprenant quelques calculs ponctuels. Toutefois, lors de la campagne, ces données peuvent également s’intégrer à des données client ou à des données en stock issues de l’entrepôt de données infonuagique Azure. Même si le modèle de campagne n’existe que dans Power BI ou dans Microsoft Analysis Services, l’intégration de l’entrepôt de données est essentielle pour sa cohérence, sa gouvernance et son évolutivité.

L’intégration de l’entrepôt de données est essentielle. Un scientifique des données intelligent peut tout savoir sur une entreprise, jusque dans ses angles morts, à partir de l’entrepôt de données.

L’entrepôt de données comme source pour la science des données

Page 14: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

14 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Il est également utile que l’entrepôt de données moderne fournisse des modèles prédictifs développés grâce à l’apprentissage automatique. Par exemple, il est possible d’élaborer un modèle de perte de clientèle à l’aide d’expériences. Celui-ci peut par exemple prédire la probabilité qu’un client abandonne vos services dans les 60 jours suivants. L’exécution de l’algorithme, éventuellement une régression logistique ou un arbre de décision, renvoie un score pour chaque client; ce score peut être stocké dans l’entrepôt de données avec d’autres attributs. Maintenant, le travail de nos scientifiques des données est facilement accessible à n’importe quel analyste d’entreprise ou opérateur de centre d’appels. Il peut y accéder à l’aide de ses outils ordinaires comme Microsoft Power BI ou Microsoft Dynamics, avec une grande évolutivité et facilité de gouvernance, par l’intermédiaire de l’entrepôt de données d’entreprise.

Pour mieux comprendre comment travaillent les scientifiques des données et les ingénieurs des données dans cet environnement, il est bon d’examiner plus en détail leur flux de travail et leurs outils.

L’entrepôt de données infonuagiqueOn décrit souvent les scientifiques des données comme des personnes travaillant avec de très gros volumes de données. Ils ne sont pourtant pas les seuls dans ce cas. Nous constatons également que le volume de données géré par les entrepôts connaît une augmentation considérable. C’est particulièrement vrai lorsque les données factuelles (les mesures de l’activité) comprennent par exemple des fichiers journaux de l’Internet des objets, de l’activité Web ou des applications mobiles. Tous peuvent générer des millions de nouveaux points de données chaque jour. Il est également vrai que d’importantes quantités de données sont générées dans le nuage par les applications de logiciel-service. Ces grands jeux de données peuvent poser des problèmes aux équipes informatiques qui essaient de les stocker et de les administrer sur place. Le budget informatique doit alors englober le matériel, les outils et le temps d’administration requis pour traiter les données selon une gouvernance appropriée et une haute disponibilité.

Ces dernières années, l’entrepôt de données infonuagique s’est développé comme une réponse efficace à ces problèmes. Dans le jargon de la profession, Azure Synapse Analytics est dit élastique. En d’autres termes, il s’agrandit ou rapetisse sans effort ni planification ou investissement matériel de la part des équipes informatiques. L’élasticité dynamique est un avantage technique clé du stockage de données dans le nuage. Mais ses avantages financiers sont également attrayants.

L’élasticité dynamique est un avantage technique clé du stockage de données dans le nuage.

Page 15: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

15 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Un autre avantage du stockage de données infonuagique est la simplicité et la rapidité du déploiement des modèles et des applications. La conception des systèmes d’analyse est itérative : les modèles évoluent au fil du temps et au fil de l’ajout de nouvelles sources de données. Il s’agit d’un critère incontournable pour de nombreuses équipes qui doivent choisir quand utiliser une solution sur place ou dans le nuage.

Auparavant, la sécurité des services infonuagiques était un sujet courant d’inquiétude dans certains services informatiques. Toutefois, les attitudes évoluent rapidement, car il devient évident que les fournisseurs de services infonuagiques peuvent développer ou déployer de nouvelles technologies de sécurité plus rapidement que les équipes internes. Cela garantit que votre entrepôt de données infonuagique est continuellement mis à jour selon les pratiques exemplaires du secteur. Vous trouverez davantage d’informations sur les pratiques exemplaires de sécurité ici : Sept principes clés de la sécurité et de la confidentialité dans le nuage.

Enfin, dans l’économie mondialisée d’aujourd’hui, la plupart des services informatiques trouvent plus facile de fournir à une main-d’œuvre disséminée dans le monde entier des modèles et des données homogènes à l’aide d’un entrepôt de données infonuagique. Azure Synapse Analytics garantit la réplication, la cohérence et la disponibilité de vos services avec un minimum d’effort de votre part.

L’architecture de la science des données dans l’entrepriseLe schéma suivant montre une vue générale d’une architecture efficace pour la science des données à l’échelle voulue. En son coeur se trouve l’entrepôt de données moderne.

Figure 1 : L’entrepôt de données moderne et les processus de la science des données

Auparavant, la sécurité des services infonuagiques était un sujet courant d’inquiétude dans certains services informatiques.

AzureData Factory

AzureDatabricks(Prep-only)

Azure DataLake Storage

Azure SynapseAnalytics

Power bi

Ingest & Prep

Store

Model & Serve VisualizeJournaux (non structurés)

Supports (non structurés)

Fichiers (non structurés)

Applications d’affaires et personnalisées (structurées)

Azure Databricks (prép. uniquement)

Azure Synapse Analytics

Power BI

Assimilation et préparation

Stockage

Modélisation et services Visualisation

Page 16: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

16 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Assimilation et stockage des données

Maintenant que nous avons évoqué la nécessité de disposer de données brutes, vous allez comprendre l’aspect capital de cette phase pour le processus de la science des données dans l’entreprise. L’objectif est de rassembler des données structurées issues d’applications professionnelles, ainsi que des données non structurées et semi-structurées issues de journaux et d’autres supports, à l’aide de sources sur place et dans le nuage.

En général, il convient d’abord de préparer les données. Les praticiens désignent parfois cette phase comme la bataille des données, car les tâches afférentes peuvent être complexes et laborieuses. Par exemple, il se peut que vous ayez à transformer des types de données d’un format à un autre, de gérer les valeurs manquantes, de filtrer les valeurs aberrantes et peut-être, de procéder à des regroupements.

Azure Data FactoryAzure Data Factory vous permet de créer, planifier et orchestrer les transformations des données avec SQL Server Integration Services, la copie de données en bloc et des scripts Python. Et, comme nous l’avons déjà décrit, l’entrepôt Azure Cloud Data Warehouse peut intervenir utilement ici, en fournissant des données de référence en cas de besoin.

Si le projet en cours est seulement mené à des fins de recherche, ce travail peut être effectué par des scientifique des données. Toutefois, si ces recherches aboutissent à des résultats convaincants qui peuvent se montrer utiles en production, cette phase devra être revisitée par l’ingénieur des données et le scientifique des données ensemble, afin qu’ils livrent un processus suffisamment robuste pour être exploité dans l’entreprise.

Bien souvent, le projet n’est pas seulement orienté vers la recherche, mais comprend un objectif à long terme d’élaboration d’un processus exploitable en production. Dans de tels cas, le scientifique des données et l’ingénieur des données doivent se consulter régulièrement pour repérer les problèmes potentiels et choisir suffisamment tôt des solutions de rechange.

Il se peut que vous ayez à transformer des types de données d’un format à un autre, de gérer les valeurs manquantes, de filtrer les valeurs aberrantes et, peut-être, de procéder à des regroupements.

Page 17: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

17 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Azure Data LakeBien que cet article se concentre sur le rôle d’Azure Synapse Analytics, dans la plupart des scénarios concernant l’analyse de données avancée, les données extraites avec Azure Data Factory et préparées par celui-ci seront hébergées dans un stockage Azure Data Lake. Cela sera le cas même pour les données qui auront elles-mêmes été extraites d’un lac de données. En fait, la plupart des lacs de données d’entreprise comportent plusieurs zones :

Une zone de débarquement où les données brutes sont ingérées et stockées. Cette zone sert de source de données, à la fois pour les scientifiques des données et les ingénieurs des données qui utilisent les données sous leur forme brute.

Une zone de développement où les scientifiques des données et les ingénieurs, et parfois les développeurs d’applications, peuvent stocker leurs données de travail préparées.

Une zone de confiance où les utilisateurs qui travaillent avec des outils de visualisation ou des applications de veille stratégique (Power BI, par exemple) peuvent accéder à des sources exclusives, comme les données des réseaux sociaux, qui ont été collectées et traitées par le service informatique à leur intention. Il est tout à fait habituel de trouver des données provenant d’une zone, préparées d’une certaine manière et éventuellement intégrées à des données externes, puis débarquées dans une autre zone pour être réutilisées.

Il est tout à fait habituel de trouver des données provenant d’une zone, préparées d’une certaine manière et éventuellement intégrées à des données externes, puis débarquées dans une autre zone pour être réutilisées.

17 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Page 18: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

18 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Préparation des données et entraînementLa préparation et l’exploration des données peuvent être des tâches laborieuses. L’art (plutôt que la science) de l’analyse repose sur la connaissance acquise par l’expérience, et parfois sur une pointe d’intuition, de ce qu’il faut rechercher dans les données et où regarder pour le trouver.

Une partie de l’exploration des données est réalisée visuellement, mais on utilise également des scripts pour analyser les corrélations entre valeurs, pour détecter les valeurs aberrantes et pour comprendre la distribution des valeurs.

Il convient de souligner qu’à ce stade, la visualisation n’implique par forcément la création de graphiques dans Power BI ou d’autres outils de veille stratégique. Le plus souvent, le scientifique des données visualise les jeux de données brutes au cours de leur préparation à l’aide d’un script de visualisation comme Matplotlib ou Plotly en Python. Les outils de veille stratégique interviennent généralement plus tard dans le processus, au moment de présenter les données à des utilisateurs moins avertis. Au contraire, notre priorité dans cette phase de la science des données est l’exploration et la détection de tendances dans les données, plutôt que la communication de résultats.

Après avoir exploré vos données, sélectionné les fonctions les plus susceptibles d’être importantes et étiqueté les données, vous êtes prêt à créer un modèle. Pour ce faire, vous devez choisir une technique d’apprentissage automatique, comme un algorithme spécifique.

De plus en plus, face à la lenteur et aux tâtonnements nécessaires de la préparation manuelle des données, même les scientifiques des données les plus expérimentés font appel à l’apprentissage automatique automatisé pour les aider. Avec l’automatisation, il est possible de créer rapidement de nombreux modèles, comportant de nombreux algorithmes et variations de la manière dont ces derniers examinent les données. Le résultat n’est pas un seul modèle conçu par un spécialiste (reflétant les biais et préférences de celui-ci), mais un large éventail de modèles générés par le système lui-même. Vous pouvez alors les comparer et les sélectionner en fonction des critères de votre projet. Le résultat est généralement plus précis, tout en demandant moins de temps d’expérimentation. L’apprentissage automatique automatisé permet également de mener beaucoup plus d’expériences et aide à garantir de ne négliger aucune possibilité intéressante.

L’apprentissage automatique automatisé permet également d’exécuter beaucoup plus d’expériences et aide à garantir de ne négliger aucune possibilité intéressante.

Page 19: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

19 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Service Azure Machine LearningLe service Azure Machine Learning est une plateforme infonuagique utilisée par les scientifiques des données pour développer et automatiser des modèles d’apprentissage automatique utilisant une variété de ressources ou d’environnements. Ces ressources (les cibles de calcul) peuvent être des machines locales ou des ressources infonuagiques, et souvent Azure Databricks.

L’automatisation de l’apprentissage automatique est prise en charge par un flux de travail simple qui sélectionne les données, configure la cible de calcul et définit différents paramètres, comme le nombre d’itérations à exécuter et les éléments de mesure à observer pour déterminer quel modèle est le meilleur.

L’un des principaux avantages du service Azure Machine Learning réside dans le fait qu’une fois que vous avez créé un bon modèle, vous pouvez facilement l’utiliser dans un service Web ou à partir d’un outil de veille stratégique comme Power BI.

Azure DatabricksAzure Databricks est une plateforme d’analyse de données basée sur Apache Spark, largement utilisée dans l’apprentissage automatique pour l’exploration et la modélisation. Il permet au scientifique des données et à l’ingénieur des données d’écrire du code dans des blocs-notes en Java, Python, R, Scala ou SQL, tout en tirant parti de la puissance du traitement distribué avec la gestion automatisée des grappes.

Les environnements et les grappes Databricks peuvent être créés et gérés automatiquement à l’aide de modèles Azure Resource Manager et de scripts PowerShell. Azure Databricks prend également en charge différents types de visualisations prêtes à l’emploi, grâce à sa fonction d’affichage.

Il est bon de se rappeler que le travail effectué à cet endroit par un scientifique des données est généralement orienté vers la réalisation de ses expériences. Il est trop tôt pour penser à des notions comme l’évolutivité ou la résilience. Toutefois, si une expérience aboutit à une découverte intéressante pour l’entreprise, ce sera au tour de l’ingénieur des données de déployer le projet. Dans ce cas, il ne sera pas forcément nécessaire de refaire ce travail. Azure Data Factory dispose de connecteurs qui permettent à un ingénieur des données de déclencher l’exécution des blocs-notes Azure Databricks dans un canal. Il peut affecter une certaine puissance de calcul pour adapter l’exécution des blocs-notes sur une grappe. Avec cette capacité, l’ingénieur peut exécuter des blocs-notes de manière cohérente pour l’entreprise, en les orchestrant avec d’autres processus.

L’un des principaux avantages du service Azure Machine Learning réside dans le fait qu’une fois que vous avez créé un bon modèle, vous pouvez facilement l’utiliser dans un service Web ou à partir d’un outil de veille stratégique comme Power BI.

Page 20: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

20 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Fourniture et présentation de modèlesLe rôle classique d’un entrepôt de données d’entreprise consiste à fournir un modèle canonique de l’entreprise : une vue validée de toutes les données nécessaires pour analyser vos processus et en rendre compte. Ce modèle doit intégrer de nombreuses sources de données provenant des nombreux départements de l’organisation. Le travail consistant à intégrer et conformer ces données, pouvant impliquer de nombreuses tâches ETC (Extraire-Transformer-Charger) et zones de transit, en plus de la récupération des erreurs et de la planification, est plus complexe que ce qu’est capable de gérer Power BI. Azure Synapse Analytics fournit des modèles de données d’entreprise pour tous les scénarios, notamment en tant que source de données pour la veille stratégique et Power BI. Les modèles de veille stratégique d’aujourd’hui sont généralement développés par les utilisateurs eux-mêmes, à l’aide d’outils comme Power BI. Par conséquent, nous appelons communément ces applications la veille stratégique en libre-service. Un utilisateur se connecte à des sources de données qui peuvent être simples ou nécessiter une certaine intégration. Mais avant tout, il effectue ce travail par lui-même avec son propre ensemble d’outils. Il n’en reste pas moins que l’entrepôt de données infonuagiques a un rôle fondamental à jouer dans la gestion efficace de la veille stratégique en libre-service.

Avec Power BI, lorsque vous vous connectez à votre source de données, vous importez souvent une copie des données là où vous pourrez travailler dessus. Bien que cela soit possible en vous connectant à Azure Synapse Analytics, il y a d’autres possibilités si vous souhaitez créer des rapports dynamiques à partir de votre modèle Azure Synapse Analytics. Cela peut être particulièrement utile pour les scénarios en temps quasi-réel comme la génération de rapport sur les données provenant de l’Internet des objets ou du commerce en ligne. Pour de tels scénarios, que nous décrirons plus en détail lorsque nous parlerons de la diffusion de données dans Azure Databricks, vous pouvez vous connecter directement à la source de données à l’aide de DirectQuery plutôt que d’importer ces données dans Power BI. Avec DirectQuery, les requêtes sont renvoyées à votre Azure Synapse Analytics en temps réel pendant que vous explorez les données. De cette manière, vous alliez la simplicité et la convivialité de Power BI pour les utilisateurs professionnels avec l’évolutivité exceptionnelle d’un entrepôt de données infonuagiques en arrière-plan.

Vous alliez la simplicité et la convivialité de Power BI pour les utilisateurs professionnels avec l’évolutivité exceptionnelle d’un entrepôt de données infonuagiques en arrière-plan.

Page 21: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

21 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Le résultat d’un projet de science des données est souvent un modèle prédictif qui peut être appliqué en production. Par exemple, un modèle qui définit des groupes de clients en fonction de leurs caractéristiques communes peut être utile aux services des ventes, du marketing et du soutien technique pour aider à définir le type d’un nouveau client parmi les modèles commerciaux existants et mieux le servir. Étant donné que les utilisateurs professionnels ne sont pas des scientifiques des données, il nous faut trouver un moyen de leur fournir des informations prédictives à travers des outils qu’ils utilisent (comme Power BI) qui se connectent majoritairement aux données par des modèles de veille stratégique ou par l’entrepôt de données moderne.

Nous devons maintenant nous pencher sur la manière d’intégrer les modèles d’apprentissage automatique dans cette architecture classique.

Fourniture de données issues d’Azure Databricks avec Azure Synapse AnalyticsAzure Synapse Analytics a plusieurs rôles importants à jouer dans le processus de l’apprentissage automatique de l’entreprise.

Nous avons déjà mentionné qu’il peut constituer une source utile de référence ou de données maîtres pour certains scénarios. Mais sa véritable puissance se déploie lorsqu’il fournit des modèles et des données aux utilisateurs professionnels à des fins d’analyse.

Si vous avez utilisé Azure Databricks pour la préparation, la transformation et le nettoyage des données, le jeu de données qui en résulte peut être utile, non seulement pour l’apprentissage automatique, mais aussi pour d’autres cas d’utilisation opérationnels ou de génération de rapport. Par exemple, un jeu de données utilisé pour analyser les ventes de produits aux clients en vue d’optimiser les offres spéciales peut être aussi intégré aux données CRM pour créer une vue unique et convaincante de chaque client et de son activité. Ce nouveau jeu de données combinées peut être utilisé avec des outils visuels comme Power BI.

Pour ce faire, vous pouvez charger de grandes quantités de données issues d’Azure Data Bricks dans Azure Synapse Analytics à l’aide d’un connecteur SQL Synapse Analytics spécialisé et hautement efficace. Ce connecteur utilise le Stockage de grands objets binaire d’Azure et Polybase (une technologie de virtualisation de données de Microsoft) dans Synapse Analytics pour transférer de grands volumes de données entre une grappe Databricks et une instance Synapse Analytics. Dans certains scénarios, où les données source sont diffusées à partir d’un système constamment actualisé (ce qui est souvent le cas dans le secteur de la distribution en ligne ou de l’Internet des objets), vous pouvez diffuser les données directement vers Azure Synapse Analytics à l’aide de flux structurés. Cela permet aux utilisateurs professionnels de travailler avec des données en temps quasi réel dans Azure Synapse Analytics.

Étant donné que les utilisateurs professionnels ne sont pas des scientifiques des données, il nous faut trouver un moyen de leur fournir des informations prédictives.

Page 22: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

22 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Fourniture de modèles d’apprentissage automatique avec Azure Synapse AnalyticsComme nous l’avons mentionné précédemment, l’entrepôt de données infonuagiques peut fournir les résultats de l’apprentissage automatique aux utilisateurs professionnels. C’est particulièrement vrai lorsqu’un algorithme génère des scores.

Par exemple, lors de l’exécution d’un bloc-notes, Azure Databricks utilise un modèle Spark MLlib entraîné pour générer la prédiction des observations dans le jeu de données utilisé pour le calcul du score. Ces prédictions sont stockées dans le magasin de résultats, qui est un nouveau jeu de données dans le magasin de données Databricks. Ces résultats peuvent être chargés dans Azure Synapse Analytics à l’aide du connecteur décrit ci-dessus.

Avec le service Azure Machine Learning, vous pouvez utiliser le module Modèle de score pour générer des prédictions à l’aide d’un modèle de classement ou de régression entraîné. Le jeu de données affecté d’un score résultant du module peut ensuite être chargé dans Azure Synapse Analytics.

Il est intéressant de noter que différents modèles génèrent différents types de scores. Pour les modèles de classement, le modèle de score génère une valeur prédite pour la classe, ainsi que la probabilité de la valeur prédite. Pour les modèles de régression, le modèle de score génère uniquement la valeur numérique prédite. Pour les modèles de classement d’images, le score peut être la classe de l’objet dans l’image, ou une valeur booléenne indiquant si une caractéristique particulière a été trouvée.

Certains autres types de modèles génèrent leurs propres types de sortie, autres que des scores, mais les résultats peuvent être chargés dans Azure Synapse Analytics et utilisés de manière similaire.

Un système de recommandation signale un ou plusieurs éléments aux utilisateurs du système. Il peut s’agir, entre autres exemples courants, de films, de restaurants, de livres ou de chansons. La plupart des gens ont déjà utilisé ces systèmes. Mais l’utilisateur peut également être un groupe de personnes, ou une entité quelconque qui a des préférences. L’entrepôt de données moderne est une source de données extraordinaire pour les systèmes de recommandation, car il contient très certainement déjà des données nettoyées et préparées pour les utilisateurs, les articles et les ventes, ou des sélections qui les relient. De même, lorsque vous générez des résultats, il peut être très utile d’enregistrer ces nouveaux points de données dans votre schéma d’entrepôt. Ils deviennent alors immédiatement utilisables (et facilement compréhensibles) par les analystes d’entreprise, les équipes commerciales et les opérateurs de centres d’appels.

L’entrepôt de données moderne est une source de données extraordinaire pour les systèmes de recommandation, car il contient très certainement déjà des données nettoyées et préparées pour les utilisateurs, les articles et les ventes, ou des sélections qui les relient.

Page 23: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

23 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Azure Machine Learning comporte l’outil de recommandation Matchbox, un système évolué combinant deux approches différentes à l’aide d’une technique hybride automatisée. La recherche à l’origine de cet algorithme fascinant est expliquée en détail ici : Matchbox : recommandations bayésiennes à grande échelle.

L’outil de recommandation Matchbox génère différents jeux de données selon le scénario choisi :

Prédiction d’évaluations génère trois colonnes, contenant l’utilisateur, l’article et l’évaluation prédite pour chaque utilisateur et article entrés.

Articles recommandés renvoie un jeu de données répertoriant les articles recommandés pour chaque utilisateur, en fonction du nombre de recommandations demandé.

Recherche d’utilisateurs associés répertorie les utilisateurs qui sont en relation avec chaque utilisateur dans le jeu de données d’entrée, en fonction du nombre de résultats demandé.

Recherche d’articles associés renvoie les articles en relation avec chaque article présent dans les données source.

Tous ces jeux de données peuvent être facilement chargés dans Azure Synapse Analytics.

23 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Page 24: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

24 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Un autre type de modèle couramment utilisé est le regroupement. Les modèles de regroupement rassemblent les points de données similaires en groupes. On appelle parfois cela de la segmentation.

Les algorithmes de regroupement utilisent les caractéristiques d’éléments individuels pour détecter les éléments similaires. Par exemple, les articles d’un entrepôt d’expédition peuvent être regroupés par taille, poids ou destination. Les personnes peuvent être regroupées selon leurs caractéristiques démographiques.

Azure Machine Learning comprend un module Affecter à une grappe utilisable avec un modèle de regroupement entraîné. Ce module renvoie un jeu de données contenant les affectations de grappe pour chaque cas et une mesure de distance qui indique la proximité entre chaque cas et le centre de la grappe.

Le regroupement est un peu différent des autres techniques décrites, en ce sens qu’il est le plus utile au stade de l’exploration. Il permet de trouver des schémas intéressants dans les données et est souvent utilisé pour explorer les données avant de les analyser avec d’autres algorithmes.

Néanmoins, il existe certains scénarios d’utilisation, notamment dans la gestion de la relation client, où les algorithmes de regroupement peuvent servir à segmenter la clientèle, par exemple en Clients fidèles, Clients occasionnels et Non clients. Dans l’analyse des données client, le fait de savoir si une personne passe d’une grappe à une autre peut être intéressant, car cela peut signifier quelque chose quant à sa relation avec l’entreprise. Il est utile dans ce cas de charger à nouveau le jeu de résultats dans Azure Synapse Analytics.

[Le regroupement] permet de trouver des schémas intéressants dans les données et est souvent utilisé pour explorer les données avant de les analyser avec d’autres algorithmes.

Page 25: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

25 Livre blanc Le scientifique, l’ingénieur et l’entrepôt25 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Conclusion

Page 26: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

26 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Ce livre blanc est une occasion de réflexion sur l’apparition du rôle de l’ingénieur des données dans l’analyse d’entreprise, et d’une mise en avant de l’importance de l’entrepôt de données infonuagiques pour soutenir ce rôle. Ces deux sujets sont étroitement liés.

Tout d’abord, le rôle d’ingénieur des données est apparu parce que les entreprises doivent mettre en pratique la science des données avec une gouvernance, une évolutivité et une résilience de calibre entreprise. C’est trop demander au scientifique des données spécialisé que d’endosser ces contraintes en plus de son travail d’expérimentation et de recherche. C’est là qu’intervient l’ingénieur des données.

Parallèlement à l’apparition du rôle de l’ingénieur des données, l’entrepôt de données infonuagiques s’est aussi développé. Ses objectifs technologiques reflètent les préoccupations de l’ingénieur des données. L’entrepôt de données infonuagiques permet au service informatique de traiter les diverses manifestations des modèles d’affaires (modèles de données, modèles de veille stratégique, renseignements de l’apprentissage automatique), le tout avec une gestion et une gouvernance de classe entreprise, ainsi qu’avec l’évolutivité et l’élasticité attendues du nuage.

Azure Synapse Analytics de Microsoft est parfaitement adapté à ce nouveau paysage, grâce à son intégration en profondeur avec les autres éléments de la plateforme Azure, à ses fonctions d’entreprise fondées sur une plateforme de base de données chef de file du marché, à ses performances et à sa sécurité exceptionnelles.

Le rôle d’ingénieur des données est apparu parce que les entreprises doivent mettre en pratique la science des données avec une gouvernance, une évolutivité et une résilience de calibre entreprise.

Page 27: Le scientifique, l’ingénieur et l’entrepôt · Le flux de travail d’un scientifique des données, comme décrit ci-dessus, diffère aussi considérablement de celui d’autres

27 Livre blanc Le scientifique, l’ingénieur et l’entrepôt

Dans cet ouvrage, nous avons examiné le nouveau rôle de l’ingénieur des données. Celui-ci travaille aux côtés de l’équipe de science des données pour mettre en production ses modèles d’analyse avancée. Nous avons en particulier mis l’accent sur l’importance de pouvoir exécuter ces modèles avec une évolutivité et une résilience de classe entreprise.Toutefois, de nombreuses entreprises n’ont pas les ressources nécessaires pour employer à la fois un scientifique des données et un ingénieur des données. Pourtant, en ces temps de données massives, de mondialisation et de commerce en ligne, même les équipes de taille modeste sont aux prises avec des problèmes difficiles. Pour de telles situations, quatre recommandations clés vous permettront de répondre aux problèmes que nous avons exposés dans ce livre blanc.Premièrement, formez les membres de votre équipe informatique aux notions de base de l’apprentissage automatique. Ils n’ont pas besoin de devenir des experts, mais plus une équipe informatique est familière avec la méthodologie de la science des données, le fonctionnement des modèles et les données nécessaires, mieux elle peut aborder efficacement l’apprentissage automatique. De nombreux cours sont offerts en ligne gratuitement ou à très bas prix. Ils couvrent au minimum les concepts de base et peuvent même être très avancés. Deuxièmement, le scientifique des données devra accepter qu’il ait beaucoup de travail à faire pour mettre les modèles en production. Ce travail nécessitera de coopérer étroitement avec le service informatique pour s’assurer que les canaux de données, les scripts, les blocs-notes, etc. sont compatibles avec l’entreprise. Le scientifique des données devra également se familiariser avec les notions de gouvernance et de conformité et avec les besoins de sécurité de l’entreprise. Ce livre blanc, Sept principes clés de la sécurité et de la confidentialité dans le nuage, constitue un bon point de départ. Troisièmement, le scientifique des données devra se charger d’une partie des travaux d’ingénierie des données. Ce scientifique des données sera le premier embauché. Mais si vous souhaitez sérieusement élargir votre utilisation de l’apprentissage automatique (ce qui est hautement probable au fur et à mesure de votre progression), la prochaine personne que vous embaucherez sera un ingénieur des données, pas un autre scientifique des données. Enfin, le choix des outils et des plateformes que vous ferez sera la clé de voûte de votre réussite. Azure Synapse Analytics et le service Azure Machine Learning, avec Power BI en façade, sont simples à déployer et à maintenir. De plus, ils peuvent évoluer et croître au rythme de votre activité et ce, en toute efficacité. Il n’existe pas de meilleure plateforme pour commencer à pratiquer la science des données.

Commencer avec 12 mois de services gratuits

Communiquez avec un spécialiste des ventes Azure sur la tarification, les pratiques exemplaires en matière d’analyse, la conception d’une démonstration de faisabilité et plus encore

Découvrez pourquoi les clients choisissent Azure pour leurs analyses

Accélérez l’analyse de vos données avec un entrepôt de données entièrement géré

La très petite entreprise