TalendOpenStudio BigData GettingStarted 5.3.0 FR

Talend Open Studiofor Big DataGuide de prise en main

5.3.0

Talend Open Studio for Big Data

Convient la version 5.3.0. Annule et remplace toute version antrieure du Guide de prise en main.

Date de publication : 25 avril 2013

Copyleft

Cette documentation est mise disposition selon les termes du Contrat Public Creative Commons (CPCC).

Pour plus dinformations concernant votre utilisation de cette documentation en accord avec le Contrat CPCC,consultez : http://creativecommons.org/licenses/by-nc-sa/2.0/

Mentions lgales

Tous les noms de marques, de produits, les noms de socits, les marques de commerce et de service sont laproprit de leurs dtenteurs respectifs.

Guide de prise en main de Talend Open Studio for Big Data

Table des matiresPrface ................................................. v

1. Informations gnrales . . . . . . . . . . . . . . . . . . . . . . . v1.1. Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v1.2. Public vis . . . . . . . . . . . . . . . . . . . . . . . . . . . . v1.3. Conventions typographiques . . . . . . . . . . v

2. Remarques et Support . . . . . . . . . . . . . . . . . . . . . . . vichapitre 1. Introduction aux solutionsBig Data de Talend ................................ 1

1.1. Hadoop et studio Talend . . . . . . . . . . . . . . . . . . . . 21.2. Architecture fonctionnelle dessolutions Big Data de Talend . . . . . . . . . . . . . . . . . . . . 2

chapitre 2. Gestion des Jobs dans lestudio Talend ........................................ 5

2.1. Excuter un Job distance dans unserveur HDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.1. Configurer les informations dela connexion HDFS . . . . . . . . . . . . . . . . . . . . . . . 62.1.2. Excuter un Job sur le serveurHDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.1.3. Planifier les excutions d'unJob . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.1.4. Monitorer le statut desexcutions de Job . . . . . . . . . . . . . . . . . . . . . . . . 14

chapitre 3. Mapping de flux Big Data ...... 173.1. Interface du tPigMap . . . . . . . . . . . . . . . . . . . . . . 183.2. Prsentation du fonctionnement dutPigMap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2.1. Configurer les oprations dejointure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2.2. Capturer les enregistrementsrejets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.2.3. Editer les expressions . . . . . . . . . . . . . 21

annexe A. Exemple de Jobs Big Data ....... 25A.1. Rassembler des informationsconcernant le trafic Web l'aide d'Hadoop . . . . . . 26

A.1.1. Dcouvrir le scnario . . . . . . . . . . . . . 26A.1.2. Transformer le scnario enJobs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26


Prface

1. Informations gnrales

1.1. ObjectifSauf mention contraire, dans ce guide, les termes "studio Talend" et "studio" font rfrence tout studioTalend contenant des spcificits Big Data.

Le prsent Guide de prise en main explique comment utiliser les fonctions spcifiques Big Data dustudio Talend dans un contexte oprationnel normal.

Les informations contenues dans ce document s'appliquent la version 5.3.0 du studio Talend.

1.2. Public visCe guide sadresse aux utilisateurs et aux administrateurs du studio Talend.

Dans ce document, linterface prsente par le biais des captures dcran peut tre lgrement diffrente dela vtre.

1.3. Conventions typographiquesCe guide utilise les conventions typographiques suivantes :

texte en gras : boutons et champs dune fentre ou dune bote de dialogue, touches du clavier,menus et options des menus ;

texte en [gras] : titre des fentres, assistants et botes de dialogue ;

texte en courier : paramtres systme renseigns par lutilisateur ;

texte en italique : nom des fichiers, schmas, colonnes, lignes ou variables dont il est question dansles exemples utiliss.

Licne introduit un paragraphe apportant une information supplmentaire sur un pointimportant. Elle introduit galement les commentaires relatifs un tableau ou une image.

Licne introduit un message apportant une information relative aux modalits dexcution,ou des recommandations particulires. Elle est galement utilise pour attirer lattention delutilisateur sur certaines informations ou situations particulirement importantes.

Remarques et Support

vi Guide de prise en main de Talend Open Studio for Big Data

2. Remarques et SupportVotre opinion nous intresse, nhsitez pas nous faire part de vos remarques, suggestions, requtesconcernant la documentation ou le produit, et obtenez le support de notre quipe Talend, sur le ForumTalend (en anglais) disponible ladresse :

http://talendforge.org/forum


Chapitre 1. Introduction aux solutions BigData de TalendLes collections de donnes des entreprises sont de plus en plus volumineuses et complexes, particulirement l're d'Internet. Il est de plus en plus difficile de traiter des ensembles de donnes si volumineux et si complexes, l'aide des outils de gestion traditionnels disponibles. Pour rpondre cette difficult, une nouvelle plateformed'outils "Big Data" a t cre, afin de grer de manire cohrente de trs grandes quantits de donnes, commela plateforme Apache Hadoop Big Data Platform.

Construit sur les solutions d'intgration de donnes de Talend, les solutions Big Data de Talend fournissent unoutil puissant permettant aux utilisateurs d'accder aux donnes volumineuses, de les transformer, dplacer et deles synchroniser, en tirant parti de la plateforme Apache Hadoop Big Data et en facilitant l'utilisation de cetteplateforme.

Ce guide traite uniquement des fonctionnalits Big Data de votre studio Talend. Par consquent, avant decommencer travailler avec des Jobs Big Data dans le studio, il recommand de lire le Guide utilisateur afin devous familiariser avec votre Studio.

Hadoop et studio Talend

2 Guide de prise en main de Talend Open Studio for Big Data

1.1. Hadoop et studio TalendLorsque des spcialistes en informatique parlent de Big Data, ils font gnralement rfrence des ensemblesde donnes si volumineux et si complexes qu'ils ne peuvent tre traits par les outils traditionnels de gestionde donnes. Ces grands volumes de donnes sont produits pour de nombreuses raisons. Des flux de donnespeuvent tre gnrs automatiquement (rapports, logs, vidosurveillance, etc.) ou peuvent rsulter d'analysesdtailles du comportement des clients (donnes relatives la consommation), des recherches scientifiques (legrand collisionneur de hadrons) ou de la consolidation de diffrentes sources de donnes.

Ces rfrentiels de donnes, contenant souvent des ptabytes et exabytes de donnes, sont difficiles analyser, carles systmes traditionnels de bases de donnes ne sont pas assez puissants. Les Big Data doivent tre analysesdans des environnements massivement parallles, dans lesquels la puissance de calcul est rpartie entre des milliersd'ordinateurs et les rsultats transfrs dans un emplacement central.

La plateforme Open source Hadoop est devenue la plus utilise pour l'analyse de donnes volumineuses. Cesystme de fichiers distribu divise les informations en plusieurs blocs de donnes et rpartit ces blocs dansdiffrents systmes du rseau (cluster Hadoop). En rpartissant cette puissance de calcul, Hadoop assure un hautniveau de disponibilit et de redondance. Un "nud matre" gre le stockage de fichiers ainsi que les requtes.

Hadoop est une plateforme de calcul trs puissante permettant de travailler avec des donnes volumineuses. Elleaccepte les requtes externes, les rpartit dans des ordinateurs individuels dans le cluster puis les excute enparallle sur les nuds individuels. Les rsultats sont retourns vers un emplacement central, o ils peuvent treanalyss.

Cependant, afin de tirer parti des avantages de Hadoop, les analystes de donnes doivent trouver un moyen decharger les donnes dans Hadoop et de les extraire de ce systme Open source. C'est l qu'intervient le studioTalend.

Construit sur les solutions d'intgration de donnes de Talend, le studio permet aux utilisateurs de grer facilementdes Big Data en tirant parti de Hadoop, de ses bases de donnes ou de ses technologies, notamment HBase,HCatalog, HDFS, Hive, Oozie et Pig.

Le studio Talend est un environnement de dveloppement graphique permettant les interactions avec des sourceset des cibles Big Data, sans ncessit d'apprendre ou d'crire du code. Une fois qu'une connexion Big Data estconfigure, le code sous-jacent est automatiquement gnr et peut tre dploy en tant que service, excutable ouJob standalone s'excutant nativement dans votre cluster Big Data - HDFS, Pig, HCatalog, HBase, Sqoop ou Hive.

Les solutions Big Data de Talend fournissent un support complet de toutes les plateformes principales de BigData. Les composants Big Data de Talend fonctionnent avec les distributions majeures de Hadoop, notammentCloudera, Greenplum, Hortonworks et MapR. Talend offre un support cl en main d'un grand nombre deplateformes Big Data des principaux vendeurs d'appliances, comme Greenplum, Netezza, Teradata et Vertica.

1.2. Architecture fonctionnelle des solutionsBig Data de TalendL'architecture fonctionnelle des solutions de Big Data de Talend est un modle architectural identifiant lesfonctions, les diffrentes interactions et les ressources informatiques ncessaires. Larchitecture globale isole lesdiffrentes fonctionnalits et les schmatise sous forme de blocs fonctionnels.

Le diagramme suivant illustre les principaux blocs fonctionnels concernant la gestion des Big Data dans le studio.

Architecture fonctionnelle des solutions Big Data de Talend

Guide de prise en main de Talend Open Studio for Big Data 3

Les trois diffrents types de blocs fonctionnels sont dfinis comme suit :

au moins un studio partir duquel vous pouvez crer des Jobs Big Data tirant parti de la plateforme ApacheHadoop afin de grer de grands volumes de donnes. Ces Jobs peuvent tre excuts localement ou dploys,planifis et excuts sur une grille (Grid) Hadoop via le systme d'ordonnancement Oozie de workflows intgrdans le studio.

un systme d'ordonnancement de workflows intgr dans le studio, travers lequel vous pouvez dployer,planifier et excuter des Jobs Big Data dans une grille Hadoop et monitorer le statut d''excution, ainsi que lesrsultats des Jobs.

Une grille (Grid) Hadoop indpendante du systme Talend pour grer d'importants ensembles de donnes.


Chapitre 2. Gestion des Jobs dans le studioTalendCe chapitre introduit les procdures de gestion de Jobs dans votre studio Talend, permet de tirer parti de laplateforme Big Data de Hadoop et de travailler avec des ensembles de donnes volumineux. Pour des procduresgnrales de cration, excution et gestion de Jobs Talend d'intgration de donnes, consultez le Guide utilisateurde votre studio Talend.

Avant de commencer travailler sur un Job dans le studio, vous devez vous tre familiaris avec son interfacegraphique. Pour plus d'informations, consultez les lments relatifs l'interface graphique dans l'annexe du Guideutilisateur de votre studio d'intgration.

Excuter un Job distance dans un serveur HDFS


2.1. Excuter un Job distance dans unserveur HDFSVotre studio Talend fournit un Oozie scheduler, une fonctionnalit qui vous permet de planifier les excutionsd'un Job que vous avez cr ou de l'excuter directement sur un serveur distant Hadoop Distributed File System(HDFS) et de monitorer le statut d'excution de votre Job. Plus plus d'informations concernant Apache Oozie etHadoop, consultez http://oozie.apache.org/ et http://hadoop.apache.org/ (en anglais).

Si la vue Oozie scheduler ne s'affiche pas, cliquez sur Window > Show view et slectionnez Talend Oozie dans la botede dialogue [Show view] afin de l'afficher dans la zone des onglets de configuration.

2.1.1. Configurer les informations de la connexionHDFSAvant d'excuter ou de planifier les excutions d'un Job sur un serveur HDFS, vous devez d'abord configurer lesdtails de la connexion HDFS, soit dans la vue Oozie scheduler, soit dans les prfrences du studio, puis spcifierl'emplacement o sera dploy votre Job.

2.1.1.1. Dfinir les dtails de la connexion HDFS dans la vueOozie scheduler

Afin de configurer les dtails de la connexion HDFS dans la vue Oozie scheduler procdez comme suit :

1. Cliquez sur la vue Oozie scheduler en bas de l'espace de modlisation graphique.

2. Cliquez sur Setting pour ouvrir la bote de dialogue de la connexion.

Configurer les informations de la connexion HDFS


Les paramtres de connexion affichs ci-dessus sont donns titre d'exemple.

3. Renseignez les informations dans les champs correspondants et cliquez sur OK pour fermer la bote dedialogue.

Champ/Option DescriptionHadoop distribution Distribution Hadoop laquelle vous connecter. Cette distribution hberge le systme de fichiers

HDFS utiliser. Si vous slectionnez Custom pour vous connecter une distribution Hadoop

personnalise, cliquez sur le bouton pour ouvrir la bote de dialogue [Import customdefinition]. Dans cette bote de dialogue, importez les fichiers Jars requis par la distributionpersonnalise.

Pour plus d'informations, consultez la section Se connecter une distribution Hadooppersonnalise.

Hadoop version Version de la distribution Hadoop distribution laquelle vous connecter. Cette liste disparatsi vous slectionnez Custom dans la liste Hadoop distribution.

Enable kerberos security Si vous accdez au cluster Hadoop fonctionnant avec la scurit Kerberos, cochez cette case,puis saisissez le Principal Name de Kerberos pour le NameNode dans le champ affich. Celavous permet d'utiliser votre nom d'utilisateur pour vous authentifier, en les comparant auxinformations stockes dans Kerberos.

Cette case est disponible ou non selon la distribution Hadoop laquelle vous vous connectez.User Name Nom d'utilisateur.Name node end point URI du nom du nud, le cur du systme de fichier HDFS.



Champ/Option DescriptionJob tracker end point URI du nud Job Tracker, qui sous-traite les tches MapReduce dans des nuds spcifiques

du cluster.Oozie end point URI de l'endpoint d'Oozie, pour le monitoring de l'excution du Job.Hadoop Properties Si vous devez utiliser une configuration personnalise pour la distribution d'Hadoop qui vous

intresse, renseignez cette table avec la ou les proprit(s) personnaliser. Lors de l'excution,les proprits personnalises crasent celles prcdemment dfinies dans votre distributionHadoop.

Pour plus d'informations concernant les proprits requises par Hadoop, consultez ladocumentation de Hadoop.

Les paramtres configurs dans cette table sont effectifs dans le Job pour lequel ilson t dfinis.

Une fois que les dtails de la connexion la version et la distribution Hadoop sont dfinis dans la vue Ooziescheduler, les paramtres sont automatiquement mis jour, et vice versa. Pour plus d'informations concernantle paramtrage des prfrences d'Oozie, consultez la section Dfinir les dtails de la connexion HDFS dans lesparamtres des prfrences.

Une fois configur le chemin de dploiement dans la vue Oozie scheduler, vous pouvez planifier les excutionsde votre Job, ou l'excuter immdiatement sur le serveur HDFS.

2.1.1.2. Dfinir les dtails de la connexion HDFS dans lesparamtres des prfrences

Afin de configurer les dtails de la connexion HDFS dans les paramtres des prfrences du studio, procdezcomme suit :

1. Dans la barre de menu, cliquez sur Window > Preferences pour ouvrir la fentre [Preferences].

2. Dveloppez le nud Talend puis cliquez sur Oozie pour afficher la fentre des prfrences d'Oozie.



Les paramtres Oozie affichs ci-dessus sont donns titre d'exemple.

3. Renseignez les informations dans les champs correspondants :

Champ/Option DescriptionHadoop distribution Distribution Hadoop laquelle vous connecter. La distribution hberge le systme de fichiers

HDFS utiliser. Si vous slectionnez Custom pour vous connecter une distribution Hadoop

personnalise, vous devez cliquer sur le bouton pour ouvrir la bote de dialogue [Importcustom definition]. Dans cette bote de dialogue, vous pouvez importer les fichiers Jar requispar la distribution personnalise.

Pour plus d'informations, consultez section Se connecter une distribution Hadooppersonnalise.

Hadoop version Version de la distribution Hadoop laquelle vous connecter. Cette liste disparat si vousslectionnez Custom dans la liste Hadoop distribution.

Enable kerberos security Si vous accdez au cluster Hadoop fonctionnant avec la scurit Kerberos, cochez cette case,puis saisissez le Principal Name de Kerberos pour le NameNode dans le champ affich. Celavous permet d'utiliser votre nom d'utilisateur pour vous authentifier, en les comparant auxinformations stockes dans Kerberos.

Cette case est disponible ou non selon la distribution Hadoop laquelle vous vous connectez.User Name Nom d'utilisateur.Name node end point URI du nom du nud, le cur du systme de fichier HDFS.Job tracker end point URI du nud Job Tracker, qui sous-traite les tches MapReduce dans des nuds spcifiques

du cluster.Oozie end point URI de l'endpoint d'Oozie, pour le monitoring de l'excution du Job.

Une fois que les dtails de la connexion la version et la distribution Hadoop sont dfinis dans la vue Ooziescheduler, les paramtres sont automatiquement mis jour, et vice versa. Pour plus d'informations concernant lavue Oozie scheduler, consultez la section Excuter un Job distance dans un serveur HDFS.



Se connecter une distribution Hadoop personnalise

Dans la bote de dialogue [Import custom definition], procdez comme suit pour importer les fichiers Jar requis :

1. Slectionnez l'option Import from existing version (Importer depuis une version existante) ou Import fromzip (Importer depuis un fichier .zip) pour importer les fichiers Jar requis depuis la source approprie.

2. Vrifiez que la case Oozie est coche. Cela vous permet d'importer les fichiers Jar correspondants dans Oozieet HDFS.

3. Cliquez sur OK, puis, dans la fentre d'avertissement, cliquez sur Yes pour accepter d'craser touteconfiguration personnalise des fichiers Jar prcdemment implmente pour cette connexion.

La bote de dialogue [Custom Hadoop version definition] devient active.

4.Si vous devez encore ajouter des fichiers Jar, cliquez sur le bouton pour ouvrir la bote de dialogue[Select libraries].



5. Si ncessaire, dans le champ du filtre au-dessus de la liste Internal libraries, saisissez le nom du fichier Jar utiliser, afin de vrifier si le fichier est fourni dans le studio.

6. Slectionnez l'option External libraries pour ouvrir sa vue.

7. Cliquez sur le bouton Browse... et parcourez votre systme jusqu'au fichier Jar importer.

8. Cliquez sur OK Pour valider les modifications et fermer la bote de dialogue [Select libraries].

Le fichier Jar slectionn apparat dans la liste de l'onglet Oozie.

Excuter un Job sur le serveur HDFS


Vous pouvez rpter cette procdure pour importer d'autres fichiers Jar.

Si vous souhaitez partager les fichiers Jar avec un autre studio, vous pouvez exporter cette connexion personnalise

partir de la bote de dialogue [Custom Hadoop version definition], en cliquant sur le bouton .

2.1.2. Excuter un Job sur le serveur HDFSPour excuter un Job sur le serveur HDFS, procdez comme suit :

1. Dans le champ Path, dans l'onglet Oozie scheduler, saisissez le chemin o dployer votre Job sur le serveurHDFS.

2. Cliquez sur le bouton Run pour commencer le dploiement et l'excution du Job sur le serveur HDFS.

Les donnes de votre Job sont zippes, envoyes et dployes sur le serveur HDFS selon les paramtres deconnexion du serveur et sont automatiquement excutes. Selon votre connectivit, l'opration peut prendre dutemps. La console affiche le statut du dploiement et de l'excution du Job.

Pour arrter l'excution du Job avant sa fin, cliquez sur le bouton Kill.

2.1.3. Planifier les excutions d'un JobLa fonctionnalit Oozie scheduler intgre dans le studio Talend vous permet de planifier les excutions de votreJob sur le serveur HDFS. Votre Job est excut selon la frquence dfinie, durant le laps de temps configur. Pourconfigurer la planification du Job, procdez comme suit :

1. Dans le champ Path de l'onglet Oozie scheduler, saisissez le chemin o dployer votre Job sur le serveurHDFS, si le chemin de dploiement n'est pas encore dfini.

2. Cliquez sur le bouton Schedule de l'onglet Oozie scheduler pour ouvrir la bote de dialogue de planification.

Planifier les excutions d'un Job


3. Dans le champ Frequency, saisissez un entier et slectionnez une unit de temps dans la liste Time Unit afinde configurer la frquence d'excution du Job.

4. Cliquez sur le bouton [...] ct du champ Start Time pour ouvrir la bote de dialogue [Select Date & Time]et slectionnez la date, l'heure, la minute et la seconde. Cliquez sur OK pour configurer l'heure de dbut del'excution du Job. De la mme manire, configurez l'heure de fin d'excution du Job.

5. Cliquez sur OK pour fermer la bote de dialogue et commencer les excutions planifies de votre Job.

Le Job s'excute automatiquement selon les paramtres dfinis. Pour arrter le Job, cliquez sur Kill.

Monitorer le statut des excutions de Job


2.1.4. Monitorer le statut des excutions de JobPour monitorer le statut et les rsultats des excutions de Job, cliquez sur le bouton Monitor de l'onglet Ooziescheduler. L'URI de l'endpoint Oozie s'ouvre dans votre navigateur Web, affichant les informations d'excutiondes Jobs sur le serveur HDFS.

Pour afficher les informations dtailles d'un Job particulier, cliquez sur l'un des champs du Job, pour ouvrir unepage spare affichant les dtails du Job.

Monitorer le statut des excutions de Job



Chapitre 3. Mapping de flux Big DataLors du dveloppement de processus ETL pour Big Data, il est courant de mapper des donnes d'une ou plusieurssource(s) vers des donnes stockes dans le systme cible. Mme si Hadoop fournit un langage de script, PigLatin et un modle de programmation, Map/Reduce, permettant de simplifier le dveloppement des processus detransformation et de routage pour Big Data, leur apprentissage et leur comprhension requiert quand mme ungros effort de codage.

Talend fournit des composants de mapping optimiss pour l'environnement Hadoop, afin de mapper visuellementles flux d'entre de donnes et de sortie.

En se basant sur le tPigMap comme exemple, le chapitre donne des informations concernant la thorie derrirel'utilisation de ces composants de mapping. Pour plus d'exemples pratiques d'utilisation de ces composants,consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.Avant de commencer un processus dintgration de donnes, vous devez vous tre familiaris avec linterfacegraphique de votre studio. Pour plus d'informations, consultez l'annexe dcrivant les lments de l'interface, dansle Guide utilisateur.

Interface du tPigMap


3.1. Interface du tPigMapPig est une plateforme utilisant un langage de script permettant de dfinir des flux de donnes. Elle permet deprogrammer des oprations tape par tape pour transformer des donnes l'aide de Pig Latin, nom du langageutilis par Pig.

Le tPigMap est un composant avanc mappant les flux de donnes d'entre et de sortie grs par un processusPig (un ensemble de composants Pig). Il requiert un tPigLoad pour lire des donnes du systme source et untPigStoreResult pour crire de donnes dans une source cible. A partir de ce processus basique compos d'untPigLoad, d'un tPigMap et d'un tPigStoreResult, vous pouvez dvelopper visuellement un processus Pig trscomplexe en utilisant d'autres composants Pig autour du tPigMap. Comme ces composants gnrent du code Pig,le Job dvelopp est alors optimis pour un environnement Hadoop.

Vous devez utiliser un diteur de mapping pour configurer le tPigMap. Ce Map Editor est un outil tout en unvous permettant de dfinir tous les paramtres ncessaires au mapping, aux transformations, et au routage vos fluxde donnes via une interface graphique pratique.

Vous pouvez minimiser et restaurer le Map Editor et toutes les tables du Map Editor l'aide des icnes de lafentre.

Le Map Editor se compose de diffrentes zones :

La zone d'entre (Input), gauche de l'diteur. Elle offre une reprsentation graphique de tous les flux dedonnes (Main et Lookup). Les donnes sont regroupes dans plusieurs colonnes des schmas Input. Notezque le nom de la table reflte le nom du lien Main ou Lookup dans lespace de modlisation graphique du Job.

La zone de sortie (Output), droite de l'diteur. Elle permet de mapper des donnes et des champs des tablesd'entre vers les lignes de sortie correspondantes.

Les deux panneaux du bas sont les descriptions des schmas d'entre et de sortie. L'onglet Schema editor offreune vue du schma, comprenant les colonnes des tables d'entre et de sortie dans leur panneau respectif.

Prsentation du fonctionnement du tPigMap


L'onglet Expression editor est l'outil d'dition pour toutes les cls d'expression des donnes d'entre/de sortieou les conditions de filtre.

Le nom des tables d'entre/de sortie dans le Map Editor reflte le nom des flux entrant(s) et sortant(s) (liens Row).

Cet diteur Map Editor est un diteur Talend de mapping typique, comme celui du tMap. Afin de comprendrecompltement le fonctionnement d'un composant de mapping basique, il est recommand de lire le chapitre derfrence dcrivant comment le studio Talend mappe les flux de donnes, dans le Guide utilisateur de votre studiod'intgration.

3.2. Prsentation du fonctionnement dutPigMapVous pouvez mapper des flux de donnes simplement en glissant-dposant des colonnes de la zone d'entre lazone de sortie d'un tPigMap. Frquemment, vous pouvez effectuer des oprations plus complexes, comme diterun filtre, configurer une jointure ou utiliser une fonction personnalise pour Pig. Dans cette situation le, tPigMapfournit un ensemble vari d'options configurer et gnre le code Pig correspondant afin de rpondre vos besoins.

Les sections suivantes prsentent les diffrentes options.

3.2.1. Configurer les oprations de jointureDu ct de l'entre, vous pouvez afficher le panneau utilis pour les paramtres de jointure en cliquant sur l'icne

de la table.

Proprits du flux Lookup ValeurJoin Model Inner Join ;

Left Outer Join ;

Right Outer Join ;

Full Outer Join.

L'option de jointure par dfaut est Left Outer Join lorsque vous n'activezpas les paramtres des options en affichant le panneau. Ces options

Capturer les enregistrements rejets


Proprits du flux Lookup Valeureffectuent une jointure de deux flux ou plus, selon la valeur des champscommuns.

Lorsque plusieurs tables de rfrence (lookup) ncessitent une jointure, leflux d'entre principal active la jointure partir du premier flux Lookupet utilise le rsultat pour effectuer une jointure sur la deuxime, etc, de lamme manire, jusqu' ce que le dernier flux Lookup ait une jointure.

Join Optimization None ;

Replicated ;

Skewed ;

Merge.

L'option de jointure par dfaut est None lorsque vous n'activez pas lesparamtres des options en affichant le panneau. Ces options sont utilisespour effectuer des oprations de jointure plus efficaces. Par exemple, sivous utilisez le paralllisme des diffrentes tches Reduce, la jointureSkewed peut tre utilise pour rquilibrer les donnes traiter, si ellessont rparties de manire asymtrique.

Chacune de ces options est sujette aux contraintes prsentes dans ladocumentation Apache concernant Pig Latin.

Custom Partitioner Saisissez le nom du Partitioner Hadoop utiliser pour contrler lepartitionnement des cls des map-sorties intermdiaires. Par exemple,saisissez, entre guillemets doubles,

org.apache.pig.test.utils.SimpleCustomPartitioner

pour utiliser le Partitioner SimpleCustomPartitioner. Le fichier Jar de cePartitioner doit avoir t enregistr dans la table Register jar dans la vueAdvanced settings du composant tPigLoad li au tPigMap utiliser.

Pour plus d'informations concernant le code de ceSimpleCustomPartitioner, consultez la documentation Apache concernantPig Latin.

Increase Parallelism Saisissez le nombre de tches Reduce pour les Jobs Hadoop Map/Reducegnrs par Pig. Pour plus d'informations concernant les fonctionnalits deparalllisation, consultez la documentation Apache concernant Pig Latin.

3.2.2. Capturer les enregistrements rejetsDu ct de la sortie, les options suivantes deviennent disponibles lorsque vous affichez le panneau utilis pour

configurer les options de sortie, en cliquant sur le bouton de la table.

Editer les expressions


Proprits du flux de sortie ValeurCatch Output Reject True ;

False.

Cette option, une fois active, vous permet de capturer les enregistrementsrejets par un filtre dfini dans la zone approprie.

Catch Lookup Inner Join Reject True ;

False.

Cette option, une fois active, vous permet de capturer les enregistrementsrejets, par la jointure Inner Join effectue sur les flux d'entre.

3.2.3. Editer les expressionsDes deux cts, vous pouvez diter toutes les cls d'expression des donnes d'entre/sortie ou des conditions defiltre en utilisant Pig Latin. Pour plus d'informations concernant Pig Latin, consultez la documentation Apacheconcernant Pig, notamment Pig Latin Basics et Pig Latin Reference Manual.

Vous pouvez crire les expressions ncessaires la transformation des donnes, directement dans la vueExpression editor situe dans la partie infrieure de l'diteur. Sinon, ouvrez la bote de dialogue [ExpressionBuilder] dans laquelle vous pouvez crire les expressions de transformation des donnes.

Pour ouvrir la bote de dialogue [Expression Builder], cliquez sur le bouton ct de l'expression ouvrirdans les panneaux reprsentant le(s) flux Lookup ou le(s) flux de sortie du Map Editor.



La bote de dialogue [Expression Builder] s'ouvre sur l'expression slectionne.

Si vous avez cr une fonction Pig utilisateur (Pig UDF), une option Pig UDF Functions apparat automatiquementdans la liste Categories. Vous pouvez la slectionner pour diter l'expression de mapping utiliser.

Vous devez utiliser l'lment Pig UDF sous le nud Code de la vue Repository pour crer une fonction Pig UDF.Mme si vous devez savoir crire une fonction Pig l'aide de Pig Latin, une fonction Pig UDF est cre de la mmemanire qu'une routine Talend. Pour plus d'informations concernant les routines, consultez le chapitre dcrivantla gestion des routines, dans le Guide utilisateur de votre studio d'intgration.

Pour ouvrir la vue Expression editor,

1. Dans la partie infrieure de l'diteur, cliquez sur l'onglet Expression editor pour ouvrir la vue correspondante.

2. Cliquez sur la colonne pour laquelle vous souhaitez paramtrer les expressions et modifiez ces expressionsdans la vue Expression editor.



Si vous devez paramtrer des conditions de filtre pour un flux d'entre ou de sortie, cliquez sur le bouton puisditez les expressions dans la zone affiche ou en utilisant la vue Expression editor ou dans la bote de dialogue[Expression Builder].


Annexe A. Exemple de Jobs Big DataCe chapitre est destin aux utilisateurs des solution Big Data de Talend qui cherchent des cas rels dutilisation afinde matriser le produit le mieux possible. Ce chapitre est un complment du Guide de rfrence des Composantsde Talend Open Studio for Big Data.

Rassembler des informations concernant le trafic Web l'aide d'Hadoop


A.1. Rassembler des informationsconcernant le trafic Web l'aide d'HadoopPour conduire une campagne marketing concernant les habitudes et les profils de vos clients ou utilisateurs, vousdevez pouvoir rcuprer des donnes selon leurs habitudes ou leur comportement sur votre site Web afin de crerdes profils utilisateur et de leur envoyer les publicits adquates, par exemple.

Cette section fournit un exemple permettant de retrouver les utilisateurs ayant le plus souvent visit un site Web,en triant les adresses IP partir d'un grand nombre d'enregistrements dans le fichier de registre d'accs pour unserveur Apache HTTP, afin de faire d'autres analyses sur le comportement des utilisateurs sur le site Web.

A.1.1. Dcouvrir le scnarioDans cet exemple, certains composants Big Data Talend sont utiliss pour tirer parti de la plateforme Open sourceHadoop, dans le domaine de la gestion des Big Data. Dans ce scnario, vous utilisez quatre Jobs :

le premier Job configure une base de donnes et une table HCatalog comprenant une partition, dans HDFS

le deuxime Job charge le registre d'accs analyser dans le systme de fichiers HDFS.

le troisime Job analyse le fichier charg. Il filtre notamment tout enregistrement contenant une erreur "404",compte le nombre d'appels de services vers le site Web excuts avec succs, trie les donnes de rsultats etles sauvegarde dans le systme de fichiers HDFS.

le dernier Job lit les rsultats depuis HDFS et affiche les adresses IP ainsi que les appels de services russis etle nombre de visites du site Web dans la console standard du systme.

A.1.2. Transformer le scnario en Jobs

A.1.2.1. Configurer la base de donnes HCatalog

Dans la premire tape, vous allez configurer un environnement HCatalog permettant de grer le fichier de registred'accs analyser.

Choisir les composants et construire le premier Job

1. Dposez deux composants tHCatalogOperation de la Palette dans l'espace de modlisation graphique.

2. Reliez les deux tHCatalogOperation l'aide d'un lien Trigger > OnSubjobOk. Ces deux sous-jobs crentune base de donnes HCatalog ainsi qu'une table HCatalog et une partition dans la table HCatalog cre,respectivement.

3. Renommez les composants afin de mieux identifier leur rle au sein du Job.

Transformer le scnario en Jobs


Crer une base de donnes HCatalog

1. Double-cliquez sur le premier composant tHCatalogOperation pour ouvrir sa vue Basic settings.

2. Dans les listes correspondantes, slectionnez la distribution Hadoop ainsi que sa version. Dans cet exemple,utilisez les paramtres par dfaut : distribution HortonWorks avec le numro de version HortonWorks DataPlatform V1.

3. Renseignez, entre guillemets doubles, le nom de l'hte ou l'adresse IP de votre serveur Templeton ainsi quele port de Templeton.

4. Dans la liste Operation on, slectionnez Database. Dans la liste Operation, slectionnez Create.

5. Dans le champDatabase, saisissez un nom pour la base de donnes que vous crez, talenddb_hadoop danscet exemple.

6. Dans le champ Username, saisissez l'identifiant d'authentification la base de donnes.

7. Dans le champ Database location, saisissez l'emplacement du fichier de base de donnes crer dans HDFS.



Configurer la table HCatalog et sa partition

1. Double-cliquez sur le second tHCatalogOperation pour ouvrir sa vue Basic settings.

2. Comme dans le premier tHCatalogOperation, spcifiez votre distribution et sa version, l'hte ou l'adresseIP de Templeton, ainsi que son port.

3. Dans la liste Operation on, slectionnez Table. Dans la liste Operation, slectionnez Create.

Lorsque vous travaillez sur une table, HCatalog vous demande de dfinir un schma pour cette table. Ceschma, cependant, n'intervient pas dans les oprations suivantes, vous pouvez donc simplement cliquer surle bouton [...] et ajouter une colonne au schma. Donnez-lui un nom diffrent de celui que vous allez utiliserpour la colonne de partition.

4. Spcifiez la mme base de donnes et le mme identifiant que dans le premier composanttHCatalogOperation.

5. Dans le champ Table, saisissez un nom pour la table crer, weblog dans cet exemple.

6. Cochez la case Set partitions et cliquez sur le bouton [...] ct du champ Edit schema afin de configurer unepartition et un schma de partition. Notez que le schma de partition ne doit contenir aucun nom de colonnedfini dans le schma de la table. Dans cet exemple, la colonne du schma de partition se nomme ipaddresses.

A.1.2.2. Charger le fichier de registre d'accs dans le systmeHadoop

Dans la deuxime tape, vous allez construire et configurer le deuxime Job permettant de charger le fichier deregistre dans le systme Hadoop, puis vrifier le fichier charg.



Choisir les composants et construire le deuxime Job

1. De la Palette, dposez un tApacheLogInput, un tHCatalogOutput, un tHCatalogInput et un tLogRowdans l'espace de modlisation graphique.

2. Connectez le composant tApacheLogInput au tHCatalogOutput l'aide d'un lien Row > Main. Ce sous-job lit le fichier de registre d'accs analyser et le charge dans la base de donnes HCatalog.

3. Reliez le composant tHCatalogInput au tLogRow, l'aide d'un lien Row > Main. Ce sous-job vrifie lechargement du fichier en lisant le fichier de regsitre depuis le systme HCatalog et affiche son contenu dansla console.

4. Reliez le tApacheLogInput au tHCatalogInput l'aide d'un lien Trigger > OnSubjobOk.

5. Renommez les composants afin de mieux identifier leur rle au sein du Job.

Charger le fichier de log dans HDFS

1. Double-cliquez sur le composant tApacheLogInput pour ouvrir sa vue Basic settings et spcifiez le chemind'accs au fichier de log charger, dans le champ File Name.

2. Double-cliquez sur le tHCatalogOutput pour ouvrir la vue Basic settings.



3. Cliquez sur le bouton [...] pour vrifier que le schma a bien t propag depuis le composant prcdent. Sincessaire, cliquez sur le bouton Sync columns afin de rcuprer le schma.

4. Pour les renseignements suivants, utilisez les mmes informations que dans le premier Job :

Distribution et version de Hadoop

Hte ou adresse IP de Templeton et numro de son port

Table de la base de donnes HCatalog et identifiant

5. Dans le champ NameNode URI, saisissez l'URI du NameNode de HDFS.

6. Dans le champ File name, spcifiez le chemin d'accs et le nom du fichier de sortie dans HDFS.

7. Dans la liste Action, slectionnez Create poru crer le fichier, ou Overwrite si le fichier existe dj.

8. Dans le champ Partition, saisissez la paire de partition nom-valeur, ipaddresses='192.168.1.15' dans cetexemple.

9. Dans le champ File location, saisissez l'emplacement o sauvegarder les donnes, /user/hcat/access_log danscet exemple.

Vrifier le fichier de registre d'accs charg

1. Double-cliquez sur le composant tHCatalogInput pour ouvrir sa vue Basic settings.



2. Cliquez sur le bouton [...] pour ouvrir la bote de dialogue [Schema] et dfinir le schma d'entre. Dans cetexemple, copiez simplement le schma du composant tApacheLogInput ou tHCatalogOutput.

3. Pour toutes les autres options, utilisez les mmes paramtres que dans le composant tHCatalogOutput.

4. Dans la vue Basic settings du tLogRow, slectionnez le mode Vertical afin d'afficher pour chaque ligne lacl et la valeur, l'excution du Job.

A.1.2.3. Analyser le fichier de registre d'accs sur la plateformeHadoop

Dans cette tape, vous allez construire et configurer le troisime Job, utilisant plusieurs composants Pig pouranalyser le fichier de registre charg, dans une chane Pig, afin d'obtenir les adresses IP ainsi que les appels deservices excuts avec succs et le nombre de visite sur le site Web.

Choisir les composants et contruire le troisime Job

1. Dposez les composants suivants de la Palette dans l'espace de modlisation graphique :

un tPigLoad, pour charger les donnes analyser,

un tPigFilterRow, pour supprimer les enregistrements contenant une erreur "404" du flux d'entre,

un tPigFilterColumns, pour slectionner les colonnes inclure dans les rsultats,

un tPigAggregate, pour compter le nombre de visites sur le site de chaque hte,

un tPigSort, pour trier les rsultats,

un tPigStoreResult, pour sauvegarder les rsultats dans HDFS.

2. Connectez ces composants l'aide de liens Row > Pig Combine afin de fermer une chane. Nommez-les demanire identifier leur rle.



Configurer la chane Pig

1. Double-cliquez sur le composant tPigLoad pour ouvrir sa vue Basic settings et configurer les lmentssuivants afin de charger le fichier analyser dans la chane Pig :

Schma : copiez-le du Job prcdent, et propagez-le au composant suivant.

Mode de Pig : slectionnez Map/Reduce.

Distribution et version de Hadoop : les mmes que dans le Job prcdent, HortonWorks et HortonWorksData Platform V1.

URI du NameNode : la mme que dans le Job prcdent, hdfs://talend-hdp:8020.

Hte du JobTracker : talend-hdp:50300.

Fonction de chargement : slectionnez PigStorage.

URI du fichier d'entre : saisissez le nom du fichier de sortie dfini dans le Job prcdent, /user/hcat/access_log/out.log.



2. Dans la vue Basic settings du composant tPigFilterRow, cliquez sur le bouton [+] pour ajouter une ligne la table Filter configuration et configurez les paramtres de filtre, afin de supprimer les enregistrementscontenant le code 404 et de passer les autres enregistrements dans le flux de sortie :

Dans le champ Logical, slectionnez AND.

Dans le champ Column, slectionnez la colonne code du schma.

Cochez la case NOT

Dans le champ Operator, slectionnez equal.

Dans le champ Value, saisissez 404.

3. Dans la vue Basic settings du tPigFilterColumns, cliquez sur le bouton [...] pour ouvrir la bote de dialogue[Schema]. Dans le panneau Output, configurez deux colonnes, host et count, stockant les informations desadresses IP ainsi que le nombre de visites sur le site Web, respectivement.



4. Dans la vue Basic settings du composant tPigAggregate, cliquez sur le bouton Sync columns afin dercuprer le schma du composant prcdent et propagez-le au composant suivant.

5. Configurez les paramtres suivants afin de compter le nombre d'occurrences de chaque adresse IP :

Dans la zone Group by, cliquez sur le bouton [+] pour ajouter une ligne la table et slectionnez la colonnecount dans le champ Column.

Dans la zone Operations, cliquez sur le bouton [+] pour ajouter une ligne la table et slectionnez lacolonne count dans le champ Additional Output Column, slectionnez count dans la fonction Functionet slectionnez la colonne host dans le champ Input Column.

6. Dans la vue Basic settings du composant tPigSort, configurez les paramtres de tri, afin de trier les donnes passer :

Cliquez sur le bouton [+] pour ajouter une ligne la table Sort key.



Dans le champ Column, slectionnez count pour dfinir la colonne count comme cl.

Dans le champ Order, slectionnez DESC pour trier les donnes en ordre descendant.

7. Dans la vue Basic settings du tPigStoreResult, configurez les proprits du composant afin de charger lesdonnes de rsultats l'emplacement spcifi dans le systme Hadoop :

Vrifiez le schma, rcuprez-le du composant prcdent si ncessaire.

Dans le champ Result file, saisissez le chemin d'accs au fichier de rsultats.

Dans la liste Store function, slectionnez PigStorage.

Si ncessaire, cochez la case Remove result directory if exists.

A.1.2.4. Vrifier les rsultats d'analyse

Dans cette tape, vous construisez de dernier Job, comprenant deux composants, qui lit les donnes de rsultatsdepuis Hadoop et les affiche dans la console du systme. Vous allez ensuite excuter tous les Jobs un par un etvrifier les rsultats dans la console.

Choisir les composants et construire le dernier Job

1. De la Palette, dposez un tHDFSInput et un tLogRow dans l'espace de modlisation graphique.

2. Connectez les composants l'aide d'un lien Row > Main et nommez-les de manire identifier leur rle.



Configurer le dernier Job1. Double-cliquez sur le composant tHDFSInput pour ouvrir sa vue Basic settings.

2. Pour les options suivantes, utilisez les mmes paramtres que dans le Job prcdent :

Le schma doit contenir deux colonnes, host et count, selon la structure du fichier charg dans HDFS viala chane Pig dans le Job prcdent.

La distribution et la version de Hadoop, HortonWorks et HortonWorks Data Platform V1. URI du NameNode, hdfs://talend-hdp:8020/.

3. Dans le champ User name, saisissez un identifient pouvant accder au fichier dans HDFS.

4. Dans le champ File Name, saisissez le chemin d'accs et le nom du fichier dans HDFS.

5. Dans la liste Type, slectionnez le type de fichier lire, Text File dans cet exemple.

6. Dans la vue Basic settings du tLogRow, slectionnez l'option Table.



Aprs avoir configur les quatre Jobs, vous pouvez les excuter un par un.

Aprs russite de l'excution du dernier Job, la console systme affiche les adresses IP ainsi que les appels deservices correctement excuts et le nombre de visites sur le site Web pour chaque adresse IP.


Talend Open Studio for Big DataTable des matiresPrface1.Informations gnrales1.1.Objectif1.2.Public vis1.3.Conventions typographiques

2.Remarques et Support

Chapitre1.Introduction aux solutions Big Data de Talend1.1.Hadoop et studio Talend1.2.Architecture fonctionnelle des solutions Big Data de Talend

Chapitre2.Gestion des Jobs dans le studio Talend2.1.Excuter un Job distance dans un serveur HDFS2.1.1.Configurer les informations de la connexion HDFS2.1.1.1.Dfinir les dtails de la connexion HDFS dans la vue Oozie scheduler2.1.1.2.Dfinir les dtails de la connexion HDFS dans les paramtres des prfrencesSe connecter une distribution Hadoop personnalise

2.1.2.Excuter un Job sur le serveur HDFS2.1.3.Planifier les excutions d'un Job2.1.4.Monitorer le statut des excutions de Job

Chapitre3.Mapping de flux Big Data3.1.Interface du tPigMap3.2.Prsentation du fonctionnement du tPigMap3.2.1.Configurer les oprations de jointure3.2.2.Capturer les enregistrements rejets3.2.3.Editer les expressions

AnnexeA.Exemple de Jobs Big DataA.1.Rassembler des informations concernant le trafic Web l'aide d'HadoopA.1.1.Dcouvrir le scnarioA.1.2.Transformer le scnario en JobsA.1.2.1.Configurer la base de donnes HCatalogA.1.2.2.Charger le fichier de registre d'accs dans le systme HadoopA.1.2.3.Analyser le fichier de registre d'accs sur la plateforme HadoopA.1.2.4.Vrifier les rsultats d'analyse

TalendOpenStudio BigData GettingStarted 5.3.0 FR

Documents

Transcript of TalendOpenStudio BigData GettingStarted 5.3.0 FR