Вы находитесь на странице: 1из 26

Didacticiel

Dans cette démonstration, vous utilisez DataStage pour effectuer le traitement de


données ETL (Extraction, Transformation et Chargement) dans un entrepôt de
données d'entreprise traditionnel. Vous déchargez ensuite les données et le
traitement ETL dans des clusters Hadoop et des lacs de données hautes
performances et évolutifs.
Dans cette visite du produit, vous allez effectuer les tâches suivantes:
Dans cette visite guidée du produit, vous acquérez de l'expérience avec les
fonctionnalités suivantes:
 Apprenez à exécuter les tâches ETL traditionnelles de DataStage
 Configurer DataStage pour qu'il s'exécute dans les clusters Hadoop
 Examiner les journaux d'exécution pour s'assurer que la configuration
fonctionne correctement
Suivez les instructions de ce volet pour parcourir la démonstration dans le volet de
gauche.
Exécuter un travail ETL Data Warehouse traditionnel
Tout d'abord, vous passez en revue un travail DataStage qui combine les données
de deux secteurs d'activité dans un tableau. Vous exécutez ensuite le travail pour
créer un référentiel de données combiné.
1. Cliquez sur Démarrer la démo maintenant
2. Dans le menu Démarrer, cliquez sur l'icône IBM InfoSphere DataStage et
QualityStage Designer.

   
   Le travail DS07 \ JK \ BANK1 \ Et \ JK \ BANK2 \ To \ COMBINE \ CST \ INPUT est
affiché.

 
Le travail a ces sources de données:
     * Données BANK1 ACCOUNTS, appelées «BANK_ACCOUNTS». 
     
     * BANK2 CHECKING les données du client, appelées `BANK_CHECKING`. 
     
     * Données sur le client BANK2 INVESTMENT, appelées
«BANK_INVESTMENTS». 
     
     * Données client BANK2 SAVINGS, appelées `BANK_SAVINGS`. 
  
   La cible de données du travail est les données client combinées BANK1 et BANK2.
3. Compilez le travail en cliquant sur l' icône Compiler dans la barre d'outils.
    

 
 

 
4. Exécutez le travail en cliquant sur l' icône Exécuter de la barre d'outils.
    
  

5. Dans la fenêtre Options d'exécution du travail, vous pouvez fournir des valeurs
pour les paramètres du travail d'exécution. Utilisez les valeurs par défaut. Pour le
paramètre `JKLW_DBS_PWD`, tapez` inf0server`. Cliquez sur Exécuter pour
exécuter le travail. 
 
  
6. Une fois le travail exécuté, vérifiez les données de l'étape de sortie:
   une. Cliquez sur le connecteur de base de données de sortie COMBINE \ CST \
INPUT , puis cliquez sur Afficher les données Link Link \ COMBINE \ CST \ INPUT.
   Les données renvoyées représentent un ensemble d'entrées client combinées pour
les clients sectoriels JKBANK1 et JK \ BANK2 sous une forme non normalisée et non
nettoyée.
  

   b. Cliquez sur Fermer pour fermer la fenêtre.


 
 
Déplacer les données de l'entrepôt de données vers Hadoop
Découvrez comment utiliser l'évolutivité du moteur parallèle et transférer le traitement
de l'entrepôt de données de l'entreprise dans un cluster Hadoop.
Dans cette tâche, vous procédez comme suit:
   - Exécuter un travail de traitement de fichier en mode natif sur le système hôte
Linux 
   - Transférer les données dans le cluster Hadoop
Dans ce travail, les fichiers basés sur Linux sont acquis sur le nœud de conducteur
DataStage en tant que zone de destination. Une fois les fichiers acquis, DataStage
traite les fichiers de données dans une configuration DataStage traditionnelle.
1. Cliquez sur le travail HD01 \ Local \ Files et cliquez sur Modifier .
 
2. Compilez le travail en cliquant sur l' icône Compiler dans la barre d'outils.
3. Exécutez le travail en cliquant sur l' icône Exécuter de la barre d'outils.
4. Dans la fenêtre Job Run Options, vous pouvez sélectionner le fichier de
configuration. Pour cette démonstration, utilisez le fichier de configuration
`default.apt`. Cliquez sur Exécuter .
   Lorsque le travail est terminé, tous les liens de travail deviennent verts et affichent
le nombre de lignes sur chaque lien.
 
5. Vérifiez le fichier de configuration par défaut:
   une. Cliquez sur Outils et configurations .

b. Dans la liste Configurations, sélectionnez 2-way.

Ce fichier est un fichier de configuration traditionnel, où les nœuds et l'emplacement


des ressources sont nommés. Un fichier de configuration à 2 nœuds est affiché,
mais vous pouvez avoir un fichier de configuration à 1 nœud.
 c. Cliquez sur Fermer.
Charger des données dans Hadoop HDFS
1. Cliquez sur le travail HD02 \ Load \ HDFS, puis cliquez sur Modifier .
 
Le travail HD02_Load_HDFS charge vos fichiers sur HDFS pour un traitement
ultérieur.
2. Compilez le travail en cliquant sur l'icône Compiler dans la barre d'outils.
3. Exécutez le travail en cliquant sur l'icône Exécuter de la barre d'outils.
4. Dans la fenêtre Job Run Options, vous pouvez sélectionner le fichier de
configuration. Utilisez le fichier de configuration `default.apt`. Cliquez sur Exécuter .
   Lorsque le travail est terminé, tous les liens de travail deviennent verts et affichent
le nombre de lignes sur chaque lien.

 
Examiner une propriété de connecteur de fichier
1. Cliquez sur le connecteur de fichier HDFS \ BANK \ ACCOUNTS .
   La fenêtre File Connector montre comment vous avez attribué les attributs de
connectivité au serveur Big Data. Vous pouvez également voir les attributs de fichier
pour savoir où et comment vous écrivez les données. Votre hôte et le chemin du
fichier peuvent être différents.

 
Lorsque vous avez terminé de consulter les informations, cliquez sur OK pour quitter
la fenêtre des propriétés.
2. Vérifiez les données dans le système de fichiers HDFS. La console Web Ambari
est ouverte et l'utilisateur admin est connecté. 
 
3. Dans la console Ambari, cliquez sur Affichage du fichier .

 
4. Dans la liste des répertoires, cliquez sur utilisateur .

    
   
5. Cliquez sur le répertoire dsadm .
 
6. Cliquez sur le dossier jklw .
   Les fichiers que vous avez chargés dans le système de fichiers HDFS se trouvent
dans le dossier.
    

Pour les besoins de cette démonstration, vous consultez le fichier


HDFS_BANK_ACCOUNTS.TXT.
7. Cliquez sur Ouvrir dans la barre de menus supérieure.
  
    
8. Vérifiez les données du fichier. Lorsque vous avez terminé, cliquez sur Annuler .
 

Traiter les fichiers Hadoop


Traitez les données basées sur un fichier HDFS dans une configuration DataStage
traditionnelle.
 
1. Cliquez sur le travail HD03 \ Process \ HDFS , puis sur Modifier.
Le travail HD03 \ Load \ HDFS lit les données de votre système de fichiers Hadoop
HDFS, les traite et enregistre les données consolidées du client dans le système de
fichiers Hadoop HDFS.
    

 
2. Compilez le travail en cliquant sur l' icône Compiler dans la barre d'outils.
3. Exécutez le travail en cliquant sur l' icône Exécuter de la barre d'outils.
4. Dans la fenêtre Job Run Options, vous pouvez sélectionner le fichier de
configuration. Utilisez le fichier de configuration `default.apt`. Cliquez sur Exécuter . 
    
    Lorsque le travail est terminé, tous les liens de travail deviennent verts et affichent
le nombre de lignes sur chaque lien.
 
5. Revenez à la vue Fichier HDFS en cliquant sur l'icône Agrandir la fenêtre. 
    

  
    Notez l'heure à laquelle le fichier HDFS \ BANK \ COMBINED \ TEXT a été écrit
sur le système de fichiers Hadoop.
6. Cliquez sur l' icône d'actualisation en haut de la vue Fichier pour recharger les
informations sur le fichier.

 
   L'horodatage du fichier est mis à jour après l'exécution du travail. 
    
    Fermez la vue Fichier en cliquant sur le fichier en surbrillance.
7. Retournez dans DataStage et fermez le travail.
 
Exécuter le traitement ETL dans Hadoop à l'aide de YARN
Traitez les données basées sur un fichier HDFS en transmettant le traitement au
cluster Hadoop et en permettant l'exécution du traitement à l'aide de YARN.
1. Cliquez avec le bouton droit sur le travail HD04 \ Process \ using \ YARN et cliquez
sur Modifier .
    

    
  
  Le travail HD04 \ Process \ on \ HDFS \ using \ YARN lit les données de votre
système de fichiers Hadoop HDFS, les traite et enregistre les données consolidées
du client dans le système de fichiers Hadoop HDFS entièrement dans le cluster
Hadoop.
    

2. Compilez le travail en cliquant sur l' icône Compiler dans la barre d'outils.


3. Exécutez le travail en cliquant sur l' icône Exécuter de la barre d'outils.
   Dans la fenêtre Options d'exécution du travail, vous pouvez voir que vous avez
deux propriétés.
   La première propriété pointe sur le fichier `yarnconfig.cfg`. Ce fichier indique à
DataStage les paramètres avec lesquels il doit communiquer et exécuter le
processus sur YARN. 
  
   La deuxième propriété pointe sur le fichier de configuration afin que DataStage
détecte le nombre de noeuds à exécuter et l'emplacement des ressources.
4. Avant de cliquer sur Exécuter, découvrez les propriétés:
   * Sur le serveur, le fichier `yarnconfig.cfg` contient un certain nombre de
paramètres permettant de définir le mode d’exécution des processus DataStage
avec YARN. `APT_YARN_MODE` et` APT_YARN_USE_HDFS` sont deux
paramètres importants. 
  
   * Le paramètre `APT_YARN_MODE` indique au moteur où exécuter. La valeur
`false` indique au moteur de fonctionner normalement sur le système hôte. La valeur
"true" indique au moteur de transférer le processus à YARN pour le traitement sur le
cluster Hadoop. 
  
   * Le paramètre `APT_YARN_USE_HDFS` indique au moteur si les ressources de
données sont en cours d'écriture sur le système de fichiers local ou sur le système
de fichiers HDFS. La valeur `false` indique que les données sont écrites dans le
système de fichiers local. La valeur "true" indique que les données sont en cours
d'écriture sur le système de fichiers HDFS.
  
   * Vous pouvez utiliser de nombreux autres paramètres pour affiner
l’interaction. Chaque paramètre est décrit dans le fichier `yarnconfig.cfg`.
  
   

 
* Lorsque des travaux parallèles sont exécutés sur Hadoop, ils demandent un
ensemble de conteneurs à YARN. Les conteneurs représentent les ressources
auxquelles le travail a été attribué. Chaque ressource a une quantité désignée de
CPU virtuel et de mémoire pour chaque conteneur. Le nombre de conteneurs
demandés est égal au nombre de nœuds logiques définis dans le fichier
`APT_CONFIG_FILE`. 
  
   * Ces fichiers peuvent être configurés de trois manières: statique, dynamique et
mixte. 
  
   * Un fichier statique ressemble à un `APT_CONFIG_FILE` normal, sauf que le
disque de ressources peut se trouver sur le système de fichiers local ou dans HDFS,
en fonction du paramètre` APT_YARN_USE_HDFS` dans le fichier `yarnconfig.cfg`.
  

   
   * Un fichier de configuration dynamique utilise le même format que les fichiers de
configuration statiques Information Server, qui attribuent des nœuds fixes au
travail. Cependant, un fichier de configuration dynamique utilise une valeur de nom
rapide "\ $ host", par opposition à un fichier de configuration statique qui contient
généralement un nom d'hôte. Un noeud du fichier de configuration doit contenir le
noeud de niveau moteur, mais ce noeud peut être défini avec un pool de noeuds
conducteur si vous ne souhaitez pas exécuter le traitement des données sur le
noeud conducteur. 
  

    
    
   * Un fichier de configuration mixte contient un mélange de noms d’hôtes statiques
(un nom d’hôte réel) et de noms d’hôte dynamiques (nom rapide `\ $ host`). Le fichier
de configuration suivant spécifie que les 30 premiers nœuds sont définis par
YARN. Ensuite, les 10 nœuds suivants sont exécutés sur la machineA et le 41e
nœud est exécuté sur la machineB:
  

  
5. Dans la fenêtre Options d'exécution du travail, utilisez un fichier de configuration
dynamique pour votre traitement. Cliquez sur le champ qui définit le fichier de
configuration pour afficher l' icône Options . 
    
   
  
    Une fenêtre de l'explorateur de fichiers s'affiche et le fichier
`px_config_dynamic_1.apt` est sélectionné.
6. Cliquez sur OK .
    

   
7. Vérifiez que vous utilisez le bon fichier de configuration et cliquez sur Exécuter . 
    
 

  
    Lorsque le travail est terminé, tous les liens de travail deviennent verts et affichent
le nombre de lignes sur chaque lien.
    

8. Cliquez sur le centre de la partie inférieure de la page pour afficher la fenêtre du


journal des tâches.
9. Recherchez ces entrées:
 

Résumé
Vous avez exécuté un travail ETL Data Warehouse traditionnel et déplacé des
données de Data Warehouse vers Hadoop. Ensuite, vous avez exécuté une ETL
Data Warehouse en utilisant des données Hadoop et un traitement ETL dans
Hadoop en utilisant YARN. 

Вам также может понравиться