Академический Документы
Профессиональный Документы
Культура Документы
Le travail DS07 \ JK \ BANK1 \ Et \ JK \ BANK2 \ To \ COMBINE \ CST \ INPUT est
affiché.
Le travail a ces sources de données:
* Données BANK1 ACCOUNTS, appelées «BANK_ACCOUNTS».
* BANK2 CHECKING les données du client, appelées `BANK_CHECKING`.
* Données sur le client BANK2 INVESTMENT, appelées
«BANK_INVESTMENTS».
* Données client BANK2 SAVINGS, appelées `BANK_SAVINGS`.
La cible de données du travail est les données client combinées BANK1 et BANK2.
3. Compilez le travail en cliquant sur l' icône Compiler dans la barre d'outils.
4. Exécutez le travail en cliquant sur l' icône Exécuter de la barre d'outils.
5. Dans la fenêtre Options d'exécution du travail, vous pouvez fournir des valeurs
pour les paramètres du travail d'exécution. Utilisez les valeurs par défaut. Pour le
paramètre `JKLW_DBS_PWD`, tapez` inf0server`. Cliquez sur Exécuter pour
exécuter le travail.
6. Une fois le travail exécuté, vérifiez les données de l'étape de sortie:
une. Cliquez sur le connecteur de base de données de sortie COMBINE \ CST \
INPUT , puis cliquez sur Afficher les données Link Link \ COMBINE \ CST \ INPUT.
Les données renvoyées représentent un ensemble d'entrées client combinées pour
les clients sectoriels JKBANK1 et JK \ BANK2 sous une forme non normalisée et non
nettoyée.
Examiner une propriété de connecteur de fichier
1. Cliquez sur le connecteur de fichier HDFS \ BANK \ ACCOUNTS .
La fenêtre File Connector montre comment vous avez attribué les attributs de
connectivité au serveur Big Data. Vous pouvez également voir les attributs de fichier
pour savoir où et comment vous écrivez les données. Votre hôte et le chemin du
fichier peuvent être différents.
Lorsque vous avez terminé de consulter les informations, cliquez sur OK pour quitter
la fenêtre des propriétés.
2. Vérifiez les données dans le système de fichiers HDFS. La console Web Ambari
est ouverte et l'utilisateur admin est connecté.
3. Dans la console Ambari, cliquez sur Affichage du fichier .
4. Dans la liste des répertoires, cliquez sur utilisateur .
5. Cliquez sur le répertoire dsadm .
6. Cliquez sur le dossier jklw .
Les fichiers que vous avez chargés dans le système de fichiers HDFS se trouvent
dans le dossier.
2. Compilez le travail en cliquant sur l' icône Compiler dans la barre d'outils.
3. Exécutez le travail en cliquant sur l' icône Exécuter de la barre d'outils.
4. Dans la fenêtre Job Run Options, vous pouvez sélectionner le fichier de
configuration. Utilisez le fichier de configuration `default.apt`. Cliquez sur Exécuter .
Lorsque le travail est terminé, tous les liens de travail deviennent verts et affichent
le nombre de lignes sur chaque lien.
5. Revenez à la vue Fichier HDFS en cliquant sur l'icône Agrandir la fenêtre.
Notez l'heure à laquelle le fichier HDFS \ BANK \ COMBINED \ TEXT a été écrit
sur le système de fichiers Hadoop.
6. Cliquez sur l' icône d'actualisation en haut de la vue Fichier pour recharger les
informations sur le fichier.
L'horodatage du fichier est mis à jour après l'exécution du travail.
Fermez la vue Fichier en cliquant sur le fichier en surbrillance.
7. Retournez dans DataStage et fermez le travail.
Exécuter le traitement ETL dans Hadoop à l'aide de YARN
Traitez les données basées sur un fichier HDFS en transmettant le traitement au
cluster Hadoop et en permettant l'exécution du traitement à l'aide de YARN.
1. Cliquez avec le bouton droit sur le travail HD04 \ Process \ using \ YARN et cliquez
sur Modifier .
Le travail HD04 \ Process \ on \ HDFS \ using \ YARN lit les données de votre
système de fichiers Hadoop HDFS, les traite et enregistre les données consolidées
du client dans le système de fichiers Hadoop HDFS entièrement dans le cluster
Hadoop.
* Lorsque des travaux parallèles sont exécutés sur Hadoop, ils demandent un
ensemble de conteneurs à YARN. Les conteneurs représentent les ressources
auxquelles le travail a été attribué. Chaque ressource a une quantité désignée de
CPU virtuel et de mémoire pour chaque conteneur. Le nombre de conteneurs
demandés est égal au nombre de nœuds logiques définis dans le fichier
`APT_CONFIG_FILE`.
* Ces fichiers peuvent être configurés de trois manières: statique, dynamique et
mixte.
* Un fichier statique ressemble à un `APT_CONFIG_FILE` normal, sauf que le
disque de ressources peut se trouver sur le système de fichiers local ou dans HDFS,
en fonction du paramètre` APT_YARN_USE_HDFS` dans le fichier `yarnconfig.cfg`.
* Un fichier de configuration dynamique utilise le même format que les fichiers de
configuration statiques Information Server, qui attribuent des nœuds fixes au
travail. Cependant, un fichier de configuration dynamique utilise une valeur de nom
rapide "\ $ host", par opposition à un fichier de configuration statique qui contient
généralement un nom d'hôte. Un noeud du fichier de configuration doit contenir le
noeud de niveau moteur, mais ce noeud peut être défini avec un pool de noeuds
conducteur si vous ne souhaitez pas exécuter le traitement des données sur le
noeud conducteur.
* Un fichier de configuration mixte contient un mélange de noms d’hôtes statiques
(un nom d’hôte réel) et de noms d’hôte dynamiques (nom rapide `\ $ host`). Le fichier
de configuration suivant spécifie que les 30 premiers nœuds sont définis par
YARN. Ensuite, les 10 nœuds suivants sont exécutés sur la machineA et le 41e
nœud est exécuté sur la machineB:
5. Dans la fenêtre Options d'exécution du travail, utilisez un fichier de configuration
dynamique pour votre traitement. Cliquez sur le champ qui définit le fichier de
configuration pour afficher l' icône Options .
Une fenêtre de l'explorateur de fichiers s'affiche et le fichier
`px_config_dynamic_1.apt` est sélectionné.
6. Cliquez sur OK .
7. Vérifiez que vous utilisez le bon fichier de configuration et cliquez sur Exécuter .
Lorsque le travail est terminé, tous les liens de travail deviennent verts et affichent
le nombre de lignes sur chaque lien.
Résumé
Vous avez exécuté un travail ETL Data Warehouse traditionnel et déplacé des
données de Data Warehouse vers Hadoop. Ensuite, vous avez exécuté une ETL
Data Warehouse en utilisant des données Hadoop et un traitement ETL dans
Hadoop en utilisant YARN.