Вы находитесь на странице: 1из 32

Desenvolvendo Processos de ETL com

PENTAHO DATA INTEGRATION


PDI - KETTLE

TREINAMENTO PENTAHO DATA INTEGRATION 1


Pentaho Data Integration
O que a Suite Pentaho Oferece
Data Integration / ETL

Big Data / NoSQL

Reporting

OLAP / Analysis

Data Visualization

Data Mining / Predictive Analysis (Mobile)

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 2


Pentaho Data Integration
Mdulos Suite Pentaho
A suite Pentaho composta pelo Pentaho BI Server, Pentaho Data integration, Pentaho Analysis, Pentaho
Reports, Pentaho Dashboards, e Pentaho Data Mining.
Pentaho Data Integration: Tambm conhecido como Kettle ou PDI, uma soluo robusta para a integrao de dados, recomendada
para o processo de ETL responsvel por popular o Data Warehouse, migrao de base de dados e integrao de aplicaes.

Pentaho Analysis: Tambm conhecido como Mondrian, um poderoso motor OLAP, baseado em uma arquitetura ROLAP, onde
podemos utilizar os principais SGBDs do Mercado. Possui diversas funcionalidades, como, camada de metadados, linguagem MDX,
cache em memria, tabelas agregadas e muito mais.

Pentaho Reporting: Este modulo da suite contempla duas ferramentas, uma ferramenta de gerao de relatrios, tambm conhecida
como JFreeReport e outra para a gerao de metadados, a qual permite a criao de Ad-Hoc de relatrios via Web.

Pentaho Dashboards: Este mdulo da sute permite a criao de painis de controle, mais conhecidos como Dashboards e atravs
dele possvel reunir em uma mesma tela, os principais indicadores de um departamento ou de toda empresa.

Pentaho Data Mining: Tambm conhecido como Weka o modulo mais antigo da suite e possui poderosos recursos para a minerao
de dados.

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 3


Pentaho Data Integration
Processamento Paralelo
Dados: Diviso de um nico arquivo em arquivos de dados
menores.

Pipeline: Permite a execuo simultnea de diversos


components no mesmo fluxo de dados.

Componentes: Execuo simultnea de mltiplos processos


de diferentes fluxos de dados no mesmo Job.

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 4


Pentaho Data Integration
Componentes do PDI

Spoon

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 5


Pentaho Data Integration
Componentes do PDI

Spoon

Pan

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 6


Pentaho Data Integration
Componentes do PDI

Spoon

Pan

Kitchen

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 7


Pentaho Data Integration
Componentes do PDI

Spoon

Pan

Kitchen

Carte

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 8


O que o Spoon?

PDI - KETTLE

TREINAMENTO PENTAHO DATA INTEGRATION 9


Pentaho Data Integration
Spoon

Iniciar Spoon.bat (Windows) ou Spoon.sh (Linux, MacOS)

Ferramenta grfica que utilizamos para desenhar nossos processos do ETL sendo eles:

Transformation (.ktr):

Jobs (.kjb):

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 10


O que o Pan?

PDI - KETTLE

TREINAMENTO PENTAHO DATA INTEGRATION 11


Pentaho Data Integration
Pan

Ferramenta usada para executar as Transformations via linha de comando

Via Linux:
sh pan.sh -rep=initech_pdi_repo -user=pgibbons -pass=lumburghsux -trans=TPS_reports_2011

Via Windowns
pan.bat /rep:initech_pdi_repo /user:pgibbons /pass:lumburghsux /trans:TPS_reports_2011

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 12


O que o Kitchen?

PDI - KETTLE

TREINAMENTO PENTAHO DATA INTEGRATION 13


Pentaho Data Integration
Kitchen

Ferramenta usada para executar as Jobs via linha de comando

Via Linux:
kitchen.sh -rep=repo-treinamento job=job_13_CARGA_PRINCIPAL dir: -level:basic param:

Via Windowns

Kitchen.bat /rep:repo-treinamento /job:job_13_CARGA_PRINCIPAL /dir: /level:Basic /param:

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 14


O que o Carte?

PDI - KETTLE

TREINAMENTO PENTAHO DATA INTEGRATION 15


Pentaho Data Integration
Carte

Servidor web para execuo


remota de transformations e Jobs

Utilizado tambm para


execuo dividida em clusters
(master e slaves)

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 16


Pentaho Data Integration
Design
Interface Spoon window

Objetos da
transformao

Steps
Disponveis

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 17


O que uma Transformation?

PDI - KETTLE

TREINAMENTO PENTAHO DATA INTEGRATION 18


Pentaho Data Integration
Transformation

Utilizado para a criao do ETL

Sequncia lgica de steps interligadas por hops


Step uma unidade dentro da transformao que podemos
classifica-la basicamente como:
step de entrada dos dados (extract)
transformao dos dados (transformation)
sada (load)

Hop a representao grfica do fluxo de dados entre dois steps

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 19


Extraction
Input Steps

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 20


Transformation
Transformation Steps

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 21


Loading
Loading Steps

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 22


Demais Steps

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 23


O que um Job?

PDI - KETTLE

TREINAMENTO PENTAHO DATA INTEGRATION 24


Pentaho Data Integration
Jobs

Utilizado para chamar e controlar a execuo


de uma ou N transformations

Geralmente, jobs so agendados e executados


em lotes de forma automtica

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 25


Big Data
Novas Funcionalidades
Novos templates para Hadoop e Splunk

Expandida integrao NoSQL

Suporte Ecosistema Expandida


Alta disponibilidade suporte Hadoop

Novas interaes: RedShift, Impala, Splunk

Certificaes Hadoop: Intel, Hortonworks, DataStax

Suporte para as ltimas verses de CDH, MapR, MongoDB and Cassandra

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 26


Pentaho Data Integration

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 27


Pentaho Data Integration
Fluxo do process ETL Fluxo do Kettle

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 28


Pentaho Data Integration

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 29


Clientes

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 30


Clientes

Autor: Claudio Rigoni

TREINAMENTO PENTAHO DATA INTEGRATION 31


OBRIGADO

PDI - KETTLE
Autor Claudio Rigoni

Verso v.1

TREINAMENTO PENTAHO DATA INTEGRATION 32

Вам также может понравиться