Вы находитесь на странице: 1из 27

BDA305

Construindo Data Lakes e Analytics na


AWS

Hugo Rozestraten
Solutions Architect

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Qual o valor do dado?

Crescimento Orgânico
de Receita
24%
Organizações que conseguem gerar valor de
negócio a partir de seus dados irão superar seus
15% concorrentes. Uma pesquisa da Aberdeen
demonstrou que organizações que
implementaram um data lake superaram
organizações similares 9% no crescimento
orgânico de receita.*
Líderes Seguidores
*Aberdeen: Angling for Insight in Today’s Data Lake, Michael Lock, SVP Analytics and Business Intelligence
Dado está mudando  Capacidade Analítica
adaptando-se
Captura e
Novos tipos de armazenamento
capacidade analítica de novos dados na
escala de PB-EB.

Faça novos tipos de


analytics de forma
rentável.
• Machine learning
• Big data
• Análise Real-time
• Busca Full-text
Visão Tradicional da Arquitetura de Dados
(Analytics)
Business intelligence • Dado Relacional

• Escala de TBs–PBs

• Esquema definido antes do acúmulo de


dados

Data warehouse • Relatórios Operacionais e ad-hoc

• CAPEX inicial

OLTP ERP CRM LOB


Data Lakes estendem a abordagem tradicional

Processamento Big data,


Business intelligence real-time, machine learning

• Dado Relacional e Não Relacional

• Escala de TBs–EBs

• Motores Analíticos Diversos


Data warehouse Data lake
• Armazenamento de baixo custo &
Analytics

OLTP ERP CRM LOB Dispositivos Web Sensores Social


Data Lakes na AWS
• Incomparável durabilidade, e disponibilidade
na escala de EB
• Melhor capacidade de segurança,
Machine
learning Analytics conformidade regulatória e auditoria
• Controle granular de acesso ao nível de
objeto
Data Lake • Performance mais rápida recuperando
na AWS subconjunto de dados
• Muitas maneiras de trazer os dados
• 2x mais integrações com parceiros
Dados Dados • Análise com um amplo conjunto de serviços
On-premises Real-time
Portfolio de Data Lakes Integrado
Machine learning Analytics
Serviços de ML gerenciados Análise Interativa
Deep Learning AMIs Hadoop & Spark
Reconhecimento de Vídeo e Imagem Data Warehousing
Interfaces Conversacionais Busca Full-text
Deep-Learning Vídeo Camera Análise Real-time
Processamento de Linguagem Natural Dashboards & Visualizações
Tradução de línguas
Reconhecimento de voz
Text-to-Speech

Data Lake
na AWS
Armazenamento | Catálogo de dados

Dados On-premises Dados Real-time


Conexão de Rede Dedicada Dispositivos Conectados na AWS
Ferramentas de Segurança Stream de dados Real-time
Container de Embarque Reforçado Stream de video Real-time
Migração de banco de dados
Portfolio de Data Lakes Integrado
Machine learning Analytics
Amazon SageMaker Amazon Athena
AWS Deep Learning AMIs Amazon EMR
Amazon Rekognition Amazon Redshift
Amazon Lex Amazon Elasticsearch Service
AWS DeepLens Amazon Kinesis
Amazon Comprehend Amazon QuickSight
Amazon Translate
Amazon Transcribe
Amazon Polly

Data Lake
on AWS
Amazon S3 | AWS Glue

Dado On-premises Dado Real-time


AWS Direct Connect AWS IoT Core
AWS Snowball Amazon Kinesis Data Firehose
AWS Snowmobile Amazon Kinesis Data Streams
AWS Database Migration Service Amazon Kinesis Video Streams
Data Lake no Amazon S3 com AWS Glue
Seus Dados

Web app data

Amazon RDS

Outros Banco de AMAZON


Dados QUICKSIGHT

Dados on-premise

Streaming data
AWS Glue

Catálogo de Dados Autoria de Job Execução de Job

Descobrir Desenvolver Implantar

Compatível Apache Hive Metastore Gerar ETL automaticamente Execução Serverless


Integrado com serviços AWS Python and Apache Spark Agendamento flexível
Crawling automático Edite, debug, e compartilhe Monitoramento e alarmes
Outras maneiras de popular um catálogo
Criar tabela manualmente Executar Hive DDL statement

Invocar o AWS Glue CreateTable API Importar do Apache Hive Metastore

Apache Hive
Metastore
AWS GLUE ETL AWS GLUE
DATA CATALOG
Como eu atribuo valor?
Machine learning Analytics
Amazon SageMaker Amazon Athena
AWS Deep Learning AMIs Amazon EMR
Amazon Rekognition Amazon Redshift
Amazon Lex Amazon Elasticsearch Service
AWS DeepLens Amazon Kinesis
Amazon Comprehend Amazon QuickSight
Amazon Translate
Amazon Transcribe
Amazon Polly

Data Lake
on AWS
Amazon S3 | AWS Glue

Dado On-premises Dado Real-time


AWS Direct Connect AWS IoT Core
AWS Snowball Amazon Kinesis Data Firehose
AWS Snowmobile Amazon Kinesis Data Streams
AWS Database Migration Service Amazon Kinesis Video Streams
Amazon Athena

Serviço de consulta interativa que facilita a


análise de dados diretamente do Amazon S3
utilizando SQL padrão
Familiaridade com tecnologias utilizadas

Utilizada para consultas SQL


In-memory distributed query engine
ANSI-SQL compatível com extensões

Utilizado para funcionalidade de DDL


Tipos de Dados complexos
Múltiplos formatos
Suporte a particionamento de dados
Hadoop/Spark Analytics
• Processamento Distribuído

• Aplicabilidade Variada
• Batch/Script (Hive/Pig)
• Interactive (Spark, Presto)
Batch Script Interactive Real-time Machine NoSQL • Real-time (Spark)
learning
• Machine Learning (Spark)
• NoSQL (HBase)

YARN (Hadoop Resource Manager) • Para muitos casos de uso


• Análise de log e clickstream
• Machine learning

Data Lake • Análise Real-time

na AWS • Análise em larga escala


• Genômica
• ETL
Hadoop/Spark Analytics na AWS

Batch Script Interactive Real-time Machine NoSQL Amazon EMR


learning

Hadoop/Spark Gerenciado
YARN (Hadoop Resource Manager)

Data Lake Amazon S3


na AWS
Armazenamento de
Objetos
EMR – Enterprise - Hadoop & Spark
Versões mais recentes em ambientes Hadoop e Spark

EMR lançamentos
Emr-4.0.0 Emr-4.7.0 Emr-5.3.0 Emr-5.14.0
Junho 2018

1.4.2
2.8.3 3.7.2 + 2.3.2 4.1.0 0.13.0 4.3.0 4.13.0 0.17.0 0.194 2.3.0 1.4.7 0.8.4 0.7.3 3.4.10 1.4.2 0.4.0 1.1.0
S3

• Dezenove projetos open-


source: Apache Hadoop,
Janeiro 2017

1.2.3

Spark, HBase, Presto, e


2.7.3 3.7.2 + 2.1.1 3.11.0 0.12.2 4.3.0 4.7.0 0.16.0 0.157.1 2.1.0 1.4.6 0.8.4 0.6.2 3.4.9 1.1.4
S3

mais
Junho 2016

2.7.2 3.7.2 1.2.1 1.0.0 3.7.1 0.12.0 4.2.0 4.7.0 0.14.0 .147 1.6.1 1.4.6 0.8.3 0.5.6 3.4.8

• Atualizado com os
últimos frameworks open
source
Julho 2015

2.6.0 1.0.0 0.10.0 0.14.0 1.4.1

Zookeeper
Zeppelin
Phoenix
Hadoop

Ganglia

Catalog

Mahout

MXNet
Hive &

Presto

Sqoop
HBase

Spark
Oozie

Flink

Livy
Hue

Tez
Pig
Finra – Detecção de Fraude com AWS

FINRA usa Amazon EMR e Amazon S3 para processor até 75 bilhões


de eventos de trading por dia e armazenar de forma segura 5 PB de
dados, atingindo $10-20mm de economia por ano.
Amazon S3 – Fonte da verdade
Amazon EMR

EC2 Instance Memory


HDFS

Intermediates
stored on local
Amazon S3
HDFS Local
disk or HDFS
HDFS
Local Intermediário
HDFS/Storage
Transient ETL Job

Amazon EMR

EC2 Instance Memory


Visão da Verdade

HDFS Local
Intermediates
stored on local HDFS
disk or HDFS
HDFS
Local Intermediário
HDFS/Storage
Interactive Spark Cluster
Gerenciamento de Metadados externos
Amazon EMR
Clientes possuem opções

Glue Data Amazon S3


Catalog
HDFS
Transient ETL Job

MySQL DB
instance Amazon EMR

Visão da Verdade

HDFS
Descreve os dados no S3
Interactive Spark Cluster
Machine Learning no Seu Data Lake
Machine learning Analytics
Amazon SageMaker Amazon Athena
AWS Deep Learning AMIs Amazon EMR
Amazon Rekognition Amazon Redshift
Amazon Lex Amazon Elasticsearch Service
AWS DeepLens Amazon Kinesis
Amazon Comprehend Amazon QuickSight
Amazon Translate
Amazon Transcribe
Amazon Polly

Data Lake
na AWS
Amazon S3 | AWS Glue

Dado On-premises Dado Real-time


AWS Direct Connect AWS IoT Core
AWS Snowball Amazon Kinesis Data Firehose
AWS Snowmobile Amazon Kinesis Data Streams
AWS Database Migration Service Amazon Kinesis Video Streams
AWS Machine Learning
Vision Speech Language
Application
Services Rekognition Rekognition
Polly Transcribe Lex Translate Comprehend
Image Video

Platform
Services Amazon SageMaker

TensorFlow Apache MXNet Cognitive Caffe2 & Caffe PyTorch Keras Gluon
Frameworks & Toolkit
Infra-estrutura
GPU CPU IoT (Greengrass) Mobile
Amazon SageMaker

1 2 3 4

I I I I
Instâncias Notebook Algoritmos Treinamento Hospedagem do
Serviço
Demo

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Sumário

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Agilidade e Inovação como capacidades de
negócio Analytics
Machine learning
Amazon SageMaker Amazon Athena
AWS Deep Learning AMIs Amazon EMR
Amazon Rekognition Amazon Redshift
Amazon Lex Amazon Elasticsearch Service
AWS DeepLens Amazon Kinesis
Amazon Comprehend Amazon QuickSight
Amazon Translate
Amazon Transcribe
Amazon Polly

Data Lake
na AWS
Amazon S3 | AWS Glue

On-premises data movement Real-time data movement


AWS Direct Connect AWS IoT Core
AWS Snowball Amazon Kinesis Data Firehose
AWS Snowmobile Amazon Kinesis Data Streams
AWS Database Migration Service Amazon Kinesis Video Streams
Obrigado!

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.