Академический Документы
Профессиональный Документы
Культура Документы
al Ecosistema Hadoop
Clase I
Objetivos de la clase
Objetivos General
Objetivos Específicos
2
Parte 1 Introducción a Big Data
3
¿Qué es Big Data?
Big Data
grandes
cantidades de datos
grande
y complejo
4
Principios del Big Data
5
¿Por qué se necesita Big Data?
●
dos años
● no
estructurados.
● vida
útil muy corto
● potencialmente valiosos
6
Fuentes de información Big Data
●
●
●
●
●
●
●
●
●
7
Parte 2 Ecosistema Hadoop
8
Ecosistema Hadoop
9
Hadoop
Hadoop
10
Arquitectura Hadoop
11
¿Por qué Hadoop?
Vertical Scaling
●
●
●
12
HDFS - Store
HDFS (Hadoop Distributed
File System)
distribuido, escalable y
portátil escrito en Java
13
MapReduce - Processing
MapReduce
14
YARN
YARN (Yet Another Resource Negociator)
JobTracker
Resource
Manager
Application Master
Node Manager
15
YARN
16
Parte 3 Apache Spark
17
Desmintiendo algunos mitos...
¿Spark vs Hadoop?
alternativas y excluyentes
complemento
comparar Spark
con MapReduce
18
Spark
Spark
19
Procesamiento en Spark
100x
10x
Clusters
Standalone
20
Facilidad de uso
API Scala
Python, Java y SparkSQL.
21
Costo y Escalabilidad
22
Parte 4 Setup Mínimo
23
Setup ambiente Hadoop Spark
24
Instalación en entorno Windows 7/8/10
●
○
●
○
●
○
●
○
VIDEO REFERENCIAL:
25
Instalación en Linux
OPCION 1:
OPCION 2:
VIDEO REFERENCIAL:
26