Вы находитесь на странице: 1из 26

Introducción a Big Data y

al Ecosistema Hadoop
Clase I
Objetivos de la clase
Objetivos General

Objetivos Específicos

2
Parte 1 Introducción a Big Data

3
¿Qué es Big Data?

Big Data
grandes
cantidades de datos

grande
y complejo

4
Principios del Big Data

5
¿Por qué se necesita Big Data?


dos años

● no
estructurados.

● vida
útil muy corto

● potencialmente valiosos

6
Fuentes de información Big Data








7
Parte 2 Ecosistema Hadoop

8
Ecosistema Hadoop

9
Hadoop
Hadoop

10
Arquitectura Hadoop

11
¿Por qué Hadoop?

Vertical Scaling


Horizontal Scaling lineal

Procesos Batch y en tiempo real

12
HDFS - Store
HDFS (Hadoop Distributed
File System)

distribuido, escalable y
portátil escrito en Java

trabajar con ficheros de gran


tamaño

13
MapReduce - Processing
MapReduce

14
YARN
YARN (Yet Another Resource Negociator)

JobTracker

Resource
Manager
Application Master
Node Manager

15
YARN

16
Parte 3 Apache Spark

17
Desmintiendo algunos mitos...
¿Spark vs Hadoop?

alternativas y excluyentes

complemento

comparar Spark
con MapReduce

18
Spark
Spark

19
Procesamiento en Spark
100x

10x

Clusters

Standalone

20
Facilidad de uso

API Scala
Python, Java y SparkSQL.

21
Costo y Escalabilidad

22
Parte 4 Setup Mínimo

23
Setup ambiente Hadoop Spark

24
Instalación en entorno Windows 7/8/10








VIDEO REFERENCIAL:

25
Instalación en Linux
OPCION 1:

TUTORIAL VISTO EN CLASE:

OPCION 2:

VIDEO REFERENCIAL:

26

Вам также может понравиться