Вы находитесь на странице: 1из 27

Buscando a Big Data

Diciembre 2013.
Big Probems
Big Data aglutina una gran
cantidad de tecnologas ya
desarrolladas por Yahoo!,
Google, Facebook.

En Espaa Big Data no ha
explotado pero hay empresas
y departamentos de grandes
compaas muy bien
posicionados.
Big Data: Apache Hadoop

Hadoop.
Apache Hadoop
Es un framework que permite el procesamiento
distribuido de gran cantidad de datos a travs de
el procesamiento en paralelo.
Escalable desde varios servidores a miles
Tenemos una mquina virtual (Ubuntu Server sin las X)
con un Single Cluster Node configurado.
HDFS y Map/Reduce
Hadoop Distributed File System almacena los
datos de manera distribuida y escalable.
Fiabilidad mediante el replicado de datos entre nodos

MapReduce es el modelo de programacin en dos
fases para Hadoop.
Map(); Reduce();
Soporte para la computacin paralela
Tolerante a fallos
Hadoop AppStore
Apache Pig
Simplifica el uso de Hadoop, es un lenguaje de
procedimientos de alto nivel para consultar
grandes conjunto de datos semiestructurados. Un
script Pig Latin es automticamente paralelizado
y distribuido a travs de un cluster.
Ejemplo:
messages = LOAD 'messages'; warns = FILTER
messages BY $0 MATCHES '.*WARN+.*'; STORE
warns INTO 'warnings';
La primera lnea simplemente lee el conjunto de datos de prueba (el registro de
mensajes) en una bolsa (bag) que representa una coleccin de tuplas. Estos
datos se filtran (la nica entrada en la tupla, representada por $0o campo 1) con
una expresin regular, buscando la secuencia de caracteres WARN. Por ltimo,
guarda la bolsa, que ahora representa las tuplas de los mensajes que
contienen WARN en un nuevo archivo denominado warnings en el sistema de
archivos de host.
Apache Hive
Es un sistema de Data Warehouse para Hadoop
que facilita la agregacin de los datos. Permite
realizar consultas sobre los datos usando un
lenguaje similar a SQL (HiveSQL).
Podemos integrarnos con otras herramientas de
Business Intelligence.
Ejemplo:
hive> ALTER TABLE events RENAME TO 3koobecaf;
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);
hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');
hive> ALTER TABLE invites REPLACE COLUMNS (foo INT, bar STRING, baz INT COMMENT 'baz replaces new_col2');
Diagrama de trabajo en Hadoop

Hadoop: 1.0 vs 2.0
Hadoop 1.0:
HDFS + MapReduce
Procesamiento Batch de datos

Hadoop 2.0
Tiempo real
Yarn: Nueva implementacin mejorada de MapReduce
Puede implementar mltiples aplicaciones de
procesamiento de datos totalmente personalizadas y
especficas para realizar una tarea en cuestin

La idea de aplicacin

Inquietudes personales.
Predecir los indicadores
19/02/2011 Jos Flix Tezanos

Y recomienda a "los ingenuos y simplistas" que se lean alguno de los
libros en los que varios investigadores, entre los que se incluye, han
avisado de estos riesgos. "Y luego no digan que nadie lo advirti",
apostilla. De hecho, segn dice, los conflictos sociales que han
estallado en Tnez, Egipto y otros pases norteafricanos, donde
subyace una "ira social juvenil", han causado sorpresa en Occidente,
pese a que eran "predecibles".
http://www.elconfidencial.com/espana/2011/espana-corre-peligro-sufrir-
revueltas-arabes-20110219-75073.html
Entrevista a Manuel Castells en el programa de LA 2 Para todos la 2
De los movimientos sociales a los usos
sociales.
Los movimientos sociales originados en la red o en el mvil pueden mover el mundo.
Existe una correlacin entre ciertos comentarios en blogs y en redes sociales y el
aumento del desempleo. Estamos hablando que se puede predecir subidas en el
desempleo entre 4 y 5 meses antes.

Global Pulse (ONU).
http://www.rtve.es/alacarta/audios/coordenadas/coordenadas-big-data-04-04-13/1748388/
Mediante visualizacin se pueden detectar patrones con respecto al uso de ciertos medicamentos y
asistencia sanitaria.
http://www.ted.com/talks/lang/es/joel_selanikio_the_surprising_seeds_of_a_big_data_revolu
tion_in_healthcare.html
Sector Financiero
Entre las aplicaciones prcticas que puede tener Big Data en el sector financiero:
La mejora de las capacidades de venta cruzada de productos financieros o no financieros, a
partir de patrones de compra o de inters.
El control de fraude, minimizando los riesgos de uso indebido de medios de pago cuando el
titular se encuentra de viaje, incorporando elementos no tradicionales como las interacciones en
redes sociales.
La fidelizacin y retencin de clientes, ofrecindoles promociones y ofertas comerciales
adaptadas a sus necesidades y contexto. h
http://blogs.elpais.com/finanzas-a-las-9/2012/10/big-data-y-la-banca-del-futuro.html




Ejemplos:
Banco Sabadell se sumerge en el Big Data para conocer mejor a sus clientes.
Case study: ING Direct taps big data to understand customers.
PayPal utiliza herramientas Big Data para combatir el fraude en tiempo real.
(http://bigdata-hadoop.pragsis.com/pages/2/casos_de_uso)

Proyect I: The Proof Of Concept
Es posible predecir las tendencias burstiles
mediante los indicadores socioeconmicos que
se encuentran en la prensa?
Valoracin de la propuesta
Prediccin a corto plazo de valores y empresas del IBEX 35.
Debera invertir en una empresa en concreto?



Es una idea inicial sin ninguna pretensin
Es sencillo probar las conclusiones
Llegaremos a correlacionar algn indicador socioeconmico?
Como aplicacin se encuentra en un mercado muy explotado
Posibilidad para utilizar datos en tiempo real Twitter



HADOOP
Twitter
Datos en
Tiempo Real
BIG DATA
Prensa
Datos socio-
econmicos

Datos empresariales
Vdeos
Imgenes
IDEAS
ANALYTICS + MACHINE LEARNING
VISUALIZATION
APLICACIONES
Posible Mapa para la implantacin
Idea
Clasificacin
de textos
Strategy for parallelization
Store Data
Analytics
Searchs
Visualization
Applications
Project II: Eventos Deportivos
Project III: The Internet of Things.
Sensores
Aplicacin mvil de inters al
pblico.
Opportunity

https://www.coursera.org/course/bigdata

Cursos, libros, material para empezar
Hadoop: The Definitive Guide, 3rd
Edition
Storage and Analysis at Internet Scale
By Tom White
Publisher: O'Reilly Media / Yahoo Press
Released: May 2012
Pages: 688

Cursos, libros, material para empezar
Programming Hive
Data Warehouse and Query Language for Hadoop
By Edward Capriolo, Dean Wampler, Jason
Rutherglen
Publisher: O'Reilly Media
Released: September 2012
Pages: 352

Programming Pig
Dataflow Scripting with Hadoop
By Alan Gates
Publisher: O'Reilly Media
Released: September 2011
Pages: 224

HBase: The Definitive Guide
Random Access to Your Planet-Size Data
By Lars George
Publisher: O'Reilly Media
Released: August 2011
Pages: 556

Cursos, libros, material para empezar
Data Science Starter kit


Cursos, libros, material para empezar
Machine Learning

https://www.coursera.org/course/ml
http://svmlight.joachims.org/
Where is Hadoop?
FIN