Big Data Analytics

UNIVERSIDAD NACIONAL DE INGENIERÍA
FACULTAD DE INGENIERÍA INDUSTRIAL Y DE SISTEMAS
Ingeniería de Sistemas
TRABAJO DE INVESTIGACIÓN
“BIG DATA ANALYTICS”
Integrantes:
1. Mayuri Hidalgo, Jesús Angel 20174019C

2. Mesías Sánchez, Marco Fabio 2017
Profesor del curso: Ing. Ysabel Rojas Solis MBA PMP
Nombre del Curso: Taller de Herramientas de Software I
Curso-Sección: ST231-V
Facultad: FIIS
2019-2
ÍNDICE
Introducción 3
Fundamento Teórico 3
Definición 3
Nivel de estructura de los datos 5
Datos estructurados 6
Datos semiestructurados 6
Datos no estructurados 7
¿Qué tipos de datos debo explorar? 8
Campos o áreas de aplicación e investigación 12

Aplicación 9
Investigación 10
Aspectos de la implementación 12
Caso de Sistema, aplicativo, herramienta de mejora 17
Componentes de Big Data 16
Casos de éxito (Nacional e Internacional) 16
Nuevas Tecnologías o tecnologías emergentes 17
Campo de aplicación 17
Avances a la fecha 18
Casos de éxito 19
Conclusiones 19
Referencias 19
1. Introducción
Con el constante crecimiento de información en cada uno de los aspectos más
relevantes como la sociedad, el comercio y la ciencia, se vuelve necesario un cambio
con respecto al manejo de la información, que hasta hace poco tiempo se venía
implementando a partir de bases de datos relacionales. Si bien este esquema
funcionaba para ambientes que almacenaban Teras de información con datos
puntuales y que a través de consultas SQL se podía buscar la información requerida,
se vuelve dispendioso y costoso al momento de analizar un mayor volumen de
información, en ambientes donde anualmente se almacenan petas de todo tipo de
datos, incluyendo aquí los no estructurados, como archivos de video y audio; un
ejemplo de esto es “Google, que recibe a diario trillones de bytes, con el objetivo de
ofrecer muchos de los servicios que actualmente se conocen como el mismo motor
de búsqueda y Google Earth”. El manejo de grandes cantidades de información
conlleva a pensar en la implementación de herramientas que permitan administrar y
gestionar este tipo de datos no estructurados y semiestructurados, en la búsqueda de
patrones concurrentes para la toma de decisiones. Ante esto, han surgido diversas
tecnologías que han ido evolucionando en la última década, y que combinadas forman
lo que actualmente se llama: Big Data, la cual no es una solución aislada, sino que
es necesario hacer confluir una estrategia de negocio con una técnica para aprovechar
esta tendencia tecnológica. Big Data es una combinación de los 50 años de evolución
de la tecnología. Debemos conocer las tecnologías emergentes que usan las
compañías (Hadoop, MapReduce, etc.). Las compañías han trabajado durante años
para obtener información útil de sus clientes, productos y servicios. Algunos datos son
estructurados y están almacenados en bases de datos. Sin embargo, otros,
incluyendo documentos, imágenes y vídeos, son desestructurados. Además, las
compañías tienen que considerar datos obtenidos de nuevas fuentes, como son los
sensores, las redes sociales, las páginas web, etc.
2. Fundamento Teórico
2.1. Definición
Una de las primeras preguntas que puede surgir en este momento, acerca de
este tema, es ¿Qué es Big Data y porqué se ha vuelto tan popular e
importante? pues bien, en términos generales podríamos referirnos como a
la tendencia tecnológica utilizada para manejar enormes cantidades de datos
(estructurados, no estructurados y semi estructurados) que tomaría demasiado
tiempo y sería muy costoso cargarlos a un base de datos relacional para su
análisis. Sin embargo, Big Data no se refiere a alguna cantidad en específico,
ya que es usualmente utilizado cuando se habla en términos de petabytes y
exabytes de datos.
Figura 1: Equivalencia de cantidad de información en bytes

Además del gran volumen de información, esta existe en una gran variedad
de datos que pueden ser representados de diversas maneras en todo el
mundo, por ejemplo de dispositivos móviles, audio, video, sistemas GPS,
incontables sensores digitales en equipos industriales, automóviles, medidores
eléctricos, veletas, anemómetros, etc., los cuales pueden medir y comunicar
el posicionamiento, movimiento, vibración, temperatura, humedad y hasta los
cambios químicos que sufre el aire, de tal forma que las aplicaciones que
analizan estos datos requieren que la velocidad de respuesta sea lo
suficientemente rápida para lograr obtener la información correcta en el
momento preciso. Estas son las características principales de una oportunidad
para Big Data.
Figura 2: Las 3 “Vs” de Big Data
En lo presentado anteriormente, se describen los 3 principios básicos que tiene

que contener un análisis con Big Data, sin embargo otros autores mencionan
el uso de 5 “Vs” para explicarla con mayor precisión.
Figura 3: 5 “Vs” del Big Data

2.2. ¿De dónde proviene toda esa información?
Los seres humanos estamos creando y almacenando información

constantemente y cada vez más en cantidades astronómicas. Se podría decir
que si todos los bits y bytes de datos del último año fueran guardados en CD's,
se generaría una gran torre desde la Tierra hasta la Luna y de regreso.
Esta contribución a la acumulación masiva de datos la podemos encontrar en
diversas industrias, las compañías mantienen grandes cantidades de datos
transaccionales, reuniendo información acerca de sus clientes, proveedores,
operaciones, etc., de la misma manera sucede con el sector público. En
muchos países se administran enormes bases de datos que contienen datos
de censo de población, registros médicos, impuestos, etc., y si a todo esto le
añadimos transacciones financieras realizadas en línea o por dispositivos
móviles, análisis de redes sociales (en Twitter son cerca de 12 Terabytes de
tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes
de fotos y videos), ubicación geográfica mediante coordenadas GPS, en otras
palabras, todas aquellas actividades que la mayoría de nosotros realizamos
varias veces al día con nuestros "smartphones", estamos hablando de que se
generan alrededor de 2.5 quintillones (
) de bytes diariamente en el
mundo.
2.3. Nivel de estructura de los datos

La forma en que se organizan los datos para facilitar su procesamiento usando
un computador
Mayor nivel de estructura → Procesamiento más sencillo
Menor nivel de estructura → Procesamiento más complejo
Por ejemplo, no es lo mismo el procesamiento y análisis de un texto escrito en
lenguaje humano que uno al que ya se han aplicado un conjunto de reglas
definidas para la estructuración de la información que contiene
ej. modelo relacional, lenguaje de marcas XML,…
Cuando menor es el nivel de estructura más difícil es su procesamiento
(integración y verificación de la calidad) y, por tanto, más complicada es la
extracción de conocimiento.
Figura 4: Clasificación en base a su nivel de estructura las fuentes de datos
2.3.1. Datos estructurados
● Nivel más alto de estructura → Procesamiento eficiente y eficaz

● Los datos se almacenan con una estructura bien definida y que
aplica unas normas muy estrictas
● El ejemplo más claro son las bases de datos relacionales
○ La información se almacena en tablas y se definen
relaciones entre dichas tablas
○ Las tablas se componen de filas (tuplas) y columnas
(campos o atributos)
○ Toda la información se almacena de acuerdo al
esquema relacional definido
● Por lo general, los almacenes de datos (Data Warehouses)
usan esta tecnología como almacenamiento subyacente
○ Aunque se aplique el modelo multidimensional en lugar
del modelo relacional
● Suelen contener metadatos: información sobre los propios
datos que ayuda en su interpretación (ej. descripciones,
unidades de medida usadas….)
2.3.2. Datos semiestructurados

El procesamiento de información estructurada es el más sencillo y
,desde hace tiempo, se consigue realizar de forma eficiente para
grandes volúmenes de datos. Sin embargo, en Big Data, la mayoría de
las fuentes externas de las que disponemos son de las consideradas
semi o nada estructuradas.
● Los datos se almacenan conforme a conjunto de reglas menos
estrictas y más flexibles
○ El nivel de estructura puede variar según su
aplicación y, por tanto, también la dificultad de
procesamiento
○ A medio camino entre datos estructurados y nada
estructurados.
● Algunos de los formatos semi estructurados más usados:
○ XML, JSON, CSV, Excel…
● En algunos los datos se organizan conforme a un esquema o
modelo de datos bien definido
○ XML (DTD y XML Schema)
● Suelen contener metadatos
● Algunas de las fuentes que usualmente se distribuyen en estos
formatos:
○ Open Data, redes sociales, datos de sensores, logs
de servidores web…
2.3.3. Datos no estructurados
● Menor nivel de estructura: No tienen una estructura definida de
forma explícita
○ Ejemplos: texto (en lenguaje natural), vídeo, audio,
imágenes…
○ Sí pueden tener algún tipo de estructura implícita: ej.
División en párrafos de un texto, escenas de una
película, estribillo de una canción…
● Para un computador puede llegar a ser muy difícil de interpretar
○ Es frecuente que, lo que es más fácil de interpretar para
un humano sea lo más difícil de interpretar para un
computador
● El 80% de las fuentes disponibles en Big Data son no
estructuradas.
● Existen algunas técnicas que permiten aprovechar este tipo de
fuentes…
○ Procesamiento del lenguaje natural (PLN) →
Estructuración
○ Minería de datos → Descubrimiento automático de
conocimiento implícito en los datos
● En una aplicación Big Data es frecuente trabajar con fuentes de
datos de los 3 tipos
● Como veremos en el módulo 4, la tecnología de
almacenamiento y procesamiento de Big Data centra sus
esfuerzos en dar soporte efectivo y eficiente a las nuevas
fuentes semi y no estructuradas, y facilitar la integración de
estas con otras fuentes altamente estructuradas.
● Puede ser necesario añadir estructura a las fuentes que no la
tienen antes de aplicar algún proceso de análisis para el
descubrimiento de conocimiento
○ Mediante procesos ETL
2.4. ¿Qué tipos de datos debo explorar?
Según IBM, se dividen en 5 grandes grupos, los cuales serán descritos a
continuación:
● Web and Social Media: Incluye contenido web e información que es

obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc,
blogs.
● Machine-to-Machine (M2M): M2M se refiere a las tecnologías que
permiten conectarse a otros dispositivos. M2M utiliza dispositivos como
sensores o medidores que capturan algún evento en particular
(velocidad, temperatura, presión, variables meteorológicas, variables
químicas como la salinidad, etc.) los cuales transmiten a través de
redes alámbricas, inalámbricas o híbridas a otras aplicaciones que
traducen estos eventos en información significativa.
● Big Transaction Data: Incluye registros de facturación, en
telecomunicaciones registros detallados de las llamadas (CDR), etc.
Estos datos transaccionales están disponibles en formatos tanto
semiestructurados como no estructurados.
● Biometrics: Información biométrica en la que se incluye huellas
digitales, escaneo de la retina, reconocimiento facial, genética, etc. En
el área de seguridad e inteligencia, los datos biométricos han sido
información importante para las agencias de investigación.
● Human Generated: Las personas generamos diversas cantidades de
datos como la información que guarda un call center al establecer una
llamada telefónica, notas de voz, correos electrónicos, documentos
electrónicos, estudios médicos, etc.
Figura 4: Tipos de Datos a considerar, según IBM

3. Campos o áreas de aplicación e investigación
3.1. Aplicación
Entendiendo y segmentando a los clientes
Marketing y ventas son quizá las áreas de mayor aplicación de big data en la
actualidad. Los datos se utilizan para comprender mejor a los clientes, sus
comportamientos y preferencias. Las empresas están dispuestas a ampliar los
centros de datos tradicionales con los de redes sociales, logs de navegación,
análisis de textos y datos de sensores para obtener una imagen completa de
su cliente. El objetivo principal es en la mayoría de casos crear modelos
predictivos. Como vimos en un artículo anterior, tuvo bastante repercusión la
noticia de que la cadena de distribución Target fue capaz de detectar cuándo
sus clientes esperaban un bebé. Las empresas de telecomunicaciones pueden
gracias al big data predecir mejor el churn de clientes. Los hipermercados
pueden predecir mejor qué productos se venderán mejor, y las aseguradoras
de coches pueden comprender mejor cómo conducen sus clientes. Incluso las
campañas electorales pueden optimizarse gracias a big data analytics. Hay
quienes sostienen que las recientes elecciones presidenciales en varios
países han sido ganadas por los equipos con mayor capacidad de entender y
aplicar el análisis de datos para buscar las preferencias de votantes y llegar a
ellos por sus canales preferidos.
Entendiendo y optimizando los procesos de negocio

El big data se está utilizando cada vez más para optimizar los procesos de
negocio en las empresas. En el sector de retail los negocios están optimizando
su stock basándose en predicciones generadas gracias a datos de redes
sociales, tendencias de búsquedas en la web y predicciones meteorológicas.
Un proceso que se está transformando particularmente gracias al big data es
el de la cadena de suministro y la optimización de rutas de reparto. Gracias al
posicionamiento geográfico y sensores de identificación por radiofrecuencia se
puede realizar un seguimiento de las mercancías y vehículos de reparto,
optimizando las rutas, integrando datos de tráfico en tiempo real. Los procesos
de recursos humanos también están siendo mejorados gracias al análisis del
big data. Desde la detección y adquisición de talento, como en la película
Moneyball, hasta la medición de la cultura empresarial y la involucración de la
plantilla gracias a herramientas de big data.
Optimizando el rendimiento de máquinas y dispositivos

El análisis de big data está ayudando a máquinas y dispositivos a ser más
inteligentes y autónomos. Un ejemplo que ya es una realidad, el coche
autopilotado de Google.
Los coches que usan para el proyecto están equipados con cámaras, GPS,
conexión a internet, y un abanico de computadoras y sensores que permiten
al vehículo circular de forma segura por la vía pública sin necesidad de
intervención humana.
También se usan herramientas de análisis de big data para optimizar las redes
de energía a partir de datos de los medidores inteligentes. podemos también
aprovechar estas tecnologías para optimizar el rendimiento de servidores y
datawarehouses.
Figura 5: Coche autopilotado de Google
Trading financiero
El último área de ejemplos de uso de Big Data que vamos a revisar, aunque
no de menor volumen ni importancia es el de la aplicación del big data en los
mercados de capitales. Las actividades relacionadas con High-Frequency
Trading (HFT) es donde se da el mayor uso del big data. Una serie de
algoritmos para realizar decisiones de compra venta de valores por millones
en fracciones de segundo, teniendo en cuenta además de las señales
tradicionales que tienen en cuenta los traders humanos como análisis técnicos,
comportamientos de materias primas, resultados de empresas, sectores,
índices, … se le añaden noticias en tiempo real, mensajes de redes sociales,
foros, declaraciones públicas de personalidades, etc. Es decir un nuevo tipo
de datos (estructurados y no estructurados) que anteriormente al big data eran
imposible de manejar.
Este ha sido un resumen de 10 áreas donde el big data se está utilizando más
en la actualidad. Obviamente hay muchas más áreas y aplicaciones, ¿se le
ocurre alguna situación donde se le esté sacando provecho? ¿Está de acuerdo
con esta revolución de los datos? Por favor comparta su punto de vista y deje
su comentario abajo.
3.2. Investigación
Los científicos e investigadores han analizado datos desde ya hace mucho
tiempo, lo que ahora representa el gran reto es la escala en la que estos son
generados.
Esta explosión de "grandes datos" está transformando la manera en que se
conduce una investigación adquiriendo habilidades en el uso de Big Data para
resolver problemas complejos relacionados con el descubrimiento científico,
investigación ambiental y biomédica, educación, salud, seguridad nacional,
entre otros.
De entre los proyectos que se pueden mencionar donde se ha llevado a cabo
el uso de una solución de Big Data se encuentran:
● El Language, Interaction and Computation Laboratory (CLIC) en
conjunto con la Universidad de Trento en Italia, son un grupo de
investigadores cuyo interés es el estudio de la comunicación verbal y
no verbal tanto con métodos computacionales como cognitivos.
● Lineberger Comprehensive Cancer Center - Bioinformatics Group
utiliza Hadoop y HBase para analizar datos producidos por los
investigadores de The Cancer Genome Atlas(TCGA) para soportar las
investigaciones relacionadas con el cáncer.
● El PSG College of Technology, India, analiza múltiples secuencias de
proteínas para determinar los enlaces evolutivos y predecir estructuras
moleculares. La naturaleza del algoritmo y el paralelismo
computacional de Hadoop mejora la velocidad y exactitud de estas
secuencias.
● La Universidad Distrital Francisco José de Caldas utiliza Hadoop
para apoyar su proyecto de investigación relacionado con el sistema
de inteligencia territorial de la ciudad de Bogotá.
● La Universidad de Maryland es una de las seis universidades que
colaboran en la iniciativa académica de cómputo en la nube de
IBM/Google. Sus investigaciones incluyen proyectos en la lingüística
computacional (machine translation), modelado del lenguaje,
bioinformática, análisis de correo electrónico y procesamiento de
imágenes.
El Instituto de Tecnología de la Universidad de Ontario (UOIT) junto con el

Hospital de Toronto utilizan una plataforma de big data para análisis en tiempo
real de IBM (IBM InfoSphere Streams), la cual permite monitorear bebés
prematuros en las salas de neonatología para determinar cualquier cambio en
la presión arterial, temperatura, alteraciones en los registros del
electrocardiograma y electroencefalograma, etc., y así detectar hasta 24 horas
antes aquellas condiciones que puedan ser una amenaza en la vida de los
recién nacidos.
Los laboratorios Pacific Northwest National Labs(PNNL) utilizan de igual
manera IBM InfoSphere Streams para analizar eventos de medidores de su
red eléctrica y en tiempo real verificar aquellas excepciones o fallas en los
componentes de la red, logrando comunicar casi de manera inmediata a los
consumidores sobre el problema para ayudarlos en administrar su consumo
de energía eléctrica.
La esclerosis múltiple es una enfermedad del sistema nervioso que afecta al
cerebro y la médula espinal. La comunidad de investigación biomédica y la
Universidad del Estado de Nueva York (SUNY) están aplicando análisis con
big data para contribuir en la progresión de la investigación, diagnóstico,
tratamiento, y quizás hasta la posible cura de la esclerosis múltiple.
Con la capacidad de generar toda esta información valiosa de diferentes
sistemas, las empresas y los gobiernos están lidiando con el problema de
analizar los datos para dos propósitos importantes: ser capaces de detectar y
responder a los acontecimientos actuales de una manera oportuna, y para
poder utilizar las predicciones del aprendizaje histórico. Esta situación requiere
del análisis tanto de datos en movimiento (datos actuales) como de datos en
reposo (datos históricos), que son representados a diferentes y enormes
volúmenes, variedades y velocidades.
4. Aspectos de la implementación
4.1. Caso de Sistema, aplicativo, herramienta de mejora
4.1.1. Componentes de Big Data
Para poder implementar Big Data en una organización será necesario,
usar los siguientes componentes:
Las organizaciones han atacado esta problemática desde diferentes
ángulos. Todas esas montañas de información han generado un costo
potencial al no descubrir el gran valor asociado. Desde luego, el ángulo
correcto que actualmente tiene el liderazgo en términos de popularidad
para analizar enormes cantidades de información es la plataforma de
código abierto Hadoop.
Hadoop está inspirado en el proyecto de Google File System(GFS) y
en el paradigma de programación MapReduce, el cual consiste en
dividir en dos tareas (mapper – reducer) para manipular los datos
distribuidos a nodos de un clúster logrando un alto paralelismo en el
procesamiento. Hadoop está compuesto de tres piezas: Hadoop
Distributed File System (HDFS), Hadoop MapReduce y Hadoop
Common.
Hadoop Distributed File System(HDFS)

Los datos en el clúster de Hadoop son divididos en pequeñas piezas
llamadas bloques y distribuidas a través del clúster; de esta manera,
las funciones map y reduce pueden ser ejecutadas en pequeños
subconjuntos y esto provee de la escalabilidad necesaria para el
procesamiento de grandes volúmenes.
La siguiente figura ejemplifica cómo los bloques de datos son escritos
hacia HDFS. Observe que cada bloque es almacenado tres veces y al
menos un bloque se almacena en un diferente rack para lograr
redundancia.
Figura 6: Imagen de referencia de un HDFS
Hadoop MapReduce
MapReduce es el núcleo de Hadoop. El término MapReduce en
realidad se refiere a dos procesos separados que Hadoop ejecuta. El
primer proceso map, el cual toma un conjunto de datos y lo convierte
en otro conjunto, donde los elementos individuales son separados en
tuplas (pares de llave/valor). El proceso reduce obtiene la salida de
map como datos de entrada y combina las tuplas en un conjunto más
pequeño de las mismas. Una fase intermedia es la denominada Shuffle
la cual obtiene las tuplas del proceso map y determina que nodo
procesará estos datos dirigiendo la salida a una tarea reduce en
específico.
Figura 7: Imagen de referencia de Hadoop MapReduce
Hadoop Common Components son un conjunto de librerías que

soportan varios subproyectos de Hadoop.
Además de estos tres componentes principales de Hadoop, existen
otros proyectos relacionados los cuales son definidos a continuación:
Avro
Es un proyecto de Apache que provee servicios de serialización.
Cuando se guardan datos en un archivo, el esquema que define ese
archivo es guardado dentro del mismo; de este modo es más sencillo
para cualquier aplicación leerlo posteriormente puesto que el esquema
está definido dentro del archivo.
Cassandra
Cassandra es una base de datos no relacional distribuida y basada en
un modelo de almacenamiento de <clave-valor>, desarrollada en Java.
Permite grandes volúmenes de datos en forma distribuida. Twitter es
una de las empresas que utiliza Cassandra dentro de su plataforma.
Chukwa
Diseñado para la colección y análisis a gran escala de "logs". Incluye
un toolkit para desplegar los resultados del análisis y monitoreo.
Flume
Tal como su nombre lo indica, su tarea principal es dirigir los datos de
una fuente hacia alguna otra localidad, en este caso hacia el ambiente
de Hadoop. Existen tres entidades principales:
sources, decorators y sinks. Un source es básicamente cualquier
fuente de datos, sink es el destino de una operación en específico y un
decorator es una operación dentro del flujo de datos que transforma
esa información de alguna manera, como por ejemplo comprimir o
descomprimir los datos o alguna otra operación en particular sobre los
mismos.
HBase
Es una base de datos columnar (column-oriented database) que se
ejecuta en HDFS. HBase no soporta SQL, de hecho, HBase no es una
base de datos relacional. Cada tabla contiene filas y columnas como
una base de datos relacional. HBase permite que muchos atributos
sean
agrupados llamándolos familias de columnas, de tal manera que los
elementos de una familia de columnas son almacenados en un solo
conjunto. Eso es distinto a las bases de datos relacionales
orientadas a filas, donde todas las columnas de una fila dada son
almacenadas en conjunto. Facebook utiliza HBase en su plataforma
desde Noviembre del 2010.
Hive
Es una infraestructura de data warehouse que facilita administrar
grandes conjuntos de datos que se encuentran almacenados en un
ambiente distribuido. Hive tiene definido un lenguaje similar a SQL
llamado Hive Query Language(HQL), estas sentencias HQL son
separadas por un servicio de Hive y son enviadas a procesos
MapReduce ejecutados en el cluster de Hadoop.
El siguiente es un ejemplo en HQL para crear una tabla, cargar datos
y obtener información de la tabla utilizando Hive:
Figura 8: Ejemplo con Hive
Jaql
Fue donado por IBM a la comunidad de software libre. Query Language
for Javascript Object Notation (JSON) es un lenguaje funcional y
declarativo que permite la explotación de datos en formato JSON
diseñado para procesar grandes volúmenes de información. Para
explotar el paralelismo, Jaql reescribe los queries de alto nivel (cuando
es necesario) en queries de "bajo nivel" para distribuirlos como
procesos MapReduce.
Internamente el motor de Jaql transforma el query en procesos map y
reduce para reducir el tiempo de desarrollo asociado en analizar los
datos en Hadoop. Jaql posee de una infraestructura flexible para
administrar y analizar datos semiestructurados como XML, archivos
CSV, archivos planos, datos relacionales, etc.
Lucene
Es un proyecto de Apache bastante popular para realizar búsquedas
sobre textos. Lucene provee de librerías para indexación y búsqueda
de texto. Ha sido principalmente utilizado en la implementación de
motores de búsqueda (aunque hay que considerar que no tiene
funciones de "crawling" ni análisis de documentos HTML ya
incorporadas). El concepto a nivel de arquitectura de Lucene es simple,
básicamente los documentos (document) son dividos en campos de
texto (fields) y se genera un índice sobre estos campos de texto. La
indexación es el componente clave de Lucene, lo que le permite
realizar búsquedas rápidamente independientemente del formato del
archivo, ya sean PDFs, documentos HTML, etc.
Oozie
Como pudo haber notado, existen varios procesos que son ejecutados
en distintos momentos los cuales necesitan ser orquestados para
satisfacer las necesidades de tan complejo análisis de información.
Oozie es un proyecto de código abierto que simplifica los flujos de
trabajo y la coordinación entre cada uno de los procesos. Permite que
el usuario pueda definir acciones y las dependencias entre dichas
acciones.
Un flujo de trabajo en Oozie es definido mediante un grafo acíclico
llamado Directed Acyclical Graph (DAG), y es acíclico puesto que no
permite ciclos en el grafo; es decir, solo hay un punto de entrada y de
salida y todas las tareas y dependencias parten del punto inicial al
punto final sin puntos de retorno. Un ejemplo de un flujo de trabajo en
Oozie se representa de la siguiente manera:
Figura 9: Flujo de trabajo en Oozie
Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de
Hadoop enfocarse más en analizar todos los conjuntos de datos y
dedicar menos tiempo en construir los programas MapReduce. Tal
como su nombre lo indica al igual que cualquier cerdo que come
cualquier cosa, el lenguaje PigLatin fue diseñado para manejar
cualquier tipo de dato y Pig es el ambiente de ejecución donde estos
programas son ejecutados, de manera muy similar a la relación entre
la máquina virtual de Java (JVM) y una aplicación Java.
ZooKeeper
ZooKeeper es otro proyecto de código abierto de Apache que provee
de una infraestructura centralizada y de servicios que pueden ser
utilizados por aplicaciones para asegurarse de que los procesos a
través de un cluster sean serializados o sincronizados.
Internamente en ZooKeeper una aplicación puede crear un archivo que
se persiste en memoria en los servidores ZooKeeper llamado znode.
Este archivo znode puede ser actualizado por cualquier nodo en el
cluster, y cualquier nodo puede registrar que sea informado de los
cambios ocurridos en ese znode; es decir, un servidor puede ser
configurado para "vigilar" un znode en particular.
De este modo, las aplicaciones pueden sincronizar sus procesos a
través de un cluster distribuido actualizando su estatus en cada znode,
el cual informará al resto del cluster sobre el estatus correspondiente
de algún nodo en específico.
Como podrá observar, más allá de Hadoop, una plataforma de Big Data
consiste de todo un ecosistema de proyectos que en conjunto permiten
simplificar, administrar, coordinar y analizar grandes volúmenes de
información.
4.1.2. Casos de éxito (Nacional e Internacional)

- Nordstrom, un retail que estudia a quienes visitan sus
tiendas
Empezamos por el pasado, porque se puede emprender dentro
de una empresa formada a comienzos del siglo XX cuando esta
puede dar el salto a la tecnología y la digitalización. Es el caso
de Nordstrom, una empresa del retail con cerca de 225 tiendas
por todo el mundo.
Esta compañía lanzó RetailNext (lo próximo en retail, en inglés)

como herramienta para conocer quién entraba en sus distintas
tiendas, hacia dónde se desplazaba dentro de ellas, cuánto
tiempo se paraba en un determinado área o cómo abandonaba
de rápido una sección concreta. Algo similar a lo que Amazon
presentó en su primera tienda física:
Figura 10: Tienda física de Amazon Go
- Netflix
Netflix es la plataforma más grande del mundo de series y
películas online. La compañía supo detectar el gran poder del
Big Data para conocer los gustos de sus usuarios y su éxito se
debe, entre otros factores, a las recomendaciones que hace a
sus consumidores en base a los patrones de consumo de
contenido.
¿La evidencia de su éxito? la serie House of Cards. Una
producción propia que Netflix creó en base a los gustos de los
usuarios.A partir de los patrones de consumo obtenidos de más
de 40 millones de consumidores, detectó que lo que más atraía
eran contenidos que incluyeran drama, política, sensualidad y
poder y, en base a ello, crearon la serie.
- Target
La cadena de distribución Target fue capaz de predecir cuándo
sus clientes esperaban un bebé. ¿Y cómo lo han hecho?
asignando un ID único a cada cliente, asociado a su tarjeta de
crédito para analizar el historial de compra y después generar
cupones de descuento.
La compañía se dio cuenta de que las mujeres en su primer
trimestre de embarazo repetían ciertos movimientos (como
comprar suplementos de magnesio o bolsas grandes como
para guardar pañales), lo que les llevó a poder construir un
algoritmo capaz de predecir el comportamiento de compra de
mujeres embarazadas y, de esta manera, enviarles ofertas
específicas para ellas.
4.2. Nuevas Tecnologías o tecnologías emergentes

4.2.1. Campo de aplicación
Las nuevas tecnologías se están aplicando recientemente en
empresas tecnológicas importantes, tales como Google, Amazon y
Facebook, ya que la necesidad de datos de estas empresas son muy
grandes. Además muchas de estas empresas necesitan del
procesamiento y análisis de señales y eventos en tiempo real, para
poder analizar la gran cantidad de datos que manipulan diariamente.
Pero sin duda un campo de aplicación novedoso es el de “procesar
todo en memoria” o mejor dicho “in-memory computing”.
Esto es una nueva tendencia para el futuro, ya que el costo de las
memorias RAM ha disminuido considerablemente respecto a años
anteriores, ya no es necesario poseer un gran procesador para el
análisis de todo el volumen de datos, si no qué parte de este proceso
puede ser soportado por la RAM.
Se basa en un software “middleware” que nos permite almacenar datos
en la RAM, en un grupo de computadoras que trabajan
simultáneamente para luego llevar a cabo el procesamiento en
paralelo. Mejor dicho, lo que se hace es “dividir la data” a procesar por
las memorias RAM de los computadores conectados en paralelo.
Los principales beneficios de esta nueva tecnología son:
● Rendimiento.
● Escalabilidad.
● Precio.
El último punto de precio es vital para la explotación de esta nueva
forma de procesar datos, ya que ahora a fines de 2019 la memoria RAM
es muy barata.
Algunos casos de uso de esta tecnología serían:
● Procesamiento de reclamos en seguros
● Inversiones en bancos
● Publicidad en tiempo real
● Plataforma mercantil de juegos en línea
● Procesamiento Geoespacial
4.2.2. Avances a la fecha
El principal pilar de esta nueva tecnología es la memoria RAM, teniendo

actualmente memoria RAM DDR4 como un estándar, pero está
tecnología ya tiene unos 5 años entre nosotros, por lo que se espera
que en 2020 ya llegue como un estándar el DDR5.
Empresas como Hynix ya han desarrollado prototipos de DDR5,

obteniendo como principal ventaja el bajo consumo de energía y
pudiendo acoplar más memoria en conjunto.
La velocidad de transacciones de DDR5 es de 5.2 Gbps, pero

empresas que trabajan ya en el DDR6 afirman que está llegaría hasta
12 Gbps, pero que esto no llegaría hasta antes del 2025.
Las mejoras de velocidad, manteniendo el mismo voltajes, han

permitido que se alcance un mayor rendimiento con un ahorro de
batería considerable. Pero a su vez también se ha disminuido el ruido
que emite este componente al estar en funcionamiento con alta
cantidad de datos.
4.2.3. Casos de éxito
Un caso de éxito es el de la licitación de GridGain para un importante

banco europeo.
En este caso la licitación consistía en el desarrollo de un sistema de

análisis de riesgo para las negociaciones del banco. Por lo cual, con el
uso de esta tecnología, GridGain fue capaz de procesar mil millones de
transacciones comerciales por segundo en 10 servidores básicos con
un total de 1 TB de RAM, cuyo costo total ascendía a 25 mil dólares.
Esto resulta ser mucho más rápido que configuraciones de hardware
actuales con almacenamiento basado en flash (incluso si estos son del
tope de gama), además de que la configuración en flash es más cara.
Por así decirlo lo único “complicado” es poder desarrollar el software
Middleware que enlace a los computadores y realice el procesamiento
en paralelo, pero con este caso de éxito queda demostrado que si vale
la pena invertir en estas tendencias 2020.
5. Conclusiones
La naturaleza de la información hoy es diferente a la información en el pasado. Debido
a la abundancia de sensores, micrófonos, cámaras, escáneres médicos, imágenes,
etc. en nuestras vidas, los datos generados a partir de estos elementos serán dentro
de poco el segmento más grande de toda la información disponible.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían
haber tomado años en descubrir por sí mismos sin el uso de estas herramientas,
debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar
sus ideas basándose en el resultado obtenido y retrabajar el procedimiento una y otra
vez hasta encontrar el verdadero valor al que se está tratando de llegar. Como se
pudo notar en el presente artículo, implementar una solución alrededor de Big Data
implica de la integración de diversos componentes y proyectos que en conjunto forman
el ecosistema necesario para analizar grandes cantidades de datos.
Sin una plataforma de Big Data se necesitaría que desarrollar adicionalmente código
que permita administrar cada uno de esos componentes como por ejemplo: manejo
de eventos, conectividad, alta disponibilidad, seguridad, optimización y desempeño,
depuración, monitoreo, administración de las aplicaciones, SQL y scripts
personalizados.
6. Referencias
https://johnfaberblog.wordpress.com/2016/07/27/big-data-clasificacion-en-base-de-
la-estructura/
https://es.slideshare.net/ismaelfernandez26/bigdata-trabajo-de-investigacion
https://www.mailify.com/es/blog/envios-newsletter/5-casos-de-exito-en-big-data-
marketing/

Big Data Analytics

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Big Data Analytics

Загружено:

Авторское право:

Доступные форматы

UNIVERSIDAD NACIONAL DE INGENIERÍA

FACULTAD DE INGENIERÍA INDUSTRIAL Y DE SISTEMAS

“BIG DATA ANALYTICS”

1. Mayuri Hidalgo, Jesús Angel 20174019C

Profesor del curso: Ing. Ysabel Rojas Solis MBA PMP

Nombre del Curso: Taller de Herramientas de Software I

Campos o áreas de aplicación e investigación 12

Figura 1: Equivalencia de cantidad de información en bytes

Figura 2: Las 3 “Vs” de Big Data

En lo presentado anteriormente, se describen los 3 principios básicos que tiene

Figura 3: 5 “Vs” del Big Data

Los seres humanos estamos creando y almacenando información

2.3. Nivel de estructura de los datos

2.3.1. Datos estructurados

● Nivel más alto de estructura → Procesamiento eficiente y eficaz

2.3.2. Datos semiestructurados

● Web and Social Media: Incluye contenido web e información que es

Figura 4: Tipos de Datos a considerar, según IBM

Entendiendo y optimizando los procesos de negocio

Optimizando el rendimiento de máquinas y dispositivos

Figura 5: Coche autopilotado de Google

El Instituto de Tecnología de la Universidad de Ontario (UOIT) junto con el

Hadoop Distributed File System(HDFS)

Figura 6: Imagen de referencia de un HDFS

Figura 7: Imagen de referencia de Hadoop MapReduce

Hadoop Common Components son un conjunto de librerías que

Figura 8: Ejemplo con Hive

Figura 9: Flujo de trabajo en Oozie

4.1.2. Casos de éxito (Nacional e Internacional)

Esta compañía lanzó RetailNext (lo próximo en retail, en inglés)

4.2. Nuevas Tecnologías o tecnologías emergentes

4.2.2. Avances a la fecha

El principal pilar de esta nueva tecnología es la memoria RAM, teniendo

Empresas como Hynix ya han desarrollado prototipos de DDR5,

La velocidad de transacciones de DDR5 es de 5.2 Gbps, pero

Las mejoras de velocidad, manteniendo el mismo voltajes, han

Un caso de éxito es el de la licitación de GridGain para un importante

En este caso la licitación consistía en el desarrollo de un sistema de

Вам также может понравиться