Академический Документы
Профессиональный Документы
Культура Документы
FORTALECIMIENTO DE LA EDUCACIN
Iquitos-Per
2015
DEDICATORIA
AGRADECIMIENTO
INDICE
DEDICATORIA............................................................................................... 1
AGRADECIMIENTO....................................................................................... 2
INDICE........................................................................................................... 3
INTRODUCCION............................................................................................ 5
De Dnde Proviene Toda La Informacin?............................................6
Qu No Es Big Data?................................................................................. 7
Big Data........................................................................................................ 8
Caractersticas De Big Data:.....................................................................9
Volumen de datos:................................................................................9
Variedad de datos:.................................................................................. 9
Velocidad:................................................................................................ 10
Veracidad:............................................................................................... 10
Valor:....................................................................................................... 10
Tipos De Datos:......................................................................................... 11
Web and Social Media:.........................................................................11
Machine-to-Machine.............................................................................11
Big Transaction Data:...........................................................................11
Biometrics:............................................................................................. 12
Human Generated (Generados por las personas):................................12
Anlisis De Datos...................................................................................... 13
Componentes De Una Plataforma Big Data..........................................14
Nacimiento De Apache Hadoop..............................................................19
Big Data Con Un Crecimiento Exponencial...........................................20
Big Data Y El Campo De Investigacin..................................................21
Utilidades De Big Data:............................................................................23
Empresarial............................................................................................. 23
Redes Sociales:................................................................................... 23
Consumo:............................................................................................. 23
Big Data e intimidad:.........................................................................23
Deportes:................................................................................................ 24
Profesional:......................................................................................... 24
Aficionado:........................................................................................... 24
Investigacin:......................................................................................... 24
Salud y medicina:............................................................................... 24
Defensa y seguridad:..........................................................................25
CONCLUSION.............................................................................................. 27
BIBLIOGRAFIA............................................................................................ 28
ANEXO......................................................................................................... 29
INTRODUCCION
comunicacin denominada mquina a mquina (M2M machine-tomachine) cuyo valor en la creacin de grandes cantidades de datos
tambin es muy importante. Sensores digitales instalados en
contenedores para determinar la ruta generada durante una entrega
de algn paquete y que esta informacin sea enviada a las compaas
de transportacin, sensores en medidores elctricos para determinar
el consumo de energa a intervalos regulares para que sea enviada
esta informacin a las compaas del sector energtico. Se estima
que hay ms de 30 millones de sensores interconectados en distintos
sectores como automotriz, transportacin, industrial, servicios,
comercial, etc. y se espera que este nmero crezca en un 30%
anualmente.
Qu No Es Big Data?
Big Data no es una base de datos enorme
Big Data:
Velocidad:
10
Valor:
Se refiere al valor agregado obtenido por las organizaciones,
lo cual se traduce en la generacin de productos y servicios
personalizados, es decir, al final de genera lo que el cliente
realmente desea o necesita.
En resumen, podemos decir que, Big Data es pasar de una
gran cantidad de datos no estructurados a estructuras de
valor que apoyan la toma de decisiones en corporaciones e
industrias.
Fuente: asalafa en Audiencia Digital, Blog del Centro de
Estudios de Estrategias Digitales, Universidad Montevila
11
Tipos De Datos:
Muchas organizaciones se enfrentan a la pregunta sobre qu
informacin es la que se debe analizar?, sin embargo, el
cuestionamiento debera estar enfocado hacia qu problema es el
que se est tratando de resolver?.
Si bien sabemos que existe una amplia variedad de tipos de datos a
analizar, una buena clasificacin nos ayudara a entender mejor su
representacin, aunque es muy probable que estas categoras
puedan extenderse con el avance tecnolgico.
2.- Machine-to-Machine
(M2M): M2M se refiere a las tecnologas que permiten conectarse a
otros dispositivos. M2M utiliza dispositivos como sensores o
medidores que capturan algn evento en particular (velocidad,
temperatura, presin, variables meteorolgicas, variables qumicas
como la salinidad, etc.) los cuales transmiten a travs de redes
almbricas, inalmbricas o hbridas a otras aplicaciones que
traducen estos eventos en informacin significativa.
12
13
Anlisis De Datos
Teniendo los datos necesarios almacenados segn diferentes
tecnologas de almacenamiento, nos daremos cuenta que
necesitaremos diferentes tcnicas de anlisis de datos como las
siguientes:
Asociacin: Permite encontrar relaciones entre diferentes
variables. Bajo la premisa de causalidad, se pretende encontrar una
prediccin en el comportamiento de otras variables. Estas relaciones
pueden ser los sistemas de ventas cruzadas en los e-commerce.
Minera de datos (Data Mining): Tiene como objetivo encontrar
comportamientos predictivos. Engloba el conjunto de tcnicas que
combina mtodos estadsticos y de machine learning con
almacenamiento en bases de datos. Est estrechamente relacionada
con los modelos utilizados para descubrir patrones en grandes
cantidades de datos.
Agrupacin (Clustering): El anlisis de clsteres es un tipo de
minera de datos que divide grandes grupos de individuos en grupos
ms pequeos de los cuales no conocamos su parecido antes del
anlisis. El propsito es encontrar similitudes entre estos grupos, y
el descubrimiento de nuevos conociendo cules son las cualidades
que lo definen. Es una metodologa apropiada para encontrar
relaciones entre resultados y hacer una evaluacin preliminar de la
estructura de los datos analizados. Existen diferentes tcnicas y
algoritmos de clustering.
Anlisis de texto (Text Analytics): Gran parte de los datos
generados por las personas son textos, como e-mails, bsquedas web
o contenidos. Esta metodologa permite extraer informacin de estos
datos y as modelar temas y asuntos o predecir palabras.
14
15
Hadoopk MapReduce:
MapReduce es el ncleo de Hadoop. El trmino MapReduce en
realidad se refiere a dos procesos separados que Hadoop ejecuta. El
primer proceso map, el cual toma un conjunto de datos y lo convierte
en otro conjunto, donde los elementos individuales son separados
en tuplas(pares de llave/valor). El proceso reduce obtiene la salida
de map como datos de entrada y combina las tuplas en un conjunto
ms pequeo de las mismas. Una fase intermedia es la
denominada Shuffle la cual obtiene las tuplas del proceso map y
determina que nodo procesar estos datos dirigiendo la salida a una
tarea reduce en especfico.
Ejemplo de MapReduce
16
Hadoop Common
Hadoop Common Components son un conjunto de libreras que
soportan varios subproyectos de Hadoop.
Adems de estos tres componentes principales de Hadoop, existen
otros proyectos relacionados los cuales son definidos a continuacin:
Avro:
Es un proyecto de Apache que provee servicios de serializacin.
Cuando se guardan datos en un archivo, el esquema que define ese
archivo es guardado dentro del mismo; de este modo es ms sencillo
para cualquier aplicacin leerlo posteriormente puesto que el
esquema esta definido dentro del archivo.
Cassandra:
Cassandra es una base de datos no relacional distribuida y basada en
un modelo de almacenamiento de <clave-valor>, desarrollada en
Java. Permite grandes volmenes de datos en forma distribuida.
Twitter es una de las empresas que utiliza Cassandra dentro de su
plataforma.
Chukwa:
Diseado para la coleccin y anlisis a gran escala de "logs". Incluye
un toolkit para desplegar los resultados del anlisis y monitoreo.
Flume:
Tal como su nombre lo indica, su tarea principal es dirigir los datos
de una fuente hacia alguna otra localidad, en este caso hacia el
ambiente de Hadoop. Existen tres entidades principales: sources,
decorators y sinks.Un source es bsicamente cualquier fuente de
datos, sink es el destino de una operacin en especfico y
17
HBase:
Es una base de datos columnar (column-oriented database) que se
ejecuta en HDFS. HBase no soporta SQL, de hecho, HBase no es una
base de datos relacional. Cada tabla contiene filas y columnas como
una base de datos relacional. HBase permite que muchos atributos
sean agrupados llamndolos familias de columnas, de tal manera que
los elementos de una familia de columnas son almacenados en un
solo conjunto. Eso es distinto a las bases de datos relacionales
orientadas a filas, donde todas las columnas de una fila dada son
almacenadas en conjunto. Facebook utiliza HBase en su plataforma
desde Noviembre del 2010.
Hive:
Es una infraestructura de data warehouse que facilita administrar
grandes conjuntos de datos que se encuentran almacenados en un
ambiente distribuido. Hive tiene definido un lenguaje similar a SQL
llamado Hive Query Language(HQL), estas sentencias HQL son
separadas por un servicio de Hive y son enviadas a procesos
MapReduce ejecutados en el cluster de Hadoop.
El siguiente es un ejemplo en HQL para crear una tabla, cargar datos
y obtener informacin de la tabla utilizando Hive:
CREATE TABLE Tweets (from_user STRING, userid BIGINT, tweettext STRING,
retweets INT)
COMMENT 'This is the Twitter feed table'
STORED AS SEQUENCEFILE;
LOAD DATA INPATH 'hdfs://node/tweetdata' INTO TABLE TWEETS;
SELECT from_user, SUM(retweets)
FROM TWEETS
GROUP BY from_user;
Jaql:
Fue donado por IBM a la comunidad de software libre. Query
Language for Javascript Object Notation (JSON) es un lenguaje
funcional y declarativo que permite la explotacin de datos en
formato JSON diseado para procesar grandes volmenes de
informacin. Para explotar el paralelismo, Jaql reescribe los queries
de alto nivel (cuando es necesario) en queries de "bajo nivel" para
distribuirlos como procesos MapReduce.
18
Lucene:
Es un proyecto de Apache bastante popular para realizar bsquedas
sobre textos. Lucene provee de libreras para indexacin y bsqueda
de texto. Ha sido principalmente utilizado en la implementacin de
motores de bsqueda (aunque hay que considerar que no tiene
funciones de "crawling" ni anlisis de documentos HTML ya
incorporadas). El concepto a nivel de arquitectura de Lucene es
simple, bsicamente los documentos (document) son dividos en
campos de texto (fields) y se genera un ndice sobre estos campos de
texto. La indexacin es el componente clave de Lucene, lo que le
permite realizar bsquedas rpidamente independientemente del
formato del archivo, ya sean PDFs, documentos HTML, etc.
Oozie:
Como pudo haber notado, existen varios procesos que son ejecutados
en distintos momentos los cuales necesitan ser orquestados para
satisfacer las necesidades de tan complejo anlisis de informacin.
Oozie es un proyecto de cdigo abierto que simplifica los flujos de
trabajo y la coordinacin entre cada uno de los procesos. Permite
que el usuario pueda definir acciones y las dependencias entre
dichas acciones.
Un flujo de trabajo en Oozie es definido mediante un grafo acclico
llamado Directed Acyclical Graph (DAG), y es acclico puesto que no
permite ciclos en el grafo; es decir, solo hay un punto de entrada y de
salida y todas las tareas y dependencias parten del punto inicial al
punto final sin puntos de retorno. Un ejemplo de un flujo de trabajo
en Oozie se representa de la siguiente manera:
19
Pig:
Inicialmente desarrollado por Yahoo para permitir a los usuarios de
Hadoop enfocarse ms en analizar todos los conjuntos de datos y
dedicar menos tiempo en construir los programas MapReduce. Tal
como su nombre lo indica al igual que cualquier cerdo que come
cualquier cosa, el lenguaje PigLatin fue diseado para manejar
cualquier tipo de dato y Pig es el ambiente de ejecucin donde estos
programas son ejecutados, de manera muy similar a la relacin entre
la mquina virtual de Java (JVM) y una aplicacin Java.
ZooKeeper:
ZooKeeper es otro proyecto de cdigo abierto de Apache que provee
de una infraestructura centralizada y de servicios que pueden ser
utilizados por aplicaciones para asegurarse de que los procesos a
travs de un cluster sean serializados o sincronizados.
Internamente en ZooKeeper una aplicacin puede crear un archivo
que se persiste en memoria en los servidores ZooKeeper
llamado znode.Este archivo znode puede ser actualizado por
cualquier nodo en el cluster, y cualquier nodo puede registrar que
sea informado de los cambios ocurridos en ese znode; es decir, un
servidor puede ser configurado para "vigilar" un znode en particular.
De este modo, las aplicaciones pueden sincronizar sus procesos a
travs de un cluster distribuido
20
Por otro lado en muchas ocasiones se identifica Big Data con Apache
Hadoop, pero existen otras arquitecturas consideradas Big Data
como por ejemplo MongoDB, Google BigQuery y Amazon DynamoDB
entre otros, que tienen una aproximacin distinta a Apache Hadoop,
aunque empiezan a tener funcionalidades cada vez ms parecidas.
21
22
23
24
Empresarial
Redes Sociales:
Cada vez ms tendemos a subir a las redes sociales toda nuestra
actividad y la de nuestros conocidos. Las empresas utilizan esta
informacin para cruzar los datos de los candidatos a un trabajo.
Oracle ha desarrollado una herramienta llamada Taleo Social
Sourcing, la cual est integrada con las APIs de Facebook, Twitter y
25
26
Deportes:
Profesional:
En un mbito donde se mueve tanto dinero, suelen utilizar las nuevas
tecnologas antes que los usuarios de base. Nos encontramos por
ejemplo que el anlisis de los partidos constituye una parte
fundamental en el entrenamiento de los profesionales, y la toma de
decisiones de los entrenadores. Amisco43 es un sistema aplicado por
los ms importantes equipos de las ligas Espaola,Francesa,
Alemana e Inglesa des del 2001. Consta de 8 cmaras y diversos
ordenadores instalados en los estadios, que registran los
movimientos de los jugadores a razn de 25 registros por segundo, y
luego envan los datos a una central donde hacen un anlisis masivo
de los datos. La informacin que se devuelve como resultado incluye
una reproduccin del partido en dos dimensiones, los datos tcnicos
y estadsticas, y un resumen de los datos fsicos de cada jugador,
permitiendo seleccionar varias dimensiones y visualizaciones
diferentes de datos.43
Aficionado:
Aplicaciones como Runtastic, Garmin o Nike+ proveen de resultados
Big Data al usuario. Este ltimo Nike+- va un paso ms all a nivel
de organizacin, ya que fabrican un producto bsico para sus
27
Investigacin:
Salud y medicina:
Hacia mediados 2009, el mundo experiment una pandemia de gripe
A, llamada gripe porcina o H1N1. El websiteGoogle Flu Trends fue
capaz de predecirla gracias a los resultados de las bsquedas. Flu
Trends usa los datos de las bsquedas de los usuarios que contienen
Influenza-Like Illness Symptoms (Sntomas parecidos a la
enfermedad de la gripe) y los agrega segn ubicacin y fecha, y es
capaz de predecir la actividad de la gripe hasta con dos semanas de
antelacin ms que los sistemas tradicionales. Ms concretamente
en Nueva Zelanda44 cruzaron los datos de Google Flu Trends con
datos existentes de los sistemas de salud nacionales, y comprobaron
que estaban alineados. Los grficos mostraron una correlacin con
las bsquedas de ILI Symptoms y la extensin de la pandemia en el
pas. Los pases con sistemas de prediccin poco desarrollados
pueden beneficiarse de una prediccin fiable y pblica para
abastecer a su poblacin de las medidas de seguridad oportunas.
Defensa y seguridad:
Para incrementar la seguridad frente a los ataques de las propias
organizaciones, ya sean empresas en el entorno econmico o los
propios ministerios de defensa en el entorno de ciberataques, se
contempla la utilidad de la tecnologa Big Data en escenarios como la
vigilancia y seguridad de fronteras, lucha contra el terrorismo y
crimen organizado, contra el fraude, planes de seguridad ciudadana
o planeamiento tctico de misiones e inteligencia militar.
28
29
CONCLUSION
La tecnologa Big Data no resuelve todos los problemas de
escalabilidad ni sirve para todo tipo de proyecto en el cual hay gran
volumen de datos. Hay que estudiar caso a caso.
Hay que ser crtico a la hora de elegir una solucin Big Data ya que
no todos los fabricantes cumplen con los requisitos que se le exige a
una arquitectura Big Data. Podemos considerar a Apache Hadoop
como arquitectura Big Data de referencia, aunque hay otras
aproximaciones.
Tiene que haber una necesidad de negocio que justifique un
proyecto Big Data que aporte valor a negocio y con unos objetivos
claros.
30
BIBLIOGRAFIA
CONSULTEC Introduccin a big data
http://www.gmv.com/blog_gmv/introduccion-albig-data/
http://www.oracle.com/lad/bigdata/overview/index
.html
Fundacin Innovacin Bankinter Bing data el
poder de los datos
https://es.wikipedia.org/wiki/Big_data
http://www.brandchats.com/7-tipos-de-datos-quecomprende-el-big-data/
http://www.lantares.com/blog/las-cincoprincipales-aplicaciones-de-big-data
http://searchdatacenter.techtarget.com/es/opinio
n/Big-data-De-la-gestion-de-datos-noestructurados-a-la-especializacion-del-analisis
31
ANEXO
32