Modulo

Introducción y conceptualización del Big Data
0
Módulo 1 – Lección 2 Introducción y conceptualización del Big Data
¿Qué es Big Data?
Es la gestión y análisis de grandes volúmenes de datos (estructurados y no

estructurados) que no pueden ser tratados con los sistemas convencionales. Los datos
se transforman en información para la toma de decisiones presentes y futuras. Esta
información es usada por las empresas para tratar de entender y predecir los patrones
de comportamiento y/o consumo de los usuarios.
En la actualidad la gran mayoría de los datos que se producen son datos no

estructurados, de allí la gran complejidad que existe para su análisis.
Las empresas, administraciones e individuos tienen cada día más datos disponibles y
mejores herramientas para analizarlos. A la recopilación y análisis de esas bases de
datos gigantes se les denomina Big Data. Uno de los retos de los próximos años es
sacarle el partido.
Big Data es el uso de grandes cantidades de información que puede proceder tanto de
la actividad de una empresa como de los propios clientes, de los ciudadanos en su
relación con la administración pública, de la actividad en redes sociales o de las
propias estaciones meteorológicas y sensores de tráfico de un ayuntamiento. La
información en cantidad demasiado grande o que se mueve demasiado rápido para
las bases de datos convencionales es llamada Big Data y los sistemas no pueden
procesar, ni almacenar, ni mucho menos analizar estos datos. Sin embargo, Big Data
no se refiere a alguna cantidad en específico, ya que es usualmente utilizado cuando
se habla en términos de petabytes y exabytes de datos. Entonces ¿Cuánto es
1
demasiada información de manera que sea elegible para ser procesada y analizada
utilizando Big Data? Analicemos primeramente en términos de bytes:
Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
¿De dónde proviene toda esa información?
Los seres humanos estamos creando y almacenando información constantemente y

cada vez más en cantidades astronómicas. Se podría decir que, si todos los bits y bytes
de datos del último año fueran guardados en CD's, se generaría una gran torre desde
la Tierra hasta la Luna y de regreso.
Esta contribución a la acumulación masiva de

datos la podemos encontrar en diversas
industrias, las compañías mantienen grandes
cantidades de datos transaccionales, reuniendo
información acerca de sus clientes, proveedores, operaciones, etc., de la misma manera
sucede con el sector público. En muchos países se administran enormes bases de
datos que contienen datos de censo de población, registros médicos, impuestos, etc.,
y si a todo esto le añadimos transacciones financieras realizadas en línea o por
dispositivos móviles, análisis de redes sociales (en Twitter son cerca de 12 Terabytes de
tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos
y videos), ubicación geográfica mediante coordenadas GPS, en otras palabras, todas
2
aquellas actividades que la mayoría de nosotros realizamos varias veces al día con
nuestros "smartphones", estamos hablando de que se generan alrededor de 2.5
quintillones de bytes diariamente en el mundo.
1 quintillón = 10 30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco.com en su artículo web: Internet será
cuatro veces más grande en 2016, entre el 2011 y el 2016 la cantidad de tráfico de
datos móviles crecerá a una tasa anual de 78%, así como el número de dispositivos
móviles conectados a Internet excederá el número de habitantes en el planeta. Las
naciones unidas proyectan que la población mundial alcanzará los 7.5 billones para el
2016 de tal modo que habrá cerca de 18.9 billones de dispositivos conectados a la red
a escala mundial, esto conllevaría a que el tráfico global de datos móviles alcance 10.8
Exabytes mensuales o 130 Exabytes anuales. Este volumen de tráfico previsto para
2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones de mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de información, existe también la comunicación denominada máquina a
máquina (M2M machine-to-machine) cuyo valor en la creación de grandes cantidades
de datos también es muy importante. Sensores digitales instalados en contenedores
para determinar la ruta generada durante una entrega de algún paquete y que esta
información sea enviada a las compañías de transportación, sensores en medidores
eléctricos para determinar el consumo de energía a intervalos regulares para que sea
enviada esta información a las compañías del sector energético. Se estima que hay
más de 30 millones de sensores interconectados en distintos sectores como
automotriz, transportación, industrial, servicios, comercial, etc. y se espera que este
número crezca en un 30% anualmente.
3
Ahora bien ¿Qué tipos de datos debo analizar?
Muchas organizaciones se enfrentan a la pregunta sobre ¿qué información es la que se

debe analizar?, sin embargo, el cuestionamiento debería estar enfocado hacia ¿qué
problema es el que se está tratando de resolver?
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una
buena clasificación nos ayudaría a entender mejor su representación, aunque es muy
probable que estas categorías puedan extenderse con el avance tecnológico.
Tipos de datos de Big Data
Web and Social Media: Incluye contenido web e

información que es obtenida de las redes sociales
como Facebook, Twitter, LinkedIn, etc, blogs.
Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten

conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores
que capturan algún evento en particular (velocidad, temperatura, presión, variables
meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a
través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen
estos eventos en información significativa.
Big Transaction Data: Incluye registros de facturación, en telecomunicaciones

registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están
disponibles en formatos tanto semiestructurados como no estructurados.
Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de

la retina, reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los
datos biométricos han sido información importante para las agencias de investigación.
4
Human Generated: Las personas generamos diversas cantidades de datos como la
información que guarda un call center al establecer una llamada telefónica, notas de
voz, correos electrónicos, documentos electrónicos, estudios médicos, etc.
Técnicas de análisis utilizadas en Big data
En lecciones anteriores se ha estudiado cómo identificar el Big Data, qué tipo de datos
incluye, y qué tipo de aplicaciones tiene entre diferentes sectores y tamaños de
empresas y organizaciones. A medida que nos vamos adentrando a este tema, surgen
muchas preguntas cuando ya tenemos un concepto global en cómo se almacenan
esos datos y cómo se usan. Ahora bien, al comprender los diversos términos a nivel
teórico, es importante dar una explicación que técnicas se utilizan para analizar los
datos con algunos ejemplos prácticos.
Una vez que tenemos preparados los datasets de

Big Data existen innumerables técnicas para
analizar esos datos, donde se pretender abarcar
algunas de las técnicas más utilizadas a lo largo de
diferentes sectores del mercado.
5
No todas las técnicas que mencionamos a continuación requieren el uso de Big Data,
algunas se pueden aplicar con eficacia en datasets más pequeños, pero sí que todas
ellas pueden ser aplicadas al Big Data y poder así extraer resultados de provecho de
esos enormes grupos de datos de diversas fuentes.
Test A/B
Es una técnica en la que comparamos un grupo de control con una variedad de

grupos de test para determinar qué cambios o tratamientos producirán una mejora
dada una variable objetiva (por ejemplo, un ratio de respuesta de una acción de
marketing). Un ejemplo de este experimento de testing A/B (también llamado split
testing o bucket testing), es determinar qué texto, maquetación, imágenes o colores
producen una mejora en los ratios de conversión de una Módulo 1 Introducción a la
analítica avanzada y Big data 2 tienda online o una acción de marketing por email. El
big data nos permite ejecutar y analizar una gran cantidad de pruebas, siempre
asegurando que los grupos son de un tamaño suficiente para detectar diferencias
estadísticamente significativas entre el grupo de control y los grupos de pruebas.
Cuando manipulamos más de una variable en el experimento simultáneamente, la
generalización multivariante de esta técnica, que se aplica a modelos estadísticos, se le
llama A/B/N testing.
Reglas de asociación
Las reglas de asociación son un conjunto de técnicas que permiten descubrir

relaciones interesantes. En minería de datos y aprendizaje automático, las reglas de
asociación se utilizan para descubrir hechos que ocurren en común dentro de un
6
determinado conjunto de datos, por ejemplo, entre variables de varias bases de
datos enormes. Estas técnicas consisten en aplicar una variedad de algoritmos para
generar y testear las pautas posibles. Una aplicación práctica sería el análisis de la
cesta de la compra de un comerciante online, en la que podemos determinar qué
productos son comprados conjuntamente con frecuencia, para realizar acciones de
marketing eficientes. Por ejemplo, a priori quizá no se nos hubiera ocurrido pero se ha
descubierto que un producto que se compra en los supermercados junto con los
pañales es la cerveza.
Clasificación
Un conjunto de técnicas para identificar las categorías a las que pertenecen los
puntos de datos basado en un conjunto de pruebas que ya contenga los puntos de
datos categorizados. Una aplicación de esta técnica es la predicción de
comportamiento de un grupo de clientes segmentado. Si tenemos una hipótesis o
Módulo 1 Introducción a la analítica avanzada y Big data 3 un objetivo determinado
claro podemos analizar el comportamiento del conjunto de clientes clasificados por
decisiones de compra, ratio de churn, ratio de abandono, tasa de consumo o cualquier
otra variable que pueda ser analizada. A estas técnicas también se les llaman de
aprendizaje supervisado.
Análisis clúster (o de conglomerados)
Es un método estadístico para clasificar objetos separando un grupo diverso en

grupos más pequeños de objetos similares, cuyas características de similitud son
7
conocidas previamente. Un ejemplo de análisis clúster ayuda a segmentar a los
consumidores en grupos similares para realizar acciones de marketing segmentadas.
Crowdsourcing
Que se podría traducir como “colaboración abierta distribuida” o “externalización

abierta de tareas”, se trata de una técnica de recogida de datos facilitada por una
comunidad o gran conjunto de gente conectada en torno a la red que llevan a cabo
una tarea conjunta.
Fusión e integración de datos
Son una serie de técnicas que permiten integrar y analizar datos de múltiples fuentes
con el objeto de realizar descubrimientos entre la información de manera más
eficiente y potencialmente más precisa que si fueran analizados utilizando una sola
fuente de datos. Un ejemplo práctico sería la aplicación combinada de diversos
sensores de datos de dispositivos conectados en la llamada Internet de las cosas,
integrado con el rendimiento de sistemas complejos distribuidos en una Módulo 1
Introducción a la analítica avanzada y Big data 4 explotación petrolífera. Otro ejemplo
sería el análisis vía procesamiento de lenguaje natural de datos de redes sociales
combinados con datos de ventas en tiempo real, con el objetivo de determinar el
efecto que está teniendo una campaña de marketing en el sentimiento de los clientes
y su comportamiento reflejado en las decisiones de compra.
8
Data mining
Consiste en extraer patrones de grandes datasets mediante la combinación de

métodos estadísticos y de aprendizaje automático con la gestión de las bases de
datos. Entre las técnicas de datamining se incluyen técnicas de aprendizaje de reglas
de asociación, análisis de agrupamiento, clasificación y regresión. Como ejemplos de
aplicaciones prácticas estarían la minería de datos de clientes para determinar qué
segmentos son más proclives a responder a una oferta, minar datos de recursos
humanos para identificar características de los empleados de más éxito, o el análisis de
cestas de compras para modelar el comportamiento de compras de los clientes.
Aprendizaje mediante ensembles (ensemble learning)
Consisten en utilizar múltiples modelos predictivos, ya hayan sido desarrollados

mediante estadística o aprendizaje automático, para obtener mejores predicciones de
rendimiento que puedan ser obtenidos de cualquiera de los modelos constitutivos.
Son un tipo de aprendizaje supervisado.
Algoritmos genéticos
Es una técnica utilizada para optimizar datos inspirada en el proceso de la evolución

natural o supervivencia de los mejor adaptados. Con esta técnica las soluciones
posibles son codificadas como si fueran cromosomas que pueden combinarse y mutar.
Estos cromosomas son seleccionados y separados para sobrevivir dentro de un
ecosistema modelado que determina la adaptabilidad o el rendimiento de cada uno
9
dentro del conjunto. Estos algoritmos evolutivos funcionan bien para solucionar
problemas no lineales, como, por ejemplo, mejorar la planificación de tareas en la
industria manufacturera, o la optimización del rendimiento de una cartera de
inversión.
Aprendizaje automático
Una especialidad dentro de la ciencia computacional también conocida como

inteligencia artificial, que se ocupa del diseño y desarrollo de algoritmos por los cuales
se permite a los ordenadores pueden hacer evolucionar comportamientos basados en
datos empíricos. Uno de los objetivos principales de esta técnica es aprender de forma
autónoma a reconocer patrones complejos y tomar las decisiones basándose en los
datos. Un ejemplo sería el procesamiento de lenguaje natural, como Siri o Google
Now, que ya llevan nuestros smartphones.
Redes neuronales
Los modelos computacionales, inspirados por los trabajos de redes neuronales

biológicas, como las conexiones de las células del cerebro, que buscan patrones entre
datos. Las redes neuronales son apropiadas para buscar patrones no lineales y
optimización. Entre las aplicaciones prácticas de esta técnica, por ejemplo, la
identificación de los clientes de alto valor que están en riesgo de cambiar de
proveedor, o la identificación de partes de seguro fraudulentos.
10
El desafío con estas redes es comprender exactamente qué proceso ocurre en cada
capa: "Por ejemplo, la primera capa puede buscar por los bordes o esquinas de los
elementos de la fotografía. Las capas intermedias interpretan las características básicas
para buscar formas o componentes, como una puerta o una hoja. Y las últimas capas
arman esto en una interpretación completa, las que se activan en respuesta a cosas
complejas como edificios o árboles". Pero los resultados pueden ser impredecibles:
Esta técnica de imágenes se conoce como Incepcionismo, donde las imágenes se

combinan utilizando redes neuronales para generar una sola imagen de flexión de la
mente.
Análisis de redes
Son técnicas empleadas para caracterizar relaciones entre nodos separados en un

gráfico o red. Al analizar las conexiones entre individuos de una comunidad en las
Módulo 1 Introducción a la analítica avanzada y Big data 7 redes sociales podemos
extraer cómo fluye la información o quién ejerce la mayor influencia y sobre quiénes.
Entre las aplicaciones prácticas están la identificación de los líderes de opinión para
realizar una acción de marketing precisa, o identificar los cuellos de botella en los
flujos de información de las compañías.
11
Análisis de sentimiento
Consiste en la aplicación de técnicas como la de procesamiento de lenguaje

natural, así como otras técnicas analíticas para identificar y extraer información
subjetiva de las fuentes. Pueden identificar el sentimiento hacia una marca, producto o
característica por su tipo, como la polaridad (pudiendo ser un sentimiento positivo,
negativo o neutral), así como el grado y fuerza del sentimiento. En Big Data esta
técnica se utiliza sobre todo en blogs, microblogs, y redes sociales para determinar
cómo los segmentos y el mercado reaccionan ante acciones previstas e imprevistas.
Análisis espacial
Son una serie de técnicas, sobre todo estadísticas, que permiten analizar las
propiedades topológicas, geométricas o geográficas codificadas dentro de un
conjunto de datos. A menudo estos datos de ubicación son capturados gracias a un
GIS (sistemas de información geográfica) que registran, por ejemplo, coordenadas de
longitud y latitud. Incorporando datos espaciales en regresiones espaciales podemos
averiguar la correlación entre consumidores que desean adquirir un producto y su
localización. También se emplean en simulaciones, por ejemplo, una empresa que
desee expandirse puede averiguar cómo respondería la red de una cadena de
suministro según donde estuviera ubicada.
12
Simulación
El modelado del comportamiento de sistemas complejos se utiliza para previsión,

predicciones y planificación de escenarios futuros. El método Monte Carlo, por
ejemplo, consiste en una serie de algoritmos basados en la repetición de empleados
aleatorios, permitiendo ejecutar miles de simulaciones, cada una con supuestos
diferentes. Se obtiene así una muestra del histograma con la distribución probabilística
de los resultados. Se aplica mucho en el sector financiero, por ejemplo, para realizar
una evaluación de las opciones de llegar a objetivos de resultados dada la
incertidumbre sobre el éxito de las iniciativas aprobadas.
Análisis de series temporales
Técnicas para analizar secuencias de puntos de datos, que representan valores en el

tiempo con el objetivo de extraer de los datos características interesantes y con
sentido. Ejemplos serían las cotizaciones bursátiles de las acciones en cada franja
horaria, o el número de pacientes diagnosticados con una enfermedad cada día. Se
emplea la previsión de series temporales para predecir futuros valores basándonos en
valores pasados conocidos de la misma serie o de otras similares. Entre las técnicas
englobadas en este grupo se encuentra el modelado estructural, consiste en
descomponer una serie en componentes que muestran una tendencia, temporalidad o
distribución residual para identificar patrones cíclicos entre los datos. Como aplicación
práctica, podemos citar los forecasts de ventas, o la estimación del número de
personas que contraerán una enfermedad contagiosa, como vimos previamente que
lleva haciendo Google con el virus de la gripe desde hace ya seis años.
13
Esta lista no pretende mostrar todas las técnicas existentes sino las más utilizadas. Los
investigadores y proveedores de las soluciones que facilitan estas aplicaciones, como
IBM, están continuamente trabajando para generar nuevas técnicas y mejorar las
existentes, especialmente las referidas a dar respuesta a la necesidad de analizar
nuevas combinaciones de datos.
14
¿De dónde provienen los Datos? ¿Por qué hay tanta información?
Competencias a Desarrollar:
En esta lección las competencias a desarrollar son:
Reconocer el impacto del Big Data en el Desarrollo de Aplicaciones
Descripción:
Lea las siguientes fuentes bibliográficas que permiten reconocer de donde provienen
los datos, el impacto y las aplicaciones que ha permitido el análisis del Big Data
IT Specialist for Information Management, IBM Software Group México Ricardo

Barranco a travea del SitioWeb del IBM DeveloperWorks, nos aclara de que fuentes
provienen los datos y así el surgimiento del Big Data:
15
¿De donde provienen los Datos?
En cuanto a los Aspectos legales del Big Data los siguientes enlaces de expertos
abogados dejan en claro que es un tema no para tomarse a la ligera:
• Revista Indice con Carlos Pérez Sanz Socio. Ecija Abogados

• Nota de marketingnews.es de Expertos que reflexionan sobre el tratamiento legal
del Big Data
Adicionalmente la estructura de Datos es un tema fundamental para el Big Data por lo

que en el siguiente blog se explican los niveles de estructura de los datos:
Clasificación con base en la estructura
16
Bibliografía:
Big data: The next frontier for innovation, competition, and productivity de
McKinsey Global Institute
Técnicas de big data: Análisis de textos a gran escala para la investigación
científica y periodística:
http://www.elprofesionaldelainformacion.com/contenidos/2016/jul/12.pdf
https://es.wikipedia.org/wiki/Big_data
17
18

Modulo

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Modulo

Загружено:

Авторское право:

Доступные форматы

Introducción y conceptualización del Big Data

Es la gestión y análisis de grandes volúmenes de datos (estructurados y no

En la actualidad la gran mayoría de los datos que se producen son datos no

Gigabyte = 109 = 1,000,000,000

Terabyte = 1012 = 1,000,000,000,000

Petabyte = 1015 = 1,000,000,000,000,000

Exabyte = 1018 = 1,000,000,000,000,000,000

¿De dónde proviene toda esa información?

Los seres humanos estamos creando y almacenando información constantemente y

Esta contribución a la acumulación masiva de

Muchas organizaciones se enfrentan a la pregunta sobre ¿qué información es la que se

Tipos de datos de Big Data

Web and Social Media: Incluye contenido web e

Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten

Big Transaction Data: Incluye registros de facturación, en telecomunicaciones

Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de

Técnicas de análisis utilizadas en Big data

Una vez que tenemos preparados los datasets de

Es una técnica en la que comparamos un grupo de control con una variedad de

Las reglas de asociación son un conjunto de técnicas que permiten descubrir

Análisis clúster (o de conglomerados)

Es un método estadístico para clasificar objetos separando un grupo diverso en

Que se podría traducir como “colaboración abierta distribuida” o “externalización

Fusión e integración de datos

Consiste en extraer patrones de grandes datasets mediante la combinación de

Aprendizaje mediante ensembles (ensemble learning)

Consisten en utilizar múltiples modelos predictivos, ya hayan sido desarrollados

Es una técnica utilizada para optimizar datos inspirada en el proceso de la evolución

Una especialidad dentro de la ciencia computacional también conocida como

Los modelos computacionales, inspirados por los trabajos de redes neuronales

Esta técnica de imágenes se conoce como Incepcionismo, donde las imágenes se

Son técnicas empleadas para caracterizar relaciones entre nodos separados en un

Consiste en la aplicación de técnicas como la de procesamiento de lenguaje

El modelado del comportamiento de sistemas complejos se utiliza para previsión,

Análisis de series temporales

Técnicas para analizar secuencias de puntos de datos, que representan valores en el

En esta lección las competencias a desarrollar son:

Reconocer el impacto del Big Data en el Desarrollo de Aplicaciones

IT Specialist for Information Management, IBM Software Group México Ricardo

• Revista Indice con Carlos Pérez Sanz Socio. Ecija Abogados

Adicionalmente la estructura de Datos es un tema fundamental para el Big Data por lo

Clasificación con base en la estructura

Вам также может понравиться