Академический Документы
Профессиональный Документы
Культура Документы
Datos no estructurados: datos que no han sido organizados en una BD u otras formas de
repositorios
...aaS:
Data aaS
IT aaS
Infraestructura aaS
Logging aaS
Conectividad a red aaS
API: conjunto de rutinas, protocolos y herramientas que ofrece una biblioteca para ser
usado por otro SW como una capa de abstraccion
data warehouse: Coleccion de datos orientada a un determinado ambito, integrado, no
volatil y en constante crecimiento que ayuda a la toma de decisiones en la entidad que se
utiliza
relativamente lenta. Un modelo mejor para bsquedas (aunque peor desde el punto de
vista operativo) es una base de datos multidimensional.
La principal caracterstica que potencia a OLAP, es que es lo ms rpido a la hora de
ejecutar sentencias SQL de tipo SELECT, en contraposicin con OLTP que es la mejor
opcin para operaciones de tipo INSERT, UPDATE Y DELETE [cita requerida].
ROLAP[editar]
Artculo principal: ROLAP
Implementacin OLAP que almacena los datos en un motor relacional. Tpicamente, los
datos son detallados, evitando las agregaciones y las tablas se encuentran
desnormalizadas. Los esquemas ms comunes sobre los que se trabaja son estrella
copo de nieve, aunque es posible trabajar sobre cualquier base de datos relacional. La
arquitectura est compuesta por un servidor de banco de datos relacional y el motor
OLAP se encuentra en un servidor dedicado. La principal ventaja de esta arquitectura es
que permite el anlisis de una enorme cantidad de datos.
MOLAP[editar]
Artculo principal: MOLAP
Esta implementacin OLAP almacena los datos en una base de datos multidimensional.
Para optimizar los tiempos de respuesta, el resumen de la informacin es usualmente
calculado por adelantado. Estos valores precalculados o agregaciones son la base de las
ganancias de desempeo de este sistema. Algunos sistemas utilizan tcnicas de
compresin de datos para disminuir el espacio de almacenamiento en disco debido a los
valores precalculados.
HOLAP (Hybrid OLAP)[editar]
Artculo principal: HOLAP
Almacena algunos datos en un motor relacional y otros en una base de datos
multidimensional.
Comparacin[editar]
Cada sistema OLAP tiene ciertos beneficios (aunque existe desacuerdo acerca de las
caractersticas especficas de los beneficios entre los proveedores).
Algunas implementaciones MOLAP son propensas a la "explosin" de la base de datos;
este fenmeno provoca la necesidad de grandes cantidades de espacio de
almacenamiento para el uso de una base de datos MOLAP cuando se dan ciertas
condiciones: elevado nmero de dimensiones, resultados precalculados y escasos datos
multidimensionales. Las tcnicas habituales de atenuacin de la explosin de la base de
datos no son todo lo eficientes que sera deseable.
Por lo general MOLAP ofrece mejor rendimiento debido a la especializada indexacin y a
las optimizaciones de almacenamiento. MOLAP tambin necesita menos espacio de
=============
Qu es Big Data?
Todos formamos parte de ese gran crecimiento de datos
Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan analizar,
descubrir y entender ms all de lo que sus herramientas tradicionales reportan sobre su
informacin, al mismo tiempo que durante los ltimos aos el gran crecimiento de las
aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido
parte importante en las decisiones de negocio de las empresas. El presente artculo tiene
como propsito introducir al lector en el concepto de Big Data y describir algunas
caractersticas de los componentes principales que constituyen una solucin de este tipo.
1. Introduccin
El primer cuestionamiento que posiblemente llegue a su mente en este momento es Qu
es Big Data y porqu se ha vuelto tan importante? pues bien, en trminos generales
podramos referirnos como a la tendencia en el avance de la tecnologa que ha abierto las
puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es
utilizada para describir enormes cantidades de datos (estructurados, no estructurados y
semi estructurados) que tomara demasiado tiempo y sera muy costoso cargarlos a un
base de datos relacional para su anlisis. De tal manera que, el concepto de Big Data
aplica para toda aquella informacin que no puede ser procesada o analizada utilizando
procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a alguna
cantidad en especfico, ya que es usualmente utilizado cuando se habla en trminos de
petabytes y exabytes de datos. Entonces Cunto es demasiada informacin de manera
que sea elegible para ser procesada y analizada utilizando Big Data? Analicemos
primeramente en trminos de bytes:
Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
Adems del gran volumen de informacin, esta existe en una gran variedad de datos que
pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos mviles, audio, video, sistemas GPS, incontables sensores digitales en
equipos industriales, automviles, medidores elctricos, veletas, anemmetros, etc., los
cuales pueden medir y comunicar el posicionamiento, movimiento, vibracin, temperatura,
humedad y hasta los cambios qumicos que sufre el aire, de tal forma que las aplicaciones
que analizan estos datos requieren que la velocidad de respuesta sea lo demasiado
rpida para lograr obtener la informacin correcta en el momento preciso. Estas son las
caractersticas principales de una oportunidad para Big Data.
Es importante entender que las bases de datos convencionales son una parte importante
y relevante para una solucin analtica. De hecho, se vuelve mucho ms vital cuando se
usa en conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y
derecha, cada una ofrece fortalezas individuales para cada tarea en especfico. Por
ejemplo, un beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la
otra para atraparla; puede ser que cada mano intente hacer la actividad de la otra, mas
sin embargo, el resultado no ser el ms ptimo.
2. De dnde proviene toda esa informacin?
Los seres humanos estamos creando y almacenando informacin constantemente y cada
vez ms en cantidades astronmicas. Se podra decir que si todos los bits y bytes de
datos del ltimo ao fueran guardados en CD's, se generara una gran torre desde la
Tierra hasta la Luna y de regreso.
Esta contribucin a la acumulacin masiva de datos la podemos encontrar en diversas
industrias, las compaas mantienen grandes cantidades de datos transaccionales,
reuniendo informacin acerca de sus clientes, proveedores, operaciones, etc., de la
misma manera sucede con el sector pblico. En muchos pases se administran enormes
bases de datos que contienen datos de censo de poblacin, registros mdicos, impuestos,
etc., y si a todo esto le aadimos transacciones financieras realizadas en lnea o por
dispositivos mviles, anlisis de redes sociales (en Twitter son cerca de 12 Terabytes de
tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y
videos), ubicacin geogrfica mediante coordenadas GPS, en otras palabras, todas
aquellas actividades que la mayora de nosotros realizamos varias veces al da con
nuestros "smartphones", estamos hablando de que se generan alrededor de 2.5
quintillones de bytes diariamente en el mundo.
1 quintilln = 10 30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco[1], entre el 2011 y el 2016 la cantidad de
trfico de datos mviles crecer a una tasa anual de 78%, as como el nmero de
dispositivos mviles conectados a Internet exceder el nmero de habitantes en el
planeta. Las naciones unidas proyectan que la poblacin mundial alcanzar los 7.5
billones para el 2016 de tal modo que habr cerca de 18.9 billones de dispositivos
conectados a la red a escala mundial, esto conllevara a que el trfico global de datos
mviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de
trfico previsto para 2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones de
mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de informacin, existe tambin la comunicacin denominada mquina a mquina
(M2M machine-to-machine) cuyo valor en la creacin de grandes cantidades de datos
tambin es muy importante. Sensores digitales instalados en contenedores para
determinar la ruta generada durante una entrega de algn paquete y que esta informacin
sea enviada a las compaas de transportacin, sensores en medidores elctricos para
determinar el consumo de energa a intervalos regulares para que sea enviada esta
informacin a las compaas del sector energtico. Se estima que hay ms de 30 millones
de sensores interconectados en distintos sectores como automotriz, transportacin,
industrial, servicios, comercial, etc. y se espera que este nmero crezca en un 30%
anualmente.
3. Qu tipos de datos debo explorar?
Muchas organizaciones se enfrentan a la pregunta sobre qu informacin es la que se
debe analizar?, sin embargo, el cuestionamiento debera estar enfocado hacia qu
problema es el que se est tratando de resolver?.[2]
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena
clasificacin nos ayudara a entender mejor su representacin, aunque es muy probable
que estas categoras puedan extenderse con el avance tecnolgico.
1.- Web
web e
redes
LinkedIn,
etc, blogs.
Hadoop MapReduce
MapReduce es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere a dos
procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto
de datos y lo convierte en otro conjunto, donde los elementos individuales son separados en
tuplas (pares de llave/valor). El proceso reduce obtiene la salida de map como datos de
entrada y combina las tuplas en un conjunto ms pequeo de las mismas. Una fase
intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso map y
determina que nodo procesar estos datos dirigiendo la salida a una tarea reduce en
especfico.
La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce.
Jaql
Fue donado por IBM a la comunidad de software libre. Query Language for
Javascript Object Notation (JSON) es un lenguaje funcional y declarativo que
permite la explotacin de datos en formato JSON diseado para procesar
Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop
enfocarse ms en analizar todos los conjuntos de datos y dedicar menos
tiempo en construir los programas MapReduce. Tal como su nombre lo indica al
igual que cualquier cerdo que come cualquier cosa, el lenguaje PigLatin fue
diseado para manejar cualquier tipo de dato y Pig es el ambiente de ejecucin
donde estos programas son ejecutados, de manera muy similar a la relacin
entre la mquina virtual de Java (JVM) y una aplicacin Java.
ZooKeeper
ZooKeeper es otro proyecto de cdigo abierto de Apache que provee de una
infraestructura centralizada y de servicios que pueden ser utilizados por
aplicaciones para asegurarse de que los procesos a travs de un cluster sean
serializados o sincronizados.
Internamente en ZooKeeper una aplicacin puede crear un archivo que se
persiste en memoria en los servidores ZooKeeper llamado znode. Este archivo
znode puede ser actualizado por cualquier nodo en el cluster, y cualquier nodo
puede registrar que sea informado de los cambios ocurridos en ese znode; es
decir, un servidor puede ser configurado para "vigilar" un znode en particular.
De este modo, las aplicaciones pueden sincronizar sus procesos a travs de un
cluster distribuido actualizando su estatus en cada znode, el cual informar al
resto del cluster sobre el estatus correspondiente de algn nodo en especfico.
Como podr observar, ms all de Hadoop, una plataforma de Big Data
consiste de todo un ecosistema de proyectos que en conjunto permiten
simplificar, administrar, coordinar y analizar grandes volmenes de
informacin.
cuenta actualmente, lejos de ser til, puede devenir en un fallido intento por
darle un uso adecuado.
Es aqu donde entra una de las herramientas ms mencionadas ltimamente
en el rea de TI: Business Intelligence. Se refiere directamente a la prctica y al
conjunto de herramientas que pueden ayudar a las empresas a adquirir un
mejor entendimiento de ellas mismas. Esto gracias a la capacidad de explotar
su informacin, con la intencin de poder manipularlos de una manera ms
sencilla y entender el porqu de nuestro desempeo o, mejor an, plantear
escenarios a futuro, lo cual nos ayudar a tomar mejores decisiones.
Pero para esto, muchas compaas consideran que este tipo de soluciones son
slo para empresas grandes. Es cierto que este tipo de compaas tienen
mucho que ganar al implementar estas herramientas, adems del presupuesto
suficiente para hacerlo, pero esto no significa que las empresas medianas no
puedan beneficiarse de igual manera de la inteligencia de negocio, a la vez de
que no necesariamente necesitan gastar dinero y tiempo en exceso para
conseguirlo. Despus de todo, este tipo de empresas cuentan con objetivos
mucho ms focalizados y el costo de implementacin suele ser mucho menor.
Sin una infraestructura tecnolgica de BI, las empresas medianas tienden a
exceder presupuestos, sobrepasar fechas lmite, mejorar el rendimiento en un
rea a costa de todo el negocio y premiar a empleados por acciones que no
significan necesariamente una mejora en el rendimiento de la compaa. Y lo
ms importante, los tiempos turbulentos en materia econmica suelen ser
mucho ms devastadores para sus operaciones.
La tecnologa de Business Intelligence resulta entonces sumamente importante
para las compaas medianas, las cuales tpicamente no tienen tan vastos
recursos como los lderes de la industria pero tienen la agilidad para
implementar decisiones de negocio significativas de una manera rpida y
relativamente sencilla. Estas herramientas aseguran que las decisiones
tomadas sean siempre las mejores.
El efecto que puede ocasionar una buena implementacin de esta inteligencia
de negocio es impresionante... Basta con ver, por ejemplo, la cantidad de
fuentes de informacin que seguramente tenemos dispersas en nuestra
empresa. La habilidad de tener una vista nica de informacin, adems de
poder tener reportes de datos dispersos en conjunto, datos de diferentes
dimensiones y eventos en el tiempo; y el tener el poder para resolver
preguntas que empiezan con "qu pasara si..." son slo algunas de las
ventajas de contar con herramientas de BI. El tener la capacidad para explotar
nuestra informacin de esta manera puede alimentar directamente los
sistemas y los procesos de planeacin de nuestra empresa, ayudando a definir