Herramientas Business Intelligence Preparacion Exposicio

HERRAMIENTAS BUSINESS INTELLIGENCE
Datos no estructurados: datos que no han sido organizados en una BD u otras formas de
repositorios
...aaS:
Data aaS
IT aaS
Infraestructura aaS
Logging aaS
Conectividad a red aaS
API: conjunto de rutinas, protocolos y herramientas que ofrece una biblioteca para ser
usado por otro SW como una capa de abstraccion
data warehouse: Coleccion de datos orientada a un determinado ambito, integrado, no
volatil y en constante crecimiento que ayuda a la toma de decisiones en la entidad que se
utiliza
ETL: Extract, Transform and Load (extraer, transformar y cargar, frecuentemente

abreviado ETL) es el proceso que permite a las organizaciones mover datos desde
mltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data
mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un
proceso de negocio.
Un cubo OLAP es una estructura de datos que supera las limitaciones de las bases de
datos relacionales y proporciona un anlisis rpido de datos. Los cubos pueden mostrar y
sumar grandes cantidades de datos, a la vez que proporcionan a los usuarios acceso
mediante bsqueda a los puntos de datos.
OLAP es el acrnimo en ingls de procesamiento analtico en lnea (On-Line Analytical

Processing). Es una solucin utilizada en el campo de la llamada Inteligencia de negocios
(o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de
datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen
datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa
en informes de negocios de ventas, marketing, informes de direccin, minera de datos y
reas similares.
La razn de usar OLAP para las consultas es la rapidez de respuesta. Una base de datos
relacional almacena entidades en tablas discretas si han sido normalizadas. Esta
estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es
relativamente lenta. Un modelo mejor para bsquedas (aunque peor desde el punto de
vista operativo) es una base de datos multidimensional.
La principal caracterstica que potencia a OLAP, es que es lo ms rpido a la hora de
ejecutar sentencias SQL de tipo SELECT, en contraposicin con OLTP que es la mejor
opcin para operaciones de tipo INSERT, UPDATE Y DELETE [cita requerida].
ROLAP[editar]
Artculo principal: ROLAP
Implementacin OLAP que almacena los datos en un motor relacional. Tpicamente, los
datos son detallados, evitando las agregaciones y las tablas se encuentran
desnormalizadas. Los esquemas ms comunes sobre los que se trabaja son estrella
copo de nieve, aunque es posible trabajar sobre cualquier base de datos relacional. La
arquitectura est compuesta por un servidor de banco de datos relacional y el motor
OLAP se encuentra en un servidor dedicado. La principal ventaja de esta arquitectura es
que permite el anlisis de una enorme cantidad de datos.
MOLAP[editar]
Artculo principal: MOLAP
Esta implementacin OLAP almacena los datos en una base de datos multidimensional.
Para optimizar los tiempos de respuesta, el resumen de la informacin es usualmente
calculado por adelantado. Estos valores precalculados o agregaciones son la base de las
ganancias de desempeo de este sistema. Algunos sistemas utilizan tcnicas de
compresin de datos para disminuir el espacio de almacenamiento en disco debido a los
valores precalculados.
HOLAP (Hybrid OLAP)[editar]
Artculo principal: HOLAP
Almacena algunos datos en un motor relacional y otros en una base de datos
multidimensional.
Comparacin[editar]
Cada sistema OLAP tiene ciertos beneficios (aunque existe desacuerdo acerca de las
caractersticas especficas de los beneficios entre los proveedores).
Algunas implementaciones MOLAP son propensas a la "explosin" de la base de datos;
este fenmeno provoca la necesidad de grandes cantidades de espacio de
almacenamiento para el uso de una base de datos MOLAP cuando se dan ciertas
condiciones: elevado nmero de dimensiones, resultados precalculados y escasos datos
multidimensionales. Las tcnicas habituales de atenuacin de la explosin de la base de
datos no son todo lo eficientes que sera deseable.
Por lo general MOLAP ofrece mejor rendimiento debido a la especializada indexacin y a
las optimizaciones de almacenamiento. MOLAP tambin necesita menos espacio de
almacenamiento en comparacin con los especializados ROLAP porque su

almacenamiento especializado normalmente incluye tcnicas de compresin.
ROLAP es generalmente ms escalable. Sin embargo, el gran volumen de
preprocesamiento es difcil de implementar eficientemente por lo que con frecuencia se
omite; por tanto, el rendimiento de una consulta ROLAP puede verse afectado.
Desde la aparicin de ROLAP van apareciendo nuevas versiones de bases de datos
preparadas para realizar clculos, las funciones especializadas que se pueden utilizar
tienen ms limitaciones.
HOLAP (OLAP Hbrido) engloba un conjunto de tcnicas que tratan de combinar MOLAP
y ROLAP de la mejor forma posible. Generalmente puede pre-procesar rpidamente,
escala bien, y proporciona una buena funcin de apoyo.
Otros tipos[editar]
Los siguientes acrnimos a veces tambin se utilizan, aunque no son sistemas tan
generalizados como los anteriores:
WOLAP o Web OLAP: OLAP basado u orientado para la web.
DOLAP o Desktop OLAP: OLAP de escritorio
RTOLAP o Real Time OLAP: OLAP en tiempo real
SOLAP o Spatial OLAP: OLAP espacial
OLTP es la sigla en ingls de Procesamiento de Transacciones En Lnea (OnLine
Transaction Processing) es un tipo de procesamiento que facilita y administra aplicaciones
transaccionales, usualmente para entrada de datos y recuperacin y procesamiento de
transacciones (gestor transaccional). Los paquetes de software para OLTP se basan en la
arquitectura cliente-servidor ya que suelen ser utilizados por empresas con una red
informtica distribuida.
La minera de datos o exploracin de datos (es la etapa de anlisis de "Knowledge

Discovery in Databases" o KDD) es un campo de las ciencias de la computacin referido
al proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos.1
Utiliza los mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y
sistemas de bases de datos. El objetivo general del proceso de minera de datos consiste
en extraer informacin de un conjunto de datos y transformarla en una estructura
comprensible para su uso posterior. Adems de la etapa de anlisis en bruto, que
involucra aspectos de bases de datos y de gestin de datos, de procesamiento de datos,
del modelo y de las consideraciones de inferencia, de mtricas de Intereses, de
consideraciones de la Teora de la complejidad computacional, de post-procesamiento de
las estructuras descubiertas, de la visualizacin y de la actualizacin en lnea.
=============
Qu es Big Data?
Todos formamos parte de ese gran crecimiento de datos
Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan analizar,
descubrir y entender ms all de lo que sus herramientas tradicionales reportan sobre su
informacin, al mismo tiempo que durante los ltimos aos el gran crecimiento de las
aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido
parte importante en las decisiones de negocio de las empresas. El presente artculo tiene
como propsito introducir al lector en el concepto de Big Data y describir algunas
caractersticas de los componentes principales que constituyen una solucin de este tipo.
1. Introduccin
El primer cuestionamiento que posiblemente llegue a su mente en este momento es Qu
es Big Data y porqu se ha vuelto tan importante? pues bien, en trminos generales
podramos referirnos como a la tendencia en el avance de la tecnologa que ha abierto las
puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es
utilizada para describir enormes cantidades de datos (estructurados, no estructurados y
semi estructurados) que tomara demasiado tiempo y sera muy costoso cargarlos a un
base de datos relacional para su anlisis. De tal manera que, el concepto de Big Data
aplica para toda aquella informacin que no puede ser procesada o analizada utilizando
procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a alguna
cantidad en especfico, ya que es usualmente utilizado cuando se habla en trminos de
petabytes y exabytes de datos. Entonces Cunto es demasiada informacin de manera
que sea elegible para ser procesada y analizada utilizando Big Data? Analicemos
primeramente en trminos de bytes:
Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
Adems del gran volumen de informacin, esta existe en una gran variedad de datos que
pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos mviles, audio, video, sistemas GPS, incontables sensores digitales en
equipos industriales, automviles, medidores elctricos, veletas, anemmetros, etc., los
cuales pueden medir y comunicar el posicionamiento, movimiento, vibracin, temperatura,
humedad y hasta los cambios qumicos que sufre el aire, de tal forma que las aplicaciones
que analizan estos datos requieren que la velocidad de respuesta sea lo demasiado
rpida para lograr obtener la informacin correcta en el momento preciso. Estas son las
caractersticas principales de una oportunidad para Big Data.
Es importante entender que las bases de datos convencionales son una parte importante
y relevante para una solucin analtica. De hecho, se vuelve mucho ms vital cuando se
usa en conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y
derecha, cada una ofrece fortalezas individuales para cada tarea en especfico. Por
ejemplo, un beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la
otra para atraparla; puede ser que cada mano intente hacer la actividad de la otra, mas
sin embargo, el resultado no ser el ms ptimo.
2. De dnde proviene toda esa informacin?
Los seres humanos estamos creando y almacenando informacin constantemente y cada
vez ms en cantidades astronmicas. Se podra decir que si todos los bits y bytes de
datos del ltimo ao fueran guardados en CD's, se generara una gran torre desde la
Tierra hasta la Luna y de regreso.
Esta contribucin a la acumulacin masiva de datos la podemos encontrar en diversas
industrias, las compaas mantienen grandes cantidades de datos transaccionales,
reuniendo informacin acerca de sus clientes, proveedores, operaciones, etc., de la
misma manera sucede con el sector pblico. En muchos pases se administran enormes
bases de datos que contienen datos de censo de poblacin, registros mdicos, impuestos,
etc., y si a todo esto le aadimos transacciones financieras realizadas en lnea o por
dispositivos mviles, anlisis de redes sociales (en Twitter son cerca de 12 Terabytes de
tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y
videos), ubicacin geogrfica mediante coordenadas GPS, en otras palabras, todas
aquellas actividades que la mayora de nosotros realizamos varias veces al da con
nuestros "smartphones", estamos hablando de que se generan alrededor de 2.5
quintillones de bytes diariamente en el mundo.
1 quintilln = 10 30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco[1], entre el 2011 y el 2016 la cantidad de
trfico de datos mviles crecer a una tasa anual de 78%, as como el nmero de
dispositivos mviles conectados a Internet exceder el nmero de habitantes en el
planeta. Las naciones unidas proyectan que la poblacin mundial alcanzar los 7.5
billones para el 2016 de tal modo que habr cerca de 18.9 billones de dispositivos
conectados a la red a escala mundial, esto conllevara a que el trfico global de datos
mviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de
trfico previsto para 2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones de
mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de informacin, existe tambin la comunicacin denominada mquina a mquina
(M2M machine-to-machine) cuyo valor en la creacin de grandes cantidades de datos
tambin es muy importante. Sensores digitales instalados en contenedores para
determinar la ruta generada durante una entrega de algn paquete y que esta informacin
sea enviada a las compaas de transportacin, sensores en medidores elctricos para
determinar el consumo de energa a intervalos regulares para que sea enviada esta
informacin a las compaas del sector energtico. Se estima que hay ms de 30 millones
de sensores interconectados en distintos sectores como automotriz, transportacin,
industrial, servicios, comercial, etc. y se espera que este nmero crezca en un 30%
anualmente.
3. Qu tipos de datos debo explorar?
Muchas organizaciones se enfrentan a la pregunta sobre qu informacin es la que se
debe analizar?, sin embargo, el cuestionamiento debera estar enfocado hacia qu
problema es el que se est tratando de resolver?.[2]
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena
clasificacin nos ayudara a entender mejor su representacin, aunque es muy probable
que estas categoras puedan extenderse con el avance tecnolgico.
1.- Web
web e
redes
LinkedIn,
etc, blogs.
and Social Media: Incluye contenido

informacin que es obtenida de las
sociales como Facebook, Twitter,
2.- Machine-to-Machine (M2M): M2M se refiere a

las
tecnologas
que
permiten
conectarse
a otros
dispositivos. M2M utiliza dispositivos

como
sensores o medidores que capturan algn
evento en
particular (velocidad, temperatura,
presin,
variables meteorolgicas, variables
qumicas como la salinidad, etc.) los cuales transmiten a travs de redes almbricas,
inalmbricas o hbridas a otras aplicaciones que traducen estos eventos en informacin
significativa.
3.- Big Transaction Data: Incluye registros de facturacin, en telecomunicaciones registros
detallados de las llamadas (CDR), etc. Estos datos transaccionales estn disponibles en
formatos tanto semiestructurados como no estructurados.
4.- Biometrics: Informacin biomtrica en la que se incluye huellas digitales, escaneo de la
retina, reconocimiento facial, gentica, etc. En el rea de seguridad e inteligencia, los datos
biomtricos han sido informacin importante para las agencias de investigacin.
5.- Human Generated: Las personas generamos diversas cantidades de datos como la
informacin que guarda un call center al establecer una llamada telefnica, notas de voz,
correos electrnicos, documentos electrnicos, estudios mdicos, etc.
4. Componentes de una plataforma Big Data
Las organizaciones han atacado esta problemtica desde diferentes ngulos.

Todas esas montaas de informacin han generado un costo potencial al no
descubrir el gran valor asociado. Desde luego, el ngulo correcto que
actualmente tiene el liderazgo en trminos de popularidad para analizar
enormes cantidades de informacin es la plataforma de cdigo abierto Hadoop.
Hadoop est inspirado en el proyecto de Google File System(GFS) y en el
paradigma de programacin MapReduce, el cual consiste en dividir en dos
tareas (mapper reducer) para manipular los datos distribuidos a nodos de un
clster logrando un alto paralelismo en el procesamiento.[5] Hadoop est
compuesto de tres piezas: Hadoop Distributed File System (HDFS), Hadoop
MapReduce y Hadoop Common.
Hadoop Distributed File System(HDFS)
Los datos en el clster de Hadoop son divididos en pequeas piezas llamadas
bloques y distribuidas a travs del clster; de esta manera, las funciones map y
reduce pueden ser ejecutadas en pequeos subconjuntos y esto provee de la
escalabilidad necesaria para el procesamiento de grandes volmenes.
La siguiente figura ejemplifica como los bloques de datos son escritos hacia
HDFS. Observe que cada bloque es almacenado tres veces y al menos un
bloque se almacena en un diferente rack para lograr redundancia.
Figura 2. Ejemplo de HDFS
Hadoop MapReduce
MapReduce es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere a dos
procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto
de datos y lo convierte en otro conjunto, donde los elementos individuales son separados en
tuplas (pares de llave/valor). El proceso reduce obtiene la salida de map como datos de
entrada y combina las tuplas en un conjunto ms pequeo de las mismas. Una fase
intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso map y
determina que nodo procesar estos datos dirigiendo la salida a una tarea reduce en
especfico.
La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce.
Figura 3. Ejemplo de MapReduce

Hadoop Common
Hadoop Common Components son un conjunto de libreras que soportan varios
subproyectos de Hadoop.
Adems de estos tres componentes principales de Hadoop, existen otros
proyectos relacionados los cuales son definidos a continuacin:
Avro
Es un proyecto de Apache que provee servicios de serializacin. Cuando se
guardan datos en un archivo, el esquema que define ese archivo es guardado
dentro del mismo; de este modo es ms sencillo para cualquier aplicacin
leerlo posteriormente puesto que el esquema esta definido dentro del archivo.
Cassandra
Cassandra es una base de datos no relacional distribuida y basada en un
modelo de almacenamiento de <clave-valor>, desarrollada en Java. Permite
grandes volmenes de datos en forma distribuida. Twitter es una de las
empresas que utiliza Cassandra dentro de su plataforma.
Chukwa
Diseado para la coleccin y anlisis a gran escala de "logs". Incluye un toolkit

para desplegar los resultados del anlisis y monitoreo.
Flume
Tal como su nombre lo indica, su tarea principal es dirigir los datos de una
fuente hacia alguna otra localidad, en este caso hacia el ambiente de Hadoop.
Existen tres entidades principales: sources, decorators y sinks. Un source es
bsicamente cualquier fuente de datos, sink es el destino de una operacin en
especfico y un decorator es una operacin dentro del flujo de datos que
transforma esa informacin de alguna manera, como por ejemplo comprimir o
descomprimir los datos o alguna otra operacin en particular sobre los mismos.
HBase
Es una base de datos columnar (column-oriented database) que se ejecuta en
HDFS. HBase no soporta SQL, de hecho, HBase no es una base de datos
relacional. Cada tabla contiene filas y columnas como una base de datos
relacional. HBase permite que muchos atributos sean agrupados llamndolos
familias de columnas, de tal manera que los elementos de una familia de
columnas son almacenados en un solo conjunto. Eso es distinto a las bases de
datos relacionales orientadas a filas, donde todas las columnas de una fila dada
son almacenadas en conjunto. Facebook utiliza HBase en su plataforma desde
Noviembre del 2010.
Hive
Es una infraestructura de data warehouse que facilita administrar grandes
conjuntos de datos que se encuentran almacenados en un ambiente
distribuido. Hive tiene definido un lenguaje similar a SQL llamado Hive Query
Language(HQL), estas sentencias HQL son separadas por un servicio de Hive y
son enviadas a procesos MapReduce ejecutados en el cluster de Hadoop.
El siguiente es un ejemplo en HQL para crear una tabla, cargar datos y obtener
informacin de la tabla utilizando Hive:
CREATE TABLE Tweets (from_user STRING, userid BIGINT, tweettext STRING,
retweets INT)
COMMENT 'This is the Twitter feed table'
STORED AS SEQUENCEFILE;
LOAD DATA INPATH 'hdfs://node/tweetdata' INTO TABLE TWEETS;
SELECT from_user, SUM(retweets)
FROM TWEETS
GROUP BY from_user;
Jaql
Fue donado por IBM a la comunidad de software libre. Query Language for
Javascript Object Notation (JSON) es un lenguaje funcional y declarativo que
permite la explotacin de datos en formato JSON diseado para procesar
grandes volmenes de informacin. Para explotar el paralelismo, Jaql reescribe

los queries de alto nivel (cuando es necesario) en queries de "bajo nivel" para
distribuirlos como procesos MapReduce.
Internamente el motor de Jaql transforma el query en procesos map y reduce
para reducir el tiempo de desarrollo asociado en analizar los datos en Hadoop.
Jaql posee de una infraestructura flexible para administrar y analizar datos
semiestructurados como XML, archivos CSV, archivos planos, datos
relacionales, etc.
Lucene
Es un proyecto de Apache bastante popular para realizar bsquedas sobre
textos. Lucene provee de libreras para indexacin y bsqueda de texto. Ha
sido principalmente utilizado en la implementacin de motores de bsqueda
(aunque hay que considerar que no tiene funciones de "crawling" ni anlisis de
documentos HTML ya incorporadas). El concepto a nivel de arquitectura de
Lucene es simple, bsicamente los documentos (document) son dividos en
campos de texto (fields) y se genera un ndice sobre estos campos de texto. La
indexacin es el componente clave de Lucene, lo que le permite realizar
bsquedas rpidamente independientemente del formato del archivo, ya sean
PDFs, documentos HTML, etc.
Oozie
Como pudo haber notado, existen varios procesos que son ejecutados en
distintos momentos los cuales necesitan ser orquestados para satisfacer las
necesidades de tan complejo anlisis de informacin.
Oozie es un proyecto de cdigo abierto que simplifica los flujos de trabajo y la
coordinacin entre cada uno de los procesos. Permite que el usuario pueda
definir acciones y las dependencias entre dichas acciones.
Un flujo de trabajo en Oozie es definido mediante un grafo acclico llamado
Directed Acyclical Graph (DAG), y es acclico puesto que no permite ciclos en el
grafo; es decir, solo hay un punto de entrada y de salida y todas las tareas y
dependencias parten del punto inicial al punto final sin puntos de retorno. Un
ejemplo de un flujo de trabajo en Oozie se representa de la siguiente manera:
Figura 4. Flujo de trabajo en Oozie
Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop
enfocarse ms en analizar todos los conjuntos de datos y dedicar menos
tiempo en construir los programas MapReduce. Tal como su nombre lo indica al
igual que cualquier cerdo que come cualquier cosa, el lenguaje PigLatin fue
diseado para manejar cualquier tipo de dato y Pig es el ambiente de ejecucin
donde estos programas son ejecutados, de manera muy similar a la relacin
entre la mquina virtual de Java (JVM) y una aplicacin Java.
ZooKeeper
ZooKeeper es otro proyecto de cdigo abierto de Apache que provee de una
infraestructura centralizada y de servicios que pueden ser utilizados por
aplicaciones para asegurarse de que los procesos a travs de un cluster sean
serializados o sincronizados.
Internamente en ZooKeeper una aplicacin puede crear un archivo que se
persiste en memoria en los servidores ZooKeeper llamado znode. Este archivo
znode puede ser actualizado por cualquier nodo en el cluster, y cualquier nodo
puede registrar que sea informado de los cambios ocurridos en ese znode; es
decir, un servidor puede ser configurado para "vigilar" un znode en particular.
De este modo, las aplicaciones pueden sincronizar sus procesos a travs de un
cluster distribuido actualizando su estatus en cada znode, el cual informar al
resto del cluster sobre el estatus correspondiente de algn nodo en especfico.
Como podr observar, ms all de Hadoop, una plataforma de Big Data
consiste de todo un ecosistema de proyectos que en conjunto permiten
simplificar, administrar, coordinar y analizar grandes volmenes de
informacin.
5. Big Data y el campo de investigacin

Los cientficos e investigadores han analizado datos desde ya hace mucho
tiempo, lo que ahora representa el gran reto es la escala en la que estos son
generados.
Esta explosin de "grandes datos" est transformando la manera en que se
conduce una investigacin adquiriendo habilidades en el uso de Big Data para
resolver problemas complejos relacionados con el descubrimiento cientfico,
investigacin ambiental y biomdica, educacin, salud, seguridad nacional,
entre otros.
De entre los proyectos que se pueden mencionar donde se ha llevado a cabo el
uso de una solucin de Big Data se encuentran:
El Language, Interaction and Computation Laboratory (CLIC) en conjunto con
la Universidad de Trento en Italia, son un grupo de investigadores cuyo inters
es el estudio de la comunicacin verbal y no verbal tanto con mtodos
computacionales como cognitivos.
Lineberger Comprehensive Cancer Center - Bioinformatics Group utiliza
Hadoop y HBase para analizar datos producidos por los investigadores de The
Cancer Genome Atlas(TCGA) para soportar las investigaciones relacionadas con
el cncer.
El PSG College of Technology, India, analiza mltiples secuencias de
protenas para determinar los enlaces evolutivos y predecir estructuras
moleculares. La naturaleza del algoritmo y el paralelismo computacional de
Hadoop mejora la velocidad y exactitud de estas secuencias.
La Universidad Distrital Francisco Jose de Caldas utiliza Hadoop para apoyar
su proyecto de investigacin relacionado con el sistema de inteligencia
territorial de la ciudad de Bogot.
La Universidad de Maryland es una de las seis universidades que colaboran
en la iniciativa acadmica de cmputo en la nube de IBM/Google. Sus
investigaciones incluyen proyectos en la lingistica computacional (machine
translation), modelado del lenguaje, bioinformtica, anlisis de correo
electrnico y procesamiento de imgenes.
Para ms referencias en el uso de Hadoop puede dirigirse a :
http://wiki.apache.org/hadoop/PoweredBy
El Instituto de Tecnologa de la Universidad de Ontario (UOIT) junto con el
Hospital de Toronto utilizan una plataforma de big data para anlisis en tiempo
real de IBM (IBM InfoSphere Streams), la cual permite monitorear bebs
prematuros en las salas de neonatologa para determinar cualquier cambio en
la presin arterial, temperatura, alteraciones en los registros del
electrocardiograma y electroencefalograma, etc., y as detectar hasta 24 horas

antes aquellas condiciones que puedan ser una amenaza en la vida de los
recin nacidos.
Los laboratorios Pacific Northwest National Labs(PNNL) utilizan de igual manera
IBM InfoSphere Streams para analizar eventos de medidores de su red elctrica
y en tiempo real verificar aquellas excepciones o fallas en los componentes de
la red, logrando comunicar casi de manera inmediata a los consumidores sobre
el problema para ayudarlos en administrar su consumo de energa elctrica.[3]
La esclerosis mltiple es una enfermedad del sistema nervioso que afecta al
cerebro y la mdula espinal. La comunidad de investigacin biomdica y la
Universidad del Estado de Nueva York (SUNY) estn aplicando anlisis con big
data para contribuir en la progresin de la investigacin, diagnstico,
tratamiento, y quizs hasta la posible cura de la esclerosis mltiple.[4]
Con la capacidad de generar toda esta informacin valiosa de diferentes
sistemas, las empresas y los gobiernos estn lidiando con el problema de
analizar los datos para dos propsitos importantes: ser capaces de detectar y
responder a los acontecimientos actuales de una manera oportuna, y para
poder utilizar las predicciones del aprendizaje histrico. Esta situacin requiere
del anlisis tanto de datos en movimiento (datos actuales) como de datos en
reposo (datos histricos), que son representados a diferentes y enormes
volmenes, variedades y velocidades.
6. Conclusiones
La naturaleza de la informacin hoy es diferente a la informacin en el pasado.
Debido a la abundacia de sensores, micrfonos, cmaras, escneres mdicos,
imgenes, etc. en nuestras vidas, los datos generados a partir de estos
elementos sern dentro de poco el segmento ms grande de toda la
informacin disponible.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les
podran haber tomado aos en descubrir por si mismos sin el uso de estas
herramientas, debido a la velocidad del anlisis, es posible que el analista de
datos pueda cambiar sus ideas basndose en el resultado obtenido y retrabajar
el procedimiento una y otra vez hasta encontrar el verdadero valor al que se
est tratando de llegar.
Como se pudo notar en el presente artculo, implementar una solucin
alrededor de Big Data implica de la integracin de diversos componentes y
proyectos que en conjunto forman el ecosistema necesario para analizar
grandes cantidades de datos.
Sin una plataforma de Big Data se necesitara que desarrollar adicionalmente

cdigo que permita administrar cada uno de esos componentes como por
ejemplo: manejo de eventos, conectividad, alta disponibilidad, seguridad,
optimizacin y desempeo, depuracin, monitoreo, administracin de las
aplicaciones, SQL y scripts personalizados.
IBM cuenta con una plataforma de Big Data basada en dos productos
principales: IBM InfoSphere BigInsights e IBM InfoSphere Streams, adems
de su reciente adquisicin Vivisimo, los cuales estn diseados para resolver
este tipo de problemas. Estas herramientas estn construidas para ser
ejecutadas en sistemas distribuidos a gran escala diseados para tratar con
grandes volmenes de informacin, analizando tanto datos estructurados como
no estructurados.
Dentro de la plataforma de IBM existen ms de 100 aplicaciones de ejemplo
recolectadas del trabajo que se ha realizado internamente en la empresa para
casos de uso e industrias especficas. Estos aplicativos estn implementados
dentro de la solucin de manera que las organizaciones puedan dedicar su
tiempo a analizar y no a implementar.
==============
La Importancia de la Inteligencia de Negocios Aplicada a Empresas Medianas
Hoy en da, las organizaciones manejan un flujo de informacin el cual era
inimaginable apenas unos aos atrs. Gracias a que nuestro mundo es ahora
mucho ms instrumentado, la capacidad de recolectar datos es impresionante.
Basta con observar la informacin tan valiosa que recolecta un supermercado
por medio de las tarjetas de lealtad, por una cmara de seguridad en las calles
o la forma en que los call centers recopilan informacin para entender el
porqu de las quejas y el abandono de sus clientes. Lamentablemente para
muchas empresas, este tipo de datos se han convertido a su vez en un peso
con el cul es difcil lidiar. Debido al gran volumen de informacin con el que se
cuenta actualmente, lejos de ser til, puede devenir en un fallido intento por
darle un uso adecuado.
Hoy en da, las organizaciones manejan un flujo de informacin el cual era
inimaginable apenas unos aos atrs. Gracias a que nuestro mundo es ahora
mucho ms instrumentado, la capacidad de recolectar datos es impresionante.
Basta con observar la informacin tan valiosa que recolecta un supermercado
por medio de las tarjetas de lealtad, por una cmara de seguridad en las calles
o la forma en que los call centers recopilan informacin para entender el
porqu de las quejas y el abandono de sus clientes. Lamentablemente para
muchas empresas, este tipo de datos se han convertido a su vez en un peso
con el cul es difcil lidiar. Debido al gran volumen de informacin con el que se
cuenta actualmente, lejos de ser til, puede devenir en un fallido intento por
darle un uso adecuado.
Es aqu donde entra una de las herramientas ms mencionadas ltimamente
en el rea de TI: Business Intelligence. Se refiere directamente a la prctica y al
conjunto de herramientas que pueden ayudar a las empresas a adquirir un
mejor entendimiento de ellas mismas. Esto gracias a la capacidad de explotar
su informacin, con la intencin de poder manipularlos de una manera ms
sencilla y entender el porqu de nuestro desempeo o, mejor an, plantear
escenarios a futuro, lo cual nos ayudar a tomar mejores decisiones.
Pero para esto, muchas compaas consideran que este tipo de soluciones son
slo para empresas grandes. Es cierto que este tipo de compaas tienen
mucho que ganar al implementar estas herramientas, adems del presupuesto
suficiente para hacerlo, pero esto no significa que las empresas medianas no
puedan beneficiarse de igual manera de la inteligencia de negocio, a la vez de
que no necesariamente necesitan gastar dinero y tiempo en exceso para
conseguirlo. Despus de todo, este tipo de empresas cuentan con objetivos
mucho ms focalizados y el costo de implementacin suele ser mucho menor.
Sin una infraestructura tecnolgica de BI, las empresas medianas tienden a
exceder presupuestos, sobrepasar fechas lmite, mejorar el rendimiento en un
rea a costa de todo el negocio y premiar a empleados por acciones que no
significan necesariamente una mejora en el rendimiento de la compaa. Y lo
ms importante, los tiempos turbulentos en materia econmica suelen ser
mucho ms devastadores para sus operaciones.
La tecnologa de Business Intelligence resulta entonces sumamente importante
para las compaas medianas, las cuales tpicamente no tienen tan vastos
recursos como los lderes de la industria pero tienen la agilidad para
implementar decisiones de negocio significativas de una manera rpida y
relativamente sencilla. Estas herramientas aseguran que las decisiones
tomadas sean siempre las mejores.
El efecto que puede ocasionar una buena implementacin de esta inteligencia
de negocio es impresionante... Basta con ver, por ejemplo, la cantidad de
fuentes de informacin que seguramente tenemos dispersas en nuestra
empresa. La habilidad de tener una vista nica de informacin, adems de
poder tener reportes de datos dispersos en conjunto, datos de diferentes
dimensiones y eventos en el tiempo; y el tener el poder para resolver
preguntas que empiezan con "qu pasara si..." son slo algunas de las
ventajas de contar con herramientas de BI. El tener la capacidad para explotar
nuestra informacin de esta manera puede alimentar directamente los
sistemas y los procesos de planeacin de nuestra empresa, ayudando a definir
presupuestos, metas, etc. Nuestros datos histricos pueden contribuir en gran

manera a tomar las mejores decisiones de negocio.
En una empresa mediana, a diferencia de una grande, la necesidad de
herramientas sumamente especializadas, un entrenamiento extensivo e
implementaciones gigantescas se reducen considerablemente. Este tipo de
empresas operan por un conjunto de reglas y prcticas mucho ms equitativas
a las de sus rivales, Adems, gracias a que existen soluciones preempaquetadas con todo lo que se necesita, su uso e implementacin resultan
mucho ms sencillo, apuntando hacia las fuentes de datos con las que se
cuenta para empezar a funcionar.
Gracias a que podemos encontrar soluciones de BI con tecnolgica abierta y
enfocadas al usuario final, no necesitamos considerar un gasto excesivo en
aumentar nuestra rea de experiencia. Estas herramientas estn diseadas
para que se puedan tomar decisiones importantes de negocio sin la
intervencin del rea de TI, lo cual agiliza los procesos y permite una reaccin
inmediata a cualquier movimiento dentro de la industria o del mercado. La
experiencia es la que ir conduciendo a la mayora de los usuarios comunes
hacia cada vez mejores resultados.
Por supuesto, una solucin de Business Intelligence para empresas grandes no
puede ser la misma para empresas medianas. Las diferencias entre ambos
tipos de compaas son demasiadas... Por suerte en el mercado podemos
encontrar herramientas dirigidas a este tipo de empresas, que contemplan
todo el poder del anlisis, reporteo y planeacin de las soluciones de BI pero,
gracias a su naturaleza "pre-empaquetada", a un costo mucho ms bajo y con
menores implicaciones en cuanto a implementacin. Con ventajas tan grandes
como el anlisis de negocios "en memoria", que permite un trabajo
increblemente rpido y con datos mucho ms actualizados, las compaas
medianas pueden conseguir resultados consistentes que en empresas ms
grandes sera ms complicado implementar. Las herramientas de BI dirigidas a
empresas medianas permiten un reporteo avanzado y el manejo de datos en
un ambiente flexible, lo cual realmente significa un parte aguas en la forma en
que las empresas de este tipo deben de trabajar.
====

Herramientas Business Intelligence Preparacion Exposicio

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Herramientas Business Intelligence Preparacion Exposicio

Загружено:

Авторское право:

Доступные форматы

HERRAMIENTAS BUSINESS INTELLIGENCE

ETL: Extract, Transform and Load (extraer, transformar y cargar, frecuentemente

OLAP es el acrnimo en ingls de procesamiento analtico en lnea (On-Line Analytical

almacenamiento en comparacin con los especializados ROLAP porque su

La minera de datos o exploracin de datos (es la etapa de anlisis de "Knowledge

and Social Media: Incluye contenido

2.- Machine-to-Machine (M2M): M2M se refiere a

dispositivos. M2M utiliza dispositivos

Las organizaciones han atacado esta problemtica desde diferentes ngulos.

Figura 3. Ejemplo de MapReduce

Diseado para la coleccin y anlisis a gran escala de "logs". Incluye un toolkit

grandes volmenes de informacin. Para explotar el paralelismo, Jaql reescribe

5. Big Data y el campo de investigacin

electrocardiograma y electroencefalograma, etc., y as detectar hasta 24 horas

Sin una plataforma de Big Data se necesitara que desarrollar adicionalmente

presupuestos, metas, etc. Nuestros datos histricos pueden contribuir en gran

Вам также может понравиться