Вы находитесь на странице: 1из 10

[2017]

[Mineria de Datos]

Julio Cesar Zamorano Garca


[Universidad de los ngeles Puebla]
[8 Semestre ISC]
Examen Minera de Datos
_________________________________
_________________________________
_________________________________
_________________________________
_________________________________
OFERTA DE HERRAMIENTAS DE SOFTWARE
PARA LA ADMINISTRACIN DE DATAWAREHOUSE Y BIGDATA

UDEAP
Julio Cesar Zamorano Garca 8 Semestre
Introduccin:

Comenzaremos por definir los conceptos

BIG DATA no es slo una herramienta o una tecnologa si no un conductor de una disciplina de toma de decisiones
mejorada basada en anlisis predictivos, que marca el comienzo de una era de cambio cultural y mejora del
rendimiento.

En esencia, se trata de un conjunto de tecnologas y arquitecturas diseadas para conseguir un mejor rendimiento
de grandes volmenes de informacin. Como ocurre con cualquier modelo de negocio, el factor clave para obtener
beneficios de BIG DATA no depende de la capacidad tecnolgica sino de la capacidad humana para realizar la
correcta interpretacin de la informacin que permita obtener valor de su anlisis.

Con BIG DATA la venta de productos o servicios podr diferenciarse haciendo que el consumo de los mismos
suponga una experiencia personalizada para los gustos y preferencias de cada cliente. BIG DATA nos permitir llevar
a cabo la gestin de emociones a la hora de enriquecer el consumo de los productos y servicios. BIG DATA no es una
actividad aislada. Para el xito se necesita ms que nunca el conocimiento del negocio que permita hacer las
preguntas correctas y establecer las correlaciones oportunas.

Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una
o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de pespectivas y con grandes
velocidades de respuesta. La creacin de un datawarehouse representa en la mayora de las ocasiones el primer
paso, desde el punto de vista tcnico, para implantar una solucin completa y fiable de Business Intelligence.

La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la informacin
(modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la
informacin es homognea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un
entorno diferente a los sistemas operacionales).

UDEAP
Julio Cesar Zamorano Garca 8 Semestre
Un datawarehouse se caracteriza por ser:

Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por
lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La
informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas
necesidades de los usuarios.

Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran
desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por
parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una
nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms
fciles de responder dado que toda la informacin reside en el mismo lugar.

Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas


operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por
el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis
de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el
tiempo para permitir comparaciones.

No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La
informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de
los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo
que ya exista.

Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos
permiten saber la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo... etc.

Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde los sistemas
operacionales a los sistemas informacionales.

Todo esto es muy bonito como definicin, pero realmente en el mercado laboral lo que requerimos es conocer las
herramientas que se utilizan para implementar y administrar las tecnologas antes descritas, es en este contexto
que se elabora el presente para que sirva de gua sobre las herramientas disponibles para este efecto.

UDEAP
Julio Cesar Zamorano Garca 8 Semestre
Herramientas Datawarehouse

Hay muchas herramientas que diferentes empresas ofrecen para la creacin y explotacin de un Data Warehouse.
Cuando se ofrece una suite completa, que cubre desde la creacin de la base de datos hasta la explotacin de la
misma para diferentes perfiles y objetivos, suelen considerarse como herramientas de Business Intelligence.

El Data Warehouse se implementa siempre sobre un Sistema Gestor de Bases de Datos, y para las cargas peridicas
de datos que se realizan sobre l desde diferentes orgenes se pueden utilizar herramientas ETL, que permiten
enlazar la base de datos con los diferentes orgenes, definir las transformaciones que hay que realizar para la
integracin de los datos, y programar o automatizar las cargas peridicas.

Para la explotacin se utilizan diferentes herramientas, cuya clasificacin se puede realizar en funcin del perfil
profesional de la persona que las utiliza.

Las clsicas herramientas de reporting son para usuarios de diferentes departamentos que
necesitan explotar en su trabajo diario una informacin concreta.
Para usuarios de perfil ms analista, o incluso directivos se han creado las herramientas DSS
(Decision Support Systems), o sistemas de soporte para la toma de decisiones. Podran considerarse
como herramientas de reporting, pero que ofrecen una serie de funcionalidades que permiten a los
usuarios realizar anlisis bajo diferentes puntos de vista de los datos que estn examinando.
Permiten la modificacin y personalizacin online de los informes, y la navegacin por los datos
seleccionados a diferentes niveles de detalle segn dimensiones previamente definidas.
Para los directivos de nivel superior existen herramientas de Cuadro de mando, que no dejan de ser
informes, pero que permiten agregar la informacin de manera que una sola pgina sea suficiente
para el directivo para evaluar el estado de la empresa en lo que a l le concierne. Estos informes
tienen que ser visuales, simples, i a la vez muy informativos.

Finalmente, cuando se pretende obtener el mximo de informacin, o ms bien conocimiento, de los datos de la
empresa, entran en juego las herramientas de Minera de Datos, o Datamining, que, siempre contando con la
experiencia de un analista de negocio que pueda parametrizarlas y crear un modelo persiguiendo unos objetivos
concretos, realizan una explotacin de los datos existentes en busca de nuevas relaciones ocultas, agrupaciones o
conclusiones que a primera vista, o con un anlisis de otro tipo habran pasado desapercibidas.

Viendo toda la funcionalidad que deben cubrir las herramientas de Business Intelligence orientadas a la
explotacin de un sistema de Data Warehouse no es de extraar que muchas empresas se echen las manos a la
cabeza cuando se plantean la implantacin de un sistema de este tipo y consultan los precios de las licencias de las
diferentes Suites existentes en el mercado.

Si el coste de estas licencias es una barrera importante, sobretodo para las pymes, una opcin interesante es la de
la utilizacin de herramientas de Open Source, o Cdigo Abierto, que no tienen coste en cuanto a licencias, aunque
s pueden tenerlo si se necesita soporte y mantenimiento de las mismas. Tampoco hay que olvidarse que las
licencias de software no tienen porqu representar el mayor gasto en la implantacin de un sistema de Data
Warehouse.

Una Suite bastante completa, de software libre, y que tambin ofrece servicios de soporte en sus versiones
profesionales, es la llamada Pentaho, poco conocida hasta ahora pero que seguro que va a dar mucho que hablar
en breve. Se pueden consultar sus caractersticas en su pagina web.

UDEAP
Julio Cesar Zamorano Garca 8 Semestre
Oracle cuenta con 2 herramientas para realizar esta funcin: Oracle Warehouse Builder y Oracle Data Integrator.

El Oracle Warehouse Builder (OWB) es el producto tradicional de Oracle para la creacin del esquema del DW,
definicin de jerarquas y medidas, mapeo de las fuentes de informacin, calendarizacin, ejecucin y
mantenimiento de las actividades de ETL y herramientas para mejorar la calidad de la informacin.[...]

Por otra parte, el Oracle Data Integrator (ODI) es resultado de la adquisicin de la empresa Sunopsis, en octubre del
2006. La herramienta de ODI presenta un esquema diferente del proceso de ETL, ya que est concebida como una
herramienta de E-LT, esto significa que los datos se extraen de la fuente, se cargan en el sistema destino y ah son
transformados. Esto permite que la herramienta sea utilizada no solamente para etapas de ETL, sino para mover
informacin de un sistema a otro, ya sea en grandes volmenes por lotes o slo unos pocos registros en tiempo
real, habilitndola tambin como una herramienta de integracin entre plataformas.[...]

En resumen, Oracle Warehouse Builder es una herramienta orientada no solamente a realizar el proceso de ETL,
sino tambin la definicin, administracin y mantenimiento de un data warehouse. Est concebida para trabajar
integrada con la tecnologa de Base de Datos Oracle y ha mejorado su desempeo como herramienta de ETL,
convirtindose en una muy buena opcin cuando la base de datos destino sea la Base de Datos Oracle, tomando en
cuenta que el producto ya viene incluido sin costo adicional con sus caractersticas bsicas. Los criterios para
seleccionar Oracle Data Integrator como herramienta de ETL bsicamente son: 1) cuando la base de datos destino
no sea una Base de Datos Oracle, lo cul obligara a tomar esta opcin directamente, 2) cuando el proceso de carga
deba ser invocado desde una Arquitectura Orientada a Servicios (SOA por sus siglas en ingls) como parte de un
proceso de negocio o de integracin de informacin, o 3) cuando no se cuenta con un almacenamiento temporal,
en cuyo caso la orientacin E-LT del ODI permite cargar directamente los datos en el servidor destino y realizar all
la transformacin.

SAP Business Warehouse (SAP BW) es el almacn de datos de SAP (Data Warehouse) utilizado como base para la
presentacin de informes y la planificacin. Su objetivo principal es hacer que la recoleccin, combinacin y
consumo de datos sea lo ms fcil posible.

Esta recoleccin de datos puede hacerse tanto desde los dems mdulos de SAP (FI, SD, MM, PM, etc), como de
otros sistemas y archivos que utilice la empresa.

Tener todos los datos de la organizacin en un solo lugar tiene mltiples beneficios, entre ellos podemos listar:

Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en
informacin integrada y global del negocio.
Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas
entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin.
Proporciona la capacidad de aprender de los datos del pasado y predecir situaciones futuras en diversos
escenarios.
Simplifica dentro de la empresa la implementacin de sistemas de gestin integral para la relacin con el
cliente.
Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de
generacin de informes con retorno de la inversin espectaculares.

UDEAP
Julio Cesar Zamorano Garca 8 Semestre
A continuacin, mostramos una seleccin de herramientas open source que ofrecen soluciones para la explotacin
de software de Big Data en todos sus procesos: almacenamiento, procesamiento y anlisis, que seguramente te
sern tiles en tus proyectos.

1. Hadoop

No se puede hablar de Big Data sin hablar de la veterana Apache Hadoop. Esta herramienta Big Data open source se
considera el framework estndar para el almacenamiento de grandes volmenes de datos; se usa tambin para
analizar y procesar, y es utilizado por empresas como Facebook y Yahoo!.

La biblioteca Hadoop utiliza modelos de programacin simples para el almacenamiento y procesamiento distribuido
de grandes conjuntos de datos en clusters, dando redundancia para no perder nada y, al mismo tiempo,
aprovechando muchos procesos a la vez.

Dispone de un sistema de archivos distribuido en cada nodo del cluster: el HDFS (Hadoop Distributed File System), y
se basa en el proceso de MapReduce de dos fases.

Soporta diferentes sistemas operativos y tambin se usa frecuentemente sobre cualquiera de las principales
plataformas en la nube, como Amazon EC2/S3 o Google Cloud.

2. MongoDB

Dentro de las bases de datos NoSQL, probablemente una de las ms famosas sea MongoDB. Con un concepto muy
diferente al de las bases de datos relacionales, se est convirtiendo en una interesante alternativa para almacenar
los datos de nuestras aplicaciones.

MongoDB es una base de datos orientada a documentos (guarda los datos en documentos, no en registros). Estos
documentos son almacenados en BSON, que es una representacin binaria de JSON.

A pesar de que las bases de datos NoSQL no tienen una extensa variedad de uso, MongoDB tiene un mbito de
aplicacin ms amplio en diferentes tipos de proyectos: es especialmente til en entornos que requieran
escalabilidad. Con sus opciones de replicacin y sharding, podemos conseguir un sistema que escale
horizontalmente sin demasiados problemas.

3. Elasticsearch

Elasticsearch es una potente herramienta para la bsqueda entre grandes cantidades de datos, especialmente
cuando los datos son de tipo complejo.

Nos permite indexar y analizar en tiempo real un gran volumen de datos y hacer consultas sobre ellos. Un ejemplo
de uso son las consultas de texto completo; al estar los datos indexados, los resultados se obtienen de forma muy
rpida. En el IIC utilizamos esta herramienta para indexar datos dentro de nuestras soluciones de entorno digital.

A diferencia de otros sistemas parecidos, no necesita declarar un esquema de la informacin que aadimos, no
sabemos exactamente qu forma van a tener los datos.

Con Elasticsearch podemos hacer bsquedas de texto complicadas, visualizar el estado de nuestros nodos y escalar
sin demasiadas necesidades, si se diera el caso de que necesitramos ms potencia.

UDEAP
Julio Cesar Zamorano Garca 8 Semestre
4. Apache Spark

Apache Spark es un motor de procesamiento de datos de cdigo abierto realmente rpido.

Creado por Matei Zaharia en la Universidad de Berkeley, se considera el primer software open source que hace la
programacin distribuida (muy en esencia, consiste en distribuir el trabajo entre un grupo de ordenadores,
cluster, que trabajan como uno) realmente accesible a los cientficos de datos.

Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala, Python o R. pudiendo ser, segn
el programa, hasta 100 veces ms rpido en memoria o 10 veces ms en disco que Hadoop MapReduce.

5. Apache Storm

Apache Storm es un sistema de computacin distribuida en tiempo real orientado a procesar flujos constantes de
datos, por ejemplo, datos de sensores que se emiten con una alta frecuencia o datos que provengan de las redes
sociales, donde a veces es importante saber qu se est compartiendo en este momento.

Aunque Hadoop sea un gran sistema para el procesado de un gran volumen de datos, no est pensado para hacerlo
en tiempo real, ya que tiene una alta latencia. Apache Storm est siendo una revolucin para procesar grandes
cantidades de informacin en tiempo real, ya que es capaz de procesar millones de mensajes por segundo. En el IIC
utilizamos Apache Storm para nuestra herramienta Lynguo, que requiere esta tecnologa Big Data para procesar en
tiempo real los comentarios de las redes sociales para su monitorizacin y anlisis.

Apache Storm puede ser utilizado para procesar los logs de nuestras aplicaciones para ver el uso que se hace de los
distintos servicios y gestin de errores; para extraer informacin de redes sociales a travs de sus APIs y analizar un
fenmeno en tiempo real; recoger y procesar datos de sensores; buscadores verticales, web analytics, etc.

6. Lenguaje R

R es un lenguaje de programacin y entorno de software para clculo estadstico y grficos. El lenguaje R es de los
ms usados por los estadistas y otros profesionales interesados en la minera de datos, la investigacin
bioinformtica y las matemticas financieras.

R se parece ms al lenguaje de las matemticas que a otros lenguajes de programacin, lo que puede ser un
inconveniente para los programadores a la hora de elegir programar en R para temas de Big Data. Lo que est claro
es que si eliges usar R podrs disponer de una gran cantidad de libreras creadas por la comunidad de R y otras
tantas herramientas de altsima calidad (por ejemplo, RStudio).

7. Python

Python es un lenguaje avanzado de programacin con la ventaja de ser relativamente fcil de usar para usuarios
que no estn familiarizados con la informtica de manera profesional, pero que necesitan trabajar con anlisis de
datos (estadistas, bilogos, fsicos, lingistas).

Es una herramienta para Big Data muy eficiente, en parte debido a la gran comunidad existente, por lo que Python
dispone de muchas libreras ya hechas por otros usuarios.

Sin embargo, tiene en su contra que no es un lenguaje muy rpido en su ejecucin, por lo que suele ser empleado
para tareas de integracin o tareas donde no haya clculos pesados.

UDEAP
Julio Cesar Zamorano Garca 8 Semestre
Ventajas de BIG DATA

Una de las tareas principales de los expertos en BIG DATA es el anlisis de las necesidades relacionadas con la
explotacin de datos, ya que los sistemas BIG DATA permiten el tratamiento y anlisis de enormes depsitos de
datos, tan desproporcionadamente grandes, que resulta imposible tratarlos con las herramientas de bases de datos
y analticas convencionales. El elevado volumen de datos procedentes de pginas web, aplicaciones de imagen y
vdeo, redes sociales, dispositivos mviles, apps o sensores, requiere de sistemas potentes que permitan su gestin
para fines muy diversos: anlisis de negocios, de datos sobre enfermedades infecciosas, de comercializacin de
productos, etc. As, el trabajo que realizan los expertos en BIG DATA sirve para ayudar a la toma de decisiones de
otros profesionales entorno a: La seguridad La optimizacin de recursos en el caso de mantenimientos La prediccin
de consumo-gasto

Desventajas de BIG DATA

Cada operacin es el objeto de un estudio en profundidad por grupo de gente muy especializada y esto es costoso.
BIG DATA es una de las principales tendencias tecnolgicas que cambiarn el mercado y que transformarn la
manera de hacer negocios porque facilitarn la toma de decisiones y reducirn los costes de las empresas. Sin
embargo, se identifican cuatro factores que condicionan la implantacin de esta tecnologa en Espaa: La falta de
profesionales expertos La falta de inversiones destinadas a implementar soluciones BIG DATA. La dificultad de
integracin en los procesos internos de las empresas La calidad de los datos (si la informacin no tiene valor, no
tiene sentido procesarla). En este contexto, las perspectivas profesionales de los expertos en BIG DATA son
positivas, no slo por las expectativas de crecimiento de esta actividad, sino tambin por la falta de profesionales
especializados

Principales aportaciones de un DATAWAREHOUSE

* Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin
integrada y global del negocio.

* Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los
datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin.

* Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos
escenarios.

* Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente.

* Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de


generacin de informes con retornos de la inversin espectaculares.

UDEAP
Julio Cesar Zamorano Garca 8 Semestre
Conclusiones:

BIG DATA no es slo una herramienta o una tecnologa si no un conductor de una disciplina de toma de decisiones
mejorada basada en anlisis predictivos, que marca el comienzo de una era de cambio cultural y mejora del
rendimiento. La experiencia del usuario ser clave, no slo en la venta de servicios, sino tambin en los productos.
Con BIG DATA la venta de productos o servicios podr diferenciarse haciendo que el consumo de los mismos
suponga una experiencia personalizada para los gustos y preferencias de cada cliente. BIG DATA nos permitir llevar
a cabo la gestin de emociones a la hora de enriquecer el consumo de los productos y servicios. BIG DATA no es una
actividad aislada. Para el xito se necesita ms que nunca el conocimiento del negocio que permita hacer las
preguntas correctas y establecer las correlaciones oportunas. Negocio y TI deben de ir de la mano desde el primer
momento y ms que nunca. Sin duda alguna, uno de los retos de BIG DATA es incorporar a su capacidad analtica,
informacin de contexto que permita adaptar y comprender el resultado del anlisis en base a las condiciones del
entorno. Para ello, el verdadero conocimiento ser aquel que incorpore los atributos de entorno que contextualicen
el anlisis.

La omnipresencia de las nuevas tecnologas en la actualidad ha aumentado de manera exponencial la cantidad de


datos producidos en los ltimos 20 aos, de modo que hoy en da se ha pasado de megabytes y gigabytes a hablar
de petabytes de informacin disponible: las empresas manejan una cantidad y variedad muchsimo mayor de datos,
lo que hace necesario el uso de tecnologas Big Data para un aprovechamiento ptimo de dichos datos. En el IIC
utilizamos herramientas Big Data de almacenamiento, procesamiento y anlisis para dar valor a los datos, con el
objetivo de ayudar a nuestros clientes en la toma de decisiones.

Los negocios estn cambiando constantemente debido a cambios econmicos, evoluciones tecnolgicas,
alteraciones en el mercado, impactados por diversos cambios culturales y sociales e incluso por fenmenos
meteorolgicos.

Todo ello obliga a replantearse las estrategias actuales y debera provocar una transformacin en nuestro propio
negocio. As, un factor clave de xito, e incluso de supervivencia, viene derivado de la capacidad de las
organizaciones de gestionar de forma eficiente sus datos, y transformarlos en informacin til y disponible para
acertar en las decisiones. Esto y solo esto, es Business Intelligence.

Business Intelligence no es tecnologa, es negocio y es estrategia. implica muchas cosas, pasando por la vocacin de
medir para actuar en consecuencia, gran problema pendiente en las organizaciones

UDEAP
Julio Cesar Zamorano Garca 8 Semestre