Вы находитесь на странице: 1из 10

Big data, macrodatos, datos masivos o datos a gran escala es un

concepto que hace referencia a conjuntos de datos tan grandes que


aplicaciones informtica tradicionales del procesamiento de datos no son
suficientes para tratar con ellos y a los procedimientos usados para encontrar
patrones repetitivos dentro de esos datos. En los textos cientficos en espaol
con frecuencia se usa directamente el trmino en ingls big data, tal como
aparece en el ensayo de Viktor Schnberger big data: La revolucin de los
datos masivos.[

Existen muchsimas herramientas para tratar con big data. Ejemplos incluyen Hadoop,
NoSQL, Cassandra, Inteligencia empresarial, Aprendizaje automtico y MapReduce. Estas
herramientas tratan con algunos de los tres tipos de Big Data:17

Datos estructurados: Datos que tienen bien definidos su longitud y su formato,


como las fechas, los nmeros o las cadenas de caracteres. Se almacenan en tablas.
Un ejemplo son las bases de datos relacionales y las hojas de clculo.

Datos no estructurados: Datos en el formato tal y como fueron recolectados,


carecen de un formato especfico. No se pueden almacenar dentro de una tabla ya
que no se puede desgranar su informacin a tipos bsicos de datos. Algunos
ejemplos son los PDF, documentos multimedia, e-mails o documentos de texto.

Datos semiestructurados: Datos que no se limitan a campos determinados, pero


que contiene marcadores para separar los diferentes elementos. Es una informacin
poco regular como para ser gestionada de una forma estndar. Estos datos poseen
sus propios metadatos semiestructurados18 que describen los objetos y las relaciones
entre ellos, y pueden acabar siendo aceptados por convencin. Un ejemplo es el
HTML, el XML o el JSON.

Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar


y depurar informacin de una o ms fuentes distintas, para luego procesarla
permitiendo su anlisis desde infinidad de pespectivas y con grandes velocidades de
respuesta. La creacin de un datawarehouse representa en la mayora de las ocasiones
el primer paso, desde el punto de vista tcnico, para implantar una solucin completa y
fiable de Business Intelligence.

La ventaja principal de este tipo de bases de datos radica en las estructuras en las que
se almacena la informacin (modelos de tablas en estrella, en copo de nieve, cubos
relacionales... etc). Este tipo de persistencia de la informacin es homognea y fiable,
y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un
entorno diferente a los sistemas operacionales).
un datawarehouse se caracteriza por ser:

Integrado: los datos almacenados en el datawarehouse deben integrarse en


una estructura consistente, por lo que las inconsistencias existentes entre los
diversos sistemas operacionales deben ser eliminadas. La informacin suele
estructurarse tambin en distintos niveles de detalle para adecuarse a las
distintas necesidades de los usuarios.

Temtico: slo los datos necesarios para el proceso de generacin del


conocimiento del negocio se integran desde el entorno operacional. Los datos se
organizan por temas para facilitar su acceso y entendimiento por parte de los
usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser
consolidados en una nica tabla del datawarehouse. De esta forma, las
peticiones de informacin sobre clientes sern ms fciles de responder dado
que toda la informacin reside en el mismo lugar.

Histrico: el tiempo es parte implcita de la informacin contenida en un


datawarehouse. En los sistemas operacionales, los datos siempre reflejan el
estado de la actividad del negocio en el momento presente. Por el contrario, la
informacin almacenada en el datawarehouse sirve, entre otras cosas, para
realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los
distintos valores que toma una variable en el tiempo para permitir
comparaciones.

No voltil: el almacn de informacin de un datawarehouse existe para ser


ledo, pero no modificado. La informacin es por tanto permanente, significando
la actualizacin del datawarehouse la incorporacin de los ltimos valores que
tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre
lo que ya exista.

Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre
los datos. Los metadatos permiten saber la procedencia de la informacin, su
periodicidad de refresco, su fiabilidad, forma de clculo... etc.

Los metadatos sern los que permiten simplificar y automatizar la obtencin de la


informacin desde los sistemas operacionales a los sistemas informacionales.

Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido,
son:
Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su
propio lenguaje de negocio, indicando qu informacin hay y qu significado
tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas
de Business Intelligence como DSS, EIS o CMI.

Dar soporte a los responsables tcnicos del datawarehouse en aspectos


de auditora, gestin de la informacin histrica, administracin del
datawarehouse, elaboracin de programas de extraccin de la informacin,
especificacin de las interfaces para la realimentacin a los sistemas
operacionales de los resultados obtenidos... etc.

Por ltimo, destacar que para comprender ntegramente el concepto de


datawarehouse, es importante entender cual es el proceso de construccin del mismo,
denominado ETL (Extraccin, Transformacin y Carga), a partir de los sistemas
operaciones de una compaa:

Extraccin: obtencin de informacin de las distintas fuentes tanto internas


como externas.

Transformacin: filtrado, limpieza, depuracin, homogeneizacin y agrupacin


de la informacin.

Carga: organizacin y actualizacin de los datos y los metadatos en la base de


datos.

Una de las claves del xito en la construccin de un datawarehouse es el desarrollo de


forma gradual, seleccionando a un departamento usuario como piloto y expandiendo
progresivamente el almacn de datos a los dems usuarios. Por ello es importante
elegir este usuario inicial o piloto, siendo importante que sea un departamento con
pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se
puedan obtener y medir resultados a corto plazo.

Principales aportaciones de un datawarehouse

Proporciona una herramienta para la toma de decisiones en cualquier rea


funcional, basndose en informacin integrada y global del negocio.

Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para


encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor
aadido para el negocio de dicha informacin.
Proporciona la capacidad de aprender de los datos del pasado y de predecir
situaciones futuras en diversos escenarios.

Simplifica dentro de la empresa la implantacin de sistemas de gestin integral


de la relacin con el cliente.

Supone una optimizacin tecnolgica y econmica en entornos de Centro de


Informacin, estadstica o de generacin de informes con retornos de la inversin
espectaculares.

Si no est familiarizado con el concepto de datawarehouse, puede resultarle til,


adems, examinar las siguientes definiciones:

Datamart

Datamining

Cuadro de Mando Integral

Sistemas de Soporte a la Decisin (DSS)

Sistemas de Informacin Ejecutiva (EIS)

La minera de datos o exploracin de datos (es la etapa de anlisis de "Knowledge


Discovery in Databases" o KDD) es un campo de la estadstica y las ciencias de la
computacin referido al proceso que intenta descubrir patrones en grandes volmenes
de conjuntos de datos.[1] Utiliza los mtodos de la inteligencia artificial, aprendizaje
automtico, estadstica y sistemas de bases de datos. El objetivo general del proceso
de minera de datos consiste en extraer informacin de un conjunto de datos y
transformarla en una estructura comprensible para su uso posterior. Adems de la
etapa de anlisis en bruto, que involucra aspectos de bases de datos y de gestin de
datos, de procesamiento de datos, del modelo y de las consideraciones de inferencia,
de mtricas de Intereses, de consideraciones de la Teora de la complejidad
computacional, de post-procesamiento de las estructuras descubiertas, de la
visualizacin y de la actualizacin en lnea.

Un proceso tpico de minera de datos consta de los siguientes pasos generales:


1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables objetivo
(aquellas que se quiere predecir, calcular o inferir), como a las variables
independientes (las que sirven para hacer el clculo o proceso), como posiblemente
al muestreo de los registros disponibles.

2. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas


de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos).

3. Transformacin del conjunto de datos de entrada, se realizar de diversas formas


en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica
de minera de datos que mejor se adapte a los datos y al problema, a este paso
tambin se le conoce como preprocesamiento de los datos.

4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo


predictivo, de clasificacin o segmentacin.

5. Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene


un modelo de conocimiento, que representa patrones de comportamiento observados
en los valores de las variables del problema o relaciones de asociacin entre dichas
variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos
modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de
los datos.

6. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe


proceder a su validacin comprobando que las conclusiones que arroja son vlidas y
suficientemente satisfactorias. En el caso de haber obtenido varios modelos
mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de
aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los
resultados esperados, debe alterarse alguno de los pasos anteriores para generar
nuevos modelos.

La interoperabilidad es la capacidad que tiene un producto o un sistema, cuyas interfaces son


totalmente conocidas, para funcionar con otros productos o sistemas existentes o futuros y eso sin
restriccin de acceso o de implementacin.
Software como un Servicio, abreviadamente ScuS (del ingls: Software as a
Service, SaaS), es un modelo de distribucin de software donde el soporte lgico y
los datos que maneja se alojan en servidores de una compaa de tecnologas de
informacin y comunicacin (TIC), a los que se accede va Internet desde un cliente.
La empresa proveedora TIC se ocupa del servicio de mantenimiento, de la operacin
diaria y del soporte del software usado por el cliente. Regularmente el software puede
ser consultado en cualquier computador, se encuentre presente en la empresa o no. Se
deduce que la informacin, el procesamiento, los insumos, y los resultados de la lgica
de negocio del software, estn hospedados en la compaa de TIC.
Caractersticas[editar]
Las caractersticas del software como servicio incluyen:

Acceso y administracin a travs de una red.

Actividades gestionadas desde ubicaciones centrales, en lugar de la


sede de cada cliente, permitindoles tener acceso remoto a las
aplicaciones a travs de la web.

La distribucin de la aplicacin es ms cercana al modelo uno a muchos


(una instancia con mltiples usuarios) que al modelo uno a uno,
incluyendo arquitectura, precios, colaboracin, y administracin.

Actualizaciones centralizadas, lo cual elimina la necesidad de descargar


parches por parte de los usuarios finales.

Frecuente integracin con una red mayor de software de comunicacin,


bien como parte de un mashup o como un enlace para una plataforma
como servicio.

Ventajas[editar]

No es necesario que el cliente cuente con un rea especializada de


soporte para el sistema, por lo que se reducen sus costes y riesgo de
inversin.

La responsabilidad de la operacin recae en la empresa IT. Esto significa


que la garanta de disponibilidad de la aplicacin y su correcta
funcionalidad, es parte del servicio que da la compaa proveedora del
software.

La empresa IT no desatiende al cliente. El servicio y atencin continua


del proveedor al cliente es necesaria para que este ltimo siga pagando
el servicio.

La empresa IT provee los medios seguros de acceso en los entornos de


la aplicacin. Si una empresa IT quiere dar SaaS en su cartera de
productos, debe ofrecer accesos seguros para que no se infiltren datos
privados en la red pblica.

No es necesaria la compra de una licencia para utilizar el software, sino


el pago de un alquiler o renta por el uso del software. Aunque tambin
se dan casos particulares donde el servicio es totalmente gratuito, como
por ejemplo en el servicio de blogs que brindan diferentes compaas:
Wordpress, Blogger, etc; es decir, se cuenta con el servicio, se puede
acceder libremente, se garantiza usabilidad y actualidad, pero no se
paga por el servicio.
Se le permite al cliente completa flexibilidad en el uso de los sistemas
operativos de su preferencia, o al cual pueda tener acceso.

El monitoreo como servicio (MaaS) es uno de los muchos modelos de entrega en la


nube bajo cualquier cosa como un servicio (XaaS). Es un marco que facilita el
despliegue de funcionalidades de monitoreo para varios otros servicios y aplicaciones
dentro de la nube. La aplicacin ms comn para MaaS es el monitoreo en lnea del
estado, el cual sigue continuamente ciertos estados de aplicaciones, redes, sistemas,
instancias o cualquier elemento que pueda desplegarse dentro de la nube

Infrastructure as a Service (Iaas): En espaol Infraestructura como Servicio. Modelo


de distribucin de infraestructura de computacin como un servicio, normalmente
mediante una plataforma de virtualizacin. En vez de adquirir servidores, espacio en un
centro de datos o equipamiento de redes, los clientes compran todos estos recursos a
un proveedor de servicios externo. Una diferencia fundamental con el hosting virtual es
que el provisionamiento de estos servicios se hacen de manera integral a travs de la
web. Ejemplos: Amazon Web Services EC2 y GoGrid.

CaaS Container as a Service

CaaS, acrnimo de Container as a Service, es uno de los conceptos ms modernos, y


frecuentes, de computacin en la nube. CaaS se encuentra en un punto intermedio entre el
IaaS y el PaaS. CaaS es un nuevo concepto por el cual podemos disponer de contenedores
a demanda. Por ello, con el CaaS podemos cumplir con las necesidades del IaaS (ya que
no necesitamos un hardware virtualizado) y nos acercamos tambin al PaaS, ya que los
contenedores se utilizan para implementar el producto final.

XaaS es un trmino colectivo que representa varias cosas, incluyendo X como servicio,
nada como servicio o todo como servicio. El acrnimo se refiere a cualquiera de los
elementos de un nmero cada vez mayor de servicios prestados a travs de internet que han
sido tradicionalmente proporcionados localmente.

Puede ser almacenamiento como servicio, comunicaciones unificadas como servicio


(UCaaS), identidad como servicio (IDaaS), monitorizacin como servicio (MaaS) y
cualquier cosa como servicio.

DaaS tiene una arquitectura multi-tenencia y el servicio es adquirido por suscripcin. En el


modelo de entrega DaaS, el proveedor de servicio administra las responsabilidades de back-end
del almacenamiento de datos, las copias de seguridad, la seguridad y las actualizaciones.
Normalmente, los datos personales del cliente se copian desde y hacia el escritorio virtual
durante el inicio/cierre de sesin, y el acceso al escritorio es independiente del dispositivo, la
ubicacin y la red. Mientras que el proveedor se encarga de todos los costos y el mantenimiento
de la infraestructura de back-end, los clientes por lo general manejan sus propias imgenes de
escritorio, aplicaciones y seguridad, a menos que esos servicios de gestin de escritorio sean
parte de la suscripcin.

Escritorio como servicio es una buena alternativa para una pequea o mediana empresa (PyME)
que desee ofrecer a sus usuarios finales las ventajas de que ofrece una infraestructura de
escritorio virtual, pero que encuentre que la implementacin de un VDI interno es un costo
prohibitivo en trminos de presupuesto y dotacin de personal.

Nube pblica, hbrida o privada


Las nubes pblicas, los servicios que ofrecen se encuentran en servidores externos al usuario, pudiendo
tener acceso a las aplicaciones de forma gratuita o de pago.se manejan por terceras partes, y los trabajos
de muchos clientes diferentes pueden estar mezclados en los servidores, los sistemas de almacenamiento y
otras infraestructuras de la nube. Los usuarios finales no conocen qu trabajos de otros clientes pueden
estar corriendo en el mismo servidor, red, discos como los suyos propios. La ventaja ms clara de las
nubes pblicas es la capacidad de procesamiento y almacenamiento sin instalar mquinas localmente, por
lo que no tiene una inversin inicial o gasto de mantenimiento en este sentido, si no que se paga por el
uso. La carga operacional y la seguridad de los datos (backup, accesibilidad, etc.) recae ntegramente
sobre el proveedor del hardware y software, debido a ello, el riesgo por la adopcin de una nueva
tecnologa es bastante bajo. El retorno de la inversin se hace rpido y ms predecible con este tipo de
nubes. A veces puede resultar difcil integrar estos servicios con otros sistemas propios.

Las nubes privadas, las plataformas se encuentran dentro de las instalaciones del usuario de la misma y
no suele ofrecer servicios a terceros. Son una buena opcin para las compaas que necesitan alta
proteccin de datos y ediciones a nivel de servicio. Como ventaja de este tipo de nubes, al contrario que
las pblicas, es la localizacin de los datos dentro de la propia empresa, lo que conlleva a una mayor
seguridad de estos, corriendo a cargo del sistema de informacin que se utilice. Incluso ser ms fcil
integrar estos servicios con otros sistemas propios. Las nubes privadas estn en una infraestructura local
manejada por un solo cliente que controla qu aplicaciones debe correr y dnde. Son propietarios del
servidor, red, y disco y pueden decidir qu usuarios estn autorizados a utilizar la infraestructura. Sin
embargo, como inconveniente se encuentra la inversin inicial en infraestructura fsica, sistemas de
virtualizacin, ancho de banda y seguridad, lo que llevar a su vez a prdida de escalabilidad y
desescabilidad de las plataformas, sin olvidar el gasto de mantenimiento que requiere. Esta alta inversin
supondr un retorno ms lento de la inversin.
Las nubes hbridas combinan los modelos de nubes pblicas y privadas. Esto permite a una empresa
mantener el control de sus principales aplicaciones, al tiempo de aprovechar el Cloud Computing en los
lugares donde tenga sentido. Usted es propietario de unas partes y comparte otras, aunque de una manera
controlada. Las nubes hbridas ofrecen la promesa del escalado aprovisionada externamente, en-demanda,
pero aaden la complejidad de determinar cmo distribuir las aplicaciones a travs de estos ambientes
diferentes. Una nube hbrida tiene la ventaja de una inversin inicial ms moderada y a la vez contar con
SaaS, PaaS o IaaS bajo demanda. En el momento necesario, utilizando las APIs de las distintas
plataformas pblicas existentes, se tiene la posibilidad de escalar la plataforma todo lo que se quiera sin
invertir en infraestructura. Este tipo de nubes est teniendo buena aceptacin en las empresas de cara a un
futuro prximo, ya que se estn desarrollando softwares de gestin de nubes para poder gestionar la nube
privada y a su vez adquirir recursos en los grandes proveedores pblicos.

Оценить