Вы находитесь на странице: 1из 65

El gran

cuaderno
del Big Data
Una gua prctica para
emprender su primer
proyecto de Big Data.
ndice
Introduccin 3
ParteC. Su eficaz cadena
ParteA. Preparacin desuministro de datos 36
4

Informacin imprescindible 5 Su equipo 37


Motivos por los que casi todas las empresas Cinco lecciones bsicas para formar equipos 38
implementan proyectos de Big Data 6 Establecimiento de la gobernanza de datos 42
Motivos por los que fracasan algunos proyectos Competencias que necesita y competencias
deBig Data 7 queposee 45
Consejos para conseguir que su proyecto
deBigData funcione 10 Sus herramientas 47
Examen de las herramientas del Big Data 48
Seleccin del proyecto adecuado 12
Aspecto del proyecto adecuado 13 Sus procesos 52
Consideracin de las repercusiones 15 Los ocho pasos del Big Data 53
Proyectos tcticos de Big Data: algunos ejemplos 17
Transicin bsica al Big Data 19 Su arquitectura 56
Primeros pasos: zona de pruebas 57
ParteB. Su estrategia 23 Arquitectura idnea del Big Data 59

Definicin de sus objetivos 24 Plan de su proyecto 60


Objetivos de negocio 25 Plan de su proyecto 61
Objetivos deTI 27
En marcha 63
Definicin de sus necesidades de datos 29
Datos necesarios 30 Siguientes pasos 64
Cinco consideraciones clave en torno a los datos 33
Acerca de Informatica 65
Nota: haga clic para ir directamente a la seccin
oportuna.

2 | Informatica: El gran cuaderno del Big Data


Algo Pocas tendencias tecnolgicas han
logrado la fama que ha alcanzado
a que este reciente y desafiante
mundo de datos infinitos sigue siendo

grande
elBig Data. tan nuevo, tanto ruido ha confundido
a mucha gente.
Claro que pocas tendencias Este cuaderno pretende disipar
tecnolgicas han ofrecido a las talconfusin.
empresas tanto potencial de
transformacin. Desde que, a finales Trata sobre la manera de blindar
de siglo, el software empez a suestrategia y ejecutarla con
envolver por completo los procesos pragmatismo. Tanto si empieza una
denegocio, ha estado claro: iniciativa tctica localizada como si
los datos cambian nuestra forma planea una iniciativa de cimentacin
detrabajar. que abarque toda la empresa, este
cuaderno le servir como gua
Cmo no, una gran fama conlleva prctica para la transicin.
unagran decepcin. En el caso del
Big Data, no cabe duda de que hemos Vamos al asunto.
presenciado tanto buenos consejos
como desinformacin repartidos a
partes iguales. Por desgracia, debido

3 | Informatica: El gran cuaderno del Big Data


ParteA.
Preparacin
Hemos dividido el cuaderno en tres partes.
Enesta primera parte, vamos a intentar afinar
suvisin para que escoja el proyecto adecuado.

Volver al ndice <

4 | Informatica: El gran cuaderno del Big Data


Informacin 14

imprescindible 12

Antes de abordar los aspectos concretos 10


de su propio proyecto, presentamos algunas
lecciones que la mayora de los profesionales
del Big Data habra deseado conocer antes
de iniciar sus proyectos. 8

2
Informacin
imprescindible

Motivos por los que casi todas las empresas


implementan proyectos de Big Data
Cuando las empresas Intentan llevar a cabo mejores  uieren realizar sus actividades
Q Aunque todos son buenos
anlisis y se dan cuenta de que, mejor, ms rpido y con menos motivos para interesarse por el
se deciden a abordar para conseguirlo, hace falta una gastos empleando el Big Data Big Data, si desea que sus
el Big Data, suele ser cantidad bastante superior de con el fin de documentar todas proyectos resistan el paso del
por uno de estos datos de anlisis. Por lo general, las decisiones que se toman en tiempo (y el escrutinio de los
motivos. es alguna unidad de negocio relacin con un proceso o una distintos departamentos), ha de
(como marketing) la que unidad de negocio en particular. tener muy claro el motivo que
empieza estas iniciativas. mejor refleja sus intereses.
  dan cuenta de que el Big Data
Se
Se dan cuenta de que pueden es fundamental para todas las
envolver sus productos con una unidades de negocio de la
capa de servicios ofreciendo organizacin, por lo que intentan
anlisis (a menudo, en tiempo establecer las bases para una
real) que ayuden a los clientes visin centrada en los datos
autilizar sus productos con detodo su mundo.
mseficiencia y eficacia.
 aben que deben aprender a
S
manejar el Big Data antes de que
sea demasiado tarde, pero
todava no saben cmo hacerlo.
El objetivo consiste en aprender
yexperimentar.

6 | Informatica: El gran cuaderno del Big Data


Informacin
imprescindible

Motivos por los que fracasan


algunos proyectos de Big Data
1
Segn un estudio , el55% de 1
todos los proyectos de Big Data
no se termina y muchos otros no Objetivos difusos
cumplen sus objetivos. Aunque
este llamativo porcentaje no es El motivo de fracaso que ms se Perseguir el Big Data por el
infrecuente en una fase tan cita en el estudio es el "mbito simple hecho de tener un
temprana de una tendencia de aplicacin impreciso" del proyecto de Big Data es la receta
tecnolgica, sera una insensatez proyecto. Demasiadas empresas para el desastre. La complejidad
pasar por alto la leccin que desarrollan proyectos ambiciosos de estos proyectos exige un
imparten esos proyectos. (y, al mismo tiempo, demasiado compromiso firme con la
ambiguos) que carecen de consecucin de un resultado
Veamos los cuatro motivos objetivos claros, y que luego concreto. Sin unos objetivos
principales por los que fracasan terminan fracasando cuando claros, eso no es posible.
los proyectos de Big Data. llega el momento de tomar
decisiones complicadas sobre
lo que reviste importancia y lo
que no.

1
www.informationweek.com/software/information-management/
vague-goals-seed-big-data-failures/d/
7 | Informatica: El gran cuaderno del Big Data d-id/1108384
Informacin
imprescindible

Motivos por los que fracasan


algunos proyectos de Big Data
2 3

Expectativas equivocadas Aumento de costes y retrasos


delproyecto

Con toda la fama del Big Data, Cuando las expectativas del Si se tiene en cuenta lo En los casos en que se contrata a
hay quien llega a algunas impacto y de la informacin novedosaque es esta disciplina los escasos y bien remunerados
suposiciones muy arriesgadas sondemasiado elevadas, para la empresa, no sorprende desarrolladores de Java para
encuanto a lo que puede acababuscando petrleo en un que casi todos los proyectos de Hadoop, a quienes se les
ofrecerel proyecto. Aunque mar deterabytes de incgnitas. Big Data terminen costando o encomiendan titnicas
resulte tentador hacer promesas Silasexpectativas de la oferta tardando ms de lo previsto. implementaciones de
valientes para plazos breves, no son realistas, se encontrar Ellose suele deber a una codificacin manual, las
esimportante mantener una intentando cumplir plazos y mezclade expectativas irreales empresas no tardan en asumir
visin realista de lo que cabe presupuestos nada razonables. eincomprensin del que resulta imposible salir del
esperar del proyecto, el tiempo procedimiento para crear entorno de pruebas sin ningn
que va a necesitar y la cantidad unaarquitectura escalable. error. La consecuencia es que los
de esfuerzos que requiere. proyectos de Big Data terminan
como un experimento cientfico
que languidece en el laboratorio
y nunca llega a ver la luz.

8 | Informatica: El gran cuaderno del Big Data


Informacin
imprescindible

Motivos por los que fracasan


algunos proyectos de Big Data
4

Incapacidad de escalar

Si ya cuesta bastante trabajo Con demasiada frecuencia, Las cuatro causas del fracaso
encontrar cinco desarrolladores lasempresas se fijan ms en la delBig Data son preocupantes
buenos de Java para Hadoop, conveniencia a corto plazo que ydemasiado habituales.
en el momento en que los en la sostenibilidad a largo Acontinuacin, veremos cmo
proyectos aumentan de tamao plazo. Aunque no tendra sentido puede evitarlas y crear una
yhacen falta 30desarrolladores sugerir que se evite siempre esa implementacin duradera.
de Java en un mismo ao, el contrapartida, nunca nos
atasco puede ser monumental. cansaremos de insistir en la
Lopeor no es la oportunidad importancia de la visin a largo
perdida por no utilizar clsteres plazo. Para que los datos
Hadoop, sino la prdida de cuenten con la proteccin y la
tiempo y de empuje. gestin apropiadas, es
imprescindible supervisar las
implicaciones a largo plazo del
proyecto.

9 | Informatica: El gran cuaderno del Big Data


Informacin
imprescindible

Consejos para conseguir que su


proyecto de Big Data funcione
En vista de que la mayora de los 1 Sin un enfoque claro ni un valor An ms importante: sabrn a
proyectos de Big Data fracasa demostrable ante los usuarios de qu aspira a largo plazo.
por la falta de claridad y la Marque objetivos claros y negocio, el proyecto est Plantese el modo de cuantificar
incapacidad para demostrar la contenga las expectativas abocado al fracaso. la repercusin del proyecto en el
utilidad de la iniciativa, debe contexto de sus objetivos.
asumir la tarea de aportar al Si no sabe con certeza qu
2
proyecto el enfoque y las propsito debe fijar para el Es crucial porque habr
pruebas pertinentes. Siga estos proyecto, plantee los objetivos Defina las mtricas que concesiones a corto plazo que
tres tiles consejos para marcados para la infraestructura demuestran el valor del tendr que racionalizar ante los
asegurarse de que el proyecto de datos existente. proyecto usuarios de negocio, y los
inicia y contina su andadura. objetivos cuantificables sirven
Si su organizacin ya necesita Si las mtricas estn definidas para demostrar que les ofrece
datos para determinados con claridad y se ajustan a sus ms valor del que perciben.
procesos de negocio (como objetivos, se ahorra muchos
deteccin de fraudes o anlisis problemas. Al fijarse metas
de mercado), reflexione sobre la realistas y susceptibles de
manera en que el Big Data cuantificacin, todos a su
podra mejorar esos procesos o alrededor percibirn sus
dotarlos de mayor valor. En lugar progresos.
de afrontar un problema
completamente nuevo, solo
debera mejorar un proyecto o
un proceso existente.

10 | Informatica: El gran cuaderno del Big Data


Informacin
imprescindible

Consejos para conseguir que su


proyecto de Big Data funcione
3
Adopte una estrategia en cuanto
a las herramientas y la
codificacin manual

Evite la tentacin de codificar Ms importante si cabe es evitar y reserve para sus superestrellas
todo de forma manual y la trampa de malgastar el escaso de Java el trabajo en la lgica
directamente en Hadoop. y costoso talento en el desarrollo especfica, para la cual no hay
Recuerde que el objetivo no es de Java en aspectos que se herramientas disponibles.
crear de la nada y con sus pueden delegar en otros
propias manos una empleados. Su funcin consiste Adems, dado que las
implementacin que funcione, en tomar decisiones estratgicas tecnologas como Hadoop
sino suministrar el valor del Big sobre la implantacin de evolucionan da a da, vale la
Data a su organizacin. recursos limitados de tal manera pena perfilar una capa de
que se alcancen los objetivos. abstraccin que sirva como
En lugar de realizar la codificacin proteccin ante los constantes
manual de todas las integraciones, Decntese por herramientas que cambios en las especificaciones
limpiar todos los conjuntos de datos aumenten la productividad del de las tecnologas subyacentes.
y, luego, realizar la codificacin equipo de desarrollo
manual de todos los anlisis, aprovechando las competencias Ante todo, recuerde que las
busque herramientas y mtodos de y los conocimientos de sus competencias que necesita
automatizacin con los que actuales expertos en ETL, calidad escasean, pero siempre hay
acelerar estos procesos. de datos y business intelligence, herramientas disponibles.

11 | Informatica: El gran cuaderno del Big Data


Seleccin
del proyecto
adecuado
En vista de los retos que deber afrontar,
veamos, a continuacin, cmo debe proceder
para elegir el proyecto apropiado para su
organizacin.
Seleccin del
proyecto adecuado

Aspecto del proyecto


adecuado
Si la organizacin tiene sed de 1 2
cambios y ya ha aceptado la
necesidad de contar con una Valor demostrable Apoyo
estructura completa de
gobernanza de datos para El proyecto adecuado es aquel Los ejecutivos que respaldan su Por eso, si se ve capaz de crear
mejorar los mtodos de trabajo, en que el valor se reparte a visin son esenciales para lograr anlisis fantsticos para
es probable que se pueda saltar partes iguales entreTI y la el xito del proyecto. En los logstica, pero tiene su nico
esta seccin. unidad de negocio a la que proyectos de Big Data, hace falta respaldo ejecutivo en marketing,
pretende ayudar. Eso implica tener apoyos e intercesores en la cambie el planteamiento.
Ahora bien, si va a plantear un proporcionar un valor claro a un cpula que estn dispuestos a Sicuenta con el apoyo de
proyecto tctico localizado que departamento, una unidad de defender el trabajo que lleva a marketing, dirija su creacin a
se pueda adaptar con el tiempo negocio o un grupo, de tal forma cabo. cumplir los requisitos de anlisis
a toda la empresa, siga leyendo. que lo perciba. de marketing. El cambio no se
puede forzar. Confrmese con la
El proyecto adecuado posee las influencia y squele el mximo
cuatro caractersticas siguientes. partido.

13 | Informatica: El gran cuaderno del Big Data


Seleccin del
proyecto adecuado

Aspecto del proyecto


adecuado
3 4

Efecto domin Competencias trasladables

El primer proyecto tctico tiene Una vez que demuestre el valor Como sealbamos en el ltimo As pues, prepare condiciones
una importancia estratgica vital. del Big Data al departamento de punto, el valor del primer de escalabilidad para poder
Aparte de demostrar ms all de marketing, por ejemplo, resultar proyecto le sirve para convencer ocuparse de ms proyectos en el
toda duda razonable que el Big ms sencillo recabar apoyos a otros departamentos de la futuro. No se trata solo de
Data resulta til para la unidad entre los equipos de logstica, empresa. Con ese fin, debe escalar el clster. Se trata de
de negocio en cuestin, debe loscuales se habran mostrado aprender las competencias, las escalar las competencias y las
asegurarse, asimismo, de que su reticentes en otro caso. capacidades y las lecciones operaciones. O bien tiene que
valor se comunica despus con apropiadas con el primer descubrir ms superestrellas de
facilidad al resto de la empresa. proyecto. Con ms exactitud, Java para Hadoop o bien halla
tiene que documentarlas de la manera de sacar ms partido
Por ello, a la hora de escoger el manera que pueda trasladarlas a los recursos de los que ya
primer proyecto, tenga en cuenta al siguiente proyecto. Recuerde dispone.
la estrategia. que, si pretende lograr el xito,
debe mirar a los proyectos
futuros.

14 | Informatica: El gran cuaderno del Big Data


Seleccin del
proyecto adecuado

Consideracin de
lasrepercusiones
A la hora de elegir el prximo 1
proyecto, tambin debe tener en
consideracin cmo va a Coste y trastorno
repercutir en su organizacin.
Hay tres aspectos generales En trminos muy bsicos, el coste En otras ocasiones, guarda ms
fundamentales para convencerse del proyecto depende del tiempo relacin con las competencias y
de que persigue el proyecto de y del dinero necesarios para las tecnologas, por ejemplo,
Big Data adecuado. ponerlo en funcionamiento. A la cuando es preciso integrar
hora de la verdad, tambin hay tecnologas nuevas en la
que sopesar la perturbacin que infraestructura existente y
puede provocar. reorganizar o actualizar las
competencias para hacerlo.
En ocasiones, solo se trastornan
los procedimientos: las unidades En cualquier caso, debe prever
de negocio acostumbradas a ser los posibles trastornos,
propietarias de sus datos no se reconocerlos y asegurarse de
sienten cmodas al ceder el minimizarlos o de comunicar su
control a una estructura vala.
centralizada de gobernanza de
datos.

15 | Informatica: El gran cuaderno del Big Data


Seleccin del
proyecto adecuado

Consideracin de
lasrepercusiones
2 3

Cadencia de beneficios y Recursos y restricciones


repercusiones

Al estudiar varios proyectos Ms importante an: cundo Teniendo en cuenta el anlisis de La consecucin de ese objetivo
iniciales, es natural decantarse notarn los usuarios de negocio los dos factores anteriores, opera en ambos sentidos. Por un
por los que ofrecen ms mejoras dicho impacto? Por ejemplo, si piense en los recursos que hay a lado, pretende conseguir la
y el mximo efecto para el introduce la gestin de datos su disposicin. Trataremos este mxima repercusin en el
negocio. No obstante, tambin maestros en el data warehouse, tema a fondo ms adelante pero, negocio pero, por otro, debe
es relevante abundar en la mejorar de forma drstica la de momento, tenga en cuenta trazar una estrategia de
naturaleza del impacto en el eficiencia de su business que, como es natural, su inversin del presupuesto.
negocio: se apreciar la mayor intelligence, pero los analistas de intencin con el proyecto es Aunque le seduzca la idea de
parte del valor a corto o a largo negocio solo percibirn ese valor esquilmar cada euro invertido. formar un equipo de
plazo? cuando se den cuenta de que no especialistas en datos
tendrn que volver a limpiar comparable al de Google,
datos financieros nunca ms. acaso se lo puede permitir?
Tomar decisiones inteligentes en
lo referente a herramientas y
personal es esencial para lograr
el xito del proyecto.

16 | Informatica: El gran cuaderno del Big Data


Seleccin del
proyecto adecuado

Proyectos tcticos de Big Data:


algunos ejemplos
El Big Data posee una amplia
Finanzas Distribucin Multimedia
variedad de aplicaciones.
Aunque parezca fascinante,
A nlisis de los Interaccin activa Seguimiento de
tambin suena un poco
riesgos y de la con los clientes comportamientos
abrumador para quienes no
oferta Servicios basados en los juegos
tienen claro con qu proyecto
Recomendaciones en la ubicacin Opciones de
arrancar. Esta es una lista de los
de inversin cross-sell y up-sell
proyectos tcticos de Big Data
que han emprendido nuestros
clientes.
Fabricacin Atencin sanitaria Sector pblico
Si an no sabe por qu proyecto
debera empezar su
Programas Predicciones de Cobertura
organizacin, fjese en los
conectados a los diagnstico de sanitaria
ejemplos siguientes para hacerse
vehculos pacientes Mercados de
una idea ms ajustada de lo que
Mantenimiento Coste total de valores
el Big Data ofrece a su empresa.
predictivo atencin sanitaria Optimizacin
Desarrollo de fiscal
frmacos Deteccin de
fraudes

17 | Informatica: El gran cuaderno del Big Data


Seleccin del
proyecto adecuado

Proyectos tcticos de Big Data:


algunos ejemplos
Qu buscaban algunos de U
 na gran empresa tecnolgica U
 n fabricante que trabaja con
nuestros clientes de Silicon Valley pretende locomotoras tiene la intencin
ahorrar ms de diez millones de conseguir un aumento de
Fjese en la especificidad con de dlares estadounidenses en 1,6km a la hora en las rutas
que describen algunos de el cada vez mayor coste del diarias para que sus clientes se
nuestros clientes sus iniciativas. data warehouse gracias a una ahorren hasta 200millones de
Esa es la clase de enfoque por combinacin de Hadoop y dlares estadounidenses al ao.
elque le conviene apostar. tecnologa de data warehouse
tradicional que permite reducir U
 na empresa mundial de
el incremento en el coste total servicios de pago quiere
por terabyte. aumentar en un30% su
negocio digital fomentando la
U
 n gran fabricante de medios personalizacin segn el
de transporte desea rebajar en cliente como parte de una
un1% el consumo de estrategia de Big Data
combustible de sus vehculos denominada "optimizacin del
en los 10prximos aos. omnicanal de distribucin".
Tambin pretende reducir las
txicas emisiones de dixido Todos estos casos constituyen
de carbono ampliando en logros excepcionales para
un10% los perodos de cualquier equipo de Big Data.
mantenimiento y mejorando en
un1% el kilometraje.

18 | Informatica: El gran cuaderno del Big Data


Seleccin del
proyecto adecuado

Transicin bsica al Big Data

Si tiene todo listo para sentar las 1


bases del enfoque de Big Data
para toda la empresa, los tres Optimizacin del data
pasos siguientes van a resultar warehouse
esenciales en la transicin.
Esto implica almacenar y La finalidad es evitar costosas
Incluso si tiene como objetivo procesar los datos en la actualizaciones del data
unos cuantos proyectos tcticos plataforma ms rentable. warehouse y comenzar a utilizar
de Big Data, debera seguir estos Amenudo, se empieza por sacar hardware ms barato y
tres pasos. Cada uno de ellos es las cargas de trabajo de ETL y los estructuras informticas
crucial para la integridad datos sin procesar o con poco distribuidas como Hadoop para
fundacional de la organizacin uso del hardware de data estar preparados para manejar
centrada en los datos. De hecho, warehouse caro. el volumen, la diversidad y la
para conseguir el mximo velocidad del Big Data.
provecho, es conveniente
seguirlos por orden.

19 | Informatica: El gran cuaderno del Big Data


Seleccin del
proyecto adecuado

Transicin bsica al Big Data

2 3

Lago de datos gestionado Inteligencia operativa


en tiempo real

Un lago de datos gestionado es Para ello, es preciso crear un Tiene que crear las tecnologas a quienes tienen ms
un lugar nico para gestionar lago de datos para perfeccionar, (anlisis, aplicaciones de gran probabilidades de descartar la
elsuministro y la demanda de gobernar y controlar los datos. capacidad o interfaces de empresa en las dos semanas
todos los datos. En este caso, el Sin embargo, hace falta mucha interaccin) que necesita su siguientes.
trmino operativo es "gestionar". previsin para conseguirlo pues personal para acceder a todos
El objetivo consiste en es imprescindible incorporar esos datos, analizarlos y
transformar el caos repartido en procesos y polticas de suministrarlos. Las aplicaciones
varias estructuras en informacin gobernanza de datos que cree han de ser fciles de
segura, fiable y especfica. estratgicos y rigurosos. Si no se usar y deben proporcionar la
implantan, el lago corre el riesgo informacin que necesitan los
de convertirse, ni ms ni menos, usuarios.
en una cinaga de datos.
Se puede tratar, por ejemplo,
dela interfaz con la que los
representantes del servicio de
atencin al cliente supervisan el
comportamiento de los clientes
en distintos canales e identifican

20 | Informatica: El gran cuaderno del Big Data


Seleccin del
proyecto adecuado

Transicin en tres pasos

Como ya hemos dicho, para


conseguir el mximo provecho,
recomendamos seguir estos
pasos por orden.

Optimizacin del data warehouse Lago de datos gestionado Anlisis en tiempo real

Rebaje el coste de su Cree un lugar nico para Ofrezca aplicaciones


infraestructura y apuntale la gestionar el suministro y la vanguardistas que
arquitectura de la empresa. demanda de datos. proporcionen la informacin
que necesita su personal.

21 | Informatica: El gran cuaderno del Big Data


Seleccin del
proyecto adecuado

Transicin bsica al Big Data


Cmo definen nuestros clientes
sus objetivos fundamentales

Incluso los proyectos de base U


 na multinacional que realiza U
 na organizacin mundial de
deben indicar de forma cientos de millones de asesora financiera ha creado
especfica qu pretenden transacciones financieras en una infraestructura lgica de
conseguir. Si bien en este caso la centenares de pases ha data warehouse con el fin de
especificidad no guarda relacin creado un hub de datos que garantizar que haya
con el dinero ni con el tiempo abarca toda la empresa. El informacin coherente a
ahorrados, s se aplica a los objetivo consiste en llevar a disposicin en todas las
lmites de lo que se crea cabo anlisis de Big Data e plataformas estndar (entre
exactamente. Fjese en los identificar los macropatrones y otras, Hadoop, bases de datos
ejemplos siguientes de proyectos las macrotendencias claves en operativas y data warehouses
de infraestructura de Big Data de la interaccin con los clientes. tradicionales) que se utilizan
nuestros clientes. en ella.
U
 na gran empresa tecnolgica
ha creado un cloud de anlisis En resumen, el Big Data tiene
que abarca toda la empresa grandes repercusiones, pero
para agilizar el plazo de exige unas bases adecuadas.
comercializacin de los
productos basados en datos,
incluyendo los conjuntos de
datos nuevos en los anlisis
que realizan todas las
unidades de negocio.

22 | Informatica: El gran cuaderno del Big Data


ParteB.
Su estrategia
A continuacin, seremos prcticos y nos
fijaremos en los requisitos especficos de
suprximo (oprimer) proyecto de Big Data.

Volver al ndice <

23 | Informatica: El gran cuaderno del Big Data


598 m.
55 mph.

Definicin de
276 m.
70 mph.

sus objetivos
101 m.
75 mph.

Coja lpiz y papel. Como ya hemos sealado,


la principal causa del fracaso de los proyectos
de Big Data es la falta de objetivos claros.
Vamos a asegurarnos de que el proyecto que
tiene en mente no se pierda en ambigedades.

501 m.
69 mph.

411 m.
67 mph.

136 m.
72 mph.
Definicin de sus
objetivos

Objetivos de negocio

Empezaremos por el Los objetivos que se planteen Cuanto ms claros sean los
conseguir para el negocio con el objetivos, ms cerca estar de
negocio porque, para proyecto deben ser lo ms alcanzarlos. Cinco objetivos muy
que el proyecto reciba especficos posibles. Recuerde restringidos valen ms que uno
una buena acogida, sus definir objetivos cuyos efectos se general.
objetivos han de tener puedan cuantificar.

prioridad sobre los Por ejemplo, en el proyecto de la


deTI. interfaz del servicio de atencin
al cliente que permite predecir la
rotacin de clientes, no se deben
enumerar objetivos tan
imprecisos como "mejorar la
experiencia del cliente".

25 | Informatica: El gran cuaderno del Big Data


Definicin de sus
objetivos

Objetivos de negocio Cunto tiempo debe llevar


el proyecto de Big Data?

El proyecto de Big Data debe


Enumere, por orden de importancia, los objetivos Anote los plazos mnimo y mximo en que tardar tanto tiempo como sea
necesario para desplegar todo su
de su proyecto de Big Data que guarden relacin se debe alcanzar cada objetivo. valor. En nuestra experiencia, el
con el negocio y los usuarios de negocio. (Indique Ejemplo: De tres a seis meses. mbito de aplicacin del proyecto
tantos o tan pocos objetivos como desee). dicta el plazo.

Ejemplo: Reducir la rotacin de clientes. Hemos colaborado con clientes


que han completado proyectos
tcticos en menos de tres meses
y con otros que han invertido tres
aos en terminar programas de
base.

Si su proyecto es largo, tenga en


cuenta que conviene demostrar su
Ahora, por cada objetivo, escriba una medida de valor cada seis meses. Si adopta
xito que sirva para determinar si se ha alcanzado. un enfoque gil en el proyecto, le
resulta ms sencillo presentar las
Lo idneo es que aporte mtricas o clculos. diferentes fases y los distintos hitos
Ejemplo: Reducir la rotacin media mensual como proyectos ms pequeos.
enunX%.
Lo que est claro es que no puede
"suponer" cunto va a tardar.
Calcule una estimacin del plazo
basndose en su experiencia y en
la de otros que hayan emprendido
proyectos parecidos antes. Si no
sabe a quin acudir, no dude en
ponerse en contacto con nosotros.

26 | Informatica: El gran cuaderno del Big Data


Definicin de sus
objetivos

Objetivos deTI

A continuacin, fijmonos en los Enumere, por orden de importancia, los objetivos


Detngase, colabore y escuche
objetivos deTI relacionados con de su proyecto de Big Data que guarden relacin
su proyecto. conTI. (Indique tantos o tan pocos objetivos como
desee). Hemos redactado este cuaderno
para que le resulte ms fcil iniciar
(Recuerde que, si su proyecto Ejemplo: Establecer procesos para recopilar, su proyecto de Big Data, tanto si
pretende agilizar o mejorar el limpiar, controlar y almacenar en tiempo real datos trabaja para el negocio como si lo
trabajo deTI, le va a costar agregados de clientes, datos de uso de tarjetas de hace paraTI. Sea como fuere,
nodeje los objetivos en el aire.
vendrselo a los usuarios de crdito, datos de grficos sociales e indicadores de Si precisa orientacin concreta
negocio. Por eso, conviene rotacin. sobre las posibles pretensiones,
comunicar los objetivos deTI llame a un compaero con
experiencia en el campo e inicie
junto con los objetivos que ya ya la colaboracin.
entusiasman a los usuarios de
negocio). Para que el proyecto tenga xito,
es indispensable la colaboracin
estratgica.

27 | Informatica: El gran cuaderno del Big Data


Definicin de sus
objetivos

Objetivos deTI

Anote los plazos mnimo y mximo en que Ahora, por cada objetivo, escriba una medida de
se debe alcanzar cada objetivo. xito que sirva para determinar si se ha alcanzado.
Ejemplo: De dos a cuatro meses. Lo idneo es que aporte mtricas o clculos.
Ejemplo: Porcentaje exacto de prediccin
derotacin delX%

28 | Informatica: El gran cuaderno del Big Data


Definicin
de sus
necesidades
de datos
Una vez descritos los objetivos concretos de su
iniciativa de Big Data, pasemos al meollo del
proyecto: los datos en s. En cualquier proyecto,
ha de mantener una mentalidad estratgica
acerca de la informacin necesaria, los
conjuntos de datos que cubren esa necesidad,
lamanera de obtenerlos y la forma de
utilizarlos.
Definicin de sus
necesidades de datos

Datos necesarios

Antes de nada, fijmonos en la Para alcanzar los objetivos de negocio antes Qu datos sirven para aportar esos
finalidad ms bsica de su descritos, segn los usuarios de negocio, qu conocimientos?
proyecto de Big Data: la deben saber para tomar decisiones fundadas? Ejemplo: Historial de compras del cliente, crticas,
informacin que desea Ejemplo: Qu clientes ms valorados tienen porcentaje de compras, porcentaje de abandono,
proporcionar a su organizacin. probabilidades de descartar la empresa y qu porcentaje de rechazo y calidad del servicio de
Responda a las preguntas comportamientos se relacionan con la rotacin. atencin al cliente.
siguientes con tanta
minuciosidad como pueda.

30 | Informatica: El gran cuaderno del Big Data


Definicin de sus
necesidades de datos

Datos necesarios

Qu sistemas de origen contienen esos conjuntos Aparte de los datos ya sealados, existe alguna
de datos? otra informacin que aporte contexto o ms valor
Ejemplo: Registros del servicio de atencin al alos anlisis?
cliente, mtricas de rendimiento de productos, Ejemplo: Encuestas del servicio de atencin al
base de datos de actividad del cliente y gestin de cliente, anlisis de la competencia, datos
datos maestros de clientes. meteorolgicos y datos de redes sociales.

31 | Informatica: El gran cuaderno del Big Data


Definicin de sus
necesidades de datos

Datos necesarios

A la caza de los datos


Qu conjuntos de datos con el acceso vedado inescrutables
ahora mismo podran incluir datos contextuales
Cuando contemple los conjuntos
adicionales? de datos cuyo acceso tiene
Ejemplo: Datos de redes sociales de terceros, datos vedado, no se limite a los datos
de mercado de terceros y datos meteorolgicos. ajenos a su organizacin. Segn
Gartner, la mayora de las
empresas utiliza apenas el15% de
los datos internos de la
organizacin . Segn Appfluent,
2

empresa que realiza anlisis


estadsticos sobre el uso de data
warehouses, entre el30% y
el70% de los datos de los data
warehouse estn inactivos.

El resto permanece en silos,


archivos heredados y almacenes
de datos de difcil acceso, caros
de usar o complicados de
encontrar, lo cual no supondra
ningn problema salvo por el
hecho de que ya est pagando
por almacenar todos esos datos.

Cuando busque los datos que


necesita, merece la pena echar un
vistazo primero a los datos que ya
posee su organizacin.

2
 itio web de Gartner: www.gartner.com/technology/topics/
S
big-data.jsp
32 | Informatica: El gran cuaderno del Big Data
Definicin de sus
necesidades de datos

Cinco consideraciones clave


en torno a los datos
Tras describir los datos que va a 1
buscar, ya cuenta con una visin
ms clara de los retos concretos Preprese para un gran volumen
que le plantea el Big Data. Hay
cinco elementos en particular Preprese para afrontar la Un inventario concienzudo y
que debe tener en cuenta antes infinidad de datos que va a organizado de los datos facilita
de seguir adelante, ya que dictan precisar. En todas las la decisin de cmo gestionarlos.
las necesidades tanto de cada dimensiones, clasifique los datos Evale la capacidad actual de
conjunto de datos como del por su valor (por ejemplo, almacenamiento y
conjunto de datos del Big Data. transacciones de clientes), su uso procesamiento y busque los
(frecuencia de acceso), su mtodos ms rentables y
tamao (gigabytes, terabytes), su eficientes para hacerla
complejidad (datos de mquinas, escalable.
datos relacionales, vdeos) y
las personas con acceso a ellos
(solo los especialistas en datos o
cualquier usuario de negocio).

33 | Informatica: El gran cuaderno del Big Data


Definicin de sus
necesidades de datos

Cinco consideraciones clave


en torno a los datos
2 3

Tenga en cuenta la diversidad Controle la velocidad

El aspecto ms complicado del La codificacin manual de cada Por lo general, al combinar la En efecto, casi todos los anlisis
Big Data radica en la multitud de integracin precisa resulta tan transmisin de datos en tiempo en tiempo real se tienen que
formatos y estructuras que debe engorrosa que puede consumir real con los datos histricos, basar en transmisiones de datos
conciliar en sus anlisis. Tiene todo el tiempo y todos los aumenta el potencial predictivo que, a menudo, proceden de
que integrar varias fuentes si recursos de que dispone. de los anlisis. Por ello, algunos fuentes diferentes y tienen
desea incluir estructuras y tipos Aproveche al mximo las de los datos que le interesan solo distintos formatos. Integre en el
de datos nuevos (sociales, herramientas disponibles de tienen valor si fluyen de manera proyecto alguna tecnologa de
de sensores o de vdeos) con integracin y calidad de datos constante hacia sus sistemas. anlisis de transmisiones y una
las fuentes a las que estn para agilizar el proceso y infraestructura lgica que le
acostumbrados (relacionales o dedicarse a tareas ms tiles. permitan gestionar todos los
mainframes heredados). datos.

34 | Informatica: El gran cuaderno del Big Data


Definicin de sus
necesidades de datos

Cinco consideraciones clave


en torno a los datos
4 5

Compruebe la veracidad Tenga en consideracin


elcumplimiento

Da igual lo relevantes que sean Para que los datos sirvan a un fin Los distintos conjuntos de datos Adems de archivar de forma
sus anlisis: no valen nada si los determinado, tiene que conocer que va a manejar tienen segura e inteligente los datos
usuarios no pueden tener una dicho fin. Si un especialista en diferentes requisitos y sensibles, enmascrelos con
confianza razonable en los datos datos busca patrones en datos condiciones de seguridad. reglas predefinidas cada vez que
que incluyen. Cuantos ms datos agregados de clientes, la Encada conjunto de datos, se los migre o los introduzca en los
analice, ms importante es que preparacin necesaria es mnima. debe plantear qu hace falta entornos de desarrollo y prueba.
mantenga la mxima calidad Sin embargo, los datos de los para mantener el anonimato de
dedatos. informes financieros y de la los datos conforme a las polticas Aplique estas cinco
cadena de suministro exigen un deseguridad. consideraciones a todos los
elevado grado de conservacin, conjuntos de datos que maneje
limpieza y certificacin de Montones de datos proliferarn yno tendr problemas para
precisin y cumplimiento. en centenares de almacenes por superar de forma ms realista los
toda la empresa. Entrese de retos que plantea el Big Data.
Cree categoras basadas en la dnde residen los datos
preparacin indispensable que sensibles, protjalos en la fuente
vayan desde datos sin procesar mediante cifrado y,
hasta almacenes conservados y acontinuacin, controle
controlados de datos limpios, quinestienen acceso a ellos.
fiables y fidedignos.
35 | Informatica: El gran cuaderno del Big Data
ParteC.
Su eficaz cadena
de suministro de
datos
Los mtodos tradicionales de business intelligence y data
warehouse no se escalan para cubrir las necesidades de las
iniciativas de Big Data. Por eso, a continuacin, veremos la
manera de escalar su equipo, sus procesos y su
infraestructura.

Volver al ndice <

36 | Informatica: El gran cuaderno del Big Data


Su
equipo
Su equipo de Big Data representa tanto su
mayor reto como su mayor oportunidad.
Debe hallar el delicado equilibrio entre
quienes comprenden los objetivos de negocio
yquienes saben ejecutar los requisitos tcnicos.
Su equipo

Cinco lecciones bsicas


paraformar equipos
La mayora de las Las estructuras de datos Cuando forme el equipo, no
distribuidas son simplemente olvide incorporar las siguientes
organizaciones difciles de gestionar. Desde los lecciones a la estrategia de
infravalora el grado de conocimientos de Java contratacin.
competencias que hace requeridos para el desarrollo con
falta para aplicar una Hadoop hasta las nuevas
competencias especializadas en
tecnologa nueva como datos que tendr que contratar,
Hadoop. va a tener que reunir un nmero
considerable de competencias
nuevas para que su proyecto
3
eche a volar .

3
InfoWorld: "Hadoop, Python, and NoSQL lead the pack for big
data jobs", 5 de mayo de2014 (www.infoworld.com/t/it-jobs/
38 | Informatica: El gran cuaderno del Big Data hadoop-python-and-nosql-lead-the-pack-big-data-jobs-241884)
Su equipo

Cinco lecciones bsicas


paraformar equipos
1 2

Aproveche las competencias por Mantenga una mentalidad


las que contrat a su personal estratgica acerca de la
composicin del equipo

Uno de los mayores errores que Concentre las competencias que Si todo sale como es debido, infinitamente ms difciles de
cometen las empresas cuando escasean en las tareas que de crecern tanto el mbito como los encontrar, formar y contratar
4
contratan especialistas en datos verdad las necesitan. No le recursos del proyecto. Piense quelos desarrolladores .
y analistas cuantitativos consiste interesa que esas personas ahora en la estrategia para
en obligarlos a hacer el trabajo abandonen el barco, y mucho ahorrarse la dura realidad de no El equilibrio del equipo es
sucio. Si sus recursos ms menos que pierdan el tiempo en poder escalar ciertos procesos crucial. Ha de buscar la mezcla
competentes invierten su tiempo trabajos que podra acometer con la suficiente rapidez porque perfecta de la experiencia en
en la codificacin manual de las con cualquier herramienta. solo hay un nmero limitado de gestin de datos adquirida con
integraciones de datos y en la personal con las competencias tesn y el entusiasmo por
limpieza de los datos, no solo precisas, incluso en Silicon Valley. aprender herramientas nuevas.
consigue que se sientan Adems, debe lograr el
frustrados sino que, adems, Si se ampla el mbito de equilibrio entre el personal con
desaprovecha las competencias aplicacin del proyecto, qu conocimientos tcnicos y el
que le han resultado tan difciles posibilidades reales hay de personal con la experiencia en el
de hallar. encontrar a tiempo las campo precisa para crear los
competencias que cubran esas modelos adecuados.
necesidades? Por ejemplo, los
especialistas en datos son
4
 all Street Journal: "Big Datas High-Priests of Algorithms",
W
8 de agosto de2014 (http://online.wsj.com/articles/
39 | Informatica: El gran cuaderno del Big Data academic-researchers-find-lucrative-work-as-big-data-
scientists-1407543088)
Su equipo

Cinco lecciones bsicas


paraformar equipos
3 4

Ajuste los objetivos del proyecto Cuando el equipo se ampla,


cuanto antes y, luego, tambin es mayor la necesidad
comunquelos de gestionarlo

Uno de los errores ms comunes Si no entienden a la perfeccin A diferencia de la tecnologa


que cometen las empresas elvalor de negocio del proyecto, nueva, que se puede implantar, No conviene infravalorar
cuando contratan personal nuevo corre el riesgo de que los implementar e integrar de forma elementos como la cultura o la
consiste en olvidar comunicar los empleados nuevos crean que objetiva, el personal nuevo se cohesin. Reflexione largo y
autnticos objetivos del proyecto. solo deben tener en cuenta los tiene que acostumbrar al puesto tendido sobre el modo de
Desde la primera entrevista objetivos deTI. de trabajo, a sus cometidos y al integrar a los empleados nuevos
yentodo momento hasta el motivo por el que se les en sus procesos. Quiz no pueda
desempeo del trabajo en s, encomiendan. Puede ser usted o ensearles competencias pero,
debe dejar meridianamente cualquier otro, pero alguien tiene sin duda, puede ayudarlos a ser
claro qu pretende ofrecer a los que afrontar el reto de gestin mejores miembros del equipo.
usuarios de negocio. Aproveche que plantea un equipo nuevo.
el respaldo de los ejecutivos para
explicar la misin y compartir
tanto los casos prcticos como
los problemas.

40 | Informatica: El gran cuaderno del Big Data


Su equipo

Cinco lecciones bsicas


paraformar equipos Importancia de la estrategia

Una decisin importante que


5 deber tomar una y otra vez es la
de crear las funcionalidades con
herramientas automatizadas o
Su equipo no puede mediante integraciones manuales.
permitirsequedarse parado
La codificacin manual ofrece un
control completo y preciso sobre el
Todos los das surgen tecnologas Su personal tiene que desarrollar objeto de la creacin. A menudo,
de Big Data y las que ya existen sus competencias tan rpido tiene un valor incalculable y es
evolucionan con rapidez. Se como cambia el mundo que lo necesaria si, por ejemplo, desea
crear una secuencia compleja
trata de un momento fascinante rodea. La buena noticia es que para extraer metadatos de una
para las empresas que tienen el nada motiva ms a los buenos forma que an no es posible.
coraje de adoptar las mejores empleados que el reto de ir por
Las herramientas, por su parte,
prcticas enseguida. Ahora bien, delante de los acontecimientos. ofrecen mayor agilidad y la
tambin representa el reto El desafo radica en ofrecer la capacidad de repetir de manera
definitivo de obtener ventaja formacin y el debate que sostenible el mismo proceso. En
tareas como la integracin y la
frente a la competencia. precisan para seguir calidad de datos, son cruciales
aumentando tanto sus porque, gracias a ellas, no obliga
capacidades como las suyas. a los superdotados analistas y
especialistas a encargarse del
trabajo sucio.

Sea realista con sus recursos.


Si no puede formar un equipo tan
nutrido ni tan brillante como el de
Google, no malgaste sus escasos
recursos en el intento.

41 | Informatica: El gran cuaderno del Big Data


Su equipo

Establecimiento de la
gobernanza de datos
Si (y, esperemos, cuando) En esencia, la comisin de
emprende una iniciativa de Big gobernanza de datos es el
Data ms bsica, debe implantar organismo formal de ejecutivos
la estructura de procedimientos que tiene el cometido de
para la gobernanza de datos. supervisar el enfoque de los
De hecho, aunque el proyecto de datos de la empresa,
Big Data tenga como objetivo pero tambin debe incluir
ofrecer valor a un solo administradores de datos, esto
departamento, puede ser es, personal funcional o de un
interesante crear una comisin departamento determinado que
reducida de gobernanza de se encarga de gestionar los
datos para aprender a superar datos procedentes de una unidad
los retos nicos que tal de negocio concreta.
organismo presenta.
(De hecho, algunos de nuestros
clientes asignan funciones de
administracin de datos segn el
dominio de datos. Eso significa
que una persona tiene a su cargo
los datos de los productos, otra
se ocupa de los datos de los
clientes, y as sucesivamente.)

42 | Informatica: El gran cuaderno del Big Data


Su equipo

Establecimiento de la
gobernanza de datos
Se debe proponer crear procesos 1 2
que garanticen que la estructura
de gobernanza de datos resulte Transversal Comunicativa
ms positiva que negativa.
Trabaje de forma activa para Una comisin de gobernanza de Sin una comunicacin fluida
que no se convierta en una carga datos cuyos miembros tengan entre las funciones, los
burocrtica asegurndose de funciones parecidas es del todo departamentos y los dominios, es
que todos los implicados se ineficaz. El objetivo consiste en probable que el proyecto quede
comprometen a alcanzar los crear un organismo donde estn enterrado en burocracia y
mismos objetivos en los mismos representadas las visiones y las malentendidos. Esto sucede con
plazos. necesidades exclusivas de cada demasiada frecuencia.
una de las unidades de negocio Asegrese de que todas las
La estructura de gobernanza de a las que est dirigido el inquietudes se calman o reciben
datos debe poseer las cinco proyecto de Big Data. una respuesta apropiada.
caractersticas siguientes.

43 | Informatica: El gran cuaderno del Big Data


Su equipo

Establecimiento de la
gobernanza de datos
3 4 5

Eficiente Comprometido Centralizado

El proceso transversal no debe Comunique los objetivos El mayor reto de la estructura de


suponer un obstculo. principales del proyecto con gobernanza de datos se presenta
Hace falta una gran agilidad eficacia y compruebe que todos a la hora de dar prioridad a los
para que el proyecto de Big Data los implicados en la estructura de objetivos de una unidad de
llegue a buen puerto. Por eso, gobernanza de datos se dedican negocio frente a los de otra que
integre reglas de comunicacin a conseguir esos objetivos. Tanto tambin cuenta con
de excepciones y de los planteamientos de representacin en la comisin.
automatizacin siempre que sea gobernanza como la toma de Las decisiones se deben sustentar
factible y adopte herramientas decisiones se deben regir por los en los beneficios a largo plazo
de colaboracin que mantengan objetivos comunes. para toda la comisin aunque
lneas de comunicacin ello suponga que los beneficios a
oportunas abiertas. corto plazo se aprecien solo en
una unidad de negocio.

44 | Informatica: El gran cuaderno del Big Data


Su equipo

Competencias que necesita


ycompetencias que posee
Vuelva a coger lpiz y papel. En la pgina siguiente, se
Ahora que ya sabe las diversas enumeran las funciones para Big
oportunidades y los distintos Data basadas en los puestos que
inconvenientes subjetivos que han cubierto nuestros clientes.
presentar el nuevo equipo, Segn el personal de que
imaginemos su composicin. dispone ahora mismo y del plazo
previsto de ejecucin del
proyecto (indicado al principio
de la seccin en la pgina24),
apunte el nmero de personas
que debe contratar.

45 | Informatica: El gran cuaderno del Big Data


Su equipo

Funcin Tiene ya a alguien Es preciso contratar Por el tiempo dispo-


capaz de desempe- a alguien para esta nible, es preciso
ar esta funcin? funcin contratar a este
nmero de personas

Especialista en datos o o

Experto en dominios Necesidad de una


Analista de negocio mentalidad integradora
Analista de datos
Cuando salga en busca de nuevos
Ingeniero de datos miembros para el equipo, no se
limite a personas con la
Administrador de bases de datos
cualificacin correcta. No se
Arquitecto empresarial equivoque: encontrar a personas
con la cualificacin correcta ya es
Arquitecto de soluciones de negocio un reto en s mismo pero, aparte,
debe buscar gente que est
Arquitecto de datos
dispuesta a asumir los objetivos de
Administrador de datos negocio y que cuente con
competencias tcnicas.
Desarrollador de ETL (integracin
de datos) Nuestros clientes no paran de
repetirnos la importancia que
Desarrollador de aplicaciones
reviste que quienes se incorporan
Desarrollador de cuadros de mando a los proyectos de Big Data
comprendan la realidad del
Modelador estadstico negocio y estn especializados en
datos complejos. Este tipo de
Otro
mentalidad integradora es
Otro importante y difcil de encontrar.
Merece la pena fomentarla con
Otro formacin y los resultados tambin
valen el esfuerzo.
Otro

Otro

46 | Informatica: El gran cuaderno del Big Data


10356

98276

Sus 41523

herramientas 60303
10392

Tal como hemos observado ya varias veces, las


herramientas que emplee desempean un papel
estratgico en la ejecucin del proyecto de
BigData. En esta seccin, vamos a fijarnos 15234
enlas herramientas de las que dispone y
enlasque necesita.

45623
18456

63002
Sus herramientas

Examen de las herramientas


del Big Data
Segn nuestra experiencia, las Incorporacin de datos Transmisin de datos
herramientas siguientes resultan Puede recopilar de manera
esenciales en la arquitectura Proceso consistente en el fiable datos en tiempo real y
precisa para los proyectos de Big consumo apropiado, eficiente y transmitirlos a sus almacenes
Data (la arquitectura se aborda metdico de los datos de datos?
en profundidad ms adelante). necesarios.
Por supuesto, sus objetivos y sus Archivado
recursos condicionan la Carga en batch Puede archivar y comprimir
combinacin tecnolgica Dispone de acceso a todos los datos que no se utilizan con
apropiada para su proyecto los tipos de datos que necesita frecuencia y, al mismo tiempo,
concreto. y puede escalar con eficiencia garantizar el fcil acceso a los
la ejecucin de la carga en datos archivados cuando sean
Repase esta lista de herramientas batch en sus almacenes de necesarios?
y marque con una equis ( ) las datos?
ms importantes (y pertinentes
desde el punto de vista Captura de cambios de datos
estratgico) para su proyecto. Puede capturar los cambios
efectuados en los datos de sus
sistemas de origen sin que
estos se vean afectados?

48 | Informatica: El gran cuaderno del Big Data


Sus herramientas

Examen de las herramientas


del Big Data
Repase esta lista de herramientas Gestin de datos Seguridad de datos Estructura de datos distribuida
y marque con una equis ( ) las Puede detectar y proteger los Puede emplear una
ms importantes (y pertinentes Polticas, procesos y prcticas datos en todos los almacenes tecnologa como Hadoop para
desde el punto de vista imprescindibles para gestionar de datos asignando reglas escalar de forma rentable las
estratgico) para su proyecto. de manera adecuada la eficacia, relativas al uso, al acceso y a exigencias de almacenamiento
la precisin, la fiabilidad y la los permisos? y procesamiento?
disponibilidad de los datos.
Mquina virtual de datos Data warehouse
Integracin de datos Puede crear una capa de Dispone de alguna tecnologa
Puede preparar y consolidar abstraccin para los datos que de data warehouse que admita
estructuras y fuentes diversas asocie con amplitud el los requisitos de rendimiento,
en un conjunto de datos procesamiento de datos desde uso y escalabilidad que tienen
cohesionado para el anlisis? el entorno de implantacin los anlisis de Big Data y las
subyacente? integraciones con las
Calidad de datos infraestructuras de Hadoop?
Puede limpiar con fiabilidad Gestin de datos maestros
los datos as como eliminar los Puede almacenar una nica
duplicados y los errores? versin consolidada, completa
y fidedigna de la realidad de
los diversos dominios de
datos?

49 | Informatica: El gran cuaderno del Big Data


Sus herramientas

Examen de las herramientas


del Big Data
Repase esta lista de herramientas Entrega de datos Hub de integracin de datos
y marque con una equis ( ) las Puede hacer que los datos
ms importantes (y pertinentes Proceso consistente en enviar los estn disponibles mediante un
desde el punto de vista datos que posee a los sistemas y enfoque como el del modelo
estratgico) para su proyecto. las aplicaciones que los de publicacin y suscripcin
necesitan. afin de evitar la proliferacin
de integraciones de punto
Carga en batch apunto?
Puede escalar con eficiencia
la carga en batch de los datos Virtualizacin de datos
entre los sistemas back-end Puede entregar datos de sus
operativos, los anlisis y las sistemas sin sobrecargarlos?
fuentes?
Procesamiento basado en
Transmisin en tiempo real eventos
Puede ofrecer transmisin de Puede detectar y analizar
datos en tiempo real a las amenazas, oportunidades y
aplicaciones, los anlisis y los otros eventos crticos para el
sistemas back-end que la negocio y darles una respuesta
requieren? en tiempo real?

50 | Informatica: El gran cuaderno del Big Data


Sus herramientas

Examen de las herramientas


del Big Data
Repase esta lista de herramientas Anlisis Aprendizaje automatizado De todas estas herramientas y
y marque con una equis ( ) las Puede aplicar algoritmos tecnologas, algunas como la
ms importantes (y pertinentes Herramientas y procesos que avanzados de aprendizaje integracin de datos, la calidad
desde el punto de vista permiten convertir los datos sin automatizado con el fin de de datos y la gestin de datos
estratgico) para su proyecto. procesar en conocimientos, identificar patrones y elaborar maestros son tan fundamentales
patrones, predicciones y clculos predicciones imposibles de para la transicin al Big Data
sobre el dominio objeto de manejar con su ancho de que, en realidad, no merece la
anlisis. banda manual? pena reestructurarlas. No
desperdicie las valiosas
Visualizacin competencias ni las horas de
Puede presentar sus datos y trabajo del proyecto de Big Data
conclusiones de manera que en la cantidad de tiempo y
resulten fciles de comprender recursos que hace falta para
y asimilar? crear esas funcionalidades con
sus propias manos.
Anlisis avanzados
Puede aplicar algoritmos Recuerde cules son los objetivos
analticos de vanguardia a sus del proyecto y que estos no
conjuntos de datos a fin de incluyen una creacin
efectuar clculos complejos? personalizada de absolutamente
todo.

51 | Informatica: El gran cuaderno del Big Data


Sus procesos
Pasemos a los procesos reales que precisa para
enfrentarse al Big Data. Aunque sus procesos
sean especficos segn sus objetivos y sus
requisitos, en esta seccin, se ofrece
informacin general sobre lo que cabe esperar
yaprender.
Sus procesos

Los ocho pasos del Big Data

A partir de la experiencia, 1 2
estamos en condiciones de
afirmar que las metodologas Acceso a los datos Integracin de los datos
giles constituyen un enfoque
excelente para los proyectos de El primer reto consiste en adquirir El reto ms complejo del Big
Big Data. Garantizan que todos los datos necesarios. En Data guarda relacin con la
contenga las expectativas, algunos casos, eso implica diversidad de estructuras y
aprenda de los errores e itere el capturar transmisiones de datos formatos de datos.
camino hacia procesos ptimos. y, en otros, extraerlos de una Para lograr una ejecucin
Dicho lo cual, el enfoque de su base de datos. Configure sostenible de los anlisis, debe
proyecto depende por completo procesos repetibles y manejables configurar un proceso para
de su situacin y de sus para garantizar que dichos datos integrar y normalizar todos estos
preferencias. se puedan almacenar, a datos. Lo ideal es que requiera el
continuacin, conforme a los mnimo procesamiento manual
En todo caso, los ocho pasos mtodos previstos. posible.
siguientes resultan cruciales para
la cadena de suministro del Big
Data. Sea cual sea el mtodo
elegido, asegrese de establecer
junto con su equipo procesos
eficaces para seguir estos pasos.

53 | Informatica: El gran cuaderno del Big Data


Sus procesos

Los ocho pasos del Big Data

3 4 5

Limpieza de los datos Control de los datos Proteccin de los datos

Para que los anlisis sean Una forma de mantener una Ha de establecer dos procesos
fiables, es imprescindible limpiar fuente fiable de datos limpios e bsicos. El primero consiste en
los datos a fin de eliminar integrados consiste en establecer definir las normas y las prcticas
duplicados, errores y datos un proceso para controlar los de seguridad que exija cada
imprecisos o incompletos. El datos. La finalidad es crear una conjunto de datos; el segundo,
proceso ha de garantizar que los nutrida recopilacin de datos en detectar los datos sensibles y
analistas y los especialistas ms consolidados, organizados por enmascararlos de forma
cualificados no pierden su dominios (productos, clientes, persistente o dinmica para
tiempo en "hacer la colada". etc.) y enriquecidos con garantizar la aplicacin uniforme
informacin del Big Data que se de esas normas y mejores
pueda suministrar a todos los prcticas.
dems sistemas.

54 | Informatica: El gran cuaderno del Big Data


Sus procesos

Los ocho pasos del Big Data

6 7 8

Anlisis de los datos Anlisis de las necesidades de Aprovechamiento operativo Importancia de la


negocio de la informacin documentacin

El proceso de anlisis depende Se trata de un paso que, a pesar Como ya hemos destacado antes Si domina estos ocho pasos, su
de los analistas, las herramientas de ser fundamental, casi siempre en el cuaderno, es indispensable proyecto de Big Data marchar en
la direccin correcta. El objetivo
analticas y los requisitos se obvia. Establezca un proceso que se perciba el impacto en el consiste en establecer procesos
relacionados con los objetivos. claro para el anlisis de las negocio del proyecto de Big claros, repetibles y escalables en
Resulta esencial mantener una necesidades de negocio incluso Data. Cree procesos permanente mejora. Con ese fin,
la documentacin de dichos
mentalidad que priorice la mientras se analizan los datos. automatizados para suministrar procesos y las consiguientes
deteccin iterativa y la mejora Es fundamental porque, si no las respuestas halladas a los mejoras resultan vitales para el
continua ya que conviene que mantiene el pulso al negocio, se usuarios de negocio que ms las equipo.

este proceso sea mejor, ms arriesga a dividir los esfuerzos y necesitan. Por ejemplo, es Las competencias, las
rpido, ms barato y ms a minimizar la repercusin en el preciso poner los datos sobre los capacidades y las lecciones del
escalable con el tiempo y la negocio. clientes con ms probabilidad de proyecto de Big Data han de ser
trasladables y se tienen que
experiencia. rotacin a disposicin de los comunicar con frecuencia.
agentes del servicio de atencin
al cliente mediante un cuadro de
mando. No olvide incorporar
tambin un bucle de comentarios
para saber cmo se recibe
lainformacin.

55 | Informatica: El gran cuaderno del Big Data


92

93
362

Su
40

264
654

arquitectura
Para que la cadena187 de suministro del Big Data 468
78
sea eficaz y efectiva, es imprescindible
garantizar que la arquitectura es slida y est 157
concebida de forma estratgica. En esta
seccin, veremos el aspecto de la arquitectura
de Big Data idnea y la manera de implantar
lasuya por fases.

62

61

50
Su arquitectura

Primeros pasos: zona depruebas

A la hora de crear la Empiece con moderacin El tamao importa

arquitectura de su Si configura una zona de La diferencia clave entre la zona


proyecto de Big Data, pruebas bien definida en la que de pruebas y la implementacin
elpunto de partida ejerza un control absoluto, podr real radica en que el entorno de
mslgico consiste en iterar el mtodo hasta conseguir produccin ser mucho ms
una implementacin correcta. grande. Por ello, har falta un
configurar un entorno Pngase en marcha cuanto antes procesamiento automatizado
dedesarrollo de y documente las lecciones para incorporar, integrar, limpiar
pruebas en el cual aprendidas con cada iteracin. y distribuir los resultados. Por lo
probar datos para tanto, hacen falta una estructura
mucho ms slida as como
asegurarse de que la procesos y componentes de
arquitectura sea viable. eficacia probada para que el
Al hacerlo, tenga en entorno de produccin activo sea
cuenta las del todo fiable y flexible.

recomendaciones
siguientes.

57 | Informatica: El gran cuaderno del Big Data


Su arquitectura

Primeros pasos: zona depruebas

Enmascare los datos antes de No se extrave en el camino


probarlos

Cuando las organizaciones Una de las causas ms comunes


emplean datos de prueba, suelen del aumento de costes y del
utilizar una variante de sus datos retraso de los proyectos de Big
de produccin activos para Data es que los errores de
garantizar que los formatos y las codificacin manual no
estructuras representen el entorno detectados en la zona de
activo. Lamentablemente, si no se pruebas se convierten en la peor
realiza un enmascaramiento pesadilla del equipo cuando se
adecuado, los datos sensibles activa la arquitectura. Por eso, si
pueden quedar expuestos en un codifica a mano bastantes partes
entorno nada seguro. de la arquitectura, no se
sorprenda si tiene que rehacer un
montn de cdigo para
satisfacer los requisitos de
produccin y contener las
expectativas. Tambin cuenta
con la alternativa de emplear de
primero herramientas de
productividad y automatizacin
que le eviten rehacer el cdigo y
subsanar los errores.
58 | Informatica: El gran cuaderno del Big Data
Su arquitectura

Arquitectura idnea
delBigData
En el diagrama siguiente, se
representa el modo en que
recomendamos crear la
arquitectura idnea de tecnologas
y procesos de Big Data.

Fuentes de datos Incorporacin Gestin de datos Entrega de Aplicaciones


de datos datos
B ases de datos Integracin de datos Visualizacin
relacionales Carga en batch Calidad de datos Carga en batch Aplicaciones mviles
Mainframe Mquina virtual de datos Anlisis
Documentos y correos Captura de Seguridad de datos Hub de Business intelligence
electrnicos cambios de Gestin de datos maestros integracin de Cuadros de mando en
Redes sociales, datos de datos Almacenamiento datos tiempo real
terceros y archivos de escalable (por ejemplo,
registro Transmisin de Hadoop) Virtualizacin
Sensores de mquinas datos Data warehouse de datos
Cloud pblico
Cloud privado Archivado Procesamiento
basado en
eventos y en
tiempo real

59 | Informatica: El gran cuaderno del Big Data


Plan de su
proyecto
Ya hemos analizado todos los aspectos de su
transicin al Big Data. A continuacin, srvase
de este plan como modelo para gestionar el
proyecto de Big Data desde su concepcin
hastasu implementacin.
Plan de su
proyecto

Plan de su proyecto

Emplee este plan de Fase1: estrategia Fase2: datos


proyecto como modelo
para documentar los Identificar los objetivos de negocio y deTI Identificar la informacin necesaria

detalles y los diversos Definir las medidas del xito Identificar los datos y las fuentes para
elementos de su suministrarlos
proyecto de Big Data.
Luego, srvase del
documento compilado
como medio para
conseguir el respaldo
preciso del resto de la
organizacin.
Tambin le resultar de
utilidad para convencer
a socios externos.

61 | Informatica: El gran cuaderno del Big Data


Plan de su
proyecto

Plan de su proyecto

Fase3: cadena de suministro Fase4: aprovechamiento operativo


de la informacin

Personal Herramientas Desarrollar cuadros de mando


oo Evaluacin de las oo Informtica distribuida

competencias necesarias (por ejemplo, Hadoop) Automatizar procesos para la entrega de datos
oo Evaluacin de las oo Calidad de datos

competencias ya oo Integracin de datos Configurar un proceso de comentarios


disponibles oo Gestin de datos maestros

oo Enmascaramiento de

Proceso datos
oo Acceso a los datos oo Visualizacin

oo Integracin de los datos oo Anlisis de transmisiones

oo Limpieza de los datos oo Anlisis

oo Controla de los datos oo Aprendizaje automatizado

oo Proteccin de los datos

oo Anlisis de los datos

oo Anlisis de las

necesidades de negocio

62 | Informatica: El gran cuaderno del Big Data


En Srvase de las listas de comprobacin, En muchos sentidos, su primer
los principios y las directrices descritos proyecto de Big Data va a ser el que
en este cuaderno para trasladar el jams olvide. Desde los errores que,

marcha potencial del Big Data a su sin duda, va a cometer hasta el


organizacin. Sea cual sea (de equipo que va a formar, est a punto
momento) la envergadura de su de iniciar un viaje de inmenso valor
proyecto, no nos cabe duda de que estratgico para su empresa.
cuenta con un mejor equipamiento
para salvar los numerosos escollos Si examina y evita los numerosos
que surgen en su camino. inconvenientes que hemos tratado y
mantiene un firme compromiso con su
No olvide plantear los recursos de visin del proyecto, lograr cambiar
forma estratgica y desarrollar de la forma de trabajar de su
manera muy ajustada procesos y organizacin.
competencias trasladables, escalables
y constante mejora. Si mantiene la Esto es grande.
visin a largo plazo durante el
proyecto, preparar a su
organizacin para que realice
anlisis ms acertados y tome
decisiones ms documentadas
durante muchsimo tiempo.

63 | Informatica: El gran cuaderno del Big Data


Siguientes pasos
Est listo para aplicar lo aprendido?

Si es desarrollador de Informatica,
puede ser desarrollador de Hadoop.
Con nuestros servicios, nuestros
conectores y nuestras pruebas de
software de Big Data, tomar la senda
correcta.

64 | Informatica: El gran cuaderno del Big Data


Acerca de
Informatica
Ayudamos a las empresas a gestionar sus datos
para que obtengan de ellos un valor de negocio
cuantificable. Tambin estamos ayudando a
algunas de las mayores empresas del mundo a
examinar los errores ms comunes en la gestin
de datos para que tengan xito en sus proyectos
escalables y repetibles de Big Data.

Hablemos.

IN18-1014-2730

Вам также может понравиться