Вы находитесь на странице: 1из 65

El gran

cuaderno
del Big Data
Una gua prctica para
emprender su primer
proyecto de Big Data.

ndice
Introduccin
ParteA. Preparacin

3
4

Informacin imprescindible
Motivos por los que casi todas las empresas
implementan proyectos de Big Data
Motivos por los que fracasan algunos proyectos
deBig Data
Consejos para conseguir que su proyecto
deBigData funcione

Seleccin del proyecto adecuado


Aspecto del proyecto adecuado
Consideracin de las repercusiones
Proyectos tcticos de Big Data: algunos ejemplos
Transicin bsica al Big Data

12
13
15
17
19

ParteB. Su estrategia

6
7
10

23

Definicin de sus objetivos


Objetivos de negocio
Objetivos deTI

24
25
27

Definicin de sus necesidades de datos


Datos necesarios
Cinco consideraciones clave en torno a los datos

29
30
33

Nota: haga clic para ir directamente a la seccin


oportuna.
2 | Informatica: El gran cuaderno del Big Data

ParteC. Su eficaz cadena


desuministro de datos

36

Su equipo
Cinco lecciones bsicas para formar equipos
Establecimiento de la gobernanza de datos
Competencias que necesita y competencias
queposee

37
38
42

Sus herramientas
Examen de las herramientas del Big Data

47
48

Sus procesos
Los ocho pasos del Big Data

52
53

Su arquitectura
Primeros pasos: zona de pruebas
Arquitectura idnea del Big Data

56
57
59

Plan de su proyecto
Plan de su proyecto

60
61

En marcha

63

Siguientes pasos

64

Acerca de Informatica

65

45

Algo
grande

Pocas tendencias tecnolgicas han


logrado la fama que ha alcanzado
elBig Data.
Claro que pocas tendencias
tecnolgicas han ofrecido a las
empresas tanto potencial de
transformacin. Desde que, a finales
de siglo, el software empez a
envolver por completo los procesos
denegocio, ha estado claro:
los datos cambian nuestra forma
detrabajar.

a que este reciente y desafiante


mundo de datos infinitos sigue siendo
tan nuevo, tanto ruido ha confundido
a mucha gente.
Este cuaderno pretende disipar
talconfusin.
Trata sobre la manera de blindar
suestrategia y ejecutarla con
pragmatismo. Tanto si empieza una
iniciativa tctica localizada como si
planea una iniciativa de cimentacin
que abarque toda la empresa, este
cuaderno le servir como gua
prctica para la transicin.

Cmo no, una gran fama conlleva


unagran decepcin. En el caso del
Big Data, no cabe duda de que hemos Vamos al asunto.
presenciado tanto buenos consejos
como desinformacin repartidos a
partes iguales. Por desgracia, debido
3 | Informatica: El gran cuaderno del Big Data

ParteA.
Preparacin
Hemos dividido el cuaderno en tres partes.
Enesta primera parte, vamos a intentar afinar
suvisin para que escoja el proyecto adecuado.

Volver al ndice

4 | Informatica: El gran cuaderno del Big Data

<

Informacin
imprescindible
Antes de abordar los aspectos concretos
de su propio proyecto, presentamos algunas
lecciones que la mayora de los profesionales
del Big Data habra deseado conocer antes
de iniciar sus proyectos.

14

12

10

Informacin
imprescindible

Motivos por los que casi todas las empresas


implementan proyectos de Big Data
Cuando las empresas
se deciden a abordar
el Big Data, suele ser
por uno de estos
motivos.

Intentan llevar a cabo mejores


anlisis y se dan cuenta de que,
para conseguirlo, hace falta una
cantidad bastante superior de
datos de anlisis. Por lo general,
es alguna unidad de negocio
(como marketing) la que
empieza estas iniciativas.

Se dan cuenta de que pueden
envolver sus productos con una
capa de servicios ofreciendo
anlisis (a menudo, en tiempo
real) que ayuden a los clientes
autilizar sus productos con
mseficiencia y eficacia.

 uieren realizar sus actividades


Q
mejor, ms rpido y con menos
gastos empleando el Big Data
con el fin de documentar todas
las decisiones que se toman en
relacin con un proceso o una
unidad de negocio en particular.
 dan cuenta de que el Big Data
Se
es fundamental para todas las
unidades de negocio de la
organizacin, por lo que intentan
establecer las bases para una
visin centrada en los datos
detodo su mundo.
 aben que deben aprender a
S
manejar el Big Data antes de que
sea demasiado tarde, pero
todava no saben cmo hacerlo.
El objetivo consiste en aprender
yexperimentar.

6 | Informatica: El gran cuaderno del Big Data

Aunque todos son buenos


motivos para interesarse por el
Big Data, si desea que sus
proyectos resistan el paso del
tiempo (y el escrutinio de los
distintos departamentos), ha de
tener muy claro el motivo que
mejor refleja sus intereses.

Informacin
imprescindible

Motivos por los que fracasan


algunos proyectos de Big Data
1

Segn un estudio , el55% de


todos los proyectos de Big Data
no se termina y muchos otros no
cumplen sus objetivos. Aunque
este llamativo porcentaje no es
infrecuente en una fase tan
temprana de una tendencia
tecnolgica, sera una insensatez
pasar por alto la leccin que
imparten esos proyectos.
Veamos los cuatro motivos
principales por los que fracasan
los proyectos de Big Data.

1
Objetivos difusos
El motivo de fracaso que ms se
cita en el estudio es el "mbito
de aplicacin impreciso" del
proyecto. Demasiadas empresas
desarrollan proyectos ambiciosos
(y, al mismo tiempo, demasiado
ambiguos) que carecen de
objetivos claros, y que luego
terminan fracasando cuando
llega el momento de tomar
decisiones complicadas sobre
lo que reviste importancia y lo
que no.

Perseguir el Big Data por el


simple hecho de tener un
proyecto de Big Data es la receta
para el desastre. La complejidad
de estos proyectos exige un
compromiso firme con la
consecucin de un resultado
concreto. Sin unos objetivos
claros, eso no es posible.

7 | Informatica: El gran cuaderno del Big Data

www.informationweek.com/software/information-management/
vague-goals-seed-big-data-failures/d/
d-id/1108384

Informacin
imprescindible

Motivos por los que fracasan


algunos proyectos de Big Data
2

Expectativas equivocadas

Con toda la fama del Big Data,


hay quien llega a algunas
suposiciones muy arriesgadas
encuanto a lo que puede
ofrecerel proyecto. Aunque
resulte tentador hacer promesas
valientes para plazos breves,
esimportante mantener una
visin realista de lo que cabe
esperar del proyecto, el tiempo
que va a necesitar y la cantidad
de esfuerzos que requiere.

Aumento de costes y retrasos


delproyecto
Cuando las expectativas del
impacto y de la informacin
sondemasiado elevadas,
acababuscando petrleo en un
mar deterabytes de incgnitas.
Silasexpectativas de la oferta
no son realistas, se encontrar
intentando cumplir plazos y
presupuestos nada razonables.

8 | Informatica: El gran cuaderno del Big Data

Si se tiene en cuenta lo
novedosaque es esta disciplina
para la empresa, no sorprende
que casi todos los proyectos de
Big Data terminen costando o
tardando ms de lo previsto.
Ellose suele deber a una
mezclade expectativas irreales
eincomprensin del
procedimiento para crear
unaarquitectura escalable.

En los casos en que se contrata a


los escasos y bien remunerados
desarrolladores de Java para
Hadoop, a quienes se les
encomiendan titnicas
implementaciones de
codificacin manual, las
empresas no tardan en asumir
que resulta imposible salir del
entorno de pruebas sin ningn
error. La consecuencia es que los
proyectos de Big Data terminan
como un experimento cientfico
que languidece en el laboratorio
y nunca llega a ver la luz.

Informacin
imprescindible

Motivos por los que fracasan


algunos proyectos de Big Data
4
Incapacidad de escalar
Si ya cuesta bastante trabajo
encontrar cinco desarrolladores
buenos de Java para Hadoop,
en el momento en que los
proyectos aumentan de tamao
yhacen falta 30desarrolladores
de Java en un mismo ao, el
atasco puede ser monumental.
Lopeor no es la oportunidad
perdida por no utilizar clsteres
Hadoop, sino la prdida de
tiempo y de empuje.

Con demasiada frecuencia,


lasempresas se fijan ms en la
conveniencia a corto plazo que
en la sostenibilidad a largo
plazo. Aunque no tendra sentido
sugerir que se evite siempre esa
contrapartida, nunca nos
cansaremos de insistir en la
importancia de la visin a largo
plazo. Para que los datos
cuenten con la proteccin y la
gestin apropiadas, es
imprescindible supervisar las
implicaciones a largo plazo del
proyecto.

9 | Informatica: El gran cuaderno del Big Data

Las cuatro causas del fracaso


delBig Data son preocupantes
ydemasiado habituales.
Acontinuacin, veremos cmo
puede evitarlas y crear una
implementacin duradera.

Informacin
imprescindible

Consejos para conseguir que su


proyecto de Big Data funcione
En vista de que la mayora de los
proyectos de Big Data fracasa
por la falta de claridad y la
incapacidad para demostrar la
utilidad de la iniciativa, debe
asumir la tarea de aportar al
proyecto el enfoque y las
pruebas pertinentes. Siga estos
tres tiles consejos para
asegurarse de que el proyecto
inicia y contina su andadura.

1
Marque objetivos claros y
contenga las expectativas
Si no sabe con certeza qu
propsito debe fijar para el
proyecto, plantee los objetivos
marcados para la infraestructura
de datos existente.
Si su organizacin ya necesita
datos para determinados
procesos de negocio (como
deteccin de fraudes o anlisis
de mercado), reflexione sobre la
manera en que el Big Data
podra mejorar esos procesos o
dotarlos de mayor valor. En lugar
de afrontar un problema
completamente nuevo, solo
debera mejorar un proyecto o
un proceso existente.

10 | Informatica: El gran cuaderno del Big Data

Sin un enfoque claro ni un valor


demostrable ante los usuarios de
negocio, el proyecto est
abocado al fracaso.
2
Defina las mtricas que
demuestran el valor del
proyecto
Si las mtricas estn definidas
con claridad y se ajustan a sus
objetivos, se ahorra muchos
problemas. Al fijarse metas
realistas y susceptibles de
cuantificacin, todos a su
alrededor percibirn sus
progresos.

An ms importante: sabrn a
qu aspira a largo plazo.
Plantese el modo de cuantificar
la repercusin del proyecto en el
contexto de sus objetivos.
Es crucial porque habr
concesiones a corto plazo que
tendr que racionalizar ante los
usuarios de negocio, y los
objetivos cuantificables sirven
para demostrar que les ofrece
ms valor del que perciben.

Informacin
imprescindible

Consejos para conseguir que su


proyecto de Big Data funcione
3
Adopte una estrategia en cuanto
a las herramientas y la
codificacin manual
Evite la tentacin de codificar
todo de forma manual y
directamente en Hadoop.
Recuerde que el objetivo no es
crear de la nada y con sus
propias manos una
implementacin que funcione,
sino suministrar el valor del Big
Data a su organizacin.

Ms importante si cabe es evitar


la trampa de malgastar el escaso
y costoso talento en el desarrollo
de Java en aspectos que se
pueden delegar en otros
empleados. Su funcin consiste
en tomar decisiones estratgicas
sobre la implantacin de
recursos limitados de tal manera
que se alcancen los objetivos.

En lugar de realizar la codificacin


manual de todas las integraciones,
limpiar todos los conjuntos de datos
y, luego, realizar la codificacin
manual de todos los anlisis,
busque herramientas y mtodos de
automatizacin con los que
acelerar estos procesos.

Decntese por herramientas que


aumenten la productividad del
equipo de desarrollo
aprovechando las competencias
y los conocimientos de sus
actuales expertos en ETL, calidad
de datos y business intelligence,

11 | Informatica: El gran cuaderno del Big Data

y reserve para sus superestrellas


de Java el trabajo en la lgica
especfica, para la cual no hay
herramientas disponibles.
Adems, dado que las
tecnologas como Hadoop
evolucionan da a da, vale la
pena perfilar una capa de
abstraccin que sirva como
proteccin ante los constantes
cambios en las especificaciones
de las tecnologas subyacentes.
Ante todo, recuerde que las
competencias que necesita
escasean, pero siempre hay
herramientas disponibles.

Seleccin
del proyecto
adecuado
En vista de los retos que deber afrontar,
veamos, a continuacin, cmo debe proceder
para elegir el proyecto apropiado para su
organizacin.

Seleccin del
proyecto adecuado

Aspecto del proyecto


adecuado
Si la organizacin tiene sed de
cambios y ya ha aceptado la
necesidad de contar con una
estructura completa de
gobernanza de datos para
mejorar los mtodos de trabajo,
es probable que se pueda saltar
esta seccin.
Ahora bien, si va a plantear un
proyecto tctico localizado que
se pueda adaptar con el tiempo
a toda la empresa, siga leyendo.

Valor demostrable

Apoyo

El proyecto adecuado es aquel


en que el valor se reparte a
partes iguales entreTI y la
unidad de negocio a la que
pretende ayudar. Eso implica
proporcionar un valor claro a un
departamento, una unidad de
negocio o un grupo, de tal forma
que lo perciba.

Los ejecutivos que respaldan su


visin son esenciales para lograr
el xito del proyecto. En los
proyectos de Big Data, hace falta
tener apoyos e intercesores en la
cpula que estn dispuestos a
defender el trabajo que lleva a
cabo.

El proyecto adecuado posee las


cuatro caractersticas siguientes.

13 | Informatica: El gran cuaderno del Big Data

Por eso, si se ve capaz de crear


anlisis fantsticos para
logstica, pero tiene su nico
respaldo ejecutivo en marketing,
cambie el planteamiento.
Sicuenta con el apoyo de
marketing, dirija su creacin a
cumplir los requisitos de anlisis
de marketing. El cambio no se
puede forzar. Confrmese con la
influencia y squele el mximo
partido.

Seleccin del
proyecto adecuado

Aspecto del proyecto


adecuado
3

Efecto domin
El primer proyecto tctico tiene
una importancia estratgica vital.
Aparte de demostrar ms all de
toda duda razonable que el Big
Data resulta til para la unidad
de negocio en cuestin, debe
asegurarse, asimismo, de que su
valor se comunica despus con
facilidad al resto de la empresa.

Competencias trasladables
Una vez que demuestre el valor
del Big Data al departamento de
marketing, por ejemplo, resultar
ms sencillo recabar apoyos
entre los equipos de logstica,
loscuales se habran mostrado
reticentes en otro caso.

Por ello, a la hora de escoger el


primer proyecto, tenga en cuenta
la estrategia.

14 | Informatica: El gran cuaderno del Big Data

Como sealbamos en el ltimo


punto, el valor del primer
proyecto le sirve para convencer
a otros departamentos de la
empresa. Con ese fin, debe
aprender las competencias, las
capacidades y las lecciones
apropiadas con el primer
proyecto. Con ms exactitud,
tiene que documentarlas de
manera que pueda trasladarlas
al siguiente proyecto. Recuerde
que, si pretende lograr el xito,
debe mirar a los proyectos
futuros.

As pues, prepare condiciones


de escalabilidad para poder
ocuparse de ms proyectos en el
futuro. No se trata solo de
escalar el clster. Se trata de
escalar las competencias y las
operaciones. O bien tiene que
descubrir ms superestrellas de
Java para Hadoop o bien halla
la manera de sacar ms partido
a los recursos de los que ya
dispone.

Seleccin del
proyecto adecuado

Consideracin de
lasrepercusiones
A la hora de elegir el prximo
proyecto, tambin debe tener en
consideracin cmo va a
repercutir en su organizacin.
Hay tres aspectos generales
fundamentales para convencerse
de que persigue el proyecto de
Big Data adecuado.

1
Coste y trastorno
En trminos muy bsicos, el coste
del proyecto depende del tiempo
y del dinero necesarios para
ponerlo en funcionamiento. A la
hora de la verdad, tambin hay
que sopesar la perturbacin que
puede provocar.
En ocasiones, solo se trastornan
los procedimientos: las unidades
de negocio acostumbradas a ser
propietarias de sus datos no se
sienten cmodas al ceder el
control a una estructura
centralizada de gobernanza de
datos.

15 | Informatica: El gran cuaderno del Big Data

En otras ocasiones, guarda ms


relacin con las competencias y
las tecnologas, por ejemplo,
cuando es preciso integrar
tecnologas nuevas en la
infraestructura existente y
reorganizar o actualizar las
competencias para hacerlo.
En cualquier caso, debe prever
los posibles trastornos,
reconocerlos y asegurarse de
minimizarlos o de comunicar su
vala.

Seleccin del
proyecto adecuado

Consideracin de
lasrepercusiones
2

Cadencia de beneficios y
repercusiones
Al estudiar varios proyectos
iniciales, es natural decantarse
por los que ofrecen ms mejoras
y el mximo efecto para el
negocio. No obstante, tambin
es relevante abundar en la
naturaleza del impacto en el
negocio: se apreciar la mayor
parte del valor a corto o a largo
plazo?

Recursos y restricciones

Ms importante an: cundo


notarn los usuarios de negocio
dicho impacto? Por ejemplo, si
introduce la gestin de datos
maestros en el data warehouse,
mejorar de forma drstica la
eficiencia de su business
intelligence, pero los analistas de
negocio solo percibirn ese valor
cuando se den cuenta de que no
tendrn que volver a limpiar
datos financieros nunca ms.

16 | Informatica: El gran cuaderno del Big Data

Teniendo en cuenta el anlisis de


los dos factores anteriores,
piense en los recursos que hay a
su disposicin. Trataremos este
tema a fondo ms adelante pero,
de momento, tenga en cuenta
que, como es natural, su
intencin con el proyecto es
esquilmar cada euro invertido.

La consecucin de ese objetivo


opera en ambos sentidos. Por un
lado, pretende conseguir la
mxima repercusin en el
negocio pero, por otro, debe
trazar una estrategia de
inversin del presupuesto.
Aunque le seduzca la idea de
formar un equipo de
especialistas en datos
comparable al de Google,
acaso se lo puede permitir?
Tomar decisiones inteligentes en
lo referente a herramientas y
personal es esencial para lograr
el xito del proyecto.

Seleccin del
proyecto adecuado

Proyectos tcticos de Big Data:


algunos ejemplos
El Big Data posee una amplia
variedad de aplicaciones.
Aunque parezca fascinante,
tambin suena un poco
abrumador para quienes no
tienen claro con qu proyecto
arrancar. Esta es una lista de los
proyectos tcticos de Big Data
que han emprendido nuestros
clientes.
Si an no sabe por qu proyecto
debera empezar su
organizacin, fjese en los
ejemplos siguientes para hacerse
una idea ms ajustada de lo que
el Big Data ofrece a su empresa.

17 | Informatica: El gran cuaderno del Big Data

Finanzas

Distribucin

A
 nlisis de los
riesgos y de la
oferta
Recomendaciones
de inversin

Interaccin activa
con los clientes
Servicios basados
en la ubicacin

Fabricacin

Atencin sanitaria

Programas
conectados a los
vehculos
Mantenimiento
predictivo

Predicciones de
diagnstico de
pacientes
Coste total de
atencin sanitaria
Desarrollo de
frmacos

Multimedia
Seguimiento de
comportamientos
en los juegos
Opciones de
cross-sell y up-sell

Sector pblico
Cobertura
sanitaria
Mercados de
valores
Optimizacin
fiscal
Deteccin de
fraudes

Seleccin del
proyecto adecuado

Proyectos tcticos de Big Data:


algunos ejemplos
Qu buscaban algunos de
nuestros clientes
Fjese en la especificidad con
que describen algunos de
nuestros clientes sus iniciativas.
Esa es la clase de enfoque por
elque le conviene apostar.

U
 na gran empresa tecnolgica
de Silicon Valley pretende
ahorrar ms de diez millones
de dlares estadounidenses en
el cada vez mayor coste del
data warehouse gracias a una
combinacin de Hadoop y
tecnologa de data warehouse
tradicional que permite reducir
el incremento en el coste total
por terabyte.
U
 n gran fabricante de medios
de transporte desea rebajar en
un1% el consumo de
combustible de sus vehculos
en los 10prximos aos.
Tambin pretende reducir las
txicas emisiones de dixido
de carbono ampliando en
un10% los perodos de
mantenimiento y mejorando en
un1% el kilometraje.

18 | Informatica: El gran cuaderno del Big Data

U
 n fabricante que trabaja con
locomotoras tiene la intencin
de conseguir un aumento de
1,6km a la hora en las rutas
diarias para que sus clientes se
ahorren hasta 200millones de
dlares estadounidenses al ao.
U
 na empresa mundial de
servicios de pago quiere
aumentar en un30% su
negocio digital fomentando la
personalizacin segn el
cliente como parte de una
estrategia de Big Data
denominada "optimizacin del
omnicanal de distribucin".
Todos estos casos constituyen
logros excepcionales para
cualquier equipo de Big Data.

Seleccin del
proyecto adecuado

Transicin bsica al Big Data


Si tiene todo listo para sentar las
bases del enfoque de Big Data
para toda la empresa, los tres
pasos siguientes van a resultar
esenciales en la transicin.
Incluso si tiene como objetivo
unos cuantos proyectos tcticos
de Big Data, debera seguir estos
tres pasos. Cada uno de ellos es
crucial para la integridad
fundacional de la organizacin
centrada en los datos. De hecho,
para conseguir el mximo
provecho, es conveniente
seguirlos por orden.

1
Optimizacin del data
warehouse
Esto implica almacenar y
procesar los datos en la
plataforma ms rentable.
Amenudo, se empieza por sacar
las cargas de trabajo de ETL y los
datos sin procesar o con poco
uso del hardware de data
warehouse caro.

19 | Informatica: El gran cuaderno del Big Data

La finalidad es evitar costosas


actualizaciones del data
warehouse y comenzar a utilizar
hardware ms barato y
estructuras informticas
distribuidas como Hadoop para
estar preparados para manejar
el volumen, la diversidad y la
velocidad del Big Data.

Seleccin del
proyecto adecuado

Transicin bsica al Big Data


2

Lago de datos gestionado

Un lago de datos gestionado es


un lugar nico para gestionar
elsuministro y la demanda de
todos los datos. En este caso, el
trmino operativo es "gestionar".
El objetivo consiste en
transformar el caos repartido en
varias estructuras en informacin
segura, fiable y especfica.

Inteligencia operativa
en tiempo real
Para ello, es preciso crear un
lago de datos para perfeccionar,
gobernar y controlar los datos.
Sin embargo, hace falta mucha
previsin para conseguirlo pues
es imprescindible incorporar
procesos y polticas de
gobernanza de datos
estratgicos y rigurosos. Si no se
implantan, el lago corre el riesgo
de convertirse, ni ms ni menos,
en una cinaga de datos.

Tiene que crear las tecnologas


(anlisis, aplicaciones de gran
capacidad o interfaces de
interaccin) que necesita su
personal para acceder a todos
esos datos, analizarlos y
suministrarlos. Las aplicaciones
que cree han de ser fciles de
usar y deben proporcionar la
informacin que necesitan los
usuarios.
Se puede tratar, por ejemplo,
dela interfaz con la que los
representantes del servicio de
atencin al cliente supervisan el
comportamiento de los clientes
en distintos canales e identifican

20 | Informatica: El gran cuaderno del Big Data

a quienes tienen ms
probabilidades de descartar la
empresa en las dos semanas
siguientes.

Seleccin del
proyecto adecuado

Transicin en tres pasos


Como ya hemos dicho, para
conseguir el mximo provecho,
recomendamos seguir estos
pasos por orden.
Optimizacin del data warehouse
Rebaje el coste de su
infraestructura y apuntale la
arquitectura de la empresa.

21 | Informatica: El gran cuaderno del Big Data

Lago de datos gestionado


Cree un lugar nico para
gestionar el suministro y la
demanda de datos.

Anlisis en tiempo real


Ofrezca aplicaciones
vanguardistas que
proporcionen la informacin
que necesita su personal.

Seleccin del
proyecto adecuado

Transicin bsica al Big Data


Cmo definen nuestros clientes
sus objetivos fundamentales
Incluso los proyectos de base
deben indicar de forma
especfica qu pretenden
conseguir. Si bien en este caso la
especificidad no guarda relacin
con el dinero ni con el tiempo
ahorrados, s se aplica a los
lmites de lo que se crea
exactamente. Fjese en los
ejemplos siguientes de proyectos
de infraestructura de Big Data de
nuestros clientes.

U
 na multinacional que realiza
cientos de millones de
transacciones financieras en
centenares de pases ha
creado un hub de datos que
abarca toda la empresa. El
objetivo consiste en llevar a
cabo anlisis de Big Data e
identificar los macropatrones y
las macrotendencias claves en
la interaccin con los clientes.
U
 na gran empresa tecnolgica
ha creado un cloud de anlisis
que abarca toda la empresa
para agilizar el plazo de
comercializacin de los
productos basados en datos,
incluyendo los conjuntos de
datos nuevos en los anlisis
que realizan todas las
unidades de negocio.

22 | Informatica: El gran cuaderno del Big Data

U
 na organizacin mundial de
asesora financiera ha creado
una infraestructura lgica de
data warehouse con el fin de
garantizar que haya
informacin coherente a
disposicin en todas las
plataformas estndar (entre
otras, Hadoop, bases de datos
operativas y data warehouses
tradicionales) que se utilizan
en ella.
En resumen, el Big Data tiene
grandes repercusiones, pero
exige unas bases adecuadas.

ParteB.
Su estrategia
A continuacin, seremos prcticos y nos
fijaremos en los requisitos especficos de
suprximo (oprimer) proyecto de Big Data.

Volver al ndice

23 | Informatica: El gran cuaderno del Big Data

<

598 m.
55 mph.

Definicin de
sus objetivos

276 m.
70 mph.

101 m.
75 mph.

Coja lpiz y papel. Como ya hemos sealado,


la principal causa del fracaso de los proyectos
de Big Data es la falta de objetivos claros.
Vamos a asegurarnos de que el proyecto que
tiene en mente no se pierda en ambigedades.
501 m.
69 mph.

411 m.
67 mph.

136 m.
72 mph.

Definicin de sus
objetivos

Objetivos de negocio
Empezaremos por el
negocio porque, para
que el proyecto reciba
una buena acogida, sus
objetivos han de tener
prioridad sobre los
deTI.

Los objetivos que se planteen


conseguir para el negocio con el
proyecto deben ser lo ms
especficos posibles. Recuerde
definir objetivos cuyos efectos se
puedan cuantificar.
Por ejemplo, en el proyecto de la
interfaz del servicio de atencin
al cliente que permite predecir la
rotacin de clientes, no se deben
enumerar objetivos tan
imprecisos como "mejorar la
experiencia del cliente".

25 | Informatica: El gran cuaderno del Big Data

Cuanto ms claros sean los


objetivos, ms cerca estar de
alcanzarlos. Cinco objetivos muy
restringidos valen ms que uno
general.

Definicin de sus
objetivos

Objetivos de negocio
Enumere, por orden de importancia, los objetivos
de su proyecto de Big Data que guarden relacin
con el negocio y los usuarios de negocio. (Indique
tantos o tan pocos objetivos como desee).
Ejemplo: Reducir la rotacin de clientes.

Cunto tiempo debe llevar


el proyecto de Big Data?

Anote los plazos mnimo y mximo en que


se debe alcanzar cada objetivo.
Ejemplo: De tres a seis meses.

Hemos colaborado con clientes


que han completado proyectos
tcticos en menos de tres meses
y con otros que han invertido tres
aos en terminar programas de
base.

Ahora, por cada objetivo, escriba una medida de


xito que sirva para determinar si se ha alcanzado.
Lo idneo es que aporte mtricas o clculos.
Ejemplo: Reducir la rotacin media mensual
enunX%.

26 | Informatica: El gran cuaderno del Big Data

El proyecto de Big Data debe


tardar tanto tiempo como sea
necesario para desplegar todo su
valor. En nuestra experiencia, el
mbito de aplicacin del proyecto
dicta el plazo.

Si su proyecto es largo, tenga en


cuenta que conviene demostrar su
valor cada seis meses. Si adopta
un enfoque gil en el proyecto, le
resulta ms sencillo presentar las
diferentes fases y los distintos hitos
como proyectos ms pequeos.
Lo que est claro es que no puede
"suponer" cunto va a tardar.
Calcule una estimacin del plazo
basndose en su experiencia y en
la de otros que hayan emprendido
proyectos parecidos antes. Si no
sabe a quin acudir, no dude en
ponerse en contacto con nosotros.

Definicin de sus
objetivos

Objetivos deTI
A continuacin, fijmonos en los
objetivos deTI relacionados con
su proyecto.
(Recuerde que, si su proyecto
pretende agilizar o mejorar el
trabajo deTI, le va a costar
vendrselo a los usuarios de
negocio. Por eso, conviene
comunicar los objetivos deTI
junto con los objetivos que ya
entusiasman a los usuarios de
negocio).

Enumere, por orden de importancia, los objetivos


de su proyecto de Big Data que guarden relacin
conTI. (Indique tantos o tan pocos objetivos como
desee).
Ejemplo: Establecer procesos para recopilar,
limpiar, controlar y almacenar en tiempo real datos
agregados de clientes, datos de uso de tarjetas de
crdito, datos de grficos sociales e indicadores de
rotacin.

27 | Informatica: El gran cuaderno del Big Data

Detngase, colabore y escuche


Hemos redactado este cuaderno
para que le resulte ms fcil iniciar
su proyecto de Big Data, tanto si
trabaja para el negocio como si lo
hace paraTI. Sea como fuere,
nodeje los objetivos en el aire.
Si precisa orientacin concreta
sobre las posibles pretensiones,
llame a un compaero con
experiencia en el campo e inicie
ya la colaboracin.
Para que el proyecto tenga xito,
es indispensable la colaboracin
estratgica.

Definicin de sus
objetivos

Objetivos deTI
Anote los plazos mnimo y mximo en que
se debe alcanzar cada objetivo.
Ejemplo: De dos a cuatro meses.

28 | Informatica: El gran cuaderno del Big Data

Ahora, por cada objetivo, escriba una medida de


xito que sirva para determinar si se ha alcanzado.
Lo idneo es que aporte mtricas o clculos.
Ejemplo: Porcentaje exacto de prediccin
derotacin delX%

Definicin
de sus
necesidades
de datos
Una vez descritos los objetivos concretos de su
iniciativa de Big Data, pasemos al meollo del
proyecto: los datos en s. En cualquier proyecto,
ha de mantener una mentalidad estratgica
acerca de la informacin necesaria, los
conjuntos de datos que cubren esa necesidad,
lamanera de obtenerlos y la forma de
utilizarlos.

Definicin de sus
necesidades de datos

Datos necesarios
Antes de nada, fijmonos en la
finalidad ms bsica de su
proyecto de Big Data: la
informacin que desea
proporcionar a su organizacin.
Responda a las preguntas
siguientes con tanta
minuciosidad como pueda.

Para alcanzar los objetivos de negocio antes


descritos, segn los usuarios de negocio, qu
deben saber para tomar decisiones fundadas?
Ejemplo: Qu clientes ms valorados tienen
probabilidades de descartar la empresa y qu
comportamientos se relacionan con la rotacin.

30 | Informatica: El gran cuaderno del Big Data

Qu datos sirven para aportar esos


conocimientos?
Ejemplo: Historial de compras del cliente, crticas,
porcentaje de compras, porcentaje de abandono,
porcentaje de rechazo y calidad del servicio de
atencin al cliente.

Definicin de sus
necesidades de datos

Datos necesarios
Qu sistemas de origen contienen esos conjuntos
de datos?
Ejemplo: Registros del servicio de atencin al
cliente, mtricas de rendimiento de productos,
base de datos de actividad del cliente y gestin de
datos maestros de clientes.

31 | Informatica: El gran cuaderno del Big Data

Aparte de los datos ya sealados, existe alguna


otra informacin que aporte contexto o ms valor
alos anlisis?
Ejemplo: Encuestas del servicio de atencin al
cliente, anlisis de la competencia, datos
meteorolgicos y datos de redes sociales.

Definicin de sus
necesidades de datos

Datos necesarios
A la caza de los datos
inescrutables

Qu conjuntos de datos con el acceso vedado


ahora mismo podran incluir datos contextuales
adicionales?
Ejemplo: Datos de redes sociales de terceros, datos
de mercado de terceros y datos meteorolgicos.

Cuando contemple los conjuntos


de datos cuyo acceso tiene
vedado, no se limite a los datos
ajenos a su organizacin. Segn
Gartner, la mayora de las
empresas utiliza apenas el15% de
los datos internos de la
organizacin . Segn Appfluent,
empresa que realiza anlisis
estadsticos sobre el uso de data
warehouses, entre el30% y
el70% de los datos de los data
warehouse estn inactivos.
2

El resto permanece en silos,


archivos heredados y almacenes
de datos de difcil acceso, caros
de usar o complicados de
encontrar, lo cual no supondra
ningn problema salvo por el
hecho de que ya est pagando
por almacenar todos esos datos.
Cuando busque los datos que
necesita, merece la pena echar un
vistazo primero a los datos que ya
posee su organizacin.

32 | Informatica: El gran cuaderno del Big Data

 itio web de Gartner: www.gartner.com/technology/topics/


S
big-data.jsp

Definicin de sus
necesidades de datos

Cinco consideraciones clave


en torno a los datos
Tras describir los datos que va a
buscar, ya cuenta con una visin
ms clara de los retos concretos
que le plantea el Big Data. Hay
cinco elementos en particular
que debe tener en cuenta antes
de seguir adelante, ya que dictan
las necesidades tanto de cada
conjunto de datos como del
conjunto de datos del Big Data.

1
Preprese para un gran volumen
Preprese para afrontar la
infinidad de datos que va a
precisar. En todas las
dimensiones, clasifique los datos
por su valor (por ejemplo,
transacciones de clientes), su uso
(frecuencia de acceso), su
tamao (gigabytes, terabytes), su
complejidad (datos de mquinas,
datos relacionales, vdeos) y
las personas con acceso a ellos
(solo los especialistas en datos o
cualquier usuario de negocio).

33 | Informatica: El gran cuaderno del Big Data

Un inventario concienzudo y
organizado de los datos facilita
la decisin de cmo gestionarlos.
Evale la capacidad actual de
almacenamiento y
procesamiento y busque los
mtodos ms rentables y
eficientes para hacerla
escalable.

Definicin de sus
necesidades de datos

Cinco consideraciones clave


en torno a los datos
2

Tenga en cuenta la diversidad


El aspecto ms complicado del
Big Data radica en la multitud de
formatos y estructuras que debe
conciliar en sus anlisis. Tiene
que integrar varias fuentes si
desea incluir estructuras y tipos
de datos nuevos (sociales,
de sensores o de vdeos) con
las fuentes a las que estn
acostumbrados (relacionales o
mainframes heredados).

Controle la velocidad
La codificacin manual de cada
integracin precisa resulta tan
engorrosa que puede consumir
todo el tiempo y todos los
recursos de que dispone.
Aproveche al mximo las
herramientas disponibles de
integracin y calidad de datos
para agilizar el proceso y
dedicarse a tareas ms tiles.

34 | Informatica: El gran cuaderno del Big Data

Por lo general, al combinar la


transmisin de datos en tiempo
real con los datos histricos,
aumenta el potencial predictivo
de los anlisis. Por ello, algunos
de los datos que le interesan solo
tienen valor si fluyen de manera
constante hacia sus sistemas.

En efecto, casi todos los anlisis


en tiempo real se tienen que
basar en transmisiones de datos
que, a menudo, proceden de
fuentes diferentes y tienen
distintos formatos. Integre en el
proyecto alguna tecnologa de
anlisis de transmisiones y una
infraestructura lgica que le
permitan gestionar todos los
datos.

Definicin de sus
necesidades de datos

Cinco consideraciones clave


en torno a los datos
4

Compruebe la veracidad

Da igual lo relevantes que sean


sus anlisis: no valen nada si los
usuarios no pueden tener una
confianza razonable en los datos
que incluyen. Cuantos ms datos
analice, ms importante es que
mantenga la mxima calidad
dedatos.

Tenga en consideracin
elcumplimiento
Para que los datos sirvan a un fin
determinado, tiene que conocer
dicho fin. Si un especialista en
datos busca patrones en datos
agregados de clientes, la
preparacin necesaria es mnima.
Sin embargo, los datos de los
informes financieros y de la
cadena de suministro exigen un
elevado grado de conservacin,
limpieza y certificacin de
precisin y cumplimiento.
Cree categoras basadas en la
preparacin indispensable que
vayan desde datos sin procesar
hasta almacenes conservados y
controlados de datos limpios,
fiables y fidedignos.

35 | Informatica: El gran cuaderno del Big Data

Los distintos conjuntos de datos


que va a manejar tienen
diferentes requisitos y
condiciones de seguridad.
Encada conjunto de datos, se
debe plantear qu hace falta
para mantener el anonimato de
los datos conforme a las polticas
deseguridad.
Montones de datos proliferarn
en centenares de almacenes por
toda la empresa. Entrese de
dnde residen los datos
sensibles, protjalos en la fuente
mediante cifrado y,
acontinuacin, controle
quinestienen acceso a ellos.

Adems de archivar de forma


segura e inteligente los datos
sensibles, enmascrelos con
reglas predefinidas cada vez que
los migre o los introduzca en los
entornos de desarrollo y prueba.
Aplique estas cinco
consideraciones a todos los
conjuntos de datos que maneje
yno tendr problemas para
superar de forma ms realista los
retos que plantea el Big Data.

ParteC.
Su eficaz cadena
de suministro de
datos
Los mtodos tradicionales de business intelligence y data
warehouse no se escalan para cubrir las necesidades de las
iniciativas de Big Data. Por eso, a continuacin, veremos la
manera de escalar su equipo, sus procesos y su
infraestructura.
Volver al ndice

36 | Informatica: El gran cuaderno del Big Data

<

Su
equipo
Su equipo de Big Data representa tanto su
mayor reto como su mayor oportunidad.
Debe hallar el delicado equilibrio entre
quienes comprenden los objetivos de negocio
yquienes saben ejecutar los requisitos tcnicos.

Su equipo

Cinco lecciones bsicas


paraformar equipos
La mayora de las
organizaciones
infravalora el grado de
competencias que hace
falta para aplicar una
tecnologa nueva como
Hadoop.

Las estructuras de datos


distribuidas son simplemente
difciles de gestionar. Desde los
conocimientos de Java
requeridos para el desarrollo con
Hadoop hasta las nuevas
competencias especializadas en
datos que tendr que contratar,
va a tener que reunir un nmero
considerable de competencias
nuevas para que su proyecto
3
eche a volar .

Cuando forme el equipo, no


olvide incorporar las siguientes
lecciones a la estrategia de
contratacin.

38 | Informatica: El gran cuaderno del Big Data

InfoWorld: "Hadoop, Python, and NoSQL lead the pack for big
data jobs", 5 de mayo de2014 (www.infoworld.com/t/it-jobs/
hadoop-python-and-nosql-lead-the-pack-big-data-jobs-241884)

Su equipo

Cinco lecciones bsicas


paraformar equipos
1

Aproveche las competencias por


las que contrat a su personal

Uno de los mayores errores que


cometen las empresas cuando
contratan especialistas en datos
y analistas cuantitativos consiste
en obligarlos a hacer el trabajo
sucio. Si sus recursos ms
competentes invierten su tiempo
en la codificacin manual de las
integraciones de datos y en la
limpieza de los datos, no solo
consigue que se sientan
frustrados sino que, adems,
desaprovecha las competencias
que le han resultado tan difciles
de hallar.

Mantenga una mentalidad


estratgica acerca de la
composicin del equipo
Concentre las competencias que
escasean en las tareas que de
verdad las necesitan. No le
interesa que esas personas
abandonen el barco, y mucho
menos que pierdan el tiempo en
trabajos que podra acometer
con cualquier herramienta.

Si todo sale como es debido,


crecern tanto el mbito como los
recursos del proyecto. Piense
ahora en la estrategia para
ahorrarse la dura realidad de no
poder escalar ciertos procesos
con la suficiente rapidez porque
solo hay un nmero limitado de
personal con las competencias
precisas, incluso en Silicon Valley.
Si se ampla el mbito de
aplicacin del proyecto, qu
posibilidades reales hay de
encontrar a tiempo las
competencias que cubran esas
necesidades? Por ejemplo, los
especialistas en datos son

infinitamente ms difciles de
encontrar, formar y contratar
4
quelos desarrolladores .
El equilibrio del equipo es
crucial. Ha de buscar la mezcla
perfecta de la experiencia en
gestin de datos adquirida con
tesn y el entusiasmo por
aprender herramientas nuevas.
Adems, debe lograr el
equilibrio entre el personal con
conocimientos tcnicos y el
personal con la experiencia en el
campo precisa para crear los
modelos adecuados.

39 | Informatica: El gran cuaderno del Big Data

 all Street Journal: "Big Datas High-Priests of Algorithms",


W
8 de agosto de2014 (http://online.wsj.com/articles/
academic-researchers-find-lucrative-work-as-big-datascientists-1407543088)

Su equipo

Cinco lecciones bsicas


paraformar equipos
3

Ajuste los objetivos del proyecto


cuanto antes y, luego,
comunquelos
Uno de los errores ms comunes
que cometen las empresas
cuando contratan personal nuevo
consiste en olvidar comunicar los
autnticos objetivos del proyecto.
Desde la primera entrevista
yentodo momento hasta el
desempeo del trabajo en s,
debe dejar meridianamente
claro qu pretende ofrecer a los
usuarios de negocio. Aproveche
el respaldo de los ejecutivos para
explicar la misin y compartir
tanto los casos prcticos como
los problemas.

Cuando el equipo se ampla,


tambin es mayor la necesidad
de gestionarlo
Si no entienden a la perfeccin
elvalor de negocio del proyecto,
corre el riesgo de que los
empleados nuevos crean que
solo deben tener en cuenta los
objetivos deTI.

40 | Informatica: El gran cuaderno del Big Data

A diferencia de la tecnologa
nueva, que se puede implantar,
implementar e integrar de forma
objetiva, el personal nuevo se
tiene que acostumbrar al puesto
de trabajo, a sus cometidos y al
motivo por el que se les
encomiendan. Puede ser usted o
cualquier otro, pero alguien tiene
que afrontar el reto de gestin
que plantea un equipo nuevo.

No conviene infravalorar
elementos como la cultura o la
cohesin. Reflexione largo y
tendido sobre el modo de
integrar a los empleados nuevos
en sus procesos. Quiz no pueda
ensearles competencias pero,
sin duda, puede ayudarlos a ser
mejores miembros del equipo.

Su equipo

Cinco lecciones bsicas


paraformar equipos

Una decisin importante que


deber tomar una y otra vez es la
de crear las funcionalidades con
herramientas automatizadas o
mediante integraciones manuales.

5
Su equipo no puede
permitirsequedarse parado
Todos los das surgen tecnologas
de Big Data y las que ya existen
evolucionan con rapidez. Se
trata de un momento fascinante
para las empresas que tienen el
coraje de adoptar las mejores
prcticas enseguida. Ahora bien,
tambin representa el reto
definitivo de obtener ventaja
frente a la competencia.

Importancia de la estrategia

Su personal tiene que desarrollar


sus competencias tan rpido
como cambia el mundo que lo
rodea. La buena noticia es que
nada motiva ms a los buenos
empleados que el reto de ir por
delante de los acontecimientos.
El desafo radica en ofrecer la
formacin y el debate que
precisan para seguir
aumentando tanto sus
capacidades como las suyas.

La codificacin manual ofrece un


control completo y preciso sobre el
objeto de la creacin. A menudo,
tiene un valor incalculable y es
necesaria si, por ejemplo, desea
crear una secuencia compleja
para extraer metadatos de una
forma que an no es posible.
Las herramientas, por su parte,
ofrecen mayor agilidad y la
capacidad de repetir de manera
sostenible el mismo proceso. En
tareas como la integracin y la
calidad de datos, son cruciales
porque, gracias a ellas, no obliga
a los superdotados analistas y
especialistas a encargarse del
trabajo sucio.
Sea realista con sus recursos.
Si no puede formar un equipo tan
nutrido ni tan brillante como el de
Google, no malgaste sus escasos
recursos en el intento.

41 | Informatica: El gran cuaderno del Big Data

Su equipo

Establecimiento de la
gobernanza de datos
Si (y, esperemos, cuando)
emprende una iniciativa de Big
Data ms bsica, debe implantar
la estructura de procedimientos
para la gobernanza de datos.
De hecho, aunque el proyecto de
Big Data tenga como objetivo
ofrecer valor a un solo
departamento, puede ser
interesante crear una comisin
reducida de gobernanza de
datos para aprender a superar
los retos nicos que tal
organismo presenta.

En esencia, la comisin de
gobernanza de datos es el
organismo formal de ejecutivos
que tiene el cometido de
supervisar el enfoque de los
datos de la empresa,
pero tambin debe incluir
administradores de datos, esto
es, personal funcional o de un
departamento determinado que
se encarga de gestionar los
datos procedentes de una unidad
de negocio concreta.
(De hecho, algunos de nuestros
clientes asignan funciones de
administracin de datos segn el
dominio de datos. Eso significa
que una persona tiene a su cargo
los datos de los productos, otra
se ocupa de los datos de los
clientes, y as sucesivamente.)

42 | Informatica: El gran cuaderno del Big Data

Su equipo

Establecimiento de la
gobernanza de datos
Se debe proponer crear procesos
que garanticen que la estructura
de gobernanza de datos resulte
ms positiva que negativa.
Trabaje de forma activa para
que no se convierta en una carga
burocrtica asegurndose de
que todos los implicados se
comprometen a alcanzar los
mismos objetivos en los mismos
plazos.
La estructura de gobernanza de
datos debe poseer las cinco
caractersticas siguientes.

Transversal

Comunicativa

Una comisin de gobernanza de


datos cuyos miembros tengan
funciones parecidas es del todo
ineficaz. El objetivo consiste en
crear un organismo donde estn
representadas las visiones y las
necesidades exclusivas de cada
una de las unidades de negocio
a las que est dirigido el
proyecto de Big Data.

Sin una comunicacin fluida


entre las funciones, los
departamentos y los dominios, es
probable que el proyecto quede
enterrado en burocracia y
malentendidos. Esto sucede con
demasiada frecuencia.
Asegrese de que todas las
inquietudes se calman o reciben
una respuesta apropiada.

43 | Informatica: El gran cuaderno del Big Data

Su equipo

Establecimiento de la
gobernanza de datos
3

Eficiente

Comprometido

Centralizado

El proceso transversal no debe


suponer un obstculo.
Hace falta una gran agilidad
para que el proyecto de Big Data
llegue a buen puerto. Por eso,
integre reglas de comunicacin
de excepciones y de
automatizacin siempre que sea
factible y adopte herramientas
de colaboracin que mantengan
lneas de comunicacin
oportunas abiertas.

Comunique los objetivos


principales del proyecto con
eficacia y compruebe que todos
los implicados en la estructura de
gobernanza de datos se dedican
a conseguir esos objetivos. Tanto
los planteamientos de
gobernanza como la toma de
decisiones se deben regir por los
objetivos comunes.

El mayor reto de la estructura de


gobernanza de datos se presenta
a la hora de dar prioridad a los
objetivos de una unidad de
negocio frente a los de otra que
tambin cuenta con
representacin en la comisin.
Las decisiones se deben sustentar
en los beneficios a largo plazo
para toda la comisin aunque
ello suponga que los beneficios a
corto plazo se aprecien solo en
una unidad de negocio.

44 | Informatica: El gran cuaderno del Big Data

Su equipo

Competencias que necesita


ycompetencias que posee
Vuelva a coger lpiz y papel.
Ahora que ya sabe las diversas
oportunidades y los distintos
inconvenientes subjetivos que
presentar el nuevo equipo,
imaginemos su composicin.

En la pgina siguiente, se
enumeran las funciones para Big
Data basadas en los puestos que
han cubierto nuestros clientes.
Segn el personal de que
dispone ahora mismo y del plazo
previsto de ejecucin del
proyecto (indicado al principio
de la seccin en la pgina24),
apunte el nmero de personas
que debe contratar.

45 | Informatica: El gran cuaderno del Big Data

Su equipo

Funcin

Especialista en datos

Tiene ya a alguien
capaz de desempear esta funcin?
o

Experto en dominios
Analista de negocio
Analista de datos
Ingeniero de datos
Administrador de bases de datos
Arquitecto empresarial
Arquitecto de soluciones de negocio
Arquitecto de datos
Administrador de datos
Desarrollador de ETL (integracin
de datos)
Desarrollador de aplicaciones
Desarrollador de cuadros de mando
Modelador estadstico
Otro
Otro
Otro
Otro
Otro
46 | Informatica: El gran cuaderno del Big Data

Es preciso contratar
a alguien para esta
funcin

Por el tiempo disponible, es preciso


contratar a este
nmero de personas

Necesidad de una
mentalidad integradora
Cuando salga en busca de nuevos
miembros para el equipo, no se
limite a personas con la
cualificacin correcta. No se
equivoque: encontrar a personas
con la cualificacin correcta ya es
un reto en s mismo pero, aparte,
debe buscar gente que est
dispuesta a asumir los objetivos de
negocio y que cuente con
competencias tcnicas.
Nuestros clientes no paran de
repetirnos la importancia que
reviste que quienes se incorporan
a los proyectos de Big Data
comprendan la realidad del
negocio y estn especializados en
datos complejos. Este tipo de
mentalidad integradora es
importante y difcil de encontrar.
Merece la pena fomentarla con
formacin y los resultados tambin
valen el esfuerzo.

10356
98276

Sus
herramientas

41523

10392
60303

Tal como hemos observado ya varias veces, las


herramientas que emplee desempean un papel
estratgico en la ejecucin del proyecto de
BigData. En esta seccin, vamos a fijarnos
enlas herramientas de las que dispone y
enlasque necesita.
18456

63002

15234

45623

Sus herramientas

Examen de las herramientas


del Big Data
Segn nuestra experiencia, las
herramientas siguientes resultan
esenciales en la arquitectura
precisa para los proyectos de Big
Data (la arquitectura se aborda
en profundidad ms adelante).
Por supuesto, sus objetivos y sus
recursos condicionan la
combinacin tecnolgica
apropiada para su proyecto
concreto.
Repase esta lista de herramientas
y marque con una equis ( ) las
ms importantes (y pertinentes
desde el punto de vista
estratgico) para su proyecto.

Incorporacin de datos
Proceso consistente en el
consumo apropiado, eficiente y
metdico de los datos
necesarios.
Carga en batch
Dispone de acceso a todos
los tipos de datos que necesita
y puede escalar con eficiencia
la ejecucin de la carga en
batch en sus almacenes de
datos?
Captura de cambios de datos
Puede capturar los cambios
efectuados en los datos de sus
sistemas de origen sin que
estos se vean afectados?

48 | Informatica: El gran cuaderno del Big Data

Transmisin de datos
Puede recopilar de manera
fiable datos en tiempo real y
transmitirlos a sus almacenes
de datos?
Archivado
Puede archivar y comprimir
los datos que no se utilizan con
frecuencia y, al mismo tiempo,
garantizar el fcil acceso a los
datos archivados cuando sean
necesarios?

Sus herramientas

Examen de las herramientas


del Big Data
Repase esta lista de herramientas
y marque con una equis ( ) las
ms importantes (y pertinentes
desde el punto de vista
estratgico) para su proyecto.

Gestin de datos
Polticas, procesos y prcticas
imprescindibles para gestionar
de manera adecuada la eficacia,
la precisin, la fiabilidad y la
disponibilidad de los datos.
Integracin de datos
Puede preparar y consolidar
estructuras y fuentes diversas
en un conjunto de datos
cohesionado para el anlisis?
Calidad de datos
Puede limpiar con fiabilidad
los datos as como eliminar los
duplicados y los errores?

49 | Informatica: El gran cuaderno del Big Data

Seguridad de datos
Puede detectar y proteger los
datos en todos los almacenes
de datos asignando reglas
relativas al uso, al acceso y a
los permisos?

Estructura de datos distribuida


Puede emplear una
tecnologa como Hadoop para
escalar de forma rentable las
exigencias de almacenamiento
y procesamiento?

Mquina virtual de datos


Puede crear una capa de
abstraccin para los datos que
asocie con amplitud el
procesamiento de datos desde
el entorno de implantacin
subyacente?

Data warehouse
Dispone de alguna tecnologa
de data warehouse que admita
los requisitos de rendimiento,
uso y escalabilidad que tienen
los anlisis de Big Data y las
integraciones con las
infraestructuras de Hadoop?

Gestin de datos maestros


Puede almacenar una nica
versin consolidada, completa
y fidedigna de la realidad de
los diversos dominios de
datos?

Sus herramientas

Examen de las herramientas


del Big Data
Repase esta lista de herramientas
y marque con una equis ( ) las
ms importantes (y pertinentes
desde el punto de vista
estratgico) para su proyecto.

Entrega de datos
Proceso consistente en enviar los
datos que posee a los sistemas y
las aplicaciones que los
necesitan.
Carga en batch
Puede escalar con eficiencia
la carga en batch de los datos
entre los sistemas back-end
operativos, los anlisis y las
fuentes?
Transmisin en tiempo real
Puede ofrecer transmisin de
datos en tiempo real a las
aplicaciones, los anlisis y los
sistemas back-end que la
requieren?

50 | Informatica: El gran cuaderno del Big Data

Hub de integracin de datos


Puede hacer que los datos
estn disponibles mediante un
enfoque como el del modelo
de publicacin y suscripcin
afin de evitar la proliferacin
de integraciones de punto
apunto?
Virtualizacin de datos
Puede entregar datos de sus
sistemas sin sobrecargarlos?
Procesamiento basado en
eventos
Puede detectar y analizar
amenazas, oportunidades y
otros eventos crticos para el
negocio y darles una respuesta
en tiempo real?

Sus herramientas

Examen de las herramientas


del Big Data
Repase esta lista de herramientas
y marque con una equis ( ) las
ms importantes (y pertinentes
desde el punto de vista
estratgico) para su proyecto.

Anlisis
Herramientas y procesos que
permiten convertir los datos sin
procesar en conocimientos,
patrones, predicciones y clculos
sobre el dominio objeto de
anlisis.
Visualizacin
Puede presentar sus datos y
conclusiones de manera que
resulten fciles de comprender
y asimilar?
Anlisis avanzados
Puede aplicar algoritmos
analticos de vanguardia a sus
conjuntos de datos a fin de
efectuar clculos complejos?

51 | Informatica: El gran cuaderno del Big Data

Aprendizaje automatizado
Puede aplicar algoritmos
avanzados de aprendizaje
automatizado con el fin de
identificar patrones y elaborar
predicciones imposibles de
manejar con su ancho de
banda manual?

De todas estas herramientas y


tecnologas, algunas como la
integracin de datos, la calidad
de datos y la gestin de datos
maestros son tan fundamentales
para la transicin al Big Data
que, en realidad, no merece la
pena reestructurarlas. No
desperdicie las valiosas
competencias ni las horas de
trabajo del proyecto de Big Data
en la cantidad de tiempo y
recursos que hace falta para
crear esas funcionalidades con
sus propias manos.
Recuerde cules son los objetivos
del proyecto y que estos no
incluyen una creacin
personalizada de absolutamente
todo.

Sus procesos
Pasemos a los procesos reales que precisa para
enfrentarse al Big Data. Aunque sus procesos
sean especficos segn sus objetivos y sus
requisitos, en esta seccin, se ofrece
informacin general sobre lo que cabe esperar
yaprender.

Sus procesos

Los ocho pasos del Big Data


A partir de la experiencia,
estamos en condiciones de
afirmar que las metodologas
giles constituyen un enfoque
excelente para los proyectos de
Big Data. Garantizan que
contenga las expectativas,
aprenda de los errores e itere el
camino hacia procesos ptimos.
Dicho lo cual, el enfoque de su
proyecto depende por completo
de su situacin y de sus
preferencias.
En todo caso, los ocho pasos
siguientes resultan cruciales para
la cadena de suministro del Big
Data. Sea cual sea el mtodo
elegido, asegrese de establecer
junto con su equipo procesos
eficaces para seguir estos pasos.

Acceso a los datos

Integracin de los datos

El primer reto consiste en adquirir


todos los datos necesarios. En
algunos casos, eso implica
capturar transmisiones de datos
y, en otros, extraerlos de una
base de datos. Configure
procesos repetibles y manejables
para garantizar que dichos datos
se puedan almacenar, a
continuacin, conforme a los
mtodos previstos.

El reto ms complejo del Big


Data guarda relacin con la
diversidad de estructuras y
formatos de datos.
Para lograr una ejecucin
sostenible de los anlisis, debe
configurar un proceso para
integrar y normalizar todos estos
datos. Lo ideal es que requiera el
mnimo procesamiento manual
posible.

53 | Informatica: El gran cuaderno del Big Data

Sus procesos

Los ocho pasos del Big Data


3

Limpieza de los datos

Control de los datos

Proteccin de los datos

Para que los anlisis sean


fiables, es imprescindible limpiar
los datos a fin de eliminar
duplicados, errores y datos
imprecisos o incompletos. El
proceso ha de garantizar que los
analistas y los especialistas ms
cualificados no pierden su
tiempo en "hacer la colada".

Una forma de mantener una


fuente fiable de datos limpios e
integrados consiste en establecer
un proceso para controlar los
datos. La finalidad es crear una
nutrida recopilacin de datos
consolidados, organizados por
dominios (productos, clientes,
etc.) y enriquecidos con
informacin del Big Data que se
pueda suministrar a todos los
dems sistemas.

Ha de establecer dos procesos


bsicos. El primero consiste en
definir las normas y las prcticas
de seguridad que exija cada
conjunto de datos; el segundo,
en detectar los datos sensibles y
enmascararlos de forma
persistente o dinmica para
garantizar la aplicacin uniforme
de esas normas y mejores
prcticas.

54 | Informatica: El gran cuaderno del Big Data

Sus procesos

Los ocho pasos del Big Data


6

Anlisis de los datos

Anlisis de las necesidades de


negocio

Aprovechamiento operativo
de la informacin

Importancia de la
documentacin

El proceso de anlisis depende


de los analistas, las herramientas
analticas y los requisitos
relacionados con los objetivos.
Resulta esencial mantener una
mentalidad que priorice la
deteccin iterativa y la mejora
continua ya que conviene que
este proceso sea mejor, ms
rpido, ms barato y ms
escalable con el tiempo y la
experiencia.

Se trata de un paso que, a pesar


de ser fundamental, casi siempre
se obvia. Establezca un proceso
claro para el anlisis de las
necesidades de negocio incluso
mientras se analizan los datos.
Es fundamental porque, si no
mantiene el pulso al negocio, se
arriesga a dividir los esfuerzos y
a minimizar la repercusin en el
negocio.

Como ya hemos destacado antes


en el cuaderno, es indispensable
que se perciba el impacto en el
negocio del proyecto de Big
Data. Cree procesos
automatizados para suministrar
las respuestas halladas a los
usuarios de negocio que ms las
necesitan. Por ejemplo, es
preciso poner los datos sobre los
clientes con ms probabilidad de
rotacin a disposicin de los
agentes del servicio de atencin
al cliente mediante un cuadro de
mando. No olvide incorporar
tambin un bucle de comentarios
para saber cmo se recibe
lainformacin.

Si domina estos ocho pasos, su


proyecto de Big Data marchar en
la direccin correcta. El objetivo
consiste en establecer procesos
claros, repetibles y escalables en
permanente mejora. Con ese fin,
la documentacin de dichos
procesos y las consiguientes
mejoras resultan vitales para el
equipo.

55 | Informatica: El gran cuaderno del Big Data

Las competencias, las


capacidades y las lecciones del
proyecto de Big Data han de ser
trasladables y se tienen que
comunicar con frecuencia.

92

93
362

Su
arquitectura

40

264

654

187 de suministro del Big Data 468


Para que la cadena
sea eficaz y efectiva, es imprescindible
garantizar que la arquitectura es slida y est
concebida de forma estratgica. En esta
seccin, veremos el aspecto de la arquitectura
de Big Data idnea y la manera de implantar
lasuya por fases.

78
157

62

61
50

Su arquitectura

Primeros pasos: zona depruebas


A la hora de crear la
arquitectura de su
proyecto de Big Data,
elpunto de partida
mslgico consiste en
configurar un entorno
dedesarrollo de
pruebas en el cual
probar datos para
asegurarse de que la
arquitectura sea viable.
Al hacerlo, tenga en
cuenta las
recomendaciones
siguientes.

Empiece con moderacin

El tamao importa

Si configura una zona de


pruebas bien definida en la que
ejerza un control absoluto, podr
iterar el mtodo hasta conseguir
una implementacin correcta.
Pngase en marcha cuanto antes
y documente las lecciones
aprendidas con cada iteracin.

La diferencia clave entre la zona


de pruebas y la implementacin
real radica en que el entorno de
produccin ser mucho ms
grande. Por ello, har falta un
procesamiento automatizado
para incorporar, integrar, limpiar
y distribuir los resultados. Por lo
tanto, hacen falta una estructura
mucho ms slida as como
procesos y componentes de
eficacia probada para que el
entorno de produccin activo sea
del todo fiable y flexible.

57 | Informatica: El gran cuaderno del Big Data

Su arquitectura

Primeros pasos: zona depruebas


Enmascare los datos antes de
probarlos

No se extrave en el camino

Cuando las organizaciones


emplean datos de prueba, suelen
utilizar una variante de sus datos
de produccin activos para
garantizar que los formatos y las
estructuras representen el entorno
activo. Lamentablemente, si no se
realiza un enmascaramiento
adecuado, los datos sensibles
pueden quedar expuestos en un
entorno nada seguro.

Una de las causas ms comunes


del aumento de costes y del
retraso de los proyectos de Big
Data es que los errores de
codificacin manual no
detectados en la zona de
pruebas se convierten en la peor
pesadilla del equipo cuando se
activa la arquitectura. Por eso, si
codifica a mano bastantes partes
de la arquitectura, no se
sorprenda si tiene que rehacer un
montn de cdigo para
satisfacer los requisitos de
produccin y contener las
expectativas. Tambin cuenta
con la alternativa de emplear de
primero herramientas de
productividad y automatizacin
que le eviten rehacer el cdigo y
subsanar los errores.

58 | Informatica: El gran cuaderno del Big Data

Su arquitectura

Arquitectura idnea
delBigData
En el diagrama siguiente, se
representa el modo en que
recomendamos crear la
arquitectura idnea de tecnologas
y procesos de Big Data.
Fuentes de datos
B
 ases de datos
relacionales
Mainframe
Documentos y correos
electrnicos
Redes sociales, datos de
terceros y archivos de
registro
Sensores de mquinas
Cloud pblico
Cloud privado

Incorporacin
de datos
Carga en batch
Captura de
cambios de
datos
Transmisin de
datos
Archivado

59 | Informatica: El gran cuaderno del Big Data

Gestin de datos





Integracin de datos
Calidad de datos
Mquina virtual de datos
Seguridad de datos
Gestin de datos maestros
Almacenamiento
escalable (por ejemplo,
Hadoop)
Data warehouse

Entrega de
datos
Carga en batch
Hub de
integracin de
datos
Virtualizacin
de datos
Procesamiento
basado en
eventos y en
tiempo real

Aplicaciones




Visualizacin
Aplicaciones mviles
Anlisis
Business intelligence
Cuadros de mando en
tiempo real

Plan de su
proyecto
Ya hemos analizado todos los aspectos de su
transicin al Big Data. A continuacin, srvase
de este plan como modelo para gestionar el
proyecto de Big Data desde su concepcin
hastasu implementacin.

Plan de su
proyecto

Plan de su proyecto
Emplee este plan de
proyecto como modelo
para documentar los
detalles y los diversos
elementos de su
proyecto de Big Data.
Luego, srvase del
documento compilado
como medio para
conseguir el respaldo
preciso del resto de la
organizacin.
Tambin le resultar de
utilidad para convencer
a socios externos.

Fase1: estrategia

Fase2: datos

Identificar los objetivos de negocio y deTI

Identificar la informacin necesaria

Definir las medidas del xito

Identificar los datos y las fuentes para


suministrarlos

61 | Informatica: El gran cuaderno del Big Data

Plan de su
proyecto

Plan de su proyecto
Fase3: cadena de suministro
Personal
oo Evaluacin de las
competencias necesarias
oo Evaluacin de las
competencias ya
disponibles
Proceso
oo Acceso a los datos
oo Integracin de los datos
oo Limpieza de los datos
oo Controla de los datos
oo Proteccin de los datos
oo Anlisis de los datos
oo Anlisis de las
necesidades de negocio

Herramientas
oo Informtica distribuida
(por ejemplo, Hadoop)
oo Calidad de datos
oo Integracin de datos
oo Gestin de datos maestros
oo Enmascaramiento de
datos
oo Visualizacin
oo Anlisis de transmisiones
oo Anlisis
oo Aprendizaje automatizado

62 | Informatica: El gran cuaderno del Big Data

Fase4: aprovechamiento operativo


de la informacin
Desarrollar cuadros de mando
Automatizar procesos para la entrega de datos
Configurar un proceso de comentarios

En
marcha

Srvase de las listas de comprobacin,


los principios y las directrices descritos
en este cuaderno para trasladar el
potencial del Big Data a su
organizacin. Sea cual sea (de
momento) la envergadura de su
proyecto, no nos cabe duda de que
cuenta con un mejor equipamiento
para salvar los numerosos escollos
que surgen en su camino.

En muchos sentidos, su primer


proyecto de Big Data va a ser el que
jams olvide. Desde los errores que,
sin duda, va a cometer hasta el
equipo que va a formar, est a punto
de iniciar un viaje de inmenso valor
estratgico para su empresa.
Si examina y evita los numerosos
inconvenientes que hemos tratado y
mantiene un firme compromiso con su
visin del proyecto, lograr cambiar
la forma de trabajar de su
organizacin.

No olvide plantear los recursos de


forma estratgica y desarrollar de
manera muy ajustada procesos y
competencias trasladables, escalables
y constante mejora. Si mantiene la
Esto es grande.
visin a largo plazo durante el
proyecto, preparar a su
organizacin para que realice
anlisis ms acertados y tome
decisiones ms documentadas
durante muchsimo tiempo.
63 | Informatica: El gran cuaderno del Big Data

Siguientes pasos
Est listo para aplicar lo aprendido?

Si es desarrollador de Informatica,
puede ser desarrollador de Hadoop.
Con nuestros servicios, nuestros
conectores y nuestras pruebas de
software de Big Data, tomar la senda
correcta.

64 | Informatica: El gran cuaderno del Big Data

Acerca de
Informatica
Ayudamos a las empresas a gestionar sus datos
para que obtengan de ellos un valor de negocio
cuantificable. Tambin estamos ayudando a
algunas de las mayores empresas del mundo a
examinar los errores ms comunes en la gestin
de datos para que tengan xito en sus proyectos
escalables y repetibles de Big Data.
Hablemos.

IN18-1014-2730