You are on page 1of 5

MANEJO DE LA BIG DATA

Con el auge del Big Data se ha redefinido el concepto de dato como tal dndole ms
importancia a la parte del almacenamiento y de cierta manera se ha llevado al olvido por
el usuario promedio el tema del manejo de la informacin, ya que por lo general cuando
se habla de datos se hace alusin (aunque sea de manera discreta) al manejo de base de
datos siendo esta la forma ms conocida y a su vez desconocida dentro de la
manipulacin de la informacin.
DATA SCIENTIST
El aumento progresivo de la Big Data ha hecho que surja la necesidad de encontrar un
profesional que, con ayuda de nueva tecnologa de datos, organice todos estos datos. Es
por ello que ha surgido el nuevo cientfico de datos como puesto de trabajo. Aunque no
ligada exclusivamente a proyectos de datos grandes, el papel cientfico de datos hace
complementarlos debido a la mayor amplitud y profundidad de los datos que se examina,
en comparacin con los roles tradicionales.
Un cientfico de datos representa una evolucin de la funcin empresarial o analista de
datos. El entrenamiento formal es similar, con una base slida tpicamente en ciencias de
la computacin y las aplicaciones, de modelado, estadsticas, anlisis y matemticas. Lo
que diferencia el cientfico de datos aparte es fuerte visin para los negocios, junto con la
capacidad de comunicar los resultados a ambos lderes empresariales y de TI de una
manera que puede influir en cmo una organizacin se acerca a un reto empresarial.
Cientficos de datos buena voluntad no slo hacer frente a los problemas de negocio, van
a recoger los problemas de derecho que tienen el mayor valor a la organizacin.
El papel cientfico de datos ha sido descrito como "el analista, mitad artista." Anjul
Bhambhri, vicepresidente de productos de datos grandes en IBM, dice: "Un cientfico de
datos es alguien que es curioso, que puede mirar a los datos y detectar tendencias. Es
casi como un individuo renacentista que realmente quiere aprender y lograr un cambio en
una organizacin ".
Mientras que un analista de datos tradicional puede mirar slo a los datos de una sola
fuente - un sistema de CRM, por ejemplo - un cientfico de datos lo ms probable es
explorar y analizar datos de mltiples fuentes dispares. El cientfico de datos tamizar a
travs de todos los datos entrantes con el objetivo de descubrir una visin previamente
escondido, que a su vez puede proporcionar una ventaja competitiva o tratar un problema
de negocio urgente. Un cientfico de datos no se limita a recoger e informar sobre los
datos, sino que tambin lo mira desde muchos ngulos, determina lo que significa,
entonces recomienda maneras de aplicar los datos.

Los cientficos de datos son curiosos: explorar, hacer preguntas, hacer "lo que si" el
anlisis, cuestionando supuestos y procesos existentes. Armado con datos y resultados
analticos, un cientfico de datos de primer nivel ser luego comunicar conclusiones y
recomendaciones informadas a travs de la estructura de liderazgo de una organizacin.

Este es el conjunto bsico de 8 competencias en ciencias de datos que debe


desarrollar:

Herramientas bsicas: No importa qu tipo de empresa que usted est


entrevistando para, es muy probable que va a esperar a saber cmo utilizar las
herramientas del oficio. Esto significa que un lenguaje de programacin
estadstica, como R o Python, y un lenguaje de consulta de bases de datos como
SQL.

Estadsticas bsicas: Por lo menos un conocimiento bsico de las estadsticas es


vital como un cientfico de datos. Un entrevistador una vez me dijo que muchas de
las personas que entrevist ni siquiera poda proporcionar la correcta definicin de
un valor de p. Usted debe estar familiarizado con las pruebas estadsticas,
distribuciones, estimadores de mxima verosimilitud, etc. Piense de nuevo a su
clase de estadsticas bsicas! Este ser tambin el caso de la mquina de
aprendizaje, pero uno de los aspectos ms importantes de su conocimiento
estadsticas ser entender cuando diferentes tcnicas son (o no son) un enfoque
vlido. La estadstica es importante en todos los tipos de empresas, pero las
empresas especialmente orientadas a datos si el producto no est interesados en
datos concentrados y productos depender de su ayuda para tomar decisiones y
el diseo / Evaluar experimentos.

Aprendizaje Automtico: Si usted est en una gran empresa con grandes


cantidades de datos, o trabajar en una empresa donde el producto en s es
especialmente impulsado por los datos, puede darse el caso de que usted querr
estar familiarizado con los mtodos de aprendizaje automtico. Esto puede
significar cosas como k-vecinos ms cercanos, los bosques aleatorios, mtodos de
conjunto - todos de las palabras de moda de aprendizaje automtico. Es cierto que
muchas de estas tcnicas se puede implementar utilizando bibliotecas R o Python
- debido a esto, no es necesariamente un motivo de ruptura si no eres el mayor
experto del mundo en cmo funcionan los algoritmos. Ms importante es entender
los broadstrokes y realmente entender cundo es apropiado utilizar diferentes
tcnicas.

Clculo multivariable y lgebra Lineal: Es posible que, de hecho, se les pedir a


derivar parte del aprendizaje de la mquina o de estadsticas resultados usted
emplea en otras partes de su entrevista. Incluso si usted no es, a su entrevistador
le puede pedir que algunos de clculo o lgebra lineal multivariable preguntas
bsicas, ya que constituyen la base de muchas de estas tcnicas. Usted puede
preguntarse por qu un cientfico de datos tendra que entender esto si hay un
montn de fuera de las implementaciones de la caja en sklearn o R. La respuesta
es que en un momento dado, puede convertirse en la pena por un equipo cientfico
de datos para construir sus propias implementaciones en casa. La comprensin de
estos conceptos es ms importante en las empresas donde el producto se define
por los datos y pequeas mejoras en el rendimiento predictivo o optimizacin
algoritmo puede llevar a grandes triunfos para la empresa.
"Cientfico de datos" se utiliza a menudo como un ttulo manta para describir
puestos de trabajo que son drsticamente diferentes. Po

Datos Munging: Muchas veces, los datos que est analizando va a ser complicado
y difcil de trabajar. Debido a esto, es muy importante saber cmo lidiar con las
imperfecciones de los datos. Algunos ejemplos de las imperfecciones de datos
incluyen valores perdidos, formateo de cadenas inconsistente (por ejemplo, 'Nueva
York' frente a 'new york' frente 'ny'), y el formato de fecha ("01/01/2014" vs. '01 /
01/2014 ' , unix tiempo frente a las marcas de tiempo, etc.). Esto ser ms
importante a las pequeas empresas en las que usted es un alquiler datos
temprano, o empresas controladas por datos en donde el producto no es de datos
relacionados (sobre todo porque este ltimo ha crecido rpidamente a menudo con
no mucha atencin a la limpieza de datos), pero esto habilidad que es importante
que cada uno tenga.

Visualizacin de Datos y Comunicacin: Visualizacin y datos comunicarse es muy


importante, sobre todo en las empresas jvenes que estn tomando decisiones
basadas en datos por primera vez o empresas en las que los cientficos de datos
son vistos como personas que ayudan a otras personas a tomar decisiones
basadas en datos. Cuando se trata de la comunicacin, esto significa que describe
sus hallazgos o la forma en tcnicas de trabajo para el pblico, tanto tcnicos
como no tcnicos. Visualizacin sabia, puede ser inmensamente til para estar
familiarizado con las herramientas de visualizacin de datos como ggplot y d3.js.
Es importante no slo estar familiarizado con las herramientas necesarias para
visualizar los datos, sino tambin los principios detrs de la codificacin visual de
datos y la comunicacin de informacin.

Ingeniera del software: Si usted est entrevistando a una compaa ms pequea


y es uno de los primeros empleados de la ciencia de datos, puede ser importante
tener una slida formacin de ingeniera de software. Usted ser responsable de
manejar una gran cantidad de registro de datos, y potencialmente el desarrollo de
productos basados en datos.

Pensando como C Datos Cientfico: Las empresas quieren ver que usted es un
solucionador de problemas (data-driven). Es decir, en algn momento de su
proceso de la entrevista, es probable que se pregunt sobre algn problema de
alto nivel - por ejemplo, acerca de una prueba de la empresa lo desea, puede
ejecutar o un producto basado en datos puede querer desarrollar. Es importante
pensar en qu cosas son importantes y qu cosas no lo son. Cmo se debe,
segn el cientfico de datos, interactuar con los ingenieros y gerentes de producto?
Qu mtodos se debe utilizar? Cuando hacen aproximaciones tienen sentido?

La ciencia de datos es an incipiente y mal definidos como un campo. Conseguir un


trabajo es tanto sobre la bsqueda de una empresa cuyas necesidades coincidir sus
habilidades, ya que est desarrollando esas habilidades. Este escrito se basa en mis
propias experiencias de primera mano - Me encantara saber si usted ha tenido
experiencias similares (o contraste) durante su propio proceso.
Nota: Dave es un cientfico de datos en Airbnb. Si eres curioso acerca de cmo funciona
el proceso de la entrevista la ciencia de datos en Airbnb, Riley Newman (jefe de la ciencia
de datos en Airbnb) ha escrito un gran mensaje el proceso de contratacin de ciencia de
datos de Airbnb en Quora.
xxxxxx
Para las personas entendidas del tema el escuchar la frase base de datos les trae a la
mente diagramas, relaciones, entidades y un sinfn de lineamientos para la creacin (y
acceso) a las mismas. Con esto se da por hecho que todas las bases de datos guardan
cierta similitud entre ellas y en parte as es pues desde SQLserver de Microsoft pasando
por PostgreSQL hasta el ya bien conocido MySQL utilizan el mismo modelado y el mismo
lenguaje estructurado de consultas (SQL); claro, cada uno con sus variantes pero la base
es la misma.
Existen diversos tipos de bases de datos en el mercado ms all del aceptado modelo
relacional, existen bases de datos orientadas a objetos, bases de datos
multidimensionales, orientada a grafos, entre otras. No todo es SQL pero si una gran parte
es por ello que dicho acrnimo es casi sinnimo de base de datos.

TECNOLOGIAS
En este mar de informacin digital, existen ciertos grupos de datos que son difciles de
capturar, almacenar, compartir, analizar o incluso visualizar, por su volumen, variedad y
velocidad. Aquellos que son difciles de gestionar se les llama Big Data y son todo un
desafo para las empresas.
Para facilitar su manejo, se han desarrollado una serie de tecnologas. Aqu te
presentamos algunas herramientas de cdigo abierto:

D3
Es una librera javascript que permite manejar documentos basados en datos y
visualizar la informacin de manera ms sencilla y atractiva. Puedes crear tablas o
grficos de barra, entre otras cosas, teniendo como objetivo que la exposicin a la
gran cantidad de datos no sea compleja.

Drill
Un gran volumen de datos acrecienta la demanda por una forma rpida de
analizarlos. Esta herramienta permite hacer un anlisis interactivo de conjuntos de
datos. Con ella podrs escanearlos y visualizarlos en pocos segundos. Drill es una
versin de cdigo abierto de lo que hace Dremel de Google, la que analiza
petabytes (un milln GB) de datos en pocos segundos.

SAP Hana
Es una plataforma que permite analizar la informacin y adems, crear procesos
de anlisis de los datos. Con SAP Hana se pueden reunir en una sola plataforma
las aplicaciones de racionalizacin, anlisis y planificacin de los datos de un
negocio. Esta herramientatrabaja con sistemas de almacenamiento de memoria
slida, como las tarjetas SSD que usan los celulares y las tablets que, a diferencia
de los discos duros convencionales, permiten almacenar mayor cantidad de datos
y analizarlos ms rpidamente.