Вы находитесь на странице: 1из 3

Cómo construir una tubería de ciencia de datos

Comience con y. Concéntrese en formalizar el problema predictivo, construir el flujo de trabajo


y convertirlo en producción en lugar de optimizar su modelo predictivo. Una vez que lo
primero está hecho, lo último es fácil.

No hay debate sobre cómo funciona un flujo de trabajo predictivo que funciona bien cuando
finalmente se pone en producción. Las fuentes de datos se transforman en un conjunto de
características o indicadores X, que describen cada instancia (cliente, equipo, activo) sobre la
cual actuará la predicción. Luego, un predictor convierte a X en una información accionable
y_pred (¿el cliente se batirá ?, ¿fallará el equipo ?, ¿subirá el precio del activo?). En ciertos
mercados fluidos (por ejemplo, la orientación de anuncios), la predicción se monetiza a través
de un proceso totalmente automático, en otros casos se utiliza como soporte de decisiones
con un ser humano en el circuito.

El flujo de datos en una tubería de ciencia de datos en producción.

Esto suena simple, sin embargo, son raros los ejemplos de flujos de trabajo predictivos bien
monetizados y que funcionan. Las empresas luchan con el proceso de construcción. Las
preguntas que deben hacer son:

¿Quién construye este flujo de trabajo? ¿Cuáles son los roles y las habilidades que necesito
cubrir?

¿Cuál es el proceso de construcción? ¿Cuáles son los pasos y qué experiencia necesito en cada
paso?

¿Cuáles son los costos y riesgos en cualquiera de esos pasos y cómo los controlo?

El bombo sobre los desafíos de datos dio la falsa impresión de que el científico de datos y el
puntaje predictivo son los principales impulsores del proceso. Incluso los procesos industriales
(por ejemplo, CRISP-DM y Dataiku) que han existido desde los años noventa generalmente
ubican al científico de datos en el centro y la implementación al final del proceso. Si bien no
están equivocados, son en su mayoría irrelevantes. Crear y optimizar el predictor es fácil. Lo
difícil es encontrar el problema comercial y el KPI que mejorará, buscando y transformando los
datos en instancias digeribles, definiendo los pasos del flujo de trabajo, poniéndolo en
producción y organizando el mantenimiento del modelo y la actualización regular.

Las empresas generalmente comienzan con lo que parece ser un pan comido: pedir a sus
departamentos de TI que implementen la infraestructura de big data y construyan un lago de
datos. Luego contratan a sus primeros científicos de datos. Estos expertos, recién salidos de la
escuela y un puñado de desafíos de Kaggle, armados con el kit de herramientas de ciencia de
datos, están ansiosos por poner sus manos en los datos. ¡Pueden predecir cualquier cosa, y lo
hacen! Hablan con la unidad de negocios, encuentran objetivos de predicción razonables para
los que ya existen etiquetas, prueban una docena de modelos, los hipermocionan y eligen los
mejores. Construyen POC y envían informes a la unidad de negocios. Y luego comienza de
nuevo.

La forma habitual de construir un flujo de trabajo de ciencia de datos.

La mayoría de esos POC nunca entran en producción. La unidad de negocios no sabe qué hacer
con ellos. No pueden interpretar los puntajes. El objetivo de predicción parece razonable, pero
no tienen idea de cómo ganarán un dinero con su y_pred. Si lo hacen, poner el POC en
producción parece insuperable. El código tiene que ser reescrito. Los datos en tiempo real
deben ser canalizados al flujo de trabajo. Las restricciones operacionales deben ser satisfechas.
El sistema de soporte de decisiones necesita integrarse con las herramientas de trabajo
existentes de los usuarios. Se debe implementar el mantenimiento del modelo, la
retroalimentación del usuario y la reversión. Estas operaciones generalmente cuestan más y
crean más riesgos que los POC seguros en los que trabajó el científico de datos, y el POC
simplemente no puede impulsar el proceso.

El proceso que describo a continuación no resolverá estos problemas, pero le da un orden en


el que al menos puede abordar y controlar los costos y riesgos.

Primero, busque un jefe de datos (o más bien un arquitecto de valor de datos) a cualquier
costo que ya haya puesto en producción un flujo de trabajo predictivo. Su CDO no necesita
conocer la última arquitectura de aprendizaje profundo, pero debe tener una comprensión
amplia tanto del negocio de la compañía como del proceso de ciencia de datos. Ella debería
jugar un papel central e impulsar el proceso.

Obtener TI a bordo temprano es importante. Necesita su lago de datos, pero lo más


importante es que necesita ingenieros de datos para pensar en términos de producción desde
el primer día. Pero este no es el primer paso. El primer paso es averiguar si necesita una
predicción.

Entonces, comienza con y, el objetivo de predicción.

Su CDO debe trabajar estrechamente y durante mucho tiempo con la unidad de negocios para
descubrir lo que quieren saber. ¿Qué impulsa sus decisiones? ¿De qué manera una mejor
predicción de y mejorará el resultado final (reducción de costos, aumento de beneficios,
aumento de la productividad)? Una vez que tenga su y, intente monetizar el error de
predicción tanto como sea posible. No hay nada que haga que sus (futuros) científicos de datos
sean más felices que una métrica bien monetizada. Ellos sabrán que al mejorar su puntaje en
un 2%, usted gana un millón de dólares; más importante aún, sabrá cuánto puede gastar en su
equipo de ciencia de datos.

Una vez que cementa y y las métricas,

ir a buscar datos,

encuentre indicadores en su lago de datos y en otros lugares que puedan correlacionarse con
su objetivo de predicción. En principio, usted todavía no necesita un científico de datos para
esto, el proceso debe ser impulsado por el CDO y la BU (después de todo, ellos saben qué
información usan para sus decisiones, que generalmente es una gran referencia). Pero puede
ser útil tener a alguien que sepa qué hay en términos de datos abiertos y adquiribles. Aquí es
absolutamente necesario que hable con la TI para tener una idea de cuáles serán los costos
operativos cuando estos indicadores deban recopilarse en tiempo real. El científico de datos
necesita esta información. Si almacenar una nueva característica en cada cliente le cuesta 4 TB
por día, ese único hecho decide cómo se verá el predictor.

Ahora contrate un científico de datos, preferiblemente uno que también pueda desarrollar
software de calidad de producción. Házle

construir la configuración experimental y el flujo de trabajo de referencia

con una predicción simple y compruebe si puede ponerse en producción. En este punto, ya
está listo para el ciclo completo de ciencia de datos experimentales que los científicos de datos
saben cómo manejar. Es posible que necesite un especialista en aprendizaje profundo, pero es
probable que pueda externalizar y ampliar su primer modelo, por ejemplo, haciendo un RAMP
con nosotros.

Traductor de Google para empresas:Google Translator ToolkitTraductor de sitios web

Información del Traductor de GoogleComunidadMóvilAc

Вам также может понравиться