Вы находитесь на странице: 1из 7

Prueba y validacin (minera de datos)

La validacin es el proceso de evaluar cul sera el rendimiento de sus modelos de minera de datos con datos reales. Es importante que valide sus modelos de minera de datos entendiendo su calidad y sus caractersticas antes de implementarlos en un entorno de produccin. Mtodos de prueba y validacin de los modelos de minera de datos Existen muchos enfoques a la hora de evaluar la calidad y las caractersticas de un modelo de minera de datos. Use varias medidas de validez estadstica para determinar si existen problemas en los datos o en el modelo. Separe los datos en conjuntos de entrenamiento y de prueba con el fin de probar la precisin de predicciones. Solicite a los expertos comerciales que revisen los resultados del modelo de minera de datos para determinar si los patrones detectados tienen sentido en un escenario empresarial concreto. Todos estos mtodos son tiles para la metodologa de minera de datos y se usan de forma iterativa a la hora de crear, probar y refinar modelos para responder a un problema concreto. No hay ninguna regla completa nica que pueda indicarle si un modelo es suficientemente bueno, o si cuenta con suficientes datos. Definicin de los criterios para validar los modelos de minera de datos Las medidas de minera de datos se suelen agrupar en las categoras de precisin, confiabilidad y utilidad. La precisin es una medida que indica hasta qu punto el modelo pone en correlacin un resultado con los atributos de los datos que se han proporcionado. Existen varias medidas de precisin, pero todas ellas dependen de los datos que se utilicen. En realidad, podran faltar valores o stos ser aproximados, o incluso diferentes procesos podran cambiar los datos. En particular, en la fase de exploracin y desarrollo, podra decidir aceptar una cierta cantidad de errores en los datos, sobre todo si stos son suficientemente uniformes en sus caractersticas. Por ejemplo, un modelo que predice las ventas para un almacn determinado en base a las ventas pasadas puede estar muy correlacionado y ser muy preciso, incluso si ese almacn ha utilizado un mtodo de contabilidad equivocado continuamente. Por tanto, es necesario equilibrar las mediciones de precisin mediante las valoraciones de confiabilidad. La confiabilidad evala la manera en la que se comporta un modelo de minera de datos en conjuntos de datos diferentes. Un modelo de minera de datos es confiable si genera el mismo tipo de predicciones o encuentra los mismos tipos generales de patrones independientemente de los datos de prueba que se proporcionen. Por ejemplo, el modelo

que ha generado para el almacn que utiliz un mtodo de contabilidad equivocado no podra extrapolarse correctamente a otros almacenes, y por tanto, no sera confiable. La utilidad incluye diferentes mtricas que le indican si el modelo proporciona informacin til. Por ejemplo, un modelo de minera de datos que pone en correlacin la ubicacin del almacn con las ventas podra ser preciso y fiable, pero podra no ser til, ya que no se podra generalizar ese resultado si se agregaran ms almacenes en la misma ubicacin. Es ms, no responde a la pregunta comercial fundamental de porqu ciertas ubicaciones tienen ms ventas que otras. Tambin podra descubrir que un modelo que parece correcto, en realidad no tiene sentido porque est basado en correlaciones cruzadas de los datos. Herramientas de prueba y validacin de modelos de minera de datos Existen varios enfoques para la validacin de soluciones de minera de datos, que abarcan todas las fases de la metodologa de prueba de la minera de datos. Crear particiones de los datos de los conjuntos de prueba y entrenamiento. Filtrar modelos para entrenar y probar combinaciones diferentes de los mismos datos de origen. Medir la mejora respecto al modelo predictivo y la ganancia. Un grfico de mejora respecto al modelo predictivo es un mtodo para visualizar la mejora que obtendr de usar un modelo de minera de datos, si lo compara con una estimacin aleatoria. Realizar una validacin cruzada de los conjuntos de datos. Generar matrices de clasificacin. Estos grficos ordenan las estimaciones buenas y malas en una tabla, lo que permite analizar rpida y fcilmente con qu precisin predice el modelo el valor de destino. Crear grficos de dispersin para evaluar el ajuste de una frmula de regresin. Crear grficos de beneficios que permiten asociar ganancias o costos financieros con el uso de cierto modelo de minera de datos, para poder evaluar el valor de las recomendaciones. Estas mtricas no pretenden responder a la pregunta de si el modelo de minera de datos resuelve sus preguntas empresariales, sino que proporcionan medidas objetivas que puede usar para evaluar la confiabilidad de los datos para los anlisis predictivos, y le ofrecen ayuda a la hora de decidir si debe usar una iteracin determinada en el proceso de desarrollo.

Conjuntos de datos de entrenamiento y de prueba Separar los datos en conjuntos de entrenamiento y de prueba es una parte importante de la evaluacin de los modelos de minera de datos. Normalmente, al dividir un conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba, la mayora de los datos se usan para el entrenamiento y una parte menor se emplea para las pruebas. Se muestrea los datos de forma aleatoria para asegurarse de que los conjuntos de entrenamiento y de prueba son similares.

Si usa datos similares para el entrenamiento y las pruebas, puede minimizar los efectos de las diferencias en los datos y comprender mejor las caractersticas del modelo. Una vez procesado un modelo utilizando el conjunto de entrenamiento, se prueba realizando predicciones con el conjunto de pruebas. Dado que los datos del conjunto de prueba ya contienen valores conocidos para el atributo que desea predecir, es fcil determinar si las estimaciones del modelo son correctas. Crear conjuntos de entrenamiento y de prueba para las estructuras de minera de datos El conjunto de datos original se separa en el nivel de la estructura de minera de datos. La informacin sobre el tamao de los conjuntos de datos de entrenamiento y de prueba, y qu filas pertenecen a cada conjunto, se almacena junto con la estructura, y todos los modelos basados en esa estructura pueden usar los conjuntos de entrenamiento y de prueba. Para definir un conjunto de datos de prueba en una estructura de minera de datos puede realizar una de las acciones siguientes: Dividir la estructura de minera de datos en el momento de crearla. Crear y modificar estructuras distintas para evaluar los resultados.

Grfico de mejora respecto al modelo predictivo Un Grfico de mejora respecto al modelo predictivo representa grficamente la mejora que proporciona un modelo de minera de datos en comparacin con una estimacin aleatoria, y mide el cambio en trminos de puntuacin de la mejora respecto al modelo predictivo. Al comparar las puntuaciones de mejora respecto al modelo predictivo para las distintas partes del conjunto de datos y para los distintos modelos, puede determinar cul es el mejor modelo y qu porcentaje de casos del conjunto de datos se beneficiara de aplicar las predicciones del modelo. Con un grfico de mejora respecto al modelo predictivo, puede comparar la precisin de las predicciones para varios modelos que tienen el mismo atributo de prediccin. Tambin puede evaluar la exactitud de la prediccin para un nico resultado (un nico valor del atributo de prediccin) o para todos los resultados (todos los valores del atributo especificado). Un grfico de beneficios es un tipo de grfico relacionado que contiene la misma informacin que un grfico de mejora respecto al modelo predictivo, pero que tambin muestra el aumento proyectado en los beneficios asociado al uso de cada modelo.

Descripcin del grfico de mejora respecto al modelo predictivo Puede resultar difcil entender los grficos de mejora respecto al modelo predictivo como concepto abstracto. Por consiguiente, para ilustrar el uso de las herramientas del grfico de mejora respecto al modelo predictivo y la informacin del grfico, se muestra un escenario en el que se usa un grfico de mejora respecto al modelo predictivo para calcular la respuesta a una campaa de envo de correo directo. El departamento de marketing de este escenario sabe que las campaas de correo suelen tener ms o menos una tasa de respuesta del 10 por ciento. Tienen una lista de 10.000 clientes potenciales almacenada en una tabla de la base de datos. Segn el ndice tpico de respuesta, normalmente pueden esperar que solo respondan unos 1.000 clientes potenciales. Sin embargo, el dinero presupuestado para el proyecto no es suficiente para llegar a los 10.000 clientes de la base de datos, y desean mejorar la tasa de respuesta. Para este escenario, supongamos que el presupuesto solo les permite enviar un anuncio a 5.000 clientes. El departamento de marketing tiene dos opciones: Seleccionar aleatoriamente 5.000 clientes como objetivo. Usar un modelo de minera de datos para dirigirse a los 5.000 clientes con mayores probabilidades de respuesta. Mediante un grfico de mejora respecto al modelo predictivo, puede comparar los resultados esperados de ambas opciones. Por ejemplo, si la compaa seleccionara de forma aleatoria 5.000 clientes, podran esperar recibir solo 500 respuestas, segn la tasa de respuesta tpica. La lnea aleatoria del grfico de mejora respecto al modelo predictivo representa esta situacin. Sin embargo, si el departamento de marketing usara un modelo de minera de datos para dirigir la distribucin de correo, podra esperar un mejor ndice de respuesta debido a que el modelo identificara los clientes que tienen ms probabilidades de responder. Si el modelo fuera perfecto, creara predicciones infalibles y la empresa podra esperar recibir 1.000 respuestas con solo enviar la distribucin de correo a los 1.000 clientes potenciales recomendados por el modelo. La lnea ideal del grfico de mejora respecto al modelo predictivo representa esta situacin. La realidad es que el modelo de minera de datos probablemente se sita entre estos dos extremos, entre una estimacin aleatoria y una prediccin perfecta. Cualquier mejora con respecto a la estimacin aleatoria se considera una "mejora respecto al modelo predictivo". Al crear un grfico de mejora respecto al modelo predictivo, puede ponerse como objetivo un valor especfico y medir la mejora respecto al modelo predictivo solo para ese resultado o puede crear una evaluacin general del modelo que mida las mejoras respecto al modelo predictivo para todos los resultados posibles. Estas selecciones afectan al grfico final, como se describe a continuacin:

Grfico de mejora respecto al modelo predictivo con un valor de destino El grfico siguiente muestra un grfico de mejora respecto al modelo predictivo para el modelo Targeted Mailing (creado previamente) En este grfico, el atributo de destino es [Bike Buyer] y el valor de destino es 1, lo que significa que se prev que el cliente compre una bicicleta. El grfico de mejora respecto al modelo predictivo muestra as la mejora proporcionada por el modelo al identificar a estos posibles clientes.

Este grfico contiene varios modelos basados en los mismos datos. Uno de ellos se ha personalizado para dirigirse a clientes concretos. Puede personalizar un modelo agregando filtros para los datos usados para entrenarlo. Este filtro restringe los casos que se usan tanto en el entrenamiento como en la evaluacin a los clientes menores de 30 aos. Observe que un efecto del filtrado es que el modelo bsico y el modelo filtrado usan conjuntos de datos distintos, por lo que el nmero de casos usados para la evaluacin en el grfico de mejora respecto al modelo predictivo tambin es diferente. Es importante recordar este punto al interpretar los resultados de prediccin y otras estadsticas. El eje X del grfico representa el porcentaje del conjunto de datos de prueba que se usa para comparar las predicciones. El eje Y del grfico representa el porcentaje de valores de prediccin.

La lnea recta diagonal, mostrada aqu en azul, aparece en cada grfico. Representa los resultados de la estimacin aleatoria y es la lnea base con la que evaluar la mejora respecto al modelo predictivo. Con cada modelo que agrega a un grfico de mejora respecto al modelo predictivo, obtiene dos lneas adicionales: una muestra los resultados ideales para los conjuntos de datos de entrenamiento establecidos, si pudiera crear un modelo que siempre predijera perfectamente; y la segunda lnea muestra la mejora respecto al modelo predictivo real, o mejora en los resultados, para el modelo. En este ejemplo, la lnea ideal para el modelo filtrado se muestra en azul marino y la lnea para la mejora respecto al modelo predictivo real en amarillo. Puede deducir del grfico que la lnea ideal alcanza el mximo cerca del 40 por ciento, lo que significa que si tuviera un modelo perfecto, podra llegar al 100 por ciento de los clientes de destino enviando correo nicamente al 40 por ciento de la poblacin total. La mejora respecto al modelo predictivo real para el modelo filtrado al destinarse al 40 por ciento de la poblacin est entre el 60 y el 70 por ciento, lo que significa que se podra llegar al 60 70 por ciento de los clientes de destino enviando correo al 40 por ciento de la poblacin total de clientes. Poblacin de destino 47.40% Probabilidad de prediccin 61.38%

Serie y modelo Correo destinado a todos Correo destinado a menores de 30 Modelo de estimacin aleatoria Modelo ideal para: correo destinado a todos Modelo ideal para: correo destinado a menores de 30

Puntuacin 0.71

0.85

51.81%

46.62%

31.00%

62.48%

65.28%

Interpretacin de los resultados En estos resultados puede ver que, cuando se mide en el 30 por ciento de todos los casos, el modelo general, [Correo destinado a todos], puede predecir el comportamiento de compra de bicicletas en el 47,40% de la poblacin de destino. En otras palabras, si enviara correo directo solo al 30 por ciento de los clientes de la base de datos, podra llegar a algo menos de la mitad de los destinatarios pretendidos. Si usara

el modelo filtrado, podra obtener resultados ligeramente mejores y llegar aproximadamente al 51 por ciento de los clientes de destino. El valor de Probabilidad de prediccin representa el umbral necesario para incluir un cliente entre los casos "con probabilidad de comprar". Para cada caso, el modelo calcula la exactitud de cada prediccin y almacena ese valor, que puede utilizar para filtrar o elegir clientes. Por ejemplo, para identificar los clientes del modelo bsico que son compradores probables, utilizara una consulta para recuperar los casos con una probabilidad de prediccin de al menos el 61 por ciento. Para obtener los clientes de destino del modelo filtrado, creara una consulta que recuperara los casos que cumplieran todos los criterios: la edad y un valor de Probabilidad de prediccin de al menos el 46 por ciento. Es interesante comparar los modelos. El modelo filtrado parece capturar ms clientes potenciales, pero al elegir a los clientes con una puntuacin de probabilidad de prediccin del 46 por ciento, tambin tiene una posibilidad del 53 por ciento de enviar correo a alguien que no va a comprar una bicicleta. Por consiguiente, si estuviera decidiendo qu modelo es mejor, sera conveniente equilibrar la mayor precisin y el menor tamao de destino del modelo filtrado con respecto a la capacidad de seleccin del modelo bsico. El valor de Puntuacin ayuda a comparar los modelos calculando la efectividad del modelo a travs de una poblacin normalizada. Una mayor puntuacin es mejor, de modo que en este caso podra decidir que seleccionar a los clientes menores de 30 aos es la estrategia ms eficiente, a pesar de la menor probabilidad de prediccin.