Mineria Datos

Data Mining
1. Glosario
Algoritmos genticos: Tcnicas de optimizacin que usan procesos tales como combinacin gentica,
mutacin y seleccin natural en un diseo basado en los conceptos de evolucin natural.
Anlisis de series de tiempo (time-series): Anlisis de una secuencia de medidas hechas a intervalos
especficos. El tiempo es usualmente la dimensin dominante de los datos.
Anlisis prospectivo de datos: Anlisis de datos que predice futuras tendencias, comportamientos o
eventos basado en datos histricos.
Anlisis exploratorio de datos: Uso de tcnicas estadsticas tanto grficas como descriptivas para
aprender acerca de la estructura de un conjunto de datos.
Anlisis retrospectivo de datos: Anlisis de datos que provee una visin de las tendencias,
comportamientos o eventos basado en datos histricos.
rbol de decisin: Estructura en forma de rbol que representa un conjunto de decisiones. Estas
decisiones generan reglas para la clasificacin de un conjunto de datos. Ver CART y CHAID.
Base de datos multidimensional: Base de datos diseada para procesamiento analtico on-line (OLAP).
Estructurada como un hipercubo con un eje por dimensin.
CART rboles de clasificacin y regresin: Una tcnica de rbol de decisin usada para la clasificacin
de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar)
conjunto de datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto de
datos creando 2 divisiones. Requiere menos preparacin de datos que CHAID .
CHAID Deteccin de interaccin automtica de Chi cuadrado: Una tcnica de rbol de decisin usada
para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un
nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado.
Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear mltiples divisiones.
Antecede, y requiere ms preparacin de datos, que CART.
Clasificacin: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera
que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos diferentes estn lo "ms
lejos" posible uno del otro, donde la distancia est medida con respecto a variable(s) especfica(s) las
cuales se estn tratando de predecir. Por ejemplo, un problema tpico de clasificacin es el de dividir una
base de datos de compaas en grupos que son lo ms homogneos posibles con respecto a variables
como "posibilidades de crdito" con valores tales como "Bueno" y "Malo".
Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes
de tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos diferentes
estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto a todas las
variables disponibles.
Computadoras con multiprocesadores: Una computadora que incluye mltiples procesadores
conectados por una red. Ver procesamiento paralelo.
Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean consistentes y
correctamente registrados.
Data Mining: La extraccin de informacin predecible escondida en grandes bases de datos.
Data Warehouse: Sistema para el almacenamiento y distribucin de cantidades masivas de datos
Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado durante la carga) o que
representan eventos inusuales.
Dimensin: En una base de datos relacional o plana, cada campo en un registro representa una
dimensin. En una base de datos multidimensional, una dimensin es un conjunto de entidades
similares; por ej.: una base de datos multidimensional de ventas podra incluir las dimensiones Producto,
Tiempo y Ciudad.
Modelo analtico: Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un rbol de
decisin es un modelo para la clasificacin de un conjunto de datos
Modelo lineal: Un modelo analtico que asume relaciones lineales entre una variable seleccionada
(dependiente) y sus predictores (variables independientes).
Modelo no lineal: Un modelo analtico que no asume una relacin lineal en los coeficientes de las
variables que son estudiadas.
Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas en un conjunto
de datos.
Navegacin de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de una base de
datos multidimensional. Ver OLAP.
OLAP Procesamiento analtico on-line (On Line Analitic prossesing): Se refiere a aplicaciones de bases
de datos orientadas a array que permite a los usuarios ver, navegar, manipular y analizar bases de
datos multidimensionales.
Outlier: Un item de datos cuyo valor cae fuera de los lmites que encierran a la mayora del resto de los
valores correspondientes de la muestra. Puede indicar datos anormales. Deberan ser examinados
detenidamente; pueden dar importante informacin.
Procesamiento paralelo: Uso coordinado de mltiples procesadores para realizar tareas
computacionales. El procesamiento paralelo puede ocurrir en una computadora con mltiples
procesadores o en una red de estaciones de trabajo o PCs.
RAID: Formacin redundante de discos baratos (Redundant Array of inexpensive disks). Tecnologa
para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de alto rendimiento.
Regresin lineal: Tcnica estadstica utilizada para encontrar la mejor relacin lineal que encaja entre
una variable seleccionada (dependiente) y sus predicados (variables independientes).
2. Fundamentos del Data Mining

Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y desarrollo de
productos. Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez
en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con
tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. Data
Mining toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos,
hacia la entrega de informacin prospectiva y proactiva. Data Mining est listo para su aplicacin en la
comunidad de negocios porque est soportado por tres tecnologas que ya estn suficientemente
maduras:
Recoleccin masiva de datos
Potentes computadoras con multiprocesadores
Algoritmos de Data Mining
Las bases de datos comerciales estn creciendo a un ritmo sin precedentes. Un reciente estudio del
META GROUP sobre los proyectos de Data Warehouse encontr que el 19% de los que contestaron
estn por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo
trimestre de 2012. En algunas industrias, tales como ventas al por menor (retail), estos nmeros pueden
ser an mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1
terabyte de ndices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores
computacionales mejorados puede ahora alcanzarse de forma ms costo - efectiva con tecnologa de
computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan tcnicas que han
existido por lo menos desde hace 10 aos, pero que slo han sido implementadas recientemente como
herramientas maduras, confiables, entendibles que consistentemente son ms performantes que
mtodos estadsticos clsicos.
En la evolucin desde los datos de negocios a informacin de negocios, cada nuevo paso se basa en el
previo. Por ejemplo, el acceso a datos dinmicos es crtico para las aplicaciones de navegacin de datos
(drill through applications), y la habilidad para almacenar grandes bases de datos es crtica para Data
Mining.
Los componentes esenciales de la tecnologa de Data Mining han estado bajo desarrollo por dcadas,
en reas de investigacin como estadsticas, inteligencia artificial y aprendizaje de mquinas. Hoy, la
madurez de estas tcnicas, junto con los motores de bases de datos relacionales de alta performance,
hicieron que estas tecnologas fueran prcticas para los entornos de data warehouse actuales.
Qu es Data Mining?
Data Mining, la extraccin de informacin oculta y predecible de grandes bases de datos, es una
poderosa tecnologa nueva con gran potencial que ayuda a las compaas a concentrarse en la
informacin ms importante de sus Bases de Informacin (Data Warehouse).
Un Sistema Datamining es una tecnologa de soporte para usuario final cuyo objetivo es extraer
conocimiento til y utilizable a partir de la informacin contenida en las bases de datos de las empresas.
Cmo se desarrollan los sistemas Data Mining?
Los sistemas Datamining se desarrollan bajo lenguajes de ltima generacin basados en la inteligencia
artificial y utilizan modelos matemticos tales como:
Redes neuronales artificiales: modelos predecible no-lineales que aprenden a travs del entrenamiento y
semejan la estructura de una red neuronal biolgica.
Arboles de decisin: estructuras de forma de rbol que representan conjuntos de decisiones. Estas
decisiones generan reglas para la clasificacin de un conjunto de datos. Mtodos especficos de rboles
de decisin incluyen Arboles de Clasificacin y Regresin (CART: Classification And Regression Tree) y
Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi Square Automatic Interaction
Detection)
Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como combinaciones genticas,
mutaciones y seleccin natural en un diseo basado en los conceptos de evolucin.
Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un conjunto de datos basado
en una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de datos
histricos (donde k ? 1). Algunas veces se llama la tcnica del vecino k-ms cercano.
Regla de induccin: la extraccin de reglas if-then de datos basados en significado estadstico.

Muchas de estas tecnologas han estado en uso por ms de una dcada en herramientas de anlisis
especializadas que trabajan con volmenes de datos relativamente pequeos. Estas capacidades estn
ahora evolucionando para integrarse directamente con herramientas OLAP y de Data Warehousing.
Qu son capaces de hacer las herramientas del Data Mining?

Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los
negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la informacin
(knowledge-driven). Los anlisis prospectivos automatizados ofrecidos por un producto as van ms all
de los eventos pasados provistos por herramientas retrospectivas tpicas de sistemas de soporte de
decisin.
Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente
consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios de esta informacin
casi no estn dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de
patrones ocultos, encontrando informacin predecible que un experto no puede llegar a encontrar
porque se encuentra fuera de sus expectativas.
Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor
de alto performance o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar
respuesta a preguntas tales como, "Cules clientes tienen ms probabilidad de responder al prximo
mailing promocional, y por qu? y presentar los resultados en formas de tablas, con grficos, reportes,
texto, hipertexto, etc.
Las tcnicas de Data Mining pueden ser implementadas rpidamente en plataformas ya existentes de
software y hardware para acrecentar el valor de las fuentes de informacin existentes y pueden ser
integradas con nuevos productos y sistemas pues son tradas en lnea (on-line).
3. El Alcance del Data Mining

Dadas bases de datos de suficiente tamao y calidad, la tecnologa de Data Mining puede generar
nuevas oportunidades de negocios al proveer estas capacidades:
Prediccin automatizada de tendencias y comportamientos.
Data Mining automatiza el proceso de encontrar informacin predecible en grandes bases de datos.
Preguntas que tradicionalmente requeran un intenso anlisis manual, ahora pueden ser contestadas
directa y rpidamente desde los datos. Un tpico ejemplo de problema predecible es el marketing
apuntado a objetivos (targeted marketing). Data Mining usa datos en mailing promocionales anteriores
para identificar posibles objetivos para maximizar los resultados de la inversin en futuros mailing. Otros
problemas predecibles incluyen pronsticos de problemas financieros futuros y otras formas de
incumplimiento, e identificar segmentos de poblacin que probablemente respondan similarmente a
eventos dados.
Descubrimiento automatizado de modelos previamente desconocidos.
Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente
escondidos en un slo paso. Otros problemas de descubrimiento de modelos incluyen detectar
transacciones fraudulentas de tarjetas de crditos e identificar datos anormales que pueden representar
errores de tipiado en la carga de datos.
Las tcnicas de Data Mining pueden redituar los beneficios de automatizacin en las plataformas de
hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las
plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas
de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance, pueden
analizar bases de datos masivas en minutos. Procesamiento ms rpido significa que los usuarios
pueden automticamente experimentar con ms modelos para entender datos complejos. Alta velocidad
hace que sea prctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de
datos, a su vez, producen mejores predicciones.
Las bases de datos pueden ser grandes tanto en profundidad como en ancho:
Ms columnas. Los analistas muchas veces deben limitar el nmero de variables a examinar cuando
realizan anlisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas
porque parecen sin importancia pueden proveer informacin acerca de modelos desconocidos. Un Data
Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un
subconjunto de variables.
Ms filas. Muestras mayores producen menos errores de estimacin y desvos, y permite a los usuarios
hacer inferencias acerca de pequeos pero importantes segmentos de poblacin.
Cmo Trabaja el Data Mining?

Cun exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van
a pasar? La tcnica usada para realizar estas hazaas en Data Mining se llama Modelado. Modelado es
simplemente el acto de construir un modelo en una situacin donde usted conoce la respuesta y luego la
aplica en otra situacin de la cual desconoce la respuesta. Por ejemplo, si busca un galen espaol
hundido en los mares lo primero que podra hacer es investigar otros tesoros espaoles que ya fueron
encontrados en el pasado. Notara que esos barcos frecuentemente fueron encontrados fuera de las
costas de Bermuda y que hay ciertas caractersticas respecto de las corrientes ocenicas y ciertas rutas
que probablemente tomara el capitn del barco en esa poca. Usted nota esas similitudes y arma un
modelo que incluye las caractersticas comunes a todos los sitios de estos tesoros hundidos. Con estos
modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo ms
probabilidad de darse una situacin similar. Con un poco de esperanza, si tiene un buen modelo,
probablemente encontrar el tesoro.
Este acto de construccin de un modelo es algo que la gente ha estado haciendo desde hace mucho
tiempo, seguramente desde antes del auge de las computadoras y de la tecnologa de Data Mining. Lo
que ocurre en las computadoras, no es muy diferente de la manera en que la gente construye modelos.
Las computadoras son cargadas con mucha informacin acerca de una variedad de situaciones donde
una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a travs
de los datos y distinguir las caractersticas de los datos que llevarn al modelo. Una vez que el modelo
se construy, puede ser usado en situaciones similares donde usted no conoce la respuesta.
Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes, Cmo puede saber si
es realmente un buen modelo? La primera cosa que puede probar es pedirle que aplique el modelo a su
base de clientes - donde usted ya conoce la respuesta. Con Data Mining, la mejor manera para realizar
esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining. Una vez que el proceso
est completo, los resultados pueden ser testeados contra los datos excluidos para confirmar la validez
del modelo. Si el modelo funciona, las observaciones deben mantenerse para los datos excluidos.
4. Arquitectura para Data Mining

Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente integradas con el data
warehouse as como con herramientas flexibles e interactivas para el anlisis de negocios. Varias
herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para
extraer, importar y analizar los datos. Adems, cuando nuevos conceptos requieren implementacin
operacional, la integracin con el warehouse simplifica la aplicacin de los resultados desde Data
Mining. El Data warehouse analtico resultante puede ser aplicado para mejorar procesos de negocios
en toda la organizacin, en reas tales como manejo de campaas promocionales, deteccin de
fraudes, lanzamiento de nuevos productos, etc.
El punto de inicio ideal es un data warehouse que contenga una combinacin de datos de seguimiento
interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los
competidores. Informacin histrica sobre potenciales clientes tambin provee una excelente base para
prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases
relacionales y debe ser optimizado para un acceso a los datos flexible y rpido.
Un server multidimensional OLAP permite que un modelo de negocios ms sofisticado pueda ser
aplicado cuando se navega por el data warehouse. Las estructuras multidimensionales permiten que el
usuario analice los datos de acuerdo a como quiera mirar el negocio - resumido por lnea de producto, u
otras perspectivas claves para su negocio. El server de Data Mining debe estar integrado con el data
warehouse y el server OLAP para insertar el anlisis de negocios directamente en esta infraestructura.
Un avanzado, metadata centrado en procesos define los objetivos del Data Mining para resultados
especficos tales como manejos de campaa, prospecting, y optimizacin de promociones. La
integracin con el data warehouse permite que decisiones operacionales sean implementadas
directamente y monitoreadas. A medida que el data warehouse crece con nuevas decisiones y
resultados, la organizacin puede "minar" las mejores prcticas y aplicarlas en futuras decisiones.
Este diseo representa una transferencia fundamental desde los sistemas de soporte de decisin
convencionales. Ms que simplemente proveer datos a los usuarios finales a travs de software de
consultas y reportes, el server de Anlisis Avanzado aplica los modelos de negocios del usuario
directamente al warehouse y devuelve un anlisis proactivo de la informacin ms relevante. Estos
resultados mejoran los metadatos en el server OLAP proveyendo una estrato de metadatos que
representa una vista fraccionada de los datos. Generadores de reportes, visualizadores y otras
herramientas de anlisis pueden ser aplicadas para planificar futuras acciones y confirmar el impacto de
esos planes.
Por qu usar Data Mining?
Sin duda alguna que el uso de Data Mining:

Contribuye a la toma de decisiones tcticas y estratgicas proporcionando un sentido automatizado para
identificar informacin clave desde volmenes de datos generados por procesos tradicionales y de e-
Business.
Permite a los usuarios dar prioridad a decisiones y acciones mostrando factores que tienen un mayor en
un objetivo, qu segmentos de clientes son desechables y qu unidades de negocio son sobrepasados y
por qu.
Proporciona poderes de decisin a los usuarios del negocio que mejor entienden el problema y el
entorno y es capaz de medir la acciones y los resultados de la mejor forma.
Genera Modelos descriptivos: En un contexto de objetivos definidos en los negocios permite a
empresas, sin tener en cuenta la industria o el tamao, explorar automticamente, visualizar y
comprender los datos e identificar patrones, relaciones y dependencias que impactan en los resultados
finales de la cuenta de resultados (tales como el aumento de los ingresos, incremento de los beneficios,
contencin de costes y gestin de riesgos)
Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a travs del proceso
del Data Mining sean expresadas como reglas de negocio o modelos predictivos. Estos outputs pueden
comunicarse en formatos tradicionales (presentaciones, informes, informacin electrnica compartida,
embebidos en aplicaciones,) para guiar la estrategia y planificacin de la empresa.
Data mining vs estadstica
Esta investigacin pretende explicar las diferencias de data mining y estadstica desde una perspectiva
constructiva en el uso de ambas herramientas analticas y bajo un contexto empresarial.
Ambas ciencias tienen el mismo objetivo: mejorar la toma de decisiones mediante un conocimiento del
entorno. Este entorno lo facilitan los datos almacenados en la compaa, cuantitativos o cualitatitativos y
mediante informacin de terceras empresas.
El data mining aventaja a la estadstica en los siguientes supuestos:

Las tcnicas estadsticas se centran generalmente en tcnicas confirmatorias, mientras que las tcnicas
de data mining son generalmente exploratorias. As, cuando el problema al que pretendemos dar
respuesta es refutar o confirmar una hiptesis, podremos utilizar ambas ciencias diferentes
conclusiones y ms robusta la estadstica. Sin embargo, cuando el objetivo es meramente exploratorio
(para concretar un problema o definir cules son las variables ms interesantes en un sistema de
informacin) surge la necesidad de delegar parte del conocimiento analtico de la empresa en tcnicas
de aprendizaje (inteligencia artificial), utilizando data mining. Aqu hemos detectado una primera
diferencia de aplicacin de ambas herramientas: data mining se utilizar cuando no partamos de
supuestos de partida y pretendamos buscar algn conocimiento nuevo y susceptible de proporcionar
informacin novedosa en la toma de decisiones.
A mayor dimensionalidad del problema el data mining ofrece mejores soluciones. Cuantas ms variables
entran en el problema, ms difcil resulta encontrar hiptesis de partida interesantes. O, aun cuando
pudiera, el tiempo necesario no justificara la inversin. En ese caso, utilizar tcnicas de data mining
como rboles de decisin nos permitir encontrar relaciones inditas para luego concretar la
investigacin sobre las variables ms interesantes.
Las tcnicas de data mining son menos restrictivas que las estadistas. Una vez encontrado un punto de
partida interesante y dispuestos a utilizar algn anlisis estadstico en particular (por ejemplo,
discriminante para diferenciar segmentos de mercado), puede suceder que los datos no satisfagan los
requerimientos del anlisis estadstico. Entonces, las variables debern ser examinadas para determinar
que tratamiento permite adecuarlas al anlisis, no siendo posible o conveniente en todos los casos. Aqu
tambin destaca el data mining, puesto que es menos restrictivo que la estadstica y permite ser
utilizado con los mnimos supuesto posibles (permite escuchar a los datos).
Cuando los datos de la empresa son muy dinmicos las tcnicas de data mining inciden sobre la
inversin y la actualizacin del conocimiento de nuestro negocio. Un almacn de datos poco dinmico
permite que una inversin en un anlisis estadstico quede justificada personal cualificado en
estadstica, metodologa rgida y respuestas a preguntas muy concretas- dado que las conclusiones van
a tener un ciclo de vida largo. Sin embargo, en un almacn muy dinmico las tcnicas de data mining
permiten explorar cambios y determinar cuando una regla de negocio ha cambiado. Permitiendo abordar
diferentes cuestiones a corto/medio plazo.
Expongamos ahora aquellos contextos en los que es ms adecuado el anlisis estadstico que el de
data mining:
El objetivo de la investigacin es encontrar causalidad. Si se pretende determinar cuales son las causas
de ciertos efectos (por ejemplo, si invertir ms en la publicidad de cierto producto tiene como
consecuencia un incremento de ventas o si es ms determinante el ofrecer un descuento a los clientes),
deberemos utilizar tcnicas de estadstica (por ejemplo, ecuaciones estructurales). Las relaciones
complejas que subyacen a tcnicas de data mining impiden una interpretacin certera de diagramas
causa-efecto.
Se pretende generalizar sobre poblaciones desconocidas en su globalidad. Si las conclusiones han de
ser extensibles a otros elementos de poblaciones similares habrn de utilizarse tcnicas de inferencia
estadstica. Esto viene relacionado con situaciones en las que se dispone exclusivamente de muestras
(con el consiguiente problema de aportar validez a las muestras). En data mining, se generarn modelos
y luego habrn de validarse con otros casos conocidos de la poblacin, utilizando como significacin el
ajuste de la prediccin sobre una poblacin conocida (es lo habitual cuando queremos predecir perfiles
de clientes, que ya disponemos de antecedentes para poder validarlo, aunque no siempre es posible
acceder a dicha informacin o no siempre es correcto aplicar ciertas muestras).
Se ha detallado algunos argumentos acerca de cuando es conveniente utilizar data mining o estadstica.
Llegado a este punto deseamos destacar que ambas perspectivas constituyen una sinergia y que no son
excluyentes una de la otra. En este sentido, la metodologa de un proyecto de data mining ha de
contener referencias a la estadstica en dos partes destacables del proceso:
Preparacin de los datos (tratamiengo de valores erroreos, valores omitidos,...) y aproximacin a las
variables de estudio,
Despliegue del proyecto y posible generacin de hiptesis a refutar con una metodologa y tcnica
estadstica.
As pues, data mining y estadstica son tcnicas complementarias que permiten obtener conocimiento
indito en nuestros almacenes de datos o dar respuestas a cuestiones concretas de negocio.
Mercadeo y Data Mining

Esta dcada final del segundo milenio, termina con un avance sorprendente en el manejo electrnico de
datos. Cada da, millones de personas llegan a sus empleos presenciales o en lnea y durante horas
digitan en sus computadores, billones de bytes que registran las transacciones comerciales que reflejan
el pulso de las economas del mundo. Hace tan solo unos aos, los datos de las empresas estaban
orientados principalmente a alimentar sus sistemas contables, financieros, de inventarios, de
produccin, de recursos humanos y de ventas. En la medida que los negocios mundiales se hicieron
ms competitivos y complejos, los datos cada vez cobraron ms vida y se convirtieron en informacin
vital para la toma de decisiones de los gerentes. Las revoluciones de finales de este siglo, cientfica,
econmica, poltica y tecnolgica, sumadas a la revisin de los conceptos de soberana de las naciones,
han vuelto los mercados impredecibles. La sociedad de masas creada por la revolucin industrial se ha
fragmentado en miles de pedazos. El consumidor empieza a tener rostro y la diversidad prevaleciente en
el mercado le ha cambiado el rostro al Mercadeo.
Entender al nuevo consumidor es una tarea cada vez ms compleja, pues la antigua nocin de
desarrollar un producto e inducir su compra a un cliente potencial desprevenido mediante el uso de la
publicidad masiva ya muri. Para cada producto o servicio hay numerosas opciones de mercados meta
posibles. Seleccionar el mercado y luego segmentarlo es una tarea titnica. Ya no se puede decir como
antes que los mejores clientes potenciales son las mujeres entre los dieciocho y los cuarenta y nueve
aos, la gente de la generacin X o la gente que se parece a nuestros consumidores actuales. Tras la
aparente similitud existe toda una heterogeneidad derivada de las diferencias en educacin, ocupacin,
ingresos, etnias, culturas, estilos de vida, percepciones, necesidades y deseos.
Si trabajamos en un conglomerado bancario, una compaa de gas domiciliario a gran escala, un
proveedor globalizado de servicios de telecomunicacin, una compaa de seguros a nivel mundial lder
en sus mercados o en negocios que son destinos de categoras como Wall-Mart o similares, entonces
almacenamos grandes cantidades de informacin y queremos agregarles valor, por lo tanto estaremos
interesados en automatizar el proceso de informacin y descubrir informacin valiosa que de otra forma
seguir siendo subutilizada o simplemente desperdiciada. Empecemos pues a cavar y a construir un
tnel en su escenario de mercadeo. Este sistema de excavacin se denomina Data Mining y es la
aplicacin de las tcnicas de la inteligencia artificial (redes neurales, algoritmos genticos, lgica fuzzy,
etc.) a grandes cantidades de datos para descubrir relaciones, tendencias y trayectorias ocultas con el
propsito de convertir estos resultados en planes de negocios ejecutables como redireccionar los
esfuerzos de mercadeo o evaluar los centros de utilidades, etc.
Hacer Mercadeo con Base de Datos con Data Mining adems de una alta inversin econmica (aunque
puede reducirse haciendo outsourcing), requerir la integracin de tres componentes fundamentales:
La informacin almacenada actualmente, mucha de ella proveniente de sus sistemas de
informacin que interactuan con el cliente
Tcnicas estadsticas o instrumentos que usen modelos predictivos
Equipos sofisticados de presentacin
Una aplicacin, por ejemplo, es implementar un proceso que genere una muy precisa segmentacin de
los clientes. Una vez que el motor del Excavador de Datos ha seleccionado un grupo adecuado de
segmentos de clientes de su Bodega de Datos (DataWarehouse), el prximo paso ser extrapolar los
perfiles de los consumidores. Cada vez que llega una nueva cosecha de clientes se aplica un nuevo
conjunto de modelos estadsticos y se corre el programa para comparar contra los segmentos existentes
o crear otros nuevos. Aqu estamos enfocando la atencin a predecir la lealtad de marca, para citar un
ejemplo, pero tenemos muchas otras aplicaciones como son:
1. Segmentacin del mercado
2. Tendencias de desercin de clientes
3. Descubrimiento de transacciones fraudulentas
4. Mercadeo directo
5. Mercadeo Interactivo
6. Anlisis de canasta
7. Anlisis de tendencias
8. Perfiles de clientes
Focalizacin de clientes y campaas promocionales

El Mercadeo mediante Excavacin de Datos, convierte una plataforma tecnolgica en un sistema de
informacin sobre el que se construyen soluciones de negocios. Naturalmente el punto de partida es que
las montaas de datos deben ser de oro y no de chatarra. De lo contrario no vale la pena excavar. Se
necesitarn equipos de computo, sistemas operativos y la infraestructura necesaria para apoyar ese
proyecto minero. Luego vendrn las tcnicas de inteligencia artificial y de anlisis estadstico que
permitirn extraer el oro de su mina. El primer paso es evaluar los recursos, objetivos y necesidades.
Dependiendo de esto se definir si tecnolgicamente el nfasis ser por ejemplo hacia procesos cliente-
servidor y de escritorio o hacia procesos en paralelo.
5. El Data Mining y los procesos de venta
El "Data Mining" integra los procesos modernos de Ventas, excepto el "Key Account Management" que
representa la versin unitaria ( no masiva ) del manejo de Cuentas Clave, en lo cual se pueden aplicar
algunas tcnicas que sealamos a continuacin:
1.-El "Cross Selling": Esta tcnica se basa en el Mercadeo Concntrico, so es, en mltiples ofertas
alrededor de un mismo cliente. A mayor cantidad de transacciones o relaciones que sostenga una
Cuenta con nosotros, mayor ser la capacidad de la Empresa de retenerla con el paso del tiempo. Este
"Cruce de Productos" puede ser Personal o Masivo. Cada uno requiere de la segmentacin de la
Clientela para adaptar la oferta a las necesidades del Cliente o grupo de stos y de la existencia de
alguna Matrz PPC que identifique cules Productos se le han colocado a cules Clientes ( y cules no )
para facilitar eventuales ofertas.
2.-El "Networking": Cada Cliente puede ser una Fuente de Negocios adicionales, pero existen siempre
evidentes "Multiplicadores" que por su naturaleza o poder de convocatoria aglutinan nmeros
importantes de clientes potenciales. Esta tcnica busca crear redes de cuentas potenciales alrededor de
una sola matriz Internamente, en nuestra Clientela o "C-Base" existen normalmente varias de stas y en
el Mercado tantas ms. Por ejemplo: Pueden ser nuestros Clientes los empleados de ellos, sus propios
Clientes, sus Proveedores, Afiliados, etc.
Las diversas aplicaciones del data mining
Para Comunicarnos con nuestra Base de Clientes y Prospectos de manera Directa y Masiva (
Cumpleaos, Lanzamientos, Cobros )
Para contribuir en la Conservacin de Clientes existentes
Para Vender otros Productos ( Cross Selling ) a nuestra Base de Clientes y elevar el P.P.C.
Para Capturar nuevos Clientes con Tele o Web-Marketing
Data Mining en el CRM

En el entorno "CRM" se puede evaluar y desarrollar un conjunto de reglas de negocio sobre todos los
aspectos de las interacciones de los clientes. Un ejemplo sencillo sera modelar la probabilidad de
respuesta ante una solicitud especfica de un nuevo producto o servicio. Basndose en estas reglas las
campaas de marketing de una empresa pueden tener como objetivo la mxima respuesta para generar
un nivel deseado de respuesta, ingresos o beneficios. Otras aplicaciones incluiran:
Crear modelos de clientes potenciales (para objetivos de marketing y otras iniciaticas CRM).
Analizar la prdida de clientes (para atencin al cliente y reclamaciones).
Monotorizar los riesgos de prdida (para scoring de clientes y aprobacin de crditos).
Investigacin del fraude (para reducir prdidas a travs de la investigacin del fraude).
Sin embargo, como se dijo anteriormente el alcance de la tecnologa del Data Mining llega
mucho ms all del "CRM" e incluye cualquier proceso que lleva la adquisicin, interpretacin y
actualizacin en los datos (bien de origen interno o externo).
At systems y Data mining

Data Mining dentro de una Arquitectura Data Warehousing
El servicio de DataMining de AT Systems extiende la visin tcnica de la arquitectura DataWarehousing,
proporcionando una mayor profundidad a los analistas del negocio. Mientras que la mayora de las
capacidades del Business Intelligence (BI) se focalizan en la presentacin de resultados de negocio, el
Data Mining se concentra en el descubrimiento automatizado y valoracin de la interrelacin de
resultados de negocio. Responde a las preguntas de "Qu?" para ayudar a los negocios a comprender
el "Por qu?" y el "Qu pasara si?". Ya que los usuarios analizan los resultados de los objetivos del
negocio, tienen acceso a todas las medidas asociadas. DataMining identifica cuales de esas medidas
tienen una fuerte correlacin con el objetivo final y deben ser monitorizadas para mantener el curso del
negocio. Determinar los factores clave significa diseo de reports y cubos multi-dimensionales,
particularmente para actividades de funcionalidades cruzadas para objetivos de "qu pasara s" y
planificacin.
Cuestiones Tecnolgicas
Las soluciones que aporta el Data Mining estn basadas en la implementacin, a travs de la
programacin, de interfaces de uso general y algoritmos propios y disponibles para todos que permiten
una eficiente exploracin y organizacin de los datos. Estos algoritmos apoyan la identificacin de
patrones, relaciones y anomalas de inters potencial para los que toman las decisiones en los negocios.
Adems de implementar estos algoritmos en un mtodo accesible para el usuario la tecnologa del Data
Mining requiere una comprensin de varias bases de datos e implementacin de soluciones de Data
Mining para aprovechar las caractersticas de dichas bases de datos (si hay alguna) y que hacen que las
tareas del Data Mining sean ms eficientes en grandes volmenes de datos. Adems de las
implementaciones de algoritmos, consideraciones claves relativas al Data Mining seran la preparacin
de datos y el asegurar la escalabilidad y rendimiento en grandes volmenes de datos.
Ventajas de nuestra solucin:
Ciclo rpido de desarrollo (2-3 meses)
Integracin con la arquitectura DataWarehouse
Uso de muestras o de grandes volmenes de datos
Uso de tecnologa lder en Data Mining.
Componentes del servicio de DataMining

El servicio de Data Mining de AT Systems consiste en:
Preparacin de datos
Knowledge Studio
Analytical Calculator
Sagent
6. Conclusiones
Un Sistema Datamining nos permite analizar factores de influencia en determinados procesos, predecir
o estimar variables o comportamientos futuros, segmentar o agrupar tems similares, adems de obtener
secuencias de eventos que provocan comportamientos especficos.
La llegada del Data Mining se considera como la ltima etapa de la introduccin de mtodos
cuantitativos, cientficos en el mundo del comercio, industria y negocios. Desde ahora, todos los no-
estadsticos -es decir el 99,5% de nosotros - pueden construir modelos exactos de algunas de sus
actividades, para estudiarlas mejor, comprenderlas y mejorarlas.
Anexos
Administrador De Base De Datos
El "Administrador de Base de Datos" ser el responsable de mantener una Base de Data confiable para
permitir la cabal ejecucin del Plan de Mercadeo, trabajando conjuntamente con las Unidades de R&D y
Publicidad, los Especialistas de Producto y las Gerencias de Areas.
FUNCIONES:
Parametrizar la alimentacin de la Base de Datos por parte de los Operadores y Usuarios para
garantizar su confiabilidad.
Alimentar directamente la Base de Datos con aquella data o informacin que escape del dominio del
Usuario u Operador para asegurar su representatividad y utilidad para fines de anlisis y Mercadeo.
Coordinar el diseo de Programas o Aplicaciones con el Area de Informtica para preservar la
compatibilidad de los sistemas y facilitar el uso de la Base de Datos.
Depurar contnuamente la Base de Datos para garantizar su confiabilidad.
Respaldar todo registro para asegurar la preservacin de la data.
Concientizar al Usuario sobre los usos y la utilidad de la Base de Datos para propiciar su mximo
aprovechamiento, por l ms amplio universo de Gerentes, Unidades y Ejecutivos, para fines de
Mercadeo.
Brindar apoyo tcnico al Usuario, Operador e Informtica respecto al manejo y mantenimiento de la
Base de Datos para evitar inconsistencias y contaminacin de la data.
Analizar la data e informacin que emana peridicamente de la Base de Datos, "first hand", cruzndola
con aquella que generen los estudios de Mercados, para conformar alertas e informes oportunos.
Elaborar los Informes o Reportes que sean acordados por la Gerencia de Mercadeo, o aquellos que le
sean solicitados, de acuerdo al Calendario aprobado, con el propsito de informar a las Gerencias
oportunamente y documentar el Plan Operativo anual.
Distribuir los Reportes a los Usuarios de acuerdo a las necesidades, usos y fines de cada uno.

Mineria Datos

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Mineria Datos

Загружено:

Авторское право:

Доступные форматы

Data Mining

2. Fundamentos del Data Mining

Cmo se desarrollan los sistemas Data Mining?

Regla de induccin: la extraccin de reglas if-then de datos basados en significado estadstico.

Qu son capaces de hacer las herramientas del Data Mining?

3. El Alcance del Data Mining

Cmo Trabaja el Data Mining?

4. Arquitectura para Data Mining

Por qu usar Data Mining?

Sin duda alguna que el uso de Data Mining:

Data mining vs estadstica

El data mining aventaja a la estadstica en los siguientes supuestos:

Mercadeo y Data Mining

Focalizacin de clientes y campaas promocionales

Data Mining en el CRM

At systems y Data mining

Componentes del servicio de DataMining

Вам также может понравиться