Академический Документы
Профессиональный Документы
Культура Документы
1. Glosario
Algoritmos genticos: Tcnicas de optimizacin que usan procesos tales como combinacin gentica,
mutacin y seleccin natural en un diseo basado en los conceptos de evolucin natural.
Anlisis de series de tiempo (time-series): Anlisis de una secuencia de medidas hechas a intervalos
especficos. El tiempo es usualmente la dimensin dominante de los datos.
Anlisis prospectivo de datos: Anlisis de datos que predice futuras tendencias, comportamientos o
eventos basado en datos histricos.
Anlisis exploratorio de datos: Uso de tcnicas estadsticas tanto grficas como descriptivas para
aprender acerca de la estructura de un conjunto de datos.
Anlisis retrospectivo de datos: Anlisis de datos que provee una visin de las tendencias,
comportamientos o eventos basado en datos histricos.
rbol de decisin: Estructura en forma de rbol que representa un conjunto de decisiones. Estas
decisiones generan reglas para la clasificacin de un conjunto de datos. Ver CART y CHAID.
Base de datos multidimensional: Base de datos diseada para procesamiento analtico on-line (OLAP).
Estructurada como un hipercubo con un eje por dimensin.
CART rboles de clasificacin y regresin: Una tcnica de rbol de decisin usada para la clasificacin
de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar)
conjunto de datos para predecir cules registros darn un cierto resultado. Segmenta un conjunto de
datos creando 2 divisiones. Requiere menos preparacin de datos que CHAID .
CHAID Deteccin de interaccin automtica de Chi cuadrado: Una tcnica de rbol de decisin usada
para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un
nuevo (sin clasificar) conjunto de datos para predecir cules registros darn un cierto resultado.
Segmenta un conjunto de datos utilizando tests de chi cuadrado para crear mltiples divisiones.
Antecede, y requiere ms preparacin de datos, que CART.
Clasificacin: Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera
que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos diferentes estn lo "ms
lejos" posible uno del otro, donde la distancia est medida con respecto a variable(s) especfica(s) las
cuales se estn tratando de predecir. Por ejemplo, un problema tpico de clasificacin es el de dividir una
base de datos de compaas en grupos que son lo ms homogneos posibles con respecto a variables
como "posibilidades de crdito" con valores tales como "Bueno" y "Malo".
Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes
de tal manera que cada miembro de un grupo est lo "ms cercano" posible a otro, y grupos diferentes
estn lo "ms lejos" posible uno del otro, donde la distancia est medida con respecto a todas las
variables disponibles.
Computadoras con multiprocesadores: Una computadora que incluye mltiples procesadores
conectados por una red. Ver procesamiento paralelo.
Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean consistentes y
correctamente registrados.
Data Mining: La extraccin de informacin predecible escondida en grandes bases de datos.
Data Warehouse: Sistema para el almacenamiento y distribucin de cantidades masivas de datos
Datos anormales: Datos que resultan de errores (por ej.: errores en el tipeado durante la carga) o que
representan eventos inusuales.
Dimensin: En una base de datos relacional o plana, cada campo en un registro representa una
dimensin. En una base de datos multidimensional, una dimensin es un conjunto de entidades
similares; por ej.: una base de datos multidimensional de ventas podra incluir las dimensiones Producto,
Tiempo y Ciudad.
Modelo analtico: Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un rbol de
decisin es un modelo para la clasificacin de un conjunto de datos
Modelo lineal: Un modelo analtico que asume relaciones lineales entre una variable seleccionada
(dependiente) y sus predictores (variables independientes).
Modelo no lineal: Un modelo analtico que no asume una relacin lineal en los coeficientes de las
variables que son estudiadas.
Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas en un conjunto
de datos.
Navegacin de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de una base de
datos multidimensional. Ver OLAP.
OLAP Procesamiento analtico on-line (On Line Analitic prossesing): Se refiere a aplicaciones de bases
de datos orientadas a array que permite a los usuarios ver, navegar, manipular y analizar bases de
datos multidimensionales.
Outlier: Un item de datos cuyo valor cae fuera de los lmites que encierran a la mayora del resto de los
valores correspondientes de la muestra. Puede indicar datos anormales. Deberan ser examinados
detenidamente; pueden dar importante informacin.
Procesamiento paralelo: Uso coordinado de mltiples procesadores para realizar tareas
computacionales. El procesamiento paralelo puede ocurrir en una computadora con mltiples
procesadores o en una red de estaciones de trabajo o PCs.
RAID: Formacin redundante de discos baratos (Redundant Array of inexpensive disks). Tecnologa
para el almacenamiento paralelo eficiente de datos en sistemas de computadoras de alto rendimiento.
Regresin lineal: Tcnica estadstica utilizada para encontrar la mejor relacin lineal que encaja entre
una variable seleccionada (dependiente) y sus predicados (variables independientes).
Qu es Data Mining?
Data Mining, la extraccin de informacin oculta y predecible de grandes bases de datos, es una
poderosa tecnologa nueva con gran potencial que ayuda a las compaas a concentrarse en la
informacin ms importante de sus Bases de Informacin (Data Warehouse).
Un Sistema Datamining es una tecnologa de soporte para usuario final cuyo objetivo es extraer
conocimiento til y utilizable a partir de la informacin contenida en las bases de datos de las empresas.
Los sistemas Datamining se desarrollan bajo lenguajes de ltima generacin basados en la inteligencia
artificial y utilizan modelos matemticos tales como:
Redes neuronales artificiales: modelos predecible no-lineales que aprenden a travs del entrenamiento y
semejan la estructura de una red neuronal biolgica.
Arboles de decisin: estructuras de forma de rbol que representan conjuntos de decisiones. Estas
decisiones generan reglas para la clasificacin de un conjunto de datos. Mtodos especficos de rboles
de decisin incluyen Arboles de Clasificacin y Regresin (CART: Classification And Regression Tree) y
Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi Square Automatic Interaction
Detection)
Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como combinaciones genticas,
mutaciones y seleccin natural en un diseo basado en los conceptos de evolucin.
Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un conjunto de datos basado
en una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de datos
histricos (donde k ? 1). Algunas veces se llama la tcnica del vecino k-ms cercano.
Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente
consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios de esta informacin
casi no estn dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de
patrones ocultos, encontrando informacin predecible que un experto no puede llegar a encontrar
porque se encuentra fuera de sus expectativas.
Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor
de alto performance o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar
respuesta a preguntas tales como, "Cules clientes tienen ms probabilidad de responder al prximo
mailing promocional, y por qu? y presentar los resultados en formas de tablas, con grficos, reportes,
texto, hipertexto, etc.
Las tcnicas de Data Mining pueden ser implementadas rpidamente en plataformas ya existentes de
software y hardware para acrecentar el valor de las fuentes de informacin existentes y pueden ser
integradas con nuevos productos y sistemas pues son tradas en lnea (on-line).
Esta investigacin pretende explicar las diferencias de data mining y estadstica desde una perspectiva
constructiva en el uso de ambas herramientas analticas y bajo un contexto empresarial.
Ambas ciencias tienen el mismo objetivo: mejorar la toma de decisiones mediante un conocimiento del
entorno. Este entorno lo facilitan los datos almacenados en la compaa, cuantitativos o cualitatitativos y
mediante informacin de terceras empresas.
Una aplicacin, por ejemplo, es implementar un proceso que genere una muy precisa segmentacin de
los clientes. Una vez que el motor del Excavador de Datos ha seleccionado un grupo adecuado de
segmentos de clientes de su Bodega de Datos (DataWarehouse), el prximo paso ser extrapolar los
perfiles de los consumidores. Cada vez que llega una nueva cosecha de clientes se aplica un nuevo
conjunto de modelos estadsticos y se corre el programa para comparar contra los segmentos existentes
o crear otros nuevos. Aqu estamos enfocando la atencin a predecir la lealtad de marca, para citar un
ejemplo, pero tenemos muchas otras aplicaciones como son:
1. Segmentacin del mercado
2. Tendencias de desercin de clientes
3. Descubrimiento de transacciones fraudulentas
4. Mercadeo directo
5. Mercadeo Interactivo
6. Anlisis de canasta
7. Anlisis de tendencias
8. Perfiles de clientes
Cuestiones Tecnolgicas
Las soluciones que aporta el Data Mining estn basadas en la implementacin, a travs de la
programacin, de interfaces de uso general y algoritmos propios y disponibles para todos que permiten
una eficiente exploracin y organizacin de los datos. Estos algoritmos apoyan la identificacin de
patrones, relaciones y anomalas de inters potencial para los que toman las decisiones en los negocios.
Adems de implementar estos algoritmos en un mtodo accesible para el usuario la tecnologa del Data
Mining requiere una comprensin de varias bases de datos e implementacin de soluciones de Data
Mining para aprovechar las caractersticas de dichas bases de datos (si hay alguna) y que hacen que las
tareas del Data Mining sean ms eficientes en grandes volmenes de datos. Adems de las
implementaciones de algoritmos, consideraciones claves relativas al Data Mining seran la preparacin
de datos y el asegurar la escalabilidad y rendimiento en grandes volmenes de datos.
Ventajas de nuestra solucin:
Ciclo rpido de desarrollo (2-3 meses)
Integracin con la arquitectura DataWarehouse
Uso de muestras o de grandes volmenes de datos
Uso de tecnologa lder en Data Mining.
6. Conclusiones
Un Sistema Datamining nos permite analizar factores de influencia en determinados procesos, predecir
o estimar variables o comportamientos futuros, segmentar o agrupar tems similares, adems de obtener
secuencias de eventos que provocan comportamientos especficos.
La llegada del Data Mining se considera como la ltima etapa de la introduccin de mtodos
cuantitativos, cientficos en el mundo del comercio, industria y negocios. Desde ahora, todos los no-
estadsticos -es decir el 99,5% de nosotros - pueden construir modelos exactos de algunas de sus
actividades, para estudiarlas mejor, comprenderlas y mejorarlas.
Anexos
Administrador De Base De Datos
El "Administrador de Base de Datos" ser el responsable de mantener una Base de Data confiable para
permitir la cabal ejecucin del Plan de Mercadeo, trabajando conjuntamente con las Unidades de R&D y
Publicidad, los Especialistas de Producto y las Gerencias de Areas.
FUNCIONES:
Parametrizar la alimentacin de la Base de Datos por parte de los Operadores y Usuarios para
garantizar su confiabilidad.
Alimentar directamente la Base de Datos con aquella data o informacin que escape del dominio del
Usuario u Operador para asegurar su representatividad y utilidad para fines de anlisis y Mercadeo.
Coordinar el diseo de Programas o Aplicaciones con el Area de Informtica para preservar la
compatibilidad de los sistemas y facilitar el uso de la Base de Datos.
Depurar contnuamente la Base de Datos para garantizar su confiabilidad.
Respaldar todo registro para asegurar la preservacin de la data.
Concientizar al Usuario sobre los usos y la utilidad de la Base de Datos para propiciar su mximo
aprovechamiento, por l ms amplio universo de Gerentes, Unidades y Ejecutivos, para fines de
Mercadeo.
Brindar apoyo tcnico al Usuario, Operador e Informtica respecto al manejo y mantenimiento de la
Base de Datos para evitar inconsistencias y contaminacin de la data.
Analizar la data e informacin que emana peridicamente de la Base de Datos, "first hand", cruzndola
con aquella que generen los estudios de Mercados, para conformar alertas e informes oportunos.
Elaborar los Informes o Reportes que sean acordados por la Gerencia de Mercadeo, o aquellos que le
sean solicitados, de acuerdo al Calendario aprobado, con el propsito de informar a las Gerencias
oportunamente y documentar el Plan Operativo anual.
Distribuir los Reportes a los Usuarios de acuerdo a las necesidades, usos y fines de cada uno.