Вы находитесь на странице: 1из 32

Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.

1


08ll8$l00 08ll8$l00 08ll8$l00 08ll8$l00
80l08l 0ll 80l08l 0ll 80l08l 0ll 80l08l 0ll
8080l$1l 8080l$1l 8080l$1l 8080l$1l

TRABAJO DE INVESTIGACIN BIBLIOGRFICA:
MINERA DE DATOS



DEPARTAMENTO DE INFORMTICA

PROFESOR: MASTER DAVID LUIS LA RED MARTNEZ

ALUMNO: RAMN DAVID E. LEZCANO





Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
2


OBJETIVOS


Analizar y entender qu es la Minera de Datos.
Cmo la Minera de Datos se relaciona con el KDD o descubrimiento de
conocimientos.
Reconocer la problemtica del anlisis de grandes volmenes de datos y de los
beneficios de su uso sistemtico para la obtencin de modelos y patrones predictivos o
descriptivos.
Diferenciar entre Estadstica y Minera de Datos.
Conocer las aplicaciones habituales de la Minera de Datos.
Conocer por qu su importancia hoy en da.
Conocer la relacin de la Minera de Datos con otras disciplinas.

INTRODUCCIN

La medicin del software est adquiriendo una gran importancia debido a que cada vez es
mayor la necesidad de obtener datos objetivos que permitan evaluar, predecir y mejorar la
calidad del software, as como el tiempo y coste de desarrollo del mismo.

Asimismo, en los ltimos aos se ha visto un gran crecimiento en la capacidad de
generacin y almacenamiento de informacin, debido a la creciente automatizacin de
procesos y los avances en las capacidades de almacenamiento de informacin. Gran parte
de esa informacin es histrica, es decir, representa transacciones o situaciones que se han
producido. Aparte de su funcin de Memoria de la Organizacin, la informacin sta
histrica, es til para predecir informacin futura, ya que la mayora de las decisiones de
empresas, organizaciones e instituciones se basan en informacin de experiencias pasadas,
extradas de fuentes muy diversas.

Desgraciadamente, no se ha visto un desarrollo equivalente en las tcnicas de anlisis de
informacin, por lo que existe la necesidad de una nueva generacin de tcnicas y
herramientas computacionales con la capacidad de asistir a usuarios en el anlisis
automtico e inteligente de datos. El procesar automticamente grandes cantidades de datos
para encontrar conocimiento til para un usuario y satisfacerle sus metas, es el objetivo
principal del rea de Descubrimiento de Conocimiento en Bases de Datos o KDD
(Knowledge Discovery from Data base). Este es el campo que est evolucionando para
proporcionar soluciones al anlisis automatizado, al que tambin podemos definirlo como:
Un proceso no trivial de identificar patrones vlidos, novedosos, potencialmente tiles y en
ltima instancia comprensible a partir de datos o como la extraccin no trivial de
informacin implcita, desconocida, y potencialmente til de los datos.

Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
3
Es muy importante comprender al KDD, ya que el tema que vamos a tocar (Minera de
Datos), no es ms que una fase del mismo, fase que integra los mtodos de aprendizaje y
estadsticas para obtener hiptesis de patrones y modelos, adems por que las tcnicas de
minera de datos surgen como las mejores herramientas para realizar exploraciones ms
profundas y extraer informacin nueva, til y no trivial que se encuentra oculta en grandes
volmenes de datos. Es importante tambin aclarar que vulgarmente se asimila a KDD con
Minera de Datos.


MINERA DE DATOS (DM). DESCUBRIMIENTO DE
CONOCIMIENTOS (KD)

Se puede decir que un sistema Data Mining es una tecnologa soporte para usuario final
cuyo objetivo es extraer conocimiento til y utilizable a partir de la informacin contenida
en bases de datos; tambin se llama minera de datos (data mining) al anlisis de archivos y
bitcoras de transacciones que sean tiles para la toma de decisiones. La especie humana
posee habilidades extremadamente sofisticadas para detectar patrones y descubrir
tendencias. Por tal motivo una imagen nos dice ms que mil palabras y una grfica nos
permite, de una mirada, identificar tendencias en el tiempo o relaciones entre dos
mediciones de un fenmeno. Por otro lado, no es claro que nuestras habilidades puedan
realizar, con la misma eficiencia, la tarea de analizar los trillones de datos almacenados
electrnicamente al monitorear las transacciones comerciales de una base de datos.

Dada de la tecnologa actual, resulta ms o menos sencillo coleccionar grandes volmenes
de informacin. Con el uso de lectura ptica y cdigo de barras, las cadenas de
supermercados pueden fcilmente coleccionar la informacin de cada canasta de compra, es
decir, cual es el conjunto de artculos que el cliente compra. Un concepto similar es el
estado de cuenta mensual de una tarjeta de crdito en el que se describe un conjunto de
artculos que el cliente adquiri ese mes. De igual manera, gobiernos, instituciones pblicas
y privadas, estn en la posibilidad de juntar millones y millones de datos de actividades
individuales que contienen informacin altamente detallada sobre montos, fechas, horas,
lugares, productos y servicios.

Esta informacin cruda es tan voluminosa que resulta intil, pues no aporta conocimiento o
fundamento para la toma de decisiones. El resumir datos para la toma de decisiones ha sido
el campo tradicional de la estadstica pero hoy en da existen nuevas tcnicas, una de ella es
la Minera de Datos, la que revela patrones o asociaciones que usualmente nos eran
desconocidas y se le ha llamado tambin descubrimiento de conocimiento (KD Knowledge
Discovery).

El descubrir patrones o relaciones tiles en una coleccin de datos ha recibido
tradicionalmente muchos nombres. El trmino data mining lleg incluso a ser muy
desprestigiado en la estadstica, pues representaba masajear suficientemente los datos
hasta que los mismos confirmasen lo que uno quera postular. En ese sentido, la minera de
datos es un proceso que invierte la dinmica del mtodo cientfico en el siguiente sentido.

Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
4
En el mtodo cientfico, primero se formulan las hiptesis y luego se disea el experimento
para coleccionar los datos que confirmen o refuten la hiptesis. Si esto se hace con la
formalidad adecuada (cuidando cules son las variables controladas y cules
experimentales), se obtiene un nuevo conocimiento.

En la minera de datos, se coleccionan los datos y esperamos que de ellos emerjan
hiptesis.

Al hablar de descubrimiento de conocimientos en base de datos decimos que es un
proceso de extraccin no trivial para identificar patrones que sean vlidos, novedosos,
potencialmente tiles y entendibles, a partir de datos.
Proceso: KDD involucra varios pasos y es interactivo, al encontrar informacin til
en los datos, se realizan mejores preguntas.
Vlido: se utilizan principalmente los datos y se espera que los patrones puedan
aplicarse en el futuro.
Novedoso: desconocido con anterioridad.
til: aplicable y cumpliendo las metas del usuario.
Entendible: que nos lleve a la comprensin, muchas veces medido por el tamao.

El proceso de KDD consiste en usar mtodos de minera de datos (algoritmos) para extraer
(identificar) lo que se considera como conocimiento de acuerdo a la especificacin de
ciertos parmetros usando una base de datos junto con pre-procesamientos y post-
procesamientos.

Se estima que la extraccin de patrones (minera) de los datos ocupa solo el 15% - 20% del
esfuerzo total del proceso de KDD.



MINERA DE DATOS VERSUS ESTADSTICA


El Data Mining es el descendiente y -segn algunos- el sucesor de la estadstica tal y como
sta se utiliza actualmente.

Pero lo que se pretende en este punto es explicar las diferencias entre data mining y
estadstica, desde una perspectiva constructiva en el uso de ambas herramientas analticas y
bajo un contexto empresarial.

Estadstica y Data Mining conducen al mismo objetivo, el de efectuar modelos
compactos y comprensibles que rindan cuenta de las relaciones establecidas entre la
descripcin de una situacin y un resultado (o un juicio) relacionado con dicha descripcin.
Tambin apunta a mejorar la toma de decisiones mediante un conocimiento del entorno.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
5
Este entorno lo facilitan los datos almacenados en la compaa, cuantitativos o cualitativos
y mediante informacin de terceras empresas.

Fundamentalmente, la diferencia entre ambas reside en que las tcnicas del Data Mining
construyen el modelo de manera automtica mientras que las tcnicas estadsticas
clsicas necesitan ser manejadas - y orientadas - por un estadstico profesional.

Las tcnicas de Data Mining permiten ganar tanto en performance como en manejabilidad e
incluso en tiempo de trabajo. La posibilidad de realizar uno mismo sus propios modelos sin
necesidad de sub-contratar ni ponerse de acuerdo con un estadstico proporciona una gran
libertad a los usuarios profesionales.

Pero es importante aclarar que la estadstica se utiliza para validar o para matrizar un
modelo sugerido y preexistente, no para generarlo.

La data mining aventaja a la estadstica en los siguientes supuestos:

Las tcnicas estadsticas se centran generalmente en tcnicas confirmatorias, mientras
que las tcnicas de data mining son generalmente exploratorias. As, cuando el
problema al que pretendemos dar respuesta es refutar o confirmar una hiptesis,
podremos utilizar ambas ciencias (diferentes conclusiones y ms robusta la estadstica).
Sin embargo, cuando el objetivo es meramente exploratorio (para concretar un
problema o definir cules son las variables ms interesantes en un sistema de
informacin) surge la necesidad de delegar parte del conocimiento analtico de la
empresa en tcnicas de aprendizaje (inteligencia artificial), utilizando data mining. Aqu
hemos detectado una primera diferencia de aplicacin de ambas herramientas: data
mining se utilizar cuando no partamos de supuestos de partida y pretendamos buscar
algn conocimiento nuevo y susceptible de proporcionar informacin novedosa en la
toma de decisiones.
A mayor dimensionalidad del problema la data mining ofrece mejores soluciones.
Cuantas ms variables entran en el problema, ms difcil resulta encontrar hiptesis de
partida interesantes. O, an cuando pudiera, el tiempo necesario no justificar la
inversin. En ese caso, utilizar tcnicas de data mining como rboles de decisin nos
permitir encontrar relaciones inditas para luego concretar la investigacin sobre las
variables ms interesantes.
Las tcnicas de data mining son menos restrictivas que las estadstas. Una vez
encontrado un punto de partida interesante y dispuestos a utilizar algn anlisis
estadstico en particular (por ejemplo, discriminante para diferenciar segmentos de
mercado), puede suceder que los datos no satisfagan los requerimientos del anlisis
estadstico. Entonces, las variables debern ser examinadas para determinar qu
tratamiento permite adecuarlas al anlisis, no siendo posible o conveniente en todos los
casos. Aqu tambin destaca la data mining, puesto que es menos restrictivo que la
estadstica y permite ser utilizado con los mnimos supuesto posibles (permite
escuchar a los datos).

Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
6
Cuando los datos de la empresa son muy dinmicos las tcnicas de data mining inciden
sobre la inversin y la actualizacin del conocimiento de nuestro negocio. Un almacn de
datos poco dinmico permite que una inversin en un anlisis estadstico quede
justificada -personal cualificado en estadstica, metodologa rgida y respuestas a preguntas
muy concretas- dado que las conclusiones van a tener un ciclo de vida largo. Sin embargo,
en un almacn muy dinmico las tcnicas de data mining permiten explorar cambios y
determinar cundo una regla de negocio ha cambiado. Permitiendo abordar diferentes
cuestiones a corto / medio plazo.

Exponemos ahora aquellos contextos en los que es ms adecuado el anlisis estadstico que
el de data mining:

El objetivo de la investigacin es encontrar causalidad. Si se pretende determinar cules
son las causas de ciertos efectos (por ejemplo, si invertir ms en la publicidad de cierto
producto tiene como consecuencia un incremento de ventas o si es ms determinante el
ofrecer un descuento a los clientes), deberemos utilizar tcnicas de estadstica (por
ejemplo, ecuaciones estructurales). Las relaciones complejas que subyacen a tcnicas de
data mining impiden una interpretacin certera de diagramas causa-efecto.
Se pretende generalizar sobre poblaciones desconocidas en su globalidad. Si las
conclusiones han de ser extensibles a otros elementos de poblaciones similares habrn
de utilizarse tcnicas de inferencia estadstica. Esto viene relacionado con situaciones
en las que se dispone exclusivamente de muestras (con el consiguiente problema de
aportar validez a las muestras). En data mining, se generarn modelos y luego habrn de
validarse con otros casos conocidos de la poblacin, utilizando como significacin el
ajuste de la prediccin sobre una poblacin conocida (es lo habitual cuando queremos
predecir perfiles de clientes, que ya disponemos de antecedentes para poder validarlos,
aunque no siempre es posible acceder a dicha informacin o no siempre es correcto
aplicar ciertas muestras).

Se han detallado algunos argumentos acerca de cundo es conveniente utilizar data mining
o estadstica. Llegado a este punto deseamos destacar que ambas perspectivas constituyen
una sinergia y que no son excluyentes una de la otra. En este sentido, la metodologa de un
proyecto de data mining ha de contener referencias a la estadstica en dos partes destacables
del proceso:

Preparacin de los datos (tratamiento de valores errneos, valores omitidos,...) y
aproximacin a las variables de estudio.
Despliegue del proyecto y posible generacin de hiptesis a refutar con una
metodologa y tcnica estadstica.

As pues, data mining y estadstica son tcnicas complementarias que permiten obtener
conocimiento indito en nuestros almacenes de datos o dar respuestas a cuestiones
concretas de negocio.


Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
7
TIPOLOGA DE LAS TCNICAS DE MINERA DE
DATOS


Las tcnicas de mineras de datos crean dos modelos:

Tenemos los Modelos Predictivos o basados en la Memoria y los Modelos Descriptivos.
Modelos Predictivos o Basados en la Memoria

Tcnicas: Clasificacin, Prediccin de valores.

Ejemplos: Cul es el riesgo de este cliente?. Se quedar el cliente?.

Los modelos predictivos requieren de un set de pruebas y de interacciones de
entrenamiento:
1. Seleccin de pruebas.
2. Minado inicial.
3. Resultado.
4. Aplicacin de una segunda muestra representativa.
5. Anlisis de los resultados.
6. Interacciones hasta lograr un modelo consistente.
7. Aplicar al negocio.
Modelos Descriptivos

Tcnicas: Asociacin, Segmentacin o 'Clustering'.

Ejemplos: Un cliente que compra productos dietticos es tres veces ms probable que
compre caramelos.

Componentes bsicas de los mtodos de Minera de
Datos


Sus componentes bsicos son:

Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.

1. Lenguaje de representacin del modelo: Es muy importante que se sepan las
suposiciones y restricciones en la representacin empleada para construir modelos.

2. Evaluacin del modelo: En cuanto a predictividad se basa en tcnicas de validacin
cruzada (cross validation); en cuanto a calidad descriptiva del modelo se basan en
principios como el de mxima verosimilitud (maximum likelihood) o en el principio
de longitud de descripcin mnima o MDL (minimum description length).

3. Mtodo de bsqueda: Se puede dividir en bsqueda de parmetros y bsqueda del
modelo y determinan los criterios que se siguen para encontrar los modelos
(hiptesis).


TCNICAS DE MINERA DE DATOS


La minera de datos ha dado lugar a una paulatina sustitucin del anlisis de datos dirigido
a la verificacin por un enfoque de anlisis de datos dirigidos al descubrimiento del
conocimiento. La principal diferencia entre ambos se encuentra en que en el ltimo se
descubre informacin sin necesidad de formular previamente una hiptesis.

La aplicacin automatizada de algoritmos de minera de datos permite detectar fcilmente
patrones en los datos, razn por la cual esta tcnica es mucho ms eficiente que el anlisis
dirigido a la verificacin cuando se intenta explorar datos procedentes de repositorios de
gran tamao y complejidad elevada. Dichas tcnicas emergentes se encuentran en continua
evolucin como resultado de la colaboracin entre campos de investigacin tales como
bases de datos, reconocimiento de patrones, inteligencia artificial, sistemas expertos,
estadsticas, visualizacin, recuperacin de la informacin y computacin de altas
prestaciones.

Los algoritmos de minera de datos se clasifican en dos grandes categoras: supervisados o
predictivos y no supervisados o de descubrimiento del conocimiento.

Los algoritmos supervisados o predictivos predicen el valor de un atributo (etiqueta) de un
conjunto de datos, conocidos otros atributos (atributos descriptivos). A partir de datos cuya
etiqueta se conoce, se induce una relacin entre dicha etiqueta y otras series de atributos.
Esas relaciones sirven para realizar la prediccin en datos cuya etiqueta es desconocida.
Esta forma de trabajar se conoce como aprendizaje supervisado y se desarrolla en dos fases:
entrenamiento (construccin de un modelo usando un subconjunto de datos con etiqueta
conocida) y prueba (prueba del modelo sobre el resto de los datos).

Cuando una aplicacin no es lo suficientemente madura no tiene el potencial necesario para
una solucin predictiva, en ese caso hay que recurrir a los mtodos no supervisados o de
descubrimiento del conocimiento que descubren patrones y tendencias en los datos
actuales (no utilizan datos histricos). El descubrimiento de esa informacin sirve para
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
9
llevar a cabo acciones y obtener un beneficio (cientfico o de negocio) de ellas. La tabla
siguiente muestra algunas de las tcnicas de minera de ambas categoras.

SUPERVISADOS NO SUPERVISADO
rboles de decisin Deteccin de desviaciones
Introduccin neuronal Segmentacin
Regresin Agrupamiento (clustering)
Series temporales Reglas de asociacin
Patrones secuenciales

La aplicacin de los algoritmos de minera de datos requiere la realizacin de una serie de
actividades previas encaminadas a preparar los datos de entrada debido a que, en muchas
ocasiones, dichos datos proceden de fuentes heterogneas, no tienen el formato adecuado o
contienen ruido. Por otra parte, es importante interpretar y evaluar los resultados obtenidos.

El proceso completo consta de los pasos que se detallan seguidamente.

DATA MINING: PASOS A SEGUIR:

Los pasos a seguir son:

Paso 1: Identificar el problema de negocios:
Analizar si un objetivo es intil.
Metas sin significado son solo sueos.
Paso 2: Preparacin de los Datos:
Dnde se encuentran los datos?.
Cmo estn estructurados?.
Cundo estn disponibles?.
Qu significado tienen los datos?.
Los datos estn relacionados a los objetivos de negocio?.
Podemos realizar muestras al azar para reducir el volumen?.
Qu variables y registros son apropiados como datos de entrada para el proceso de
minera?.
Paso 3: Construir el Modelo de Minera de Datos:

Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
10
Las consideraciones son las siguientes:
Tcnicas necesarias.
Secuencia de Tcnicas.
Mejores algoritmos.
Modos - entrenamiento, pruebas, aplicacin.
Estimar la duracin de la corrida de la minera.
Paso 4: Anlisis y Validacin de los Resultados:

La herramienta de minera entrega:

Resultados de los datos.

Debemos decidir:

Significado de los resultados.
Importancia de los resultados.
Suficiencia de los resultados.
Debemos determinar cmo los resultados se relacionan con el problema original
planteado.
Paso 5: Implementar y Monitorear:
Riesgo crediticio (predictivo).
Prdida y adquisicin de clientes (predictivo).
Morosidad de pagos (predictivo).
Promociones de productos en conjunto (descriptivo).
Campaas a grupos o segmentos especficos (descriptivo).
Comunicaciones por correo (predictivo).
Determinar el mercado para un nuevo servicio (descriptivo).
Aunque los pasos anteriores se realizan en el orden que aparecen, el proceso es altamente
iterativo, establecindose retroalimentacin entre los mismos. Adems, no todos los pasos
requieren el mismo esfuerzo; generalmente la etapa de procesamiento es la ms costosa ya
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
11
que representa aproximadamente el 60% del esfuerzo total mientras que la etapa de minera
de datos solo representa el 10%.

Para explicar las tcnicas mencionadas anteriormente (supervisados y no supervisados)
tenemos:
Algunas de las tcnicas ms comunes:
rboles de decisin y reglas de clasificacin: realizan cortes sobre una variable (lo
cual limita su expresividad, pero facilita su comprensin). Generalmente se usan
tcnicas heursticas en su construccin.



Prediccin de Ozono en la Ciudad de Mxico.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
12

Mtodos de clasificacin y regresiones no-lineales: tratan de ajustar combinaciones
de funciones lineales y no-lineales, por ejemplo, redes neuronales (e.g.,
backpropagation), mtodos de splines adaptativos, etc.

Red Neuronal prototpica.


Mtodos basados en ejemplos prototpicos: se hacen aproximaciones sobre la base
de los ejemplos o casos ms conocidos (examplar-based learning y case-based
resoning). El problema es cmo determinar una medida de similaridad adecuada.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
13

Aprendizaje basado en instancias.


Modelos grficos de dependencias probabilsticas: bsicamente redes bayesianas, en
donde la evaluacin se basa en probabilidad y el encontrar el modelo en heursticas.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
14

Red bayesiana de seguros de coches.


Modelos relacionales: Programacin lgica inductiva (o ILP), en donde la bsqueda
del modelo se basa en lgica y heursticas.


Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
15
Prediccin de muta gnesis.


Reglas de Asociacin: reglas que relacionan un conjunto de pares atributo-valor con
otros pares atributo-valor. Por ejemplo:


Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
16
Clustering: agrupan datos cuya distancia multidimensional intreclase es pequea e
interclase es grande.

Ejemplo de Clustering.






Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
17
METAS DE LA MINERA DE DATOS

El proceso de minera involucra ajustar modelos o determinar patrones a partir de datos.
Este ajuste normalmente es de tipo estadstico en el sentido que se permite un cierto ruido o
errores dentro del modelo.

Los algoritmos de minera de datos realizan en general tareas de descripcin (de datos y
patrones), de prediccin (de datos desconocidos) y de segmentacin (de datos). Otras como
anlisis de dependencias e identificacin de anomalas se pueden usar tanto para
descripcin como para prediccin:

Descripcin: normalmente es usada para anlisis preliminar de los datos (resumen,
caractersticas de los datos, casos extremos, etc.). Con esto, el usuario se sensibiliza
con los datos y su estructura.
Prediccin: la podemos dividir en dos: Clasificacin y Estimacin:
o Clasificacin: los datos son objetos caracterizados por atributos que
pertenecen a diferentes clases (etiquetas discretas).
o Estimacin o Regresin: las clases son continuas.
Segmentacin: separacin de los datos en subgrupos o clases interesantes.
Deteccin de desviaciones, casos extremos o anomalas: detectar los cambios ms
significativos en los datos con respecto a valores pasados o normales. Sirve para
filtrar grandes volmenes de datos que son menos probables de ser interesantes. El
problema est en determinar cundo una desviacin es significativa para ser de
inters.

AREAS DE APLICACIN


En la actualidad existe una gran cantidad de aplicaciones en reas como:

Toma de decisiones (banca-finanzas-seguros, marketing, polticas sanitarias /
demogrficas). Estas ms importantes industrialmente.
Astronoma: clustering y clasificacin de cuerpos celestes.
Medicina.
Biologa molecular: prediccin de substancias cancergenas, genoma humano, etc.
Aspectos climatolgicos: prediccin de tormentas, etc.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
1
Industria y manufactura: diagnstico de fallas.
Mercadotecnia: identificar clientes susceptibles de responder a ofertas de productos
y servicios por correo, seleccin de sitios de tiendas, etc.
Inversin en casas de bolsa y banca: anlisis de clientes, aprobacin de prstamos,
etc.
Deteccin de fraudes y comportamientos inusuales: telefnicos, seguros,
electricidad, etc.
Algunos de los ejemplos para los cuales se utiliza:
En el Comercio / Marketing:
o Identificar patrones de compras de los clientes.
o Anlisis de cestas de las compras, etc.
En Banca:
o Detectar patrones de uso fraudulentos de tarjetas de crditos.
o Identificar clientes leales.
o Predecir clientes con probabilidad de cambiar su afiliacin.
o Determinar gastos de tarjetas de crditos por grupo.
Seguros y Salud Privada:
o Anlisis de Procedimientos mdicos solicitados conjuntamente.
o Predecir clientes que compran nuevas plizas.
o Identificar comportamiento fraudulento.
Transporte:
o Determinar la planificacin de la distribucin entre tiendas.
o Analizar patrones de carga.
Medicina:
o Identificacin de terapias mdicas satisfactorias para diferentes
enfermedades.
o Asociacin de sntomas y clasificacin diferencial de patologas.
o Estudio de factores (genticos, precedentes, etc.) de riesgo / salud en
distintas patologas.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
19
o Segmentacin de pacientes para una atencin ms inteligente segn su
grupo.
o Estudios epidemiolgicos, anlisis de rendimientos de campaas de
informacin, prevencin, sustitucin de frmacos, etc.

PROBLEMAS DE APLICACIN.

La data mining presenta los siguientes problemas de aplicacin:

Entrenamiento insuficiente.
Herramientas de soporte inadecuadas.
Abundancia de patrones.
Cambios rpidos de los datos en el tiempo.
Datos complejos (espaciales, imgenes, texto, audio, video).

ALCANCE DE LA MINERA DE DATOS

Dadas bases de datos de suficiente tamao y calidad, la tecnologa de Data Mining puede
generar nuevas oportunidades de negocios al proveer estas capacidades:

Prediccin automatizada de tendencias y comportamientos

Data Mining automatiza el proceso de encontrar informacin predecible en grandes bases
de datos. Preguntas que tradicionalmente requeran un intenso anlisis manual, ahora
pueden ser contestadas directa y rpidamente desde los datos.

Un tpico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted
marketing). Data Mining usa datos en mailing promocionales anteriores para identificar
posibles objetivos para maximizar los resultados de la inversin en futuros mailing.

Otros problemas predecibles incluyen pronsticos de problemas financieros futuros y otras
formas de incumplimiento, e identificar segmentos de poblacin que probablemente
respondan similarmente a eventos dados.

Descubrimiento automatizado de modelos previamente desconocidos

Las herramientas de Data Mining barren las bases de datos e identifican modelos
previamente escondidos en un slo paso.

Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
20
Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas
de tarjetas de crditos e identificar datos anormales que pueden representar errores de
tipeado en la carga de datos.

Las tcnicas de Data Mining pueden redituar los beneficios de automatizacin en las
plataformas de hardware y software existentes y pueden ser implementadas en sistemas
nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean
desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de
procesamiento paralelo de alto performance, pueden analizar bases de datos masivas en
minutos.

Procesamiento ms rpido significa que los usuarios pueden automticamente experimentar
con ms modelos para entender datos complejos. Alta velocidad hace que sea prctico para
los usuarios analizar inmensas cantidades de datos. Grandes bases de datos, a su vez,
producen mejores predicciones.

Las bases de datos pueden ser grandes tanto en profundidad como en ancho:

Ms columnas: Los analistas muchas veces deben limitar el nmero de variables a
examinar cuando realizan anlisis manuales debido a limitaciones de tiempo. Sin embargo,
variables que son descartadas porque parecen sin importancia pueden proveer informacin
acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los
usuarios explorar toda la base de datos, sin preseleccionar. un subconjunto de variables.

Ms filas: Muestras mayores producen menos errores de estimacin y desvos, y permiten a
los usuarios hacer inferencias acerca de pequeos pero importantes segmentos de
poblacin.

CMO SE DESARROLLA EL SISTEMA DE DATA
MINING? CMO TRABAJA Y QU SON CAPACES
DE HACER SUS HERRAMIENTAS?

Los sistemas Data Mining se desarrollan bajo lenguajes de ltima generacin basados en la
inteligencia artificial y utilizan modelos matemticos tales como las ya mencionadas redes
neuronales, rboles de decisin, clasificacin, etc.

Cun exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce
o que van a pasar?. La tcnica usada para realizar estas hazaas en Data Mining se llama
modelado. Modelado es simplemente el acto de construir un modelo en una situacin donde
usted conoce la respuesta y luego la aplica en otra situacin de la cual desconoce la
respuesta.

Este acto de construccin de un modelo es algo que la gente ha estado haciendo desde hace
mucho tiempo, seguramente desde antes del auge de las computadoras y de la tecnologa de
Data Mining.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
21
Lo que ocurre en las computadoras, no es muy diferente de la manera en que la gente
construye modelos. Las computadoras son cargadas con mucha informacin acerca de una
variedad de situaciones donde una respuesta es conocida y luego el software de Data
Mining en la computadora debe correr a travs de los datos y distinguir las caractersticas
de los datos que llevarn al modelo. Una vez que el modelo se construy, puede ser usado
en situaciones similares donde usted no conoce la respuesta.

Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes, cmo
puede saber si es realmente un buen modelo?. La primera cosa que puede probar es pedirle
que aplique el modelo a su base de clientes -donde usted ya conoce la respuesta-. Con Data
Mining, la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos
del proceso de Data Mining. Una vez que el proceso est completo, los resultados pueden
ser comparados contra los datos excluidos para confirmar la validez del modelo. Si el
modelo funciona, las observaciones deben mantenerse para los datos excluidos.

Por que usar Data Mining?

Proporciona poderes de decisin a los usuarios del negocio que mejor entienden el
problema y el entorno y es capaz de medir las acciones y los resultados de la mejor forma.
Genera modelos descriptivos: en un contexto de objetivos definidos en los negocios permite
a empresas, sin tener en cuenta la industria o el tamao, explorar automticamente,
visualizar y comprender los datos e identificar patrones, relaciones y dependencias que
impactan en los resultados finales de la cuenta de resultados (tales como el aumento de los
ingresos, incremento de los beneficios, contencin de costes y gestin de riesgos).
Genera modelos predictivos: permite que relaciones no descubiertas e identificadas a travs
del proceso de Data Mining sean expresadas como reglas de negocio o modelos
predictivos. Estos output pueden comunicarse en formatos tradicionales (presentaciones,
informes, informacin electrnica compartida, embebidos en aplicaciones, etc.) para guiar
la estrategia y planificacin de la empresa.

ALGUNO FACTORES IMPORTANTES SON:

El abaratamiento de los sistemas de almacenamiento tanto temporal como
permanente.
Mejora la calidad de datos.
El incremento de las velocidades de cmputo en los procesadores.
Mejora de consultas.
Soporta el diseo de base de datos.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
22
Las mejoras en la confiabilidad y aumento de la velocidad en la transmisin de
datos.
El desarrollo de sistemas administradores de bases de datos ms poderosos.

RETOS DE LA MINERA DE DATOS


Los tres retos fundamentales son:

Primer reto: facilidad con que se puede caer en una falsa interpretacin.

Tiempo y espacio: la modelacin en computadora del tiempo y el espacio son problemas
complejos, especialmente para hacer inferencias.

Privacidad: cuando la Minera de Datos era an emergente, se lleg a pensar que no
presentaba ningn peligro o riesgo para la privacidad de los clientes. Hoy en da, se piensa
todo lo contrario.

Adems podemos mencionar:

Volumen de datos (mega, giga y hasta terabytes).
Tratamiento de datos cambiantes: necesidad de revisin y extensin de patrones
(incrementalidad).
Alta dimensionalidad.
Sobre ajuste (over fitting) de modelos en los datos.
Evaluacin de significanca estadstica.
Minera de datos con tipos no-estndar, multimedia u orientado a objeto.
Datos y conocimiento dinmicos (datos en BD y los patrones encontrados cambian
continuamente).
Ruido, incertidumbre (tanto en datos como en conocimiento del dominio y en
patrones descubiertos) y datos incompletos y / o esparcidos.
Relaciones complejas entre campos, jerarquas, relaciones entre atributos, nuevos
atributos, etc.
Entendimiento de patrones.
Incorporacin de conocimiento del dominio.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
23
Interaccin activa del usuario.
Integracin con otros sistemas.
Informacin redundante (puede descubrirse errneamente).

MINERA DE REPORTES Y DOCUMENTOS

Los reportes de aplicaciones que se imprimen cada da contienen la mayora de los datos
necesarios para dar soporte a la decisin y a las iniciativas de inteligencia de negocio. Sin
embargo, si los datos no se filtran, resumen o presentan como cada usuario necesita, son
solo datos -no informacin-. La minera transforma los datos en informes creando y
entregando vistas personalizadas de los datos del archivo de reporte de los reportes de
aplicaciones existentes. Ahora se tiene una solucin completamente automatizada, fcil de
mantener para minera y entregar informacin valiosa dentro de los archivos de reportes de
clases de produccin.

Se puede mencionar el Modulo Ciprs Data Mining que filtra, ordena y resume datos del
reporte a las necesidades de cada usuario, guarda la informacin como una hoja de trabajo
Excel o archivos de texto conveniente, despus automticamente las rutea al buzn
apropiado, a la impresora, al fax, al directorio, o a otro destino de la empresa basada en el
contenido del reporte.

Algunas de sus caractersticas son:

Aumentar la productividad del trabajador de conocimiento: Ciprs automatiza las tareas
de minera de datos realizadas normalmente por los usuarios finales, permitiendo que los
trabajadores de conocimiento pasen ms tiempo en sus trabajos, y menos tiempo
aprendiendo y operando software sofisticado de minera de datos basados en clientes.

Transformar los datos heredados en ricos reportes relacionales: Ciprs da nueva vida a
los datos de aplicaciones preexistentes heredadas. Los reportes de mainframe ricos en datos
se pueden ahora filtrar y resumir para contestar a preguntas, a decisiones econmicas y a
necesidades especificas de la direccin.

Salvaguardar el contenido sobre una base necesitar conocer: Porque la minera de
datos de Ciprs se basa en el servidor Docu Vault, los usuarios ven solamente la
informacin para la cual estn autorizados, algo que las soluciones de minera de datos de
usuario final generalmente no pueden proporcionar consistentemente.

Es importante mencionar que la minera de datos es solo el principio.

Una vez que se hayan procesado los archivos de reporte mediante el modulo Data Mining,
el archivo resultante de Excel o texto tiene acceso a todas las ventajas de la arquitectura de
Ciprs, incluyendo el archivo, indexacin, enrutamiento basado en contenido, entrega en
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
24
Web y ms. Los archivos de texto tambin tienen acceso a una variedad amplia de
caractersticas de realce del documento tales como formatos, fuentes y ms.

ALGO CURIOSO

MINERA DE DATOS: EXPEDIENTES XBOX

La gente de marketing de Xbox usa herramientas de minera de datos de digiMine para
entender las necesidades de los visitantes. El objetivo es vender ms y adaptar los sitios a
los grupos individuales.

Casi todas las organizaciones tienen una base de datos, y la mayor parte tienen ms de una;
si las organizaciones pueden reunir la informacin de estas distintas bases de datos, pueden
atrapar ms criminales, vender ms productos u operar con mayor eficiencia.

Compaas como digiMine, Autonomy, Clear Forest e diphase Technologies venden
software que usa algoritmos complejos para buscar relaciones entre punto de datos
dispersos en almacenes de datos o reunidos en uno solo.

Los organismos gubernamentales pueden beneficiarse con la minera de datos. De hecho,
Autonomy y otras compaas proporcionan al Departamento de Seguridad Interna de
Estados Unidos software para compartir y analizar informacin. Pero, al parecer, los
detallistas utilizan mejor la tecnologa. El sitio Web de Microsoft para su popular consola
de juegos, Microsoft Xbox, usa digiMine para estudiar la actividad en la Web y
compararlas con la informacin de mercadotecnia. El objetivo es vender ms productos y
adaptar el sitio a los gustos individuales.

La informacin que reunimos es central para la mercadotecnia de Xbox, dice Scott Picle,
gerente del sitio Xbox en lnea. Para nosotros es importante segmentar a los usuarios para
darles lo que quieren.

Los blocs de los visitantes al sitio de Xbox se guardan en un almacn de datos digiMine,
mientras que la informacin personal de los clientes se almacena en Microsoft. Los
gerentes de sitio de 27 pases, as como el personal de mercadotecnia de Xbox, pueden
iniciar una consulta desde un visualizador Web. Despus digiMine extrae los datos
relevantes, como los jugadores de Halo que ya leyeron el articulo en el sitio sobre Star
Wars: The Clone Wars y demostraron inters en comprar cualquier juego en los ltimos
diez das, haciendo clic por medio de uno de los socios detallistas de Xbox en lnea. Una
vez que digiMine regresa la informacin, el personal de mercadotecnia de Xbox compara la
informacin con su base de datos interna para crear ofrecimientos dirigidos por correo
electrnico.

Algunas soluciones de minera de datos estn dirigidas al cliente, pues ofrecen interfaces
amigables para el autoservicio y la investigacin.

Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
25
Al final no importa si J. Crew en lnea usa digiMine para comparar compradores
potenciales con la lnea de ropa ms reciente, o si el FBI usa el software de Clear Forest par
identificar terroristas, la minera de datos funciona igual. Buscando en montaas de
informacin y analizando relaciones, las soluciones de minera de datos ayudan a dar
sentido a un mundo basado en la informacin.

MINERA SOBRE TABLAS DINAMICAS

Consiste en un informe de tabla dinmica que se puede utilizar para grandes volmenes de
datos. Podr girar sus filas y columnas para ver diferentes datos de origen, filtrar los datos
mostrando diferentes pgina, o mostrar las reas de inters.


ANEXOS

Data Warehouse

Qu es Data Warehousing?
En la actualidad hay una gran confusin respecto a lo que es un Data Warehouse que,
afortunadamente, est comenzando a despejarse. No obstante, parece que cada proveedor
de un producto o servicio relacionado con tecnologa informtica tiene su definicin y, lo
que es peor, en su propia jerga no siempre comprensible.
Data Warehouse, Business Intelligence y Decision Support en realidad se consideran la
solucin integral y oportuna para desarrollar negocios.
El Data Warehouse se caracteriza por ser integrado, temtico, histrico y no voltil.
Definicin: es un proceso, no un producto. Es una tcnica para consolidar y administrar
datos de variadas fuentes con el propsito de responder preguntas de negocios y tomar
decisiones, de una forma que no era posible hasta ahora.
Consolidar datos desde una variedad de fuentes. Dentro del marco conceptual de Data
Warehousing, los agruparemos dentro del proceso de Transformacin de Datos.
Manejar grandes volmenes de datos de una forma que no era posible, o no era costo
efectivo. A estos medios los agruparemos en Procesamiento y Administracin de Datos.
Acceder a los datos de una forma ms directa, en el lenguaje del negocio, y analizarlos
para obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos
categoras: Acceso a los Datos y Descubrimiento o Data Mining.
Estos desarrollos tecnolgicos, correctamente organizados e interrelacionados, constituyen
lo que se ha dado en llamar un Data Warehouse o Bodega de Datos. Veamos un poco ms
en detalle los grupos mencionados.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
26

Existen muchas definiciones para el DW, la ms conocida fue propuesta por Inmon
[Microst96] (considerado el padre de las Bases de Datos) en 1992: Un DW es una
coleccin de datos orientados a temas, integrados, no-voltiles y variante en el tiempo,
organizados para soportar necesidades empresariales.

En 1993, Susan Osterfeldt [Microst96] publica una definicin que sin duda acierta en la
clave del DW: Yo considero al DW como algo que provee dos beneficios empresariales
reales: integracin y acceso de datos. DW elimina una gran cantidad de datos intiles y no
deseados, como tambin el procesamiento desde el ambiente operacional clsico.

Data Marts

Es un pequeos Data Warehouse, para un determinado nmero de usuarios, para un rea
funcional, especfica de la compaa. Tambin podemos definir que un Data Marts es un
subconjunto de una bodega de datos para un propsito especfico.

Su funcin es apoyar a otros sistemas para la toma de decisiones.

Los procesos que conforma el Datawarehouse son:

Extraccin.
Elaboracin.
Carga.
Explotacin.



Componentes del Data Warehouse.

El xito de DW no est en su construccin, sino en usarlo para mejorar procesos
empresariales, operaciones y decisiones.





Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
27


Diagrama de Funcionamiento.

Cmo trabaja el Data Warehouse?

Extrae la informacin operacional.
Transforma la informacin operacional a formatos consistentes.
Automatiza las tareas de la informacin para prepararla a un anlisis eficiente.

En qu podemos usarlo?

Manejo de relaciones de marketing.
Anlisis de rentabilidad.
Reduccin de costos.

Text Mining

Las tcnicas hasta ahora descritas slo tratan datos numricos o cualitativos. El text mining
surge ante el problema cada vez ms apremiante de extraer informacin automticamente a
partir de masas de textos. La enorme cantidad de referencias recogidas durante una
bsqueda en Internet ilustra muy bien este problema.

Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
2
La investigacin literal simple se ha mostrado limitada desde hace ya mucho tiempo; hay
muchos problemas como los errores de tipeado, la sinonimia, las acepciones mltiples, etc.
En definitiva, es necesario inyectarle al ordenador un cierto sentido comn o conocimiento
del mundo. An en ese caso, la memoria y el poder de clculo disponibles en nuestra
poca permiten ciertas soluciones que no siempre son las ms elegantes pero s potentes y
rpidas.

Nuestras tcnicas de fuzzy string matching y de bsqueda de contexto han dado
excelentes resultados en la prctica.

Web Mining: (Minera de Web)

Normalmente, el Web Mining puede clasificarse en tres dominios de extraccin de
conocimiento de acuerdo con la naturaleza de los datos:

Web content mining (minera de contenido web).

Web structure mining (minera de estructura web).

Web usage mining (minera de uso web).

TENDENCIAS

80 y 90:
-OLAP: consultas predefinidas. El sistema OLAP como sistema para extraer grficas y
confirmar hiptesis. Tcnicas fundamentalmente estadsticas.
- Se usa exclusivamente informacin interna a la organizacin.
Finales de los 90:
-Data Mining: descubrimiento de patrones. Tcnicas de aprendizaje automtico para
generar patrones novedosos.
-El Data Warehouse incluye informacin interna fundamentalmente.
Principios del 2000:
-Tcnicas de scoring y simulacin: descubrimiento y uso de modelos globales.
Estimacin a partir de variables de entrada, de variables de salida (causa-efecto)
utilizando simulacin sobre el modelo aprendido.
-El Data Warehouse incluye informacin interna y externa (parmetros de la economa,
poblaciones, geogrficos, etc.).
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
29

CONCLUSIONES

Existen mtodos o tcnicas no tradicionales con los que se pueden sacar u obtener
informacin til de grandes volmenes de datos, adems de la ya conocida estadstica y
que en muchos casos es mejor que esta; uno de ellos es la Minera de Datos o Data Mining.

El Data Mining brinda otra posibilidad para el anlisis de datos y la obtencin de modelos o
informacin til para diferentes acciones o finalidades.

Adems, un sistema de Data Mining permite realizar diversidad de acciones, algunas de
ellas son analizar factores de influencia en determinados procesos o estimar variables o
comportamientos futuros, segmentar o agrupar tems semejantes y lo que es ms
importante an, no necesitar de un estadstico para lograr dichos objetivos o fines.

El Data Mining es sin duda una de las facilidades ms tiles hoy en da disponibles para la
extraccin de conocimiento de grandes Almacenes de Datos, con claras aplicaciones en
diversidad de organizaciones de distinto tipo.

GLOSARIO
Glosario de Trminos de Data Mining

Algoritmos genticos: Tcnicas de optimizacin que usan procesos tales como
combinacin gentica, mutacin y seleccin natural en un diseo basado en los
conceptos de evolucin natural.
Anlisis de series de tiempo (time-series): Anlisis de una secuencia de medidas
hechas a intervalos especficos. El tiempo es usualmente la dimensin dominante de los
datos.
Anlisis prospectivo de datos: Anlisis de datos que predice futuras tendencias,
comportamientos o eventos basado en datos histricos.
Anlisis exploratorio de datos: Uso de tcnicas estadsticas tanto grficas como
descriptivas para aprender acerca de la estructura de un conjunto de datos.
Anlisis retrospectivo de datos: Anlisis de datos que provee una visin de las
tendencias, comportamientos o eventos basado en datos histricos.
rbol de decisin: Estructura en forma de rbol que representa un conjunto de
decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de
datos. Ver CART y CHAID.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
30
Base de datos multidimensional: Base de datos diseado para procesamiento analtico
on-line (OLAP). Estructurada como un hipercubo con un eje por dimensin.
CART rboles de clasificacin y regresin: Una tcnica de rbol de decisin usada
para la clasificacin de un conjunto da datos. Provee un conjunto de reglas que se
pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cules
registros darn un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones.
Requiere menos preparacin de datos que CHAID.
CHAID Deteccin de interaccin automtica de Chi cuadrado: Una tcnica de rbol
de decisin usada para la clasificacin de un conjunto da datos. Provee un conjunto de
reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir
cules registros darn un cierto resultado. Segmenta un conjunto de datos utilizando
tests de chi cuadrado para crear mltiples divisiones. Antecede, y requiere ms
preparacin de datos, que CART.
Clasificacin: Proceso de dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo est lo ms cercano posible
a otro, y grupos diferentes estn lo ms lejos posible uno del otro, donde la distancia
est medida con respecto a variable(s) especfica(s) las cuales se estn tratando de
predecir. Por ejemplo, un problema tpico de clasificacin es el de dividir una base de
datos de compaas en grupos que son lo ms homogneos posibles con respecto a
variables como posibilidades de crdito con valores tales como Bueno y Malo.
Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos
mutuamente excluyentes de tal manera que cada miembro de un grupo est lo ms
cercano posible a otro, y grupos diferentes estn lo ms lejos posible uno del otro,
donde la distancia est medida con respecto a todas las variables disponibles.
Computadoras con multiprocesadores: Una computadora que incluye mltiples
procesadores conectados por una red. Ver procesamiento paralelo.
Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean
consistentes y correctamente registrados.
Data Mining: La extraccin de informacin predecible escondida en grandes bases de
datos.
Data Warehouse: Sistema para el almacenamiento y distribucin de cantidades
masivas de datos
Datos anormales: Datos que resultan de errores (por ej. : errores en el tipeado durante
la carga) o que representan eventos inusuales.
Dimensin: En una base de datos relacional o plana, cada campo en un registro
representa una dimensin. En una base de datos multidimensional, una dimensin es un
conjunto de entidades similares; por ej. : una base de datos multidimensional de ventas
podra incluir las dimensiones Producto, Tiempo y Ciudad.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
31
Modelo analtico: Una estructura y proceso para analizar un conjunto de datos. Por
ejemplo, un rbol de decisin es un modelo para la clasificacin de un conjunto de
datos
Modelo lineal: Un modelo analtico que asume relaciones lineales entre una variable
seleccionada (dependiente) y sus preeditores (variables independientes).
Modelo no lineal: Un modelo analtico que no asume una relacin lineal en los
coeficientes de las variables que son estudiadas.
Modelo predictivo: Estructura y proceso para predecir valores de variables
especificadas en un conjunto de datos.
Navegacin de datos: Proceso de visualizar diferentes dimensiones, fetas y niveles
de una base de datos multidimensional. Ver OLAP.
OLAP Procesamiento analtico on-line (On Line Analytic Processing): Se refiere a
aplicaciones de bases de datos orientadas array que permite a los usuarios ver, navegar,
manipular y analizar bases de datos multidimensionales.
Outlier: Un tem de datos cuyo valor cae fuera de los lmites que encierran a la mayora
del resto de los valores correspondientes de la muestra. Puede indicar datos anormales.
Deberan ser examinados detenidamente; pueden dar importante informacin.
Procesamiento paralelo: Uso coordinado de mltiples procesadores para realizar
tareas computacionales. El procesamiento paralelo puede ocurrir en una computadora
con mltiples procesadores o en una red de estaciones de trabajo o PCs.
RAID: Formacin redundante de discos baratos (Redundant Array of Inexpensive
Disk). Tecnologa para el almacenamiento paralelo eficiente de datos en sistemas de
computadoras de alto rendimiento.
Regresin lineal: Tcnica estadstica utilizada para encontrar la mejor relacin lineal
que encaja entre una variable seleccionada (dependiente) y sus predicados (variables
independientes).
Regresin logstica: Una regresin lineal que predice las proporciones de una variable
seleccionada categrica, tal como Tipo de Consumidor, en una poblacin.
Vecino ms cercano: Tcnica que clasifica cada registro en un conjunto de datos
basado en una combinacin de las clases del / de los k registro (s) ms similares a l en
un conjunto de datos histricos. Algunas veces se llama la tcnica del vecino k-ms
cercano.
SMP Multiprocesador Simtrico (Symmetric Multiprocessor): Tipo de
computadora con multiprocesadores en la cual la memoria es compartida entre los
procesadores.
Terabyte: Un trilln de bytes.
Pomon Dovid Le;cono L.U. 3Z.7Z0. Minero de Dofos.
32

BIBLIOGRAFA

Trabajo de investigacin de la Universidad Tecnolgica de Queensland. Australia.
Copyright 1997 Lania, Ac (Informacin de Internet).
Minera de Datos para Reportes y Documentos. Copyright 2001. Cypress
Corporation (informacin de Internet).
Trabajo de investigacin Aplicacin de Tcnicas de Minera de Datos en la
construccin y validacin de modelos predictivos y asociativos a partir de
especificaciones de requisitos de software; De Mara N. Moreno Garca, Luis A.
Miguel Quintales, Francisco J. Garca Pealvo y Jos Polo Martn. Universidad de
Salamanca, Departamento de Informtica y Automtica.
Descubrimientos de Conocimientos en Base de Datos (Informacin de Internet).
Curso de Minera de Datos, por Jos Hernndez Orallo, Master de cursos de
postgrado del Dsic Universidad Politcnica de Valencia. Informacin de Internet.
Revista PC Magazine en Espaol. Minera de Datos: los Expedientes Xbox.

Вам также может понравиться