Вы находитесь на странице: 1из 8

Diferencia entre "Descubrimiento del

Conocimiento" y "Minera de Datos".


KDD es un proceso no trivial de identificar vlidos, nuevos, potencialmente tiles y ltimamente
comprensibles patrones en los datos que consta de nueve pasos que se inicia con el desarrollo y
comprensin del dominio de la aplicacin hasta la actuacin sobre el conocimiento descubierto. La
Minera de Datos es uno de los pasos (sptimo) del proceso de KDD y consiste, bsicamente, en la
bsqueda de patrones de inters in una forma representacional particular o en un conjunto de
stas representaciones.
reas donde ms se utiliza el KDD.
1.

Astronoma: SKICAT, un sistema usado por astrnomos para realizar el anlisis de

imgenes, el clasificacin y catalogacin de objetos del cielo de las imgenes en estudio.


2.

Marketing: analizan las bases de datos del cliente para identificar diferentes grupos de

clientes y prever su conducta.


3.

Inversin: usa sistemas expertos, redes neuronales y algoritmos genticos para manejar

carpetas, deteccin de fraudes. HNC Falcon y Nestor PRISMA para monitorear fraudes en tarjetas
de crdito y CASSIOPEE se aplic, usando cluster para derivar familias de fallas, en tres
aerolneas grandes europeas para diagnosticar y predecir problemas en los Boing 737.
4.

Fabricacin: FAIS se utiliza para identificar transacciones financieras que podran indicar

actividades de lavado de dinero).

5.

Telecomunicaciones: TASA para localizar episodios de alarma que ocurren frecuentemente

desde el stream de alarma y las presenta como reglas ofrece herramienta de poda, agrupacin y
ordenamiento.
6.

Limpieza de datos: MERGE-PURGE se aplic para la identificacin de reclamos de

asistencia social y ADVANCED SCOUT es un sistema de minera de datos especializado que


ayuda a los entrenadores de la NBA a organizar e interpretar datos obtenidos en los juegos de la
NBA.
7.

Internet FIREFLY es un agente de recomendacin personal de msica, CRAYON permite a

los usuarios crear su propio peridico libre y FARCAST busca informacin automticamente para
el usuario de una amplia variedad de fuentes, etc.

Que es el Data warehouse y cuales son sus etapas

Tendencia popular de coleccionar y limpiar datos transaccionales para dejarlos disponibles para el
anlisis en lnea y de apoyo a la toma de decisiones. El data warehousing ayuda a establecer la
etapa para KDD de dos maneras importantes:

1.

Limpieza de datos: En la medida en que las organizaciones son forzadas a pensar

que poseen una vista lgica unificada de una amplia variedad de datos y bases de
datos, tienen que preocuparse de mapear los datos a una convencin nica de nombres
representando y manejando datos faltantes uniformemente y, cuando sea posible,
manejando ruido y errores.

2.

Acceso a datos: Se debe crear mtodos uniformes y bien definidos para el acceso a

los datos y proveer rutas de acceso a los datos que, histricamente, son difciles de
obtener (por ejemplo, los datos almacenados fuera de lnea).

Definicin de OLAP
Es una solucin utilizada en el campo de la Inteligencia de Negocios, la cual consiste en consultas
a estructuras multidimensionales que contienen datos resumidos de grandes Bases de Datos o
Sistemas Transaccionales. Las herramientas OLAP se centran en proporcionar anlisis de datos
multidimensionales lo cual es superior a SQL en la computacin de resmenes y cortes de control
a travs de mltiples dimensiones. Las herramientas OLAP estn orientadas hacia la simplificacin
y el soporte del anlisis de datos interactivos, pero el objetivo de las herramientas KDD es
automatizar el proceso al mximo posible.

Etapas del proceso KDD

1.

Desarrollo y comprensin del dominio de la aplicacin y del conocimiento previo

relevante y la identificacin del objetivo del proceso KDD desde la perspectiva del cliente.

2.

Creacin de un conjunto de datos objetivo: seleccionar el conjunto de datos, o

enfocarse en un conjunto de variables o muestras de datos sobre los cuales se realizar el


descubrimiento.

3.

Limpieza de los datos y preprocesamiento. Las operaciones bsicas incluyen el

remover ruidos si es apropiado, coleccionar la informacin necesaria para modelar o


contabilizar el ruido, decidir sobre estrategias para manejar campos de datos faltantes y
contabilizar informacin sobre secuencias temporales y cambios conocidos.

4.

Reduccin de datos y proyeccin: el encontrar caractersticas tiles para

representar los datos, dependiendo del objetivo de la tarea. A travs de mtodos de


reduccin de dimensionalidades o transformacin, la cantidad efectiva de variables bajo
consideracin puede ser reducida, o representaciones invariantes para los datos pueden
ser encontradas.

5.

Matching de los objetivos de proceso: KDD con (paso 1) un mtodo de minera de

datos particular. Por ejemplo, sumarizacin, clasificacin, regresin, clustering y otros.

6.

Anlisis exploratorio y modelamiento y seleccin de hiptesis: el elegir el o los

algoritmos de minera de datos y seleccionar el o los mtodos a ser usados en la bsqueda


de patrones de datos. Este proceso incluye el decidir qu modelo y parmetros pueden ser
apropiados (por ejemplo, modelos de datos categricos son diferentes a modelos de
vectores sobre los reales) y el matching de un mtodos de minera de datos particular con
el criterio general del proceso KDD (por ejemplo, el usuario final podras estar ms
interesado en comprender el modelo que en sus capacidades predictivas).

7.

Minera de datos: la bsqueda de patrones de inters in una forma representacional

particular o en un conjunto de stas representaciones, incluyendo reglas de clasificacin o


rboles, regresin y agrupamiento. El usuario puede ayudar significativamente al mtodo
de minera de datos realizando correctamente los pasos precedentes.

8.

Interpretacin de los patrones minados, posiblemente retornando a alguno de los

pasos entre el paso 1 y 7 para iteraciones adicionales. Este paso puede tambin involucrar
la visualizacin de los patrones extrados y modelos o la visualizacin de los datos dados
los modelos extrados.

9.

Actuar sobre el conocimiento descubierto: usando el conocimiento directamente,

incorporando el conocimiento en otro sistema para acciones adicionales, o simplemente


documentndolo e informndolo a los interesados. Este proceso tambin incluye la
comprobacin y resolucin de potenciales conflictos con conocimiento previamente credo
(o extrado).

Que es la Minera de datos

La minera de datos es un paso en el proceso KDD que consiste en aplicar anlisis de


datos y algoritmos de descubrimiento que, bajo limitaciones de eficiencia computacional
aceptables, producen una enumeracin particular de patrones (o modelos) sobre los datos.
Ntese que el espacio de patrones es generalmente infinito y la enumeracin de patrones
involucra alguna forma de bsqueda en ese espacio.

Se utilizan dos formalismos matemticos primarios para el ajuste de modelos:

1. Estadstico: permite efectos no determinsticos en el modelo


2. Lgico: es puramente determinstico.

Mtodos de minera de datos


1. Clasificacin es el aprendizaje de una funcin que mapea (clasifica) un tem de dato en una de
varias clases predefinidas.

2. Regresin es el aprendizaje de una funcin que mapea un tem de datos a una variable de
prediccin con valores en R.

3. Clustering es una tarea descriptiva comn donde se busca identificar un conjunto finito de
categoras o clusters para describir los datos

4. Sumarizacin involucra mtodos para encontrar una descripcin compacta para un conjunto
de datos.

5. Modelamiento de dependencias consiste en encontrar un modelo que describa las


dependencias significativas entre los modelos de dependencia existen en dos niveles:
1.

nivel estructural del modelo especifica (generalmente en forma grfica) cul de las

variables son localmente dependientes de otras


2.

nivel cuantitativo modelo especifica la fuerza de las dependencias utilizando alguna

escala numrica.

6. Deteccin de cambios y desviaciones se enfocan en el descubrimiento de los cambios ms


significativos de los datos a partir de mediciones previas o valores normativos

Componentes del Algoritmo de minera de datos

1. Representacin del Modelo es el lenguaje utilizado para describir los patrones descubribles.

2. Criterio de evaluacin del modelo son sentencias cuantitativas (o funciones de ajuste) sobre
qu tan bien, un patrn particular (un modelo y sus parmetros), satisface los objetivos del
proceso de KDD.

3. Mtodo de bsqueda consiste de dos componentes:

a)

Bsqueda de parmetro

b)

Bsqueda de modelo

Una vez que la representacin del modelo (o familia de representaciones) y el criterio de


evaluacin del modelo se establecen, entonces el problema de minera de datos ha sido
reducido a simplemente una tarea de optimizacin: encontrar los parmetros y modelos a
partir de la familia seleccionada que optimizan el criterio de evaluacin

Ejemplos de Mtodos de Data Mininig

1.

rboles de decisin y reglas que utilizan divisiones univariantes, tienen una simple forma de

representacin, haciendo el modelo inferido relativamente fcil de comprender para el usuario. Sin
embargo la restriccin de la representacin de un rbol particular o regla puede restringir
significativamente la forma funcional (y, as, el poder de aproximacin) del modelo. Si uno agranda
el espacio del modelo para permitir ms expresiones generales (tales como hiperplanos
multivariantes en ngulos arbitrarios), entonces el modelo es ms poderoso en su prediccin pero
puede ser mucho ms difcil de comprender. En una gran parte, ellos dependen de la probabilidad
de mtodos basados en la evaluacin de modelos, con variados grados de sofisticacin en
trminos de penalizar la complejidad del modelo.

2.

Mtodos de clasificacin y regresin no lineal consisten en una familia de tcnicas de

prediccin que hacen calzar combinaciones lineales y no lineales de funciones base (sigmoides,
splines, polinomios) con combinaciones de variables de entrada.

3.

Mtodos basados en ejemplos usan ejemplos representativos sacados de las bases de datos

para aproximar un modelo; esto es, las predicciones de nuevos ejemplos son derivadas de las
propiedades de ejemplos similares en aquellos modelos en donde la prediccin es conocida. Las
tcnicas incluyen clasificacin del vecino ms cercano, algoritmos de regresin y sistemas de
razonamiento. Una desventaja potencial de mtodos basados en ejemplos (comparados con los
mtodos basados en rboles) es que se requiere una mtrica de distancia bien definida para
evaluar la distancia entre puntos de datos.

4.

Modelos de dependencia grfica probabilstica especifican dependencias probabilsticas

utilizando una estructura grfica. En su forma ms simple, el modelo especifica cules variables
son directamente proporcionales unas de otras.

5.

Modelos de aprendizaje relacional a pesar de que la representacin de los rboles y reglas de

decisin est restringida a una lgica proposicional, el aprendizaje relacional (tambin conocido
como programacin de induccin lgica) usa el patrn de lenguaje de primer orden ms flexible.

Вам также может понравиться