KKD

Diferencia entre "Descubrimiento del
Conocimiento" y "Minera de Datos".

KDD es un proceso no trivial de identificar vlidos, nuevos, potencialmente tiles y ltimamente
comprensibles patrones en los datos que consta de nueve pasos que se inicia con el desarrollo y
comprensin del dominio de la aplicacin hasta la actuacin sobre el conocimiento descubierto. La
Minera de Datos es uno de los pasos (sptimo) del proceso de KDD y consiste, bsicamente, en la
bsqueda de patrones de inters in una forma representacional particular o en un conjunto de
stas representaciones.
reas donde ms se utiliza el KDD.
1.
Astronoma: SKICAT, un sistema usado por astrnomos para realizar el anlisis de
imgenes, el clasificacin y catalogacin de objetos del cielo de las imgenes en estudio.

2.
Marketing: analizan las bases de datos del cliente para identificar diferentes grupos de
clientes y prever su conducta.

3.
Inversin: usa sistemas expertos, redes neuronales y algoritmos genticos para manejar
carpetas, deteccin de fraudes. HNC Falcon y Nestor PRISMA para monitorear fraudes en tarjetas
de crdito y CASSIOPEE se aplic, usando cluster para derivar familias de fallas, en tres
aerolneas grandes europeas para diagnosticar y predecir problemas en los Boing 737.
4.
Fabricacin: FAIS se utiliza para identificar transacciones financieras que podran indicar
actividades de lavado de dinero).
5.
Telecomunicaciones: TASA para localizar episodios de alarma que ocurren frecuentemente
desde el stream de alarma y las presenta como reglas ofrece herramienta de poda, agrupacin y
ordenamiento.
6.
Limpieza de datos: MERGE-PURGE se aplic para la identificacin de reclamos de
asistencia social y ADVANCED SCOUT es un sistema de minera de datos especializado que

ayuda a los entrenadores de la NBA a organizar e interpretar datos obtenidos en los juegos de la
NBA.
7.
Internet FIREFLY es un agente de recomendacin personal de msica, CRAYON permite a
los usuarios crear su propio peridico libre y FARCAST busca informacin automticamente para
el usuario de una amplia variedad de fuentes, etc.
Que es el Data warehouse y cuales son sus etapas
Tendencia popular de coleccionar y limpiar datos transaccionales para dejarlos disponibles para el
anlisis en lnea y de apoyo a la toma de decisiones. El data warehousing ayuda a establecer la
etapa para KDD de dos maneras importantes:
1.
Limpieza de datos: En la medida en que las organizaciones son forzadas a pensar
que poseen una vista lgica unificada de una amplia variedad de datos y bases de
datos, tienen que preocuparse de mapear los datos a una convencin nica de nombres
representando y manejando datos faltantes uniformemente y, cuando sea posible,
manejando ruido y errores.
2.
Acceso a datos: Se debe crear mtodos uniformes y bien definidos para el acceso a
los datos y proveer rutas de acceso a los datos que, histricamente, son difciles de
obtener (por ejemplo, los datos almacenados fuera de lnea).
Definicin de OLAP
Es una solucin utilizada en el campo de la Inteligencia de Negocios, la cual consiste en consultas
a estructuras multidimensionales que contienen datos resumidos de grandes Bases de Datos o
Sistemas Transaccionales. Las herramientas OLAP se centran en proporcionar anlisis de datos
multidimensionales lo cual es superior a SQL en la computacin de resmenes y cortes de control
a travs de mltiples dimensiones. Las herramientas OLAP estn orientadas hacia la simplificacin
y el soporte del anlisis de datos interactivos, pero el objetivo de las herramientas KDD es
automatizar el proceso al mximo posible.
Etapas del proceso KDD
1.
Desarrollo y comprensin del dominio de la aplicacin y del conocimiento previo
relevante y la identificacin del objetivo del proceso KDD desde la perspectiva del cliente.
2.
Creacin de un conjunto de datos objetivo: seleccionar el conjunto de datos, o
enfocarse en un conjunto de variables o muestras de datos sobre los cuales se realizar el

descubrimiento.
3.
Limpieza de los datos y preprocesamiento. Las operaciones bsicas incluyen el
remover ruidos si es apropiado, coleccionar la informacin necesaria para modelar o

contabilizar el ruido, decidir sobre estrategias para manejar campos de datos faltantes y
contabilizar informacin sobre secuencias temporales y cambios conocidos.
4.
Reduccin de datos y proyeccin: el encontrar caractersticas tiles para
representar los datos, dependiendo del objetivo de la tarea. A travs de mtodos de

reduccin de dimensionalidades o transformacin, la cantidad efectiva de variables bajo
consideracin puede ser reducida, o representaciones invariantes para los datos pueden
ser encontradas.
5.
Matching de los objetivos de proceso: KDD con (paso 1) un mtodo de minera de
datos particular. Por ejemplo, sumarizacin, clasificacin, regresin, clustering y otros.
6.
Anlisis exploratorio y modelamiento y seleccin de hiptesis: el elegir el o los
algoritmos de minera de datos y seleccionar el o los mtodos a ser usados en la bsqueda

de patrones de datos. Este proceso incluye el decidir qu modelo y parmetros pueden ser
apropiados (por ejemplo, modelos de datos categricos son diferentes a modelos de
vectores sobre los reales) y el matching de un mtodos de minera de datos particular con
el criterio general del proceso KDD (por ejemplo, el usuario final podras estar ms
interesado en comprender el modelo que en sus capacidades predictivas).
7.
Minera de datos: la bsqueda de patrones de inters in una forma representacional
particular o en un conjunto de stas representaciones, incluyendo reglas de clasificacin o

rboles, regresin y agrupamiento. El usuario puede ayudar significativamente al mtodo
de minera de datos realizando correctamente los pasos precedentes.
8.
Interpretacin de los patrones minados, posiblemente retornando a alguno de los
pasos entre el paso 1 y 7 para iteraciones adicionales. Este paso puede tambin involucrar
la visualizacin de los patrones extrados y modelos o la visualizacin de los datos dados
los modelos extrados.
9.
Actuar sobre el conocimiento descubierto: usando el conocimiento directamente,
incorporando el conocimiento en otro sistema para acciones adicionales, o simplemente

documentndolo e informndolo a los interesados. Este proceso tambin incluye la
comprobacin y resolucin de potenciales conflictos con conocimiento previamente credo
(o extrado).
Que es la Minera de datos
La minera de datos es un paso en el proceso KDD que consiste en aplicar anlisis de

datos y algoritmos de descubrimiento que, bajo limitaciones de eficiencia computacional
aceptables, producen una enumeracin particular de patrones (o modelos) sobre los datos.
Ntese que el espacio de patrones es generalmente infinito y la enumeracin de patrones
involucra alguna forma de bsqueda en ese espacio.
Se utilizan dos formalismos matemticos primarios para el ajuste de modelos:
1. Estadstico: permite efectos no determinsticos en el modelo

2. Lgico: es puramente determinstico.
Mtodos de minera de datos

1. Clasificacin es el aprendizaje de una funcin que mapea (clasifica) un tem de dato en una de
varias clases predefinidas.
2. Regresin es el aprendizaje de una funcin que mapea un tem de datos a una variable de
prediccin con valores en R.
3. Clustering es una tarea descriptiva comn donde se busca identificar un conjunto finito de
categoras o clusters para describir los datos
4. Sumarizacin involucra mtodos para encontrar una descripcin compacta para un conjunto
de datos.
5. Modelamiento de dependencias consiste en encontrar un modelo que describa las

dependencias significativas entre los modelos de dependencia existen en dos niveles:
1.
nivel estructural del modelo especifica (generalmente en forma grfica) cul de las
variables son localmente dependientes de otras

2.
nivel cuantitativo modelo especifica la fuerza de las dependencias utilizando alguna
escala numrica.
6. Deteccin de cambios y desviaciones se enfocan en el descubrimiento de los cambios ms

significativos de los datos a partir de mediciones previas o valores normativos
Componentes del Algoritmo de minera de datos
1. Representacin del Modelo es el lenguaje utilizado para describir los patrones descubribles.
2. Criterio de evaluacin del modelo son sentencias cuantitativas (o funciones de ajuste) sobre
qu tan bien, un patrn particular (un modelo y sus parmetros), satisface los objetivos del
proceso de KDD.
3. Mtodo de bsqueda consiste de dos componentes:
a)
Bsqueda de parmetro
b)
Bsqueda de modelo
Una vez que la representacin del modelo (o familia de representaciones) y el criterio de

evaluacin del modelo se establecen, entonces el problema de minera de datos ha sido
reducido a simplemente una tarea de optimizacin: encontrar los parmetros y modelos a
partir de la familia seleccionada que optimizan el criterio de evaluacin
Ejemplos de Mtodos de Data Mininig
1.
rboles de decisin y reglas que utilizan divisiones univariantes, tienen una simple forma de
representacin, haciendo el modelo inferido relativamente fcil de comprender para el usuario. Sin
embargo la restriccin de la representacin de un rbol particular o regla puede restringir
significativamente la forma funcional (y, as, el poder de aproximacin) del modelo. Si uno agranda
el espacio del modelo para permitir ms expresiones generales (tales como hiperplanos
multivariantes en ngulos arbitrarios), entonces el modelo es ms poderoso en su prediccin pero
puede ser mucho ms difcil de comprender. En una gran parte, ellos dependen de la probabilidad
de mtodos basados en la evaluacin de modelos, con variados grados de sofisticacin en
trminos de penalizar la complejidad del modelo.
2.
Mtodos de clasificacin y regresin no lineal consisten en una familia de tcnicas de
prediccin que hacen calzar combinaciones lineales y no lineales de funciones base (sigmoides,
splines, polinomios) con combinaciones de variables de entrada.
3.
Mtodos basados en ejemplos usan ejemplos representativos sacados de las bases de datos
para aproximar un modelo; esto es, las predicciones de nuevos ejemplos son derivadas de las
propiedades de ejemplos similares en aquellos modelos en donde la prediccin es conocida. Las
tcnicas incluyen clasificacin del vecino ms cercano, algoritmos de regresin y sistemas de
razonamiento. Una desventaja potencial de mtodos basados en ejemplos (comparados con los
mtodos basados en rboles) es que se requiere una mtrica de distancia bien definida para
evaluar la distancia entre puntos de datos.
4.
Modelos de dependencia grfica probabilstica especifican dependencias probabilsticas
utilizando una estructura grfica. En su forma ms simple, el modelo especifica cules variables
son directamente proporcionales unas de otras.
5.
Modelos de aprendizaje relacional a pesar de que la representacin de los rboles y reglas de
decisin est restringida a una lgica proposicional, el aprendizaje relacional (tambin conocido
como programacin de induccin lgica) usa el patrn de lenguaje de primer orden ms flexible.

KKD

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

KKD

Загружено:

Авторское право:

Доступные форматы

Diferencia entre "Descubrimiento del

Conocimiento" y "Minera de Datos".

Astronoma: SKICAT, un sistema usado por astrnomos para realizar el anlisis de

imgenes, el clasificacin y catalogacin de objetos del cielo de las imgenes en estudio.

clientes y prever su conducta.

actividades de lavado de dinero).

Telecomunicaciones: TASA para localizar episodios de alarma que ocurren frecuentemente

Limpieza de datos: MERGE-PURGE se aplic para la identificacin de reclamos de

asistencia social y ADVANCED SCOUT es un sistema de minera de datos especializado que

Internet FIREFLY es un agente de recomendacin personal de msica, CRAYON permite a

Que es el Data warehouse y cuales son sus etapas

Limpieza de datos: En la medida en que las organizaciones son forzadas a pensar

Etapas del proceso KDD

Desarrollo y comprensin del dominio de la aplicacin y del conocimiento previo

Creacin de un conjunto de datos objetivo: seleccionar el conjunto de datos, o

enfocarse en un conjunto de variables o muestras de datos sobre los cuales se realizar el

Limpieza de los datos y preprocesamiento. Las operaciones bsicas incluyen el

remover ruidos si es apropiado, coleccionar la informacin necesaria para modelar o

Reduccin de datos y proyeccin: el encontrar caractersticas tiles para

representar los datos, dependiendo del objetivo de la tarea. A travs de mtodos de

Matching de los objetivos de proceso: KDD con (paso 1) un mtodo de minera de

datos particular. Por ejemplo, sumarizacin, clasificacin, regresin, clustering y otros.

Anlisis exploratorio y modelamiento y seleccin de hiptesis: el elegir el o los

algoritmos de minera de datos y seleccionar el o los mtodos a ser usados en la bsqueda

Minera de datos: la bsqueda de patrones de inters in una forma representacional

particular o en un conjunto de stas representaciones, incluyendo reglas de clasificacin o

Interpretacin de los patrones minados, posiblemente retornando a alguno de los

Actuar sobre el conocimiento descubierto: usando el conocimiento directamente,

incorporando el conocimiento en otro sistema para acciones adicionales, o simplemente

Que es la Minera de datos

La minera de datos es un paso en el proceso KDD que consiste en aplicar anlisis de

Se utilizan dos formalismos matemticos primarios para el ajuste de modelos:

1. Estadstico: permite efectos no determinsticos en el modelo

Mtodos de minera de datos

5. Modelamiento de dependencias consiste en encontrar un modelo que describa las

variables son localmente dependientes de otras

nivel cuantitativo modelo especifica la fuerza de las dependencias utilizando alguna

6. Deteccin de cambios y desviaciones se enfocan en el descubrimiento de los cambios ms

Componentes del Algoritmo de minera de datos

3. Mtodo de bsqueda consiste de dos componentes:

Una vez que la representacin del modelo (o familia de representaciones) y el criterio de

Ejemplos de Mtodos de Data Mininig

Mtodos de clasificacin y regresin no lineal consisten en una familia de tcnicas de

Modelos de dependencia grfica probabilstica especifican dependencias probabilsticas

Modelos de aprendizaje relacional a pesar de que la representacin de los rboles y reglas de

Вам также может понравиться