Академический Документы
Профессиональный Документы
Культура Документы
Datos
Informacin
Procesos
Datos
Informacin
Minera de
datos
Conocimien
to
Interpretacin/evalua
cin
Proceso
Transformac
in
Minera
de datos
Seleccin
Conocimi
ento
Data
Warehous
e
Datos
procesados
Datos
transforma
dos
Patrones
INFORMACIO
N
conocimiento
Conjunto de tcnicas que se utilizan para la obtencin de informacin implcita de las grandes bases de datos.. En
otras palabras es una tecnologa poderosa y de gran potencial que permite a las organizaciones la recoleccin de
informacin desconocida para sus propias bases (almacn de datos).
1.Limpieza de datos(Crear
errneos e inconsistentes)
3.
4.
para el anlisis)
Redes neuronales
rboles de decisin
Modelos estadsticos
Agrupamiento o Clustering
Algoritmos supervisados (o predictivos)
Algoritmos no supervisados (o del descubrimiento del conocimiento)
Redes Neuronales
Son un paradigma de aprendizaje y procesamiento automtico inspirado en la
forma en que funciona el cerebro. Se trata de un sistema de interconexin de
neuronas en una red que colabora para producir un estmulo de salida.
Arboles de decisin
Es un modelo de prediccin utilizado en la inteligencia artificial, dada una base de
datos se construyen estos diagramas de construcciones lgicas, muy similares a
los sistemas de prediccin basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva para la
resolucin de un problema.
VENTAJAS
Facilita la interpretacin
Explica el comportamiento
Reduce las variables
Gestiona
DESVENTAJAS
Arboles de decisin
Arboles de decisin
Arboles de decisin
Arboles de decisin
Por ejemplo:
En un escenario para predecir qu clientes van a adquirir probablemente una
bicicleta,
Si 9 de 10 clientes jvenes compran una bicicleta, pero solo
lo hacen 2 de 10 clientes de edad mayor,
El algoritmo infiere que la edad es un buen elemento de prediccin en la
compra de bicicletas.
El rbol de decisin realiza predicciones basndose en la tendencia hacia un
resultado concreto.
Arboles de decisin
Mtodos estocsticos
Es una expresin simblica en forma de igualdad o ecuacin
que se emplea en todos los diseos experimentales y en la
regresin para indicar los diferentes factores que modifican la
variable de respuesta.
Agrupamiento o Clustering
Proceso de dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo est lo ms
cercano posible a otro, y grupos diferentes estn lo ms lejos posible
uno del otro, donde la distancia est medida con respecto a todas las
variables disponibles.
Agrupamiento o Clustering
El objetivo de ste metodo es obtener grupos o conjuntos entre los
elementos, de tal manera que los elementos asignados al mismo sean
similares.
Lo importante del agrupamiento respecto a la clasificacin es que son
precisamente los grupos y la pertenencia a los grupos lo que se quiere
determinar y a priori, no se sabe ni como son los grupos ni cuantos hay.
El agrupamiento se conoce muy frecuentemente tambin como:
segmentacin y aglomeracin.
Ejemplos:
Algoritmo K-medias
K-medias
Tambin conocido como k-means o Iterative Distance-based Clustering. Necesita que se le
proporcione a priori el numero de grupos k. El algoritmo es el siguiente:
1.Agrupamiento:
2.Seleccionar al azar k ejemplos como centros iniciales de cada grupo;
3.repetir
asignar cada ejemplo al grupo con menor distancia a su centro;
recalcular los nuevos centros de cada grupo;
4.hasta (los grupos sean estables)
5.Los centros de cada grupo, tambin denominados centroides pueden corresponderse con ejemplos
o no, en ese caso se les denomina prototipos.
6.Los grupos se consideran estables cuando los ejemplos no cambian de grupo respecto la iteracin
anterior.
7.Se pueden obtener agrupaciones jerarquizadas tomando k = 2 y aplicando el mismo algoritmo de
manera recursiva sobre los ejemplos de cada grupo.
Algoritmo K-medias
Mtodo
de
agrupacin
de
casos que se basa
en las distancias
existentes
entre
ellos en un conjunto
de variables.
Algoritmo K-medias
Algoritmo K-medias
Data Warehouse es una base de datos corporativa que se caracteriza por integrar,
procesar y depurar informacin de una o ms fuentes distintas.
Links consultados:
1.http://msdn.microsoft.com/
2.file:///C:/Users/optimus/Pictures/Mineria_Datos_Vallejos.pdf
Libros:
1. Base de datos de enrique Jos Reinosa, ed. alfaomega