Вы находитесь на странице: 1из 8

Universidad Nacional de Ingeniera

Centro de Tecnologas de Informacin Y Comunicaciones

DataMining

Auspicia
www.bpc.com.pe

Universidad Nacional de Ingeniera


Centro de Tecnologas de Informacin Y Comunicaciones

Conceptos
Data Mining, es la extraccin de informacin oculta y
predecible de grandes bases de datos.
Trabaja buscando patrones, comportamientos, agrupaciones,
secuencias, tendencias y asociaciones que pueden generar algn
modelo para ayudar en la toma de decisiones y a comprender
mejor el dominio.
Es una poderosa tecnologa con potencial para ayudar a las
compaas a concentrarse en la informacin ms importante de sus
Bases de Informacin (Data Warehouse).
Las herramientas de Data Mining predicen futuras tendencias y
comportamientos, permitiendo en los negocios tomar decisiones
proactivas

Auspicia
www.bpc.com.pe

Universidad Nacional de Ingeniera


Centro de Tecnologas de Informacin Y Comunicaciones

Conceptos
Representa la actividad que genera patrones y relaciones mediante la aplicacin de
algoritmos, a partir de un conjunto de datos previamente limpiados y transformados,
para una etapa posterior de interpretacin y anlisis.
Data Mining como un Proceso Independiente de extraccin de informacin oculta,
que posee sus propias etapas:

Identificacin del problema

Seleccin de los datos

Preparacin de los datos

Construccin del modelo

Descubrimiento de patrones

Despliegue de Patrones

Monitoreo del modelo.


Auspicia
www.bpc.com.pe

Universidad Nacional de Ingeniera


Centro de Tecnologas de Informacin Y Comunicaciones

Caractersticas

Prediccin automatizada de tendencias y comportamientos:

Data Mining automatiza el proceso de encontrar informacin predecible en


grandes bases de datos.

Permite detectar fcilmente patrones en los datos.

Preguntas que tradicionalmente requeran un intenso anlisis manual,


ahora pueden ser contestadas directa y rpidamente desde los datos.

Las bases de datos pueden ser grandes tanto en profundidad como en


ancho :

Ms columnas. Un Data Mining de alto rendimiento permite a los usuarios


explorar toda la base de datos, sin preseleccionar un subconjunto de
variables.

Ms filas. Muestras mayores producen menos errores de estimacin y


desvos, y permite a los usuarios hacer inferencias acerca de pequeos
pero importantes segmentos de poblacin

Auspicia
www.bpc.com.pe

Algoritmos
Universidad Nacional de Ingeniera
Centro de Tecnologas de Informacin Y Comunicaciones

Las algoritmos mas usadas en Data Mining son:

Redes neuronales artificiales: modelos que aprenden a travs del


entrenamiento y semejan la estructura de una red neuronal biolgica.

rboles de decisin: estructuras de forma de rbol que representan conjuntos


de decisiones. Estas decisiones generan reglas para la clasificacin de un
conjunto de datos.

Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como


combinaciones genticas, mutaciones y seleccin natural en un diseo basado
en los conceptos de evolucin.

Mtodo del vecino ms cercano: tcnica que clasifica cada registro en un


conjunto de datos basado en una combinacin de las clases del/de los k
registro (s) ms similar/es a l en un conjunto de datos histricos (donde k 1).

Regla de induccin: La extraccin de reglas if-then de datos basados en


significado estadstico.

Auspicia
www.bpc.com.pe

Universidad Nacional de Ingeniera


Centro de Tecnologas de Informacin Y Comunicaciones

Fases de Dataming
Los pasos a seguir para la realizacin de un proyecto de minera de datos
son siempre los mismos, independientemente de la tcnica de extraccin
de conocimiento usada. El proceso de minera de datos pasa por las
siguientes fases:
Filtrado de datos
Seleccin de Variables
Extraccin de Conocimiento
Interpretacin y Evaluacin

Auspicia
www.bpc.com.pe

Universidad Nacional de Ingeniera


Centro de Tecnologas de Informacin Y Comunicaciones

Fases de Dataming
Filtrado de datos: Mediante el preprocesado, se filtran los datos (de forma que
se eliminan valores incorrectos, no vlidos, desconocidos... segn las
necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en
busca de una mayor velocidad de respuesta del proceso), o se reducen el
nmero de valores posibles (mediante redondeo, clustering,...).
Seleccin de variables: La seleccin de caractersticas reduce el tamao de
los datos eligiendo las variables ms influyentes en el problema, sin apenas
sacrificar la calidad del modelo de conocimiento obtenido del proceso de
minera.
Algoritmos de Extraccin de Conocimiento: Mediante una tcnica de minera
de datos, se obtiene un modelo de conocimiento, que representa patrones de
comportamiento observados en los valores de las variables del problema o
relaciones de asociacin entre dichas variables. Tambin pueden usarse varias
tcnicas a la vez para generar distintos modelos, aunque generalmente cada
tcnica obliga a un preprocesado diferente de los datos.
Interpretacin y evaluacin: Verifica si los resultados son coherentes. El
cliente es el que tiene la palabra final. Una vez obtenido el modelo, se debe
proceder a su validacin, comprobando que las conclusiones que arroja son
vlidas y suficientemente satisfactorias. Si se obtienen varios modelos mediante
el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel
Auspicia
que se ajuste mejor al problema.
www.bpc.com.pe

Universidad Nacional de Ingeniera


Centro de Tecnologas de Informacin Y Comunicaciones

Ventajas
Extrae informacin tctica y estratgica almacenada en sus Data
Warehouse .
La bsqueda de patrones la realiza en forma automatizada,
generando modelos mediante la aplicacin de diferentes tcnicas.
Existe gran diversidad de herramientas de Data Mining en el mercado,
lo que facilita la aplicacin de este proceso y aumenta el nivel de
confianza de sus resultados.
No requiere de personal experto en ciencias estadsticas o altamente
entrenado. Es suficiente un especialista en anlisis de datos y un
experto en las reas de la organizacin, que tengan conocimientos
bsicos en reas estadsticas que les permita entender y aplicar los
resultados

Auspicia
www.bpc.com.pe