Вы находитесь на странице: 1из 7

Minera de Datos (Data Mining)

La minera de datos (es la etapa de anlisis de "Knowledge Discovery in


Databases" o KDD) es un campo de la estadstica y las ciencias de la
computacin referido al proceso que intenta descubrir patrones en grandes
volmenes de conjuntos de datos. Utiliza los mtodos de la inteligencia
artificial, aprendizaje automtico, estadstica y sistemas de bases de datos.
El objetivo general del proceso de minera de datos consiste en extraer
informacin de un conjunto de datos y transformarla en una estructura
comprensible para su uso posterior. Adems de la etapa de anlisis en bruto,
que involucra aspectos de bases de datos y de gestin de datos, de
procesamiento de datos, del modelo y de las consideraciones de inferencia,
de mtricas de Intereses, de consideraciones de la Teora de la complejidad
computacional, de post-procesamiento de las estructuras descubiertas, de
la visualizacin y de la actualizacin en lnea.

Proceso

Un proceso tpico de minera de datos consta de los siguientes pasos


generales:
1. Seleccin del conjunto de datos, tanto en lo que se refiere a las
variables objetivo (aquellas que se quiere predecir, calcular o inferir),
como a las variables independientes (las que sirven para hacer el
clculo o proceso), como posiblemente al muestreo de
los registros disponibles.
2. Anlisis de las propiedades de los datos, en especial los histogramas,
diagramas de dispersin, presencia de valores atpicos y ausencia de
datos (valores nulos).
3. Transformacin del conjunto de datos de entrada, se realizar de
diversas formas en funcin del anlisis previo, con el objetivo de
prepararlo para aplicar la tcnica de minera de datos que mejor se
adapte a los datos y al problema, a este paso tambin se le conoce
como pre procesamiento de los datos.
4. Seleccionar y aplicar la tcnica de minera de datos, se construye el
modelo predictivo, de clasificacin o segmentacin.
5. Extraccin de conocimiento, mediante una tcnica de minera de
datos, se obtiene un modelo de conocimiento, que representa
patrones de comportamiento observados en los valores de las
variables del problema o relaciones de asociacin entre dichas
variables. Tambin pueden usarse varias tcnicas a la vez para
generar distintos modelos, aunque generalmente cada tcnica
obliga a un pre procesado diferente de los datos.
6. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se
debe proceder a su validacin comprobando que las conclusiones
que arroja son vlidas y suficientemente satisfactorias. En el caso de
haber obtenido varios modelos mediante el uso de distintas tcnicas,
se deben comparar los modelos en busca de aquel que se ajuste
mejor al problema. Si ninguno de los modelos alcanza los resultados
esperados, debe alterarse alguno de los pasos anteriores para
generar nuevos modelos.
Protocolo de un proyecto de minera de datos

Un proyecto de minera de datos tiene varias fases necesarias que son,


esencialmente:
Comprensin: del negocio y del problema que se quiere resolver.
Determinacin, obtencin y limpieza: de los datos necesarios.
Creacin de modelos matemticos.
Validacin, comunicacin: de los resultados obtenidos.
Integracin: si procede, de los resultados en un sistema transaccional
o similar.

La relacin entre todas estas fases slo es lineal sobre el papel. En realidad,
es mucho ms compleja y esconde toda una jerarqua de subfases. A travs
de la experiencia acumulada en proyectos de minera de datos se han ido
desarrollando metodologas que permiten gestionar esta complejidad de
una manera ms o menos uniforme.

Tcnicas de minera de datos

las mineras de datos provienen de la inteligencia artificial y de la estadstica,


dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que
se aplican sobre un conjunto de datos para obtener unos resultados.

Las tcnicas ms representativas son:

Redes neuronales. - Son un paradigma de aprendizaje y


procesamiento automtico inspirado en la forma en que funciona el
sistema nervioso de los animales. Se trata de un sistema de
interconexin de neuronas en una red que colabora para producir un
estmulo de salida. Algunos ejemplos de red neuronal son:
o El perceptrn.
o El perceptrn multicapa.
o Los mapas auto organizados, tambin conocidos como redes
de Kohonen.
Regresin lineal. - Es la ms utilizada para formar relaciones entre
datos. Rpida y eficaz pero insuficiente en espacios
multidimensionales donde puedan relacionarse ms de 2 variables.
rboles de decisin. - Un rbol de decisin es un modelo de
prediccin utilizado en el mbito de la inteligencia artificial y el anlisis
predictivo, dada una base de datos se construyen estos diagramas
de construcciones lgicas, muy similares a los sistemas de prediccin
basados en reglas, que sirven para representar y categorizar una serie
de condiciones que suceden de forma sucesiva, para la resolucin de
un problema. Ejemplos:
o Algoritmo ID3.
o Algoritmo C4.5.
Modelos estadsticos. - Es una expresin simblica en forma de
igualdad o ecuacin que se emplea en todos los diseos
experimentales y en la regresin para indicar los diferentes factores
que modifican la variable de respuesta.
Agrupamiento o Clustering. - Es un procedimiento de agrupacin de
una serie de vectores segn criterios habitualmente de distancia; se
tratar de disponer los vectores de entrada de forma que estn ms
cercanos aquellos que tengan caractersticas comunes. Ejemplos:
o Algoritmo K-means.
o Algoritmo K-medoids.
Reglas de asociacin. - Se utilizan para descubrir hechos que ocurren
en comn dentro de un determinado conjunto de datos.

Segn el objetivo del anlisis de los datos, los algoritmos utilizados se


clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos): predicen un dato (o un
conjunto de ellos) desconocido a priori, a partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento):
se descubren patrones y tendencias en los datos.

Ejemplos de uso de la minera de datos

Negocios

La minera de datos puede contribuir significativamente en las aplicaciones


de administracin empresarial basada en la relacin con el cliente. En lugar
de contactar con el cliente de forma indiscriminada a travs de un centro
de llamadas o enviando e-mails, slo se contactar con aquellos que se
perciba que tienen una mayor probabilidad de responder positivamente a
una determinada oferta o promocin.
Las empresas que emplean minera de datos ven habitualmente el retorno
de la inversin, pero tambin reconocen que el nmero de modelos
predictivos desarrollados puede crecer muy rpidamente. En lugar de crear
modelos para predecir qu clientes pueden cambiar, la empresa podra
construir modelos separados para cada regin y/o para cada tipo de
cliente. Tambin puede querer determinar qu clientes van a ser rentables
durante una ventana de tiempo (una quincena, un mes, ...) y slo enviar las
ofertas a las personas que es probable que sean rentables
Fraudes
Un caso anlogo es el de la deteccin de transacciones de lavado de
dinero o de fraude en el uso de tarjetas de crdito o de servicios de telefona
mvil e, incluso, en la relacin de los contribuyentes con el fisco.
Generalmente, estas operaciones fraudulentas o ilegales suelen seguir
patrones caractersticos que permiten, con cierto grado de probabilidad,
distinguirlas de las legtimas y desarrollar as mecanismos para tomar
medidas rpidas frente a ellas.

Terrorismo
La minera de datos ha sido citada como el mtodo por el cual la unidad
Able Danger del Ejrcito de los EE.UU. haba identificado al lder de los
atentados del 11 de septiembre de 2001, Mohammed Atta, y a otros tres
secuestradores del "11-S" como posibles miembros de una clula de Al
Qaeda que operan en los EE. UU. ms de un ao antes del ataque. Se ha
sugerido que tanto la Agencia Central de Inteligencia y su homloga
canadiense, Servicio de Inteligencia y Seguridad Canadiense, tambin han
empleado este mtodo.

Tendencias
La Minera de Datos ha sufrido transformaciones en los ltimos aos de
acuerdo con cambios tecnolgicos, de estrategias de marketing, la
extensin de los modelos de compra en lnea, etc. Los ms importantes de
ellos son:

La importancia que han cobrado los datos no estructurados (texto,


pginas de Internet, etc.).
La necesidad de integrar los algoritmos y resultados obtenidos en
sistemas operacionales, portales de Internet, etc.
La exigencia de que los procesos funcionen prcticamente en lnea
(por ejemplo, en casos de fraude con una tarjeta de crdito).
Los tiempos de respuesta. El gran volumen de datos que hay que
procesar en muchos casos para obtener un modelo vlido es un
inconveniente; esto implica grandes cantidades de tiempo de
proceso y hay problemas que requieren una respuesta en tiempo real.

Herramientas de software
Existen muchas herramientas de software para el desarrollo de modelos de minera de
datos tanto libres como comerciales como, por ejemplo:

RapidMiner Orange SPSS Clementine


KXEN Powerhouse SAS Enterprise Miner
KNIME Quiterian STATISTICA Data Miner
Neural Designer KEEL
OpenNN Weka

Вам также может понравиться