Вы находитесь на странице: 1из 25

LA MINERA DE DATOS

ING. DE SISTEMAS E INFORMATICA INTEGRANTES:

GIRALDO AGURTO LORGIO


MACEDO ESPADA RICARDO

MINERA DE DATOS (Data Mining)

DEFINICIONES
La minera de datos (es la etapa de anlisis de "Knowledge Discovery in Databases" o KDD), es un campo de las ciencias de la computacin referido al proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos.
Es el proceso de extraer conocimiento til y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos. Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios la toma de decisiones.

Es el anlisis de archivos y bitcoras de transacciones, trabaja a nivel del conocimiento con el fin de descubrir patrones, relaciones, reglas, asociaciones o incluso excepciones tiles para la toma de decisiones.

DM
La minera de datos utiliza los mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y sistemas de bases de datos. El objetivo general del proceso de minera de datos consiste en extraer informacin de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior.

LA MD PUEDE SER DIVIDIDA EN:

Minera de datos predictiva (mdp): Usa primordialmente tcnicas estadsticas

Minera de datos para el descubrimiento de conocimiento (mddc): Usa principalmente tcnicas de inteligencia artificial

LA MINERA DE DATOS Y EL DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

Descubrirniento de conocimiento en bases de datos" (Knowledge Discovery in Databases o KDD, segn sus siglas en ingls).

KDD es un proceso que consta de un conjunto de fases, una de las cuales es la minera de datos.

El KDD es la extraccin automatizada de conocimiento o patrones interesantes, no triviales, implcitos, previamente desconocidos, potencialmente tiles y predictivos de la informacin de grandes Bases de Datos.

FASES DEL PROCESO KDD

DNDE SE ULTILIZA LA MINERA DE DATOS?

Si el modelo del sistema que produce los datos es bien conocido, entonces no necesitamos de la minera de datos ya que todas las variables son de alguna manera predecibles. En estos casos habr una parte del sistema que es conocida y habr una parte aparentemente de naturaleza aleatoria. Bajo ciertas circunstancias, a partir de una gran cantidad de datos asociada con el sistema, SISTEMAS PARCIALMENTE existe la posibilidad de encontrar nuevos aspectos previamente desconocidos DESCONOCIDOS del modelo.

ENORME CANTIDAD DE DATOS

Al contar con mucha informacin en algunas bases de datos es importante para una empresa encontrar la forma de analizar "montaas" de informacin (lo que para un humano sera imposible) y que ello le produzca algn tipo de beneficio.

POTENTE HARDWARE Y SOFTWARE

Muchas de las herramientas presentes en la minera de datos estn basadas en el uso intensivo de la computacin, en consecuencia, un equipo conveniente y un software eficiente, con el cual cuente una compaa, aumentar el desempeo del proceso de buscar y analizar informacin, el cual a veces debe vrselas con producciones de datos del orden de los Gbytes/hora.

OBJETIVOS

OBJETIVOS PRINCIPALES DE LA MD
PREDICCIN (FORECASTING)
Una vez descubiertas reglas importantes, estas pueden ser utilizadas pera estimar algunas variables de salida. Puede ser en el caso de secuencias en el tiempo, o bien en la identificacin e interrupcin a tiempo, de una futura mala experiencia de crdito. En esta tarea, se complementan las tcnicas estadsticas tradicionales con aquellas provenientes de la inteligencia artificial. Conceptos adaptativos como los algoritmos genticos y las redes neuronales, permiten realizar predicciones ms acertadas, especialmente en casos de gran complejidad y con relaciones internas.

DESCRIPCIN
El principal producto del proceso de la minera de datos es el descubrimiento de reglas. Estas mostrarn nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso. Ello enriquecer el anlisis y la descripcin de la forma en que trabaja una compaa y ayudar en la planificacin y en el diseo de futuros cambios. Es posible que algunas de las reglas descubiertas no puedan ser cambiadas, pero si resulte posible realizar modificaciones apropiadas en la organizacin con el propsito de mejorar su desempeo.

FASES PARA LA CREACIN DE UN PROYECTO DE MD

El siguiente diagrama describe las relaciones existentes entre cada caso del proceso y las tecnologas de Microsoft SQL Server que se pueden usar para completar cada paso.

Pasos para la generacin de un Modelo De Minera De Datos


1. 2. 3. 4. 5. Definir el Problema. Preparar los datos. Explorar los Datos. Explorar y validar los modelos. Implementar y actualizar los modelos.

1. Definir el Problema.

Definir claramente el problema y considerar formas de usar los datos para proporcionar una respuesta para el mismo.

Se traduce en preguntas como: Qu est buscando? Qu tipos de relaciones intenta buscar? Refleja el problema que intenta resolver la empresa? Desea realizar predicciones, buscar asociaciones y patrones interesantes? Qu resultado o atributo desea predecir?

2. Preparar los datos .

Consiste en consolidar y limpiar los datos identificados en el paso 01. Los datos pueden estar dispersos en la empresa, almacenados en formatos distintos; pueden contener incoherencias como entradas que faltan o incorrectas..

Para explorar los datos y buscar incoherencias se usan herramientas de generacin de perfiles de datos, de limpieza y filtrado automtico de datos, las que se proporcionan en: a) Integration Services. b) Microsoft SQL Server 2012 Master Data Services. c) SQL Server Data Quality Services. Los datos que se usan para la minera de datos no necesitan almacenarse en un cubo de procesamiento analtico en lnea (OLAP), ni en una base de datos relacional, aunque puede usar ambos como orgenes de datos.

3. Explorar los datos.

Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de minera de datos. Entre las tcnicas de exploracin se incluyen calcular los valores mnimos y mximos, calcular la media y las desviaciones estndar, y examinar la distribucin de los datos.

Al explorar los datos para conocer el problema empresarial, puede decidir si el conjunto de datos contiene datos defectuosos y, a continuacin, puede inventar una estrategia para corregir los problemas, obtener una descripcin ms profunda de los comportamientos que son tpicos de su negocio. Puede usar herramientas como: a) SQL Server Data Quality Services. b) El generador de perfiles de datos de Integration Services. Con ellos se analiza la distribucin de los datos , se soluciona problemas, como la

4. Generar modelos.

Consiste en generar el modelo o modelos de minera de datos. Usar los conocimientos adquiridos en el paso Explorar los datos. Un modelo de minera de datos simplemente es un contenedor que especifica las columnas que se usan para la entrada, el atributo que est prediciendo y parmetros que indican al algoritmo cmo procesar los datos.

Se crea una estructura de minera de datos, la cual se vincula al origen de datos, pero en realidad no contiene ningn dato hasta que se procesa. Para esto se aplica un algoritmo matemtico a los datos de la estructura para extraer patrones. SQL Server 2012 contiene muchos algoritmos diferentes. Cada uno est apto para un tipo diferente de tarea y crea un tipo distinto de modelo. Vea los algoritmos en SQL Server 2012, Analysis Services: Minera de datos.

5. Explorar y validar los modelos .

Consiste en explorar los modelos de minera de datos que ha generado y comprobar su eficacia, antes de implementarla en un entorno de produccin, y probar si funciona correctamente.

Analysis Services tiene herramientas que ayudan a separar los datos en conjuntos de datos de entrenamiento y pruebas,. El conjunto de datos de entrenamiento se utiliza para generar el modelo y el conjunto de datos de prueba para comprobar la precisin del modelo. Si los modelos que ha creado en el paso Generar modelos no funcionan, se debe volver al paso anterior y volver a definir el problema o volver a investigar los datos del conjunto de datos original.

6. Implementar y actualizar los modelos

Consiste en implementar los modelos que funcionan mejor en un entorno de produccin. Una vez que los modelos de minera de datos se encuentran en el entorno de produccin, puede llevar acabo diferentes tareas, dependiendo de sus necesidades.

Use los modelos para crear predicciones que luego podr usar para tomar decisiones comerciales. SQL Server pone a su disposicin el lenguaje DMX. Crear consultas de contenido para recuperar estadsticas, reglas o frmulas del modelo. Incrustar la funcionalidad de minera de datos directamente en una aplicacin. Puede incluir Objetos de administracin de anlisis (AMO). Utilizar Integration Services para crear un paquete donde se utilice un modelo de minera de datos para dividir los datos entrantes en varias tablas.

HERRAMIENTAS PARA LA MINERA DE DATOS. SQL SERVER.


El procesamiento de los modelos de una misma estructura de minera ocurre en paralelo, en una sola lectura de los datos.

Posee un lenguaje para la creacin de consultas de minera (DMX) similar al SQL que facilita la tarea de creacin de aplicaciones de minera de datos.

Posee una interfaz grfica para generar las consultas DMX.

ALGORITMOS DE MINERA DE DATOS

SUPERVISADOS O PREDICTIVOS: predicen el valor de un atributo de un conjunto de datos, conocidos otros atributos. A partir de datos cuya etiqueta se conoce se induce una relacin entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven para realizar la prediccin de datos cuya etiqueta es desconocida.

NO SUPERVISADOS O DEL DESCUBRIMIENTO DEL CONOCIMIENTO: con estos algoritmos se descubren patrones y tendencias en los datos actuales. El descubrimiento de esa informacin sirve para llevar a cabo acciones y obtener un beneficio de ellas.

CONCLUSIONES
La capacidad para almacenar datos ha crecido en los ltimos aos a velocidades exponenciales.

En el otro extremo, nuestra capacidad para procesar esta enorme cantidad de datos para por utilizarlos eficazmente no ha ido a la par.

Por este motivo, el data mining se presenta como una tecnologa de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificacin de interesantes estructuras en los datos es una de las tareas fundamentales en el data mining.

Вам также может понравиться