Вы находитесь на странице: 1из 12

CENTRO INTERNACIONAL DE EDUCACIN CONTINUA

DATAMINING

PARTICIPANTE: LABRADOR V. MARISELA X. C.I. V.- 12.398.454

INTRODUCCION

Desde sus inicios, el trmino Data Mining (Minera de datos) ha sido llamado por muchos nombres. En los 60s, los estadsticos utilizaban trminos como Data Fishing (Pesca de datos) o Data Dredging (Filtracin de datos) para referirse a lo que consideraban la mala prctica de analizar datos sin una hiptesis a priori. El trmino Data Mining apareci alrededor de 1990 en la comunidad de base de datos. Brevemente, exista la frase databasemining , pero fue registrada por la compaa de software HNC (ahora parte de Fair, Isaac), y los investigadores la cambiaron por data mining. Otros trminos utilizados en ese tiempo eran: Data Archaeology informacin), (arqueologa de datos), InformationHarvesting (Descubrimiento de (recoleccin de InformationDiscovery Informacin),

KnowledgeExtraction (Extraccin de conocimiento), entre otros. En 1989, Gregory Piatetsky-Shapiro acu el trmino KnowledgeDiscovery in Databases (KDD) (Descubrimiento de Conocimiento en Bases de Datos) para el primer taller que se realiz sobre el mismo tema, y este trmino se hizo ms famoso dentro de la comunidad cientfica y acadmica. A fines del 2003 el trmino Data Mining se fue convirtiendo cada vez ms popular en la comunidad empresarial y en la prensa. A inicios de 2004, la bsqueda en Google del trmino data mining se encontraba en alrededor de 2.000.000 de pginas.

En la actualidad, Data Mining (Minera de Datos) y KnowledgeDiscovery (Descubrimiento de Conocimiento) se utilizan indistintamente, y tambin se han agregado nuevos trminos que podran parecer similares, pero no lo son tanto, tales como: Business Intelligence, Analytics, Business Analytics, Web Mining, Web Analytics, entre otros.

Minera de datos

La minera de datos (es la etapa de anlisis de "Knowledge Discovery in Databases" o KDD), es un campo de las ciencias de la computacin referido al proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos. Utiliza los mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y sistemas de bases de datos. El objetivo general del proceso de minera de datos consiste en extraer informacin de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Adems de la etapa de anlisis en bruto, que involucra aspectos de bases de datos y gestin de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, mtricas de Intereses, consideraciones de la Teora de la complejidad computacional, post-procesamiento de las estructuras descubiertas, la visualizacin y actualizacin en lnea. El trmino es una palabra de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la informacin (recoleccin, extraccin, almacenamiento, anlisis y estadsticas), pero tambin se ha generalizado a cualquier tipo de sistema de apoyo informtico decisin, incluyendo la inteligencia artificial , aprendizaje automtico y la inteligencia empresarial. En el uso de la palabra, el trmino clave es el descubrimiento, comnmente se define como "la deteccin de algo nuevo". Incluso el popular libro "La minera de datos: sistema de prcticas herramientas de aprendizaje y tcnicas con Java" (que cubre todo el material de aprendizaje automtico) originalmente iba a ser llamado simplemente "la mquina de aprendizaje prctico", y el trmino "minera de datos" se aadi por razones de marketing. A menudo, los trminos ms generales "(gran escala) el anlisis de datos", o "anlisis" -. o cuando se refiere a los mtodos actuales, la inteligencia artificial y aprendizaje automtico, son ms apropiados. La tarea de minera de datos real es el anlisis automtico o semi-automtico de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (anlisis cluster), registros poco usuales (la deteccin de anomalas) y dependencias (minera por reglas de asociacin). Esto generalmente implica el uso de tcnicas de bases de datos como los ndices espaciales. Estos patrones pueden entonces ser visto como una especie de resumen de los datos de entrada, y puede ser utilizado en el anlisis adicional o, por

ejemplo, en la mquina de aprendizaje y anlisis predictivo. Por ejemplo, el paso de minera de datos podra identificar varios grupos en los datos, que luego pueden ser utilizados para obtener resultados ms precisos de prediccin por un sistema de soporte de decisiones. Ni la recoleccin de datos, preparacin de datos, ni la interpretacin de los resultados y la informacin son parte de la etapa de minera de datos, pero que pertenecen a todo el proceso KDD como pasos adicionales. Los trminos relacionados con la obtencin de datos, la pesca de datos y espionaje de los datos se refieren a la utilizacin de mtodos de minera de datos a las partes de la muestra de un conjunto de datos de poblacin ms grandes establecidas que son (o pueden ser) demasiado pequeas para las inferencias estadsticas fiables que se hizo acerca de la validez de cualquier patrn descubierto. Estos mtodos pueden, sin embargo, ser utilizado en la creacin de nuevas hiptesis que se prueba contra las poblaciones de datos ms grandes. Un proceso tpico de minera de datos consta de los siguientes pasos generales: 1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el clculo o proceso), como posiblemente al muestreo de los registros disponibles. 2. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos). 3.Transformacin del conjunto de datos de entrada, se realizar de diversas formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema, a este paso tambin se le conoce como preprocesamiento de los datos. 4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o segmentacin. 5. Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos.

6. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. Si el modelo final no superara esta evaluacin el proceso se podra repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentacin se podr repetir cuantas veces se considere necesario hasta obtener un modelo vlido. Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales. En este sentido cabe destacar los esfuerzos del Data Mining Group, que est estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minera de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de anlisis de la informacin hacen uso de este estndar. Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseadas para proyectos de minera de datos en las que centralizan informacin potencialmente til de todas sus reas de negocio. No obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos desestructurados como informacin contenida en ficheros de texto, en Internet, etc.

Protocolo de un proyecto de minera de datos


Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente: Comprensin: del negocio y del problema que se quiere resolver.

Determinacin, obtencin y limpieza: de los datos necesarios. Creacin de modelos matemticos. Validacin, comunicacin: de los resultados obtenidos. Integracin: si procede, de los resultados en un sistema transaccional o similar. La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la experiencia acumulada en proyectos de minera de datos se han ido desarrollando metodologas que permiten gestionar esta complejidad de una manera ms o menos uniforme.

Tcnicas de minera de datos


Como ya se ha comentado, las tcnicas de la minera de datos provienen de la inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las tcnicas ms representativas son: Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son: El perceptrn. El perceptrn multicapa. Los mapas autoorganizados, tambin conocidos como redes de Kohonen. Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2 variables. rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos:

Algoritmo ID3. Algoritmo C4.5. Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos: Algoritmo K-means. Algoritmo K-medoids. Reglas de asociacin.- Se utilizan para descubrir hechos que ocurren en comn dentro de un determinado conjunto de datos. Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998): Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

Ejemplos de uso de la minera de datos


Negocios La minera de datos puede contribuir significativamente en las aplicaciones de administracin empresarial basada en la relacin con el cliente. En lugar de contactar con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando cartas, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promocin.

Por lo general, las empresas que emplean minera de datos ven rpidamente el retorno de la inversin, pero tambin reconocen que el nmero de modelos predictivos desarrollados puede crecer muy rpidamente. En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa podra construir modelos separados para cada regin y/o para cada tipo de cliente. Tambin puede querer determinar qu clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes,...) y slo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minera de datos lo ms automatizada posible. Hbitos de compra en supermercados El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin de hbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas.

Minera de datos basada en teora de la informacin


Todas las herramientas tradicionales de minera de datos asumen que los datos que usarn para construir los modelos contienen la informacin necesaria para lograr el propsito buscado: obtener suficiente conocimiento que pueda ser aplicado al negocio (o problema) para obtener un beneficio (o solucin). El inconveniente es que sto no es necesariamente cierto. Adems, existe otro problema mayor an. Una vez construido el modelo no es posible conocer si el mismo ha capturado toda la informacin disponible en los datos. Por esta razn la prctica comn es realizar varios modelos con distintos parmetros para ver si alguno logra mejores resultados.

Un enfoque relativamente nuevo al anlisis de datos soluciona estos problemas haciendo que la prctica de la minera de datos se parezca ms a una ciencia que a un arte. En 1948 Claude Shannon public un trabajo llamado Una teora matemtica de la comunicacin. Posteriormente sta pas a llamarse Teora de la informacin y sent las bases de la comunicacin y la codificacin de la informacin. Shannon propuso una manera de medir la cantidad de informacin a ser expresada en bits. En 1999 Dorian Pyle public un libro llamado Data Preparationfor Data Mining en el que propone una manera de usar la Teora de la Informacin para analizar datos. En este nuevo enfoque, una base de datos es un canal que transmite informacin. Por un lado est el mundo real que captura datos generados por el negocio. Por el otro estn todas las situaciones y problemas importantes del negocio. Y la informacin fluye desde el mundo real y a travs de los datos, hasta la problemtica del negocio. Con esta perspectiva y usando la Teora de la informacin, es posible medir la cantidad de informacin disponible en los datos y qu porcin de la misma podr utilizarse para resolver la problemtica del negocio. Como un ejemplo prctico, podra encontrarse que los datos contienen un 65% de la informacin necesaria para predecir qu cliente rescindirn sus contratos. De esta manera, si el modelo final es capaz de hacer predicciones con un 60% de acierto, se puede asegurar que la herramienta que gener el modelo hizo un buen trabajo capturando la informacin disponible. Ahora, si el modelo hubiese tenido un porcentaje de aciertos de slo el 10%, por ejemplo, entonces intentar otros modelos o incluso con otras herramientas podra valer la pena. La capacidad de medir informacin contenida en los datos tiene otras ventajas importantes. Al analizar los datos desde esta nueva perspectiva se genera un mapa de informacin que hace innecesario la preparacin previa de los datos, una tarea absolutamente imprescindible si se desea buenos resultados, pero que lleva enorme cantidad de tiempo. Es posible seleccionar un grupo de variables ptimo que contenga la informacin necesaria para realizar un modelo de prediccin. Una vez que las variables son procesadas con el fin de crear el mapa de informacin y luego seleccionadas aquellas que aportan la mayor informacin, la

eleccin de la herramienta que se usar para crear el modelo deja de tener importancia, ya que el mayor trabajo fue realizado en los pasos previos. Tendencias La Minera de Datos ha sufrido transformaciones en los ltimos aos de acuerdo con cambios tecnolgicos, de estrategias de marketing, la extensin de los modelos de compra en lnea, etc. Los ms importantes de ellos son: La importancia que han cobrado los datos no estructurados (texto, pginas de Internet, etc.). La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc. La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, en casos de fraude con una tarjeta de crdito). Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo vlido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.

CONCLUSIN

Frases cortas para ayudar a una data miner a definir Data Mining: Descubrimiento de conocimiento en bases de datos Gregory Piatetsky-Shapiro Extraccin no trivial de informacin que reside de manera implcita en los datos Wikipedia Torturar a los datos hasta que confiesen Annimo Excarvar montaas de datos y encontrar pepitas de oro (o diamantes) Annimo La gente puede venir con estadsticas para probar cualquier cosa. Cuarenta por ciento de todas las personas lo saben Homero Simpson

Вам также может понравиться