Вы находитесь на странице: 1из 20

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Minera de datos
Profesor (a): Marisel Prado. Nombre: Luis Martnez Riveaud. Carrera: Ingeniera en Computacin e Informtica.

26 de Noviembre 2013

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

INDICE
INDICE.................................................................................................................................................. 2 INTRODUCCION ................................................................................................................................... 3 Modelo predictivo ............................................................................................................................. 4 Definicin ....................................................................................................................................... 4 Tcnicas del modelo Predictivo...................................................................................................... 4 Regresin................................................................................................................................... 4 Arboles de decisin ...................................................................................................................... 5 Ventajas: .................................................................................................................................... 6 Desventajas: .............................................................................................................................. 6 Ejemplo ...................................................................................................................................... 7 Redes neuronales ............................................................................................................................ 8 Ventajas ..................................................................................................................................... 8 Desventajas ............................................................................................................................... 9 Ejemplo: ..................................................................................................................................... 9 Modelo descriptivo ......................................................................................................................... 10 Definicin ..................................................................................................................................... 10 Visualizacin ............................................................................................................................... 10 Ejemplo .................................................................................................................................... 11 CLUSTERING (Agrupamiento) ................................................................................................ 13 Ventajas ................................................................................................................................... 14 Desventajas ............................................................................................................................. 15 Ejemplo .................................................................................................................................... 16 Regla de asociacin ................................................................................................................... 16 Ventajas: .................................................................................................................................. 17 Desventajas ............................................................................................................................. 18 Ejemplo .................................................................................................................................... 18 Conclusin ......................................................................................................................................... 20

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

INTRODUCCION
Existen bsicamente dos tipos de modelos de datos que pueden generar estas tcnicas de Minera de Datos, estos dos tipos son: Predictivos y/o Descriptivos Un modelo es una representacin formal de un sistema. Estas descripciones pueden presentarse de diferentes formas. El objetivo del modelo es describir las relaciones entre las entradas y las salidas del sistema. Las entradas pueden ser entendidas como condiciones corrientes y salidas como predicciones o consultas. De forma general un modelo descriptivo provee informacin sobre el estado actual del sistema y un modelo predictivo sobre estados futuros de un sistema. La palabra futuro debe ser entendida en un sentido amplio, esto n es necesariamente en una escala temporal. Por ejemplo, una prediccin puede presentar el gasto del prximo ao, pero tambin la puntuacin de un cliente potencial.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Modelo predictivo

Definicin Estructura y proceso para predecir valores de variables especificadas en un conjunto de datos. Este tipo de modelos nos informan del comportamiento de la variable en un futuro, es decir, lo que debera ser. A este tipo de modelos corresponden aquellos basados en tcnicas estadsticas y/o economtricas, es decir, modelos de previsin. En ingeniera en general se basa en anlisis previo del sistema en las condiciones (ambiente) que tiene que soportar. Bajo el modelo establecido se predice el tiempo de vida del sistema.

Tcnicas del modelo Predictivo

Regresin Un aspecto que se olvida frecuentemente es que los modelos de regresin se basan en hacer unas determinadas suposiciones sobre los datos y que stas no siempre se cumplen, por lo que es preciso comprobar si las hiptesis bsicas del modelo se dan en nuestros datos. Es lo que se En el caso de los modelos de regresin lineal se utiliza el concepto de residuo: diferencia entre el valor observado y el valor estimado por la ecuacin de regresin, es decir lo que la ecuacin de regresin no explica para cada unidad de observacin.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

En un modelo de regresin lineal que sea adecuado los residuos deben seguir una distribucin normal con media 0 y varianza constante, por lo que un posible diagnstico puede ser comprobar esa situacin. Se puede efectuar de manera formal o mediante una grfica en la que se representa el valor de los residuos frente al valor estimado, como se ilustra en la siguiente figura

Arboles de decisin Un rbol de decisin es una forma grfica y analtica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisin asumida en cierto momento. Nos ayudan a tomar la decisin ms acertada, desde un punto de vista probabilstico, ante uncabanico de posibles decisiones. Permite desplegar visualmente un problema y organizar el trabajo de clculos que deben realizarse.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Ventajas:

1. Plantean el problema para que todas las opciones sean analizadas. 2. Permiten analizar totalmente las posibles consecuencias de tomar una decisin. 3. Proveen un esquema para cuantificar el costo de un resultado y la probabilidad de que suceda. 4. Ayuda a realizar las mejores decisiones sobre la base de la informacin existente y de las mejores suposiciones. 5. Provee una estructura sumamente efectiva dentro de la cual se puede estimar cuales son las opciones e investigar las posibles consecuencias de seleccionar cada una de ellas 6. Nos ayuda a realizar las mejores decisiones sobre la base de la informacin existente y de las mejores suposiciones

Desventajas:

1. Slo es recomendable para cuando el nmero de acciones es pequeo y no son posibles todas las combinaciones. 2. En la eleccin de un modelo, existe una cantidad muy limitada y dificulta para elegir el rbol ptimo. 3. Presenta inconvenientes cuando la cantidad de alternativas es grande y cuanto las decisiones no son racionales. 4. Al no tener claridad de objetivos, es difcil de organizar las ideas.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Ejemplo

Una compaa de seguros nos ofrece una indemnizacin por accidente de 210.000$. Si no aceptamos la oferta y decidimos ir a juicio podemos obtener 185.000$, 415.000$ o 580.000$ dependiendo de las alegaciones que el juez considere aceptables. Si perdemos el juicio, debemos pagar las costas que ascienden a 30.000$. Sabiendo que el 70% de los juicios se gana, y de stos, en el 50% se obtiene la menor indemnizacin, en el 30% la intermedia y en el 20% la ms alta, determinar la decisin ms acertada.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Redes neuronales

Las redes neuronales son ampliamente utilizadas en tareas relacionadas con el reconocimiento de patrones y sistemas de clasificacin. Aunque son clasificadores muy precisos, su uso en minera de datos es an rea en estudio puesto que dan lugar a modelos de aprendizaje inestables. Las redes neuronales son modelos matemticos simples de interconexin entre neuronas artificiales. Las neuronas representan mediante simulacin, los procesos que se dan sobre las neuronas del cerebro humano. As, es entrenada a partir de un conjunto inicial de entrenamiento donde se generalizan patrones de prediccin y clasificacin. Cada neurona de la red procesa de forma independiente los datos que le llegan y reporta los resultados obtenidos del proceso interno a la siguiente capa de la red.

Ventajas
1.

Aprendizaje: Las redes neuronales tienen la capacidad de aprender a realizar tareas basadas en un entrenamiento o una experiencia inicial.

2.

Auto organizacin: Crea su propia organizacin o representacin de la informacin en su interior que recibe mediante una etapa de aprendizaje.

3.

Tolerancia a fallos: Debido a que una red neuronal almacena la informacin de forma redundante, sta puede seguir respondiendo de manera aceptable, incluso sufriendo un gran dao.

4.

Flexibilidad: Una red neuronal puede manejar cambios no importantes en la informacin de entrada, como seales con ruido u otros cambios en la entrada.

5.

Tiempo real: La estructura de una red neuronal es paralela, por lo cual si esto es implementado con computadoras o en dispositivos electrnicos especiales, se pueden obtener respuestas en tiempo real.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Desventajas

1.

Slo es recomendable para cuando el nmero de acciones es pequeo y no son posibles todas las combinaciones.

2.

En la eleccin de un modelo, existe una cantidad muy limitada y dificulta para elegir el rbol ptimo.

3.

Presenta inconvenientes cuando la cantidad de alternativas es grande y cuanto las decisiones no son racionales.

4.

Al no tener claridad de objetivos, es difcil de organizar las ideas.

Ejemplo:

El diseo de una u otra tipologa depende del problema a solucionar por ejemplo para elaborar un programa de filtro digital en una computadora, se debe emplear un algoritmo en que todas las capas estn uniformemente interconectadas, o sea que todos los nodos de una capa estn conectados con los nodos de otra capa. En la Figura 2 se muestra la arquitectura de una RNA clsica con variables de entrada, dos capas de neuronas intermedias y una capa de salida. Todas ellas conectadas entre s.

Esquema de una RNA de dos capas de neuronas intermedias.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Esquema de una red neuronal antes del entrenamiento. Los crculos representan neuronas, mientras las flechas representan conexiones entre neuronas.

Modelo descriptivo

Definicin Este tipo de modelo, trata de proporcionar informacin entre las relaciones de los datos y sus caractersticas, haciendo nfasis en los perfiles del dato que se quiere analizar, como por ejemplo los clientes.

Visualizacin La visualizacin es un proceso que transformar la informacin en una forma visual permitiendo al espectador observar, navegar, interactuar, entender el sentido y la informacin resultante. Utiliza las computadoras para procesar datos y su visualizacin, con mtodos grficos interactivos, de proyeccin de imagen, y

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

diseo visual, y requiere la capacidad visual del ser humano para percibir y procesar esta informacin. La exploracin de datos consiste en descubrir informacin o patrones, en un gran volumen de datos, a travs de un proceso de MD. Para ello, es necesario realizar una secuencia de transformaciones y depuracin, sobre el conjunto de datos, para poder descubrir la informacin o patrn de conocimiento resultante. Este proceso de exploracin es variado y complejo, requiriendo un alto grado de habilidades tcnicas y perceptivas por parte del analista. El objetivo de una exploracin de datos es lograr una descripcin de estos y descubrir hechos interesantes en ellos, que debe incluir: calidad de los datos, bsqueda de estructuras o patrones, obtencin de un conocimiento bsico de los datos y las relaciones existentes entre las variables.

Ejemplo: Visualizacin de los datos del sitio de CDICE del Catlogo Electrnico utilizaremos la herramienta Google Analytics la cual muestra la cantidad de visitas que surgieron en este Ao (01/01/2010 01/08/2010), distribuidas por la ubicacin (Pas/territorio), la cual se muestra en la siguiente figura.

Esta grafica muestra la cantidad de visitas del periodo Enero10 a Agosto10 la cual fue de 95,163 en 43 pases/territorios, en la que podemos observar con mayor intensidad (verde intenso) la cantidad de visitas.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Por ejemplo para Mxico la cantidad de visitas fue de 94,226 la cual se muestra ms enmarcado. En la tabla siguiente se muestra el top 10 de los pases donde usuarios visitaron el sitio en el perodo de la cual se obtuvieron los datos para visualizarlos en el mapa de ubicacin.

Pas/territorio Mexico United States Spain Colombia Peru Argentina Venezuela Chile Ecuador Germany

Visitas 94226 375 103 56 56 53 45 27 25 18

En la siguiente grafica podemos ver como ha sido el comportamiento de las visitas en el perodo mencionado arriba. Este es otro tipo de visualizacin de los datos pero ah la relacin que existe es la cantidad de visitas al Catlogo Electrnico por da.

La siguiente grafica muestra la cantidad de visitas por semana.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Y esta ltima grfica es la cantidad de visitas por mes.

Como se pudo observar anteriormente se hicieron dos tipos de visualizacin para representar los datos: 1. Cantidad de visitas por ubicacin, donde se ocupo un mapa y marcacin con diferente intensidad de colores dependiendo la la cantidad de visitas provenientes de diferentes pases. 2. Cantidad de visitas por lapsos de tiempo (da, mes, ao) donde ocupamos un grafica de polgonos.

CLUSTERING (Agrupamiento)

Agrupan datos dentro de un nmero de clases preestablecidas o no, partiendo de criterios de distancia o similitud, de manera que las clases sean similares entre s y distintas con las otras clases. Su utilizacin ha proporcionado significativos resultados en lo que respecta a los clasificadores o reconocedores de patrones, como en el modelado de sistemas. Este mtodo debido a su naturaleza flexible se puede combinar fcilmente con otro tipo de tcnica de minera de datos, dando como resultado un sistema hbrido. Un problema relacionado con el anlisis de cluster es la seleccin de factores en tareas de clasificacin, debido a que no todas las variables tienen la misma importancia a la hora de agrupar los objetos. Otro problema de gran importancia y que actualmente despierta un gran inters es la fusin de conocimiento, ya que existen mltiples fuentes de informacin sobre un mismo tema, los cuales no

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

utilizan una categorizacin homognea de los objetos. Para poder solucionar estos inconvenientes es necesario fusionar la informacin a la hora de recopilar, comparar o resumir los datos.}

Ventajas Un cluster sin duda la agrupacin de conglomerados empresariales permite a los participantes de ste gozar de muchos beneficios, que les brinda seguridad y confianza en las inversiones. los beneficios del cluster son: -el desarrollo de las economas de escala, para las empresas asociadas, potenciando su capacidad de ingreso a mercados, y aumentando sus beneficios. se eleva la competitividad, favoreciendo a la industria por la necesidad de nuevos productos, y de mejor calidad. -se asegura la permanencia en el mercado, permitiendo que las empresas que se integren tengan una estabilidad, de acuerdo al estudio realizado con anterioridad -la mutua ayuda de las empresas permite la permanencia en los mercados, y la investigacin les permite hacer un avance en conjunto -la investigacin de universidades y centros de investigacin tecnolgicos permiten que los integrantes del cluster se vean beneficiados en conjunto por los avances de los organismos tecnolgicos. - la concentracin de empresas en una regin atrae ms clientes, provocando que el mercado se ample para todas, ms all de lo que sera el caso si cada una estuviese operando aisladamente. - la fuerte competencia inducida por esta concentracin de empresas genera una mayor especializacin y divisin de trabajo, y, por ende, una mayor productividad. -la fuerte interaccin entre productores, proveedores y usuarios facilita e induce un mayor aprendizaje productivo, tecnolgico y de comercializacin.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

- las repetidas transacciones en proximidad con los mismos agentes econmicos genera mayor confianza y reputacin; lo que redunda en menores costos de transaccin.

Desventajas

Desafortunadamente, en amrica latina, las condiciones de muchas economas locales fuera de las grandes ciudades son tales (a nivel de mercados imperfectos o inexistentes-, de infraestructura inexistente-, de capital humano de poca formacin formal-, de capital social de tejido dbil-) que se encuentran muy alejadas de los clusters en los pases desarrollados. las polticas y programas que intentan fortalecer los clusters en la regin deben por lo tanto empezar por reconocer estas diferencias y tratar de incidir sobre lo bsico, o sea, preocuparse primero de mejorar la educacin y las destrezas, de construir capacidades en tecnologa, de abrir el acceso a los mercados de capital y de mejorar las instituciones y slo despus o, a lo sumo, paralelamente, tomar acciones especficas para fortalecer un cluster dado. - la asociacin de ncleos empresariales en una conglomeracin cluster no slo trae consigo beneficios a los sectores empresariales. la mala planificacin y la falta de estudios sobre la factibilidad de un cluster pueden provocar un mala perspectiva del mismo, conduciendo a la falta de afiliados y al poco inters de parte de los empresarios. al haber una mala planificacin tanto espacial como comercial, los afiliados el cluster puede perder factibilidad industrial, y perder sus componentes haciendo caer a todos sus afiliados. - la falta de estudios y proyectos pueden hacer que la planificacin de un cluster econmico no posea la suficiente atraccin para el sector empresarial, limitando la cantidad de ncleos empresariales que ingresen a ste.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Ejemplo

K-means, es probablemente el algoritmo de agrupamiento ms conocido.El algoritmo est a un basado en la minimizacin de la distancia interna (la suma de las distancias de los patrones asignados agrupamiento al centro de dicho agrupamiento).

Regla de asociacin En minera de datos y aprendizaje automtico, las reglas de asociacin se utilizan para descubrir hechos que ocurren en comn dentro de un determinado conjunto de datos.1 Se han investigado ampliamente diversos mtodos para aprendizaje de reglas de asociacin que han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos.

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Piatetsky-Shapiro describe el anlisis y la presentacin de reglas 'fuertes' descubiertas en bases de datos utilizando diferentes medidas de inters. Basado en el concepto de regla fuerte,Agrawal et al. Presentaron un trabajo en el que indicaban las reglas de asociacin que descubran las relaciones entre los datos recopilados a gran escala en los sistemas de terminales de punto de venta de unos supermercados. Por ejemplo, la siguiente regla: {cebollas, vegetales}=> {carne} Encontrada en los datos de ventas de un supermercado, indicara que un consumidor que compra cebollas y vegetales a la vez, es probable que compre tambin carne. Esta informacin se puede utilizar como base para tomar decisiones sobre marketing como precios promocionales para ciertos productos o donde ubicar stos dentro del supermercado. Adems del ejemplo anterior aplicado al anlisis de la cesta de la compra, hoy en da, las reglas de asociacin tambin son de aplicacin en otras muchas reas como el Web mining, la deteccin de intrusos o la bioinformtica.

Ventajas:

1. Conocer la relacin entre un conjunto de datos, por ejemplo, la temperatura, el clima y la aparicin de una enfermedad 2. Tomar decisiones estratgicas en un productos en un supermercado 3. Usa la propiedad de itemset frecuentes(propiedad A priori) 4. Fcil de implementar 5. Se puede implementar en forma paralela negocio; ejemplo: ubicacin de

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Desventajas

1. Asume que las transacciones de la bases de datos estn residentes en memoria 2. Requiere muchas lecturas a la base de datos 3. Umbral de soporte: si es bajo, mas itemset son generados 4. El nmero de tems (dimensionalidad) almacenar la cuenta del soporte 5. El nmero de transacciones ms tiempo para recorrer el conjunto de datos. ms espacio se necesita para

Ejemplo

A la derecha se muestra una pequea base de datos que contiene los items, donde el cdigo '1' se interpreta como que el producto (item) correspondiente est presenta en la transaccin y el cdigo '0' significa que dicho producto no est presente. Un ejemplo de regla para el supermercado podra ser:

Significara que si el cliente compr 'leche' y 'pan' tambin compr 'mantequilla', es decir, segn la especificacin formal anterior se tendra que:

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Instituto Profesional La Araucana Ingeniera en Computacin e Informtica

Conclusin
La Minera de Datos, a pesar de ser una ciencia joven, ha experimentado un gran auge en los ltimos tiempos gracias a sus mltiples aplicaciones en el mundo real, por ello, multitud de empresas se dedican a su estudio en profundidad, ya que poseer conocimiento puede marcar la diferencia entre el xito y el fracaso. Todava queda mucho por investigar en este campo y se necesitan optimizar las tcnicas utilizadas actualmente para que sea una ciencia mucho ms rentable. La finalidad de un modelo en minera de datos, en general, inciden, en una de las siguientes clases: 1- Soporte al descubrimiento de relacionamientos. 2- Decisin 3- Prediccin 4- Mejora de los procesos

Вам также может понравиться