Вы находитесь на странице: 1из 26

UNIVERSIDAD NACIONAL DE

CHIMBORAZO
FACULTAD DE INGENIERIA

BASE DE DATOS
QUINTO SEMESTRE
TEMA:MINERIA DE DATOS CON WEKA
DOCENTE
ING. DIEGO PALACIOS
INTEGRANTES:
JAYRON SILVA
FERNANDO BASANTES

26 DE FEBRERO DEL 2016

Universidad Nacional de Chimborazo


1. TEMA
Minera de datos con Weka

2. INTRODUCCIN
Teniendo en cuenta el gran avance de herramientas que ayudan a
analizar grandes base de datos, las entidades educativas y
empresariales han
buscado maneras de explotar al mximo la
informacin existente en sus sistemas de informacin, esto basndose
en tcnicas y software especializados que permiten interpretacin fcil y
real de los resultados.
Es as como para dar apoyo en la toma de decisiones a niveles
administrativos o gerenciales, se crean metodologas especializadas y
tcnicas de extraccin adecuada de la informacin, haciendo que el
usuario final pueda ver los resultados en un solo clic o con pocos pasos.
Weka es una herramienta ya mencionada hecho en Java para realizar
Data Mining (Minera de Datos). Data Mining es el proceso mediante el
cual se explora grandes volmenes de datos en busca de patrones
interesantes para el usuario del conocimiento.

3. OBJETICOS
3.1. GENERAL
Investigar sobre la minera de datos con WEKA

3.2. ESPECIFICOS

Instalar WEKA
Copiar en el directorio de instalacin de weka el
archivo databaseUtils.props
Aplicar minera de datos a travs del rbol de
decisiones

4. DESARROLLO
Qu es y para qu sirve laminera de datos?
La minera de datos (Data Mining en ingls) es un rea
relativamente nueva y prometedora, se puede definir como el
proceso de descubrir la informacin procesable de conjuntos
enormes de datos, encontrando patrones y tendencias; puede
hacer uso de estadstica, Aprendizaje Automtico (machine
learning), Inteligencia Artificial y tcnicas de visualizacin de
datos.

Funcionalidad
La minera de datos hace uso de programas de bsqueda para
detectar desviaciones, tendencias y patrones ocultos en los datos
histricos.
Los mineros son programados pensados y creados por el usuario,
en los que se emplean tcnicas deferentes para la explotacin de
los datos, tales como clsters, asociaciones, clasificacin,
visualizacin, redes neurales, algoritmos genticos, deteccin de
desviaciones, entre otros. Todos ellos requieren de base de datos
de tamao considerable para que puedan ser eficientes.
La funcin de los programas mineros es correlacionar los criterios
de seleccin y bsqueda con los datos histricos; si encuentran
algo interesante lo presentan al usuario como un hallazgo.
La funcionalidad de minera de datos:

a) Predictiva (p.ej. caso del banco, hospital): sirve para predecir


cosas.
i. En base a una clasificacin: por ejemplo si el cliente pagar
o no pagar, o el tipo de dolencia que puede tener un
paciente.
ii. En base a una regresin: por ejemplo calcular el tiempo
previsible que se emplear en corregir los errores de un
desarrollo de software.

b) Descriptiva:
i. Agrupamiento (clustering): clasificar individuos en grupos en
base a sus caractersticas. Por ejemplo, clasificar pacientes del
hospital en base a los datos de sus analticas.
ii. Reglas de asociacin: conocer cmo se relacionan los datos
o campos. Por ejemplo conocer en el hipermercado que un
cliente que compra leche muy probablemente comprar
tambin pan.
iii. Secuenciacin: intentar predecir el valor de una variable en
funcin del tiempo. Por ejemplo la demanda de energa
elctrica.

Campos de aplicacin

La minera de datos tiene muchos campos de aplicacin pues


puede ser til en prcticamente todas las facetas de la actividad
humana. Vamos a indicar algunas cuestiones relevantes sobre la
posible aplicacin de la minera de datos:
a) La minera de datos tiene utilidad empresarial: las empresas
pueden optimizar procesos y mejorar sus productos y ventas
utilizando minera de datos.
b) Existen pocos especialistas o empresas especializadas en
minera de datos. Teniendo en cuenta su importancia, es un campo
de trabajo para emprendedores.
c) La minera de datos es una disciplina que se est desarrollando
cada vez con mayores capacidades gracias al avance en
tecnologa y a la cada vez ms alta capacidad de computacin de
los ordenadores. Constituye un campo amplio de investigacin en
el que cada vez trabajan ms investigadores y equipos de
investigacin.
3

Metodologa

Un trabajo de minera de datos podramos decir que tpicamente


consta de las siguientes partes:
1. Entendimiento del problema: se trata de hablar con el cliente,
conocer sus necesidades, conocer su negocio o actividad, conocer
qu datos relevantes tiene disponibles y cules seran necesarios
pero no estn disponibles, etc.
2. Entendimiento de los datos: hay que saber qu significan los
datos, si son continuos o discretos, qu tipo de valores toman,
qu utilidad futura pueden tener y saber si estn bien capturados
o no.
3. Preparacin de datos: se trata de reflexionar sobre cmo
guardar los datos. Tpicamente hablaremos de tablas con filas y
columnas, pero hay que ver cmo se organizan las tablas, cmo se
interrelacionan entre ellas, etc. En definitiva organizar los datos
para poder sacarles partido.
4. Modelamiento: una vez se tienen los datos organizados hay que
definir los algoritmos que se van a utilizar para tratar los datos.
Una vez tratados, los datos nos devolvern informacin til.
5. Evaluacin: los resultados obtenidos deben de ser sometidos a
comprobacin, verificar que estn libres de errores, ratificar que
son tiles para los objetivos perseguidos, etc.
6. Despliegue funcional-comercial: una vez se tiene automatizada
la captura y tratamiento de datos para obtener unos resultados, se
desarrollan herramientas, normalmente en forma de aplicaciones
informticas que permiten generar alertas, informes, estadsticas,
etc. que tienen una utilidad directa para la toma de decisiones y
sistema de informacin del cliente.

rbol de decisiones
El rbol de decisin es un diagrama que representan en forma
secuencial condiciones y acciones; muestra qu condiciones se
consideran en primer lugar, en segundo lugar y as sucesivamente.
Este mtodo permite mostrar la relacin que existe entre cada
condicin y el grupo de acciones permisibles asociado con ella.

Un rbol de decisin sirve para modelar funciones discretas, en las


que el objetivo es determinar el valor combinado de un conjunto
de variables, y basndose en el valor de cada una de ellas,
determinar la accin a ser tomada.

Los rboles de decisin son normalmente construidos a partir de la


descripcin de la narrativa de un problema. Ellos proveen una
visin grfica de la toma de decisin necesaria, especifican las
variables que son evaluadas, qu acciones deben ser tomadas y el
orden en la cual la toma de decisin ser efectuada. Cada vez que
se ejecuta un rbol de decisin, solo un camino ser seguido
dependiendo del valor actual de la variable evaluada.

Se recomienda el uso del rbol de decisin cuando el nmero de


acciones es pequeo y no son posibles todas las combinaciones.
Uso de rboles decisiones.

El desarrollo de rboles de decisin beneficiado analista en dos


formas. Primero que todo, la necesidad de describir condiciones y
acciones llevan a los analistas a identificar de manera formal las
decisiones que actualmente deben tomarse. De esta forma, es
difcil para ellos pasar por alto cualquier etapa del proceso de
decisin, sin importar que este dependa de variables cuantitativas
5

o cualitativas. Los rboles tambin obligan a los analistas a


considerar la consecuencia de las decisiones.
Se ha demostrado que los rboles de decisin son eficaces cuando
es necesario describir problemas con ms de una dimensin o
condicin. Tambin son tiles para identificar los requerimientos
de datos crticos que rodean al proceso de decisin, es decir, los
rboles indican los conjuntos de datos que la gerencia requiere
para formular decisiones o tomar acciones. El analista debe
identificar y elaborar una lista de todos los datos utilizados en el
proceso de decisin, aunque el rbol de decisin no muestra todo
los datos.

Si los rboles de decisin se construyen despus de completar el


anlisis de flujo de datos, entonces es posible que los datos
crticos se encuentren definidos en el diccionario de datos (el cual
describe los datos utilizados por el sistema y donde se emplean).
Si nicamente se usan rboles de decisiones, entonces el analista
debe tener la certeza de identificar con precisin cada dato
necesario para tomar la decisin.
Los rboles de decisin no siempre son la mejor herramienta para
el anlisis de decisiones. El rbol de decisiones de un sistema
complejo con muchas secuencias de pasos y combinaciones de
condiciones puede tener un tamao considerable. El gran nmero
de ramas que pertenecen a varias trayectorias constituye ms un
problema que una ayuda para el anlisis. En estos casos los
analistas corren el riesgo de no determinar qu polticas o
estrategias de la empresa son la gua para la toma de decisiones
especficas. Cuando aparecen estos problemas, entonces es
momento de considerar las tablas de decisin.

Instalacin WEKA (Centos y Windows)

1.

Para iniciar con la instalacin debemos primero descargarnos los


instaladores dependiendo a nuestro sistema operativo.

http://www.cs.waikato.ac.nz/ml/weka/
2. Una vez descargado el instalador para nuestro sistema operativo
respectivo ahora debemos asegurarnos de tener instalado tanto en
centos como en Windows el paquete jdk, mquina virtual java.
3. En centos deberemos dar permisos de ejecucin con el comando
chmod y despus solo bastara con ejecutar el archivo con extensin
.jar
4. En Windows una vez descargado el instalador lo ejecutamos, y se nos
abrir una ventana como la siguiente, daremos a next.

5. Aqu tendremos la licencia y daremos a I agree

6. Aqu daremos a next.

7. Y a instalar.

10

8. I listo se ha instalado de forma correcta en Windows

Aplicacin de minera de datos a travs del rbol


de Decisiones
Anlisis de acuerdo al nombre del producto
(campo nombre producto, campo cantidad de
11

productos vendidos en detalle factura, campo


precio unitario en detalle factura.
Para iniciar con el este anlisis debemos realizar la debida conexin con
nuestra base de datos postgres para ello debemos hacer lo siguiente.

1. Debemos descargarnos el JDBC de postgres el ms actualizado, y


colocarlo en el directorio de weka, y tambin tendremos que
descargar un archivo denominado DatabaseUtils el cual servir para
configurar la conexin debida con nuestra base de datos.

2. Configuraciones
2.1. En el archivo DatabaseUtils tendremos que modificar la siguiente
lnea el cual ira el nombre de la base de datos que vamos a utilizar.

2.2.

12

En el archivo Runweka.ini debemos agregar una siguiente


lnea, el cual es el directorio del driver que utilizaremos para la
conexin con postgres.

3. Una vez configurados estos archivos ya podemos iniciar Weka, y


hacemos clic en explorador y se nos abrir una ventana como la de a
continuacin.

4. Ahora tendremos seleccionar como vamos a abrir nuestra


informacin en mi caso, yo me conectare a una base de datos
denominada dwh_dbb_ventas que contiene informacin solicitada
para esta prctica, por lo tanto daremos clic en Open DB

5. Una vez aqu tendremos que colocar el URL especificando el nombre


de mi base de datos que voy a utilizar, a continuacin hacemos clic
en user para poder colocar usuario y contrasea con la cual l va
poder ingresar a nuestra gestor de base de datos y ms abajo
podremos colocar las sentencia de los datos que vamos a utilizar
para este anlisis.
13

6. Una vez hecho esto deberemos dar en el botn connect y en la


ventana informacin nos saldr un mensaje que la connecion fue
exitosa, luego daremos clic en execute para ejecutar nuestro
comando que colocamos y para terminar daremos en ok.

14

Al dar ok

15

Podemos observar los diferentes atributos que tiene nuestro registro,


y en la parte derecha podemos observar la cantidad de registros que
tiene un determinado atributo.

16

En la parte superior podemos cambiar los filtros segn su criterio.


Aqu podemos visualizar las grficas por separado

7. Ahora vamos a utilizar la pestaan de clasificacin


17

Ahora vamos a escoger el algoritmo que necesitamos utilizar para la


clasificacin en mis casi utilizare j48 ya que es muy gil que brinda
resultados precisos.

Luego en test options vamos a seleccionar use training set esto


quiere decir que el aprendizaje de Weka ser realizado por todos los
registros de Weka, y esto aprendizaje implementado en ellos mismos,
luego y ms abajo tendremos que escoger la variable base que por
defecto siempre ser el ltimo pero podemos modificarlo segn
nuestro criterio.
Ahora daremos clic en start

18

Una vez hecho esto se nos desplegara en la parte derecha de la


ventana, la informacin en la cual nos indica.
Aqu podemos observar la cantidad de instancia que hay, los
atributos el cual describe a continuacin.

Aqu nos indica un resumen del rbol generado.


En primera instancia nos indica los productos que tienen
cantidad_vendida menor o igual a 13 y los que son mayores a 13
19

En segunda instancia y con el criterio cantidad_vendida menor o igual


a 13, tenemos el precio unitario menor o igual a 11 y mayor a 11.
En resultados tenemos los productos que tienen un precio_unitario
menor o igual a 5 y mayor a 5 con los criterios precio_unitario<=11 y
cantidad_vendida <=13.
En otros resultados tenemos con precio unitario<=500 y >500 con
los criterios cantidad_vendida <=2 y mayor a 2 con un
precio_unitario de 11 y cantidad_vendida <=13.
Y ms abajo podemos observar el nmero de hojas, el tamao del
rbol.

20

Aqu podemos observar en porcentaje del error Y ACIERTOS que se


puede generar.

Es un diseo de tabla especfica que permite la visualizacin de la


ejecucin de un algoritmo, por lo general un aprendizaje supervisado.
Es una matriz de un clasificador de dos o ms clases. Contiene
informacin acerca de las clasificaciones actuales y predicciones
hechas por un sistema de clasificacin. La matriz es n por n, donde n
es el nmero de clases. Cada columna de la matriz representa los
21

casos que el algoritmo predijo, mientras que cada fila representa los
casos en una clase real.
Para hacer un debido anlisis de esta matriz debemos fijarnos en la
diagonal de aciertos, el cual es la diagonal principal de una matriz.
Podemos observar que la clasificacin de las instancias de es

Podemos observar que la clasificacin de las instancias esta de forma


correcta, ya que los valores de la diagonal principal son mayores a los
datos de confusin.
Entonces podemos decir que la matriz es confiable.
Para poder analizar ms a fondo podemos visualizarla de otra forma
solo debemos hacer clic derecho debajo de result list y hacer clic en
visualize tree y podemos observar una imagen como a continuacin.

22

23

Que productos son los ms posibles de venta


Para poder hacer este anlisis debemos tomar en cuenta los productos
que tengan una cantidad de venta mayor a las dems entonces
podemos observar en el rbol de decisiones que Beats es un producto
ms solicitado y por ende ser el ms posible de venta.
En segundo lugar ira BB z10 es el segundo producto con ms ventas.

5. CONCLUSIONES
En esta prctica hemos podido demostrar que la instalacin
de Weka de muy sencilla tanto en sus dos plataformas.

Hemos demostrado la gran utilidad que tiene esta


herramienta al aplicar minera de datos en base a los
criterios solicitados para esta prctica.

Se ha experimentado la facilidad de anlisis y estudio de


estos datos, para una posterior interpretacin.

Debemos mencionar que Weka es una herramienta


compleja ya que nos ofrece una diversidad de algoritmos
incluidos en Weka que se pueden utilizar segn su criterio,
en esta ocasin hemos utilizado el algoritmo J48 el cual es
una implementacin del algoritmo C45 que representa el
patrn de variables, para la construccin y aprendizaje del
rbol de decisin.

6. RECOMENDACIONES
En caso de no funcionar el driver para la conexin con
postgreSQL, lo que debemos hacer es a cerrar todas las
ventanas de Weka e iniciar de nuevo.

En la base de datos de PostgreSQl debemos asegurarnos


que los tipos de datos a analizar deben contener los tipos
de datos soportados por Weka.

Cuando descarguemos el driver de PostgreSQL o de


cualquier otro debemos asegurarnos que sea el ms actual
posible.

7. BIBLIOGRAFIA

24

https://msdn.microsoft.com/eses/library/bb510516%28v=sql.120%29.aspx
https://silvercorp.wordpress.com/2013/04/24/mineria-de-datosque-es-y-para-que-sirve/
http://www.aprenderaprogramar.com/index.php?
option=com_content&id=252:mineria-de-datos-data-mining-iquees-ipara-que-sirve-1o-parte-dv00105a&Itemid=164
http://www.monografias.com/trabajos14/basededatos/basededatos
.shtml#ixzz41DVHPGq6

25

Вам также может понравиться