Вы находитесь на странице: 1из 45

Extraccin de conocimiento en bases de datos

El descubrimiento de conocimiento en bases

de datos o KDD (Knowledge Discovery in Databases) es el proceso no trivial de indentificar patrones a partir de los datos

con las siguientes caractersticas:


Vlidos Novedosos

Potencialmente tiles
Comprensibles
1

Extraccin de conocimiento en bases de datos o KDD

La minera de datos se refiere a la aplicacin de mtodos de aprendizaje y estadsticos para la obtencin de patrones y modelos

Tcnicas de Minera de Datos


Analizaremos

Arboles de decisin
Reglas de clasificacin y asociacin

Algoritmos Genticos
Lgica Difusa Redes Neuronales

Tcnicas de Minera de Datos


Analizaremos

Arboles de decisin
Reglas de clasificacin y asociacin

Algoritmos Genticos
Lgica Difusa Redes Neuronales

Soft-Computing

Tcnicas de Minera de Datos


Analizaremos

Arboles de decisin
Reglas de clasificacin y asociacin Algoritmos Genticos

Difusa Lgica Caractersticas

Soft-Computing

Redes Neuronales

Manejan imprecisiones Toleran fallas en la informacin. Se adaptan a la informacin del entorno.


5

Tcnicas de Minera de Datos


Analizaremos

Algoritmos Genticos
Lgica Difusa

Redes Neuronales

Algoritmos Genticos
Fueron creados por John Holland en los aos

1970.
Son llamados as porque se inspiran en la

evolucin biolgica y su base genticomolecular.


Bsicamente son un mtodo de bsqueda y

optimizacin.

Algoritmos Genticos
Cmo funcionan?

Utilizan un proceso determinstico para alcanzar la solucin


Comienzan en un punto aleatorio. Utilizan una regla de transicin especificada previamente para indicar la direccin de bsqueda

Algoritmos Genticos

Algoritmos Genticos
Cmo funcionan? Estos algoritmos hacen evolucionar una poblacin de individuos sometindola a acciones semejantes a las que actan en la evolucin biolgica. Mutaciones y recombinaciones genticas. Seleccin de acuerdo con algn criterio (valor de aptitud o fitness), en funcin del cual se decide cules son los individuos ms adaptados, que sobreviven, y cules los menos aptos, que son descartados.
10

Bsqueda en un enfoque evolutivo

Poblacin Poblacin Individuos Inicial 1 2 3 seleccionados Generacin tras para (1 Generacin) mutaciones cruce y mutacin y cruces

11

Algoritmo Gentico Bsico


Iniciar poblacin Evaluar poblacin Mientras no se termine Seleccionar pares de padres Generar una nueva poblacin a partir de los padres Evaluar poblacin Fin
12

Algoritmos Genticos Ejemplos


Maximizacin de una funcin en 3D.
http://www.oursland.net/projects/PopulationExperiment/

13

Algoritmos Genticos Ejemplos


Travelling Salesman Problem:
http://www.eecs.wsu.edu/~cook/ai/lectures/applets/gatsp/TSP.html

14

Algoritmos Genticos Ejemplos


Problema de estacionamiento de un camin:

http://www.eecs.wsu.edu/~cook/ai/lectures/applets/gatd/gatd.html

15

Algoritmos Genticos Ejemplos


Caminantes virtuales:
http://www.eecs.wsu.edu/~cook/ai/lectures/applets/gaanim/environ.htm

16

Algoritmos Genticos Ejemplos


Criaturas virtuales Karl Sims
http://www.genarts.com/karl/evolved-virtual-creatures.html

Otros

SeekEnemyfull.avi
17

Algoritmo Gentico Bsico


t := 0; inicializar P(t); evaluar los individuos de P(t); mientras( la condicin de terminacin no se satisfaga ) t := t + 1; select_repro C(t) desde P(t-1); recombinar y mutar los individuos en C(t) formando C(t); evaluar los individuos en C(t); select_replace P(t) desde C(t) y P(t-1); fin mientras;
18

Note que la seleccin puede aplicarse para la reproduccin o el reemplazo.

Algoritmo Gentico
Su aplicacin implica determinar

Representacin gentica de las soluciones Creacin de la poblacin inicial Funcin de aptitud o fitness Operadores genticos de cruce y mutacin Valores de los parmetros

19

Ejemplo: maximizar la funcin f(x) = x2 sobre los enteros [0..31]


Valor de aptitud del individuo en la Generacin 1 Cromosoma Fenotiporesolucin (caracterstica ( (representacin 169 / 1170 externa ) * 100 del genotipo) observable) del problema
N 1 2 3 4 String 01101 11000 01000 10011 Total Valor X 13 24 8 19 Fitness X2 169 576 64 361 1170 % del total de fitness 14.4 49.2 5.5 30.9 100.0

Seleccin Proporcional

1 4

al valor del fitness

2
20

Ejemplo: maximizar la funcin f(x) = x2 sobre los enteros [0..31]


Obtencin de la prxima generacin

Accionar la ruleta dos veces para elegir dos individuos. Obtener dos hijos del par de padres seleccionados. Repetir el proceso hasta obtener tantos hijos como padres y reemplazar la vieja poblacin por la nueva.

21

Ejemplo: maximizar la funcin f(x) = x2 sobre los enteros [0..31]


Supngase que al accionar 4 veces la ruleta se obtienen los

siguientes resultados en el orden indicado: 2,1,4,2. Se aplicar crossover con probabilidad 0.8
PadreID 2 1 PadreID 4 2 Cromosoma 11000 4 01101 Cromosoma 10011 2 11000 11 | 000 11011 0110 | 1 Pto.cruce 10 | 011 01100 Hijos 10000 Pto.cruce 1100 | 0 Hijos 11001

Note que existe una probabilidad de 0.2 de que las parejas

pasen intactas.
Aplicar mutacin con probabilidad baja. Ej: 0.001
22

Ejemplo: maximizar la funcin f(x) = x2 sobre los enteros [0..31]


Generacin 2
N 1 2 3 4 String 11001 01100 10000 11011 Total Valor X 25 12 16 27 Fitness X2 625 144 256 729 1754 % del total de fitness 35.6 8.2 14.6 41.6 100.0

Repetir hasta que se cumpla la condicin de

finalizacin
23

Ejemplo: Hallar el mnimo de la funcin f(x) = x2 en [-10,50]


Long.cromosoma = 20
Prob.Crossover = 0.65 Prob.Mutacin = 0.001 c_max=2500 Fitness(x) = c_max - f(x) Reemplazo total de la

poblacin de padres por la de hijos. Probar con otras estrategias de reemplazo.


24

Ejemplo: Hallar el mnimo de la funcin f(x) = -x . sin(10 x) + 1 en [-2,1]


Long.cromosoma = 20 y c_max=3

25

Algoritmos Evolutivos para extraccin de conocimiento


Forma de evaluacin de las reglas

Algoritmos Evolutivos

Evalan la regla como un todo. Pueden analizar al conjunto de reglas como solucin del problema

Mtodos de bsqueda convencionales

Evalan el impacto de aadir o eliminar condiciones en una regla Ejemplo: rboles de decisin
26

Algoritmos Evolutivos para extraccin de conocimiento


Representacin

Cromosoma = Bases de Reglas (enfoque


Pittsburgh)

Cromosoma = Regla

La solucin es la poblacin final o un subconjunto (enfoque Michigan)


La solucin del AG es el mejor individuo y la solucin del problema se obtiene de sucesivas aplicaciones (enfoque IRL Iterative Rule Learning)
27

Algoritmos Evolutivos para extraccin de conocimiento


Eleccin del esquema de representacin

Cromosoma = Bases de Reglas


Elegido si es ms importante el funcionamiento del conjunto de reglas antes que la calidad de cada regla obtenida Los individuos tienen una longitud mayor y a veces variables. Incremento el costo computacional. Definicin de los operadores genticos.

28

Algoritmos Evolutivos para extraccin de conocimiento


Eleccin del esquema de representacin

Cromosoma = Regla
Individuos ms cortos. Esto simplifica los operadores genticos.

Dificultad en la evaluacin de la funcin de fitness.


Necesidad del uso de nichos para garantizar que la poblacin no converja al mismo individuo.

29

Codificacin de una nica regla


Forma genrica
Pueden El nmero contener de condiciones atributos nominales puede ser o variable numricos

Si <codic.1> y <codic.2> y y <condic.N> entonces <consecuente>


Si la regla es de clasificacin, contiene un nico atributo
Si la regla es de asociacin es como el antecedente
30

Ejemplo de codificacin entera de longitud variable para el antecedente de una regla

31

Ejemplo de codificacin entera de longitud fija para el antecedente de una regla

32

Ejemplo de codificacin binaria de longitud fija para el antecedente de una regla

33

Representacin de consecuente
Incluirlo en el cromosoma y evolucionarlo.

Asociar todos los individuos de la poblacin

con la misma clase y ejecutar el algoritmo tantas veces como clases haya.
Elegir determinsticamente la clase ms

adecuada para el antecedente

Ej: La clase que tenga ms representantes en el conjunto de ejemplos que verifiquen el antecedente
34

Ejemplo: Obtencin de reglas para la deteccin de cncer


Cant.de variables de entrada = 30 discretizadas en 5 y 7

intervalos (todas son numricas).


Salida : indica si el cncer es begino o no. Se realizaron 5 ejecuciones para cada clase. Cada ejecucin consta de 5000 evaluaciones de reglas. Funcin de fitness= media aritmtica del soporte y la

confianza de la regla representada en el cromosoma.


El proceso de reproduccin slo reemplaza los dos

peores individuos (reglas) por los dos hijos de los dos mejores.
El cruce es de dos puntos y mutacin uniforme.
35

Ejemplo: Obtencin de reglas para la deteccin de cncer


Interv.
5

Soporte
84,314

Confianza
96,166

Regla
SI (0 Ptos.cncavos medios < 0.024) Y (0 Radio <0.6) Y (0 Area < 110) entonces BENIGNO SI (1008 Area Mala < 1831) entonces MALIGNO SI (0 Area Mala < 78,571) Y (185 Area Mala < 772,857) entonces BENIGNO SI (21,428 Radio Malo < 26,071) entonces MALIGNO
36

51,415

97,321

7
7

89,356
33,491

94,379
100

Proceso de descubrimiento del conocimiento usando EPRules

37

Formato de las Reglas de Prediccin

38

Ejemplo de regla obtenida con EPRules


Si TIEMPO.TESTF_ADMINISTRACION-ALTA(0)=ALTO entonces ACIERTO.TESTF_ADMINSTRACION-ALTA(0) = NO (inters=0.51, Factor Confianza=0.79)

Esto permiti detectar que la pregunta 0 del test de administracin estaba redactada incorrectamente.
39

Ejemplo de regla obtenida con EPRules


Si NIVEL.EMULADORES_PROGRAMAS-ALTA=EXPERTO entonces ACIERTO. EMULADORES_PROGRAMAS-ALTA(1) = NO (inters=0.69, Factor Confianza=0.73)

El concepto PROGRAMAS del tema EMULADORES es contestado incorrectamente por los alumnos del nivel EXPERTO.
40

Ejemplo de regla obtenida con EPRules


Si NIVEL.INTERFAZ_REDES-ALTA=EXPERTO entonces NIVEL.TCTIP_TELNET-MEDIA= EXPERTO (inters=0.57, Factor Confianza=0.75)

Los niveles obtenidos demuestran que los conceptos asociados estn relacionados
41

EPRules
Restricciones

42

EPRules
Resultados obtenidos

43

Resultados de aplicar AG para la obtencin de reglas


La cantidad de reglas descubiertas utilizando

AG es inferior a la cantidad de los mtodos convencionales

44

Resultados de aplicar AG para la obtencin de reglas


La cantidad de reglas exactas y frecuentes

es superior con el uso de AG.

45

Вам также может понравиться