Академический Документы
Профессиональный Документы
Культура Документы
INTERPRETACIN, DIFUSIN
y USO DE MODELOS
Lageneral
fase de minera de datos construye un conjunto de modelos que explican de manera
los datos de entrenamiento. Normalmente, incluso despus de la evaluacin y
validacinpertinentes los modelos aprendidos no se pueden utilizar directamente, sino
quenecesitan una fase de refinamiento que permita concretar cul es el conocimiento que
aportany, en esa situacin, cmo se puede utilizar en la toma de decisin final. Este
captulose centra en la transformacin, difusin y aplicacin de los modelos generados
comoresultado de la fase de aprendizaje, dentro del proceso de extraccin de conocimiento.
En este captulo veremos cmo extraer reglas comprensibles a partir de modelos no
comprensibles,cmo exportados en formato estndar, como es el PMML, para integrados
enotrossistemas y aplicaciones, cmo se integran los modelos en la toma de decisiones, y
eldiseode campaas. Finalmente veremos brevemente el problema de la actualizacin de
modelosy de su uso para simulacin.
19.1 Introduccin
Enel Captulo 2 introdujimos el proceso de la extraccin de conocimiento, presentando
paraello,cada una de las fases de este proceso. En este proceso, seguramente la fase ms
importantees la correspondiente a la de minera de datos, fase en la que realmente se
produce el descubrimiento o extraccin de los patrones existentes en los datos. Sin
embargo,la realizacin de una buena fase de minera de datos puede ser intil si no se
aplicancorrectamente las dos siguientes fases: la fase de evaluacin / interpretacin y la
fasede difusin / uso.
La fase de evaluacin / interpretacin (vista en el Captulo 17) se encarga de medir la
calidadde los modelos aprendidos, as como de introducir tcnicas, como por ejemplo la
504 Introduccin a la Minera de Datos
Incomprensible
Primer
Datos de
entrenamiento
'"
..
.'
Modelo
.'(~~~~lo)
"1"'.
1\ '.
/
Primera Fase
~ Similar
semntcamente
comprensible
..
..
., Distribucin
..
Conjuntos de Primer ...
datos aleatorios modelo ...
sin etiquetar (Orculo) ...
. . , ..
.'" -. '. ..
A
...
Figura19.1.Esquemadel mtodoCMM.
Una ventaja muy importante de este mtodo es que se puede implementar de manera
sencilla. Incluso se puede realizar utilizando las interfaces o componentes que suministran
algunos de los paquetes de minera de datos. Por ejemplo, podemos utilizar la tcnica
CMM para extraer un conjunto de reglas comprensibles utilizando para ello el paquete
Clementine. Para un ejemplo del uso de esta tcnica en Clementine, se puede consultar
[Estruch et al. 2003a].
Figura 19.2. Visualizacin del rbol de decisin en MLC ++ mediante la herramienta MineSet.
Losrboles de decisin son, seguramente, los modelos que permiten una representacin
visualms clara gracias a la propia estructura en rbol de los modelos. Un rbol de
decisinpuede verse como un grafo parcialmente ordenado donde los nodos slo tienen
un padre. Dado que un rbol puede ser de gran tamao, muchas herramientas permiten
mostrarsegmentos parciales del rbol, empezando por las ramas superiores, y desplegar
laspartes que el usuario seleccione hasta llegar hasta las hojas. La Figura 19.2 muestra el
rbolde decisin que genera la herramienta Mineset (vase el Apndice A).
Las redes bayesianas representan el conocimiento cualitativo de un modelo mediante
un grafo dirigido acclico, por lo que su representacin grfica es directa. El grafo expresa
lasrelacionesde dependencia/independencia entre los diferentes atributos de un problema.
Enel Captulo 10 se trata con detenimiento las redes bayesianas. Un ejemplo de una red
bayesianapara los datos del archivo "Ingresos.d" (descrito en la Seccin 10.3, pgina 260)
lopodemosver en la Figura 19.3 (que es la misma Figura 10.7).
-.,
En esta red bayesiana podemos observar las relaciones directas e indirectas entre las
variables correspondientes al dominio utilizado. Entre ellas, por ejemplo, podemos
destacar las relaciones entre "Educacin", "Educacin-num", "Empleo" y "Tipo de
empleo" que se observan conectadas en la red resultante; tambin podemos observar el
camino existente entre las variables "Prdidas", "Ganancias" y la variable "Clase"
(Ingresos).
Aunque las reglas de asociacin no son directamente representables grficamente, s es
posible expresar mediante una representacin visual llamada malla las relaciones entre los
items o los conjuntos de items. Por ejemplo, Clementine proporciona este tipo de grfico.
Un ejemplo de una malla puede verse en la Figura 19.4 (que es la misma que la Figura 9.4).
Detalles sobre la interpretacin de estos grficos se puede encontrar en la Seccin 9.6.
(race]
Black
White "-, -,
u
" -,- '-
pncome ~Ievel]
FemaJe
MaJe
. .. .
.
11
.
.
.. .
.
.. 11
. .
. . .. . .
.
Figura 19.5. Representacin simplificada de un modelo con dos discriminadores lineales.
Una estrategia similar se puede adoptar en modelos de agrupamiento, pero en este casoen
vez de los modelos, se visualizan los centros de los grupos aprendidos. Un ejemplodeesta
representacin lo podemos ver en la Figura 19.6 (que es la misma que la Figura 16.8).
Captulo 19. Interpretacin, difusin y uso de modelos 509
.. .,, I,
" .. .
..'"
.... ....
... ~.. . ,
..",,...
,.....
/",,:: I.~:. ti
'
.... o .. "
. ..
.... i'
..
~'
....
" "
...0
...
o '
~. ,
..... .....
\
, o I
o
"
,'o,
~,...:
,'t.' ,. o ''', ,
, .
... o '
"
. ,,,
.:.
...
t.. .
...,,~/
'." ...
o '\1--u-'--'-' O"~,
," . ... . "
,~,,/,
.... .
L__,
:
"
~,
-'
..
...
-~-:
...
,",,
~ .. .0 ..
. .....
o
. .'o, ...
"---"~,
,
.,'," ... .
I ..
"
o " ", oQ
,
, ,,
,
,,
.. : . . ..
\
"
,'.... ..
... . ",,'',,'..... ..
..jJ, : ,,/--,~....
.......... < ..~ ..'""..
,~,' .'....... ,~ '
o ,,
.....
.O::.
...
-..,' ;'
~
j.,
-, ,
...
...<V'..
I ,
~ "
.... '--
',-'
,
/-...
. '(,
'
...~ :..
'-
--'-- .... I
... ...
'
/'-,. :, "', ..
' "
... ....
,
e.. 11
.......
I
. h' ..'..
.~...
,,
..
','// ....
I
. ..~..
. ... "",.,-"",.
,---,<~:::..
.. \
\
;
. .... .. ",
\'
\
,,
,
11
Figura 19.6. Ejemplo de evolucin de los prototipos y grupos formados con el mtodo K medias.
Eneste caso podemos ver la evolucin de los grupos formados por el algoritmo K medias
(vasela Seccin 16.2.2) dependiendo del nmero de iteraciones. En las dos ltimas
representaciones la restriccin es el nmero de dimensiones; cuando el nmero de
dimensiones (atributos) es mayor que tres, estas representaciones no son posibles
directamente.
Por otra parte, dado que los mtodos jerrquicos de agrupamiento (vase la Seccin
16.2.3)se basan en la construccin de un rbol, se puede representar este rbol en un
grfico llamado dendograma. La Figura 19.7 (que es la misma que la Figura 16.10)
representa un dendograma.
abcdefghij
a b e d e 9 k
<DataFieldname="temperature" optype="continuous"/>
<DataFieldname="humidity" optype="continuous"/>
<DataFieldname="windy" optype="categorical"
>
<Valuevalue="true"/>
<Valuevalue="false"/>
</DataField>
<DataFieldname="outlook" optype="categorical"
>
<Valuevalue="sunny"/>
<Valuevalue="overcast"/>
<Valuevalue="rain"/>
</DataField>
<DataFieldname="whatldo" optype="categorical"
>
<Valuevalue="willplay"/>
<Valuevalue="may play"/>
<Valuevalue="no play"/>
</DataField>
</DataDictionary>
<TreeModelmodeIName="golfing" functionName="classification">
<MiningSchema>
<MiningField
name="temperature"/>
<MiningField
name="humidity"/>
<MiningField
name="windy"/>
<MiningField
name="outlook"/>
<MiningField
name="whatldo" usageType="predicted"/>
</MiningSchema>
<Nodescore="will
play">
<True/>
<Nodescore="willplay">
<SimplePredicate
field="outlook"operator-"equal"
value="sunny"/>
<Nodescore="willplay">
<CompoundPredicate booleanOperator-"and">
<SimplePredicate field="temperature"
operator-"lessThan" value="gO"/>
<SimplePredicate field="temperature"
operator="greaterThan" value="50"/>
</CompoundPredicate>
<Nodescore="will play">
<SimplePredicatefield="humidity"
operator-"'essThan" value="SO"
/>
</Node>
<Nodescore="no play">
<SimplePredicatefield="humidity"
operator-"greaterOrEqual" value="SO" />
</Node>
</Node>
<Nodescore="no play">
<CompoundPredicate booleanOperator-"or"
>
<SimplePredicatefield="temperature"
operator="greaterOrEqual" value="gO"/>
<SimplePredicatefield="temperature"
operator-"lessOrEqual" value="50"
/>
</CompoundPredicate>
</Node>
</Node>
<Nodescore="may play">
512 Introduccin a la Minera de Datos
</Nade>
</Nade>
</TreeMadel>
</PMML>
...
514 Introduccin a la Minera de Datos
estadstico, almacenes de datos, OLAP, etc., han aadido tambin a esta lista componentes
basados en la minera de datos.
Normalmente, el tpico escenario para aplicar tcnicas de minera de datos para ayudar
en la toma de decisiones se sita en un contexto empresarial. Por ejemplo, si queremos
determinar a qu cliente debemos enviar propaganda de un determinado producto de
manera que se maximice el nmero de ventas con respecto al gasto en envo de publicidad.
El primer paso consiste en trasladar el problema al mbito de la minera de datos, es decir
generar un conjunto de datos con caractersticas de los clientes y su decisin con respecto a
la compra. Si somos capaces de encontrar este conjunto de datos, podemos emplear una
herramienta de aprendizaje para generar un modelo que nos prediga si un cliente
comprar el producto a partir de los datos del cliente. El siguiente paso consiste en
trasladar el modelo al mbito de la aplicacin, para que apoye al comercial o automatice la
decisin de enviar o no, propaganda a un determinado cliente.
Estimado
58Para ello es necesario que el modelo sea fcilmente comprensible, por ejemplo un rbol de decisin.
516 Introduccin a la Minera de Datos
del problema. Es decir, los datos de entrenamientos deben ser reales y representar al
mximo el problema a resolver. El modelo debe tener en cuenta el contexto de coste en el
cual se va a aplicar, y debe contemplar las dificultades que pueden tener los datos reales:
atributos faltantes, datos desfasados. Adems, es necesario que personas expertas en el
problema asesoren y confirmen que el conocimiento aprendido es vlido y til.
En cuanto a bibliografa recomendada para ampliar conocimientos sobre este tema,
podemos destacar el libro [Mladenic et al. 2003] que est centrado en la integracin de
minera de datos con la ayuda a la toma de decisiones, as como el Captulo 21 de [K1sgen
& Zytkow 2002].
predicha, sino una estimacin de la probabilidad de respuesta de ese cliente. Por ejemplo,
el "Restaurante To Canya" puede tener un valor 0,1 mientras que el "Playcenter Galaxy"
puede tener un valor de 0,85.
La informacin sobre las estimaciones de respuesta de los clientes puede ser utilizada
para la generacin del llamado grfico de respuesta acumulada. Estos grficos nos indican
qu porcentaje de las posibles respuestas vamos a obtener dependiendo del porcentaje de
envosque realicemos sobre la poblacin total. Para construir estos grficos se ordenan los
ejemplospor su ranking o prorrateo. A continuacin se realiza una suma acumulativa entre
losejemplos y se divide cada ejemplo por la suma total de probabilidades. Finalmente cada
ejemplose multiplica por 100. El proceso para diez ejemplos lo podemos ver en la siguiente
tabla:
la poblacin que recibe la propaganda, en este caso 3,68). En el grfico podemos ver dos
series:sin modelo y utilizando el modelo de prediccin de respuesta. Obviamente los I
resultados sin modelo corresponden a una seleccin al azar, por lo tanto si enviamos I
10por ciento de los clientes que comprarn el producto. Con el modelo de prediccin de I
respuesta se mejora considerablemente el resultado. Por ejemplo, enviando tan slo al 30 I
por ciento de los clientes con mayor ranking, alcanzaramos el 65 por ciento de las ventas I
I
totales.Cabe destacar que utilizando slo el grfico de respuesta acumulada es imposible
conocerla cantidad de ventas, ya que el grfico indica porcentaje pero no totales. La
estimacinde ventas se puede aproximar utilizando la suma de la probabilidad estimada
paralos clientes. Para el ejemplo que estamos viendo, las ventas estimadas seran 3,68.
Podemos plantear an mejor la campaa si conocemos algunos datos extra sobre los
costes del problema. En concreto, necesitamos determinar tres costes: el coste de
planificacinde la campaa, el coste de envo de publicidad por unidad y finalmente el
beneficiopor unidad vendida. El primer coste, coste de planificacin de la campaa, recoge
518 Introduccin a la Minera de Datos
todos los costes iniciales de la campaa independientemente del nmero de envos: coste
de diseo del folleto, estudio de mercado, etc. Con estos costes estimados, y un conjunto de
clientes prorrateados por el modelo de estimacin de respuesta, podemos realizar un
clculo sobre los costes o beneficios dependiendo del nmero de envos.
100%
90%
80%
70%
60%
-+- Sin modelo
50%
40%
-- Modelo
30%
20%
10%
0%
~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~
<::5 ,,<::5 ~ ";)<::5 ~ ~<::5 <0<::5 ,\<::5 <0<::5 q<::5 ,,<::5<::5
Por ltimo, es necesario remarcar que si no podemos estimar los costes asociados a la
campaa, podemos utilizar el anlisis ROe (vase la Seccin 17.2.2) que dado un conjunto
de clasificadores, permite seleccionar un subconjunto de clasificadores que tenga un
e
19.5.3 Simulacin
Vamos a introducir brevemente el uso de tcnicas de minera de datos para mejorar
modelos de simulacin de sistemas. La simulacin es un tipo de modelizacin por el que se
trata de representar la realidad de una manera simplificada. En muchos casos, las
simulaciones se llevan a cabo para conocer los efectos que supondra la introduccin de
ciertos cambios en el sistema.
Para que una simulacin obtenga resultados tiles debe representar con la mxima
precisin posible el sistema a modelizar. Es en este aspecto donde las tcnicas de minera
520 Introduccin a la Minera de Datos
de datos pueden ayudar, dado que existen muchos sistemas cuyo comportamiento es tan
complejo y conlleva tal cantidad de informacin, que sin la ayuda de tcnicas de
aprendizaje automtico, sera prcticamente imposible representar su comportamiento de
manera mnimamente fiable.
Las tcnicas de minera de datos pueden tambin aplicarse a modelos de simulacin ya
existentes con el fin de refinar su comportamiento de manera que reflejen mejor la realidad.
Por ejemplo, [Pyle 2003] cita el caso de una compaa de venta de materiales de los Estados
Unidos; esta empresa haba realizado un modelo de simulacin de ventas utilizando el
conocimiento y experiencia de sus empleados. Este modelo ayud a mejorar el diez por
ciento de las respuestas de la empresa a demandas de servicio por parte de los clientes de
la empresa. Sin embargo, el modelo presentaba todava algunas deficiencias, ya que en
algunos casos no predeca correctamente los acontecimientos. Con el fin de aumentar las
prestaciones del modelo de simulacin, se utiliz minera de datos para descubrir pautas
de comportamiento. Estas pautas fueron incorporadas al modelo, y gracias a ellas, se
pudieron descubrir varios problemas en el modelo de simulacin anterior. Esta correccin
del modelo permiti que se mejoraran cerca del 30 por ciento de las demandas.
Cabe resaltar que probablemente en el ejemplo anterior no se habran conseguido esas
altas cotas de efectividad en la simulacin sin la participacin en su construccin de las dos
partes: experiencia humana y tcnicas de minera de datos. La clave del xito para construir
un modelo de simulacin lo ms ajustado a la realidad estriba en la correcta combinacin
de ambas fuentes de conocimiento.
l
Captulo 19. Interpretacin, difusin y uso de modelos 521
I
I
I