Академический Документы
Профессиональный Документы
Культура Документы
Prohibida su reproduccin
ESTADSTICA MULTIVARIADA
Nancy Lacourly
(versin preliminar)
Ultima versin: 7 de julio de 2010
Documento de trabajo
1Mail: nlacourl@dim.uchile.cl
1
ndice general
ndice de figuras
1
1
4
4
8
13
14
Bibliografa
17
19
Indice analtico
21
ndice de figuras
1.1. Ejemplos de rboles
13
13
PREFACIO
La introduccin de las Probabilidades y Estadstica en la Enseanza Media no ha sido fcil para
los profesores de Matemtica. Es posible que la dificultad emane, precisamente, de una formacin
basada en la concepcin de la matemtica como una ciencia exacta, reducible en ltimo trmino
a la aplicacin de algoritmos.
La necesidad de una interdisciplinariedad en la formacin del profesor de la Enseanza Media
surgi hace algunos aos, dejando atrs el carcter terico y descontextualizado, para dejar lugar
a un conocimiento prctico y contextualizado. La estadstica puede permitir el encuentro de las
matemticas con otras disciplinas como la biologa o las ciencias sociales.
En la monografa Introduccin a la Estadstica 2 el lector descubri el pensamiento estadstico
y, a travs de muchas ilustraciones y ejemplos, los conceptos bsicos de la estadstica. En esta
monografa se refuerza los conceptos de la teora de tests de hiptesis entregando ms justificaciones
matemticas y nuevas distribuciones de probabilidad. Se centra la monografa en mtodos para
datos multivariados.
Si bien esta monografa es ms avanzada que la Introduccin a la Estadstica, tiene el mismo
espritu, prefiriendo explicar los conceptos de la estadstica y la interpretacin de los resultados
sobre las demostraciones matemticas de teoremas, que an si no son ausentes, pueden saltarlas
en una primera lectura. En el Captulo 1, presentamos el anlisis en componentes principales,
el mtodo ms simple y ms importante del anlisis descriptivo multivariado, que se basa en
resultados del Algebra Lineal. El Captulo 2 contiene la teora de tests estadsticos para medias
y proporciones basndose en el modelo Normal. Se presentan varias aplicaciones, en particular
para comparar ms de dos poblaciones (ANOVA). En el captulo 3 se presenta la regresin lineal
mltiple. En el captulo 4, se describe un mtodo de prediccin alternativo a la regresin lineal y al
ANOVA: los rboles de clasificacin y regresin (CART). Es un mtodo no lineal, que usa criterios
presentados en los dos captulos anteriores y permite una visualizacin del modelo, que lo hace
muy interesante.
Se sugiere bajar de Internet el sofware estadstico gratuito R que se encuentra en www.r-project.org/.
Hemos intercalado referencias histricas cuando eso nos pareci relevante, y agregado ejercicios de
autoevaluacin para ayudar a la comprensin del texto. La solucin de los ejercicios se encuentran
en anexo.
Por su ayuda en las varias fases de este libro, me gustara agradecer en especial a Lorena Cerda.
Por su ayuda en la elaboracin de los ejercicios, gracias a Andrs Iturriaga.
Agradezco a Juan Muoz, mi esposo, quien siempre me prest apoyo y sabe lo importante que ha
sido para m escribir este texto.
Finalmente, con una inmensa alegra, dedico este trabajo especialmente a mis hijos queridos.
Nancy Lacourly 2009
Captulo 1
Qu es un rbol de decisin?
En trminos generales, un rbol de decisin es el resultado grfico de un mtodo que permite tomar
buenas decisiones involucrando riesgos y costos. Utiliza un enfoque visual de agrupamientos de
datos mediante reglas fciles de entender. En nuestro caso, los miembros de los agrupamientos, que
son definidos a partir de valores de las variables explicativas, se construyen mediante segmentaciones
de la poblacin. Adems en cada grupo, se estudia las caractersticas de la variable respuesta. Si,
dentro cada grupo, la variable respuesta es homognea y, de un grupo a otro, toma valores diferentes,
podemos detectar un cierto efecto de las variables explicativas sobre la variable respuesta. Estas
variables explicativas, que identifican los miembros de los grupos, permitirn hacer predicciones de
la variable respuesta. Llamaremos variables de segmentacin a las variables explicativas.
El uso de rboles de decisin tuvo su origen en las ciencias sociales con los trabajos de J. Sonquist
y J. Morgan (1964) de la Universidad de Michigan y al programa AID (Automatic Interaction
Detection), que fue uno de los primeros mtodos de ajuste de los datos basados en rboles de
clasificacin.
En estadstica, Robert Kass (1980) introdujo un algoritmo recursivo de clasificacin no binario, llamado CHAID (Chi-square automatic interaction detection). Ms tarde, L. Breiman, J. Friedman,
1R es un sofware gratuito especializado en mtodos estadsticos. Se puede implementar la regresin mltiple o
el anlisis en componentes principales tambin. Se encuentra en www.r-project.org/
1
R. Olshen y C. Stone (1984) introdujeron un nuevo algoritmo para la construccin de arboles y los
aplicaron a problemas de regresin y clasificacin. El mtodo es conocido como CART (Classification and regression trees) por sus siglas en ingls. 2
El mtodo CART es parte de lo que se llama Data Mining o Minera de Datos que se puso de
moda en muchos tipos de instituciones y empresas. Por ejemplo, los registros de un banco contienen
muchas informaciones de sus clientes. Puede usarlas para determinar el perfil de los clientes morosos
y decidir si conceder o no un crdito a un nuevo solicitante. El Servicio de Impuestos Internos puede
tratar de caracterizar las empresas que hacen fraudes fiscales. El departamento de recursos humanos
de una multitienda puede examinar los procesos de contrataciones pasadas y determinar reglas de
decisin que har ms eficiente los procesos de contrataciones futuras.
Antes de presentar los criterios que permiten construir un rbol de decisin, describimos aqu los
elementos que lo componen, utilizando dos ejemplos simples. Dependiendo de la variable respuesta,
se distingue el rbol de regresin del rbol de clasificacin.
1.1.1. Descripcin de un rbol binario de regresin. En una zona agrcola se observa
la cosecha de 480 naranjos, junto con el fertilizante utilizado y el tipo de suelo donde fueron
plantados. Dos fertilizantes (F1 y F2) y dos tipos de suelo (S1 y S2) fueron considerados. Estas dos
variables son binarias. Queremos ver como el fertilizante y el suelo influyen sobre la cosecha de los
naranjos. El conjunto de los 480 naranjos pueden dividirse en 4 subgrupos o segmentos cruzando
los dos fertilizantes y los dos tipos de suelos. Podemos llegar a los 4 subgrupos en dos etapas. Se
divide primero en dos grupos de suelo y despus cada uno de estos dos grupos se divide en dos
grupos de fertilizantes (Figura 1.1(a)). Por otra parte, la cosecha tiene un rol distinto de las dos
otras variables. Se busca determinar si el fertilizante o el tipo de suelo influyen sobre la cosecha.
Se llama variable respuesta a la cosecha y variables explicativas o variables de segmentacin
al tipo de suelo y fertilizante.
El grfico muestra un rbol jerrquico, que es un conjunto de nodos. Si se lee de arriba hacia abajo,
la raz es el nodo superior, que contiene la totalidad de los 480 naranjos. La raz se divide en dos
nodos, llamados hijos, segn una regla de decisin, que corresponde a valores a una variable de
segmentacin, que es aqu el tipo de suelo. El nodo que contiene a los hijos se llama naturalmente
padre de estos. En el hijo de la izquierda se tiene todos los naranjos con el suelo S1 y en el
hijo de la derecha se tiene los naranjos con el suelo S2. Cada uno de estos dos nodos se divide a
su vez en dos nodos, uno con los naranjos con el fertilizante F1 y el otro con el fertilizante F2.
Los cuatro nodos obtenidos, que se llaman nodos terminales, contienen cada uno un solo tipo de
suelo y un solo tipo de fertilizante.
En general, los nodos se dividen en dos grupos segn una pregunta o variable de segmentacin y la
forma que usa la variable de segmentacin para dividir un grupo en dos subgrupos corresponde a
una regla de decisin. Para detectar si el fertilizante y el tipo de suelo tienen un efecto sobre la
cosecha de naranjas y si el efecto es combinado, se pone en evidencia las caractersticas de cosecha
de cada nodo: el tamao, que es la frecuencia de naranjos del nodo, la media y desviacin estndar
de la cosecha de los naranjos del nodo Se observa que en la primera segmentacin obtenida con
el suelo, no se observa una grande diferencia entre las medias de los dos grupos (141,4 y 149,3).
Podemos decir, a primera vista que el tipo de suelo no tiene efecto sobre la cosecha3. En los nodos
terminales obtenidos de la segmentacin del fertilizante, se observa diferencias ms importantes.
Nos preguntamos entonces, si cambiando el orden de las variables de segmentacin tendremos un
rbol que permite una mejor interpretacin.
2Casi al mismo tiempo el proceso de induccin mediante rboles de decisin comenz a ser usado en Machine
de las segmentaciones, mediante criterios de segmentacin, para obtener nodos con homogeneidad
dentro los nodos respecto de la variable respuesta y heterogeneidad entre los nodos.
En los dos ejemplos anteriores pudimos dividir fcilmente un grupo en dos subgrupos de manera
natural siendo que las variables de segmentacin que utilizamos (fertilizante, suelo, edad y NSE)
son binarias. Vemos como dividir un nodo en dos subgrupos con variable numericas o variable
nominal con ms de dos categoras.
1.2.
Tabla 1.1
Grupo1 Grupo 2
Caso 1
Caso 2
Caso 3
F1
F2
F3
F2 y F3
F1 y F3
F1 y F2
En el caso 2, por ejemplo, no se puede distinguir los fertilizantes F1 y F3. Sin embargo, en una
segmentacin posterior, se puede separar el grupo F1-F3 en dos un subgrupos, uno con F1 y el
otro con F2 (Figura 1.2(a)). En general, si la variable nominal tiene q categoras, se agrupan las
categoras en dos subgrupos excluyentes, que pueden subdividirse, a su vez, en dos subgrupos, etc..
1.2.2. Variable de segmentacin numrica. Supongamos que tomamos la edad de los
consumidores en aos en vez de las dos clases de edad J: Menor de 35 aos y A: Mayor o igual
a 35 aos en el ejemplo del prrafo 1.1.2. Para dividir un grupo en dos subgrupos con la edad en
aos, tenemos muchas posibilidades: Menor que u y Mayor que u , donde u toma los valores de
los distintos edades presentes en la muestra, por ejemplo, el corte es a 25 aos en vez de 35 para
el NSE ABC1 y 40 aos para el NSE C2-C3 (Paso del nivel (2) al nivel (3) en el rbol de la
Figura 1.2(b)).
1.3.
Vemos, que en el ejemplo del prrafo 1.1.1 con dos fertilizantes, podramos intercambiar el orden
de las variables de segmentaciones, suelo y fertilizante. En la Figura 1.3(a) se divide primero con
el tipo de suelo y despus con el tipo de fertilizante. En la Figura 1.3(b) se divide primero con el
tipo de fertilizante y despus con el tipo de suelo. Si queremos jerarquizar el efecto de las variables
de segmentacin, parecera que la segunda figura es la ms adecuada. En efecto, se observa no
solamente una mayor diferencia entre las medias de los dos grupos en la primera divisin, sino
tambin, una disminucin importante de las varianzas al interior de los subgrupos en la figura de
la derecha. Como podemos definir un criterio que permite elegir de manera automtica en que
orden usar las variables de segmentacin y con divisiones que produzcan subgrupos diferentes entre
s y que en sus interiores sean homogneos?
de las medias de los dos grupos de fertilizantes de manera mucho ms clara que para el
suelo. s
(b) Siguiendo la segmentacin en el rbol 1.3(b), tenemos que aplicar el criterio a los dos
nodos del nivel (2) (Figura 1.3(b)), definidos por el fertilizante F1 y el fertilizante F2.
Aqu no tenemos muchas alternativas, pues nos queda solamente el suelo como variable de
segmentacin. Sin embargo, nos preguntamos si conviene dejar el nivel (3) del rbol considerando que los dos coeficientes son pequeos (Tabla 1.3). A continuacin, estudiamos
criterios para no seguir dividiendo en subgrupos cuando no aporta nada para entender las
relaciones de las variables explicativas sobre la variable respuesta.
Tabla 1.2
Variable
p-valor
Suelo
480
15,26
1979,8
0,0077
3,71
0,054
Fertilizante
480
1624,3
1979,8
0,82
2184,0
0,000
Tabla 1.3
Variable
p-valor
Fertilizante F1
240
29,25
221,5
0,13
36,22
0,000
Fertilizante F2
240
5,78
489,5
0,012
2,84
0,093
Tabla 1.4
Variable
Tamao
Varianza intergrupo
Varianza total
p-valor
Raz
Suelo
720
16,75
2288,4
0,0073
5,3
0,022
Fertilizante (F1)-(F2+F3)
Fertilizante (F2)-(F1+F3)
Fertilizante (F3)-(F1+F2)
720
720
720
197,2
1845,0
835,9
2288,4
2288,4
2288,4
0,087
0,81
0,36
67,7
2988,2
413,2
0,000
0,000
0,000
0,012
2,84
0,093
0,06
0,74
29,45
170,7
0,000
0,000
0,13
36,22
0,000
0,05
12,58
0,000
Nodo F2
240
5,78
Nodo F1+F3
480
480
24,39
309,5
420,2
420,2
Nodo F1
240
28,3
489,5
221,4
Nodo F3
240
19,96
397,8
(b) Nivel (2)->(3): Se examina entonces los dos nodos que podramos colgar a la raz. En el
nodo formado de los naranjos con el fertilizante F2, es posible usar solamente el suelo.
Como no tiene competidor, lo nico que tenemos que considerar es el p-valor del ANOVA,
que aqu es mayor que 5 %. El nodo con el fertilizante F2 se determina como nodo terminal.
Para el otro nodo con los fertilizantes F1y F3, tenemos dos candidatos, dividir entre los
dos tipos de suelo o dividir entre los fertilizantes F1y F3. El suelo tiene un coeficiente
muy pequeo. Se elige dividir el nodo entre los fertilizantes F1 y F3, siendo el p-valor nulo.
(c) [Nivel (3)->(4): Queda por ver si el nodo con el fertilizante F1 y el nodo con el fertilizante F3 pueden dividirse con el tipo de suelo. Los dos p-valores son nulos. Aplicamos las
segmentaciones con el suelo. Los 4 nodos obtenidos en el nivel (4) son terminales, pues
no hay ms divisiones posibles. Junto con el nodo terminal del nivel (2) tenemos 5 nodos
terminales marcados en amarillo (Figura 1.4(b)).
1.3.3. Prediccin. Un vez podado el rbol, concluimos que se puede hacer una particin de
los 760 naranjos en 5 grupos perfectamente identificados por el tipo de suelo y el fertilizante. Los
5 grupos tienen naranjos con cosecha diferentes entre s, y al interior de cada grupo, los naranjos
tienen cosechas parecidas. Adems podemos decir que las cosechas de los naranjos tratados con
fertilizante F2 no depende del tipo de suelo.
Finalmente, se puede usar fcilmente estos resultados para hacer predicciones de la cosecha de
nuevos naranjos usando las medias y desviaciones estndares. Por ejemplo, se espera que un naranjo
con un suelo S1 y el fertilizante F1 tendr en promedio una cosecha de 99,6 kg. Como toda
prediccin es sujeto a errores, podemos construir un intervalo de confianza ([7]) para la cosecha
esperada del naranjo. Para un nivel de confianza de 95 % obtenemos el intervalo:
4, 9
4, 9
, 99, 6 + 1, 96
] = [98, 72; 100, 48].
IC95 % = [99, 6 1, 96
120
120
1.4.
En el ejemplo del prrafo 1.1.2, la variable respuesta consumo es binaria. No podemos usar el
criterio para elegir las segmentaciones del rbol. Pero, examinamos las estadsticas de los nodos
cuando se divide la raz con la variable NSE (Figura 1.5(a)) o con la variable Edad (Figura 1.5(b)).
Observemos que cuando se divide la raz con el NSE (Figura (a)), hay poca diferencias entre los
dos grupos socioeconmicos. Tienen ambos valores cercanos al 50 % de Si y de NO como en la raz.
Si dividimos la raz con los dos grupos de edad (Figura (b)), se encuentra resultados distintos. En
el grupo J hay mucho ms SI que NO y en el grupo A es lo contrario. Esta segmentacin con
la edad es claramente ms interesante para el estudio de mercado de la empresa. Este comentario
nos va a llevar a un criterio de segmentacin.
El tamao del nodo a dividir no influye en la impureza, entonces, en vez de considerar las frecuencias
de SI y NO, consideramos los porcentajes o las proporciones de SI y NO. (Figura 1.6(b),
para el ejemplo 1.1.2).
Figura 1.6. Divisin con variables no binarias
Raz
NSE=ABC1
NSE=C2-C3
ndice G NSE
0,50 (900)
0,499 (420)
0,499 (480)
0,499
Nivel
Raz
Edad=J
Edad=A
ndice G Edad
0,50 (900)
0,408 (420)
0,430 (480)
0,4196
Nivel
Edad=J
NSE=ABC1
NSE=C2-C3
ndice G NSE
0,408 (420)
0,375 (200)
0,434 (220)
0,406
Nivel
Edad=A
NSE=ABC1
NSE=C2-C3
ndice G NSE
0,430 (480)
0,434 (220)
0,426 (260)
0,4296
Supongamos que usamos el rbol 1.6(b), entonces se espera que un sujeto J y ABC1 responde
SI, pues el grupo al cual pertenece tiene una proporcin 0,75 de SI. Podemos decir que tiene una
probabilidad de responder SI de 75 %. Es decir todos los sujetos de este grupo son clasificados
como SI. Sin embargo, todos no contestaron realmente SI. Para este nodo tenemos un 25 % de
errores de clasificacin.
Si aplicamos este criterio de clasificacin (respuesta SI o NO) a un nodo, podemos calcular
la tasa de errores de clasificacin, para las distintas segmentaciones posibles, pues conocemos sus
respuestas reales. Por ejemplo, desde la raz, con el NSE clasificaremos 200 de los 420 encuestados
con respuesta SI, siendo que respondieron NO (rbol 1.5(a)) y con la edad clasificaremos 120
de los 420 encuestados con respuesta SI, siendo que respondieron NO (rbol 1.5(b)). El NSE
tienen una tasa de error de 48 % y la edad una tasa de error de 30 %. Se usa la edad como primera
variable de segmentacin desde la raz como en el caso del ndice de Gini.
Lo ideal entonces es no tener errores de clasificacin de los observaciones de los nodos en SI
y NO. Calculamos las tasas de errores de clasificacin (Tabla 1.6). Nuevamente la edad es la
mejor eleccin de la raz (30 % contra 48 % del NSE). Seguimos la tabla usando como primera
segmentacin la edad. Notemos el decrecimiento de la tasa de errores cuando bajamos el rbol. El
rbol 1.5(a) tiene una tasa total de errores de 30 %.
Tabla 1.6. Tasas de errores de clasificacin
Nodo
NSE=ABC1
NSE=C2-C3
Total
Tasa NSE
Raz
200 (420)
0 230 (480)
430 (900)
48 %
Nodo
Edad=J
Edad=A
Total
Tasa Edad
Raz
120 (420)
150 (480)
270 (900)
30 %
Nodo
NSE=ABC1
NSE=C2-C3
Total
Tasa NSE
Edad=J
50 (200)
70 (220)
120 (420)
28,6 %
Nodo
NSE=ABC1
NSE=C2-C3
Total
Tasa NSE
Edad=A
70 (220)
80 (260)
150 (480)
31,25 %
11
La variable respuesta del ejemplo 1.1.2 es binaria. Veamos otro ejemplo, donde la variable respuesta
tiene ms de dos categoras.
Tomamos los datos famosos de R. Fisher, citados
en sus escritos. Son 4 mediciones de 3 especies de
iris (flores): Largo del ptalo (LP), ancho del ptalo (AP), largo del spalo (LS) y ancho del spalo
(AS). Se busca detectar cuales los las 4 mediciones discriminan mejor las 3 especies. Tenemos 4
variables de segmentacin numricas y una variable respuesta nominal con 3 categoras. En primer
lugar podemos visualizar las especies con boxplot
para cada una de las 4 mediciones. En la Figura
1.8(b) se muestra los boxplot del largo del ptalo.
Para dividir un nodo, se busca los cortes de las mediciones que producen nodos hijos los ms puros
posible. Tenemos que definir la impureza para el caso de una variable con tres categoras, que se
puede generalizar a un nmero cualquier de categoras. Los dos criterios definidos para una variable
respuesta binaria se generalizan fcilmente.
Si p1 (t), p2 (t) y p3 son las proporciones de las tres especies en el nodo t, p1 (t) + p2 (t) + p3 (t) = 1
el ndice de Gini del nodo t se define como:
(t) = p1 (t)p2 (t) + p1 (t)p3 (t)) + p2 (t)p3 (t)) = 1 p1 (t)2 p2 (t)2 p23 .
En un nodo t dado, se elige entonces, entre las posibles segmentaciones, aquella que produce la
mayor reduccin de impureza calculando la media ponderada de los ndices de Gini de sus dos
nodos hijos t1 y t2 :
n2
n1
(t1 ) +
(t2 )
G(t) =
n
n
donde n, n1 y n2 son los tamaos de los nodos t, t1 y t2 respectivamente.
No se puede presentar aqu todos los valores de los ndices de Gini . En efecto, se calcula para
cada corte posible de cada variable de segmentacin, y se toma el corte que minimiza la impureza.
Presentamos solamente el valor del ndice de Gini para el corte optimo (Tabla 1.7) y los valores
de los tres primeros niveles. Por ejemplo, para el largo del ptalo, la segmentacin que produce
dos nodos menos impuros se basa en el corte igual a 24,5 y para el ancho del ptalo, el corte es
en 10. Ambas variables tienen el valor de G igual a 0,333, que es ms pequeo que los valores de
los dos otros ndices G. Se puede elegir cualquiera de las dos variables. Elegimos para la primera
segmentacin el largo del spalo. Debajo de los dos nodos hijos de la raz buscamos una nueva
segmentacin. En primer lugar, vemos que no se puede dividir el nodo LP>24,5, puesto que es
un nodo puro. Consideramos entonces el otro nodo, para el cual la mejor divisin esta dada por
el ancho del spalo con un corte al valor 17. Observe que aparece nuevamente el largo del ptalo
que se puede dividir en el recorrido >=24.5. Por ejemplo, en el nivel (4) en el nodo izquierdo esta
definido por un largo de ptalo entre 24,5 y 49,5 y un ancho de ptalo menor que 17,5 (Figura
1.8(a)).
En la Tabla 1.8 se encuentran las tasas de errores de clasificacin asociadas al rbol 1.8(a). El
rbol 1.8(a) tiene una tasa de error total de 2 %. Si podemos el ltimo nivel, la tasa sube a 2,7 %,
que es muy poco. La ltima segmentacin parece forzada. Tiene un solo iris en uno de los nodos.
Tenemos que decidir donde podar el rbol.
Mostramos un grfico de dispersin del largo y del ancho del ptalo (Figuras 1.7). Las especies
fueron marcadas con diferentes colores. Las lineas corresponden a las diferentes segmentaciones
utilizadas. El grfico (a) corresponde al rbol con 3 errores de clasificacin cuando se poda el nivel
Raz
LS <54,5
LS >=54,5
ndice G de LS
0,667 (150)
0,232 (46)
0,582 (104)
0,439
Nivel
Raz
AS<33,5
AS>=33,5
ndice G de AS
0,667 (150)
0,619 (107)
0,374 (43)
0,540
Nivel
Raz
LP<24,5
LP>=24,5
ndice G de LP
0,667 (150)
0 (50)
0,50 (100)
0,333
Nivel
Raz
AP<10,5
AP>=10,5
ndice G de AP
0,667 (150)
0 (50)
0,50 (100)
0,333
Nivel
LP>=24,5
LP<47,5
LP>=47,5
ndice G de LP
0,50 (100)
0,049 (40)
0,300 (60)
0,126
Nivel
LP>=24,5
AP<17,5
AP>=17,5
ndice G de AP
0,50 (100)
0,142 (52)
0,080 (48)
0,110
Nivel
LP>=24,5
LS<61,5s
LS>=61,5
ndice G de LS
0,50 (100)
0,355 (39)
0,440 (61)
0,407
Nivel
LP>=24,5
AS<24,5
AS>=24,5
ndice G de AS
0,50 (100)
0,245 (7)
0,499 (93)
0,481
5 y el grfico (b) corresponde al rbol con 4 errores de clasificacin cuando se poda los niveles 4 y
5.
Tabla 1.8. Tasas de errores de clasificacin de los iris
Nodo
LP<24,5
NLP>=24,5
Total
Tasa LP
Raz
0 (50)
50 (100)
50 (150)
33,3 %
Nodo
AP <17,5
AP>=17,5
Total
Tasa LP>=24,5
LP>=24,5
5 (54)
1 (46)
6 (100)
6%
Nodo
LP<49,5
LP>=49,5
Total
AP<17,5
1 (48)
2 (6)
3 (54)
0,056 %
Nodo
AP<16,5
AP>=16,5
Total
LP<49,5
0 (47)
0 (1)
0 (48)
0,0 %
1.4.2. Criterios de poda. Como en el caso del rbol de regresin, a partir de ciertos niveles,
no se puede seguir agregando segmentaciones. Sin embargo, conviene en general parar antes de
agotar todas las segmentaciones, o sea podar el rbol. La variable respuesta siendo nominal, el
criterio del p-valor de la F deFisher no es aplicable.
13
Una vez construido el rbol, se van eliminando ramas. Se puede seleccionar el rbol que tenga la
menor tasa de errores de clasificacin aplicando el mtodo de validacin cruzada, que consiste en
aplicar el algoritmo CART sobre un subconjunto de datos, llamados conjunto de entrenamiento.
Del rbol obtenido sobre este conjunto de entrenamiento se clasifican el restante de los datos. De
estas ltimas clasificaciones se obtiene un tasa de errores de clasificacin.
Figura 1.8. rbol de los iris
1.5.
Resumen de la terminologa
1.6.
Ejercicios
Ejercicio 1.1. Clasifique los casos siguientes en rbol de regresin o rbol de clasificacin y
especifique el tipo de variables de segmentacin que se utilizan.
(a) Un cardilogo estudia la posibilidad que sobreviven ms de 30 das pacientes que ingresan
con un ataque de corazn en un hospital a partir de la presin arterial, el pulso, la edad y
si es su primer ataque.
(b) El Banco Central hace un estudio para predecir la bancarrota de una empresa en funcin
de indicadores econmicos.
(c) Un nutricionista quiere modelar con CART la relacin entre el ndice de masa corporal
(IMC) y la edad y el genero.
(d) El departamento de estudios de mercados de una tienda de artefactos electrnicos busca
anticipar cual ser el perfil de las personas susceptible de comprar su nuevo televisor LCD.
Con este propsito, hace una encuesta a una muestra aleatoria de 800 personas preguntando
no solamente si compraron o no un televisor de la gama anterior, sino tambin, su edad,
su genero y si su ingreso es menor que 1.500.000 pesos o ms.
(e) El fisco busca detectar patrones de contribuyentes que permiten distinguir entre las declaraciones de impuestos legtimas de las fraudulentas con el objeto de desarrollar as
mecanismos para tomar medidas rpidas frente a ellas.
(f) Con el objeto de detectar cuanto antes aquellos clientes que puedan estar pensando en
rescindir sus contratos para, posiblemente, pasarse a la competencia, un banco encarga
un estudio de patrones de comportamiento de clientes actuales y pasados. Estos patrones
sern una ayuda a determinar el perfil de los clientes los ms proclives a darse de baja. El
banco podr hacer promociones especiales, etc., a los clientes con este perfil con el objetivo
ltimo de retenerlos.
(g) El departamento de recursos humanos de una empresa recopila informaciones sobre sus
empleados para identificar las caractersticas de sus empleados de mayor xito. Los datos
considerados se relacionan con los esfuerzos de sus empleados y los resultados obtenidos
por stos. La informacin obtenida puede ayudar a la contratacin de personal a futuro.
Ejercicio 1.2. Se aplica un modelo CART a los datos de la figura adjunta, que tiene dos variables
de segmentacin X1 y X2 y una variable respuesta binaria (Rojo y Azul).
(a) Separe con tres lneas horizontales y/o verticales los dos grupos Rojo y Azul de manera
a minimizar la tasa de errores de clasificacin.
(b) Construye el rbol de clasificacin asociado.
(c) Calcule los coeficientes de Gini del rbol obtenido en (b).
(d) Clasifique una nueva observacin con X1 = 8 y X2 = 14. D la probabilidad de equivocarse.
15
Ejercicio 1.3. Se quiere construir un modelo CART a los datos de la figura adjunta, que tiene
dos variables de segmentacin X1 y X2 y una variable respuesta con tres categoras (Rojo, Azul
y Verde) (Figura adjunta).
(a) Separe con tres lneas horizontales y/o verticales los dos grupos Rojo y Azul de manera
a formar grupos de tal manera que se minimice la tasa de errores de clasificacin.
(b) Construye el rbol de clasificacin asociado.
(c) Clasifique una nueva observacin con X1 = 16 y X2 = 16. D la probabilidad de equivocarse.
(d) Clasifique una nueva observacin con X1 = 5 y X2 = 5. D la probabilidad de equivocarse.
(e) Se poda el rbol de nivel. Clasifique nuevamente la observacin con X1 = 5 y X2 = 5. D
la nueva probabilidad de equivocarse.
Ejercicio 1.4. En un estudio de la PSU de Matemtica del 2009, se obtiene las estadsticas por
dependencia y genero de la Regin Metropolitana (Tablas 1.9 1.10).
(a) Cmo se calcula el coeficiente de las tablas?
(b) Cul es la primera segmentacin de la raz que optimiza (Tabla 1.9)? Justifique.
(c) En la Tabla 1.10 estn los resultados de las segmentaciones que podran seguir. Construye
el rbol correspondiente.
(d) D el rbol final usando un criterio de poda de 5 %.
(e) Utilizando la Tabla 1.11 y el rbol (d), estime la PSU en matemtica de un alumno hombre
de un colegio Particular pagado. D un intervalo de confianza de 95 %.
(f) Utilizando la Tabla 1.11 y el rbol (d), estime la PSU en matemtica de una alumna de
un colegio municipal. D un intervalo de confianza de 95 %.
Tabla 1.9. Primera segmentacin
Variable
Tamao
Varianza intergrupo
Varianza total
p-valor
Raz
Genero
97.228
0,833
12.865
0,0000
6,29
0,012
Dependencia (Mu)-(PS+PP)
Dependencia (PS)-(Mu+PP)
Dependencia (PP)-(Mu+PS)
97.228
97.228
97.228
107,14
51,2
532,5
12.865
12.865
12.865
0,008
0,004
0,040
816,52
388,52
4.198
0,000
0,000
0,000
Tamao
Varianza intergrupo
Varianza total
14.866
5,177
13.500
82.362
82.362
0,144
12.122
12.122
0,0004
5,7
0,017
0,00001
0,002
0,98
134,7
0,32
0,000
0,000
0,04
0,84
0,000
13,44
0,064
Nodo MU
29.162
0,0162
12.026
p-valor
Nodo Mu+PS
Nodo PP
Nodo PS
53.200
0,78
12.143
PP
PS
MU
Total
Frecuencia
Media
Desv. Estndar
7720
559,9
116,3
23582
502,3
110,8
14537
492,1
109,5
45839
508,7
113,8
Frecuencia
Media
Desv. Estndar
7146
564,5
116,0
29618
500,5
109,7
14625
491,9
109,8
51389
506,9
113,1
Total
Frecuencia
Media
Desv. Estndar
14866
462,1
116,2
53200
501,3
110,2
29162
492,0
109,7
97228
507,8
113,4
Bibliografa
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
17
19
Indice analtico
rbol de clasificacin, 73
rbol de clasificacin y de regresin, 71
rbol de decisin, 71
rbol de regresin, 73
ndice de Gini, 79, 81
Intervalo de confianza, 62
Mnimos cuadrados, 53
Muestra aleatoria, 26
Parmetro, 25
Paradoja de Simpson, 64
Prediccin, 62
Razn de correlacin, 75
Regin crtica, 28
Regla de decisin, 27, 72
Residuos del modelo, 55
Tabla ANOVA, 44
Tasa de errores de clasificacin, 80, 82
Test de hiptesis
Comparacin de dos medias en una poblacin, 39
Comparacin de medias en dos poblaciones, 38
Comparacin de varias medias en una poblacin,
41
Hiptesis alternativa, 26
Hiptesis nula, 26
Hiptesis unilateral y hiptesis bilateral, 36
Test para una proporcin, 37
ANOVA, 41
Test para una media, 32
Boxplot, 41
Boxpot, 40
CART
F de Fisher, 76
p-valor, 76
Regla de decisin, 72
Variable de segmentacin, 72
Variable respuesta, 72
Varianza intergrupos, 75
Varianza intragrupos, 75
Coeficiente de correlacin lineal
Anlisis en componentes principales, 7, 8, 10, 15
Coeficiente de correlacin mltiple, 57
Coeficiente de determinacin, 57
Valores muestrales, 25
Variable de segmentacin, 71
Variable explicativa, 53, 71
Variable respuesta, 53, 71
Varianza intergrupos, 43
Varianza intragrupos, 43
Distribucin
2 , 29
F-Fisher, 30
Normal, 27
t-Student, 30, 32
Ecuaciones normales , 55
Error
de Tipo I, 26
de Tipo II, 26, 34
Errores del model, 53
Estndarizacin de variables, 7
Estadstico, 25
Funcin de verosimilitud, 58
Impureza, 78
Indice, 3, 8, 10, 11
Calidad, 6
de corpulencia, 4
21