Cart

Doc. de trabajo Fondef D05I-10211.
Prohibida su reproduccin
ESTADSTICA MULTIVARIADA
Nancy Lacourly
(versin preliminar)
Ultima versin: 7 de julio de 2010
Departamento de Ingeniera Matemtica

Centro de Modelamiento Matemtico (CNRS UMI 2807)
Facultad de Ciencias Fsicas y Matemticas
Universidad de Chile.
Proyecto FONDEF D05I-10211
Documento de trabajo
1Mail: nlacourl@dim.uchile.cl
1
Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

2
Este documento de trabajo ha sido realizado en el proyecto FONDEF D05I-10211

Herramientas para la formacin de profesores, el cual comenz en Marzo del
2007 y finaliza en Junio del 2009. El objetivo de este proyecto Fondef es
fortalecer la formacin inicial de profesores de matemticas de enseanza media,
en particular se creara una coleccin de monografas para estudiantes de
pedagoga en matemticas.
El presente documento es un borrador de la monografa que sera sujeto a
revisin y evaluacin por parte de expertos, profesores y estudiantes, con el
objeto de afianzar su pertinencia y calidad. Las modificaciones necesarias se
incorporarn durante el ao 2009. Este documento es slo para revisin y est
prohibida su reproduccin parcial o total.
ndice general
ndice de figuras
Captulo 1. RBOLES DE CLASIFICACIN Y DE REGRESIN

1.1. Qu es un rbol de decisin?
1.2. Divisin a partir de la variable de segmentacin
1.3. Construccin del rbol de regresin
1.4. Construccin del rbol de clasificacin
1.5. Resumen de la terminologa
1.6. Ejercicios
1
1
4
4
8
13
14
Bibliografa
17
Indice de nombres propios
19
Indice analtico
21
ndice de figuras
1.1. Ejemplos de rboles
1.2. Divisin con variables no binarias
1.3. rboles del ejemplo de la cosecha de naranjas
1.4. rboles podados
1.5. rboles del ejemplo de los consumidores
1.6. Divisin con variables no binarias
1.7. Grficos de dispersin de los iris
13
1.8. rbol de los iris
13
Las cifras no mienten, pero los mentirosos tambin usan cifras

Annimo
PREFACIO
La introduccin de las Probabilidades y Estadstica en la Enseanza Media no ha sido fcil para
los profesores de Matemtica. Es posible que la dificultad emane, precisamente, de una formacin
basada en la concepcin de la matemtica como una ciencia exacta, reducible en ltimo trmino
a la aplicacin de algoritmos.
La necesidad de una interdisciplinariedad en la formacin del profesor de la Enseanza Media
surgi hace algunos aos, dejando atrs el carcter terico y descontextualizado, para dejar lugar
a un conocimiento prctico y contextualizado. La estadstica puede permitir el encuentro de las
matemticas con otras disciplinas como la biologa o las ciencias sociales.
En la monografa Introduccin a la Estadstica 2 el lector descubri el pensamiento estadstico
y, a travs de muchas ilustraciones y ejemplos, los conceptos bsicos de la estadstica. En esta
monografa se refuerza los conceptos de la teora de tests de hiptesis entregando ms justificaciones
matemticas y nuevas distribuciones de probabilidad. Se centra la monografa en mtodos para
datos multivariados.
Si bien esta monografa es ms avanzada que la Introduccin a la Estadstica, tiene el mismo
espritu, prefiriendo explicar los conceptos de la estadstica y la interpretacin de los resultados
sobre las demostraciones matemticas de teoremas, que an si no son ausentes, pueden saltarlas
en una primera lectura. En el Captulo 1, presentamos el anlisis en componentes principales,
el mtodo ms simple y ms importante del anlisis descriptivo multivariado, que se basa en
resultados del Algebra Lineal. El Captulo 2 contiene la teora de tests estadsticos para medias
y proporciones basndose en el modelo Normal. Se presentan varias aplicaciones, en particular
para comparar ms de dos poblaciones (ANOVA). En el captulo 3 se presenta la regresin lineal
mltiple. En el captulo 4, se describe un mtodo de prediccin alternativo a la regresin lineal y al
ANOVA: los rboles de clasificacin y regresin (CART). Es un mtodo no lineal, que usa criterios
presentados en los dos captulos anteriores y permite una visualizacin del modelo, que lo hace
muy interesante.
Se sugiere bajar de Internet el sofware estadstico gratuito R que se encuentra en www.r-project.org/.
Hemos intercalado referencias histricas cuando eso nos pareci relevante, y agregado ejercicios de
autoevaluacin para ayudar a la comprensin del texto. La solucin de los ejercicios se encuentran
en anexo.
Por su ayuda en las varias fases de este libro, me gustara agradecer en especial a Lorena Cerda.
Por su ayuda en la elaboracin de los ejercicios, gracias a Andrs Iturriaga.
Agradezco a Juan Muoz, mi esposo, quien siempre me prest apoyo y sabe lo importante que ha
sido para m escribir este texto.
Finalmente, con una inmensa alegra, dedico este trabajo especialmente a mis hijos queridos.
Nancy Lacourly 2009
2N. Lacourly, Introduccin a la Estadstica, Editorial JC. Sez, Santiago, 2009.
Captulo 1
RBOLES DE CLASIFICACIN Y DE REGRESIN

Los rboles de clasificacin y de regresin (CART) tienen el mismo propsito que la regresin lineal,
en el sentido que busca relacionar una variable respuesta (a explicar) a partir de un conjunto de
variables explicativas. Pero difiere en varios aspectos:
Las relaciones son no lineales,
Visualiza las relaciones,
Puede usar cualquier tipo de variables, nominales o numricas, tanto para la variable
respuesta que las variables explicativas.
CART es un mtodo que, mediante un rbol de decisin, permite mostrar como se relacionan
variables explicativas con la variable respuesta. Define subgrupos de la poblacin en estudio a
partir de segmentaciones. Cada subgrupo define un perfil de sujetos de la poblacin utilizando las
variables explicativas de tal manera que estos sujetos toman valores parecidos sobre la variable
respuesta.
Los modelos subyacentes no son tan simples como un modelo de regresin lineal mltiple. Esta metodologa requiere un software ad-hoc, tal que R, que se puede bajar gratuitamente de
Internet1.
Presentamos en primer lugar los rboles de decisin mediante dos ejemplos. Despus definimos los
criterios de construccin de los rboles para seleccionar las variables explicativas ms importantes
que explican la variable respuesta.
1.1.
Qu es un rbol de decisin?
En trminos generales, un rbol de decisin es el resultado grfico de un mtodo que permite tomar
buenas decisiones involucrando riesgos y costos. Utiliza un enfoque visual de agrupamientos de
datos mediante reglas fciles de entender. En nuestro caso, los miembros de los agrupamientos, que
son definidos a partir de valores de las variables explicativas, se construyen mediante segmentaciones
de la poblacin. Adems en cada grupo, se estudia las caractersticas de la variable respuesta. Si,
dentro cada grupo, la variable respuesta es homognea y, de un grupo a otro, toma valores diferentes,
podemos detectar un cierto efecto de las variables explicativas sobre la variable respuesta. Estas
variables explicativas, que identifican los miembros de los grupos, permitirn hacer predicciones de
la variable respuesta. Llamaremos variables de segmentacin a las variables explicativas.
El uso de rboles de decisin tuvo su origen en las ciencias sociales con los trabajos de J. Sonquist
y J. Morgan (1964) de la Universidad de Michigan y al programa AID (Automatic Interaction
Detection), que fue uno de los primeros mtodos de ajuste de los datos basados en rboles de
clasificacin.
En estadstica, Robert Kass (1980) introdujo un algoritmo recursivo de clasificacin no binario, llamado CHAID (Chi-square automatic interaction detection). Ms tarde, L. Breiman, J. Friedman,
1R es un sofware gratuito especializado en mtodos estadsticos. Se puede implementar la regresin mltiple o
el anlisis en componentes principales tambin. Se encuentra en www.r-project.org/
1

2
1. RBOLES DE CLASIFICACIN Y DE REGRESIN
R. Olshen y C. Stone (1984) introdujeron un nuevo algoritmo para la construccin de arboles y los
aplicaron a problemas de regresin y clasificacin. El mtodo es conocido como CART (Classification and regression trees) por sus siglas en ingls. 2
El mtodo CART es parte de lo que se llama Data Mining o Minera de Datos que se puso de
moda en muchos tipos de instituciones y empresas. Por ejemplo, los registros de un banco contienen
muchas informaciones de sus clientes. Puede usarlas para determinar el perfil de los clientes morosos
y decidir si conceder o no un crdito a un nuevo solicitante. El Servicio de Impuestos Internos puede
tratar de caracterizar las empresas que hacen fraudes fiscales. El departamento de recursos humanos
de una multitienda puede examinar los procesos de contrataciones pasadas y determinar reglas de
decisin que har ms eficiente los procesos de contrataciones futuras.
Antes de presentar los criterios que permiten construir un rbol de decisin, describimos aqu los
elementos que lo componen, utilizando dos ejemplos simples. Dependiendo de la variable respuesta,
se distingue el rbol de regresin del rbol de clasificacin.
1.1.1. Descripcin de un rbol binario de regresin. En una zona agrcola se observa
la cosecha de 480 naranjos, junto con el fertilizante utilizado y el tipo de suelo donde fueron
plantados. Dos fertilizantes (F1 y F2) y dos tipos de suelo (S1 y S2) fueron considerados. Estas dos
variables son binarias. Queremos ver como el fertilizante y el suelo influyen sobre la cosecha de los
naranjos. El conjunto de los 480 naranjos pueden dividirse en 4 subgrupos o segmentos cruzando
los dos fertilizantes y los dos tipos de suelos. Podemos llegar a los 4 subgrupos en dos etapas. Se
divide primero en dos grupos de suelo y despus cada uno de estos dos grupos se divide en dos
grupos de fertilizantes (Figura 1.1(a)). Por otra parte, la cosecha tiene un rol distinto de las dos
otras variables. Se busca determinar si el fertilizante o el tipo de suelo influyen sobre la cosecha.
Se llama variable respuesta a la cosecha y variables explicativas o variables de segmentacin
al tipo de suelo y fertilizante.
El grfico muestra un rbol jerrquico, que es un conjunto de nodos. Si se lee de arriba hacia abajo,
la raz es el nodo superior, que contiene la totalidad de los 480 naranjos. La raz se divide en dos
nodos, llamados hijos, segn una regla de decisin, que corresponde a valores a una variable de
segmentacin, que es aqu el tipo de suelo. El nodo que contiene a los hijos se llama naturalmente
padre de estos. En el hijo de la izquierda se tiene todos los naranjos con el suelo S1 y en el
hijo de la derecha se tiene los naranjos con el suelo S2. Cada uno de estos dos nodos se divide a
su vez en dos nodos, uno con los naranjos con el fertilizante F1 y el otro con el fertilizante F2.
Los cuatro nodos obtenidos, que se llaman nodos terminales, contienen cada uno un solo tipo de
suelo y un solo tipo de fertilizante.
En general, los nodos se dividen en dos grupos segn una pregunta o variable de segmentacin y la
forma que usa la variable de segmentacin para dividir un grupo en dos subgrupos corresponde a
una regla de decisin. Para detectar si el fertilizante y el tipo de suelo tienen un efecto sobre la
cosecha de naranjas y si el efecto es combinado, se pone en evidencia las caractersticas de cosecha
de cada nodo: el tamao, que es la frecuencia de naranjos del nodo, la media y desviacin estndar
de la cosecha de los naranjos del nodo Se observa que en la primera segmentacin obtenida con
el suelo, no se observa una grande diferencia entre las medias de los dos grupos (141,4 y 149,3).
Podemos decir, a primera vista que el tipo de suelo no tiene efecto sobre la cosecha3. En los nodos
terminales obtenidos de la segmentacin del fertilizante, se observa diferencias ms importantes.
Nos preguntamos entonces, si cambiando el orden de las variables de segmentacin tendremos un
rbol que permite una mejor interpretacin.
2Casi al mismo tiempo el proceso de induccin mediante rboles de decisin comenz a ser usado en Machine
Learning en ciencias de la computacin y en Pattern Recognition en ingeniera elctrica.

3Podemos hacer un test de hiptesis de comparacin de media para comprobarlo.

1.1. QU ES UN RBOL DE DECISIN?
Figura 1.1. Ejemplos de rboles
Se habla de rbol de regresin por la naturaleza de la cosecha, la variable respuesta, que es

numrica. Ms adelante vamos a optimizar el orden de las variables de segmentacin de manera
a jerarquizar las variables de segmentacin en funcin de su impacto sobre la variable respuesta.
Eliminaremos tambin las segmentaciones que no muestra una diferencia sobre la variable respuesta
entre los dos grupos producidos.
1.1.2. Ejemplo de un rbol binario de clasificacin. Una empresa quiere determinar el
perfil de los consumidores de uno de sus productos, que llamamos P, para dirigir mejor su campaa
publicitaria. El departamento de estudios de mercados aplica entonces una encuesta a 900 personas
con tres preguntas:
(a) Consuma el producto P? La respuesta, que es SI o NO, define la variable Consumo.
(b) Nivel socio-economico? La respuesta, que es ABC1 o C2-C3, define la variable NSE.
(c) Clase de edad? La respuesta, que es J, si es menor de 35 aos o A si tiene al menos
35 aos, define la variable Edad.
Observamos que las respuestas a las tres preguntas son variables binarias, ya que tienen solamente
dos alternativas. Considerando el estudio, la variable Consumo es la variable respuesta. Es la
variable que quisiramos poder explicar a partir de la Edad y el NSE. Nuevamente tenemos 4
grupos posibles combinando las dos alternativas de la Edad y las dos alternativas del NSE y, por
el momento, podemos aplicar la segmentacin con una variable u otra. Usamos primero el NSE
(Figura 1.1(b)). Los nodos, raz y nodos terminales se definen como en el ejemplo anterior. Sin
embargo, las estadsticas del nodo a considerar son diferentes, pues la variable respuesta es binaria.
Examinando las frecuencias de las dos alternativas SI y NO de la variable Consumo en los
nodos, podemos determinar si existe un perfil de consumidores del producto P. Parecera que el
consumo del producto se relaciona con la la edad, pero que no es el caso del NSE.
Se habla de rbol de clasificacin , por la variable respuesta, que permite clasificar los consumidores
del producto P en dos grupos SI y NO.
Ms adelante mostremos casos un poco ms complejos, en particular un caso de clasificacin con una
variable respuesta con tres categoras. Previamente presentamos la manera de optimizar el orden

4
de las segmentaciones, mediante criterios de segmentacin, para obtener nodos con homogeneidad
dentro los nodos respecto de la variable respuesta y heterogeneidad entre los nodos.
En los dos ejemplos anteriores pudimos dividir fcilmente un grupo en dos subgrupos de manera
natural siendo que las variables de segmentacin que utilizamos (fertilizante, suelo, edad y NSE)
son binarias. Vemos como dividir un nodo en dos subgrupos con variable numericas o variable
nominal con ms de dos categoras.
1.2.
Divisin a partir de la variable de segmentacin
Se distinguen las variables de segmentacin nominales de las variables numricas.

1.2.1. Variable de segmentacin nominal. Supongamos ahora que tenemos tres fertilizantes (F1,F2 y F3) en vez de dos en el ejemplo del prrafo 1.1.1. Para dividir un grupo en dos
subgrupos a partir de la variable fertilizante, tenemos tres maneras de combinar las tres categoras:
Tabla 1.1
Grupo1 Grupo 2
Caso 1
Caso 2
Caso 3
F1
F2
F3
F2 y F3
F1 y F3
F1 y F2
En el caso 2, por ejemplo, no se puede distinguir los fertilizantes F1 y F3. Sin embargo, en una
segmentacin posterior, se puede separar el grupo F1-F3 en dos un subgrupos, uno con F1 y el
otro con F2 (Figura 1.2(a)). En general, si la variable nominal tiene q categoras, se agrupan las
categoras en dos subgrupos excluyentes, que pueden subdividirse, a su vez, en dos subgrupos, etc..
1.2.2. Variable de segmentacin numrica. Supongamos que tomamos la edad de los
consumidores en aos en vez de las dos clases de edad J: Menor de 35 aos y A: Mayor o igual
a 35 aos en el ejemplo del prrafo 1.1.2. Para dividir un grupo en dos subgrupos con la edad en
aos, tenemos muchas posibilidades: Menor que u y Mayor que u , donde u toma los valores de
los distintos edades presentes en la muestra, por ejemplo, el corte es a 25 aos en vez de 35 para
el NSE ABC1 y 40 aos para el NSE C2-C3 (Paso del nivel (2) al nivel (3) en el rbol de la
Figura 1.2(b)).
1.3.
Construccin del rbol de regresin
Vemos, que en el ejemplo del prrafo 1.1.1 con dos fertilizantes, podramos intercambiar el orden
de las variables de segmentaciones, suelo y fertilizante. En la Figura 1.3(a) se divide primero con
el tipo de suelo y despus con el tipo de fertilizante. En la Figura 1.3(b) se divide primero con el
tipo de fertilizante y despus con el tipo de suelo. Si queremos jerarquizar el efecto de las variables
de segmentacin, parecera que la segunda figura es la ms adecuada. En efecto, se observa no
solamente una mayor diferencia entre las medias de los dos grupos en la primera divisin, sino
tambin, una disminucin importante de las varianzas al interior de los subgrupos en la figura de
la derecha. Como podemos definir un criterio que permite elegir de manera automtica en que
orden usar las variables de segmentacin y con divisiones que produzcan subgrupos diferentes entre
s y que en sus interiores sean homogneos?

1.3. CONSTRUCCIN DEL RBOL DE REGRESIN
Figura 1.2. Divisin con variables no binarias
Figura 1.3. rboles del ejemplo de la cosecha de naranjas
1.3.1. Criterio de segmentacin. Acordamos en que el mtodo ANOVA, presentado en

el capitulo 2, definimos las varianzas intragrupos e intergrupos. El criterio natural que usamos es
el cociente
V arianza intergrupo
,
=
V arianza total
llamado razn de correlacin.
(a) Dado los valores de la cosecha tomados por los naranjos en la raz, se calcula para cada variable de segmentacin y sus posibles divisin en dos subgrupos, el cociente =
V arianza intergrupos
. En este ejemplo, para dividir los naranjos de la raz en dos subgrupos,
V arianza total
tenemos solamente dos situaciones a considerar dado que las dos variables de segmentacin
son binarias (Tabla 1.2). La diferencia entre los fertilizantes F1 y F2 es netamente mayor
que la diferencia entre los suelos S1 y S2 y ms an en relacin con la varianza total, que
es lo que muestra el coeficiente . Elegimos, entonces, dividir la raz segn el fertilizante.
Adems se calculo el valor de la F de Fisher del test ANOVA de comparacin de medias.
El p-valor es bastante menor en el caso del fertilizante que del suelo. Se rechaza la igualdad

6
de las medias de los dos grupos de fertilizantes de manera mucho ms clara que para el
suelo. s
(b) Siguiendo la segmentacin en el rbol 1.3(b), tenemos que aplicar el criterio a los dos
nodos del nivel (2) (Figura 1.3(b)), definidos por el fertilizante F1 y el fertilizante F2.
Aqu no tenemos muchas alternativas, pues nos queda solamente el suelo como variable de
segmentacin. Sin embargo, nos preguntamos si conviene dejar el nivel (3) del rbol considerando que los dos coeficientes son pequeos (Tabla 1.3). A continuacin, estudiamos
criterios para no seguir dividiendo en subgrupos cuando no aporta nada para entender las
relaciones de las variables explicativas sobre la variable respuesta.
Tabla 1.2
Variable
Tamao Varianza intergrupo Varianza total
p-valor
Suelo
480
15,26
1979,8
0,0077
3,71
0,054
Fertilizante
480
1624,3
1979,8
0,82
2184,0
0,000
Tabla 1.3
Variable
Tamao Varianza intergrupo Varianza total
p-valor
Fertilizante F1
240
29,25
221,5
0,13
36,22
0,000
Fertilizante F2
240
5,78
489,5
0,012
2,84
0,093
1.3.2. Criterios de poda. Cundo detener la segmentacin de un nodo en la construccin

del rbol de decisin? Obviamente, cuando no existen segmentaciones aplicable para todos los
ltimos nodos hijos creados del rbol. Ahora bien, cuando hay muchas variables de segmentacin y
varias divisiones binarias para cada uno, el rbol se pone muy grande y entonces se pone de difcil
interpretacin. Es intil recargar el rbol con muchos nodos y ramas, si algunos de estos no aportan
a la explicacin de la variable respuesta. Hay que buscar una manera de parar la segmentacin.
Usualmente se construye un rbol ms largo que necesario y se va eliminado nodos. Se habla de
poda del rbol.
Acabamos de ver que en la tabla anterior que, al nivel (2) del rbol 1.3(b), el p-valor de la F del
ANOVA de la cosecha con el factor suelo del grupo de fertilizante F2 es igual a 0, 093 (Tabla 1.3).
El suelo tiene un efecto poco significativo sobre la cosecha cuando el fertilizante es F2, mientras
que es significativo para el fertilizante F1. Por qu entonces no eliminar, o sea podar los dos nodos
colgando del fertilizante F2?
El criterio natural para podar el rbol es el p-valor del ANOVA que se usa en cada nodo para
decidir si seguir la segmentacin debajo del nodo. Se puede elegir, por ejemplo, un p-valor menor
que 5 %, como aplicamos aqu (Figura 1.4(a)).
Construyamos el rbol del ejemplo del prrafo 1.2.1. La Tabla 1.4 entrega el detalle del orden de
las segmentaciones y el criterio de poda con un p-valor de 5 %.
En esta tabla se denota (F1)-(F2+F3) la divisin que deja de un lado los naranjos tratados con
el fertilizante F1 y del otro los naranjos tratados con los fertilizantes F2 o F3. A partir de la tabla,
las decisiones se toman de la siguientes manera:
(a) Nivel (1) ->(2): A pesar que las cuatro segmentaciones posibles tienen un p-valor muy
pequeo, la segmentacin Fertilizante (F2)-(F1+F3) es la que tiene el coeficiente ms
grande. Se elige dividir con esta ltima.

1.3. CONSTRUCCIN DEL RBOL DE REGRESIN
Tabla 1.4
Variable
Tamao
Varianza intergrupo
Nivel (1) ->(2)
Varianza total
p-valor
Raz
Suelo
720
16,75
2288,4
0,0073
5,3
0,022
Fertilizante (F1)-(F2+F3)
720
720
720
197,2
1845,0
835,9
2288,4
2288,4
2288,4
0,087
0,81
0,36
67,7
2988,2
413,2
0,000
0,000
0,000
0,012
2,84
0,093
0,06
0,74
29,45
170,7
0,000
0,000
0,13
36,22
0,000
0,05
12,58
0,000
Nivel (2) ->(3)

Suelo
Nodo F2
240
5,78
Nivel (2) ->(3)

Suelo
Fertilizante (F1 y F3)
Nodo F1+F3
480
480
24,39
309,5
Nivel (3) ->(4)

Suelo
420,2
420,2
Nodo F1
240
28,3
Nivel (3) ->(4)

Suelo
489,5
221,4
Nodo F3
240
19,96
397,8
(b) Nivel (2)->(3): Se examina entonces los dos nodos que podramos colgar a la raz. En el
nodo formado de los naranjos con el fertilizante F2, es posible usar solamente el suelo.
Como no tiene competidor, lo nico que tenemos que considerar es el p-valor del ANOVA,
que aqu es mayor que 5 %. El nodo con el fertilizante F2 se determina como nodo terminal.
Para el otro nodo con los fertilizantes F1y F3, tenemos dos candidatos, dividir entre los
dos tipos de suelo o dividir entre los fertilizantes F1y F3. El suelo tiene un coeficiente
muy pequeo. Se elige dividir el nodo entre los fertilizantes F1 y F3, siendo el p-valor nulo.
(c) [Nivel (3)->(4): Queda por ver si el nodo con el fertilizante F1 y el nodo con el fertilizante F3 pueden dividirse con el tipo de suelo. Los dos p-valores son nulos. Aplicamos las
segmentaciones con el suelo. Los 4 nodos obtenidos en el nivel (4) son terminales, pues
no hay ms divisiones posibles. Junto con el nodo terminal del nivel (2) tenemos 5 nodos
terminales marcados en amarillo (Figura 1.4(b)).
Figura 1.4. rboles podados

8
1.3.3. Prediccin. Un vez podado el rbol, concluimos que se puede hacer una particin de
los 760 naranjos en 5 grupos perfectamente identificados por el tipo de suelo y el fertilizante. Los
5 grupos tienen naranjos con cosecha diferentes entre s, y al interior de cada grupo, los naranjos
tienen cosechas parecidas. Adems podemos decir que las cosechas de los naranjos tratados con
fertilizante F2 no depende del tipo de suelo.
Finalmente, se puede usar fcilmente estos resultados para hacer predicciones de la cosecha de
nuevos naranjos usando las medias y desviaciones estndares. Por ejemplo, se espera que un naranjo
con un suelo S1 y el fertilizante F1 tendr en promedio una cosecha de 99,6 kg. Como toda
prediccin es sujeto a errores, podemos construir un intervalo de confianza ([7]) para la cosecha
esperada del naranjo. Para un nivel de confianza de 95 % obtenemos el intervalo:
4, 9
4, 9
, 99, 6 + 1, 96
] = [98, 72; 100, 48].
IC95 % = [99, 6 1, 96
120
120
1.4.
Construccin del rbol de clasificacin
En el ejemplo del prrafo 1.1.2, la variable respuesta consumo es binaria. No podemos usar el
criterio para elegir las segmentaciones del rbol. Pero, examinamos las estadsticas de los nodos
cuando se divide la raz con la variable NSE (Figura 1.5(a)) o con la variable Edad (Figura 1.5(b)).
Observemos que cuando se divide la raz con el NSE (Figura (a)), hay poca diferencias entre los
dos grupos socioeconmicos. Tienen ambos valores cercanos al 50 % de Si y de NO como en la raz.
Si dividimos la raz con los dos grupos de edad (Figura (b)), se encuentra resultados distintos. En
el grupo J hay mucho ms SI que NO y en el grupo A es lo contrario. Esta segmentacin con
la edad es claramente ms interesante para el estudio de mercado de la empresa. Este comentario
nos va a llevar a un criterio de segmentacin.
Figura 1.5. rboles del ejemplo de los consumidores
1.4.1. Criterio de segmentacin. Para introducir un criterio, consideramos un caso ideal,

cuyas variables de segmentacin llamadas VAR1 y VAR2 son binarias (Figura 1.6(a)). En los nodos
terminales aparece una situacin extrema. Los nodos no tienen ningn NO o ningn SI. En este
caso, las variables VAR1 y VAR2 determinan perfectamente el perfil de los consumidores del
producto P. Los consumidores del producto tienen o bien el valor 1 en ambas variables o bien
tienen el valor 2 en ambas variables. Para estos nodos, se habla la pureza. Cuando hay NO
y SI en un nodo, es impuro. Buscaremos entonces segmentaciones para obtener los grupos con
el mnimo de impureza, o sea que los porcentajes de SI y NO en un nodo sean lo menos
balanceados posible.

1.4. CONSTRUCCIN DEL RBOL DE CLASIFICACIN
El tamao del nodo a dividir no influye en la impureza, entonces, en vez de considerar las frecuencias
de SI y NO, consideramos los porcentajes o las proporciones de SI y NO. (Figura 1.6(b),
para el ejemplo 1.1.2).
Figura 1.6. Divisin con variables no binarias
Se puede construir varios ndices de impureza. Definiremos dos. El ms utilizado es el ndice de

Gini4.
Examinamos el rbol del ejemplo 1.1.2 (Figura 1.6(b)). Si pN (t) y pS (t) son las proporciones de
SI y NO en el nodo t, pS (t) = 1 pN (t) y pS (t) pN (t) = pS (t)(1 pS (t)) toma el valor 0
cuando pS (t) es nulo o vale 1 y toma el valor mximo 0,25, si pS (t) = pN (t) = 0, 5. El ndice de
Gini del nodo t se define como:
(t) = pS (t)(1 pS (t)) + pN (t)(1 pN (t)) = 1 pS (t)2 pN (t)2 .
Por ejemplo, el nodo NSE=ABC1 tiene un ndice de Gini igual a: 1 0, 482 0, 522 = 0, 499 y su
nodo hijo NSE=ABC1 y EDAD=J tiene un ndice de Gini igual a: 1 0, 252 0, 752 = 0, 375.
El ndice del otro nodo hijo NSE=ABC1 y EDAD=A vale 1 0, 682 0, 322 = 0, 435. El nodo
padre es ms impuro que sus nodos hijos.
En un nodo t dado, se elige entonces, entre las posibles segmentaciones, aquella que produce la
mayor reduccin de impureza calculando la media ponderada de los ndices de Gini de sus dos
nodos hijos t1 y t2 :
n1
n2
G(t) =
(t1 ) +
(t2 )
n
n
donde n, n1 y n2 son los tamaos de los nodos t, t1 y t2 respectivamente.
En la tabla 1.5 se presentan los ndices de Gini y G obtenidos con los tamaos de los nodos entre
parentesis.
Desde la raz, los ndices G de la edad y el NSE son respectivamente 0,4196 y 0,499. Con el criterio
de Gini, la mejor variable de segmentacin desde la raz es la edad. En el nivel 2, se calcula el
ndice G para cada categora de la edad. Los ndices son menores que los anteriores.
Otro criterio, que se usa generalmente en la poda del rbol, se basa en los errores de clasificacin.
Conociendo la edad y el NSE de un nuevo sujeto, podemos predecir su respuesta es SI o NO.
4En economa se utiliza un ndice de Gini para medir la desigualdad de los ingresos de una poblacin.

10
Tabla 1.5. ndices de Gini

Nivel
Raz
NSE=ABC1
NSE=C2-C3
ndice G NSE
0,50 (900)
0,499 (420)
0,499 (480)
0,499
Nivel
Raz
Edad=J
Edad=A
ndice G Edad
0,50 (900)
0,408 (420)
0,430 (480)
0,4196
Nivel
Edad=J
NSE=ABC1
NSE=C2-C3
ndice G NSE
0,408 (420)
0,375 (200)
0,434 (220)
0,406
Nivel
Edad=A
NSE=ABC1
NSE=C2-C3
ndice G NSE
0,430 (480)
0,434 (220)
0,426 (260)
0,4296
Supongamos que usamos el rbol 1.6(b), entonces se espera que un sujeto J y ABC1 responde
SI, pues el grupo al cual pertenece tiene una proporcin 0,75 de SI. Podemos decir que tiene una
probabilidad de responder SI de 75 %. Es decir todos los sujetos de este grupo son clasificados
como SI. Sin embargo, todos no contestaron realmente SI. Para este nodo tenemos un 25 % de
errores de clasificacin.
Si aplicamos este criterio de clasificacin (respuesta SI o NO) a un nodo, podemos calcular
la tasa de errores de clasificacin, para las distintas segmentaciones posibles, pues conocemos sus
respuestas reales. Por ejemplo, desde la raz, con el NSE clasificaremos 200 de los 420 encuestados
con respuesta SI, siendo que respondieron NO (rbol 1.5(a)) y con la edad clasificaremos 120
de los 420 encuestados con respuesta SI, siendo que respondieron NO (rbol 1.5(b)). El NSE
tienen una tasa de error de 48 % y la edad una tasa de error de 30 %. Se usa la edad como primera
variable de segmentacin desde la raz como en el caso del ndice de Gini.
Lo ideal entonces es no tener errores de clasificacin de los observaciones de los nodos en SI
y NO. Calculamos las tasas de errores de clasificacin (Tabla 1.6). Nuevamente la edad es la
mejor eleccin de la raz (30 % contra 48 % del NSE). Seguimos la tabla usando como primera
segmentacin la edad. Notemos el decrecimiento de la tasa de errores cuando bajamos el rbol. El
rbol 1.5(a) tiene una tasa total de errores de 30 %.
Tabla 1.6. Tasas de errores de clasificacin
Nodo
NSE=ABC1
NSE=C2-C3
Total
Tasa NSE
Raz
200 (420)
0 230 (480)
430 (900)
48 %
Nodo
Edad=J
Edad=A
Total
Tasa Edad
Raz
120 (420)
150 (480)
270 (900)
30 %
Nodo
NSE=ABC1
NSE=C2-C3
Total
Tasa NSE
Edad=J
50 (200)
70 (220)
120 (420)
28,6 %
Nodo
NSE=ABC1
NSE=C2-C3
Total
Tasa NSE
Edad=A
70 (220)
80 (260)
150 (480)
31,25 %

11
La variable respuesta del ejemplo 1.1.2 es binaria. Veamos otro ejemplo, donde la variable respuesta
tiene ms de dos categoras.
Tomamos los datos famosos de R. Fisher, citados
en sus escritos. Son 4 mediciones de 3 especies de
iris (flores): Largo del ptalo (LP), ancho del ptalo (AP), largo del spalo (LS) y ancho del spalo
(AS). Se busca detectar cuales los las 4 mediciones discriminan mejor las 3 especies. Tenemos 4
variables de segmentacin numricas y una variable respuesta nominal con 3 categoras. En primer
lugar podemos visualizar las especies con boxplot
para cada una de las 4 mediciones. En la Figura
1.8(b) se muestra los boxplot del largo del ptalo.
Para dividir un nodo, se busca los cortes de las mediciones que producen nodos hijos los ms puros
posible. Tenemos que definir la impureza para el caso de una variable con tres categoras, que se
puede generalizar a un nmero cualquier de categoras. Los dos criterios definidos para una variable
respuesta binaria se generalizan fcilmente.
Si p1 (t), p2 (t) y p3 son las proporciones de las tres especies en el nodo t, p1 (t) + p2 (t) + p3 (t) = 1
el ndice de Gini del nodo t se define como:
(t) = p1 (t)p2 (t) + p1 (t)p3 (t)) + p2 (t)p3 (t)) = 1 p1 (t)2 p2 (t)2 p23 .
En un nodo t dado, se elige entonces, entre las posibles segmentaciones, aquella que produce la
mayor reduccin de impureza calculando la media ponderada de los ndices de Gini de sus dos
nodos hijos t1 y t2 :
n2
n1
(t1 ) +
(t2 )
G(t) =
n
n
donde n, n1 y n2 son los tamaos de los nodos t, t1 y t2 respectivamente.
No se puede presentar aqu todos los valores de los ndices de Gini . En efecto, se calcula para
cada corte posible de cada variable de segmentacin, y se toma el corte que minimiza la impureza.
Presentamos solamente el valor del ndice de Gini para el corte optimo (Tabla 1.7) y los valores
de los tres primeros niveles. Por ejemplo, para el largo del ptalo, la segmentacin que produce
dos nodos menos impuros se basa en el corte igual a 24,5 y para el ancho del ptalo, el corte es
en 10. Ambas variables tienen el valor de G igual a 0,333, que es ms pequeo que los valores de
los dos otros ndices G. Se puede elegir cualquiera de las dos variables. Elegimos para la primera
segmentacin el largo del spalo. Debajo de los dos nodos hijos de la raz buscamos una nueva
segmentacin. En primer lugar, vemos que no se puede dividir el nodo LP>24,5, puesto que es
un nodo puro. Consideramos entonces el otro nodo, para el cual la mejor divisin esta dada por
el ancho del spalo con un corte al valor 17. Observe que aparece nuevamente el largo del ptalo
que se puede dividir en el recorrido >=24.5. Por ejemplo, en el nivel (4) en el nodo izquierdo esta
definido por un largo de ptalo entre 24,5 y 49,5 y un ancho de ptalo menor que 17,5 (Figura
1.8(a)).
En la Tabla 1.8 se encuentran las tasas de errores de clasificacin asociadas al rbol 1.8(a). El
rbol 1.8(a) tiene una tasa de error total de 2 %. Si podemos el ltimo nivel, la tasa sube a 2,7 %,
que es muy poco. La ltima segmentacin parece forzada. Tiene un solo iris en uno de los nodos.
Tenemos que decidir donde podar el rbol.
Mostramos un grfico de dispersin del largo y del ancho del ptalo (Figuras 1.7). Las especies
fueron marcadas con diferentes colores. Las lineas corresponden a las diferentes segmentaciones
utilizadas. El grfico (a) corresponde al rbol con 3 errores de clasificacin cuando se poda el nivel

12
Tabla 1.7. ndices de Gini de los iris

Nivel
Raz
LS <54,5
LS >=54,5
ndice G de LS
0,667 (150)
0,232 (46)
0,582 (104)
0,439
Nivel
Raz
AS<33,5
AS>=33,5
ndice G de AS
0,667 (150)
0,619 (107)
0,374 (43)
0,540
Nivel
Raz
LP<24,5
LP>=24,5
ndice G de LP
0,667 (150)
0 (50)
0,50 (100)
0,333
Nivel
Raz
AP<10,5
AP>=10,5
ndice G de AP
0,667 (150)
0 (50)
0,50 (100)
0,333
Nivel
LP>=24,5
LP<47,5
LP>=47,5
ndice G de LP
0,50 (100)
0,049 (40)
0,300 (60)
0,126
Nivel
LP>=24,5
AP<17,5
AP>=17,5
ndice G de AP
0,50 (100)
0,142 (52)
0,080 (48)
0,110
Nivel
LP>=24,5
LS<61,5s
LS>=61,5
ndice G de LS
0,50 (100)
0,355 (39)
0,440 (61)
0,407
Nivel
LP>=24,5
AS<24,5
AS>=24,5
ndice G de AS
0,50 (100)
0,245 (7)
0,499 (93)
0,481
5 y el grfico (b) corresponde al rbol con 4 errores de clasificacin cuando se poda los niveles 4 y
5.
Tabla 1.8. Tasas de errores de clasificacin de los iris
Nodo
LP<24,5
NLP>=24,5
Total
Tasa LP
Raz
0 (50)
50 (100)
50 (150)
33,3 %
Nodo
AP <17,5
AP>=17,5
Total
Tasa LP>=24,5
LP>=24,5
5 (54)
1 (46)
6 (100)
6%
Nodo
LP<49,5
LP>=49,5
Total
Tasa LP>=24,5 y AP<17,5
AP<17,5
1 (48)
2 (6)
3 (54)
0,056 %
Nodo
AP<16,5
AP>=16,5
Total
Tasa 24, 549, 5 y AP<17,5
LP<49,5
0 (47)
0 (1)
0 (48)
0,0 %
1.4.2. Criterios de poda. Como en el caso del rbol de regresin, a partir de ciertos niveles,
no se puede seguir agregando segmentaciones. Sin embargo, conviene en general parar antes de
agotar todas las segmentaciones, o sea podar el rbol. La variable respuesta siendo nominal, el
criterio del p-valor de la F deFisher no es aplicable.

13
Figura 1.7. Grficos de dispersin de los iris
Una vez construido el rbol, se van eliminando ramas. Se puede seleccionar el rbol que tenga la
menor tasa de errores de clasificacin aplicando el mtodo de validacin cruzada, que consiste en
aplicar el algoritmo CART sobre un subconjunto de datos, llamados conjunto de entrenamiento.
Del rbol obtenido sobre este conjunto de entrenamiento se clasifican el restante de los datos. De
estas ltimas clasificaciones se obtiene un tasa de errores de clasificacin.
Figura 1.8. rbol de los iris
1.5.
Resumen de la terminologa
Variable respuesta: Variable que se busca

explicar a partir de otras variables.
Variable explicativa: Variable que influye sobre
una variable respuesta.
rbol de regresin: rbol de decisin cuya
variable respuesta es numrica.
rbol de clasificacin: rbol de decisin cuya
variable respuesta es nominal.
Raz del rbol: El nivel ms alto del rbol que
contiene todas las observaciones.
Nodo: Subconjunto de los datos definidos por
una o ms variables explicativas.
-Nodo terminal: Nodo que no se ha dividido.
Regla de decisin: Conjunto de valores de una

o ms variables explicativas que se eligen para
definir un subconjunto de datos.
Varianza intragrupo: Promedio de las varianzas
de una misma variable medida en varios grupos.
Varianza intergrupo: Varianza de los promedios
de una misma variable medida en varios grupos.
ndice de Gini: Criterio de segmentacin
basado en la impureza de los nodos.
Tasa de errores de clasificacin: Tasa de errores
obtenida clasificando observaciones en de un
rbol.

14
1.6.
Ejercicios
Ejercicio 1.1. Clasifique los casos siguientes en rbol de regresin o rbol de clasificacin y
especifique el tipo de variables de segmentacin que se utilizan.
(a) Un cardilogo estudia la posibilidad que sobreviven ms de 30 das pacientes que ingresan
con un ataque de corazn en un hospital a partir de la presin arterial, el pulso, la edad y
si es su primer ataque.
(b) El Banco Central hace un estudio para predecir la bancarrota de una empresa en funcin
de indicadores econmicos.
(c) Un nutricionista quiere modelar con CART la relacin entre el ndice de masa corporal
(IMC) y la edad y el genero.
(d) El departamento de estudios de mercados de una tienda de artefactos electrnicos busca
anticipar cual ser el perfil de las personas susceptible de comprar su nuevo televisor LCD.
Con este propsito, hace una encuesta a una muestra aleatoria de 800 personas preguntando
no solamente si compraron o no un televisor de la gama anterior, sino tambin, su edad,
su genero y si su ingreso es menor que 1.500.000 pesos o ms.
(e) El fisco busca detectar patrones de contribuyentes que permiten distinguir entre las declaraciones de impuestos legtimas de las fraudulentas con el objeto de desarrollar as
mecanismos para tomar medidas rpidas frente a ellas.
(f) Con el objeto de detectar cuanto antes aquellos clientes que puedan estar pensando en
rescindir sus contratos para, posiblemente, pasarse a la competencia, un banco encarga
un estudio de patrones de comportamiento de clientes actuales y pasados. Estos patrones
sern una ayuda a determinar el perfil de los clientes los ms proclives a darse de baja. El
banco podr hacer promociones especiales, etc., a los clientes con este perfil con el objetivo
ltimo de retenerlos.
(g) El departamento de recursos humanos de una empresa recopila informaciones sobre sus
empleados para identificar las caractersticas de sus empleados de mayor xito. Los datos
considerados se relacionan con los esfuerzos de sus empleados y los resultados obtenidos
por stos. La informacin obtenida puede ayudar a la contratacin de personal a futuro.
Ejercicio 1.2. Se aplica un modelo CART a los datos de la figura adjunta, que tiene dos variables
de segmentacin X1 y X2 y una variable respuesta binaria (Rojo y Azul).
(a) Separe con tres lneas horizontales y/o verticales los dos grupos Rojo y Azul de manera
a minimizar la tasa de errores de clasificacin.
(b) Construye el rbol de clasificacin asociado.
(c) Calcule los coeficientes de Gini del rbol obtenido en (b).
(d) Clasifique una nueva observacin con X1 = 8 y X2 = 14. D la probabilidad de equivocarse.

1.6. EJERCICIOS
15
Ejercicio 1.3. Se quiere construir un modelo CART a los datos de la figura adjunta, que tiene
dos variables de segmentacin X1 y X2 y una variable respuesta con tres categoras (Rojo, Azul
y Verde) (Figura adjunta).
(a) Separe con tres lneas horizontales y/o verticales los dos grupos Rojo y Azul de manera
a formar grupos de tal manera que se minimice la tasa de errores de clasificacin.
(b) Construye el rbol de clasificacin asociado.
(c) Clasifique una nueva observacin con X1 = 16 y X2 = 16. D la probabilidad de equivocarse.
(d) Clasifique una nueva observacin con X1 = 5 y X2 = 5. D la probabilidad de equivocarse.
(e) Se poda el rbol de nivel. Clasifique nuevamente la observacin con X1 = 5 y X2 = 5. D
la nueva probabilidad de equivocarse.
Ejercicio 1.4. En un estudio de la PSU de Matemtica del 2009, se obtiene las estadsticas por
dependencia y genero de la Regin Metropolitana (Tablas 1.9 1.10).
(a) Cmo se calcula el coeficiente de las tablas?
(b) Cul es la primera segmentacin de la raz que optimiza (Tabla 1.9)? Justifique.
(c) En la Tabla 1.10 estn los resultados de las segmentaciones que podran seguir. Construye
el rbol correspondiente.
(d) D el rbol final usando un criterio de poda de 5 %.
(e) Utilizando la Tabla 1.11 y el rbol (d), estime la PSU en matemtica de un alumno hombre
de un colegio Particular pagado. D un intervalo de confianza de 95 %.
(f) Utilizando la Tabla 1.11 y el rbol (d), estime la PSU en matemtica de una alumna de
un colegio municipal. D un intervalo de confianza de 95 %.
Tabla 1.9. Primera segmentacin
Variable
Tamao
Varianza intergrupo
Nivel (1) ->(2)
Varianza total
p-valor
Raz
Genero
97.228
0,833
12.865
0,0000
6,29
0,012
Dependencia (Mu)-(PS+PP)
Dependencia (PS)-(Mu+PP)
Dependencia (PP)-(Mu+PS)
97.228
97.228
97.228
107,14
51,2
532,5
12.865
12.865
12.865
0,008
0,004
0,040
816,52
388,52
4.198
0,000
0,000
0,000

16
Tabla 1.10. Segundas segmentaciones

Variable
Tamao
Varianza intergrupo
Varianza total
Nivel (2) ->(3)

Genero
14.866
5,177
13.500
82.362
82.362
0,144
12.122
12.122
0,0004
5,7
0,017
0,00001
0,002
0,98
134,7
0,32
0,000
0,000
0,04
0,84
0,000
13,44
0,064
Nodo MU
29.162
0,0162
12.026
Nivel (3) ->(4)

Genero
p-valor
Nodo Mu+PS
Nivel (3) ->(4)

Genero
Nodo PP
Nivel (2) ->(3)

Genero
Mu, PS
Nodo PS
53.200
0,78
12.143
Tabla 1.11. Primera segmentacin

Genero
PP
PS
MU
Total
Frecuencia
Media
Desv. Estndar
7720
559,9
116,3
23582
502,3
110,8
14537
492,1
109,5
45839
508,7
113,8
Frecuencia
Media
Desv. Estndar
7146
564,5
116,0
29618
500,5
109,7
14625
491,9
109,8
51389
506,9
113,1
Total
Frecuencia
Media
Desv. Estndar
14866
462,1
116,2
53200
501,3
110,2
29162
492,0
109,7
97228
507,8
113,4
Bibliografa
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
M. Aliaga, B. Gunderson, Interactive Statistics, Prentice Hall, 2002.

C. Batanero, J. Godino, Anlisis de datos y su didctica, Universidad de Granada, 2001
C. Batanero, Didctica de la Estadstica, Universidad de Granada, 2001.
R. Brook et al., The Fascination of Statistics, Marcel Dekker, 1986.
M. Cuesta, F. Herrero, http://www.psico.uniovi.es/Dpto_Psicologia/metodos/tutor.1/indice.html, Departamento de Psicologa, Universidad de Oviedo.
O. Gil, Excursiones por el lgebra Lineal, Santiago, Editorial JC. Sez, 2009.
N. Lacourly, Introduccin a la Estadstica, Editorial JC. Sez, Santiago, 2009.
M. Lladser, Variables Aleatorias y Simulacin Estocstica, Editorial JC. Sez, Santiago, 2009.
D. Moore, G. McCabe, Introduction to the Practice of Statistics, (3rd Ed) W H Freeman & Co, 1998.
A. Naiman, R. Rosenberg & G. Zirkel, Understanding Statistics, Mc Graw-Hill, 1996.
J. Newman, The World of Mathematics, Simon & Schuster, New York, 1956.
A.Osses, Anlisis numrico, Editorial JC. Sez, Santiago, 2009.
K. Pearson, On Lines and Planes of Closest Fit to Systems of Points in Space, Philosophical Magazine 2 (6):
559 - 572, 1901. http://stat.smmu.edu.cn/history/pearson1901.pdf.
P. Romagnoli, Probabilidades Doctas con discos y bolitas, Editorial JC. Sez, Santiago, 2009. s
B. Ycart, Curso por Internet, http://ljk.imag.fr/membres/Bernard.Ycart/emel/index.html.
G. U. Yule An Introduction to the theory of statistics, London, C. Griffin, 1922.
17
Indice de nombres propios

Breiman L., 72
Cuesta Marcelino, 2
Fisher Ronald, 30, 44
Friedman J., 72
Galton F., 51
Gauss C.F., 51, 54
Gil Omar, 6
Gosset William, 30
Herrero Francisco, 2
Kass R., 72
Lacourly Nancy, 2, 25, 27
Legendre A.M., 51
Lladser Manuel, 25, 27
Morgan J., 71
Olshen R., 72
Pearson K., 51
Pearson Karl, 2, 44
Romagnoli Pierre Paul, 25
Sonquist J., 71
Spearman Charles, 2
Stone C., 72
19
Indice analtico
rbol de clasificacin, 73
rbol de clasificacin y de regresin, 71
rbol de decisin, 71
rbol de regresin, 73
ndice de Gini, 79, 81
Intervalo de confianza, 62
Mnimos cuadrados, 53
Muestra aleatoria, 26
Parmetro, 25
Paradoja de Simpson, 64
Prediccin, 62
Anlisis en componentes principales, 1

Crculo de correlaciones, 15
Componente principal, 2, 1012
Grfico de dispersin, 3
Porcentaje de varianza conservada, 8, 12
Puntos suplementarios, 16
Anlisis exploratorio multivariado, 2
Anlisis Factorial, 2
Razn de correlacin, 75
Regin crtica, 28
Regla de decisin, 27, 72
Residuos del modelo, 55
Tabla ANOVA, 44
Tasa de errores de clasificacin, 80, 82
Test de hiptesis
Comparacin de dos medias en una poblacin, 39
Comparacin de medias en dos poblaciones, 38
Comparacin de varias medias en una poblacin,
41
Hiptesis alternativa, 26
Hiptesis nula, 26
Hiptesis unilateral y hiptesis bilateral, 36
Test para una proporcin, 37
ANOVA, 41
Test para una media, 32
Boxplot, 41
Boxpot, 40
CART
F de Fisher, 76
p-valor, 76
Regla de decisin, 72
Variable de segmentacin, 72
Variable respuesta, 72
Varianza intergrupos, 75
Varianza intragrupos, 75
Coeficiente de correlacin lineal
Anlisis en componentes principales, 7, 8, 10, 15
Coeficiente de correlacin mltiple, 57
Coeficiente de determinacin, 57
Valores muestrales, 25
Variable de segmentacin, 71
Variable explicativa, 53, 71
Variable respuesta, 53, 71
Varianza intergrupos, 43
Varianza intragrupos, 43
Distribucin
2 , 29
F-Fisher, 30
Normal, 27
t-Student, 30, 32
Ecuaciones normales , 55
Error
de Tipo I, 26
de Tipo II, 26, 34
Errores del model, 53
Estndarizacin de variables, 7
Estadstico, 25
Funcin de verosimilitud, 58
Impureza, 78
Indice, 3, 8, 10, 11
Calidad, 6
de corpulencia, 4
21

Cart

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Cart

Загружено:

Авторское право:

Доступные форматы

Doc. de trabajo Fondef D05I-10211.

Departamento de Ingeniera Matemtica

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

Este documento de trabajo ha sido realizado en el proyecto FONDEF D05I-10211

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

Captulo 1. RBOLES DE CLASIFICACIN Y DE REGRESIN

Indice de nombres propios

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

1.2. Divisin con variables no binarias

1.3. rboles del ejemplo de la cosecha de naranjas

1.4. rboles podados

1.5. rboles del ejemplo de los consumidores

1.6. Divisin con variables no binarias

1.7. Grficos de dispersin de los iris

1.8. rbol de los iris

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

Las cifras no mienten, pero los mentirosos tambin usan cifras

2N. Lacourly, Introduccin a la Estadstica, Editorial JC. Sez, Santiago, 2009.

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

RBOLES DE CLASIFICACIN Y DE REGRESIN

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

1. RBOLES DE CLASIFICACIN Y DE REGRESIN

Learning en ciencias de la computacin y en Pattern Recognition en ingeniera elctrica.

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

Figura 1.1. Ejemplos de rboles

Se habla de rbol de regresin por la naturaleza de la cosecha, la variable respuesta, que es

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

1. RBOLES DE CLASIFICACIN Y DE REGRESIN

Divisin a partir de la variable de segmentacin

Se distinguen las variables de segmentacin nominales de las variables numricas.

Construccin del rbol de regresin

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

Figura 1.2. Divisin con variables no binarias

Figura 1.3. rboles del ejemplo de la cosecha de naranjas

1.3.1. Criterio de segmentacin. Acordamos en que el mtodo ANOVA, presentado en

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

1. RBOLES DE CLASIFICACIN Y DE REGRESIN

Tamao Varianza intergrupo Varianza total

Tamao Varianza intergrupo Varianza total

1.3.2. Criterios de poda. Cundo detener la segmentacin de un nodo en la construccin

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

Nivel (1) ->(2)

Nivel (2) ->(3)

Nivel (2) ->(3)

Nivel (3) ->(4)

Nivel (3) ->(4)

Figura 1.4. rboles podados

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

1. RBOLES DE CLASIFICACIN Y DE REGRESIN

Construccin del rbol de clasificacin

Figura 1.5. rboles del ejemplo de los consumidores

1.4.1. Criterio de segmentacin. Para introducir un criterio, consideramos un caso ideal,

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

Se puede construir varios ndices de impureza. Definiremos dos. El ms utilizado es el ndice de

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

1. RBOLES DE CLASIFICACIN Y DE REGRESIN

Tabla 1.5. ndices de Gini

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

Doc. de trabajo Fondef D05I-10211. Prohibida su reproduccin

1. RBOLES DE CLASIFICACIN Y DE REGRESIN

Tabla 1.7. ndices de Gini de los iris

Tasa LP>=24,5 y AP<17,5

Tasa 24, 549, 5 y AP<17,5