Вы находитесь на странице: 1из 71

Universidad

de
Extremadura
Manual de Estadstica Multivariante
Grado en Estadstica
Jes us Montanero Fernandez
Introducci on
El presente volumen pretende constituir una introduccion a las tecnicas clasicas de la Es-
tadstica Multivariante, con breves incursiones en metodos m as novedosos. Consta de un captu-
lo inicial enfocado mayormente a la comprensi on de los modelos lineales univariante y multiva-
riante, que se tratan en los dos captulo siguientes. El estudio del modelo lineal es interesante de
por s para cualquier estadstico, pero en nuestro contexto debe entenderse mayormente como
una herramienta te orica que nos permite comprender mejor el problema de clasicacion, que
se afronta en el captulo 4. Se trata del tema m as interesante desde el punto de vista pr actico,
junto con el captulo 5, que aborda un problema genuinamente multivariante como es el de
simplicar observaciones multidimensionales con el n ultimo de entender datos complejos.
El ultimo captulo esta dedicado el an alisis de conglomerados, tecnica que puede estudiarse
tambien desde el punto de vista de la Minera de Datos.
La intenci on a la hora de de elaborar este manual ha sido exponer los contenidos de ma-
nera breve, pero indicando al lector referencias bibliogracas oportunas para profundizar en
el estudio de la Estadstica Multivariante. En particular, no se incluyen las demostraciones
de los resultados te oricos. Algunas son asequibles y se proponen como ejercicio; otras pueden
encontrarse en la bibliografa recomendada, por ejemplo en los manuales 56 y 59 de la UEx,
que pueden considerarse versiones extendidas del presente volumen. Tampoco pretende ser ex-
haustivo. De hecho, ciertas tecnicas que podemos catalogar de multivariantes, como el analisis
de componentes principales no lineal o el escalamiento multidimensional, no se mencionan. El
lector interesado puede encontrar informaci on sobre las mismas en Gi (1990) y Uriel y Ald as
(2005). Debe mencionarse tambien que, de todas las referencias indicadas en la bibliografa,
la que ha tenido una inuencia mas patente en la redaccion de este volumen ha sido Arnold
(1981).
Po ultimo, hacemos constar que los diferentes gracos y tablas de resultados que aparecen a
lo largo del volumen han sido obtenidos mediante la version 19 del programa estadstico SPSS,
que nos permite aplicar la mayor parte de las tecnicas aqu recogidas.
Abril de 2013

Indice general
1. Preliminares 7
1.1. Notaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Principales par ametros probabilsticos . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3. Regresi on lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4. Nociones basicas de

Algebra Lineal . . . . . . . . . . . . . . . . . . . . . . . . . 13
2. Modelo lineal multivariante 17
2.1. Normal multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2. Modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1. Distribuciones asociadas al modelo . . . . . . . . . . . . . . . . . . . . . 20
2.2.2. El modelo y ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3. Estimacion y contraste de hip otesis . . . . . . . . . . . . . . . . . . . . . 23
2.3. Modelo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.1. Distribuciones asociadas al modelo . . . . . . . . . . . . . . . . . . . . . 26
2.3.2. El modelo y ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.3. Estimacion y contraste de hip otesis . . . . . . . . . . . . . . . . . . . . . 28
3. Aplicaciones del modelo 31
3.1. Inferencia para una media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2. Inferencia para dos medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3. Manova de una va . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.1. Ejes discriminantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4. Regresi on multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4.1. Contraste total: an alisis de correlaci on canonica . . . . . . . . . . . . . . 37
3.4.2. Contrastes parciales: metodo Lambda de Wilks . . . . . . . . . . . . . . 38
3.5. An alisis de perles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.6. Ejemplo: manova para irisdata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4. Problema de clasicaci on 43
4.1. Planteamiento general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2. An alisis Discriminate Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.1. LDA y ejes discriminantes . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.2. Estrategia cuadr atica de Fisher . . . . . . . . . . . . . . . . . . . . . . . 49
4.3. Metodos alternativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3.1. Regresion logstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3.2. Vecino mas pr oximo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3.3.

Arbol de decisi on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5
6

INDICE GENERAL
5. Reducci on dimensional 55
5.1. Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2. An alisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2.1. Representaci on de obervaciones . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.2. Representaci on de variables . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.3. Representaci on conjunta de observaciones y variables . . . . . . . . . . . 60
5.2.4. Concepto de factor y rotaci on de ejes . . . . . . . . . . . . . . . . . . . . 62
5.2.5. Modelos basados en factores latentes . . . . . . . . . . . . . . . . . . . . 63
5.3. An alisis de Correspondencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4. Multicolinealidad y PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6. Analisis de conglomerados 67
6.1. Metodo jer arquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2. Metodo de k-medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.3. Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Captulo 1
Preliminares
En este captulo intentaremos jar la notaci on as como denir e interpretar conceptos
fundamentales en el contexto de la Estadstica Multivariante, muchos de los cuales deben ser
conocidos. Tambien llevaremos a cabo un breve repaso de

Algebra Lineal.
1.1. Notaci on
En general, solemos manejar en estadstica dos tipos de lenguajes: probabilstico y muestral.
El primero sirve para expresar las propiedades de la poblacion objeto del estudio, entendiendo
poblaci on en un sentido amplio; el segundo se utiliza para expresar las propiedades de una
muestra de n datos extrados, se supone que aleatoriamente, de dicha poblacion.
El marco formal en el que se desarrolla el estudio poblacional es el espacio L
2
de funciones
reales de cuadrado integrable, denidas sobre cierto espacio de probabilidad. Queremos decir
que las variables aleatorias que estudiemos se identicaran con elementos de L
2
. El estudio
muestral tiene lugar en el espacio eucldeo R
n
, es decir que, dada una variable aleatoria X L
2
,
una muestra aleatoria de tama no n de dicha variable se identicara con un vector X de R
n
,
cuyas componentes X
i
ser an las distintas mediciones de la misma. Observese que hemos utilizado
distintas fuentes de letra para denotar ambos conceptos, norma que intentaremos seguir en la
medida de lo posible.
En el contexto del analisis multivariante, X puede denotar con frecuencia un vector aleatorio
p-dimensional de componentes X[1], . . . , X[p]. En tal caso, una muestra aleatoria de tama no n
para dicho vector aleatorio se expresar a mediante la matriz X /
np
denida que descompone
as:
X = (X[1], . . . , X[p]) =
_
_
_
X
1
[1] . . . X
1
[p]
.
.
.
.
.
.
X
n
[1] . . . X
n
[p]
_
_
_
=
_
_
_
X

1
.
.
.
X

n
_
_
_
(1.1)
A ttulo de ejemplo, en el cuadro 1.1 de la pagina 16 se expone una muestra de tama no n = 45
de un vector aleatorio de dimension 7. Los datos corresponden a medidas de la motilidad de
espermatozoides en moruecos y fueron recogidos por J.A. Bravo en el CENSYRA de Badajoz.
L
2
forma parte de una categora de espacios que generalizan el concepto de espacio eucldeo
por estar tambien dotados de un producto interior. Concretamente, dados f, g L
2
, se dene
f, g = E
P
[f g] (1.2)
E
P
se entiende como el funcional que asigna a cada variable aleatoria su integral respecto a la
probabilidad P denida en el espacio de origen. El subndice P suele omitirse. En R
n
podemos
7
8 CAP

ITULO 1. PRELIMINARES
considerar el siguiente producto interior que supone una ligera transformaci on del conocido
producto escalar:
a, b =
1
n
n

i=1
a
i
b
i
(1.3)
En ambos espacios, los respectivos productos inducen sendas normas (al cuadrado), denidas
en general mediante |a|
2
= a, a y, en consecuencia, sendas metricas basadas en la norma al
cuadrado de las diferencias:
d
2
(X, Y ) = E[(X Y )
2
], X, Y L
2
(1.4)
d
2
n
(X, Y) =
1
n

i
(X
i
Y
i
)
2
, X, Y R
n
(1.5)
La segunda es, salvo una homotecia, la distancia eucldea al cuadrado en R
n
. El uso de estas
distancias para cuanticar errores se asocia al denominado metodo de Mnimos Cuadrados. Por
otra parte, del producto interior se deriva a su vez una noci on de ortogonalidad o perpendicu-
laridad. En R
n
decimos que a y b son ortogonales entre s cuando a, b = 0, en cuyo caso se
denota a b. En L
2
se dene de manera analoga.
Proyecci on ortogonal: La nocion de perpendicularidad se relacionara bajo ciertas condi-
ciones con los conceptos estadsticos de incorrelaci on y de independencia. Adem as, da pie a
considerar un tipo de funcion lineal denominada proyeccion ortogonal. Concretamente, si V es
un subespacio lineal cerrado del espacio E (E en nuestro caso puede tratarse de L
2
o de R
n
),
se dene P
V
como la aplicacion que asigna a cada elemento e del espacio el unico elemento de
V tal que e P
V
e V , en cuyo caso la distancia entre e y P
V
e es la mnima posible entre
e y un elemento de V . Si V
1
y V
2
son dos subespacios ortogonales de E, se verica que que
P
V
1
V
2
= P
V
1
+ P
V
2
. Ademas, |P
V
1
V
2
e|
2
= |P
V
1
e|
2
+ |P
V
2
e|
2
. Para V R
n
, dado que P
V
es
una aplicacion lineal se identicara con una matriz n n que se denotar a de la misma forma.
Ejercicio 1. Dado V R
m
, probar que tr(P
V
) = dimV , y que todos lo elementos de la
diagonal de P
V
pertenecen al intervalo [0, 1].
Figura 1.1: Proyecci on ortogonal

t
0

I
T
E
V
e
P
V
e
e P
V
e
1.2. PRINCIPALES PAR

AMETROS PROBABIL

ISTICOS 9
La coleccion de resultados teoricos conocida como Leyes de los Grandes N umeros establecen
una clara conexi on entre los espacios R
n
y L
2
, si entendemos X R
n
como una muestra aleato-
ria simple de una variable aleatoria X L
2
. Lo mas importante en esta secci on es resaltar que
todos las deniciones en L
2
expresadas en terminos del producto interior pueden traducirse au-
tom aticamente al lenguaje muestral e interpretarse de manera completamente an aloga. Por ello,
en este captulo nos centraremos principalmente en el estudio de los par ametros probabilsticos
o poblacionales, dejando como ejercicio para el lector el estudio paralelo en terminos muestra-
les. Por lo general seguiremos la costumbre habitual de expresar los par ametros probabilsticos
mediante letras griegas y sus homologos muestrales con notacion latina.
Si A es una familia de k elementos, bien sean de L
2
o de R
n
(en el segundo caso puede
identicarse con una matriz n k), se denota por A su expansion lineal. En el espacio L
2
se denotar a por 1 la variable aleatoria con valor constante 1, siendo entonces 1 el subespacio
unidimensional de las funciones constantes en L
2
; se denotar a por 1

su ortogonal, que es
un hiperplano de L
2
. An alogamente, se denotar a por 1
n
al vector de R
n
cuyas componentes
son todas 1, siendo por tanto 1
n
la recta de los vectores constantes y 1
n

su ortogonal, de
dimensi on (n 1).
1.2. Principales parametros probabilsticos
En esta seccion deniremos los par ametros relacionados con los momentos de orden uno y
dos. Con ello estamos centrando indirectamente nuestro estudio en el ambito de la distribuci on
normal y de las relaciones de tipo lineal.
Media: Primeramente denimos la media de una variable aleatoria X como su esperanza, es
decir, su integral respecto a la probabilidad considerada. Se denota por E[X] o por la letra ,
acompa nada si es necesario de un subndice aclaratorio. Si X es un vector p-dimensional, su
media es el vector p-dimensional compuesto por las respectivas medias, y se denotara de forma
identica.
Varianza: Dada una variable aleatoria X L
2
de media , se dene su varianza mediante
var[X] = E[(X )
2
] (1.6)
denot andose tambien por la letra
2
. La raz cuadrada positiva de la varianza se denomina
desviaci on tpica. Notese que la varianza est a bien denida al ser X de cuadrado integrable.
De hecho, puede expresarse mediate
var[X] = E[X
2
] E[X]
2
(1.7)
Ejercicio 2. Probar (1.7).
Ejercicio 3. Probar que = P
1
X.
Del ejercicio 3 se deduce que la media de una variable aleatoria X es la funcion constante
m as pr oxima en terminos de la distancia (1.4).
Ejercicio 4. An alogamente, probar que, dada una muestra X R
n
, si pretendemos reempla-
zarla por otra cuyos datos sean todos constantes y de manera que la distancia eucldea (1.5)
con la muestra original sea mnima, debemos tomar la media aritmetica x.
10 CAP

ITULO 1. PRELIMINARES
As pues se interpreta como la constante m as pr oxima a X. La diferencia X 1

se denomina variabilidad total de X. La distancia respecto a esa constante mas pr oxima es


precisamente la varianza:
var[X] = d
2
(X, E[X]) (1.8)
Lo mismo puede armarse en terminos muestrales acerca de la varianza muestral s
2
.
Varianza total: Si X es un vector aleatorio p-dimensional de componentes X[1], . . . , X[p],
se dene la varianza total de X mediante
var
T
[X] =
p

j=1
var
_
X[j]

(1.9)
Este par ametro puede interpretarse en terminos de la distancia d
2
[p]
denida en el espacio de
los p-vectores aleatorios con componentes en L
2
mediante
d
2
[p]
(X, Y ) = E
P
_
|X Y |
2
R
p

(1.10)
Ejercicio 5. Probar que E[X] es el vector aleatorio constante que mas se aproxima a X en
terminos de la distancia (1.10) y que, ademas,
var
T
[X] = d
2
[p]
(X, E[X]) (1.11)
Covarianza: Dado un vector aleatorio p-dimensional X, se dene la covarianza entre dos
componentes cualesquiera X[i] y X[j] del mismo como el producto interior de sus respectivas
variabilidades totales, es decir,
cov
_
X[i], X[j]

= X[i]
i
, X[j]
j
(1.12)
denot andose tambien por
ij
. Se trata de una generalizaci on de la varianza, pues
ii
=
2
i
, que
describe, seg un veremos en la pr oxima secci on, el grado de relacion lineal existente entre las
variabilidades totales, es decir, el grado de relaci on afn existente entre las variables originales.
Se dice que dos variables son incorreladas cuando su covarianza es nula, es decir, cuando sus
variabilidades totales son ortogonales.
Ejercicio 6. Probar que
i

j

ij

i

j
Coeciente de correlaci on: La desigualdad anterior invita a denir el denominado coe-
ciente de correlacion lineal

ij
=

ij

j
(1.13)
que tiene la virtud de ser adimensional y estar comprendido en todo caso entre -1 y 1. La
incorrelaci on se identica con
ij
= 0. Procuraremos utilizar los subndices s olo cuando sea
estrictamente necesario.
Dado un vector aleatorio p-dimensional X, las posibles covarianzas componen una matriz
simetrica que puede denirse mediante
Cov[X] = E[(X )(X )

] (1.14)
cuya diagonal est a compuesta por las diferentes varianzas. Suele denotarse por la letra . Lo
mismo ocurre con los coecientes de correlacion, que componen una matriz de correlaciones
p p simetrica cuya diagonal est a compuesta por unos.
1.3. REGRESI

ON LINEAL 11
Ejercicio 7. Por que es simetrica ? Por que la diagonal de la matriz de correlaciones
est a compuesta por unos?
Es muy frecuente contemplar transformaciones de un vector aleatorio del tipo

X = AX+b,
con A /
mp
y b R
m
.
Ejercicio 8. Probar que, en ese caso, el vector m-dimensional

X verica
E[

X] = AE[X] +b, Cov[

X] = ACov[

X]A

(1.15)
Tambien es frecuente considerar una particion del vector aleatorio p-dimensional X en dos
vectores X
1
y X
2
de dimensiones p
1
y p
2
, respectivamente, lo cual da lugar a su vez a particiones
obvias de la media y la matriz de covarianzas:
X =
_
X
1
X
2
_
, =
_

1

2
_
, =
_

11

12

21

22
_
(1.16)
En el caso particular p
1
= 1, es decir, cuando X
1
es una variable aleatoria real y X
2
un vector
aleatorio (p 1)-dimesional, la descomposicion de ser a de la forma
=
_

2
1

12

21

22
_
(1.17)
En tal caso cabe denir el coeciente de correlacion lineal m ultiple (al cuadrado) entre X
1
y
X
2
mediante

2
12
=

12

1
22

21

2
1
(1.18)
Se trata de una generalizacion del coeciente de correlacion simple (al cuadrado) que interpre-
taremos en la siguiente secci on.
1.3. Regresi on lineal
Consideremos un vector aleatorio X descompuesto en X
1
y X
2
seg un (1.16) con p
1
= 1, es
decir, tenemos una variable aleatoria real X
1
y un vector X
2
p
2
-dimensional. Nuestra intenci on
es explicar la variabilidad total de X
1
como funcion lineal de la variabilidad total de X
2
, en la
medida de lo posible. Por lo tanto, buscamos el vector R
p
2
que alcance el siguiente mnimo,
en cuyo caso se denominar a soluci on mnimo-cuadratica:
mn
_
|X
1
E[X
1
] b

(X
2
E[X
2
])|
2
: b R
p
2
_
(1.19)
Ecuaci on de regresion lineal: La solucion se obtiene proyectando ortogonalmente X
1

E[X
1
] sobre el subespacio X
2
E[X
2
], como indica la gura 1.2. Se trata pues de buscar el
vector tal que
X
1
E[X
1
]

(X
2
E[X
2
]) X
2
E[X
2
] (1.20)
Ejercicio 9. Probar que, si p
2
= 1, la ortogonalidad en (1.20) se alcanza con =
12
/
2
2
y
que, en general, se alcanza en
=
1
22

21
(1.21)
12 CAP

ITULO 1. PRELIMINARES
Figura 1.2: Ecuaci on de regresi on lineal

t
0

I
T
1

X
2
E[X
2
]
X
1
E[X
1
]

(X
2
E[X
2
])
X
1
E[X
1
]

(X
2
E[X
2
])
Dado que |X
1
E[X
1
]|
2
=
2
1
y |

(X
2
E[X
2
])|
2
=
12

1
22

21
, la proporcion de variabili-
dad total de X
1
explicada linealmente por la variabilidad total de X
2
es
2
12
, denido en (1.18).
Por otra parte, si se dene
= E[X
1
]

E[X
2
], (1.22)
se verica que X
1
= +

X
2
+c, donde E[c] = 0 y
var[c] =
2
1

12

1
22

21
(1.23)
=
2
1
(1
2
12
) (1.24)
Razonando de manera an aloga en el caso general p
1
1, obtenemos que la matriz de
covarianzas de c, denominada matriz de covarianzas parciales, es la siguiente
Cov[c] =
11

12

1
22

21
(1.25)
que se denota
112
. Si p
1
> 1 podramos generalizar el coeciente de correlaci on m ultiple
como la matriz
1
11

12

1
22

21
, pero de dicha matriz s olo nos interesar an sus autovalores, que
denominaremos en el captulo 3 coecientes de correlacion can onica.
Ejercicio 10. Probar que +

X
2
es la funcion afn de X
2
que minimiza la distancia respecto
a X
1
.
Incorrelaci on e independencia: Se dice que X
1
y X
2
son incorreladas cuando
12
= 0, lo
cual equivale a = 0 o, si p
1
= 1,
12
= 0. Se traduce por tanto en la imposibilidad de explicar
parte alguna de la variabilidad total de X
1
como funci on lineal de la variabilidad total de X
2
.
Geometricamente puede denirse as:
X
1
y X
2
incorreladas X
1
E[X
1
] X
2
E[X
2
] (1.26)
La independencia supone sin embargo una propiedad estrictamente m as fuerte que la incorre-
laci on. Efectivamente, puede ocurrir que entre X
1
y X
2
no se de relacion afn alguna pero que,
sin embargo, exista entre ambas una relaci on de otro tipo, que podra ser incluso funcional.
E[X
1
[X
2
] X
2
es la funci on medible de X
2
que mejor se aproxima a X
1
seg un la metrica (1.4) y
no podemos en general armar que se trate de una funci on afn. Eso s ocurre bajo el supuesto
1.4. NOCIONES B

ASICAS DE

ALGEBRA LINEAL 13
Figura 1.3: Descomposici on de la varianza

t
0

I
T
X
1
E[X
1
]
1

X
2
E[X
2
]

2
1

2
1

2
12

2
1
(1
2
12
)
de (p
1
+ p
2
)-normalidad, como veremos en el pr oximo captulo. En ese caso, debe vericarse
entonces E[X
1
[X
2
] X
2
= +X
2
, con y denidas como antes.
El concepto probabilstico de independencia lo suponemos conocido. Desde un punto de
vista geometrico, podra denirse como sigue: primeramente, dado un vector k-dimensional
Y con componentes en L
2
, denotese por /(Y ) el espacio de las variables en 1

que son
funciones medibles de Y . En tal caso, se verica
X
1
y X
2
independientes /(X
1
) /(X
2
) (1.27)
Ejercicio 11. Probar (1.26) y (1.27).
En lo sucesivo S denotar a la matriz de covarianzas denidas directamente a partir del
producto interior (1.3), es decir, que suma total se dividira entre n. As mismo, R denotar a la
matriz de correlaciones muestrales.
Ejercicio 12. Denir en lenguaje muestral todos los parametros estudiados en la secci on
2, interpret andolos seg un hemos visto en la secci on 3. Tener presente que, de todos ellos, el
de mayor trascendencia estadstica es, posiblemente, el coeciente de correlacion m ultiple (al
cuadrado), que en el contexto muestral se denotar a por R
2
y se dene a partir de la matriz de
covarianzas muestral S mediante
R
2
=
S
12
S
1
22
S
21
s
2
1
(1.28)
1.4. Nociones basicas de

Algebra Lineal
Aparte de los conceptos introducidos en la primera seccion debemos destacar algunas no-
ciones y resultados propios del

Algebra Lineal que se manejan con frecuencia en nuestra teora.
Hemos de tener presente en todo momento tres observaciones: primero que, jada una base
vectorial en R
m
, las aplicaciones lineales de R
m
en R
m
se identican con las matrices cuadradas
de orden m; segundo, que una vez jado un orden de lectura, el conjunto /
np
de matrices
de dimension n p se identica con R
np
; tercero, que dicha identicaci on permite denir un
14 CAP

ITULO 1. PRELIMINARES
producto interior en /
np
mediante
A, B = tr(A

B) (1.29)
=

i,j
a
ij
b
ij
(1.30)
Este producto interior permite generalizar la distancia (1.5) al conjunto /
np
mediante:
d
2
n,p
(A, B) = n
1
tr[(A B)

(A B)] (1.31)
= n
1
n

i=1
|a
i
b
i
|
2
R
p (1.32)
donde a

i
y b

i
denotan las las de A y B, respectivamente. Esta distancia generalizada puede
entenderse a su vez como una versi on muestral de la distancia (1.10). Entre otras propiedades,
podemos destacar que tr(A

B) = tr(B

A) y que, si A, B, C son matrices cuadradas de orden


m, se verica que tr(ABC) = tr(CBA) = tr(ACB).
Ejercicio 13. Probar (1.30) y (1.32).
Ejercicio 14. Dada una matriz de datos X /
np
y si se denota X = 1
n
x

, probar que la
varianza total muestral de X, denida de manera an aloga a (1.9) como la suma de las varianzas
muestrales de sus p-componentes, verica
s
2
T
= d
2
n,p
(X, X) (1.33)
Matriz positiva: En el conjunto de matrices cuadradas mm, podemos denir el siguiente
preorden que generaliza el orden natural en R: decimos que A B cuando x

Ax x

Bx para
todo x R
m
. As mismo, decimos que A > B cuando la desigualdad anterior es estricta si
x ,= 0. En consecuencia, A 0 cuando x

Ax 0 para todo x R
m
, en cuyo caso se dice que
A es semidenida positiva. Si A > 0 se dice denida positiva.
Distancia de Mahalanobis: Dada una matriz A /
mm
simetrica y positiva podemos
denir en R
m
la distancia de Mahalanobis D
2
A
mediante
D
2
A
(x, y) = (x y)

A
1
(x y), x, y R
m
(1.34)
Se trata de una generalizaci on de la metrica eucldea, que se obtendra en el caso A = Id.
Matriz ortogonal: Se dice que una matriz /
mm
es ortogonal cuando sus columnas
constituyen una base ortonormal de R
m
, es decir, cuando

=
1
. El conjunto de matrices
ortogonales de orden m se denotara por O
m
.
Matriz idempotente: Se dice que una matriz A /
mm
es idempotente cuando A
2
= A.
Puede probarse que, si V es un subespacio lineal de R
m
y B /
mdimE
es una base de V
(entendemos con esto que las columnas de B constituyen una base de V , es decir, que V = B),
entonces la matriz P
V
que se identica con la proyecci on ortogonal sobre V puede calcularse
mediante
P
V
= B(B

B)
1
B

(1.35)
Se trata pues de una matriz simetrica e idempotente.
Ejercicio 15. Probar (1.35). Es m as, probar que una matriz A /
mm
simetrica e idempo-
tente se identica con la proyecci on ortogonal sobre V = A.
1.4. NOCIONES B

ASICAS DE

ALGEBRA LINEAL 15
Autovalores y autovectores: Dada una matriz A /
mm
, se dice que R es un
autovalor real de A y R
m
un autovector asociado cuando se verica que Ae = . En
tal caso, debe ser necesariamente una raz del polinomio p(x) = [Ax Id[ y debe estar
incluido en ker(A Id). Puede probarse que, si A es simetrica, las m races de p(x) son
reales, lo cual equivale a la existencia de m autovalores reales contados con su multiplicidad. El
siguiente resultado, conocido como teorema de diagonalizaci on de una matriz simetrica, aclara
la estructura de la familia de autovectores asociados.
Teorema 1.4.1. Dada una matriz A /
mm
simetrica, si denota la matriz diagonal
compuesta por los autovalores
1
, . . . ,
m
de A ordenados de mayor a menor y contados con su
multiplicidad, existe una matriz O
m
tal que
A =

(1.36)
Del teorema se sigue directamente que las columnas de constituyen una base ortonormal
de autovectores asociados a los correspondientes autovalores. Tambien podemos de deducir de
(1.36) que =
1
A. Por lo tanto, la aplicaci on lineal identicada con la matriz A para la
base vectorial original admite una expresion diagonal respecto a una base ortonormal can onica
de autovectores. Es decir, el cambio a la base de autovectores permite expresar la matriz de
forma sencilla. A modo de ejemplo, podemos utilizar ese procedimiento para demostrar las
siguientes propiedades;
Ejercicio 16. Dada una matriz simetrica A, probar:
(i) Si A es simetrica, su rango coincide con el n umero de autovalores no nulos.
(ii) Si A 0, sus autovalores son todos no negativos. Si A > 0, son todos estrictamente
positivos.
(iii) Si A 0, existe una matriz simetrica A
1/2
tal que A = A
1/2
A
1/2
. Si A > 0, existe
tambien una matriz simetrica A
1/2
tal que A
1
= A
1/2
A
1/2
.
(iv) Si A 0, existe una matriz X con las mismas dimensiones tal que A = X

X.
(v) La traza de una matriz simetrica es la suma de sus autovalores y el determinante, el
producto de los mismos.
(vi) La inversa de una matriz simetrica positiva tambien es positiva.
A partir del teorema 1.4.1 y del ejercicio 1 podemos probar el siguiente resultado de gran
interes:
Lema 1.4.2. En las condiciones del teorema 1.4.1 y dado k m, si
1
es la matriz con los
autovectores asociados a los k primeros autovalores de A, se verica que
m axtr(B

AB) : B /
mk
, B

B = Id =
k

i=1

i
(1.37)
y se alcanza en B =
1
.
16 CAP

ITULO 1. PRELIMINARES
Cuadro 1.1: Matriz correspondiente a muestra tama no n = 45 y dimension p = 7
TABLA ISAS UNICA1.sav
13/10/2011 18:52:06 1/18
vcl vsl vap lin str wob alh
1 170,4 143,5 156,6 84,2 91,6 91,9 3,0
2 159,4 98,7 129,6 61,9 76,1 81,3 3,9
3 111,5 97,9 105,8 87,8 92,5 94,9 1,8
4 132,2 88,4 107,0 66,8 82,6 80,9 3,7
5 121,6 87,8 103,3 72,2 85,0 85,0 2,9
6 112,6 92,6 104,6 82,2 88,5 92,9 2,0
7 119,4 95,5 109,9 80,0 87,0 92,0 2,1
8 121,7 86,5 103,7 71,1 83,5 85,2 2,8
9 122,6 77,1 93,2 62,9 82,8 76,0 3,7
10 124,1 89,9 108,3 72,4 83,0 87,3 2,5
11 118,5 82,9 97,4 70,0 85,2 82,2 2,9
12 111,3 84,9 98,9 76,2 85,8 88,9 2,4
13 123,9 96,5 111,5 77,9 86,5 90,0 2,5
14 126,1 90,6 109,0 71,8 83,1 86,4 2,8
15 125,7 91,5 108,2 72,8 84,5 86,1 2,8
16 110,2 72,3 84,6 65,6 85,5 76,7 3,3
17 136,2 101,4 117,8 74,5 86,1 86,5 3,0
18 124,9 96,1 113,1 76,9 85,0 90,5 2,4
19 129,5 96,5 114,8 74,5 84,1 88,7 2,7
20 110,4 81,4 92,4 73,7 88,1 83,7 3,2
21 130,0 110,2 122,1 84,8 90,3 93,9 2,0
22 116,8 81,1 95,7 69,4 84,7 81,9 3,1
23 125,7 94,3 110,6 75,0 85,3 88,0 2,6
24 122,7 87,1 105,4 71,0 82,6 85,9 2,8
25 139,4 82,4 104,2 59,1 79,1 74,7 4,1
26 124,9 81,7 100,2 65,5 81,5 80,3 3,4
27 129,6 84,7 100,3 65,3 84,5 77,4 3,6
28 111,8 90,5 102,2 81,0 88,6 91,5 2,1
29 105,9 70,0 81,9 66,1 85,4 77,4 2,9
30 105,8 67,4 81,3 63,7 82,9 76,9 3,6
31 122,7 84,3 101,5 68,7 83,1 82,7 3,2
32 118,4 87,5 102,6 73,9 85,3 86,7 2,7
33 122,6 82,4 98,7 67,2 83,5 80,5 3,2
34 119,9 80,8 97,7 67,4 82,7 81,5 3,1
35 142,2 109,5 128,9 77,0 84,9 90,6 2,7
36 115,5 69,9 82,4 60,5 84,8 71,3 3,6
37 131,9 97,0 114,5 73,6 84,8 86,8 2,8
38 124,9 91,2 109,1 73,0 83,6 87,4 2,9
39 130,4 85,4 104,9 65,5 81,4 80,5 3,3
40 132,6 87,7 106,2 66,1 82,5 80,1 3,6
41 117,6 79,8 94,1 67,9 84,8 80,0 3,6
42 116,4 80,1 95,3 68,8 84,0 81,9 3,3
43 121,7 81,0 95,8 66,6 84,6 78,7 3,2
44 124,3 90,8 107,3 73,0 84,6 86,3 2,9
45 131,5 98,2 115,1 74,7 85,4 87,6 2,8
Captulo 2
Modelo lineal multivariante
En este captulo expondremos los aspectos m as generales del modelo lineal normal multiva-
riante. Previamente, estudiaremos con brevedad las distribuciones de probabilidad relacionadas
con este modelo as como el modelo lineal normal (univariante) que pretende generalizar.
2.1. Normal multivariante
La distribuci on normal multivariante p-dimensional o p-normal se trata de una generali-
zaci on natural de la distribuci on normal que servira como hipotesis de partida en el modelo
estadstico objeto de estudio.
Dados R
p
y /
pp
simetrica y semidenida positiva, se dice que un vector aleatorio
X p-dimensional sigue un modelo de distribuci on N
p
(, ) cuando admite la siguiente funcion
caracterstica:

X
(t) = exp
_
it


1
2
t

t
_
, t R
p
. (2.1)
En ese caso se denota X N
p
(, ) y puede comprobarse trivialmente que generaliza la distri-
buci on normal unidimensional. Vamos a enunciar a continuaci on las propiedades fundamentales
de esta distribuci on. Las dos siguientes se siguen de las propiedades de la funci on caracterstica.
Proposicion 2.1.1. Si X N
p
2
(, ), A /
p
1
p
2
y b R
p
1
, entonces
AX +b N
p
1
(A +b, AA

) (2.2)
Proposicion 2.1.2. Si Z[1], . . . , Z[p] iid N(0,1), entonces Z = (Z[1], . . . , Z[p])

N
p
(0, Id)
A partir de las dos propiedades anteriores podemos construir cualquier vector normal:
Proposicion 2.1.3. Dados y como en la denici on, si consideramos el vector aleatorio Z
anterior, la descomposici on =

y se denota A =
1/2
, se sigue que AZ+ N
p
(, ).
En consecuencia, se sigue de (1.15) el siguiente resultado:
Proposicion 2.1.4. Si X N
p
(, ), E[X] = y Cov[X] = .
Tambien es consecuencia de la proposici on 2.1.1 que, si X N(, ), cada componente
X[i] de X sigue un modelo de distribucion N(
i
,
2
i
). Sin embargo, el recproco no es cierto.
Hemos de tener en cuenta que la componente X[i] puede obtenerse mediante e

i
X, siendo e
i
el
vector unidad en el eje de coordenadas i-esimo, y que la siguiente armacion puede probarse
con relativa facilidad:
17
18 CAP

ITULO 2. MODELO LINEAL MULTIVARIANTE


Proposicion 2.1.5. Dado un vector aleatorio p-dimensional X, cualquiera de las condiciones
siguientes garantizan la p-normalidad del mismo:
(i) a

X es 1-normal, para todo a R


p
.
(ii) Sus componentes son todas normales e independientes entre s.
El siguiente resultado puede probarse tambien a traves de la funcion caracterstica y esta-
blece la equivalencia entre incorrelacion e independencia bajo la hip otesis de normalidad.
Proposicion 2.1.6. Si descomponemos un vector (p
1
+p
2
)-normal X con matriz de covarianzas
en X
1
de dimensi on p
1
y X
2
de dimensi on p
2
, entonces X
1
y X
2
son independientes s, y solo
si,
12
= 0.
Si la matriz de covarianzas es estrictamente positiva, la distribuci on p-normal es dominada
por la medida de Lebesgue en R
p
. Teniendo en cuenta las proposiciones 2.1.1, 2.1.2 y el teorema
del cambio de variables, podemos obtener la densidad de dicha distribucion:
Proposicion 2.1.7. Si X N
p
(, ) con > 0 admite la siguiente funci on de densidad:
f(x) =
1
_
(2)
p
[[
exp
_

1
2
(x )

1
(x )
_
, x R
n
. (2.3)
Figura 2.1: Funci on de densidad distribuci on 2-normal
Ejercicio 17. Probar las siete proposiciones anteriores.
N otese que en la funci on de verosimilitud determinada por (2.3) la observacion x y los
par ametros (, ) que caracterizan la distribuci on de probabilidad se relacionan a traves de la
distancia de Mahalanobis D
2

(x, ). Concretamente, para cada k [0, [(2)


p
[[]
1/2
], la region
de los puntos x R
p
: f(x) = k, es decir, aquellos cuya densidad es igual a k, es el elipsoide
siguiente:
x R
p
: D
2

(x, ) =

k (2.4)
para

k = 2 log
_
k
_
(2)
p
[[
_
.
2.1. NORMAL MULTIVARIANTE 19
Figura 2.2: Contornos distribucion 2-normal
3 2 1 0 1 2 3

1
0
1
2
3
x
y
En la gura 2.2 se aprecian dos contornos diferentes de la siguiente distribuci on 2-normal:
N
2
__
0
0
_
,
_
1 0.8
0.8 1
__
(2.5)
Consideremos un vector aleatorio X (p
1
+p
2
)-normal que descompone de la forma
X =
_
X
1
X
2
_
N
p
1
+p
2
__

1

2
_
,
_

11

12

21

22
__
(2.6)
El siguiente resultado puede probarse teniendo en cuenta el hecho conocido de que la densidad
de la distribuci on condicional P
X
1
|X
2
puede calcularse mediante
f
X
1
|X
2
=x
2
(x
1
) =
f
X
1
,X
2
(x
1
, x
2
)
f
X
2
(x
2
)
(2.7)
Proposicion 2.1.8. Si
22
> 0, se verica
X
1
[X
2
= x
2
N
p
1
( +

x
2
,
112
) (2.8)
con , y
112
denidas seg un (1.22), (1.21) y (1.25), respectivamente.
Como consecuencia se deduce que, bajo el supuesto de normalidad, E[X
1
[X
2
]X
2
= +

X
2
.
Es mas, podemos garantizar que
X
1
= +

X
2
+c, c y X
2
independientes, E[c] = 0, Cov[c] =
112
(2.9)
Esta armacion puede probarse tambien teniendo en cuenta la proposicion 2.1.6, (1.26) y (1.27).
En denitiva, establece una clara conexi on entre los conceptos de normalidad y linealidad.
Ejercicio 18. Si X denota un vector 2-normal siguiendo un modelo de distribucion (2.5),
razonar que modelo de distribucion sigue en cada caso el vector Y indicando, si procede, su
funci on de densidad:
(a) Y [1] = 1 + 2X[1] + 3X[2]; Y [2] = 4 X[1] +X[2]
(b) Y [1] = 2 + 5X[1] 4X[2]
(c) Y [1] = 1 + 2X[1] + 3X[2]; Y [2] = 4 4X[1] 6X[2]
Ejercicio 19. Simular de manera aproximada una muestra de tama no n = 200 de la distribu-
ci on (2.5).
20 CAP

ITULO 2. MODELO LINEAL MULTIVARIANTE


Desde el punto de vista estadstico, podemos proponer tests para contrastar la hipotesis ini-
cial de normalidad multivariante. En Bilodeau y Brenner (1999) se recoge un test aproximado
que se basa en el hecho de que, para una muestra aleatoria simple de tama no n de una distri-
buci on p-normal, las distancias de Mahalanobis entre las observaciones y la media aritmetica
de la misma dada la matriz de covarianzas muestral son aproximadamente incorreladas y con
distribuci on Beta. En la pr actica, resulta m as operativo comprobar que los histogramas de las
distintas componentes se ajustan aproximadamente a campanas de Gauss y que los diagramas
de dispersion entre las mismas tienen aspectos elpticos.
Figura 2.3: Diagrama dispersi on matricial n = 1000, p = 5
psico6 psico5 psico4 psico3 psico2 psico1
p
s
i
c
o
1
p
s
i
c
o
2
p
s
i
c
o
3
p
s
i
c
o
4
p
s
i
c
o
5
p
s
i
c
o
6
Pgina 1
2.2. Modelo lineal
Antes de abordar el estudio del modelo lineal multivariante, repasaremos muy brevemente
el modelo lineal en dimensi on 1, empezando por las distribuciones de probabilidad asociadas
al mismo.
2.2.1. Distribuciones asociadas al modelo
No pretendemos aqu describir con detalle las diferentes distribuciones pues se suponen cono-
cidas (ver por ejemplo Nogales (1998)), sino interpretarlas desde un punto de vista geometrico.
Distribucion normal esferica: El punto de partida del modelo es la distribuci on normal
multivariante esferica, que se obtiene cuando la matriz de covarianzas del vector es de la forma
=
2
Id, para alg un
2
> 0. Efectivamente, puede comprobarse que, en ese caso, la distancia
de Mahalanobis D
2

es, salvo una homotecia, la distancia eucldea, por lo que los elipsoides
(2.4) son en particular esferas cuyo centro es la media. En virtud de la proposici on 2.1.5-(ii),
Y N
n
(,
2
Id) si, y solo si, sus componentes Y
1
, . . . , Y
n
son independientes, normales y con
identica varianza (homocedasticos). Es decir, que esta distribuci on est a asociada a una muestra
de tama no n en sentido amplio, de ah la notaci on utilizada.
2.2. MODELO LINEAL 21
Distribuci on
2
: Cuando la media es 0, la distribuci on normal esferica tiene ademas la
particularidad de ser invariante ante cualquier transformacion mediante una matriz ortogonal,
es decir, que la verosimilitud de cada observaci on Y depende exclusivamente de |Y|
2
. Eso
explica nuestro interes en estudiar la distribucion de |Y|
2
bajo la hipotesis de normalidad
esferica. Efectivamente, si Y N
n
(0, Id), se dice que |Y|
2

2
n
; la anterior distribuci on
denominada
2
central puede generalizarse si consideramos la norma eucldea al cuadrado
de un vector Y N
n
(, Id), que se distribuye seg un un modelo
2
n
(), con = ||
2
. Si Y
N
n
(,
2
Id), entonces |Y|
2
/
2

2
n
() con = ||
2
/
2
, lo cual se denota por |Y|
2

2

2
n
().
Ejercicio 20. En general, puede probarse que, si Y N
n
(,
2
Id) y E R
n
,
|P
E
Y|
2

2

2
dimE
(), = |P
E
|
2
/
2
(2.10)
Se verica adem as que E [|P
E
Y|
2
] = (dimE)
2
(1 + ). Como caso particular, si E

,
entonces |P
E
Y|
2

2

2
dimE
.
Ejercicio 21. Probar que, dadosi E
1
E
2
y X N
n
(,
2
Id), se verica que |P
E
i
Y|
2

2
dimE
i
(|P
E
i
|
2
/
2
), para i = 1, 2, y son independientes.
Distribuci on F: Este modelo probabilstico de distribucion surge de manera natural de la
aplicaci on del Principio de Invarianza en el problema estadstico de contraste de una hip ote-
sis lineal para la media que veremos m as adelante. Efectivamente, en la resoluci on de dicho
problema nos vemos avocados a considerar, dado un vector Y N
n
(,
2
Id), el cociente entre
|P
E
1
Y|
2
y |P
E
2
Y|
2
para ciertos subespacios E
1
y E
2
ortogonales entre s y tales que E

2
. No
obstante, ambos terminos se dividen por las respectivas dimensiones para mantener acotadas
sus esperanzas, de manera que la distribuci on F se obtiene mediante
|P
E
1
Y|
2
/ dimE
1
|P
E
2
Y|
2
/ dimE
2
F
dimE
1
,dimE
2
(), =
|P
E
1
|
2

2
(2.11)
N otese que el cociente entre las medias del numerador y el denominador es (1 + ) y, por lo
tanto, 1 cuando = 0. La distribucion m F
m,n
converge a
2
m
cuando n tiende a innito.
Distribuci on t: En esta seccion interpretaremos la conocida distribuci on t-Student como un
caso particular de la distribuci on F. Concretamente, decimos que una variable real t sigue un
modelo de distribucion t
m
() cuando es simetrico respecto a 0 y tal que t
2
F
1,m
(). De esta
forma, nos encontraremos con dicha distribuci on cuando operemos como en la gura 2.4 con
dimE
1
= 1.
2.2.2. El modelo y ejemplos
El modelo lineal (normal) consiste en una estructura o experimento estadstico en R
n
donde
la distribuci on de probabilidad es normal esferica N
n
(,
2
Id). No se impone ninguna condicion
respecto al par ametro
2
pero si se impone una restricci on de tipo lineal para el par ametro ,
pues se supondra por hip otesis que V para un cierto subespacio lineal conocido V R
n
.
Se denota mediante
Y N
n
(,
2
), V,
2
> 0 (2.12)
La restriccion lineal V vendr a dada, bien por la presencia de factores cualitativos, bien por
la relacion lineal respecto a otras variables numericas con valores conocidos.
22 CAP

ITULO 2. MODELO LINEAL MULTIVARIANTE


Figura 2.4: Interpretacion geometrica de la distribuci on F
dimE
1
,dimE
2
()

u
0

I
E
2


E
1
E
2
R
n
E
1
P
E
1
E
2
Y
P
E
1
Y
P
E
2
Y
_
_
_
|P
E
1
Y|
2

2

2
dimE
1
()
|P
E
2
Y|
2

2

2
dimE
2
F =
dimE
2
dimE
1
|P
E
1
Y|
2
/|P
E
2
Y|
2
Si una matriz X /
ndimV
constituye una base de V , podemos parametrizar el mode-
lo (2.12) a traves de las coordenadas de respecto a X, es decir, Y N
n
(X,
2
Id), o
equivalentemente,
Y = X +c, R
dimV
, c N
n
(0,
2
Id),
2
> 0 (2.13)
Enunciaremos a continuaci on cuatro ejemplo de problemas estadsticos que se formalizan me-
diante el modelo lineal:
Ejemplo 1. [Muestra aleatoria simple de una distribucion normal] Consideremos Y
1
, . . . , Y
n
iid
N(,
2
). En ese caso, el vector aleatorio Y = (Y
1
, . . . , Y
n
)

sigue una distribucion N


n
(,
2
Id)
con V = 1
n
y
2
> 0.
Ejemplo 2. [Muestras independientes de distribuciones normales con identica varianza] Consi-
deremos ahora, para i = 1, 2, sendas muestras independientes entre s Y
i1
, . . . , Y
in
i
iid N(
i
,
2
).
Si se denota n = n
1
+ n
2
e Y = (Y
11
, . . . , Y
2n
2
)

, se verica que Y N
n
(,
2
Id) con
2
> 0 y
V = v
1
, v
2
, donde v
1
denota el vector de R
n
cuyas n
1
primeras componentes son 1 y el
resto 0. De manera analoga se dene v
2
.
Ejemplo 3. [Dise no completamente aleatorizado] Se trata de una generalizacion del problema
anterior para r 2 muestras independientes Y
i1
, . . . , Y
in
i
iid N(
i
,
2
). En este caso, si n =

i
n
i
e Y = (Y
11
, . . . , Y
rnr
)

, se verica que Y N
n
(,
2
Id) con
2
> 0 y V = v
1
, . . . , v
r
.
Ejemplo 4. [Regresi on lineal m ultiple] Supongamos que se recogen n observaciones indepen-
dientes que pueden calcularse mediante una relaci on afn con los valores de otras q variables
numericas controladas en el experimento, salvo errores independientes, normalmente distribui-
2.2. MODELO LINEAL 23
dos y homoced asticos. Es decir,
Y
1
=
0
+
1
Z
1
[1] +. . . +
q
Z
1
[q] +c
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Y
n
=
0
+
1
Z
n
[1] +. . . +
q
Z
n
[q] +c
n
(2.14)
donde c
1
, . . . , c
n
iid N(0,
2
). Si se denota
Y =
_
_
_
Y
1
.
.
.
Y
n
_
_
_
, X =
_
_
_
1 Z
1
[1] . . . Z
1
[q]
.
.
.
.
.
.
.
.
.
1 Z
n
[1] . . . Z
n
[q]
_
_
_
, c =
_
_
_
c
1
.
.
.
c
n
_
_
_
, =
_
_
_

0
.
.
.

q
_
_
_
(2.15)
el modelo puede expresase de la forma (2.13) con V = X. En lo sucesivo se denotar a =
(
1
, . . . ,
q
)

R
q
. Este vector expresa la inuencia de los vectores explicativos Z[1], . . . , Z[q] en
la predicci on de la respuesta Y. As mismo, se denota por Z la matriz que resulta al elimar de
X el termino independiente 1
n
. De esta, forma, el modelo puede expresarse tambien mediante
Y =
0
1
n
+Z +c (2.16)
Regresion respecto a variables dummys: Cualquiera de los problemas considerados an-
teriormente puede entenderse como un problema de regresi on lineal, es decir, pueden para-
metrizarse de la forma (2.13) para una base X con termino independiente. As, en el caso del
ejemplo 3, podemos considerar entre otras posibilidades la matriz X = (1
n
, v
1
, . . . , v
r1
). Con
esta parametrizaci on particular, la relacion entre y es la siguiente:

0
=
r
,
j
=
j

r
, j = 1, . . . , r 1 (2.17)
Ejercicio 22. Probar (2.17). Indicar as mismo como se relacionara con si consider aramos
la base

X = (1
n
, v
2
, . . . , v
r
).
Los vectores Z[1], . . . , Z[r 1] de X en la parametrizaci on anterior recogen valores concretos
de unas variables denominadas dummys que indican la muestra o categora a la que pertenece
cada dato. Que las medias
1
, . . . ,
r
sean identicas, es decir, que las muestras procedan de una
unica distribucion com un, equivale a que sea nulo, independientemente de la parametrizaci on
particular considerada. En otras palabras, la ausencia de relaci on entre el factor cualitativo que
distingue las muestras con la variable numerica Y equivale a la ausencia de relaci on de esta
con las variables numericas dummys.
Ejercicio 23. Desarrollar con detalle los modelos asociados a los cuatro ejemplos anteriores.
2.2.3. Estimaci on y contraste de hipotesis
Dado que suponemos V y que, al seguir Y un modelo de distribuci on n-normal, es
m as verosmil que la observaci on Y sea pr oxima a la media que lo contrario, parece razonable
estimar mediante un vector de V pr oximo a Y. De hecho, denimos el estimador
= P
V
Y (2.18)
En tal caso, resulta tambien razonable estimar
2
mediante la distancia (1.5) entre Y y , es
decir,
2
MV
= n
1
|P
V
Y|
2
. Puede probarse que ambos estimadores son independientes y que
constituyen un estadstico suciente y completo. Se sigue entonces del teorema de Lehmann-
Schee que es el estimador insesgado de mnima varianza (EIMV) de . Tambien puede
24 CAP

ITULO 2. MODELO LINEAL MULTIVARIANTE


probarse a partir de (2.3) que ( ,
2
MV
) constituyen un estimador de m axima verosimilitud
(EMV) de (,
2
). Sin embargo,
2
MV
no es insesgado, de ah que se proponga el siguiente
estimador que es, seg un el teorema de Lehmann-Schee, EIMV:

2
=
1
n dimV
|P
V
Y|
2
(2.19)
Si el modelo est a parametrizado de la forma (2.13), podemos estimar como las coordenadas
del estimador de , es decir:

= (X

X)
1
X

Y (2.20)
En denitiva, los estimadores de y
2
pueden entenderse geometricamente seg un la gura
2.4 con E
1
= V y E
2
= V

.
Ejercicio 24. Obtener los estimadores y
2
para los ejemplos 1 y 2.
Ejercicio 25. Obtener para el ejemplo 3. Probar que, en dicho ejemplo, el EIMV de
2
es

2
=
1
n r
r

i=1
n
i

j=1
(Y
ij
Y
i
)
2
(2.21)
Ejercicio 26. Probar que, en el ejemplo 4, podemos estimar a partir de las medias aritmeticas
del vector Y y la matriz Z, as como de la matriz de covarianza muestral conjunta mediante

= S
1
zz
S
zy
,

0
= Y Z

(2.22)
Relacionar (2.22) con (1.21) y (1.22).
Ejercicio 27. Probar que, en el ejemplo 4,
2
MV
puede relacionarse con la varianza s
2
y
del
vector Y y el coeciente de correlaci on m ultiple al cuadrado R
2
de Y respecto a Z, denido en
(1.28), mediante

2
MV
= s
2
y
(1 R
2
) (2.23)
El problema de contraste de hipotesis relativas al par ametro
2
no sera expuesto aqu debido
a que los tests que los resuelven son sensibles ante la violaci on del supuesto de normalidad.
No ocurre lo mismo con el test F o anova que resuelve el contraste de hip otesis de tipo lineal
sobre el par ametro pues, tal y como se prueba en Arnold (1981), es asint oticamente v alido
aunque no se verique el supuesto de normalidad. Ademas, es relativamente robusto ante la
heretocedasticidad. Lo mismo ocurre en el modelo multivariante.
Anova: Nos ocuparemos pues del contraste de hipotesis tipo H
0
: W, para alg un subes-
pacio lineal W V . Veamos ejemplos de hip otesis de este tipo:
Ejercicio 28. En el ejemplo 1 podemos contrastar si la media de la distribuci on es nula.
Probar que se corresponde con W = 0.
Ejercicio 29. En los ejemplos 2 y 3 podemos contrastar si todas las muestras consideradas pro-
vienen de una misma distribuci on de probabilidad. Probar que en ambos casos se corresponde
con W = 1
n
.
Ejercicio 30. En el ejemplo 4 podemos contrastar si los vectores explicativos Z[1], . . . , Z[q]
no intervienen en la explicacion de Y, lo cual equivale a = 0. Probar que se corresponde
con W = 1
n
. Dicho contraste se denomina total. Tambien podemos contrastar, por ejemplo,
si
q
= 0. Probar que se corresponde con W = 1
n
, Z[1], . . . , Z[q 1]. Dicho contraste se
denomina parcial.
2.2. MODELO LINEAL 25
Si se denota V [W = W

V, la hip otesis inicial H


0
: W equivale a P
V |W
= 0. Ello
invita a descomponer R
n
en tres subespacios ortogonales: R
n
= W V [W V

. De dicha
descomposici on se deriva la siguiente descomposicion ortogonal del vector de observaciones:
Y = P
W
Y +P
V |W
Y +P
V
Y (2.24)
Del Principio de Invarianza se sigue que el primer sumando es intrascendente en lo que respecta
al contraste de H
0
. Aplicando otras dos veces el Principio de Invarianza y teniendo en cuenta
que ( ,
2
) es suciente, se deduce que la decisi on respecto a H
0
debe depender de la observaci on
Y a traves del cociente |P
V |W
Y |
2
/|P
V
Y|
2
, de ah que denamos el estadstico de contraste
F(Y) =
n dimV
dimV [W

|P
V |W
Y|
2
|P
V
Y|
2
(2.25)
que, seg un (2.11), sigue en general un modelo de distribuci on F
dimV |W,ndimV
(), con =
|P
V |W
|
2
/
2
, y en particular, un modelo F
dimV |W,ndimV
bajo la hipotesis inicial. Siguiendo el
Principio de Maxima Verosimilitud, construimos el denominado test F o anova de manera que
se rechace la hip otesis inicial si el estadstico F toma valores extremos. Del lema fundamental
de Neyman-Pearson se deduce que el test as construido es UMP-invariante; adem as, es el test
de la raz on de verosimilitudes (TRV). Desde el punto de vista geometrico puede entenderse
seg un la gura 2.4 con E
1
= V [W y E
2
= V

.
En el caso particular dimV [W = 1, es decir, cuando W es un hiperplano de V , el estadstico
de contrate se denota por t
2
en lugar de F pues se confronta con la distribuci on t
2
ndimV
, dando
lugar a lo que conocemos como test de Student.
Ejercicio 31. Resolver el contrate de la hipotesis inicial H
0
: = 0 en el ejemplo 1; resolver
el contrate de la hip otesis inicial H
0
:
1
=
2
en el ejemplo 2.
Ejercicio 32. Probar que el test anova que resuelve el contraste H
0
:
1
= . . . =
r
en el
ejemplo 3 consiste en confrontar con la distribuci on F
r1,nr
el estadstico de contraste
F =
SCH/(r 1)
SCE/(n r)
, SCH =

i
n
i
(Y
i
Y

)
2
, SCE =

j
(Y
ij
Y
i
)
2
(2.26)
Ejercicio 33. Probar que el test anova que resuelve el contrate H
0
: = 0 en el ejemplo 4
consiste en confrontar con la distribucion F
q,n(q+1)
el estadstico de contraste
F =
n (q + 1)
q
R
2
1 R
2
. (2.27)
Que sucede en el caso particular q = 1?
Ejercicio 34. En las condiciones del ejemplo 4, que distribucion sigue bajo la hipotesis inicial
H
0
:
q
= 0 el estadstico de contraste?
Dado que, en las condiciones del ejemplo 3, la hip otesis inicial H
0
:
1
= . . . =
r
equivale
a = 0 para cualquier parametrizaci on del modelo mediante variables dummys, se sigue de
(2.27) que la decision al respecto depende de Y a traves de su correlacion m ultiple R
2
con
dichas variables dummys. Este hecho, que tendr a lugar igualmente en el modelo multivariante,
justica el estudio de los coecientes de correlaci on can onicos.
En la salida de SPSS recogida en el cuadro 2.1 podemos apreciar muchos de los ingredientes
estudiados en la secci on.
Ejercicio 35. Construye mediante SPSS dos variables dummys para distinguir las tres especies
de ores de irisdata y comprueba que el coeciente de correlacion m ultiple R
2
entre sepleng y
dichas variables es el que aparece en la tabla anterior.
26 CAP

ITULO 2. MODELO LINEAL MULTIVARIANTE


Cuadro 2.1: Tabla anova; sepleng vs especies en irisdata.sav Pruebas de los efectos inter-sujetos
Variable dependiente: sepleng
63,212
a
2 31,606 119,265 ,000
5121,682 1 5121,682 19326,505 ,000
63,212 2 31,606 119,265 ,000
38,956 147 ,265
5223,850 150
102,168 149
Fuente
Modelo corregido
Interseccin
species
Error
Total
Total corregida
Suma de
cuadrados
tipo III gl
Media
cuadrtica F Significacin
R cuadrado =,619 (R cuadrado corregida =,614)
a.
Pgina 1
2.3. Modelo general
Una vez repasado el modelo lineal univariante estamos en condiciones de generalizarlo al
caso multivariante, en el cual no contamos con una sino con p variables respuesta. Previamente,
debemos introducir con brevedad las distribuciones de probabilidad asociadas al nuevo modelo.
Para un estudio mas detallado, consultar Arnold (1981), Anderson (1958) y Mardia et al. (1979).
En lo que sigue supondremos en todo momento > 0 y n p.
2.3.1. Distribuciones asociadas al modelo
Seguimos el mismo esquema que en el caso unidimensional, con la salvedad de que no existe
una distribuci on que generalice unvocamente la distribucion F. Debemos tener en cuenta que,
en nuestro modelo estadstico, la observaci on es una matriz Y /
np
de datos como la que
aparece en el cuadro 1.1, que se denotar a como en (1.1).
Distribucion normal matricial: Se trata de la distribuci on de partida del modelo, al igual
que la normal esferica lo era en el caso univariante. Dados /
np
y /
pp
simetrica
y denida positiva, se dice que Y N
n,p
(, Id, ) cuando Y
i
N
p
(
i
, ), i = 1, . . . , n, siendo
todas independientes. Esta distribuci on es un caso particular de otra mas general que se trata
con detalle en Arnold (1981). La funci on de densidad se dene, para cada matriz X /
np
,
mediante
f(x) =
1
(2)
np
[[
n/2
exp
_

1
2
tr[(X )
1
(X )

]
_
(2.28)
Distribucion de Wishart: Generaliza la distribuci on
2
. Dado Y N
n,p
(, Id, ), puede
probarse que la distribuci on de Y

Y depende de a traves de

. Teniendo en cuenta eso y


dado E R
n
, se dene la distribucion de Wishart mediante Y

P
E
Y W
p
(dimE, , ), con
=

P
E
. Si = 0 se denota W
p
(dimE, ). Las propiedades de la distribuci on de Wishart
son por completo an alogas a la de la distribucion
2
y se estudian con detalle en Arnold (1981).
Ejercicio 36. Comprobar que W
1
(m, ,
2
) =
2

2
m
(/
2
)
Distribucion T
2
de Hotelling: Dados X N
p
(, ) y W W
p
(m, ) independientes, se
dene la distribucion T
2
-Hotelling mediante
mX

W
1
X T
2
p,m
(), =

1
(2.29)
2.3. MODELO GENERAL 27
En el caso = 0 se denota T
2
p,m
. En Arnold (1981) se prueba que esta distribucion no es en
esencia nueva, sino que se identica, salvo un factor escala, con un modelo tipo F, lo cual
garantiza que esta bien denida. Concretamente
T
2
p,m
() =
mp
mp + 1
F
p,mp+1
() (2.30)
En particular, se verica que T
2
1,m
= t
2
m
, por lo que debemos entender la distribucion T
2
una
generalizaci on en sentido estadstico de la distribuci on t
2
. Es decir, que se utilizara en aquellos
problemas multivariantes cuyos an alogos univariantes precisen de la distribuci on t-Student,
concretamente, en el contraste de hip otesis del tipo H
0
: W con dimV [W = 1. Veremos
que en tales casos el estadstico de contraste puede entenderse geometricamente como una
distancia de Mahalanobis. Adem as, puede probarse que T
2
p,m
converge en distribucion a
2
p
conforme m tiende a innito.
Distribuciones de Wilks, Lawley-Hotelling, Roy y Pillay: Pueden entenderse como
cuatro formas diferentes de generalizar la distribuci on F en el caso multivariante. Se estudian
con detalle en Arnold (1981). Al igual que ocurre con la distribucion F, convergen en distri-
buci on a
2
pdimV |W
conforme aumenta el segundo grado de libertad, por lo cual omitiremos
aqu su estudio.
2.3.2. El modelo y ejemplos
Dada una matriz A /
np
y E R
n
, se denota A E cuando cada columna de A
pertenece al subespacio E. Dicho esto, el modelo lineal normal multivariante viene dado por
una matriz de datos Y N
n,p
(, Id, ), con > 0 y la restricci on V para alg un V R
n
conocido. Por lo tanto, Y constituye una matriz como la que aparece en el cuadro 1.1 que
recoge una muestra (en sentido amplio) de n observaciones Y
i
N
p
(
i
, ) independientes. Si
consideramos una base X de V , el modelo puede parametrizarse tambien de la forma
Y = X +c, c N
n,p
(0, Id, ), /
dimV p
, > 0 (2.31)
Los cuatro problemas univariantes (ejemplos 1-4) considerados en el apartado 2.2.2 se genera-
lizan al caso multivariante dando lugar a los siguientes problemas estadsticos multivariantes
que se estudiar an con mas detalle en el siguiente captulo. Basta tener en cuenta que la variable
respuesta Y se convierte en este caso en un vector respuesta p-dimensional de componentes
Y [1], . . . , Y [p].
Ejemplo 5. [Muestra aleatoria simple de una distribuci on p-normal] Consideremos Y
1
, . . . , Y
n
iid N
p
(, ). En ese caso, la matriz aleatoria Y = (Y
1
, . . . , Y
n
)

sigue un modelo de distribuci on


N
n
(, Id, ) con V = 1
n
y > 0. Efectivamente, se verica que cada columna [j] de
, que corresponde a la componente Y [j] del vector Y , pertenece a V .
Ejemplo 6. [Muestras independientes de p-normales con identica matriz de covarianzas] Consi-
deremos, para i = 1, 2, sendas muestras independientes Y
i1
, . . . , Y
in
i
iid N
p
(
i
, ). Si se denota
n = n
1
+n
2
e Y = (Y
11
, . . . , Y
2n
2
)

, se verica que Y N
n
(, Id, ) con > 0 y V = v
1
, v
2
.
Ejemplo 7. [Dise no completamente aleatorizado multivariante] Se generaliza el caso univariante
como en los ejemplos 5 y 6.
28 CAP

ITULO 2. MODELO LINEAL MULTIVARIANTE


Ejemplo 8. [Regresi on lineal multivariante] A diferencia del ejemplo 4 univariante, se pretende
explicar p variables respuesta, Y [1], . . . , Y [p], a partir de q variables explicativas, lo cual nos
lleva a un modelo tipo (2.31) donde Y es la matriz np de observaciones respuesta, expresada
como en (1.1), c la matriz n p de errores, X es la misma matriz que aparece en (2.15) y es
la matriz (q + 1) p siguiente
=
_
_
_
_
_

0
[1] . . .
0
[p]

1
[1] . . .
1
[p]
.
.
. . . .
.
.
.

q
[1] . . .
q
[p]
_
_
_
_
_
=
_
_
_
_
_

1
.
.
.

q
_
_
_
_
_
(2.32)
Para cada coeciente
i
[j], el subndice i y el ndice entre corchetes j indican, respectivamente,
a que vector explicativo y a que vector respuesta hace referencia. La primera la, relativa al
termino independiente, se denota por
0
, y el resto de la matriz por .
Al igual que en el caso univariante, un problema como el del ejemplo 7 puede parametrizarse
de identica forma mediante variables dummys para convertirse en un problema de regresion
lineal multivariante, donde el contraste de la igualdad de las r medias equivale al contraste
total de la hip otesis = 0.
Estos cuatro problemas se abordar an con m as detalle en el siguiente captulo. A continuacion
estudiaremos brevemente la solucion te orica a los problemas de estimaci on y contraste de
hip otesis.
2.3.3. Estimaci on y contraste de hipotesis
Los estimadores de y
2
en el modelo univariante pueden generalizarse de manera natural
mediante
= P
V
Y, (2.33)

=
1
n dimV
Y

P
V
Y (2.34)
Puede probarse que, as denidos, y

son EIMV de y y que, si reemplazamos en

el denominador n dimV por n, constituyen el EMV. El estimador consiste en estimar la


media de las distintas componentes por separado. Si el modelo est a parametrizado de la forma
(2.31), el estimador de ser a igualmente

= (X

X)
1
X

Y (2.35)
Ejercicio 37. Probar que (n dimV )

W
p
(n dimV, )
En lo referente al contraste de hip otesis tipo H
0
: W, las armaciones de los ejercicios
(28), (29) y (30) pueden extenderse trivialmente al caso multivariante. El test que resuelve el
contraste se denomina manova.
Manova: Consideraremos nuevamente la descomposici on ortogonal R
n
= W V [W V

,
que da pie a denir las siguientes matrices p p simetricas y semidenidas positivas:
S
1
= Y

P
W
Y, S
2
= Y

P
V |W
Y, S
3
= Y

P
V
Y (2.36)
En lo sucesivo prescindiremos de S
1
por argumentos de invarianza. Es m as, la aplicacion del
Principio de Invarianza de manera an aloga al caso univariante nos conduce a desechar todo
2.3. MODELO GENERAL 29
test cuyo estadstico de contraste no pueda expresarse en funci on de los autovalores de S
1
3
S
2
,
que se denotan de mayor a menor mediante t
1
, . . . , t
p
. En lo sucesivo, se denotara
b = mnp, dimV [W (2.37)
Ejercicio 38. Probar que t
1
, . . . t
p
0, siendo necesariamente nulos los p b ultimos.
As pues, el Principio de Invarianza nos conduce a considerar s olo los tests que se construyan
a partir de (t
1
, . . . , t
b
). En el captulo 3 se vera un interpretaci on precisa de estos autovalores.
S olo en el caso b = 1 estaremos en condiciones de formular directamente un test basado en la
distribuci on de t
1
. Se da tal situacion cuando p = 1 o dimV [W = 1:
(i) Si p = 1 las matrices de (2.36) son n umeros positivos y t
1
es, salvo una constante, el
estadstico F. Se trata pues del propio anova.
(ii) Si dimV [W = 1 puede probarse que t
1
sigue, salvo una constante, una distribucion T
2
-
Hotelling, lo cual permite formular un test UMP-invariante y de razon de verosimilitudes.
Si, ademas, p = 1, estaremos hablando del test de Student.
Dado que en el caso b > 1 el Principio de Invarianza no propicia una simplicaci on completa
de la informaci on, el problema se ha abordado historicamente acogiendose a otros diferentes
principios estadsticos que conducen a respectivas soluciones razonables que pueden expresarse
a partir de los mencionados autovalores. De esta manera aparecen en la literatura estadstica
cuatro tests diferentes (Wilks, Lawley-Hotelling, Roy y Pillay), aunque nos centraremos aqu en
el test de Wilks por dos razones: por ser el TRV y por que facilita el algoritmo de selecci on de
variables en regresion lineal, lo cual es especialmente interesante en el analisis discriminante
lineal. De (2.28) se sigue que el estadstico de contraste del test de Wilks, es decir, la razon de
verosimilitudes, es la siguiente:
(Y) =
[S
3
[
[S
2
+ S
3
[
(2.38)
Ejercicio 39. Probar que (Y) puede expresarse a traves de t
1
, . . . , t
b
mediante
(Y) =
b

i=1
(1 +t
i
)
1
(2.39)
Se demuestra en Arnold (1981) que, bajo la hipotesis nula, (n dimV ) log converge en
distribuci on a
2
pdimV |W
cuando n tiende a innito. Este resultado es incluso cierto aunque no
se respete el supuesto de normalidad, siempre y cuando el dise no de la muestra respete ciertas
condiciones razonables. En denitiva, para muestras de gran tama no utilizaremos la distribu-
ci on
2
como referencia, aunque el programa SPSS puede trabajar con otras aproximaciones a
la distribucion F.
Tambien se recogen en Arnold (1981), Dillon y Goldstein (1984), Flury (1996) y Rencher
(1995), entre otras referencias, diversos tests para contrastes de hip otesis relativos a la matriz
de covarianzas implementados en los programas estadsticos, como el test M de Box, el de
esfericidad de Barlett y algunos otros, que no abordamos aqu por brevedad y dado que son
sensibles ante la violaci on del supuesto de normalidad.
30 CAP

ITULO 2. MODELO LINEAL MULTIVARIANTE


Captulo 3
Aplicaciones del modelo
En este captulo desarrollaremos los cuatro problemas estadsticos formulados en los ejem-
plos 5-8 de la p agina 27 del captulo anterior, cuyo denominador com un es que se formalizan
mediante el modelo lineal multivariante. A nadimos adem as un apartado dedicado al analisis de
correlaci on canonica, relacionado directamente con el problema de regresi on lineal multivarian-
te, y una seccion dedicada al analisis de perles, relacionado con los tres problemas restantes.
Por ultimo, ilustraremos con un ejemplo algunas de las tecnicas estudiadas. En los distintos
casos se aplicar an los metodos teoricos de estimaci on y contraste de hip otesis expuestos en el
captulo anterior. Se da por supuesto que el lector conoce ya las tecnicas univariante analo-
gas (test de Student para muestras independientes y relacionadas, anova de una va y estudio
de regresi on lineal m ultiple), que puede consultar, por ejemplo, en Pe na (2010). A lo largo
del captulo se har a uso del siguiente resultado, com unmente conocido como teorema de los
multiplicadores nitos de Langrange, que permite obtener valores extremos para una funcion
denida en R
p
bajo una serie de restricciones.
Lema 3.0.1. Sean k < p enteros y y f funciones derivables de R
p
en R y R
k
, respectivamente,
tales que existe m ax(x) : f(x) = 0 alcanz andose en c R
p
. Entonces, existe R
k
tal
que _(

f)(c) = 0.
3.1. Inferencia para una media
Desarrollamos aqu el ejemplo 5 de la p agina 27. Partimos pues de una muestra aleatoria
simple de una distribuci on p-normal, es decir,
Y
1
, . . . , Y
n
iid N
p
(, ) (3.1)
de tal forma que la matriz de datos Y sigue un modelo de distribuci on N
n,p
(, Id, ) con
V = 1
n
y > 0. Den otese por y el vector de medias (y[1], . . . , y[p])

y por S la matriz
de covarianzas muestral. Podemos probar entonces los siguientes resultados.
Proposicion 3.1.1. Los EIMV de y son = 1
n
y

y

=
n
n1
S, respectivamente.
Proposicion 3.1.2. n(y )

S
1
(y ) T
2
p,n1
De la proposici on 3.1.2 se sigue que el siguiente conjunto de R
p
es una regi on de conanza
a nivel 1 para la media .
c

(Y) =
_
x R
p
: n(y )

S
1
(y ) T
2,
p,n1
_
(3.2)
31
32 CAP

ITULO 3. APLICACIONES DEL MODELO


Esta regi on geometrica es un elipsoide cuyo centro es y y cuya forma viene dada por S. Si
pretendemos contrastar la hip otesis inicial H
0
: = 0, que equivale a W = 0, la proposicion
3.1.2 invita confrontar con la distribuci on T
2
p,n1
el estadstico de contraste
T
2
(Y) = ny

S
1
y (3.3)

Este es precisamente el test UMP-invariante y de raz on de verosimilitudes que se propone en el


captulo anterior para este caso particular, donde se da la circunstancia de que dimV [W = 1.
Tanto el elipsoide (3.2) como el estadstico de contraste (3.3) pueden expresarse en terminos
de la distancia de Mahalanobis D
2
S
denida en (1.34). Concretamente,
T
2
(Y) = nD
2
S
(y, 0) (3.4)
Ejercicio 40. Probar que S
1
> 0
Ejercicio 41. Probar que, en , p = 1, el test (3.3) es el de Student para una muestra.
Por otra parte, del Teorema Central el Lmite y la Ley Debil de los Grandes N umeros se
sigue:
Proposicion 3.1.3. Si Y
1
, . . . , Y
n
iid con media y componentes en L
2
, entonces se verica la
siguiente convergencia en distribuci on:
lm
n
nD
2
S
(y, ) =
2
p
(3.5)
Este resultado otorga validez asint otica al test propuesto aunque no se verique el supuesto
de normalidad. Notese tambien que podemos construir una region de conanza a nivel 1 sin
utilizar tecnicas multivariantes, calculando para cada componente del vector respuesta Y un
intervalo de conanzas a nivel 1

y componiendo entonces un rectangulo en dimensi on p.


El valor de

puede determinarse mediante de manera conservadora mediante la desigualdad


de Bonferroni:
P
_
m

i=1
A
i
_
1
m

i=1
P
_
A
c
i
_
(3.6)
Figura 3.1: Rect angulo y elipse de conanza

El elipsoide (3.2) delimita una regi on del espacio de menor tama no que el del rect angulo,
siendo mayor su diferencia cuanto mayor sea la correlaci on entre las variables. Ello es debido a
que el metodo univariante no hace uso en ning un momento de las covarianzas y, por lo tanto,
emplea menos informacion que el multivariante.
Si las componentes del vector aleatorio Y fueran incorreladas (independientes bajo el su-
puesto de p-normalidad) el rectangulo anterior podra construirse sin recurrir a la desigualdad
de Bonferroni (3.6) y tendra un area similar al de la elipse, cuyos ejes coincidiran con los ejes
de coordenadas. En ese caso no procedera el uso de metodos multivariantes.
3.2. INFERENCIA PARA DOS MEDIAS 33
3.2. Inferencia para dos medias
En esta seccion desarrollamos el ejemplo 6 de la p agina 27. Se trata pues de estudiar la
posible relacion entre un vector respuesta p-dimensional Y y un factor cualitativo que distingue
dos categoras. Partimos de dos muestras independientes de sendas distribuciones p-normales
con matriz de covarianzas com un
_
Y
11
, . . . , Y
1n
1
iid N
p
(
1
, )
Y
21
, . . . , Y
2n
2
iid N
p
(
2
, )
(3.7)
La matriz de datos Y sigue un modelo de distribuci on N
n
1
+n
2
,p
(, Id, ) con V = v
1
, v
2

y > 0.
Ejercicio 42. Construir los EIMV de y a partir de las medias aritmeticas y
1
, y
2
R
p
de
ambas muestras.
Ejercicio 43. Probar que
n
1
n
2
n
1
+n
2
D
2

(y
1
, y
2
) T
2
p,n
1
+n
2
2
(), = D
2

(
1
,
2
) (3.8)
Si pretendemos contrastar la hipotesis inicial H
0
:
1
=
2
, (3.8) invita a confrontar con la
distribuci on T
2
p,n
1
+n
2
el estadstico de contraste
T
2
(Y) =
n
1
n
2
n
1
+n
2
D
2

(y
1
, y
2
) (3.9)
En eso consiste precisamente el test UMP-invariante y de raz on de verosimilitudes que se
propone en el captulo anterior para este caso particular, donde se da la circunstancia tambien
de que dimV [W = 1. Como en la secci on anterior, estamos tambien en condiciones de garantizar
la validez asint otica del test aunque no se verique el supuesto de p-normalidad si n
1
, n
2

; tambien podemos garantizarla aunque no se verique el supuesto de homocedasticidad si,
adem as, n
1
/n
2
1. Si p = 1 el test propuesto es el conocido test de Student para dos muestras
independientes.
La hip otesis H
0
:
1
=
2
podra contrastarse prescindiendo de tecnicas multivariantes
aplicando de manera independiente sendos tests de Student para cada una de las p componentes
del vector respuesta Y . En ese caso, los niveles de signicacion de cada test deberan calcularse
de manera conservadora mediante la desigualdad de Bonferroni. Adem as, no podemos descartar
que el metodo multivariante (3.9) aprecie diferencias signicativas entre ambas medias mientras
que ninguno de los tests de Student univariantes logre diferenciar las componentes de las
mismas. Hemos de ser conscientes, nuevamente, de que el metodo multivariante hace uso de
la informaci on que aportan las covarianzas, lo cual no se tiene en cuenta en ninguno de los p
tests de Student.
N otese tambien que la j-esima componente del vector respuesta, Y [j], es la proyecci on del
vector Y sobre el j-esimo eje de coordenadas. Si e
j
denota un vector unitario que lo determina,
podemos expresar Y [j] = e

j
Y . En general, para cada eje a con |a| = 1, podemos considerar
la proyecci on a

Y sobre a que da lugar a dos muestras independientes


_
a

Y
11
, . . . , a

Y
1n
1
iid N
p
(a

1
, a

a)
a

Y
21
, . . . , a

Y
2n
2
iid N
p
(a

2
, a

a)
(3.10)
y a una hip otesis inicial H
a
0
: a

1
= a

2
, que puede contrastarse a partir de los datos proyec-
tados mediante el test de Student. Concretamente, se confronta con la distribuci on t
n
1
+n
2
2
el
34 CAP

ITULO 3. APLICACIONES DEL MODELO


estadstico de contrate t
a
(Y) denido como t(Ya). Conocido Y, debe existir necesariamente un
eje a
1
que aporte un valor maximo para t
a
(Y). Mediante el lema 3.0.1 obtenemos la solucion
concreta
a
1
= S
1
c
(y
1
y
2
), S
c
=
(n
1
1)S
1
+ (n
2
1)S
2
n
1
+n
2
2
(3.11)
Es mas, si se denota
W
ij
[1] = a

1
Y
ij
, i = 1, 2, j = 1, . . . , n
i
(3.12)
se verica entonces que t
2
(W[1]) = T
2
(Y). En ese sentido podemos armar que distinguir las
dos muestras en dimension p es equivalente a distinguirlas en dimension 1 sobre el eje a
1
,
que se denomina (primer) eje discriminante. El vector de proyecciones W[1] = Ya
1
se denomina
vector de las (primeras) puntuaciones discriminantes. En la gura 3.2 el eje discriminante se
representa con lneas discontinuas:
Figura 3.2: Eje discriminante

.y2
.y1
<S
c
-1
(y
1
-y
2
)

3.3. Manova de una va
En esta secci on desarrollaremos el ejemplo 7 de la pagina 27 y ampliaremos el concepto de
eje discriminante. El problema supone una generalizacion del estudiado en la secci on anterior,
puesto que trata la relacion entre un vector respuesta p-dimensional Y y un factor cualitativo
que, en este caso, distingue entre r 2 categoras. Por lo tanto, partimos de un dise no,
denominado completamente aleatorizado, similar a (3.7) pero con r muestras independientes
de n
i
datos cada una. Mantendremos aqu la notaci on habitual del dise no de experimentos.
En particular, n denotar a la suma

r
i=1
n
i
. La matriz de datos Y sigue entonces un modelo de
distribuci on N
n
(, Id, ) con V = v
1
, . . . , v
r
y > 0. La hip otesis inicial a contrastar
en este caso es H
0
:
1
= . . . =
r
, que se corresponde con W = 1
n
. Si r > 2 y p > 1 se
verica, a diferencia de los dos estudios anteriores, que b, seg un se dene en (2.37), es mayor
que 1.
A pesar de que, desde un punto de vista practico, la comparaci on de 2 medias es un pro-
blema semejante a la comparaciones de r 3 medias, el ultimo estudio comporta una mayor
complicaci on formal dado que no puede resolverse en terminos de una distancia T
2
entre un
unico par de elementos. Por eso nos limitamos a aplicar la soluci on general del contraste ex-
puesta en el captulo anterior a este caso concreto: se obtienen t
1
. . . t
b
> 0, los autovalores
3.3. MANOVA DE UNA V

IA 35
positivos de S
1
3
S
2
, donde S
2
y S
3
se calculan seg un (2.36) y, a partir de los mismos, obtene-
mos el valor del estadstico de Wilks denido seg un (2.39); por ultimo, se confronta con la
distribuci on
2
p(r1)
el valor (n r) log (Y).
En el caso p = 1 el test obtenido es el anova de una va; en el caso r = 2 es el test (3.9); en
general se denomina manova de una va, que sera asintoticamente valido aunque no se verique
el supuesto de normalidad si n
1
, . . . , n
r
tienden a innito.
Desde este punto de vista, el problema de contrastar una hip otesis tipo H
0
: W se
reduce a obtener las matrices S
2
y S
3
adecuadas. En este caso particular, pueden obtenerse
trivialmente de manera similar a SCE y SCH en (2.26).
Ejercicio 44. Probar que
S
2
=
_
_
_
SCH
11
. . . SCH
1p
.
.
.
.
.
.
SCH
1p
. . . SCH
pp
_
_
_
, S
3
=
_
_
_
SCE
11
. . . SCE
1p
.
.
.
.
.
.
SCE
1p
. . . SCE
pp
_
_
_
(3.13)
donde, para h, k = 1, . . . , p,
SCH
hk
=
r

i=1
n
i
_
y
i
[h] y

[h]
_

_
y
i
[k] y

[k]
_
(3.14)
SCE
hk
=
r

i=1
n
i

j=1
_
Y
ij
[h] y
i
[h]
_

_
Y
ij
[k] y
i
[k]
_
(3.15)
Aunque no vamos a estudiar aqu dise nos de experimentos multivariantes con dos o mas
factores, el lector debe percatarse de que, si es capaz de resolver el problema en el caso univa-
riante, basta con proceder de manera an aloga a (3.14) y (3.15) para obtener la solucion general
para el caso multivariante.
El interes de estas dos ultimas secciones radica en la vinculaci on existente entre el manova
de una va y test (3.9), entendido como caso particular, con el LDA (an alisis discriminate lineal)
de Fisher. Por otra parte, el problema de comparaci on de medias en un dise no completamente
aleatorizado puede entenderse como un problema de regresi on lineal, multivariante en este caso,
respecto a r1 variables dummys de asignaci on a categoras, lo cual justica a su vez el estudio
del problema de regresi on lineal multivariante que desarrollamos en la siguiente seccion.
3.3.1. Ejes discriminantes
El concepto de eje discriminante introducido en la seccion anterior puede ampliarse cuando
el n umero de muestras es mayor que 2. Dado un eje a podemos considerar el estadstico de
contraste F
a
(Y) para la hip otesis inicial de igualdad de medias a partir de los datos proyectados
sobre dicho eje. Nuestro primer objetivo es encontrar el eje a
1
que lo maximiza. En el caso
r = 2 la solucion es (3.11).
Ejercicio 45. Probar que la soluci on general es el eje a
1
con
a
1
= arg m axa

S
2
a : a

S
3
a = 1 (3.16)
Ejercicio 46. Utilizando el lema 3.0.1, probar que F
a
1

(Y) =
nr
r1
t
1
, siendo t
1
el primer
autovalor de S
1
3
S
2
y a
1
un autovector asociado tal que a

1
S
3
a
1
= 1.
36 CAP

ITULO 3. APLICACIONES DEL MODELO


De esta forma construimos el primer vector de puntuaciones discriminantes W[1] = Ya
1
. El
proceso puede continuar en principio hasta completar p ejes discriminantes con sus respectivas
puntuaciones: el segundo eje discriminante a
2
se dene como aquel sobre el que debemos
proyectar Y para obtener un vector de puntuaciones W[2] = Ya
2
incorrelado con W[1] y con
F
a
2

(Y) m aximo, y as sucesivamente hasta obtener a


p
y el vector de puntuaciones W[p] = Ya
p
.
Los ejes discriminantes son los p autovectores de S
1
3
S
2
y los valores m aximos del estadstico
F son, salvo el escalar (n r)/(r 1), sus respectivos autovalores t
1
, . . . , t
p
. Dado que los
p b ultimos son necesariamente nulos, s olo se contemplan en la pr actica los b primeros, de
ah que en el caso r = 2 consideremos un unico eje discriminante. En denitiva, si A denota la
matriz pp cuyas columnas son los vectores a
1
, . . . , a
p
, podemos transformar la matriz de datos
originales Y en una matiz de identicas dimensiones con todas las puntuaciones discriminantes
W = Y A (3.17)
donde A verica
A

S
3
A = Id, A

S
2
A =
_
_
_
_
_
_
_
_
_
t
1
0 0 0
.
.
.
.
.
.
0 t
b
0 0
0 0 0 0
.
.
.
.
.
.
0 0 0 0
_
_
_
_
_
_
_
_
_
(3.18)
El siguiente resultado puede demostrarse a partir de (3.18) y (3.14) y es la clave denitiva
para entender los ejes discriminantes y el signicado de los autovalores t
1
, . . . , t
b
:
Ejercicio 47. Para todo k = 1, . . . , p, se verica:

r
i=1
n
i
_
W
i
[k] W

[k]
_
2
= t
k
(3.19)
Por otra parte, los autovalores t
1
> . . . > t
p
0 pueden entenderse como estimadores de
los autovalores probabilsticos
1
. . .
p
0 de la matriz
1

P
V |W
. La hip otesis inicial
H
0
(1) :
1
= 0 equivale a H
0
:
1
= . . . =
r
= 0, y se contrasta mediante el manova de una va
a partir de t
1
, . . . , t
b
, tomando como referencia la distribucion
2
p(r1)
. Sin embargo, la veracidad
de la hip otesis inicial H
0
(2) :
2
= 0 equivale en terminos intuitivos a que toda la discriminacion
entre las medias recaiga exclusivamente en el primer eje discriminante. La hip otesis H
0
(2) puede
contrastarse a partir de t
2
, . . . , t
p
y tomando como referencia la distribuci on
2
(p1)(r2)
. De esta
forma puede evaluarse la capacidad de discriminaci on de sucesivos ejes, aunque en la practica
la valoraremos directamente en terminos muestrales ponderando los autovalores t
1
, . . . , t
b
.
3.4. Regresi on multivariante
Desarrollamos aqu el ejemplo 8, lo cual da pie al an alisis de correlaci on can onica. El pro-
blema se expresa formalmente as: Y = X +c, donde c N
n,p
(0, Id, ) con > 0 y siendo
una matriz de dimensiones (q + 1) p del tipo (2.32). El problema de estimaci on de queda
resuelto en (2.35). En lo referente al problema de contraste de hip otesis, consideraremos dos
casos de especial interes.
3.4. REGRESI

ON MULTIVARIANTE 37
3.4.1. Contraste total: analisis de correlaci on canonica
Estudiamos primeramente el contraste de la hip otesis inicial H
0
: = 0 que, en terminos
de la media = X, se expresa mediante H
0
: W = 1
n
. Por lo tanto, dimV [W = q y
b = mnp, q. Se denotar a por (Y)(Z) el estadstico de Wilks para el contraste total.
Ejercicio 48. Probar que, en este caso, se verica
S
2
= nS
yz
S
1
zz
S
zy
(3.20)
S
3
= n[S
yy
S
yz
S
1
zz
S
zy
] (3.21)
El test de Wilks consiste en confrontar [n (q + 1)] log (Y)(Z) con con la distribuci on
2
pq
,
donde
(Y)(Z) =
b

i=1
(1 +t
i
)
1
, t
1
> . . . > t
b
> 0 autovalores positivos de S
1
3
S
2
(3.22)
Ejercicio 49. En el caso p = 1, que se corresponde con el problema de regresion m ultiple,
tenemos un unico n umero
t
1
=
R
2
1 R
2
(3.23)
Es decir que, si p = 1, el test total puede expresarse en funci on del coeciente de correlaci on
m ultiple (al cuadrado) denido en (1.28), seg un (3.23). En el caso multivariante p 1 podemos
generalizar la relacion anterior si denimos r
2
1
> . . . > r
2
b
> 0 como los autovalores positivos
de S
1
yy
S
yz
S
1
zz
S
zy
.
Ejercicio 50. Probar que
r
2
i
=
t
i
1 +t
i
t
i
=
r
2
i
1 r
2
i
, i = 1, . . . , b (3.24)
Los autovalores r
2
1
> . . . > r
2
b
> 0 se denominan coecientes de correlaci on canonica
muestrales (al cuadrado) y, seg un hemos visto, contienen informaci on relevante en el contraste
de la hip otesis H
0
: = 0. No obstante, podemos interpretarlos de manera m as clara.
En lenguaje probabilstico, si Y y Z son vectores aleatorios de dimensiones p y q, respec-
tivamente, buscamos
1
R
p
y
1
R
q
tales que las variables U
1
=

1
Y y V
1
=

1
Z tengan
varianza 1 y su correlacion sea maxima entre todas las proyecciones de Y y Z sobre sendos
ejes de R
p
y R
q
. En ese caso, los ejes obtenidos,
1
y
1
, se denominan primer par de ejes
can onicos, y (U
1
, V
1
), el primer par de variables canonicas. La correlacion entre ambas se denota
por
1
y se denomina primer coeciente de correlacion can onica. El siguiente paso es determi-
nar otro par de ejes y, por lo tanto, otro par de proyecciones (U
2
, V
2
), incorreladas con (U
1
, V
1
)
y con una correlacion entre s
2
m axima, y as sucesivamente hasta llegar a b = mnp, q.
Consideremos las siguientes matrices de dimensiones p p y q q, ambas de rango b:

1
yy

yz

1
zz

zy
(3.25)

1
zz

zy

1
yy

yz
(3.26)
Ejercicio 51. Probar que los b primeros autovalores de las matrices (3.25) y (3.26) coinciden
(no as sus respectivos autovectores).
La demostracion del siguiente resultado, que se recoge en el manual 59 de la UEx, se basa
fundamentalmente en el lema 3.0.1:
38 CAP

ITULO 3. APLICACIONES DEL MODELO


Teorema 3.4.1. Con las notaciones precedentes se verica:
(i)
2
1
. . . ,
2
b
son los b primeros autovalores de la matriz (3.25).
(ii)
1
, . . . ,
b
pueden obtenerse como autovectores de la matriz (3.25) asociados a
2
1
. . . ,
2
b
,
respectivamente. An alogamente,
1
, . . . ,
b
pueden obtenerse como autovectores de la
matriz (3.26) asociados a
2
1
. . . ,
2
b
, respectivamente.
En denitiva, los ejes can onicos permiten entender de manera mas natural la correlacion
lineal entre las variables respuestas y las explicativas.
_
_
_
Z
1
.
.
.
Z
q
_
_
_

_
_
_
V
1
.
.
.
V
b
_
_
_

_
_
_
U
1
.
.
.
U
b
_
_
_

_
_
_
Y
1
.
.
.
Y
p
_
_
_
Ejercicio 52. Expresar la denicion y el teorema anteriores en terminos muestrales.
Ejercicio 53. Probar que, dada una variable aleatoria real Y y un vector aleatorio Z de
dimensi on q, la maxima correlaci on lineal simple entre Y y una combinaci on lineal de las
componentes de Z,

Z, es el coeciente (1.18), y se obtiene con seg un (1.21).


Sabemos que la hipotesis inicial H
0
:
1
= . . . =
r
en un dise no completamente aleatoriza-
do equivale a H
0
: = 0 si parametrizamos el modelo como una regresion lineal multivariante
respecto a r 1 variables dummys. En ese caso, los autovalores t
1
, . . . , t
b
correspondientes al
manova de una va, que expresan la capacidad de discriminacion de los ejes discriminantes,
pueden calcularse a partir de S
2
y S
3
denidas seg un (3.20) y (3.21), siendo Z el vector de
variables dummys. No obstante, dichos autovalores se relacionan con los coecientes de co-
rrelaci on can onicos seg un (3.24). Por lo tanto, el propio manova de una va puede expresarse
en terminos de los coecientes de correlacion can onicos, calculados a partir de las variables
dummys, de la misma forma que el anova de una va se expresa en terminos del coeciente de
correlaci on m ultiple R
2
. Ademas, r
i
expresa al igual que t
i
el poder de discriminaci on del eje
a
i
, con la ventaja a la hora de interpretarlo de que esta acotado entre 0 y 1.
Ejercicio 54. Probar que los ejes discriminantes son los propios ejes can onicos que se obtienen
considerando como Z el vector de variables dummys (ver gura 4.2).
3.4.2. Contrastes parciales: metodo Lambda de Wilks
El otro tipo de contraste de interes est a relacionado con la depuracion del modelo mediante
los algoritmos de selecci on de variables. Se trata en esta ocasi on de contrastar hip otesis iniciales
del tipo H
0
:
j
1
= . . . =
j
k
= 0 para k < q y j
1
, . . . , j
k
1, . . . , q. La veracidad de esa
hip otesis conllevara suprimir del modelo un parte de la matriz Z que se denota por Z
D
y
est a compuesta por las columnas j
1
, . . . , j
k
, dando lugar a un modelo reducido con un nueva
matriz Z
R
/
n(qk)
.
Ejercicio 55. Probar que, si k = 1, el problema puede resolverse haciendo uso de la distribuci on
T
2
p,n(q+1)
que, salvo una constante, coincide con F
p,npq
.
En todo caso, se denota por (Y )(Z
R
[Z
D
) el estadstico de Wilks que resuelve este contraste.
El metodo de Wilks oferece una ventaja a la hora de elaborar un algoritmo de seleccion de
variables, pues los tests parciales pueden obtenerse a partir de los test totales para los diferentes
modelos reducidos.
Ejercicio 56. Probar que
(Y)(Z
R
[Z
D
) =
(Y)(Z)
(Y)(Z
R
)
(3.27)
3.5. AN

ALISIS DE PERFILES 39
Figura 3.3: Test de Wilks parcial
1
n
Z
R
Z
D

r
r
r
r
r
rj

B
1
n
Z
R

1
n

c
(Y )(Z
R
|Z
D
)
(Y )(Z)
(Y )(Z
R
)
En el caso de la regresion lineal multivariante, pomos considerar, adem as de los conocidos
algoritmos de selecci on de variables explicativas (hacia adelante, hacia atr as, pasos sucesivos),
otros para la selecci on de variables respuesta: dado cualquier j = 1, . . . , p, entendemos que el
vector Y[j] es prescindible en el modelo cuando, si consideramos un modelo de regresi on lineal
m ultiple con Y[j] como variable respuesta y Z, Y
R
como explicativas, Z debera ser eliminada
seg un el test parcial. Este criterio a la hora de seleccionar variables se relaciona con el concepto
probabilstico de independencia condicional.
Ejercicio 57. Probar que el contraste para Y[j] puede resolverse haciendo uso de la distribuci on
F
q,n(p+q)
.
Se denota no obstante mediante (Y
R
[Y[j])(Z) el estadstico de Wilks que resuelve este
contraste .
Ejercicio 58. Teniendo en cuenta (3.27), probar que
(Y
R
[Y[j])(Z) =
(Y)(Z)
(Y
R
)(Z)
(3.28)
Si estamos relacionando un vector numerico Y con un factor cualitativo que distingue r
categoras y parametrizamos el modelo mediante r 1 variables dummys recogidas en una ma-
triz Z, podemos aplicar una selecci on de variables respuesta para determinar que componentes
de Y guardan una relacion esencial con el factor. El metodo Lambda de Wilks se dene como
el algoritmo de seleccion hacia adelante de variables respuestas seg un el test (3.28), y ser a de
utilidad en el captulo 4.
Ejercicio 59. Probar que, en la fase j-esima del algoritmo Lambda de Wilks, se introduce
la variable que, a nadida a las j 1 ya incluidas anteriormente, aporta una resultado m as
signicativo en el manova de una va.
3.5. Analisis de perles
Se trata de una tecnica que generaliza el test de Student para muestras relacionadas y da
sentido al contraste H
0
: = 0 estudiado en la primera seccion del captulo. Este metodo puede
considerarse una alternativa m as robusta al an alisis de medidas repetidas (ver Arnold (1981)
y Hair et al. (1999)).
En ocasiones resulta interesante estudiar la evoluci on de una car acter numerico a lo largo
de una secuencia temporal con p mediciones. En ese caso, contaremos con un vector Y p-
dimensional, de manera que la hip otesis inicial H
0
: [1] = . . . = [p] se interpreta como una
ausencia de evoluci on, al menos por termino medio. Tambien puede ser interesante comparar
las evoluciones en distintas categoras de un factor cualitativo, como en el ejemplo que se recoge
40 CAP

ITULO 3. APLICACIONES DEL MODELO


en la gura 3.4, que corresponde del dolor durante seis meses distinguiendo tres tratamientos.
Fueron recogidos por el Departamento de Fisioterapia de la UEx.
Figura 3.4: Perles tres tratamientos
En este caso, que los tres tratamientos tengan efectos identicos por termino medio equivale
a la hipotesis inicial H
0
:
1
=
2
=
3
del dise no completamente aleatorizado, que se contrasta
mediante el manova de una va. No obstante, tambien puede resultar de interes contrastar, por
ejemplo, el paralelismo de los perles, que se interpreta como una evolucion similar desde la
fase inicial. Si contamos con solo p = 2 mediciones, una inicial y otra nal, estaremos ante un
dise no conocido como de muestras relacionadas. Se resuelve calculando la diferencia D, con
media , entre las dos fases. De esta forma, la hip otesis inicial H
0
: [1] = [2] equivale a = 0
y se contrasta mediante el test de Student para una muestra aplicado a D. La hip otesis inicial
de paralelismo entre los r perles equivale a
1
= . . . =
r
y se contrasta mediante el anova de
una va.
Sin embargo, cuando consideramos m as de 2 fases debemos calcular la diferencia entre cada
variable y la anterior, dando lugar a un vector D en dimensi on p 1. La hip otesis inicial
H
0
: [1] = . . . = [p] se contrasta mediante el test (3.3) aplicado a D, y la de paralelismo
entre los r perles, mediante el manova de una va.
3.6. Ejemplo: manova para irisdata
En el conocido archivo de datos de Fisher se recogen p = 4 variables numericas relacionadas
con la morfologa de los lirios en n
1
= 50 ores de la especie setosa, n
2
= 50 de vesicolor y
n
3
= 50 de virgnica. En la gura 3.5 se recoge el diagrama de dispersi on matricial.
3.6. EJEMPLO: MANOVA PARA IRISDATA 41
Figura 3.5: Dispersi on matricial para irisdata
petwidt petleng sepwidt sepleng
s
e
p
l
e
n
g
s
e
p
w
i
d
t
p
e
t
l
e
n
g
p
e
t
w
i
d
t
virginica
vesicolor
setosa
species
Pgina 1
Si pretendemos relacionar la especie con la morfologa de la or, debemos ejecutar prime-
ramente un manova de una va para contrastar la hipotesis inicial H
0
:
1
=
2
=
3
. Los
resultados quedan recogidos en los cuadros 3.1, 3.2, 3.3 y 3.4.
En el cuadro 3.2 llama la atenci on el elevado valor de r
1
= 0.985, lo cual indica una gran
capacidad del primer eje discriminate para distinguir entre especies. El resultado del manova
es signicativo, seg un el cuadro 3.3. El segundo eje discriminante posee sin embargo un escaso
poder de discriminaci on.
La variable que guarda una mayor relaci on con la especie es petleng, pues es la que aporta
un anova m as signicativo, que se asocia a un R
2
= 0.941 respecto a las dos variables dummys,
seg un se aprecia en el cuadro 3.1. Ello explica que haya sido la primera en ser incluida en el
modelo seg un el metodo Lambda de Wilks. Finalmente entran las cuatro en el modelo, tal y
como indica el cuadro 3.4.
42 CAP

ITULO 3. APLICACIONES DEL MODELO


Cuadro 3.1: Anovas de una va
Sig. F
Media
cuadrtica gl
Suma de
cuadrados
tipo III
sepleng
sepwidt
petleng
petwidt
Modelo corregido
,000 960,007 40,207 2 80,413
d
,000 1180,161 218,551 2 437,103
c
,000 49,160 5,672 2 11,345
b
,000 119,265 31,606 2 63,212
a
Origen Variable dependiente Origen Variable dependiente
Anova de una va
a. R cuadrado =,619 (R cuadrado corregida =,614)
b. R cuadrado =,401 (R cuadrado corregida =,393)
c. R cuadrado =,941 (R cuadrado corregida =,941)
d. R cuadrado =,929 (R cuadrado corregida =,928)
Pgina 1
Cuadro 3.2: Autovalores y correlaciones can onicas
Correlacin
cannica % acumulado % de varianza Autovalor
1
2 ,471 100,0 ,9 ,285
a
,985 99,1 99,1 32,192
a
Funcin Funcin
Autovalores
a. Se han empleado las 2 primeras funciones discriminantes
cannicas en el anlisis.
Pgina 1
Cuadro 3.3: Test de Wilks
Sig. gl Chi-cuadrado
Lambda de
Wilks
1 a la 2
2 ,000 3 36,530 ,778
,000 8 546,115 ,023
Contraste de las funciones Contraste de las funciones
Lambda de Wilks
Pgina 1
Cuadro 3.4: Metodo Lambda de Wilks
Introducidas Sig. gl2 gl1 Estadstico
F exacta
Lambda de Wilks
1
2
3
4 ,000 288,000 8 199,145 sepleng
,000 290,000 6 257,503 petwidt
,000 292,000 4 307,105 sepwidt
,000 147,000 2 1180,161 petleng
Paso Paso
Variables introducidas/excluidas
En cada paso se introduce la variable que maximiza F exacta
Pgina 1
Captulo 4
Problema de clasicaci on
En este captulo vamos a abordar el problema de clasicaci on de una unidad experimental
respecto a r categoras posibles a partir de la medici on de p variables numericas. Por ejemplo,
mediante los datos recogidos en el archivo irisdata podemos elaborar una estrategia para deter-
minar a que especie (setosa, virgnica o vesicolor) pertenece un lirio a partir de la observaci on de
sus cuatro medidas morfol ogicas (petlength, petwidth, seplength y sepwidth). Desde el punto
de vista formal y al igual que sucede en el dise no completamente aleatorizado, contamos con un
vector numerico Y p-dimensional y un factor cualitativo con r categoras que deberan guardar
una fuerte relaci on, es decir, el vector Y debe ser valido para discriminar entre las categoras.
En ese sentido, el problema de clasicaci on puede entenderse como el reverso de una moneda
cuyo anverso es el manova de una va. La diferencia entre ambos problemas estriba en los roles
que desempe nan el vector numerico y el factor cualitativo en cada caso, como se ilustra en la
gura 4.1.
Figura 4.1: Manova y clasicacion
Manova

Clasificacin








Reduccin=maximizacin




Varianza intragrupo




Varianza intergrupo Correlacin



Variables dummy

Factor cualitativo Variables numricas
Problema
Clasificacin
Estrategia
Fisher

Manova
Regresin
Multivariante
Correlacin
Cannica
Reduccin de la
dimensin
Ejes Principales
Ejes Discriminantes Ejes Cannicos
4.1. Planteamiento general
El problema de clasicaci on se enmarca en el contexto teorico de la Teora de la Decision,
pues buscamos una estrategia adecuada para decidir a que categora pertenece una observacion
en R
p
. Nuestro prop osito es entender c omo se afronta este problema en el caso sencillo de que
existan s olo dos categoras para extenderlo despues de manera natural al caso general de r
categoras. No consideraremos aqu ninguna funci on de perdida o costes para nuestro problema
de decision y supondremos inicialmente que las distribuciones de probabilidad del modelo son
continuas. En general, los elementos b asicos de la Teora de la Decisi on pueden encontrarse
en Nogales (1998). Para un desarrollo mas detallado de este problema concreto remitimos al
lector a Anderson (1958).
Si tenemos que decidir si una observacion y R
p
proviene de un modelo de distribucion P
1
,
con densidad p
1
o, por el contrario, se explica por un modelo P
2
, con densidad p
2
, cualquier
estrategia no aleatoria S se identicara con una biparticion medible del espacio R
p
. Los riesgos
43
44 CAP

ITULO 4. PROBLEMA DE CLASIFICACI

ON
R
S
(1) y R
S
(2) asociados a dicha estrategia se pueden calcular entonces a partir de p
1
y p
2
de
forma trivial.
Podemos considerar un preorden _ en la familia de las estrategias de manera que S
1
_ S
2
cuando R
S
1
(i) R
S
2
(i), para i = 1, 2. Se dice S
1
~ S
2
cuando alguna de las desigualdades es
estricta. Nuestro objetivo no es encontrar un elemento maximal si no una subfamilia completa
maximal, es decir, tal que cualquier estrategia fuera de la clase sea mejorada estrictamente por
alguna de dentro y no exista ninguna de dentro mejorada estrictamente por alguna otra. Se
puede probar que dicha subfamilia esta constituida por las estrategias de Bayes S
q
: q [0, 1].
Cada q [0, 1] se identica con la probabilidad a priori que asigna probabilidad q a P
1
. Por otra
parte, S
q
denota la estrategia que minimiza el riesgo R
q
S
de Bayes, denido como combinacion
convexa entre los riesgos mediante
R
q
S
= qR
S
(1) + (1 q)R
S
(2) (4.1)
En esta ocasion podemos hablar de un orden y estamos en condiciones de encontrar un elemento
q-maximal S
q
, que consiste en asignar y R
p
a P
1
cuando
p
1
(y)
p
2
(y)

1 q
q
(4.2)
As pues, debemos seleccionar una estrategia de este tipo, dependiendo del valor de q que
queramos considerar. Si no estamos en condiciones de proponer una distribucion a priori,
podemos optar por escoger la estrategia minimax, que es el elemento maximal para el orden
denido a partir del maximo de los riesgos. Puede probarse que se trata de la estrategia Bayes
S
0.5
, es decir, la que corresponde a una probabilidad a priori uniforme, y que R
S
0.5
(1) = R
S
0.5
(2).
Es esta la que adoptaremos por defecto, teniendo en cuenta que cualquier otra estrategia
Bayes no es sino un correccion trivial de la misma en funcion de las probabilidades a priori
consideradas. Seg un (4.2), la estrategia minimax consiste en asignar y a P
1
cuando se verica
p
1
(y) p
2
(y) (4.3)
es decir, se asigna la observaci on a la distribuci on que la hace m as verosmil. Se trata pues de
una aplicaci on directa del Principio de M axima Verosimilitud y esta es la idea fundamental
que debe prevalecer. En el caso general de r categoras se procede de forma identica, asignando
y a P
i
cuando
p
i
(y) p
j
(y), j ,= i (4.4)
Metodo n ucleo de estimacion de densidades: Teniendo en cuenta (4.4), es obvio como
deberamos resolver el problema si dispusieramos de adecuadas estimaciones de las funciones
de densidad: asignando y a P
i
cuando
p
i
(y) p
j
(y) j ,= i (4.5)
Describiremos aqu heursticamente el denominado metodo del n ucleo de estimacion de densi-
dades, empezando por el caso univariante. Para un estudio m as detallado remitimos al lector
a Silverman (1986).
Supongamos que contamos con una muestra aleatoria y
1
, . . . , y
n
, correspondiente a una
determinada distribucion continua con funcion de densidad p y queremos estimar el valor de p
en y, que se denota p(y). Para ello escogemos un n umero > 0, que denominaremos ancho de
banda, y consideramos el intervalo [y , y +], de amplitud 2. Si N(y) denota la cantidad de
datos de la muestra en el anterior intervalo y n es sucientemente grande, se sigue de la Ley
4.2. AN

ALISIS DISCRIMINATE LINEAL 45


Debil de los Grandes N umeros que P
_
[y , y +]
_
N(y)/n. Por otra parte, si es peque no
se verica por el Teorema Fundamental del Calculo que P
_
[y , y + ]
_
p(y) 2, lo cual
nos induce a denir para cada y R
p
el estimador p(y) = N(y)/(2n). Si queremos expresar
p en funci on de los datos de la muestra, hemos de tener en cuenta que un dato y
i
pertenece
al intervalo anterior si, y s olo si,
1
[y
i
y[ 1. Denimos entonces la funci on (denominada
n ucleo)
K(u) =
_
1
2
si [u[ 1
0 si [u[ > 1
, u R. (4.6)
De esta forma,
p(y) =
1
n
n

i=1
K
_
y y
i

_
, x R (4.7)
En el caso multivariante (dimensi on p) no consideramos intervalos de amplitud 2 centrados
en y sino cubos de volumen 2
p

p
, y el n ucleo K
p
asigna el valor 2
p
a un punto u cuando
|u|

1. De esta forma, la funcion de densidad se estima reemplazando en (4.7) K por


K
p
y por
p
. No obstante, la funci on de densidad estimada ser a de tipo escalonado. Un
procedimiento com unmente utilizado para suavizarla es considerar, en vez del n ucleo anterior,
el siguiente:

K(u) =
1
(2S)
p/2
exp
_

1
2
u

S
1
u
_
, u R
p
, (4.8)
donde S es la matriz de covarianzas muestral. As, la funci on de densidad se estima mediante
p(y) =
1
n
p
(2S)
p/2
n

i=1
exp
_

1
2
2
(y y
i
)

S
1
(y y
i
)
_
(4.9)
Podemos comprobar que la funci on anterior se trata, efectivamente, de una densidad. Una vez
estimadas las densidades de las distintas categoras procederemos a establecer las regiones de
clasicaci on seg un (4.5). En la literatura estadstica encontramos n ucleos diferentes a (4.8),
denominado gaussiano, como el triangular, el del coseno o de Epanechnikov, entre otros. Hay
que tener en cuenta que la estimaci on de las densidades, y por tanto la estrategia de clasi-
caci on, depende de la elecci on del n ucleo K y del ancho de banda . Diversos trabajos vienen
a convencernos de que la elecci on del n ucleo es poco determinante. Sin embargo, la eleccion
del ancho de banda s lo es. No podemos hablar, desde luego, de un ancho de banda universal,
sino que debe depender del problema considerado. La selecci on de un ancho de banda excesiva-
mente grande tender a a estimar la densidad demasiado plana, mientras que uno excesivamente
peque no la estimar a de manera excisivamente abrupta.
Otro inconveniente a tener en cuenta es la denominada maldicion de la dimension, que
consiste en que el n umero de datos requerido para lograr una estimacion satisfactoria de la
densidad crece exponencialmente en relaci on con la dimension considerada. Por lo tanto, cuan-
do tengamos un amplio n umero de variables precisaremos de una cantidad ingente de datos
para obtener una estimacion able de la densidad. Eso explica el hecho de que sigamos hacien-
do hincapie aqu en el metodo tradicional para clasicar observaciones, denominado An alisis
Discriminante Lineal (LDA), debido a Fisher.
4.2. Analisis Discriminate Lineal
En la Estadstica Parametrica es muy frecuente partir del supuesto de normalidad a la
hora de formular un modelo cuyos estimadores y tests de hip otesis podran tener distintos
46 CAP

ITULO 4. PROBLEMA DE CLASIFICACI

ON
comportamiento ante casos reales en los que este supuesto no se cumpla. En el contexto del
modelo lineal normal, al supuesto de normalidad se le a nade el de igualdad de varianzas o de
matrices de covarianzas. Eso es precisamente lo que vamos a hacer ahora, al menos en primera
instancia. Para aplicar la estrategia (4.5) precisamos conocer aproximadamente las distintas
funciones de densidad. Si no somos capaces de aportar una estimacion con garantas de las
mismas, podemos suponer que las r distribuciones en juego siguen modelos p-normales con
identica matriz de covarianzas, es decir, P
i
= N
p
(
i
, ), para i = 1, . . . , r. Sabemos que el
par ametro (
i
, ) se relaciona con la observacion y a traves de la distancia D
2

(y, ), denida
en (1.34), de manera que la estrategia (4.4) consiste en asignar y a la media (distribucion) mas
cercana seg un dicha metrica. Es decir, se asigna a la distribuci on P
i
cuando
D
2

(y,
i
) D
2

(y,
j
), j ,= i (4.10)
Ejercicio 60. Probar (4.10).
Desde un punto de vista Bayesiano y dada una probabilidad a priori concreta, la estrategia
Bayes correspondiente consistira en corregir la anterior mediante una serie de sumandos que
dependen de la distribuci on a priori y que valen 0 en el caso de la distribuci on a priori uniforme.
Pero, desde una perspectiva pr actica, (4.10) no es viable pues, a los sumo, estaremos en las
condiciones del ejemplo 7 y contaremos simplemente con r conjuntos de observaciones en R
p
,
Y
i1
, . . . , Y
in
i
, i = 1, . . . , r, que suman un total de n =

i
n
i
datos, y que supondremos muestras
aleatorias simples e independientes de sendas distribuciones N
p
(
i
, ). El metodo de sustitucion
nos sugiere dise nar la estrategia reemplazando en (4.10) los par ametros probabilsticos por
estimadores de los mismos. Dado que estamos en las condiciones del modelo lineal normal
multivariante y teniendo en cuenta (2.33), consideraremos como estimador de
i
a la media
muestral Y
i
de la categora i-esima; como estimador de tomaremos (nr)
1

i
n
i
S
i
, siendo
S
i
la matriz de covarianzas muestral de la i-esima categora.
En ese caso, dada una observaci on aleatoria Y R
p
, la estrategia LDA de Fisher la asig-
nar a a la distribucion cuya media muestral minimice la distancia D
2

, es decir, se asigna la
observacion a la categora i-esima cuando
(Y Y
i
)

1
(Y Y
i
) (Y Y
j
)

1
(Y Y
j
), j ,= i (4.11)
Cada desigualdad en (4.11) da lugar a la divisi on del R
p
en dos semiespacios cuya frontera
es una subvariedad afn (p 1)-dimensional, de ah que esta estrategia se denomine lineal (de
Fisher) para diferenciarse de la cuadr atica (de Fisher tambien), que veremos m as adelante, en
la cual R
p
estar a fragmentado por cuadricas.
Como ejemplo, utilizaremos el archivo irisdata de Fisher para intentar clasicar una or
entre las tres especies consideradas en funcion de sus cuatro medidas morfologicas. El programa
SPSS dise na la estrategia LDA a partir de los datos ya asignados a categoras y es capaz de
clasicar en funci on de la misma cualquier otro dato que aparezca desagrupado. Tambien recla-
sica seg un la estrategia los propios datos agrupados, como el caso que vemos a continuacion.
La reclasicaci on aporta una estimaci on de los riesgos de la estrategia, que son, seg un el cuadro
4.2, del 0 % para setosa, del 2 % para virginica y 4 % para vesicolor.
Seg un se indica en el cuadro 4.1, el dato uno se ha clasicado en el grupo 3 porque la media de
este minimiza la distancia de Mahalanobis. Tanto es as que el cociente p
3
(y)/

i
p
i
(y) 1, con
las densidades estimadas sustituyendo las medias y matrices de covarianzas por sus estimadores.
Por lo tanto, podemos considerarla una clasicaci on clara. De hecho, sabemos que es correcta.
4.2. AN

ALISIS DISCRIMINATE LINEAL 47


Cuadro 4.1: Reclasicacion seg un LDA
Discriminante
Grupo real
Grupo
pronosticado p
Distancia de
Mahalanobis
P(G=g |
D=d)

Grupo mayor
1 1,376 1,000 ,503 3 3
Nmero
de caso
Nmero
de caso
Pgina 1
Cuadro 4.2: Estimaciones de los riesgos LDA
Resultados de la clasificacin
a
50 0 0 50
0 48 2 50
0 1 49 50
100,0 ,0 ,0 100,0
,0 96,0 4,0 100,0
,0 2,0 98,0 100,0
species
setosa
vesicolor
virginica
setosa
vesicolor
virginica
Recuento
%
Original
setosa vesicolor virginica
Grupo de pertenencia pronosticado
Total
Clasificados correctamente el 98,0% de los casos agrupados originales. a.
Pgina 1
La estrategia lineal de Fisher, denida en (4.11), posee buenas propiedades asintoticas.
Concretamente, puede probarse que, en el caso r = 2, los riesgos de la misma convergen
asint oticamente al valor
_

1
2

f(x) dx (4.12)
siendo f la densidad de la distribuci on N(0, 1), y = D
2

(
1
,
2
). Se trata del parametro que
aparece en (3.8) en relaci on con el contraste de la hip otesis inicial H
0
:
1
=
2
, que se identica
con = 0. Por lo tanto, si
1
=
2
, la estrategia de Fisher se comportara asintoticamente como
un sorteo a cara o cruz. Sin embargo, a medida que las medias se alejan seg un la metrica de
Mahalanobis, los riesgos asint oticos tienden a 0. En la pr actica, que las distribuciones esten bien
diferenciadas suele ser mucho m as importante que el cumplimiento de los supuestos del modelo
de cara a lograr una estrategia con riesgos bajos, que es lo que a la postre nos interesa. Eso es
lo que ocurre con irisdata: no estamos en condiciones de asumir la normalidad ni la igualdad
de matrices de covarianzas, pero las tres especies consideradas se diferencian claramente seg un
sus medidas morfologicas, de ah el exito de la estrategia de Fisher, que queda patente en el
cuadro 4.2.
En denitiva, como arm abamos en la introducci on, el manova de una va y la estrategia de
clasicaci on lineal de Fisher comparten el mismo modelo, aunque en el primer caso es el factor
el que desempe na la funci on explicativa, mientras que en el segundo es el vector numerico. Un
resultado poco signicativo a la hora de comparar las medias no ofrece expectativas de exito en
la clasicaci on, justo al contrario que un resultado signicativo. Por eso decimos que el manova
y clasicacion son el anverso y el reverso de una misma moneda. De hecho, es el problema
de clasicaci on el que da pleno sentido al estudio del manova y, dado que este ultimo puede
entenderse como una regresi on multivariante respecto a las variables dummys, da sentido al
estudio de los coecientes de correlaci on can onicos, pues el contraste de igualdad de medias
puede expresarse en terminos de los mismos seg un (3.24).
Una vez hemos entendido el problema de clasicaci on como un problema de relacion entre
un vector aleatorio p-dimensional y un factor con r categoras, cobra especial interes el metodo
48 CAP

ITULO 4. PROBLEMA DE CLASIFICACI

ON
Figura 4.2: Esquema general
Manova

Clasificacin



Factor cualitativo Variables

Problema
Clasificacin
Estrategia
Fisher

Manova
Regresin
Multivariante
Correlacin
Cannica
de selecci on de variables Lambda de Wilks, estudiado en el captulo 3, pues permite desechar
aquellas componentes del vector que no aportan informacion particular en el problema de
clasicaci on.
4.2.1. LDA y ejes discriminantes
Ejercicio 61. Como caso particular probar que, si r = 2, la estrategia (4.11) consiste en
asignar Y a y
1
cuando
_
Y
1
2
(y
1
+ y
2
)
_

S
1
c
(y
1
y
2
) > 0 (4.13)
lo cual sugiere una partici on del espacio en funcion del eje discriminante denido en (3.11) y
que se representa en la gura 3.2.
Este resultado establece una primera conexi on entre los ejes discriminantes y el problema
de clasicaci on, que desarrollaremos en el caso general r 2. Las observaciones originales com-
ponen en principio un matriz Y /
np
, pero pueden expresarse tambien a traves de la matriz
W, denida en (3.17) mediante W = YA, cuyas columnas recogen las diferentes puntuaciones
obtenidas al proyectar sobre los ejes discriminantes, determinados por las correspondientes co-
lumnas de A. Proyectar sobre los ejes discriminantes puede entenderse como un cambio de
coordenadas. Podemos obrar de igual forma con cualquier vector aleatorio Y proyectandolo
sobre los ejes discriminantes para obtener W = A

Y . Dado que la proyeccion es una aplicacion


lineal, la media aritmetica de los datos proyectados coincide con la proyecci on de la media
aritmetica de los datos originales. De esta forma, la estrategia (4.11), expresada en terminos
de las puntuaciones discriminantes, asigna W a W
i
cuando, para todo j ,= i,
_
(A

)
1
(W W
i
)

1
_
(A

)
1
(W W
i
)

_
(A

)
1
(W W
j
)

1
_
(A

)
1(
W W
j
)

(4.14)
Dado que

= (n r)S
3
y en virtud (3.18), la estrategia de Fisher asigna W a la categora de
W
i
cuando, para todo j ,= i, |WW
i
|
2
|WW
j
|
2
. Es decir, cuando expresamos los datos en
terminos de las puntuaciones discriminantes se trata de minimizar la distancia eucldea. Para
cada categora i, la distancia eucldea a W
i
descompone en la siguiente suma:
|W W
i
|
2
=
p

k=1
(W[k] W
i
[k])
2
(4.15)
Se sigue entonces de (3.19) que, si k > b, dado que t
k
= 0, la puntuaci on discriminante
k-esima no tendra inuencia alguna en el problema de minimizaci on planteado. Luego, pode-
mos ignorar las puntuaciones discriminantes asociadas a autovalores nulos, de manera que el
problema queda reducido a minimizar distancias eucldeas en dimension b.
Si el valor de b es bajo podemos pues visualizar el problema de clasicaci on mediante un
gr aco b-dimensional. Por ejemplo, en el caso de irisdata, tenemos el diagrama de dispersion
de la gura 4.3. Para valores altos de b podemos visualizar igualmente el problema desechando
las puntuaciones discriminantes asociadas a autovalores peque nos pues, seg un (3.19), tendr an
4.2. AN

ALISIS DISCRIMINATE LINEAL 49


escasa inuencia en el problema de minimizaci on. Por ejemplo, en la gura 4.4 representamos
las tres primera puntuaciones discriminantes en un problema de clasicaci on respecto a 7
categoras, desechando pues la informacion aportada por los tres ultimos ejes discriminantes.
Para determinar si el eje discriminante i-esimo puede ser despreciado podramos en principio
resolver un contraste de hip otesis del tipo H
0
(i) :
i
= 0, seg un se ve en el apartado 3.3.1. No
obstante, este metodo requiere de supuestos te oricos relativos a la distribuci on de los datos
y, ademas, es muy conservador. Lo habitual es ponderar desde un punto de vista puramente
muestral los autovalores t
1
, . . . , t
b
.
Figura 4.3: LDA en irisdata
En el caso de irisdata (gura 4.3), podemos apreciar que el peso de la discriminacion recae
casi exclusivamente en la primera puntuaci on discriminante, seg un sabamos ya por el cuadro
3.2. En la gura 4.4 (izquierda) se aprecia cierta confusion entre algunas de las variedades de
aceituna a partir de 17 variables numericas mdeidas
1
al representar las dos primeras puntua-
ciones discriminantes. Sin embargo, la confusi on se resuelve en parte al introducir la tercera
puntuaci on, como se aprecia en la gura de la derecha.
4.2.2. Estrategia cuadratica de Fisher
Se trata de una generalizacion inmediata de la estrategia lineal. Se asume igualmente la
hip otesis de p-normalidad pero no se asume la igualdad de las r matrices de covarianzas. En
consecuencia, la estrategia consiste en modicar (4.11) reemplazando la estimaci on conjunta
de la matriz por las diferentes estimaciones S
i
de cada una de las matrices
i
. As pues, la
estrategia consiste en asignar Y a la media Y
i
cuando, para j ,= i, se verica
(Y Y
i
)

S
1
i
(Y Y
i
) (Y Y
j
)

S
1
j
(Y Y
j
) (4.16)
1
Datos recogidos en el INTAEX de Badajoz.
50 CAP

ITULO 4. PROBLEMA DE CLASIFICACI

ON
Figura 4.4: Variedades de aceituna: puntuaciones discriminantes 1, 2 y 3
Primera puntuacin discriminante
5,00000 2,50000 0,00000 -2,50000 -5,00000
S
e
g
u
n
d
a

p
u
n
t
u
a
c
i

n

d
i
s
c
r
i
m
i
n
a
n
t
e
5,00000
2,50000
0,00000
-2,50000
-5,00000
VERDIAL BADAJ OZ
PICUAL
MORISCA
CORNEZUELO
CORNICHE
CACEREA
CARRASQUEA
nvar
Pgina 1
Primera puntuacin discriminante
5,00000 2,50000 0,00000 -2,50000 -5,00000
T
e
r
c
e
r
a

p
u
n
t
u
a
c
i

n

d
i
s
c
r
i
m
i
n
a
n
t
e
6,00000
4,00000
2,00000
0,00000
-2,00000
-4,00000
VERDIAL BADAJ OZ
PICUAL
MORISCA
CORNEZUELO
CORNICHE
CACEREA
CARRASQUEA
nvar
Pgina 1
Al contrario de lo que suceda en la estrategia lineal, los terminos cuadr aticos no se anulan en la
inecuaci on, de ah el nombre. Para una mejor comprension de la estrategia, podemos proyectar
los datos sobre los primeros ejes discriminantes, aunque el gr aco no podra interpretarse en los
terminos anteriores.
En el caso de la clasicaci on de aceitunas seg un sus variedades, la estrategia cuadr atica
de Fisher disminuye ligeramente los riesgos de la lineal, al menos seg un es estima mediante la
reclasicaci on. No obstante, precisamos de metodos alternativos de clasicacion que presenten
diferencias m as radicales respecto al LDA. Estudiaremos muy brevemente algunos de ellos en
la siguiente seccion.
4.3. Metodos alternativos
En esta seccion expondremos esquem aticamente los tres metodos de clasicacion alternati-
vos al LDA mas populares, posiblemente, al margen de aquellos relacionados con la estimaci on
de densidades.
4.3.1. Regresi on logstica
Empezaremos describiendo lo m as esencial del modelo b asico binario, que corresponde a una
clasicaci on respecto a un factor cualitativo dicot omico, para extenderlo despues brevemente
al caso general o multinomial. Los detalles del modelo podemos encontrarlos en Dobson (1990).
Aunque exponemos el metodo como una alternativa al LDA, los supuestos te oricos de partida
que lo justican son los mismos, con la salvedad de que, en este caso, el factor cualitativo debe
ser, en principio, aleatorio. Es decir, contamos con un vector aleatorio Y con valores en R
p
y
una variable discreta I con valores 0 o 1, denidas sobre un mismo espacio de probabilidad.
Supondremos que la distribuci on marginal de I es tipo Bernoulli con par ametro q (0, 1) y
que la distribuci on condicional de Y dado I = i es N
p
(
i
, ), para i = 0, 1.
Ejercicio 62. Aplicando la regla de Bayes (2.7) probar que
P(I = 1[Y = y) = L
_
(
0
+y

)
_
(4.17)
4.3. M

ETODOS ALTERNATIVOS 51
donde

0
= log
1 q
q
+

0
, (4.18)
=
1
(
0

1
) (4.19)
Se denota por L la denomina funci on Logit, representada en la gura 4.5, que se dene
mediante
L(x) =
e
x
1 + e
x
, x R (4.20)
Figura 4.5: Funci on Logit
Al condicionar a partir de una muestra aleatoria simple de tama no n de (I, Y ) obtendremos
por lo tanto de un modelo lineal generalizado. En tal caso, el estimador de maxima verosimilitud
del parametro (
0
, ) se obtiene de manera iterativa en funci on de la muestra. Una estimaci on
adecuada permite conocer de manera aproximada que categora es m as probable para una
observacion concreta del vector Y .
Si el factor cualitativo distingue r > 2 categoras podemos aplicar el metodo de regre-
si on logstica multinomial. A grandes rasgos, consiste en una composici on de r 1 regresiones
logsticas tomando una categora como referencia. Cada una de estas regresiones permite esti-
mar la probabilidad de que un dato concreto pertenezca a una categora dada, dividida por la
probabilidad de que pertenezca a la categora de referencia. Si los r 1 cocientes resultan ser
inferiores a 1, el dato se asigna a la categora de referencia; en caso contrario, se asigna a la
que aporte un cociente maximo.
As pues, el metodo de regresion logstica requiere en principio supuestos muy similares al
LDA aunque es mas complejo desde un punto de vista formal y computacional. La popularidad
del metodo radica mayormente en el hecho de que facilita de manera explcita una ecuacion
de regresi on para explicar el factor cualitativo y en su robustez ante la presencia de variables
explicativas tambien cualitativas.
4.3.2. Vecino mas pr oximo
Dado un valor k = 1, 2 . . ., el metodo del vecino m as pr oximo para k (K-NN) es un proce-
dimiento de clasicaci on no parametrico pues no impone supuesto alguno sobre la distribucion
de los datos, salvo que las variables medidas deben ser numericas. El metodo se estudia con
detalle en Hastie et al. (2008). Resumidamente, se trata de asignar una observaci on Y R
p
a la
categora que tenga mayor presencia en el entorno de Y constituido por las k observaciones de
la muestra mas proximas. La cercana se eval ua en principio en funci on de la metrica eucldea
en R
p
, aunque pueden considerarse alternativas. La estrategia depende en gran medida del
valor de k seleccionado, de ah que, como mnimo, se precise tantear con diferentes valores y
seleccionar aquel cuya estrategia ofrezca menores riesgos estimados.
52 CAP

ITULO 4. PROBLEMA DE CLASIFICACI

ON
Figura 4.6: K-NN 94 %
x2
10,00 9,00 8,00 7,00 6,00 5,00
x
1
14,00
12,00
10,00
8,00
B
A
Grupo
Pgina 1
En la gura 4.6 persentamos el diagrama de dispersi on relativo a un vector con p = 2
variables en el cual distinguimos 2 categoras. Si pretendemos determinar una estrategia de
asignaci on a categoras, los riesgos estimados por reclasicaci on de la muestra son del 43 %
para LDA, 24 % para la alternativa cuadr atica, 45 % para la regresion logstica binaria y 6 %
para K-NN con k = 3. En casos como este se precisa pues una alternativa radicalmente diferente
a LDA.
Ejercicio 63. C omo se explica que la alternativa cuadr atica de Fisher mejore sustancialmente
la estrategia lineal en el ejemplo de la gura 4.6?
Ejercicio 64. Inuye la escala en que se miden las componentes de Y en la clasicaci on
seg un el metodo LDA? Inuye en la regresion logstica? Inuye en el metodo K-NN? Caso
de inuir, c omo podramos compensar ese hecho?
4.3.3.

Arbol de decision
Se trata de otro metodo no parametrico con una motivacion muy intuitiva pero con cierta
complejidad desde el punto de vista computacional. Se estudia con detalle en Hastie et al.
(2008). Se basa en el hecho de que cualquier funcion en L
2
puede aproximarse seg un la metri-
ca (1.4) por funciones simples. Una funcion simple puede entenderse como una particion del
espacio origen (que en este caso es R
p
, la imagen de Y ), y las sucesivas aproximaciones, como
subdivisiones o ramicaciones de las particiones anteriores.
Esta idea puede extenderse al caso de variables categ oricas considerando otros criterios
de aproximacion (por ejemplo el de Gini). El resultado constituye un arbol de decision que
determina un protocolo muy similar a los utilizados en el ambito biomedico.
En la gura 4.7 podemos apreciar el arbol de decision que ofrece el programa SPSS para
determinar la especie a la que pertenece un lirio a partir de sus medidas de petalo y sepalo. Se
han seleccionado aleatoriamente 71 lirios de la muestra y se ha establecido un algoritmo cuyos
riesgos de clasicaci on erronea son del 0 % para setosa y vesicolor y del 9 % para virgnica.
4.3. M

ETODOS ALTERNATIVOS 53
Figura 4.7:

Arbol de decisi on irisdata
Nodo 0
Categora % n
28,2 20 setosa
39,4 28 vesicolor
32,4 23 virginica
Total 100,0 71
petleng
Mejora=0,304
species
Nodo 1
Categora % n
100,0 20 setosa
0,0 0 vesicolor
0,0 0 virginica
Total 28,2 20
<=2,600
Nodo 2
Categora % n
0,0 0 setosa
54,9 28 vesicolor
45,1 23 virginica
Total 71,8 51
petleng
Mejora=0,303
>2,600
Nodo 3
Categora % n
0,0 0 setosa
93,3 28 vesicolor
6,7 2 virginica
Total 42,3 30
<=4,950
Nodo 4
Categora % n
0,0 0 setosa
0,0 0 vesicolor
100,0 21 virginica
Total 29,6 21
>4,950
setosa
vesicolor
virginica
Pgina 1
Validacion de la estrategia: Estimar los riesgos inherentes a una estrategia reclasicando
las observaciones que hemos utilizado para dise narla no es adecuado, y menos en metodos
como K-NN y el arbol de decision, que no se basan en suposiciones sobre las distribuciones
de los datos, sino que elaboran una explicacion ad hoc de la clasicaci on observada en la
propia muestra. Resulta mas apropiado estimar los riesgos a partir de datos cuya categora de
procedencia se conoce pero que no se han utilizado para dise nar la estrategia. Por ejemplo,
en el caso de la gura 4.7 se ha dividido la muestra en dos partes aproximadamente iguales:
una para dise nar la estrategia y otra para validarla. Si se estiman los riesgos de clasicaci on
incorrecta a partir de la segunda muestra, se obtiene 0 % para setosa, 9 % para vesicolor y 15 %
para virgnica. Igualmente, si en el ejemplo de la gura 4.6 se aplica el metodo KNN, elaborado
con la mitad de la muestra, a la otra mitad de la misma, se estima un riesgo del 10 %.
Hemos de tener presente que, en este tipo de metodos (K-NN, arbol de decision), si rena-
mos en exceso el algoritmo para explicar perfectamente la muestra, podemos estar perdiendo
capacidad de extrapolar los resultados a una muestra diferente. Es lo que se denomina sobre-
ajuste.
Ejercicio 65. Describe en que consiste el metodo K-NN con k = 1 y cu ales seran los riesgos
de reclasicacion err onea.
54 CAP

ITULO 4. PROBLEMA DE CLASIFICACI

ON
Captulo 5
Reduccion dimensional
En este captulo, el unico exclusivamente multivariante, se recogen una serie de tecnicas
que tienen por objetivo simplicar un conjunto de datos multidimensional, aunque centraremos
casi exclusivamente nuestro interes en el an alisis de componentes principales. El denominador
com un de estas tecnicas es que se fundamentan en ultima instancia en el teorema 1.4.1. Hay
que destacar que un estudio de este tipo se enmarca en una fase inductiva, pues el producto
nal no es la aplicaci on de un test de hipotesis sino un gr aco en dimensiones reducidas que
permita una primera visi on global de nuestra muestra, a partir de la cual podamos formular
distintas hip otesis. Por ello se ha optado por una redacci on del captulo en lenguaje muestral.
Ya hemos comentado que el n ucleo del captulo lo constituye el an alisis de componentes
principales, aunque esta tecnica puede considerarse un opcion particular del denominado an ali-
sis factorial. No parece existir unanimidad de criterios a la hora de catalogar y distinguir los
diferentes metodos. En este volumen se ha optado por presentarlos como un unica tecnica de
reducci on dimensional de car acter dual, que se denomina analisis de componentes principales
desde el punto de vista de la observaciones (las) y an alisis factorial desde el punto de vista de la
variables (columnas). Aunque existen variedades del an alisis factorial al margen del analisis de
componentes principales, nos hemos limitado a introducirlas brevemente. As mismo, el an alisis
de correspondencias, que en cierta forma puede entenderse como una extensi on del an alisis de
componentes principales, se presenta de forma muy escueta, y m as a un su generalizacion, que
es el an alisis de correspondencias m ultiple. Por ultimo se ha incluido una secci on en la que se
ilustra brevemente la utilidad del uso de componentes principales en un problema de regresi on
lineal m ultiple.
Desde el punto de vista teorico, debemos entender en esencia que el teorema 1.4.1 viene
a proponer un cambio de la base vectorial inicial, dada por las variables medidas, a una base
ortonormal constituida por los autovectores de la matriz de covarianzas. De esta transformacion
obtenemos nuevas variables, que se denominar an componentes principales incorreladas entre
s, lo cual puede permitir una comprension m as f acil de nuestros datos.
5.1. Componentes Principales
En esta secci on trataremos el problema de simplicar la dimensi on de un conjunto de
datos, pero desde el punto de vista de las observaciones, es decir, de las las de la matriz (1.1).
Debemos tener presentes la notacion introducida en el captulo preliminar y, en especial, la
distancia (1.32) denida en el conjunto de las matrices de dimension np. Por otra parte, dado
k p, se denota por 1
k
el conjunto de las subvariedades anes de dimension k en R
p
. Dada una
matriz X /
np
, con matriz de covarianzas muestral S, consideraremos su descomposici on
55
56 CAP

ITULO 5. REDUCCI

ON DIMENSIONAL
tipo (1.36) en funcion de sus autovalores d
1
, . . . , d
p
y sus respectivos autovectores, g
1
, . . . , g
p
,
pero distinguiendo entre los k primeros y los p k restantes mediante
S = (G
1
[G
2
)
_
D
1
0
0 D
2
__
G

1
G

2
_
(5.1)
El analisis de componentes principales (PCA) se basa en el siguiente resultado, que es conse-
cuencia del lema 1.4.2:
Teorema 5.1.1. Dados 0 k p y X /
np
con matriz de covarianzas S que descompone
seg un (5.1), se verica
mn
_
d
2
n,p
_
X, X
k
_
: X
k
i
H i n para alg un H 1
k
_
= tr(D
2
), (5.2)
y se alcanza con X
k
i
= x +P
G
1

(X
i
x).
La gura 5.1 ilustra el teorema anterior para un problema bidimensional.
Figura 5.1: Proyecci on de observaciones
T
E
X[1]

X[2]
r
dd
r d
d
r
d
d
r
dd
r
r d
d
r d
d
r d d
r
d
d
En el caso trivial k = 0, el teorema arma que el vector de R
p
constante por el que debemos
reemplazar las observaciones X
i
con el menor error cuadr atico posible es la media aritmetica
x, siendo la varianza total muestral, denida en (1.33), la medida de dicho error.
Ejercicio 66. Probar que s
2
T
=

p
j=1
d
j
A medida que aumenta el valor de k, la distancia respecto a la simplicacion X
k
disminuye
en parte. Expres andolo de manera inversa diramos que se explica una parte de la varianza
total, concretamente

k
j=1
d
i
. Salvo traslaciones, esta explicaci on optima para una subvariedad
afn k-dimensional se alcanza proyectando sobre el subespacio generado por los k primeros
autovectores. La proporcion de varianza total explicada por los mismos es pues

k
j=1
d
i
tr(S)
(5.3)
Que esta proporci on sea proxima a 1 para un valor de k bajo se traduce en que las n ob-
servaciones reales se encuentran muy pr oximas a una subvariedad afn de baja dimensi on, lo
cual equivale a un fuerte grado de correlacion lineal (afn) entre las variables medidas para los
datos observados.

Esa es la cualidad que permite obtener una reducci on dimensional profunda
mediante la tecnica PCA, cosa que parece mas factible bajo el supuesto de p-normalidad.
En lo que resta supondremos sin perdida de generalidad (ya veremos por que) que x = 0.
En ese caso y para cada j = 1, . . . , p, se denota U[j] = X g
j
, es decir, el vector de R
n
que recoge
las proyecciones de cada observaci on X
i
sobre el eje g
j
determinado por el j-esimo autovector
de S. Dicho eje se denomina j-esimo eje principal y U[j] se denomina j-esima componente
5.1. COMPONENTES PRINCIPALES 57
principal. Las p componentes principales ordenadas constituyen una nueva matriz U /
np
denida mediante
U = XG (5.4)
que expresa las coordenadas de X respecto de la base ortonormal can onica de autovectores G.
Dado k p, se denota por | la matriz n k compuesta por las k componentes principales,
cuyas las y columnas se denotar an con el mismo criterio que en (1.1). Por otra parte, se denota
E = (U[k + 1], . . . , U[p])G

2
/
np
. En ese caso, se sigue de (5.4) que
X = |G

1
+ E (5.5)
siendo |G

1
la matriz en M
nk
que permite alcanzar las distancia mnima a X en el teorema
5.1.1.
Ejercicio 67. Probar que las componentes principales son incorreladas entre s. Probar que
el primer eje principal es aquel sobre el que hay que proyectar las observaciones para obtener
una maxima varianza, que vale d
1
.
Ejercicio 68. Probar que el segundo eje principal es aquel sobre el que hay que proyectar
las observaciones para obtener la m axima varianza de entre todas la variables incorreladas con
la primera componente principal, que vale d
2
, y as sucesivamente. Probar que el ultimo eje
principal es aquel sobre el que hay que proyectar para obtener una mnima varianza.
Ejercicio 69. C omo se interpreta d
p
= 0? C omo se interpreta [[ = 0 para un vector
aleatorio con distribucion N
p
(, )?
As pues, los ejes principales resuelven el problema de maximizaci on de la varianza, mien-
tras que los ejes discriminantes, estudiados en los captulos 3 y 4, solucionan el problema de
maximizaci on relativo a la discriminacion entre categoras, que a su vez puede entenderse como
una maximizaci on de correlaciones lineales.
Figura 5.2: Ejes principales y discriminantes
Al contrario que en el caso de los ejes discriminantes, el problema de maximizacion de la
varianza es sensible ante cambios de escala en las variables medidas. En la gura 5.3 se ilustra
el efecto sobre el c alculo de los ejes principales de un cambio de escala en la variable del eje OY.
Sin embargo, podemos lograr articialmente un metodo de reducci on dimensional invariante
ante cambios de escala si trabajamos con las variables tipicadas, que es lo que consideraremos
58 CAP

ITULO 5. REDUCCI

ON DIMENSIONAL
por defecto. Ello equivale a trabajar en todo momento con la matriz de correlaciones muestral
R en lugar de la matriz de covarianzas original S. Dado que tr(R) = p, (5.3) es igual a

k
j=1
d
i
p
(5.6)
Al trabajar con variables tipicadas podemos suponer que la media es nula, como indicabamos
antes.
Figura 5.3: Efecto de un cambio de escala en los ejes principales


5.2. Analisis Factorial
Dado que estamos trabajando con los datos tipicados se verica que
R =
1
n
X

X (5.7)
Denimos la matriz F = |D
1/2
1
de dimensiones nk donde, para cada i, la trasposici on de su
la i-esima, F
i
R
k
, se denomina vector de puntuaciones factoriales de la observaci on X
i
. Por
otra parte, transformamos de manera inversa G
1
deniendo = G
1
D
1/2
1
/
pk
. La matriz
, denominada de componentes, se expresara as
=
_
_
_

1
[1] . . .
k
[1]
.
.
.
.
.
.

1
[p] . . .
k
[p]
_
_
_
=
_
_
_
[1]

.
.
.
[p]

_
_
_
(5.8)
La ecuacion (5.5) se expresa en estos nuevos terminos mediante
X = F

+ E (5.9)
Ejercicio 70. Probar que la matriz de covarianzas de | es S
U
= D
1
. Probar que n
1
F

F = Id
y F

E = 0.
Si denimos H =

/
pp
y = S
E
/
pp
, se sigue de (5.5) y (5.7)
R = H + (5.10)
Dado j entre 1 y p, los elementos h
jj
y
jj
de las diagonales de H y , que se denotar an por
h
2
j
y
2
j
, se denominan respectivamente comunalidad y varianza especca de la componente
5.2. AN

ALISIS FACTORIAL 59
j-esima. En ese caso, se verica que
2
j
= n
1
|E[j]|
2
R
n y, por lo tanto, en virtud del teorema
5.1.1,
tr() =
1
n
n

i=1
|E
i
|
2
R
p (5.11)
= d
2
n,p
(X, |G

1
) (5.12)
=
p

j=k+1
d
j
(5.13)
Aplicando la igualdad (5.10) a las diagonales, obtenemos que 1 = h
2
j
+
2
j
, para todo j. Es
decir, la proximidad a 1 de las comunalidades se traduce en una buena aproximaci on de |G

1
a X.
Ejercicio 71. Probar que
1
p
p

j=1
h
2
j
=

k
j=1
d
j
p
(5.14)
Dicho parametro se denota por h
2
y expresa por tanto la proporci on de varianza total explicada
por las k primeras componentes principales.
5.2.1. Representaci on de obervaciones
Supongamos que existe un k peque no para el cual (5.13) es proximo a 0 o, equivalentemente,
h
2
1. Veremos que ello nos permite representar de manera aproximada las n observaciones de
R
p
que componen X en R
k
si identicamos cada X
i
con |
i
, para i = 1, . . . , n. Efectivamente,en
virtud de (5.5), se verica para cada par i, i

X
i
, X
i
= |
i
, |
i
+E
i
, E
i
(5.15)
La desigualdad de Cauchy-Schwarz junto con (5.13) garantizan errores peque nos, al menos por
termino medio, si reemplazamos las observaciones X
i
y X
i
por |
i
y |
i
. Analogamente,
|X
i
X
i
|
2
= ||
i
|
i
|
2
+|E
i
E
i
|
2
(5.16)
Si en lugar de |
i
y |
i
utizamos las puntuaciones factoriales F
i
y F
i
obtendremos la misma
representaci on salvo cambios de escala en los k ejes de coordenadas en funci on de los respecti-
vos autovalores d
1
, . . . , d
k
. Las puntuaciones factoriales pueden entenderse como componentes
principales normalizadas. En denitiva, la observaci on X
i
R
p
puede aproximarse mediante el
vector F
i
de R
k
de la forma:
X
i
=

k
j=1
F
i
[j]
j
+ E
i
(5.17)
5.2.2. Representaci on de variables
Por otra parte, se sigue de (5.9) que, para todo l = 1, . . . , p,
X[l] =

k
j=1

j
[l] F[j] + E[l] (5.18)
donde |E[l]|
2
= n(1 h
l
)
2
. Se verica entonces que, por la desigualdad de Cauchy-Schwarz y
teniendo en cuenta el ejercicio 70, para cada par 1 l, s p
n
1
X[l], X[s] = [l], [s] +n
1
E[l], E[s], n
1
E[l], E[s]
_
(1 h
2
l
)(1 h
2
s
) (5.19)
60 CAP

ITULO 5. REDUCCI

ON DIMENSIONAL
Ello nos permite identicar las columnas X[l], X[s] R
n
, que constituyen mediciones de sendas
variables aleatorias X[l] y X[s] sobre n individuos, con los vectores de la matriz de componentes
[l], [s] R
k
, respectivamente, en el sentido de que
r
ls
[l], [s] (5.20)
siempre que las comunalidades h
2
l
y h
2
s
sean proximas a 1, lo cual se relaciona con la cir-
cunstancia h
2
1. Luego, en tal caso, el hecho de que los vectores de R
k
[l] y [s] sean
aproximadamente perpendiculares se interpreta como incorrelacion aproximada entre X[l] y
X[s]; que esten en la misma direcci on, aproximadamente, se interpreta como fuerte correlacion
lineal entre ambas, que es directa si tienen el mismo sentido e inversa si tienen sentido opuesto.
Ejercicio 72. Probar que
j
[l] es el coeciente de correlacion lineal entre X[l] y F[j].
Ejercicio 73. Probar que, para cada l = 1, . . . , p, h
2
l
= |[l]|
2
.
5.2.3. Representaci on conjunta de observaciones y variables
Dado que tanto las observaciones como las variables pueden identicarse de manera apro-
ximada con vectores de R
k
, seg un (5.17) y (5.18), podemos representarlas conjuntamente me-
diante un gr aco k-dimensional que debemos interpretar seg un la siguiente igualdad, que se
deduce de (5.9) y se verica para cada i = 1, . . . , n y para cada l = 1, . . . , p:
X
i
[l] = F
i
, [l] + E
i
[l] (5.21)
Figura 5.4: Relacion observaciones-variables

A

B C

[j]
En la gura 5.4 se representan conjuntamente en dimensi on k = 2 una variable aleatoria X[j]
medida en n individuos, identicada con el vector [j], y tres observaciones multidimensionales
A, B y C. En este caso, la observaci on A se caracteriza por un valor de X[j] por encima de la
media, la observacion B, por un valor por debajo de la media y la C, por un valor en torno a
la media.
Por ejemplo, en un estudio realizado en el CENSYRA de Badajoz sobre p = 8 variables
que caracterizan la motilidad de los espermatozoides en carneros, a partir de una muestra de
n = 383 observaciones, se obtuvieron los resultados que se muestran a continuacion. Del cuadro
5.2. AN

ALISIS FACTORIAL 61
5.1 se deduce que podemos explicar un h
2
= 82 % de la varianza total proyectando sobre los
dos primeros ejes principales, es decir, calculando F[1] y F[2]. Seg un el cuadro 5.2, hay variables
como vcl o vap que quedan explicadas casi perfectamente de esta forma, mientras que bcf queda
decientemente representada. En la parte derecha se recoge la matriz de componentes que se
representar a en la gura 5.5 junto con las puntuaciones factoriales y que permite simplicar la
matriz de correlaciones R.
Cuadro 5.1: Autovalores de R
Varianza total explicada
3,834 47,929 47,929 3,834 47,929 47,929
2,743 34,283 82,213 2,743 34,283 82,213
,860 10,747 92,960
,366 4,578 97,538
,161 2,014 99,552
,033 ,410 99,962
,002 ,030 99,992
,001 ,008 100,000
Componente
1
2
3
4
5
6
7
8
Total
% de la
varianza % acumulado Total
% de la
varianza % acumulado
Autovalores iniciales
Sumas de las saturaciones al cuadrado
de la extraccin
Mtodo de extraccin: Anlisis de Componentes principales.
Pgina 1
Cuadro 5.2: Comunalidades y matriz de componetes
Comunalidades
1,000 ,991
1,000 ,971
1,000 ,993
1,000 ,943
1,000 ,654
1,000 ,704
1,000 ,881
1,000 ,440
vcl
vsl
vap
LIN%
STR%
WOB%
alh
bcf
Inicial Extraccin
Mtodo de extraccin: Anlisis de Componentes principales.
Pgina 1
Comunalidades
1,000 ,991
1,000 ,971
1,000 ,993
1,000 ,943
1,000 ,654
1,000 ,704
1,000 ,881
1,000 ,440
vcl
vsl
vap
LIN%
STR%
WOB%
alh
bcf
Inicial Extraccin
Mtodo de extraccin: Anlisis de Componentes principales.
Pgina 1
En la gura 5.5 se aprecia claramente como las variables vcl, vsl y vap correlacionan fuerte
y positivamente entre s, y correlacionan debilmente con el resto; por otra parte, las variables
wob, lin y str correlacionan fuerte y positivamente entre s y negativamente con alh y bcf, si
bien bcf no queda satisfactoriamente representada por este graco. Ademas, podemos apreciar
que espermatozoides presentan valores altos, medios o bajos para las distintas variables. Se
ha superpuesto en el gr aco la circunferencia unidad para que podamos apreciar que variables
presentan una comunalidad proxima a 1.
Podemos apreciar en las ecuaciones (5.17) y (5.18) que los papeles que desempe nan las
matrices F y se permutan tal y como se indica en el cuadro 5.3 seg un representemos las
observaciones o las variables. Esta simetra es lo que justica en ultima instancia el uso de
puntuaciones factoriales F en lugar de la componentes principales originales |.
62 CAP

ITULO 5. REDUCCI

ON DIMENSIONAL
Figura 5.5: Puntuaciones factoriales y matriz de componentes
Cuadro 5.3: Dualidad observaciones-variables
k ejes k coordenadas
n observaciones F
p variables F
5.2.4. Concepto de factor y rotacion de ejes
De la gura 5.5 se desprende la existencia de dos conglomerados de variables si utilizamos
como criterio de anidad la correlacion lineal: por un lado tenemos vcl, vsp y vap y por otro el
resto, aunque en el segundo grupo distinguimos lin, str y wob que correlacionan positivamen-
te de alh y bcf, que correlacionan negativamente con las anteriores. Desde un punto de vista
formal podramos denir factor como una clase de equivalencia en el conjunto de variables si
consideramos una relaci on basada en la correlaci on lineal. Desde un punto de vista pr actico,
es tarea del investigador experimental dar sentido a dichos factores. En el ejemplo que nos
ocupa el primer factor se identicara aproximadamente con el concepto biol ogico de velocidad
esperm atica, mientras que el segundo se identicara de manera aproximada con el de progre-
sividad. Queremos decir a grandes rasgos que esos son en esencia los dos factores a tener en
cuenta en un espermatozoide de este tipo.
Dado que nuestra interpretaci on de un gr aco como el de la gura 5.5 viene dada exclusiva-
mente en terminos del producto escalar en R
k
, permanecera invariante ante cualquier rotaci on
que apliquemos a los ejes de coordenadas. Si X queda satisfactoriamente representada en di-
mensi on k = 2 cualquier rotaci on se antoja innecesaria. Sin embargo, a partir de k = 3 una
rotaci on que identique los posibles conglomerados de variables con los ejes de coordenadas
puede resulta muy util para determinar los posibles factores. Para conseguir tal prop osito exis-
5.3. AN

ALISIS DE CORRESPONDENCIAS 63
ten diversos metodos iterativos como varimax o equamax, que se describen con mayor detalle
en Rencher (1995).
5.2.5. Modelos basados en factores latentes
Existen otros conocidos metodos de an alisis factorial que nos estudiaremos aqu, como
pueden ser el de M axima Verosimilitud o el del Eje Principal, basados en la presencia de una
serie de variables no observadas que se denominan factores latentes, a partir de las cuales
nuestras variables observadas pueden explicarse mediante un modelo de regresi on lineal. Es
decir, se supone que el p-vector aleatorio respuesta Y es funcion afn de otro vector latente no
observado k-dimensional F de componentes incorreladas, con media nula y varianza 1, salvo
un error c de media nula y componentes independientes:
Y E[Y ] = F +c (5.22)
En ese caso, si denota la matriz diagonal de las varianzas de c, se deduce la siguiente
descomposici on de
=

+ (5.23)
Al tomar n datos (tipicados) se obtiene, como en (5.9), la igualdad
Y = F

+ E (5.24)
Por lo tanto, las puntuaciones factoriales pueden desempe nar el papel de F y la matriz de
componentes el de , y en eso consiste el metodo PCA estudiado anterioremente. Sin embargo,
este nuevo modelo introduce la hip otesis de que las componentes de c son incorreladas, cosa
que no se justica desde el punto de vista de las componentes principales. Para m as detalle
consultar Rencher (1995).
5.3. Analisis de Correspondencias
Mientras el objetivo del PCA es representar en un espacio de baja dimension problemas
con varias variables numericas, el del an alisis de correspondencias es, as mismo, representar en
un espacio sencillo un problema con varias variables categoricas. Cuando contamos unicamente
con dos variables categ oricas, se trata de representar en R
k
la tabla de contingencia, de manera
que quede explicada, no la distancia d
2
n,p
entre la matriz de datos X y la matriz constante X, sino
una variante de la distancia anterior, denominada distancia
2
, entre la tabla de contingencia
observada y aquella que cabra esperar en caso de ausencia de asociaci on entre las categoras
de ambas variables. Este metodo, que se estudia con detalle en Greenacre (1984), se basa pues
en una generalizacion del teorema 5.1.1, y tiene como producto nal un gr aco denominado
biplot, como el de la gura 5.6, que se interpreta de manera parecida al caso numerico.
Cuando tenemos mas de dos variables categ oricas podemos optar, entre otros metodos, por
una generalizacion de la tecnica anterior denominada an alisis de correspondencias m ultiples.
Esta tecnica, que tambien se estudia con detalle en Greenacre (1984), se basa en la aplicaci on
del analisis simple a la denominada matriz de ndices. Su mayor inconveniente radica en la
gran perdida de informaci on que suele conllevar en estos casos la representaci on graca en baja
dimensi on. Otra alternativa que puede resultar interesante es agrupar las variables categ oricas
con la intencion de aplicar un an alisis de correspondencias simple. Por ejemplo, en la gura
5.6 se ilustra la relacion existente entre la especie de germinado (se distinguen 11 categoras de
leguminosas) y tres variables que caracterizan las condiciones del terreno, con 3, 5 y 2 categoras
64 CAP

ITULO 5. REDUCCI

ON DIMENSIONAL
respectivamente
1
. Se ha optado por agrupar las tres variables del terreno en una unica variable
cualitativa denominada grupo que distingue entre 30 categoras diferentes. El biplot 5.6, que
recoge el 63 % de la distancia
2
(correlaci on), ilustra las asociaciones entre las especies y las
diferentes condiciones del terreno.
Figura 5.6: Biplot especies vs terreno
Dimensin 1
1,0 0,5 0,0 -0,5 -1,0 -1,5
D
i
m
e
n
s
i

n

2
1,0
0,5
0,0
-0,5
-1,0
-1,5
Cxx4
Cxx3
Cxx2
Cxx1
Cx4
Cx3
Cx2
Cx1
Bxx4
Bxx3
Bxx2
Bxx1
Bx4 Bx3
Bx2
Bx1
Axx4
Axx3
Axx2
Axx1
Ax4
Ax3
Ax2
Ax1
O-4
O-3
O-2
O-1
F. vulgare
E. hirsutum
R. crispus
M. arabica
C. cristatus
D. glomerata
T. villosa
D. carota
grupo
especie
Pgina 1
5.4. Multicolinealidad y PCA
La tecnica PCA se utiliza en ocasiones para resolver el problema de multicolinealidad en
una regresion lineal m ultiple. Esta armaci on hay que matizarla porque la multicolinealidad
no tiene por que constituir un problema ni el PCA llega jamas a resolverlo. En todo caso, nos
situamos en el contexto del ejemplo 4 en la pagina 27, suponiendo que las variables explicativas
Z[1] . . . , Z[q] esten tipicadas. En tal caso, se dice que hay multicolinealidad cuando existe un
alto grado de correlacion lineal entre las variables explicativas, lo cual no supondr a perjuicio
alguno a la hora de efectuar predicciones. La multicolinealidad da lugar a un incremento en la
la varianza de los estimadores de la ecuacion. Concretamente, se verica para todo j = 1, . . . , q:
var
_

=
2

1
n

1
s
2
z[j]

1
1 R
2
j
(5.25)
donde R
j
denota el coeciente de correlaci on m ultiple de Z[j] respecto al resto de variables
explicativas. Como podemos observar, dado que las variables explicativas estan tipicadas, la
varianza del estimador depende de la varianza del modelo
2
, del tama no de la muestra n y
de la correlaci on entre las variables explicativas. El termino (1 R
2
j
)
1
se denomina factor de
inaci on de la varianza (FIV).
Ejercicio 74. Probar (5.25).
1
Corresponde a datos recogidos por M.A. Perez-Fernandez y E. Calvo, del

Area de Ecologa de la UEx.
5.4. MULTICOLINEALIDAD Y PCA 65
Ejercicio 75. Simular una muestra de tama no n = 50 de una par de variables Z[1] y Z[2],
ambas con media 0 y desviaci on tpica 1, y con coeciente de correlacion = 0.9. A continua-
ci on, simular una variable Y que se obtenga mediante la ecuaci on Y = 2Z[1] Z[2] + c, con
c N(0,
2
) y
2
= 1. Proceder a estimar los coecientes de regresi on
1
y
2
mediante una
regresi on lineal. Simular de nuevo Y en las mismas condiciones y estimar de nuevo los coecien-
tes, comparando los resultados. Repetir el procedimiento para n = 100; repetirlo igualmente
para
2
= 0.5.
Que los estimadores de los coecientes de regresi on esten sometidos a una fuerte variabi-
lidad s olo tiene trascendencia a la hora de optimizar el modelo, pues da lugar a resultados
no signicativos en los tests parciales. El hecho de que una variable permanezca o salga del
modelo en funcion del resultado del test parcial es pues muy cuestionable por el efecto de la
multicolinealidad. Para compensarlo se han ideado los diferentes algoritmos de selecci on de
variables que permiten introducir algunas variables en detrimento de otras fuertemente corre-
lacionadas con las primeras. No obstante, la selecci on puede depender de peque nos detalles de
la muestra que podran llegar a ser arbitrarios desde un punto de vista estadstico. Esta posible
arbitrariedad no supone un problema si nuestra intencion es predecir con la mayor precisi on
posible la variable respuesta y mediante la menor cantidad posible de variables explicativas.
Tan s olo puede tener trascendencia si nuestro objetivo es determinar la inuencia real de cada
una de las variables explicativas en la respuesta.
En tal caso, podemos optar por ejecutar la regresion respecto a las componentes principales
de las variables explicativas porque, al ser estas incorreladas, los tests parciales no pueden verse
contaminados por la multicolinealidad.
Ejercicio 76. Probar que el coeciente de correlaci on m ultiple R
2
de Y respecto a las varia-
bles explicativas Z permanece invariante si reemplazamos estas ultimas por sus componentes
principales U.
Ejercicio 77. Por que una fuerte variabilidad de los estimadores se asocia a resultados no
signicativos en los tests parciales?
Una vez estimado el vector con los coecientes de regresi on respecto de U, debemos
deshacer el cambio teniendo en cuenta (5.4), obteniendo as la estimaci on

= G
Si hemos eliminado las ultimas componentes principales en los tests parciales, esta nueva es-
timaci on de estar a sometida a tantas restricciones lineales como componentes eliminadas,
y sera sesgada pero con menor varianza que el EIMV

. En las condiciones de la simulacion
propuesta en el ejercicio 75, el primer eje principal es (1, 1)

. Luego, si se desecha la segunda


componente principal, la ecuacion estimada consistir a en multiplicar Z[1] y Z[2] por un mismo
coeciente.
Desde un punto de vista pr actico, distinguimos pues dos posibles circunstancias: que se
eliminen componentes principales en la regresi on lineal, lo cual conduce a considerar una ecua-
ci on mas estable que puede entenderse como una especie compromiso entre las distintas varia-
bles correlacionadas, como en el ejemplo comentado anteriormente; o bien que no se eliminen
componentes principales, lo cual debe entenderse como que la muestra consta de informacion
suciente para determinar que variables poseen inuencia real en la respuesta, en cuyo caso
debemos acatar el resultado que aporte el algoritmo de selecci on de variables.
66 CAP

ITULO 5. REDUCCI

ON DIMENSIONAL
Captulo 6
Analisis de conglomerados
Recibe el nombre de an alisis de conglomerados o an alisis cluster un conjunto de tecni-
cas destinadas a agrupar observaciones por anidad. Cada observaci on consistira en p valores
numericos correspondientes a la medicion de sendas variables y, por lo tanto, constituiran pun-
tos de R
p
.

Esa es la razon por la que esta tecnica haya sido tradicionalmente ubicada en la
Estadstica Multivariante, aunque actualmente tiende a catalogarse como Minera de Datos, de
ah que le dediquemos poco espacio. Para obtener una informaci on m as detallada se consultar
Hastie et al. (2008), Mardia et al. (1979) y Hair et al. (1999).
En las dos primeras secciones abordaremos un breve estudio de los dos metodos tradicionales
del an alisis de conglomerados: el jer arquico y el de k-medias. En la tercera seccion introducire-
mos escuetamente el algoritmo de agrupaci on EM, basado en un modelo de mezclas. Este tipo
de tecnica va m as all a de la mera agrupaci on de observaciones pues tiene el ambicioso objeto
de determinar de manera sencilla y precisa la distribucion probabilstica que las explica.
En todo caso, para hablar de anidad entre observaciones es preciso denir previamente
una metrica en el espacio R
p
. La opci on mas utilizada es la distancia eucldea. Si optamos por
ella debemos tener presente que no es invariante ante un cambio de escala en cualquiera de
las variables medidas, lo cual afecta de manera decisiva a la agrupacion, de ah que la elecci on
de la distancia eucldea vaya acompa nada frecuentemente de la tipicacion de los datos. Entre
otra alternativas a la distancia eucldea podemos mencionar la de Mahalanobis, dada la matriz
de covarianzas muestral, que es invariante ante cambios de escala.
6.1. Metodo jerarquico
Este metodo est a ideado para aglomerar un n umero peque no o moderado de observaciones.
Su resultado nal es una gr aco denominado dendrograma que debera interpretarse subjetiva-
mente. Inicialmente, se considera cada dato como un conglomerado unitario. Partiendo de esa
situaci on, cada paso que se de consistir a en unir los dos conglomerados m as pr oximos entre
s para formar un unico conglomerado m as grande. El procedimiento se repite, en principio,
hasta que quede un unico conglomerado constituido por todos los datos. El proceso de forma-
ci on de los conglomerados queda registrado, de manera que se puede analizar el estado mas
interesante, que ser a aquel en el que queden patentes grandes diferencias entre los conglomera-
dos y peque nas diferencias dentro de los conglomerados. Eso querr a decir que en todos los pasos
anteriores se unieron conglomerados pr oximos, pero en el inmediatamente posterior se unen
dos conglomerados distantes, lo cual puede detectarse gracamente mediante el dendrograma.
El denominado diagrama de tempanos aporta una informacion similar. Mediante el an alisis de
los gr acos debemos pues determinar el n umero de conglomerados en la soluci on nal. Hemos
67
68 CAP

ITULO 6. AN

ALISIS DE CONGLOMERADOS
dicho anteriormente que cada paso consistir a en la fusi on de los dos conglomerados m as proxi-
mos entre s. Obviamente, la proximidad se determinara en virtud de la medida de anidad
que hayamos escogido. No obstante, esta se aplica a cada par de puntos, mientras que los
conglomerados son conjuntos (unitarios o no). Por ello, queda a un pendiente determinar una
medida de proximidad entre conjuntos partiendo de la medida d de proximidad entre puntos
seleccionada. En ese sentido, contamos varias opciones:
Vinculacion intergrupos:

d(A, B) = [card(A B)]
1

aA, bB
d(a, b)
Vinculacion intragrupos:

d(A, B) = [card
_
(A B) (A B)
_
]
1

a,bAB
d(a, b)
Vecino mas pr oximo:

d(A, B) = mn
_
d(a, b): a A, b B
_
Vecino mas lejano:

d(A, B) = max
_
d(a, b): a A, b B
_
Agrupaci on de centroides:

d(A, B) = d(A, B), donde A y B son las respectivas medias.
En la gura 6.1 presentamos el dendrogama correspondiente a 25 ores de irisdata aglome-
radas en funci on de sus cuatro medidas morfologicas. Se han utilizados las opciones que SPSS
ofrece por defecto: distancia eucldea y vinculaci on intergrupos.
Figura 6.1: Dendrograma para irisdata
En un an alisis de este tipo hay que tener muy presente que los datos extremos constitu-
yen conglomerados unitarios hasta fases muy avanzadas del analisis, como es el caso de la
or 66. Haciendo caso omiso de la misma, se perlan, de manera subjetiva, entre dos y tres
conglomerados de datos. Si nos decidimos por dos, podremos comprobar que el mas peque no
est a compuesto exclusivamente por ores tipo setosa mientras que el m as grande esta compuesto
por ores tipo vesicolor y virgnica.
6.2. M

ETODO DE K-MEDIAS 69
6.2. Metodo de k-medias
Tambien conocido como quick-cluster, se utiliza para agrupar los datos en un n umero k de
conglomerados determinado a priori. La elecci on de k puede basarse en argumentos formales,
como los que se mencionan en la tercera secci on, o bien en argumentos gr acos y, por lo
tanto, intuitivos, como los que se desprenden de la gura 6.2, correspondientes a datos del
geyser Olf Fatithful, de Yellowstone, donde parecen apreciarse con cierta claridad dos grandes
conglomerados.
Figura 6.2: Datos geyser Old Faithful (k = 2)
Eruption time
6,000 5,000 4,000 3,000 2,000 1,000
W
a
i
t
i
n
g

t
i
m
e
100
90
80
70
60
50
40
Pgina 1
La tecnica consiste en aglomerar todos los datos en torno a k puntos (que se denominan
semillas) en funci on de la proximidad a estos, seg un la distancia considerada. En ocasiones,
estas semillas son establecidas de antemano en funcion de conocimientos previos, en cuyo caso
el metodo es trivial. Si queremos formar k conglomerados pero no contamos con semillas,
puede procederse de la siguiente forma: se seleccionan k datos, bien aleatoriamente o bien
los k primeros, que ser an las semillas iniciales. Los datos restantes se ir an aglomerando en
torno a ellos. No obstante, si la semilla m as cercana a un dato dista del mismo m as que
que la semilla m as cercana a esta, dicho dato la reemplaza como semilla y conquista, por
as decirlo, su conglomerado. Al nal del proceso, se reconstruyen las semillas como centroides
de los conglomerados nales y el procedimiento se repite sucesivamente hasta conseguir cierta
estabilidad en los centroides nales, o bien cuando se hayan realizado un determinado n umero
de iteraciones.
La ventaja del metodo de k-medias respecto al jer arquico radica en que su algoritmo es
mucho m as rapido (especialmente con muestras de gran tama no). Su desventaja estriba en lo
polemico de la elecci on de k. No obstante, podemos optar por diferentes combinaciones entre
ambas tecnicas: por ejemplo, podemos seleccionar a partir de la muestra original una peque na
muestra piloto y determinar k a partir del dendrograma de la segunda. Tambien puede invertirse
el orden agrupando primeramente respecto a un n umero elevado m de semillas, que da lugar
a m centroides nales.

Estos se someten entonces a un analisis jerarquico, de manera que los
grupos correspondientes a centroides proximos se uniran dando lugar a un n umero menor de
conglomerados homogeneos.
70 CAP

ITULO 6. AN

ALISIS DE CONGLOMERADOS
6.3. Algoritmo EM
En la seccion anterior destacamos lo conictivo que resulta determinar el n umero k de
conglomerados a congurar a partir de la observacion de la muestra. Existen diversos procedi-
mientos semiautomaticos para tal n basados en principios bastante intuitivos, como el metodo
gr aco del codo y el de Calinsky-Harabasz. El metodo automatico EM esta basado en un mo-
delo de mezclas: desde el punto de vista formal, pretende aproximar cualquier distribuci on
de probabilidad p-dimensional mediate una mezcla de distribuciones p-normales, a partir de
la muestra observada. Obviamente, cuanto mayor sea el n umero de componentes k que inte-
gren dicha mezcla y menos restricciones impongamos a las respectivas matrices de covarianzas,
mayor sera la verosimilitud obtenida para la muestra observada. Si jamos unas condiciones
concretas, podemos proceder a estimar los par ametros del modelo mediante el algoritmo itera-
tivo de esperanza-maximizaci on (EM); a continuacion se asignan las observaciones muestrales
a las distribuciones en funci on de la regla de Bayes, de manera an aloga a (4.2). De esa forma
obtenemos una aglomeracion que depende de las restricciones iniciales impuestas al modelo
de mezclas. El mismo procedimiento se repite bajo distintas restricciones con el n de elegir
la mejor aglomeraci on. Esta elecci on no debe basarse simplemente en el Principio de M axima
Verosimilitud, pues una elevada verosimilitud de la muestra observada seg un los par ametros
estimados puede entenderse como una buena estimaci on de los par ametros del modelo pero,
tambien, como un sobreajuste del mismo. De ah que, de entre todos las aglomeraciones consi-
deradas, escojamos aquella que maximize el valor del BIC (Criterio de Informaci on Bayesiano).
Se trata de un conocido parametro estadstico (ver por ejemplo Hastie et al. (2008)) que pena-
liza la inclusion de un gran n umero de par ametros, es decir, el uso de un modelo excesivamente
complejo para explicar los datos. Este metodo puede aplicarse con el programa R mediante
la funcion mclust del paquete Mclust. En el caso de la gura 6.2, se alcanza un BIC m aximo
si se considera una mezcla de tres distribuciones normales con identica matriz de covarianzas.
No obstante, una vez aglomerados los datos puede optarse por unir conglomerados cuya se-
paraci on resulte articial. En el caso de Old Faithful, conducira a dos conglomerados, que es
en denitiva la solucion que habramos obtenido aplicando los metodos descritos en la secci on
anterior.
En primera instancia, los algoritmos tipo EM pueden resultar muy satisfactorios desde
el punto de vista formal y computacional, pero hemos de tener muy presente que obedecen
a un esfuerzo por explicitar una distribucion probabilstica, posiblemente con matices muy
complejos, a partir de una muestra supuestamente aleatoria de la misma.
Bibliografa
Arnold, S.F. (1981), The Theory of Linear Models and Multivariate Analysis, Wiley.
Anderson, T.W. (1958), An Introduction to Multivariate Statistical Analysis, Wiley.
Bilodeau, M. y Brenner, D. (1999), Theory of Multivariate Statistics, Springer.
Dillon, W.R. y Goldstein, M. (1984), Multivariate Analysis. Methods and Aplications, Wiley.
Dobson, A.J. (1990), An Introduction to Generalized Linear Models, Chapman & Hall.
Flury, B. (1997), A First Course in Multivariate Statistics, Springer.
Gi, A. (1990), Nonlinear Multivariante Analysis, Wiley.
Greenacre, M.J. (1984), Theory and Applications of Correspondence Analysis, Academic
Press.
Hair, J.F., Anderson, R.E., Tatham, R.L., y Black, C.B. (1999), Analisis Multivariante,
Prentice Hall.
Hastie, T., Tibshirani, R. y Friedman, J. (2008), The Elements of Statistical Learning,
Springer.
Mardia, K.V., Kent, J.T. y Bibby, J.M. (1979), Multivariate Analysis, Academic Press.
Montanero, J. (2008), Manual 56: Modelos Lineales, Servicio de Publicaciones UEx.
Montanero, J. (2008), Manual 59: Analisis Multivariante, Servicio de Publicaciones UEx.
Nogales, A.G. (1998), Estadstica Matematica, Servicio de publicaciones UEx.
Pe na, D. (2010), Regresion y Dise no de Experimentos, Alianza editorial.
Rencher, A.C. (1995), Methods of Multivariate Analysis, Wiley.
Silverman, B. W. (1986), Density Estimation for Statistics and Data Analysis, Chapman &
Hall.
Uriel, E. y Ald as, J. (2005), Analisis Multivariante Aplicado, Thomson.
71

Вам также может понравиться