Вы находитесь на странице: 1из 12

Índice

Prólogo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Capı́tulo 1. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2. Nombres nuevos para conocidos métodos clásicos . . . . . . . . 17
1.3. *Algunos elementos matemáticos básicos . . . . . . . . . . . . . 19
1.4. Algunos elementos básicos de los vectores aleatorios . . . . . . 21
1.5. La distribución normal multivariante . . . . . . . . . . . . . . . 22

Capı́tulo 2. Análisis de Componentes Principales . . . . . . 25


2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2. *Determinación de las Componentes Principales . . . . . . . . . 27
2.3. Contribución de cada Componente Principal a la variabilidad
total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4. Componentes Principales Muestrales . . . . . . . . . . . . . . . 31
2.5. Estandarización . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7. Elección del número de Componentes Principales . . . . . . . . 38
2.8. Reducción en el número de variables . . . . . . . . . . . . . . . 40
2.9. Componentes Principales para datos bidimensionales . . . . . . 41
2.9.1. Representaciones gráficas . . . . . . . . . . . . . . . . . 46
2.10. Scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.11. *Componentes Principales como transformaciones lineales or-
togonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.12. Detección de observaciones anómalas en datos multivariantes . 53
2.13. El biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.14. Determinación de clusters . . . . . . . . . . . . . . . . . . . . . 58
2.15. En búsqueda de la Proyección Óptima (Projection Pursuit) . . 60
2.16. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

9
10 Métodos Avanzados de Estadı́stica Aplicada: Técnicas Avanzadas

Capı́tulo 3. Análisis de Correspondencias . . . . . . . . . . . 63


3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2. Análisis de Correspondencias bidimensional . . . . . . . . . . . 67
3.2.1. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . 74
3.2.2. Dimensión de las coordenadas . . . . . . . . . . . . . . . 79
3.3. Análisis de Correspondencias múltiple . . . . . . . . . . . . . . 83
3.3.1. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . 84
3.4. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

Capı́tulo 4. Escalado Multidimensional . . . . . . . . . . . . . 89


4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.2. Escalado Multidimensional Clásico: Métrico Euclı́deo y no Eu-
clı́deo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2.1. *Reconstrucción de la matriz de datos a partir de la
matriz de distancias . . . . . . . . . . . . . . . . . . . . 92
4.2.2. Matriz de proximidades Euclı́dea y no Euclı́dea . . . . . 95
4.2.3. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . 96
4.3. Escalado Multidimensional no Métrico . . . . . . . . . . . . . . 99
4.4. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

Capı́tulo 5. Análisis de Conglomerados . . . . . . . . . . . . 103


5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.2. Análisis cluster de casos . . . . . . . . . . . . . . . . . . . . . . 105
5.2.1. Técnicas jerárquicas aglomerativas de formación de con-
glomerados . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.2.2. Distancias y similaridades entre individuos . . . . . . . 109
5.2.3. Tipos de agrupamiento . . . . . . . . . . . . . . . . . . 117
5.3. Análisis cluster de variables . . . . . . . . . . . . . . . . . . . . 137
5.4. Análisis cluster de bloques . . . . . . . . . . . . . . . . . . . . . 138
5.5. Métodos de optimización en el análisis cluster: Algoritmo k-
medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.5.1. Minimización de la traza de W . . . . . . . . . . . . . . 140
5.5.2. Minimización del determinante de W . . . . . . . . . . . 141
5.5.3. Maximización de la traza de BW −1 . . . . . . . . . . . 141
5.6. Técnicas inferenciales de formación de conglomerados . . . . . 149
5.6.1. Elección del número de clusters . . . . . . . . . . . . . . 150
5.7. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.7.1. Análisis cluster jerárquico . . . . . . . . . . . . . . . . . 154
5.7.2. Algoritmo k-medias . . . . . . . . . . . . . . . . . . . . 162
´Indice 11

Capı́tulo 6. Análisis Discriminante . . . . . . . . . . . . . . . . 163


6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
6.2. Función discriminante lineal de Fisher . . . . . . . . . . . . . . 165
6.2.1. Utilización de probabilidades de priori . . . . . . . . . . 168
6.2.2. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . 169
6.3. Valoración de la función discriminante . . . . . . . . . . . . . . 172
6.4. Función discriminante cuadrática . . . . . . . . . . . . . . . . . 174
6.5. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

Capı́tulo 7. Análisis Factorial . . . . . . . . . . . . . . . . . . . 177


7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.2. Modelo del Análisis Factorial . . . . . . . . . . . . . . . . . . . 177
7.2.1. Estimación de parámetros en el Modelo del Análisis Fac-
torial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
7.3. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

Capı́tulo 8. Modelos Log-Lineales . . . . . . . . . . . . . . . . 183


8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.2. Independencia condicionada . . . . . . . . . . . . . . . . . . . . 187
8.3. Tipos de Independencia . . . . . . . . . . . . . . . . . . . . . . 194
8.4. El modelo log-lineal como modelo lineal general . . . . . . . . . 202
8.4.1. Comparación de modelos: Tests condicionales para mo-
delos anidados . . . . . . . . . . . . . . . . . . . . . . . 205
8.5. Modelos Log-Lineales con BMDP . . . . . . . . . . . . . . . . . 207
8.6. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . . . . . 208

Capı́tulo 9. Regresión Logı́stica . . . . . . . . . . . . . . . . . . 215


9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
9.2. Estimación y contraste . . . . . . . . . . . . . . . . . . . . . . . 218
9.3. Modelos de regresión logı́stica con BMDP . . . . . . . . . . . . 218
9.4. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . . . . . 223
9.5. El modelo de regresión logı́stica y el modelo log-lineal . . . . . 225
9.6. Modelos de regresión Logit y Probit . . . . . . . . . . . . . . . 226
9.7. Los modelos de regresión Logit y Probit como modelos lineales
generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
9.8. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

Capı́tulo 10. Regresión Poisson . . . . . . . . . . . . . . . . . . . 231


10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
10.2. Estimación y contraste . . . . . . . . . . . . . . . . . . . . . . . 233
10.3. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . . . . . 233
10.4. Bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . 236
12 Métodos Avanzados de Estadı́stica Aplicada: Técnicas Avanzadas

Capı́tulo 11. Regresión no Lineal y Regresión Suavizada 237


11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
11.2. Modelo de la Regresión no Lineal . . . . . . . . . . . . . . . . . 240
11.3. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . . . . . 241
11.3.1. Utilización de la función derivada . . . . . . . . . . . . . 244
11.3.2. Valores iniciales de los parámetros . . . . . . . . . . . . 245
11.3.3. Análisis del modelo ajustado . . . . . . . . . . . . . . . 247
11.4. Regresión Suavizada . . . . . . . . . . . . . . . . . . . . . . . . 249
11.4.1. Regresión Spline . . . . . . . . . . . . . . . . . . . . . . 251
11.4.2. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . 252

Capı́tulo 12.Análisis de Varianza con Medidas Repetidas 255


12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
12.2. Análisis de la Varianza para un factor y Repetición de una variable257
12.2.1. Fuentes de variación . . . . . . . . . . . . . . . . . . . . 260
12.2.2. Tratamiento Informático con BMDP . . . . . . . . . . . 267
12.2.3. Contraste sobre la tendencia de la Repetición . . . . . . 272
12.3. Análisis de la Varianza para un factor y Repetición de dos va-
riables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
12.4. Cálculo con Rmo . . . . . . . . . . . . . . . . . . . . . . . . . . 283
12.5. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286

Capı́tulo 13. Análisis de Series Temporales . . . . . . . . . . 287


13.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
13.2. Elementos básicos en una Serie Temporal . . . . . . . . . . . . 289
13.2.1. Tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . 290
13.2.2. Componente Cı́clica . . . . . . . . . . . . . . . . . . . . 292
13.2.3. Movimiento Estacional . . . . . . . . . . . . . . . . . . . 292
13.3. Series temporales estacionarias . . . . . . . . . . . . . . . . . . 292
13.3.1. Procesos Autorregresivos de orden p, AR(p) . . . . . . . 293
13.3.2. Procesos de Medias Móviles de orden q, M A(q) . . . . . 293
13.3.3. Procesos Autorregresivos de Medias Móviles, ARM A(p, q)294
13.4. Series temporales no estacionarias . . . . . . . . . . . . . . . . 294
13.4.1. Procesos Autorregresivos Integrados de Medias Móviles,
ARIM A(p, d, q) . . . . . . . . . . . . . . . . . . . . . . 294
13.5. Análisis de una serie temporal . . . . . . . . . . . . . . . . . . . 295
13.5.1. Identificación del modelo . . . . . . . . . . . . . . . . . 296
13.5.2. Estimación de parámetros . . . . . . . . . . . . . . . . . 299
13.5.3. Diagnosis . . . . . . . . . . . . . . . . . . . . . . . . . . 302
13.5.4. Predicciones . . . . . . . . . . . . . . . . . . . . . . . . . 303
13.6. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
´Indice 13

Capı́tulo 14. Control Estadı́stico de la Calidad . . . . . . 305


14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
14.2. Gráfico de control para la media . . . . . . . . . . . . . . . . . 306

Capı́tulo 15. Data Mining . . . . . . . . . . . . . . . . . . . . . . . 313


15.1. Introducción y caracterı́sticas del Data Mining . . . . . . . . . 313
15.1.1. Métodos de Aprendizaje Supervisado y de Aprendizaje
no Supervisado . . . . . . . . . . . . . . . . . . . . . . . 314
15.2. El Data Mining y la Inferencia Estadı́stica . . . . . . . . . . . . 315
15.3. Tipos de Estructuras en la Base de Datos . . . . . . . . . . . . 316
15.3.1. Data Snooping . . . . . . . . . . . . . . . . . . . . . . . 316
15.4. Tareas a realizar en Data Mining . . . . . . . . . . . . . . . . . 317
15.5. Componentes de un análisis Data Mining . . . . . . . . . . . . 318
15.6. Estrategias de manejo de Bases de Datos de gran tamaño . . . 319
15.6.1. Procesamiento Analı́tico Automático (Online Analytical
Processing OLAP) y Almacenamiento de Datos (Data
Warehousing) . . . . . . . . . . . . . . . . . . . . . . . . 320
15.7. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
Capı́tulo 1

Preliminares

1.1. Introducción
Hemos preferido comenzar el texto con un capı́tulo en el que se enmarcaran
con precisión los temas que se van a estudiar en el resto del libro, además de
servir de formalización de algunos elementos matemáticos indispensables en
su desarrollo formal.
Como ya dijimos en el Prólogo, los apartados que comiencen con un aste-
risco pueden evitarse si no se desea un estudio formal de las cuestiones que
allı́ se aborden.

1.2. Nombres nuevos para conocidos métodos


clásicos
Los primeros capı́tulos del libro corresponden a lo que suele denominarse
Análisis Multivariante porque nuestros datos serán observaciones de p varia-
bles aleatorias en los n individuos de la muestra, en lugar de observaciones
de una sola variable aleatoria como ocurrı́a en la mayorı́a de los métodos de
Análisis Univariante estudiados en CB.
Por tanto, la matriz de datos, en donde aparecen recogidas las observa-
ciones, es una matriz (es decir, una ordenación por filas y columnas) de la
forma

 Variables 
x11 · · · x1p
 x21 · · · x2p 
 
Individuos  
 ··· ··· ··· 
xn1 · · · xnp

En este tipo de análisis, al igual que ocurrı́a en su homólogo Análisis Univa-

17
18 Métodos Avanzados de Estadı́stica Aplicada: Técnicas Avanzadas

riante, caben dos formas posibles de estudio: el Análisis Exploratorio de Datos


(véase CB-capı́tulo 14), en donde no se utilizan suposiciones ajenas a los datos,
tales como modelos para las variables de donde se obtuvieron y en donde se
deja que éstos hablen por sı́ mismos; el propósito de este tipo de análisis es el
descubrir posibles patrones de comportamiento de los datos tales como sime-
trı́as, modelos probabilı́sticos, posibles grupos de datos homogéneos, etc. En él
juega un papel especial el uso de gráficos. Los capı́tulos que siguen de Compo-
nentes Principales, Análisis de Correspondencias, Escalado Multidimensional
y Análisis de Conglomerados, serán básicamente de este tipo.
La otra posible vı́a de estudio de los datos, tanto en el caso univariante
como en el multivariante, se denomina Análisis Confirmatorio de Datos, en el
que se utiliza de forma destacada el contraste de hipótesis como herramienta
estadı́stica para la confirmación o rechazo de hipótesis sobre el modelo supues-
to. En este caso, la suposición de una distribución normal multivariante para
los datos es esencial. La utilización de Métodos Robustos en estas situaciones
resulta muy interesante.
Pues bien, el Análisis Exploratorio de Datos Multivariantes recibe hoy en
dı́a el nombre de Data Mining, traducido en ocasiones, de forma desafortunada
según mi opinión, por Minerı́a de Datos, en donde el propósito será, como
dijimos más arriba, explorar los datos sin suposiciones adicionales, buscando
patrones de comportamiento, clasificaciones en grupos de datos, etc. Dado el
gran volumen de datos con el que se suele trabajar en los tiempos actuales,
otra caracterı́stica de este tipo de análisis es el uso intensivo del ordenador,
especialmente en la obtención de gráficos.
Una de las razones de realizar un Análisis Multivariante de datos (tanto
exploratorio como confirmatorio) en lugar de p Análisis Univariantes, es el
determinar relaciones entre las p variables de donde se obtuvieron los datos.
Si para descubrir estas estructuras o grupos, cuántos grupos hay, cuáles
individuos pertenecen a cada grupo, etc., no utilizamos información previa
referente a otros grupos similares de sujetos, se suele hablar de Estadı́stica no
Supervisada. Con objeto de buscar respuesta a esas preguntas pueden utilizarse
ordenaciones, con un Análisis de Componentes Principales, o un Multidimen-
sional Scaling, o clasificaciones con un Análisis Cluster.
Alternativamente, podemos conocer previamente los grupos en los que cla-
sificar los datos, utilizando métodos de Estadı́stica Supervisada, tales como el
Análisis Discriminante o los Modelos Lineales.
No obstante, los Métodos Estadı́sticos que estudiaremos en el libro lo serán
de forma individual, ya que éstos no están diseñados habitualmente con un úni-
co propósito. Tan solo hemos pretendido enunciar aquı́ algunos de los nombres
que suelen utilizarse hoy en dı́a para asignar a grupos de Métodos Estadı́sticos
y que pueden representar, en el mejor de los casos, el objetivo común para el
que van a ser utilizados.
Preliminares 19

1.3. *Algunos elementos matemáticos básicos


Como dijimos más arriba, la matriz de datos está formada por las obser-
vaciones de las p variables en estudio en los n individuos de la muestra. Estas
observaciones serán, por lo general, números reales, es decir, escalares aunque,
como alguna variable puede ser del tipo cualitativo, como por ejemplo Color
de los Ojos, en ocasiones los datos recogidos para esa variable y que forman la
correspondiente columna de la matriz de datos, no serán escalares sino valores
de la forma: Azul, Verde, Castaño, Azul, etc.
No obstante, si queremos utilizar potentes Métodos Estadı́sticos, las co-
lumnas de la matriz de datos deberán estar formadas por números reales, de
manera que podamos utilizar técnicas matemáticas estándares. En ese caso,
deberemos cuantificar las variables de tipo cualitativo con valores de tipo in-
dicador: 0, 1, etc.
Los escalares los representaremos como hasta ahora, pero a las matrices
(como la matriz de datos) las representaremos con letras negritas. Ası́, habla-
remos de la matriz A, o de la matriz B, etc.
Si A es la matriz
 
1 2
 
A= 0 3 
2 4
en muchas ocasiones nos interesará trabajar con la matriz traspuesta de la
anterior, que representaremos como At y que se define como la matriz en la
que sus filas están formadas por las columnas de la dada; es decir, en la que
hemos traspuesto las filas y columnas. Ası́, la matriz traspuesta de la matriz
A es
 
1 0 2
At =
2 3 4

ya que, por ejemplo, la que figuraba como primera fila, figura ahora como
primera columna, la que figuraba como segunda columna es ahora la segunda
fila, etc.
La dimensión de una matriz es el número de filas y de columnas por el
que está formado (en ese orden). Ası́, la matriz A tiene dimensión 3 × 2 y la
matriz At dimensión 2 × 3. Una matriz se dice cuadrada si ambos valores de
su dimensión son iguales; es decir, una matriz 2 × 2 o una 3 × 3 son matrices
cuadradas y una 2 × 3 no lo es. Si una matriz coincide con su traspuesta se
dice que es simétrica.
Una matriz que aparece frecuentemente es la matriz identidad, I, formada
por unos en la diagonal principal y ceros en el resto,
20 Métodos Avanzados de Estadı́stica Aplicada: Técnicas Avanzadas

 
1 ··· 0
 .. . . . 
I= . . .. 
0 ··· 1
La inversa de una matriz cuadrada A se define como una matriz, a la que
denominaremos A−1 , tal que su producto por A es la matriz identidad.
Además de los escalares y las matrices, trabajaremos en este texto con vec-
tores, que van a ser ordenaciones de datos (habitualmente de tipo numérico),
concebidos como columnas. Al igual que con las matrices, representaremos los
vectores con letras negritas (de hecho se puede pensar en un vector formado
por r escalares como en una matriz r × 1).
Si v es el vector
 
3
 
v= 1 
3

su traspuesto será el vector vt = (3, 1, 3).


El producto de vectores y/o matrices tiene sentido sólo cuando el segun-
do valor de la dimensión del primer factor sea igual que el primer valor de
la dimensión del segundo factor; el orden es relevante. Ası́, se puede (pre)
multiplicar una matriz 3 × 2 por una matriz 2 × 2, pero no al revés.
El producto del vector vt por el vector w, ambos de longitud, digamos m,
se define como

 
w1
  m
 w2 
v w = (v1 , v2 , ..., vm ) 
t
 ..  = v1 · w1 + v2 · w2 + · · · vm · wm =
 vi wi .
 .  i=1
wm

La definición del producto de dos matrices y/o vectores A y B es (cuando


se pueda definir el producto) una matriz (o un vector) tal que el elemento que
ocupa el lugar (i, j) (es decir, el que ocupa la fila i-ésima y la columna j-ésima)
es el resultado de multiplicar la fila i-ésima de la matriz A por la columna j-
ésima de la matriz B, consideradas ambas como vectores, de la misma manera
que en el párrafo anterior.
La dimensión de la matriz (vector) resultante es el primer valor de la di-
mensión del primer factor × el segundo valor de la dimensión del segundo
factor.
Ası́, AB será igual a
Preliminares 21

 
   
1 2 1 · 3 + 2 · (−1) 1·1+2·4 1 9
3 1
AB = 0 3 = 0 · 3 + 3 · (−1) 0·1+3·4 = −3 12
−1 4
2 4 2 · 3 + 4 · (−1) 2·1+4·4 2 18

y tendrá dimensión 3 × 2.

1.4. Algunos elementos básicos de los vectores


aleatorios
Decir que observamos p variables aleatorias unidimensionales X1 , X2 , ..., Xp
es lo mismo que decir que observamos el vector aleatorio Xt = (X1 , X2 , ..., Xp ).
Y al igual que las variables aleatorias unidimensionales tenı́an su media y
su varianza, las variables aleatorias multidimensionales, o vectores aleatorios,
tienen asociados el vector de medias, definido como el vector de las medias de
las variables que forman el vector aleatorio,

mt = (E[X1 ], ..., E[Xp ]) = (µ1 , ..., µp )


y la matriz de varianzas-covarianzas (o simplemente matriz de covarianzas),
que está formada por las covarianzas entre las variables del vector aleatorio,
en donde la covarianza entre las variables Xi y Xj se define (CB-sección 4.3)
como

Cov(Xi , Xj ) = E [(Xi − µi )(Xj − µj )] = σij


siendo la última igualdad, simplemente, una notación abreviada. Si i = j
aparece la varianza de la variable

σii = E (Xi − µi )2 = V ar(Xi ) = σi2
Por tanto, la matriz de covarianzas será
 
σ12 σ12 · · · σ1p
 σ21 σ22 · · · σ2p 
 
Σ= 
 ··· ··· ··· ··· 
σp1 σp2 · · · σp2
en donde suele ser n > p.
Una vez observadas la p variables en los n individuos de la muestra, y
obtenida ası́ la matriz de datos, el estimador natural del vector de medias
poblacional m es el vector de medias muestrales

xt = (x1 , x2 , ..., xp )
22 Métodos Avanzados de Estadı́stica Aplicada: Técnicas Avanzadas

en donde xi es la media de los datos correspondientes a la variable i-ésima; es


decir, la media aritmética de los datos de la columna i-ésima de la matriz de
datos,
n
1
xi = Xij
n j=1
La matriz de varianzas-covarianzas poblacional Σ se estima mediante la
matriz de covarianzas muestral
n
1
S= (xi − x) (xi − x)t
n − 1 i=1
en donde xi es la i-ésima fila de la matriz de datos considerada como vector
(es decir, como columna) aleatorio
 
Xi1
 
 Xi2 
xi = 
 .. 

 . 
Xip
Por tanto, la matriz de varianzas-covarianzas muestral S será la matriz de
dimensión p × p

 

n
(Xi1 − x1 )2
n
(Xi1 − x1 )(Xi2 − x2 )
n
(Xi1 − x1 )(Xip − xp )
 ··· 
 n−1 n−1 n−1 
 i=1 i=1 i=1 
 
 n

n
n 
 (Xi2 − x2 )(Xi1 − x1 ) (Xi2 − x2 )2 (Xi2 − x2 )(Xip − xp ) 
 ··· 
 n−1 n−1 n−1 
 i=1 i=1 i=1 
 
 
 .. .. .. .. 
 . . . . 
 
 n 

n
(Xip − xp )2
n 
 (Xip − xp )(Xi1 − x1 ) (Xip − xp )(Xi2 − x2 )
···

n−1 n−1 n−1
i=1 i=1 i=1

1.5. La distribución normal multivariante


Una suposición que habitualmente es necesario realizar, en los capı́tulos
en los que efectuamos Análisis Confirmatorio, es que la variable aleatoria en
observación p-dimensional, X = (X1 , ..., Xp )t se distribuye según una distri-
bución normal multivariante.
Preliminares 23

Diremos que X sigue una distribución normal multivariante con vector de


medias m = (µ1 , ..., µp )t y matriz de covarianzas Σ si su función de densidad
es
1 1 t Σ−1 (x−m)}
f (x) =  e− 2 {(x−m) .
(2π)p/2 |Σ|
Una cuestión central en el segundo volumen, es la utilización de Métodos
Robustos, para los cuales no es imprescindible tal suposición.

Вам также может понравиться