Вы находитесь на странице: 1из 36

428 - Anlisis Multivariante

ndice general

1 Estadstica multivariante 1
1.1 Enlaces externos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Vase tambin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Vector aleatorio 3
2.1 La distribucin de un vector aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3 Prueba t de Student 4
3.1 Historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 Usos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3 Estadsticos T y Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4 Pruebas t para dos muestras apareadas y desapareadas . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4.1 Desapareada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4.2 Apareada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.5 Clculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.5.1 Prueba t para muestra nica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.5.2 Pendiente de una regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.5.3 Prueba t para dos muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.5.4 Prueba t dependiente para muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . 8
3.6 Ejemplos desarrollados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.6.1 Varianzas desiguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.6.2 Varianzas iguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.7 Alternativas a la prueba t para problemas de locacin . . . . . . . . . . . . . . . . . . . . . . . . 9
3.8 Pruebas multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.8.1 Prueba T 2 monomuestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2
3.8.2 Prueba T bimuestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.9 Implementaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.10 Lecturas adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.11 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.12 Enlaces externos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.12.1 Calculadores en lnea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

i
ii NDICE GENERAL

4 Distribucin normal multivariante 12


4.1 Caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.1.1 Funcin de distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.1.2 Un contraejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.1.3 Normalmente distribuidas e independencia . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 Caso bivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3 Transformacin afn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4 Interpretacin geomtrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.5 Correlaciones e independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.6 Momentos ms altos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.7 Distribuciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.7.1 Esperanza condicional bivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.8 Matriz de informacin de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.9 Divergencia de Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.10 Estimacin de parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.11 Entropa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.12 Tests de normalidad multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.13 Simulando valores de la distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.14 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5 Hotellings T-squared distribution 19


5.1 La distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2 Estadstica T-cuadrado de Hotelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.3 Estadstica T-cuadrado de Hotelling para dos muestras . . . . . . . . . . . . . . . . . . . . . . . . 21
5.4 Vase tambin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.5 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.6 Enlaces externos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

6 Anlisis multivariante 23
6.1 Tcnicas Multivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.2 Vase tambin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.3 Enlaces externos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

7 Anlisis multivariante de la varianza 25

8 Anlisis de correspondencias 26
8.1 Implementaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
8.2 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

9 Anlisis de componentes principales 27


9.1 Fundamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
9.2 Matemticas del ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
9.2.1 Mtodo basado en correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
NDICE GENERAL iii

9.2.2 Mtodo basado en las covarianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29


9.2.3 Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
9.3 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
9.4 Referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
9.4.1 Enlaces externos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

10 Anlisis discriminante 31
10.1 Vase tambin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
10.2 Text and image sources, contributors, and licenses . . . . . . . . . . . . . . . . . . . . . . . . . . 32
10.2.1 Text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
10.2.2 Images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
10.2.3 Content license . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Captulo 1

Estadstica multivariante

Un vector aleatorio es un vector formado por una o ms variables aleatorias escalares. La estadstica multivariante se
ocupa de los vectores aleatorios que tienen aplicaciones en muchas ciencias y tcnicas. Podemos destacar entre ellas
la econometra y la taxonoma. Un modelo explicativo para una variable aleatoria se basa en explicar esta recurriendo
a otras. Los vectores aleatorios nos sirven para construir este tipo de modelos. Incluso en fsica, donde parece que los
modelos determinan claramente el valor de las variables, estas padecen errores producidos por variables no incluidos
en el modelo o procesos puramente aleatorios, lo que hace necesario recurrir a modelos estadsticos para estimar sus
parmetros.
Los mtodos estadsticos multivariantes y el anlisis multivariante son herramientas estadsticas que estudian el
comportamiento de tres o ms variables al mismo tiempo. Se usan principalmente para buscar las variables menos
representativas para poder eliminarlas, simplicando as modelos estadsticos en los que el nmero de variables sea
un problema y para comprender la relacin entre varios grupos de variables. Algunos de los mtodos ms conocidos
y utilizados son la Regresin lineal y el Anlisis discriminante.
Se pueden sintetizar dos objetivos claros:

1. Proporcionar mtodos cuya nalidad es el estudio conjunto de datos multivariantes que el anlisis estadstico
uni y bidimensional es incapaz de conseguir.
2. Ayudar al analista o investigador a tomar decisiones ptimas en el contexto en el que se encuentre teniendo en
cuenta la informacin disponible por el conjunto de datos analizado.

Existen diferentes modelos y mtodos, cada uno con su tipo de anlisis:

1. Mtodos de Dependencia:
(a) Un estudio de la regresin nos permite averiguar hasta que punto una variable puede ser prevista co-
nociendo otra. Se utiliza para intentar predecir el comportamiento de ciertas variables a partir de otras,
como por ejemplo los benecios de una pelcula a partir del gasto en mrketing y del gasto en produccin.
(b) El anlisis de la correlacin cannica intenta analizar la posible existencia de relacin entre dos grupos
de variables.
(c) Un anlisis discriminante nos puede dar una funcin discriminante que puede ser utilizada para distinguir
entre dos o ms grupos, y de este modo tomar decisiones.
(d) Un anlisis multivariante de la varianza (MANOVA), extendiendo el anlisis de la varianza (ANOVA),
cubre los casos en los que se conozca la existencia de ms de una variable dependiente sin poderse sim-
plicar ms el modelo.
(e) La regresin logstica permite la elaboracin de un anlisis de regresin para estimar y probar la inuencia
de una variable sobre otra, cuando la variable dependiente o de respuesta es de tipo dicotmico.
2. Mtodos de Interdependencia:
(a) El anlisis de los componentes principales procura determinar un sistema ms pequeo de variables que
sinteticen el sistema original.

1
2 CAPTULO 1. ESTADSTICA MULTIVARIANTE

(b) El anlisis clster clasica una muestra de entidades (individuos o variables) en un nmero pequeo de
grupos de forma que las observaciones pertenecientes a un grupo sean muy similares entre s y muy
disimilares del resto. A diferencia del Anlisis discriminante se desconoce el nmero y la composicin
de dichos grupos.
(c) La Iconografa de las correlaciones.
3. Mtodos Estructurales:

Los modelos de ecuaciones estructurales analizan las relaciones existentes entre


un grupo de variables representadas por sistemas de ecuaciones simultneas en las
que se suponen que algunas de ellas (denominadas constructos) se miden con error
a partir de otras variables observables denominadas indicadores. Los modelos utili-
zados constan, por lo tanto, de dos partes: un modelo estructural que especica las
relaciones de dependencia existente entre las constructos latentes y un modelo de
medida que especica como los indicadores se relacionan con sus correspondientes
constructos.

1.1 Enlaces externos


Espaol:

Anlisis de modelos de regresin logstica, en la web de la Sociedad Andaluza de Enfermedades Infecciosas

1.2 Vase tambin


Anlisis multivariante

1.3 Bibliografa
Abraira Santos, Vctor. Mtodos Multivariantes en bioestadstica.

Cuadras, Carles (2008). Nuevos mtodos de anlisis multivariante. CMC Editions.


Captulo 2

Vector aleatorio

Un vector aleatorio es un vector formado por una o ms variables aleatorias escalares. Por variable aleatoria escalar
nos referimos a una variable que toma valores en un cuerpo. Normalmente, este cuerpo es el de los nmeros reales o
el de los nmeros complejos.

2.1 La distribucin de un vector aleatorio


Asociada al vector aleatorio est la distribucin del vector aleatorio que es una distribucin de probabilidad asociada
al vector aleatorio que nos permite calcular la probabilidad de que el valor del vector aleatorio, que es un vector, est
dentro de un conjunto. Las distribuciones de probabilidad que puede tomar un vector aleatorio son las distribuciones
vectoriales. Entre ellas podemos destacar la distribucin normal vectorial. La distribucin del vector aleatorio deter-
mina la distribucin de las variables aleatorias escalares que lo forman. Cada una de estas distribuciones escalares se
llama distribucin marginal.
Otros ejemplos de distribuciones vectoriales son la distribucin de Dirichlet y la distribucin multivariante de Student.

3
Captulo 3

Prueba t de Student

En estadstica, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el estadstico
utilizado tiene una distribucin t de Student si la hiptesis nula es cierta. Se aplica cuando la poblacin estudiada
sigue una distribucin normal pero el tamao muestral es demasiado pequeo como para que el estadstico en el que
est basada la inferencia est normalmente distribuido, utilizndose una estimacin de la desviacin tpica en lugar
del valor real. Es utilizado en anlisis discriminante.

3.1 Historia
El estadstico t fue introducido por William Sealy Gosset en 1908, un qumico que trabajaba para la cervecera
Guinness de Dubln. Student era su seudnimo de escritor.[1][2][3] Gosset haba sido contratado gracias a la poltica
de Claude Guiness de reclutar a los mejores graduados de Oxford y Cambridge, y con el objetivo de aplicar los nuevos
avances en bioqumica y estadstica al proceso industrial de Guiness.[2] Gosset desarroll el test t como una forma
sencilla de monitorizar la calidad de la famosa cerveza stout. Public su test en la revista inglesa Biometrika en el ao
1908, pero fue forzado a utilizar un seudnimo por su empleador, para mantener en secreto los procesos industriales
que se estaban utilizando en la produccin. Aunque de hecho, la identidad de Gosset era conocida por varios de sus
compaeros estadsticos.[4]

3.2 Usos
Entre los usos ms frecuentes de las pruebas t se encuentran:

El test de locacin de muestra nica por el cual se comprueba si la media de una poblacin distribuida nor-
malmente tiene un valor especicado en una hiptesis nula.

El test de locacin para dos muestras, por el cual se comprueba si las medias de dos poblaciones distribuidas
en forma normal son iguales. Todos estos test son usualmente llamados test t de Student, a pesar de que es-
trictamente hablando, tal nombre slo debera ser utilizado si las varianzas de las dos poblaciones estudiadas
pueden ser asumidas como iguales; la forma de los ensayos que se utilizan cuando esta asuncin se deja de lado
suelen ser llamados a veces como Prueba t de Welch. Estas pruebas suelen ser comnmente nombradas como
pruebas t desapareadas o de muestras independientes, debido a que tienen su aplicacin ms tpica cuando las
unidades estadsticas que denen a ambas muestras que estn siendo comparadas no se superponen.[5]

El test de hiptesis nula por el cual se demuestra que la diferencia entre dos respuestas medidas en las mismas
unidades estadsticas es cero. Por ejemplo, supngase que se mide el tamao del tumor de un paciente con
cncer. Si el tratamiento resulta efectivo, lo esperable seria que el tumor de muchos pacientes disminuyera de
tamao luego de seguir el tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas
o repetidas.[5][6]

El test para comprobar si la pendiente de una regresin lineal diere estadsticamente de cero.

4
3.3. ESTADSTICOS T Y Z 5

3.3 Estadsticos T y Z
La mayor parte de las pruebas estadsticas t tienen la forma T = Zs , donde Z y s son funciones de los datos estudiados.
Tpicamente, Z se disea de forma tal que resulte sensible a la hiptesis alternativa (p.ej. que su magnitud tienda a
ser mayor cuando la hiptesis alternativa es verdadera), mientras que s es un parmetro de escala que permite que la
distribucin de T pueda ser determinada.
es la media muestral de los datos, n es el tamao
Por ejemplo, en una prueba t de muestra nica, Z = X , donde X
n
muestral, y es la desviacin estndar de la poblacin de datos; s en una prueba de muestra nica es
/ , donde

es la desviacin estndar muestral.
Las asunciones subyacentes en una prueba t son:

Que Z sigue una distribucin normal bajo la hiptesis nula.


ps2 sigue una distribucin 2 con p grados de libertad bajo la hiptesis nula, y donde p es una constante positiva.
Z y s son estadsticamente independientes.

En una prueba t especca, estas condiciones son consecuencias de la poblacin que est siendo estudiada, y de la
forma en que los datos han sido muestreados. Por ejemplo, en la prueba t de comparacin de medias de dos muestras
independientes, deberamos realizar las siguientes asunciones:

Cada una de las dos poblaciones que estn siendo comparadas sigue una distribucin normal. Esto puede
ser demostrado utilizando una prueba de normalidad, tales como una prueba Shapiro-Wilk o Kolmogrov-
Smirnov, o puede ser determinado grcamente por medio de un grco de cuantiles normales Q-Q plot.

Si se est utilizando la denicin original de Student sobre su prueba t, las dos poblaciones a ser comparadas
deben poseer las mismas varianzas, (esto se puede comprobar utilizando una prueba F de igualdad de varianzas,
una prueba de Levene, una prueba de Bartlett, o una prueba de Brown-Forsythe, o estimarla grcamente por
medio de un grco Q-Q plot). Si los tamaos muestrales de los dos grupos comparados son iguales, la prueba
original de Student es altamente resistente a la presencia de varianzas desiguales.[7] la Prueba de Welch es
insensible a la igualdad de las varianzas, independientemente de si los tamaos de muestra son similares.

Los datos usados para llevar a cabo la prueba deben ser muestreados independientemente para cada una de
las dos poblaciones que se comparan. Esto en general no es posible determinarlo a partir de los datos, pero si
se conoce que los datos han sido muestreados de manera dependiente (por ejemplo si fueron muestreados por
grupos), entonces la prueba t clsica que aqu se analiza, puede conducir a resultados errneos.

3.4 Pruebas t para dos muestras apareadas y desapareadas


Las pruebas-t de dos muestras para probar la diferencia en las medias pueden ser desapareadas o en parejas. Las
pruebas t pareadas son una forma de bloqueo estadstico, y poseen un mayor poder estadstico que las pruebas no
apareadas cuando las unidades apareadas son similares con respecto a los factores de ruido que son independientes
de la pertenencia a los dos grupos que se comparan [cita requerida] . En un contexto diferente, las pruebas-t apareadas
pueden utilizarse para reducir los efectos de los factores de confusin en un estudio observacional.

3.4.1 Desapareada
Las pruebas t desapareadas o de muestras independientes, se utilizan cuando se obtienen dos grupos de muestras
aleatorias, independientes e idnticamente distribuidas a partir de las dos poblaciones a ser comparadas. Por ejemplo,
supngase que estamos evaluando el efecto de un tratamiento mdico, y reclutamos a 100 sujetos para el estudio.
Luego elegimos aleatoriamente 50 sujetos para el grupo en tratamiento y 50 sujetos para el grupo de control. En este
caso, obtenemos dos muestras independientes y podramos utilizar la forma desapareada de la prueba t. La eleccin
aleatoria no es esencial en este caso, si contactamos a 100 personas por telfono y obtenemos la edad y gnero de
cada una, y luego se utiliza una prueba t bimuestral para ver en que forma la media de edades diere por gnero, esto
tambin sera una prueba t de muestras independientes, a pesar de que los datos son observacionales.
6 CAPTULO 3. PRUEBA T DE STUDENT

3.4.2 Apareada
Las pruebas t de muestras dependientes o apareadas, consisten tpicamente en una muestra de pares de valores con
similares unidades estadsticas, o un grupo de unidades que han sido evaluadas en dos ocasiones diferentes (una
prueba t de mediciones repetitivas). Un ejemplo tpico de prueba t para mediciones repetitivas sera por ejemplo que
los sujetos sean evaluados antes y despus de un tratamiento.
Una prueba 't basada en la coincidencia de pares muestrales se obtiene de una muestra desapareada que luego es utili-
zada para formar una muestra apareada, utilizando para ello variables adicionales que fueron medidas conjuntamente
con la variable de inters.[8]
La valoracin de la coincidencia se lleva a cabo mediante la identicacin de pares de valores que consisten en
una observacin de cada una de las dos muestras, donde las observaciones del par son similares en trminos de otras
variables medidas. Este enfoque se utiliza a menudo en los estudios observacionales para reducir o eliminar los efectos
de los factores de confusin.

3.5 Clculos
Las expresiones explcitas que pueden ser utilizadas para obtener varias pruebas t se dan a continuacin. En cada
caso, se muestra la frmula para una prueba estadstica que o bien siga exactamente o aproxime a una distribucin t
de Student bajo la hiptesis nula. Adems, se dan los apropiados grados de libertad en cada caso. Cada una de estas
estadsticas se pueden utilizar para llevar a cabo ya sea un prueba de una cola o prueba de dos colas.
Una vez que se ha determinado un valor t, es posible encontrar un valor p asociado utilizando para ello una tabla
de valores de distribucin t de Student. Si el valor p calulado es menor al lmite elegido por signicancia estadstica
(usualmente a niveles de signicancia 0,10; 0,05 o 0,01), entonces la hiptesis nula se rechaza en favor de la hiptesis
alternativa.

3.5.1 Prueba t para muestra nica


En esta prueba se evala la hiptesis nula de que la media de la poblacin estudiada es igual a un valor especicado
0 , se hace uso del estadstico:
x
0 ,
t= s/ n

donde x es la media muestral, s es la desviacin estndar muestral y n es el tamao de la muestra. Los grados de
libertad utilizados en esta prueba se corresponden al valor n 1.

3.5.2 Pendiente de una regresin lineal


Supngase que se est ajustando el modelo:
Yi = + xi + i ,

donde xi, i = 1, ..., n son conocidos, y son desconocidos, y i es el error aleatorio en los residuales que se
encuentra normalmente distribuido, con un valor esperado 0 y una varianza desconocida 2 , e Yi, i = 1, ..., n son las
observaciones.
Se desea probar la hiptesis nula de que la pendiente es igual a algn valor especicado 0 (a menudo toma el valor
0, en cuyo caso la hiptesis es que x e y no estn relacionados).
sea
b, b = mnimos cuadrados de estimadores,

SEb , SEb = mnimos cuadrados de estimadores los de estndar error.
Luego
b 0

tvalor = SEb
3.5. CLCULOS 7

tiene una distribucin t con n 2 grados de libertad si la hiptesis nula es verdadera. El error estndar de la pendiente:
1 n
(Y by )2
SEb = n2 n i=1 i 2i
i=1 (xi x)

puede ser reescrito en trminos de los residuales:


bi = Yi ybi = Yi (b + xb i ) = residuales = estimados errores,
n
SSE = bi2 = residuales los de cuadrados los de suma.
i=1

Luego tvalor se encuentra dado por:



b 0 ) n2
tvalor = (
n .
SSE/ i=1 (xi x)2

3.5.3 Prueba t para dos muestras independientes


Iguales tamaos muestrales, iguales varianzas

Esta prueba se utiliza solamente cuando:

los dos tamaos muestrales (esto es, el nmero, n, de participantes en cada grupo) son iguales;
se puede asumir que las dos distribuciones poseen la misma varianza.

Las violaciones a estos presupuestos se discuten ms abajo.


El estadstico t a probar si las medias son diferentes se puede calcular como sigue:
1 X2
t= X 2
SX1 X2 n

Donde

1 2 2 )
SX1 X2 = 2 (SX1 + SX2

Aqu SX1 X2 es la desviacin estndar combinada, 1 = grupo uno, 2 = grupo 2. El denominador de t es el error estndar
de la diferencia entre las dos medias.
Por prueba de signicancia, los grados de libertad de esta prueba se obtienen como 2n 2 donde n es el nmero de
participantes en cada grupo.

Diferentes tamaos muestrales, iguales varianzas

Esta prueba se puede utilizar nicamente si se puede asumir que las dos distribuciones poseen la misma varianza.
(Cuando este presupuesto se viola, mirar ms abajo). El estadstico t si las medias son diferentes puede ser calculado
como sigue:
1 X
X
t= 2
SX1 X2 n1 + n1
1 2

Donde

(n1 1)SX
2 +(n 1)S 2
2 X2
SX1 X2 = 1
n1 +n2 2 .

Ntese que las frmulas de arriba, son generalizaciones del caso que se da cuando ambas muestras poseen igual
tamao (sustituyendo n por n1 y n2 ).
SX1 X2 es un estimador de la desviacin estndar comn de ambas muestras: esto se dene as para que su cuadrado sea
un estimador sin sesgo de la varianza comn sea o no la media iguales. En esta frmula, n = nmero de participantes,
8 CAPTULO 3. PRUEBA T DE STUDENT

1 = grupo uno, 2 = grupo dos. n 1 es el nmero de grados de libertad para cada grupo, y el tamao muestral total
menos dos (esto es, n1 + n2 2) es el nmero de grados de libertad utilizados para la prueba de signicancia.

Diferentes tamaos muestrales, diferentes varianzas

Esta prueba es tambin conocida como prueba t de Welch y es utilizada nicamente cuando se puede asumir que las
dos varianzas poblacionales son diferentes (los tamaos muestrales pueden o no ser iguales) y por lo tanto deben ser
estimadas por separado. El estadstico t a probar cuando las medias poblacionales son distintas puede ser calculado
como sigue:
X 1 X 2
t= sX X
1 2

donde

s21 s22
sX 1 X 2 = n1 + n2 .

Aqu s2 es el estimador sin sesgo de la varianza de las dos muestras, n = nmero de participantes, 1 = grupo uno,
2 = grupo dos. Ntese que en este caso, sX 1 X 2 2 no es la varianza combinada. Para su utilizacin en pruebas de
signicancia, la distribucin de este estadstico es aproximadamente igual a una distribucin t ordinaria con los grados
de libertad calculados segn:
(s21 /n1 +s22 /n2 )2
g.l. = (s21 /n1 )2 /(n1 1)+(s22 /n2 )2 /(n2 1)
.

Esta ecuacin es llamada la ecuacin WelchSatterthwaite. Ntese que la verdadera distribucin de este estadstico
de hecho depende (ligeramente) de dos varianzas desconocidas.

3.5.4 Prueba t dependiente para muestras apareadas

Esta prueba se utiliza cuando las muestras son dependientes; esto es, cuando se trata de una nica muestra que ha
sido evaluada dos veces (muestras repetidas) o cuando las dos muestras han sido emparejadas o apareadas. Este es un
ejemplo de un test de diferencia apareada.
X D
0.
t= sD / n

Para esta ecuacin, la diferencia entre todos los pares tiene que ser calculada. Los pares se han formado ya sea
con resultados de una persona antes y despus de la evaluacin o entre pares de personas emparejadas en grupos
de signicancia (por ejemplo, tomados de la misma familia o grupo de edad: vase la tabla). La media (XD) y la
desviacin estndar (sD) de tales diferencias se han utilizado en la ecuacin. La constante 0 es diferente de cero si
se desea probar si la media de las diferencias es signicativamente diferente de 0 . Los grados de libertad utilizados
son n 1.

3.6 Ejemplos desarrollados


Sea A1 denotando un grupo obtenido tomando 6 muestras aleatorias a partir de un grupo mayor:
A1 = {30, 02; 29, 99; 30, 11; 29, 97; 30, 01; 29.99}

y sea A2 denotando un segundo grupo obtenido de manera similar:


A2 = {29, 89; 29, 93; 29, 72; 29, 98; 30, 02; 29, 98}

Estos podran ser, por ejemplo, los pesos de tornillos elegidos de un montn.
Vamos a llevar a cabo la prueba de hiptesis contando como hiptesis nula de que la media de las poblaciones de las
cuales hemos tomado las muestras son iguales.
3.7. ALTERNATIVAS A LA PRUEBA T PARA PROBLEMAS DE LOCACIN 9

La diferencia entre las dos medias de muestras, cada uno denotado por X i , la cual aparece en el numerador en todos
los enfoques de dos muestras discutidas anteriormente, es
X 1 X 2 = 0, 095.

La desviaciones estndar muestrales para las dos muestras son aproximadamente 0,05 y 0,11 respectivamente. Para
muestras tan pequeas, una prueba de igualdad entre las varianzas de las dos poblaciones no es muy poderoso. Pero
ya que los tamaos muestrales son iguales, las dos formas de las dos pruebas t se pueden desarrollar en forma similar
en este ejemplo.

3.6.1 Varianzas desiguales

Si se decide continuar con el enfoque para varianzas desiguales (discutido anteriormente), los resultados son
2
s1 s22
n1 + n2 0, 0485

y
gl 7, 03

El resultado de la prueba estadstica es aproximadamente 1,959. El valor p para la prueba de dos colas da un valor
aproximado de 0,091 y el valor p para la prueba de una cola es aproximadamente 0,045.

3.6.2 Varianzas iguales

Si se sigue el enfoque para varianzas iguales (discutido anteriormente), los resultados son
SX1 X2 0, 084

y
gl = 10

Ya que el tamao de las muestras es igual (ambas tienen 6 elementos), el resultado de la prueba estadstica es nue-
vamente un valor que se aproxima a 1.959. Debido a que los grados de libertad son diferentes de la prueba para
varianzas desiguales, los valores P dieren ligeramente de los obtenidos un poco ms arriba. Aqu el valor p para la
prueba de dos colas es aproximadamente 0,078, y el valor p para una cola es aproximadamente 0,039. As, si hubiera
una buena razn para creer que las varianzas poblacionales son iguales, los resultados seran algo ms sugerentes de
una diferencia en los pesos medios de las dos poblaciones de tornillos.

3.7 Alternativas a la prueba t para problemas de locacin


La prueba t provee un mecanismo exacto para evaluar la igualdad entre las medias de dos poblaciones que tengan
varianzas iguales, aunque el valor exacto de las mismas sea desconocido. El test de Welch es una prueba aproxima-
damente exacta para el caso en que los datos poseen una distribucin normal, pero las varianzas son diferentes. Para
muestras moderadamente grandes y pruebas de una cola, el estadstico t es moderadamente robusto a las violaciones
de la asuncin de normalidad.[9]
Para ser exactos tanto las pruebas t como las z requiere que las medias de las muestras sigan una distribucin normal,
y la prueba t adicionalmente requiere que la varianza de las muestras siga una distribucin Chi-cuadrado (2 ), y
que la media muestral y la varianza muestral sean estadsticamente independientes. La normalidad de los valores
individuales de los datos no es un requisito para que estas condiciones se cumplan. Por el teorema del lmite central,
las medias muestrales de muestras moderadamente grandes tambin aproximan una distribucin normal, incluso si los
datos individuales no estn normalmente distribuidos. Para datos no normales, la distribucin de la varianza muestral
puede desviarse sustancialmente de una distribucin 2 . Sin embargo, si el tamao muestral es grande, el teorema de
Slutsky indica que la distribucin de las varianzas muestrales ejerce un efecto muy pequeo en la distribucin de la
10 CAPTULO 3. PRUEBA T DE STUDENT

prueba estadstica. Si los datos son substancialmente no normales, y el tamao muestral es pequeo, la prueba t puede
entregar resultados equivocados.
Cuando la asuncin de normalidad no se sostiene, una alternativa no paramtrica a la prueba t puede ofrecer un mejor
poder estadstico. Por ejemplo, para dos muestras independientes cuando la distribucin de datos es asimtrica (esto
es, que la distribucin est sesgada) o la distribucin tiene colas muy grandes, entonces el test de suma de posiciones
(ranks) de Wilcoxon (conocido tambin como prueba U de Mann-Whitney) puede tener de tres a cuatro veces mayor
poder estadstico que una prueba t.[9][10][11]
La contraparte no paramtrica a la prueba t de muestras apareadas es la prueba Wilcoxon de suma de posiciones
con signo para muestras pareadas. Para una discusin sobre cuando hacer una eleccin entre las alternativas t y no
paramtricos, consulte a Sawilowsky.[12]
El anlisis de varianza one-way generaliza la prueba t de dos muestras para casos donde los datos pertenecen a ms
que dos grupos.

3.8 Pruebas multivariadas


Una generalizacin del estadstico t de Student llamada estadstico t cuadrado de Hotelling, permite la comprobacin
de hiptesis en mltiples (y a menudo correlacionadas) mediciones de la misma muestra. Por ejemplo, un investigador
puede presentar un nmero de sujetos a un test de mltiples escalas de personalidad (p.ej el de cinco grandes rasgos de
personalidad). Debido a que las medidas de este tipo suelen estar muy correlacionadas, no es aconsejable llevar a cabo
varias pruebas univariadas, ya que esto supondra descuidar la covarianza entre las medidas e inar la probabilidad
de rechazar falsamente al menos una hiptesis (error de tipo I). En este caso una nica prueba mltiple es preferible
para llevar a cabo las pruebas de hiptesis. El estadstico t de Hosteling sigue una distribucin T 2 , sin embargo en la
prctica, esta distribucin se utiliza muy raramente, y en cambio se suele convertir en una distribucin de tipo F.

3.8.1 Prueba T 2 monomuestral

Para una prueba multivariable de nica muestra, la hiptesis es que el vector medio ( ) es igual a un vector ( 0 )
dado. La prueba estadstica se dene como:
T 2 = n(x 0 ) S1 (x 0 )

Donde n es el tamao muestral, x es el vector de columnas medio y S una matriz de covarianza muestral m m .

3.8.2 Prueba T 2 bimuestral

Para un test multivariable de dos muestras, la hiptesis es que los vectores medios ( 1 , 2 ) de las dos muestras son
iguales. La prueba estadstica se dene como:
T2 = n1 n2
n1 +n2 (x1 x2 ) Spooled 1 (x1 x2 ).

3.9 Implementaciones
La mayora de los programas tipo hoja de clculo y paquetes estadsticos de lenguajes de programacin, tales como
QtiPlot, OpenOce.org Calc, LibreOce Calc, Microsoft Excel, SAS, SPSS, Stata, DAP, gretl, R, Python (), PSPP,
Infostat y Minitab, incluyen implementaciones del test t de Student.

3.10 Lecturas adicionales


Boneau, C. Alan (1960). The eects of violations of assumptions underlying the t test. Psychological Bulletin
57 (1): 4964. doi:10.1037/h0041412.
3.11. REFERENCIAS 11

Edgell, Stephen E., & Noon, Sheila M (1984). Eect of violation of normality on the t test of the correlation
coecient. Psychological Bulletin 95 (3): 576583. doi:10.1037/0033-2909.95.3.576.

3.11 Referencias
[1] Richard Mankiewicz, The Story of Mathematics (Princeton University Press), p.158.
[2] O'Connor, John J.; Robertson, Edmund F., Biografa de Prueba t de Student (en ingls), MacTutor History of Mathematics
archive, Universidad de Saint Andrews, http://www-history.mcs.st-andrews.ac.uk/Biographies/Gosset.html.
[3] Fisher Box, Joan (1987). Guinness, Gosset, Fisher, and Small Samples. Statistical Science 2 (1): 4552. doi:10.1214/ss/1177013437.
JSTOR 2245613.
[4] Raju TN (2005). William Sealy Gosset and William A. Silverman: two students of science. Pediatrics 116 (3): 7325.
doi:10.1542/peds.2005-1134. PMID 16140715.
[5] Fadem, Barbara (2008). High-Yield Behavioral Science (High-Yield Series). Hagerstwon, MD: Lippincott Williams & Wil-
kins. ISBN 0-7817-8258-9.
[6] Zimmerman, Donald W. (1997). A Note on Interpretation of the Paired-Samples t Test. Journal of Educational and
Behavioral Statistics 22 (3): 349360. JSTOR 1165289.
[7] Markowski, Carol A; Markowski, Edward P. (1990). Conditions for the Eectiveness of a Preliminary Test of Variance.
The American Statistician 44 (4): 322326. doi:10.2307/2684360. JSTOR 2684360.
[8] David, HA; Gunnink, Jason L (1997). The Paired t Test Under Articial Pairing. The American Statistician 51 (1): 912.
doi:10.2307/2684684. JSTOR 2684684.
[9] Sawilowsky S., Blair R. C. (1992). A more realistic look at the robustness and type II error properties of the t test to
departures from population normality. Psychological Bulletin 111 (2): 353360. doi:10.1037/0033-2909.111.2.352.
[10] Blair, R. C.; Higgins, J.J. (1980). A comparison of the power of Wilcoxons rank-sum statistic to that of Students t statistic
under various nonnormal distributions.. Journal of Educational Statistics 5 (4): 309334. doi:10.2307/1164905. JSTOR
1164905.
[11] Fay, MP; Proschan, MA (2010). Wilcoxon-Mann-Whitney or t-test? On assumptions for hypothesis tests and multiple
interpretations of decision rules. Statistics Surveys 4: 139. doi:10.1214/09-SS051. PMC 2857732. PMID 20414472.
[12] Sawilowsky S (2005). Misconceptions leading to choosing the t test over the Wilcoxon Mann-Whitney U test for shift in
location parameter. Journal of Modern Applied Statistical Methods 4 (2): 598600.

O'Mahony, Michael (1986). Sensory Evaluation of Food: Statistical Methods and Procedures. CRC Press. p.
487. ISBN 0-824-77337-3.
Press, William H.; Saul A. Teukolsky, William T. Vetterling, Brian P. Flannery (1992). Numerical Recipes in
C: The Art of Scientic Computing. Cambridge University Press. pp. p. 616. ISBN 0-521-43108-5.

3.12 Enlaces externos


Wikiversidad alberga proyectos de aprendizaje sobre Prueba t de Student.Wikiversidad
Un artculo conceptual sobre el test t de Student
Tabla de distribuciones t de Student

3.12.1 Calculadores en lnea


Realizar un test-T online: test-T
Online T-Test Calculator
2 Sample T-Test Calculator
GraphPads Paired/Unpaired/Welch T-Test Calculator
Captulo 4

Distribucin normal multivariante

En probabilidad y estadstica, una distribucin normal multivariante, tambin llamada distribucin gaussiana
multivariante, es una generalizacin de la distribucin normal unidimensional a dimensiones superiores.

4.1 Caso general


Un vector aleatorio X = [X1 , . . . , Xn ]T sigue una distribucin normal multivariante si satisface las siguientes
condiciones equivalentes:

Toda combinacin lineal Y = a1 X1 + + an Xn est normalmente distribuida.


Hay un vector aleatorio Z = [Z1 , . . . , Zm ]T , cuyas componentes son variables aleatorias independientes
distribuidas segn la normal estndar, un vector = [1 , . . . , n ]T y una matriz nm A tal que X = AZ+
.
Hay un vector y una matriz semidenida positiva simtrica tal que la funcin caracterstica de X es

( )
1

X (u; , ) = exp i u u u .
2

Si es una matriz no singular, entonces la distribucin puede describirse por la siguiente funcin de densidad:
( )
fX (x1 , . . . , xn ) = (2)n/21 ||1/2 exp 21 (x ) 1 (x )

donde || es el determinante de . Ntese como la ecuacin de arriba se reduce a la distribucin normal si es


un escalar (es decir, una matriz 1x1).
El vector en estas circunstancias es la esperanza de X y la matriz = AAT es la matriz de covarianza de las
componentes Xi.
Es importante comprender que la matriz de covarianza puede ser singular (aunque no est as descrita por la frmula
de arriba, para la cual 1 est denida).
Este caso aparece con frecuencia en estadstica; por ejemplo, en la distribucin del vector de residuos en problemas
ordinarios de regresin lineal. Ntese tambin que los Xi son en general no independientes; pueden verse como el
resultado de aplicar la transformacin lineal A a una coleccin de variables normales Z.
Esta distribucin de un vector aleatorio X que sigue una distribucin normal multivariante puede ser descrita con la
siguiente notacin:

X N (, ),

o hacer explcito que X es n-dimensional,

X NN (, ).

12
4.2. CASO BIVARIANTE 13

4.1.1 Funcin de distribucin


La funcin de distribucin F (x) se dene como la probabilidad de que todos los valores de un vector aleatorio X
sean menores o iguales que los valores correspondientes de un vector x . Aunque F no tenga una frmula, hay una
serie de algoritmos que permiten estimarla numricamente.[1]

4.1.2 Un contraejemplo
El hecho de que dos variables aleatorias X e Y sigan una distribucin normal, cada una, no implica que el par (X, Y)
siga una distribucin normal conjunta. Un ejemplo simple se da con X Normal(0,1), Y = X si |X| > 1 e Y = X si |X|
< 1. Esto tambin es cierto para ms de dos variables aleatorias.[2]

4.1.3 Normalmente distribuidas e independencia


Si X e Y estn normalmente distribuidas y son independientes, su distribucin conjunta tambin est normalmente
distribuida, es decir, el par (X, Y) debe tener una distribucin normal bivariante. En cualquier caso, un par de variables
aleatorias normalmente distribuidas no tienen por qu ser independientes al ser consideradas de forma conjunta.

4.2 Caso bivariante


En el caso particular de dos dimensiones, la funcin de densidad (con media (0, 0) es

( ( 2 ))
1 1 x y2 2xy
f (x, y) = exp +
2x y 1 2 2(1 2 ) x2 y2 (x y )
donde es el coeciente de correlacion entre X e Y . En este caso,

[ ]
x2 x y
= .
x y y2

4.3 Transformacin afn


Si Y = c + BX es una transformacin afn de X N (, ), donde c es un M 1 vector de constantes y B una
M N matriz, (entonces Y tiene )una distribucin normal multivariante con esperanza c + B y varianza BB T
esto es, Y N c + B, BB T . En particular, cualquier subconjunto de las Xi tiene una distribucin marginal
que es tambin una normal multivariante.
Para ver esto, considrese el siguiente ejemplo: para extraer el subconjunto (X1 , X2 , X4 )T , sese


1 0 0 0 0 ... 0
B = 0 1 0 0 0 ... 0
0 0 0 1 0 ... 0
lo que extrae directamente los elementos deseados.
Otro corolario sera que la distribucin de Z = b X , donde b es un vector de la misma longitud
( que )X y el
punto indica un producto vectorial, sera una distribucin gaussiana unidimensional con Z N b , bT b . Este
resultado se obtiene usando


b1 b2 ... bn
0 0 ... 0

B=. .. .. ..
.. . . .
0 0 ... 0
14 CAPTULO 4. DISTRIBUCIN NORMAL MULTIVARIANTE

y considerando slo la primera componente del producto (la primera la de B es el vector b ). Obsrvese cmo la
denicin positiva de implica que la varianza del producto vectorial debera ser positiva.

4.4 Interpretacin geomtrica


Las curvas de equidensidad de una distribucin normal multivariante son elipsoides (es decir, transformaciones li-
neales de hiperesferas) centrados en la media.[3] Las direcciones de los ejes principales de los elipsoides vienen dados
por los vectores propios de la matriz de covarianza . Las longitudes relativas de los cuadrados de los ejes principales
vienen dados por los correspondientes vectores propios.
Si = U U T = U 1/2 (U 1/2 )T es una descomposicin espectral donde las columnas de U son vectores propios
unitarios y es una matriz diagonal de valores propios, entonces tenemos

X N (, ) X + U 1/2 N (0, I) X + U N (0, ).

Adems, U puede elegirse de tal modo que sea una matriz de rotacin, tal que invirtiendo un eje no tenga ningn
efecto en N (0, ) , pero invirtiendo una columna, cambie el signo del determinante de U'. La distribucin N (, )
es en efecto N (0, I) escalada por 1/2 , rotada por U y trasladada por .
Recprocamente, cualquier eleccin de , matriz de rango completo U, y valores diagonales positivos i cede el paso
a una distribucin normal no singular multivariante. Si cualquier i es cero y U es cuadrada, la matriz de covarianza
U U T es una singular. Geomtricamente esto signica que cada curva elipsoide es innitamente delgada y tiene
volumen cero en un espacio n-dimensional, as como, al menos, uno de los principales ejes tiene longitud cero.

4.5 Correlaciones e independencia


En general, las variables aleatorias pueden ser incorreladas, pero altamente dependientes. Pero si un vector alea-
torio tiene una distribucin normal multivariante, entonces cualesquiera dos o ms de sus componentes que sean
incorreladas, son independientes.
Pero no es cierto que dos variables aleatorias que estn (separadamente, marginalmente) normalmente distribui-
das e incorreladas sean independientes. Dos variables aleatorias que estn normalmente distribuidas pueden que no
lo estn conjuntamente. Para un ejemplo de dos variables normalmente distribuidas que sean incorreladas pero no
independientes, vase normalmente distribuidas e incorreladas no implica independencia.

4.6 Momentos ms altos


El momento estndar de k-simo orden de X se dene como



N
1,...,N (X) = r1 ,...,rN (X) = E Xj j
def def r

j=1

donde r1 + r2 + + rN = k.
Los momentos centrales de orden k viene dados como sigue:
(a) Si k es impar, 1,...,N (X ) = 0 .
(b) Si k es par, con k = 2 , entonces


1,...,2 (X ) = (ij k XZ )
4.7. DISTRIBUCIONES CONDICIONALES 15

donde la suma se toma sobre todas las disposiciones de conjuntos {1, . . . , 2} en parejas (no ordenadas). Esto es,
si se tiene un k-simo ( = 2 = 6 ) momento central, se estarn sumando los productos de = 3 covarianzas (la
notacin - se ha despreciado para facilitar la lectura):

E[X1 X2 X3 X4 X5 X6 ]
= E[X1 X2 ]E[X3 X4 ]E[X5 X6 ] + E[X1 X2 ]E[X3 X5 ]E[X4 X6 ] + E[X1 X2 ]E[X3 X6 ]E[X4 X5 ]
+ E[X1 X3 ]E[X2 X4 ]E[X5 X6 ] + E[X1 X3 ]E[X2 X5 ]E[X4 X6 ] + E[X1 X3 ]E[X2 X6 ]E[X4 X5 ]
+ E[X1 X4 ]E[X2 X3 ]E[X5 X6 ] + E[X1 X4 ]E[X2 X5 ]E[X3 X6 ] + E[X1 X4 ]E[X2 X6 ]E[X3 X5 ]
+ E[X1 X5 ]E[X2 X3 ]E[X4 X6 ] + E[X1 X5 ]E[X2 X4 ]E[X3 X6 ] + E[X1 X5 ]E[X2 X6 ]E[X3 X4 ]
+ E[X1 X6 ]E[X2 X3 ]E[X4 X5 ] + E[X1 X6 ]E[X2 X4 ]E[X3 X5 ] + E[X1 X6 ]E[X2 X5 ]E[X3 X4 ].

Esto da lugar a (21)!/(21 (1)!) trminos en la suma (15 en el caso de arriba), cada uno siendo el producto de
(3 en este caso) covarianzas. Para momentos de cuarto orden (cuatro variables) hay tres trminos. Para momentos
de sexto orden hay 3 5 = 15 trminos, y para momentos de octavo orden hay 3 5 7 = 105 trminos.
Las covarianzas son entonces determinadas mediante el reemplazo de los trminos de la lista [1, . . . , 2] por los
trminos correspondientes de la lista que consiste en r1 unos, entonces r2 doses, etc... Para ilustrar esto, examnese
el siguiente caso de momento central de cuarto orden:

[ ]
E Xi4 = 3ii2

[ ]
E Xi3 Xj = 3ii ij
[ ] 2
E Xi2 Xj2 = ii jj + 2 (ij )
[ ]
E Xi2 Xj Xk = ii jk + 2ij ik
E [Xi Xj Xk Xn ] = ij kn + ik jn + in jk .
donde ij es la covarianza de Xi y Xj . La idea del mtodo de arriba es que primero se encuentra el caso general para
el momento k -simo, donde se [ tiene k diferentes
] variables X - E [Xi Xj Xk Xn ] y entonces se pueden simplicar
apropiadamente. Si se tiene E Xi2 Xk Xn entonces, simplemente sea Xi = Xj y se sigue que ii = i2 .

4.7 Distribuciones condicionales


Si y son divididas como sigue:
[ ] [ ]
q1
= 1 con tamaos
2 (N q) 1
[ ] [ ]
11 12 qq q (N q)
= con tamaos
21 22 (N q) q (N q) (N q)

entonces la distribucin de x1 condicionada a x2 = a es una normal multivariante (X1 |X2 = a) N (


, ) donde

= 1 + 12 1
22 (a 2 )

y matriz de covarianza

= 11 12 1
22 21 .

Esta matriz es el complemento de Schur de 22 en . Esto signica que para calcular la matriz condicional de
covarianza, se invierte la matriz global de covarianza, se desprecian las las y columnas correspondientes a las variables
bajo las cuales est condicionada y entonces se invierte de nuevo para conseguir la matriz condicional de covarianza.
16 CAPTULO 4. DISTRIBUCIN NORMAL MULTIVARIANTE

Ntese que se sabe que x2 = a altera la varianza, aunque la nueva varianza no dependa del valor especco de a ;
quizs ms sorprendentemente, la media se cambia por 12 1 22 (a 2 ) ; comprese esto con la situacin en la que
no se conoce el valor de a , en cuyo caso x1 tendra como distribucin
Nq (1 , 11 ) .
La matriz 12 1
22 se conoce como la matriz de coecientes de regresin.

4.7.1 Esperanza condicional bivariante

En el caso
( ) (( ) ( ))
X1 0 1
N ,
X2 0 1
entonces
(z)
E(X1 |X2 > z) = (z)
donde esta ltima razn se llama a menudo razn inversa de Mills.

4.8 Matriz de informacin de Fisher


La matriz de informacin de Fisher (MIF) para una distribucin normal toma una formulacin especial. El elemento
(m, n) de la MIF para X N ((), ()) es

( )
1 1 1
Im,n = + tr 1
m n 2 m n

donde
[ ]

m = 1
m
2
m N
m

1

m

2
m
( )


.
m

= = .
.
m



N

m

1,1 1,2 1,N



m m m


2,1 2,2 2,N
m
m m

m =
.


. .. .. ..
. . . .


N,1 N,2 N,N
m m m

tr es la funcin traza de una matriz.

4.9 Divergencia de Kullback-Leibler


La divergencia de Kullback-Leibler de N 0N (0 , 0 ) a N 1N (1 , 1 ) es:
4.10. ESTIMACIN DE PARMETROS 17

( ( ) )
1 det 1 ( ) 1
DKL (N 0N 1) = loge + tr 1
1 0 + (1 0 ) 1 (1 0 ) N .
2 det 0
El logaritmo debe tomarse con base e en los dos trminos (logaritmos neperianos), siguiendo el logaritmo estn los
logaritmos neperianos de las expresiones que son ambos factores de la funcin de densidad o si no, surgen natu-
ralmente. La divergencia de arriba se mide en nats. Dividiendo la expresin de arriba por loge 2 se da paso a la
divergencia en bits.

4.10 Estimacin de parmetros


La derivacin del estimador de mxima verosimilitud de la matriz de covarianza de una distribucin normal multi-
variante es, quizs sorprendentemente, sutil y elegante. Vase estimacin de matrices de covarianza.
En pocas palabras, la funcin de densidad de probabilidad de una normal multivariante N-dimensional es

( )
N /2 1/2 1
f (x) = (2) det() exp (x )T 1 (x )
2
y el estimador MV de la matriz de covarianza para una muestra de n observaciones es

n
b= 1
(Xi X)(Xi X)T
n i=1

lo cual es, simplemente, la matriz muestral de covarianza. Este es un estimador sesgado cuya esperanza es

b = n1
E[] .
n
Una covarianza muestral insesgada es

1
n
b=
(Xi X)(Xi X)T .
n 1 i=1

4.11 Entropa
La entropa diferencial de la distribucin normal multivariante es[4]


h (f ) = f (x) ln f (x) dx

1
= (N + N ln (2) + ln ||)
2
1
= ln{(2e)N ||}
2
donde || es el determinante de la matriz de covarianza .

4.12 Tests de normalidad multivariante


Los tests de normalidad multivariante comprueban la similitud de un conjunto dado de datos con la distribucin
normal multivariante. La hiptesis nula es que el conjunto de datos es similar a la distribucin normal, por consiguiente
un p-valor sucientemente pequeo indica datos no normales. Los tests de normalidad multivariante incluyen el test
de Cox-Small[5] y la adaptacin de Smith y Jain [6] del test de Friedman-Rafsky.
18 CAPTULO 4. DISTRIBUCIN NORMAL MULTIVARIANTE

4.13 Simulando valores de la distribucin


Un mtodo ampliamente usado para simular un vector aleatorio X de la distribucin normal multivariada N -
dimensional con vector de medias y matriz de covarianza (requerida para ser simtrica y denida positiva)
funciona como sigue:

1. Se calcula la descomposicin de Cholesky de , esto es, se encuentra la nica matriz triangular inferior A
tal que A AT = . Ntese que cualquier otra matriz A que satisfaga esta condicin, o sea, que es uno la
raz cuadrada de , podra usarse, pero a menudo encontrar tal matriz, distinta de la de la descomposicin de
Cholesky, sera bastante ms costoso en trminos de computacin.

2. Sea Z = (z1 , . . . , zN )T un vector cuyas componentes N normales e independientes varan (lo cual puede
generarse, por ejemplo, usando el mtodo de Box-Muller.

3. Sea X = + AZ .

4.14 Referencias
[1] Vase MVNDST en (incluye cdigo FORTRAN) o (incluye cdigo MATLAB).

[2] Vase tambin normalmente distribuidas e incorreladas no implica independencia

[3] Nikolaus Hansen. The CMA Evolution Strategy: A Tutorial (PDF).

[4] Gokhale, DV; NA Ahmed, BC Res, NJ Piscataway (May de 1989). Entropy Expressions and Their Estimators for Mul-
tivariate Distributions. Information Theory, IEEE Transactions on 35 (3): 688692. doi:10.1109/18.30996.

[5] Cox, D. R.; N. J. H. Small (August de 1978). Testing multivariate normality. Biometrika 65 (2): 263272. doi:10.1093/biomet/65.2.263.

[6] Smith, Stephen P.; Anil K. Jain (September de 1988). A test to determine the multivariate normality of a dataset. IEEE
Transactions on Pattern Analysis and Machine Intelligence 10 (5): 757761. doi:10.1109/34.6789.
Captulo 5

Hotellings T-squared distribution

En estadstica la distribucin T (T-cuadrado) de Hotelling es importante porque se presenta como la distribucin


de un conjunto de estadsticas que son una generalizacin natural de las estadsticas subayacentes distribucin t de
Student. En particular, la distribucin se presenta en estadsticas multivariadas en pruebas de diferencias entre las
medias (multivariadas) de diferentes poblaciones, donde las pruebas para problemas univariados usaran la Prueba t.
Es proporcional a la distribucin F.
La distribucin recibe su nombre de Harold Hotelling, quien la desarrollo[1] como una generalizacin de la distribucin
t de Student.

5.1 La distribucin
2
Si la notacin Tp,m es usada para denotar una variable aleatoria distribucin T-cuadrado de Hotelling con parmetros
p ym, entonces, si una variable aleatoria X distribucin T-cuadrado de Hotelling,

X Tp,m
2

entonces[1]

mp+1
X Fp,mp+1
pm
donde Fp,mp+1 es una distribucin F con parmetros p y mp+1.

5.2 Estadstica T-cuadrado de Hotelling


La estadstica T-cuadrado de Hotelling es una generalizacin de la estadstica t de Student que se usa en las pruebas
de hiptesis multivariadas, y se dene como sigue:[1]
Sea Np (, ) , que denota una distribucin normal p-variada con vector de medias y covarianza . Sean

x1 , . . . , xn Np (, )

n variables aletorias independientes, las cuales pueden representarse como un vector columna de orden p 1 de
nmeros reales. Defnase

x1 + + xn
x=
n

19
20 CAPTULO 5. HOTELLINGS T-SQUARED DISTRIBUTION

como la media muestral. Puede demostrarse que

n(x ) 1
(x ) 2p ,

donde 2p es una distribucin ji-cuadrado con p grados de liberatd. Para demostrar eso se usa el hecho que x
Np (, /n) y entonces, al derivar la funcin caracterstica de la variable aletoria y = n(x ) 1 (x ) . Esto
se hizo bajo,

y () = E eiy ,

1
= E ein(x) (x)


1 p 1
(2) 2 |/n| 2 e 2 n(x)
1 1
= ein(x) (x) (x)
dx1 ...dxp


1
p
2i1 )(x)
(2) 2 |/n| 2 e 2 n(x) (
1 1
= dx1 ...dxp ,


1
1 1 1 2i1 )(x)
(2) 2 |(1 2i1 )1 /n| 2 e 2 n(x) (
p
1
12 1 1
= |( 2i ) /n| |/n|
2 dx1 ...dxp ,

= |(Ip 2iIp )| 2 ,
1

p
= (1 2i) 2 .

Sin embargo, es por lo general desconocida y se busca hacer una prueba de hiptesis sobre el vector de medias .
Defnase

1
n
W= (xi x)(xi x)
n 1 i=1

como la covarianza muestral. La traspuesta se ha denotado con un apstrofo. Se demuestra que W es una matriz
denida positiva y (n 1)W sigue una distribucin Wishart p-variada con n1 grados de libertad.[2] La estadstica
T-cudrado de Hotelling se dene entonces como

t2 = n(x ) W1 (x )

porque se demuestra que [cita requerida]

t2 Tp,n1
2

es decir

np 2
t Fp,np ,
p(n 1)

donde Fp,np es una distribucin F con parmetros p y np. Para calcular un p-valor, multiplique la estadstica t 2 y
la constante anterior y use la distribucin F.
5.3. ESTADSTICA T-CUADRADO DE HOTELLING PARA DOS MUESTRAS 21

5.3 Estadstica T-cuadrado de Hotelling para dos muestras


Si x1 , . . . , xnx Np (, V) y y1 , . . . , yny Np (, V) , con the samples independently drawn from two independent
multivariate normal distributions con la misma media y covarianza, y denimos

1 1
nx ny
x= xi y= yi
nx i=1 ny i=1

como las medias muestrales, y

nx ny
i=1 (xi x)(xi x) + i=1 (yi y)(yi y)
W=
nx + ny 2
como el estinador de la matriz de covarianza pooled insesgado the unbiased pooled covariance matrix estimate, then
Hotellings two-sample T-squared statistic is

nx ny
t2 = (x y) W1 (x y) T 2 (p, nx + ny 2)
nx + ny
and it can be related to the F-distribution by[2]

nx + ny p 1 2
t F (p, nx + ny 1 p).
(nx + ny 2)p
The non-null distribution of this statistic is the noncentral F-distribution (the ratio of a non-central Chi-squared
random variable and an independent central Chi-squared random variable)

nx + ny p 1 2
t F (p, nx + ny 1 p; ),
(nx + ny 2)p
with

nx ny 1
= V ,
nx + ny
where is the dierence vector between the population means.

5.4 Vase tambin


Students t-test in univariate statistics
Students t-distribution in univariate probability theory
Multivariate Student distribution.
F-distribution (commonly tabulated or available in software libraries, and hence used for testing the T-squared
statistic using the relationship given above)
Wilks lambda distribution (in multivariate statistics Wilkss is to Hotellings T 2 as Snedecors F is to Students
t in univariate statistics).

5.5 Referencias
[1] Hotelling, H. (1931). The generalization of Students ratio. Annals of Mathematical Statistics 2 (3): 360378. doi:10.1214/aoms/1177732979.
[2] K.V. Mardia, J.T. Kent, and J.M. Bibby (1979) Multivariate Analysis, Academic Press.
22 CAPTULO 5. HOTELLINGS T-SQUARED DISTRIBUTION

5.6 Enlaces externos


Plantilla:SpringerEOM

Plantilla:ProbDistributions Plantilla:Common univariate probability distributions


Captulo 6

Anlisis multivariante

El anlisis multivariante es un mtodo estadstico utilizado para determinar la contribucin de varios factores en
un simple evento o resultado.

Los factores de estudio son los llamados factores de riesgo (bioestadstica), variables independientes o variables
explicativas.

El resultado estudiado es el evento, la variable dependiente o la variable respuesta.

El anlisis multivariante mediante tcnicas de proyeccin sobre variables latentes tiene muchas ventajas sobre los
mtodos de regresin tradicionales:

se puede utilizar la informacin de mltiples variables de entrada, aunque stas no sean linealmente indepen-
dientes

puede trabajar con matrices que contengan ms variables que observaciones

puede trabajar con matrices incompletas, siempre que los valores faltantes estn aleatoriamente distribuidos y
no superen un 10%

puesto que se basan en la extraccin secuencial de los factores, que extraen la mayor variabilidad posible de la
matriz de las X (variables explicativas, tienen que ser dependientes) pueden separar la informacin del ruido.
Se asume que las X se miden con ruido.

6.1 Tcnicas Multivariantes


Anlisis de Componentes principales

Anlisis factorial

Anlisis discriminante

Anlisis de Correlacin Cannica

Anlisis Cluster

Anlisis de Escalamiento Dimensional

Anlisis de correspondencias

Anlisis factorial conrmatorio

Modelo de Ecuaciones Estructurales (SEM), anlisis causal.

Anlisis conjunto

23
24 CAPTULO 6. ANLISIS MULTIVARIANTE

Escalamiento ptimo

Regresin Lineal Multiple

Regresin Logit y Probit


Anlisis Manova

6.2 Vase tambin


Distribucin normal multivariante.
Estadstica multivariante.

Iconografa de las correlaciones.

6.3 Enlaces externos


Equipo de anlisis multivariado y reconocimiento de patrones o http://www.mvapr.co.nr/index2.html
Software recomendado para anlisis multivariado y reconocimiento de patrones o http://www.mvapr.co.nr/
techniques2.html
Libros de texto recomendados sobre anlisis multivariado y reconocimiento de patrones o http://www.mvapr.
co.nr/education2.html

Estadstica multivariante
Captulo 7

Anlisis multivariante de la varianza

En estadstica el anlisis multivariante de la varianza o MANOVA (por su nombre en ingls, Multivariate analysis
of variance) es una extensin del anlisis de la varianza o ANOVA para cubrir los casos donde hay ms de una variable
dependiente que no pueden ser combinadas de manera simple. Adems de identicar si los cambios en las variables
independientes tienen efectos signicativos en las variables dependientes, la tcnica tambin intenta identicar las
interacciones entre las variables independientes y su grado de asociacin con las dependientes.
Cuando aparece la suma de cuadrados en el anlisis univariante de la varianza, en el anlisis multivariante de la
varianza aparecen ciertas matrices denidas positivas. Los elementos diagonales son del mismo tipo de sumas de
cuadrados que aparecen en el ANOVA univariante. Los elementos fuera de la diagonal se corresponden con sumas de
productos. Asumiendo condiciones de normalidad sobre distribuciones de error, el homlogo de la suma de cuadrados
debido al error tendr una distribucin de Wishart.
Anlogamente a ANOVA, MANOVA est basado en el producto del modelo de la matriz de varianza y el inverso de
la matriz de varianza del error. Las consideraciones de invarianza implican que las estadsticas de MANOVA deberan
ser una medida de magnitud de la descomposicin del valor singular de esta matriz producto, pero no hay una nica
eleccin pendiente de la naturaleza multi-dimensional de la hiptesis alternativa.
Las distribuciones estadsticas ms comunes son la lambda () de Samuel Stanley Wilks, la traza de Pillai-M. S.
Bartlett (ver traza de una matriz), la traza de Lawley-Hotelling y la raz mayor de Roy. La discusin contina sobre
los mritos de cada una, aunque la raz ms grande que conduce slo a una cota de signicancia no es de inters
prctico. Una complicacin ms es que la distribucin de estas estadsticas bajo la hiptesis nula no es sencilla y slo
puede ser aproximada, excepto en unos casos de pocas dimensiones. La mejor aproximacin de la lambda de Wilks
fue hallada por C. R. Rao.
En el caso de dos grupos, todas las estadsticas son equivalentes y las pruebas se reducen a la distribucin T cuadrada
de Hotelling.

25
Captulo 8

Anlisis de correspondencias

En estadstica multivariante, el anlisis de correspondencias es una tcnica descriptiva desarrollada por Jean-Paul
Benzcri.[1] Suele aplicarse al estudio de tablas de contingencia y es conceptualmente similar al anlisis de compo-
nentes principales con la diferencia de que en el anlisis de correspondencias los datos se escalan de modo que las
y columnas se tratan de modo equivalente.
El anlisis de correspondencias descompone el estadstico del test de la ji-cuadrado asociado a una tabla de con-
tingencia en componentes ortogonales.[2] Dado que se trata de una tcnica descriptiva, puede aplicarse incluso en
circunstancias en las que la prueba anterior no es apropiada.
Existen distintas versiones de esta tcnica, incluyendo:

Detrended correspondence analysis


Anlisis de correspondencias cannico

Anlisis de correspondencias mltiple, una extensin a tablas de contingencia multidimensionales


Anlisis de correspondencias baricntrico, que se aplica a problemas de discriminacin basado en variables
cualitativas

8.1 Implementaciones
Orange posee un mdulo especco, orngCA
R dispone de paquetes tales como ade4, ca y FactoMineR que implementan este tipo de anlisis

8.2 Referencias
[1] Benzcri, J.-P. (1973). L'Analyse des Donnes. Volume II. L'Analyse des Correspondances. Paris, France: Dunod.

[2] Greenacre, Michael (1983). Theory and Applications of Correspondence Analysis. Londres: Academic Press. ISBN 0-12-
299050-1.

26
Captulo 9

Anlisis de componentes principales

ACP de una distribucin normal multivariante centrada en (1,3) con desviacin estndar 3 en la direccin aproximada (0,878,
0,478) y desviacin estndar 1 en la direccin perpendicular a la anterior. Los vectores muestran los autovectores de la matriz de
correlacin escalados mediante la raz cuadrada del correspondiente autovalor, y desplazados para que su origen coincidan con la
media estadstica.

En estadstica, el anlisis de componentes principales (en espaol ACP, en ingls, PCA) es una tcnica utilizada
para reducir la dimensionalidad de un conjunto de datos. Intuitivamente la tcnica sirve para hallar las causas de la
variabilidad de un conjunto de datos y ordenarlas por importancia.

27
28 CAPTULO 9. ANLISIS DE COMPONENTES PRINCIPALES

Tcnicamente, el ACP busca la proyeccin segn la cual los datos queden mejor representados en trminos de mni-
mos cuadrados. El ACP se emplea sobre todo en anlisis exploratorio de datos y para construir modelos predictivos.
El ACP comporta el clculo de la descomposicin en autovalores de la matriz de covarianza, normalmente tras centrar
los datos en la media de cada atributo.

9.1 Fundamento
El ACP construye una transformacin lineal que escoge un nuevo sistema de coordenadas para el conjunto original de
datos en el cual la varianza de mayor tamao del conjunto de datos es capturada en el primer eje (llamado el Primer
Componente Principal), la segunda varianza ms grande es el segundo eje, y as sucesivamente. Para construir esta
transformacin lineal debe construirse primero la matriz de covarianza o matriz de coecientes de correlacin. Debido
a la simetra de esta matriz existe una base completa de vectores propios de la misma. La transformacin que lleva
de las antiguas coordenadas a las coordenadas de la nueva base es precisamente la transformacin lineal necesaria
para reducir la dimensionalidad de datos. Adems las coordenadas en la nueva base dan la composicin en factores
subyacentes de los datos iniciales.
Una de las ventajas del ACP para reducir la dimensionalidad de un grupo de datos, es que retiene aquellas caractersti-
cas del conjunto de datos que contribuyen ms a su varianza, manteniendo un orden de bajo nivel de los componentes
principales e ignorando los de alto nivel. El objetivo es que esos componentes de bajo orden a veces contienen el
aspecto ms importante de esa informacin.

9.2 Matemticas del ACP


Supongamos que existe una muestra con n individuos para cada uno de los cuales se han medido m variables (alea-
torias) Fj . El ACP permite encontrar un nmero de factores subyacentes p < m que explican aproximadamente el
valor de las m variables para cada individuo. El hecho de que existan estos p factores subyacentes puede interpretarse
como una reduccin de la dimensionalidad de los datos: donde antes necesitabamos m valores para caracterizar a
cada individuo ahora nos bastan p valores. Cada uno de los p encontrados se llama componente principal, de ah el
nombre del mtodo.
Existen dos formas bsicas de aplicar el ACP:

1. Mtodo basado en la matriz de correlacin, cuando los datos no son dimensionalmente homogneos o el orden
de magnitud de las variables aleatorias medidas no es el mismo.
2. Mtodo basado en la matriz de covarianzas, que se usa cuando los datos son dimensionalmente homogneos y
presentan valores medios similares.

9.2.1 Mtodo basado en correlaciones


El mtodo parte de la matriz de correlaciones, consideremos el valor de cada una de las m variables aleatorias Fj .
Para cada uno de los n individuos tomemos el valor de estas variables y escribamos el conjunto de datos en forma de
matriz:

(Fj )=1,...,n
j=1,...,m

Obsrvese que cada conjunto

Mj = {Fj | = 1, ..., n}

puede considerarse una muestra aleatoria para la variable Fj . A partir de los m n datos correspondientes a las m
variables aleatorias, puede construirse la matriz de correlacin muestral, que viene denida por:

cov(Fi ,Fj )
R = [rij ] Mmm donde rij =
var(Fi )var(Fj )
9.2. MATEMTICAS DEL ACP 29

Puesto que la matriz de correlaciones es simtrica entonces resulta diagonalizable y sus valores propios i verican:

m
i=1 i = 1

Debido a la propiedad anterior estos m valores propios reciben el nombre de pesos de cada uno de los m componentes
principales. Los factores principales identicados matemticamente se representan por la base de vectores propios
de la matriz R . Est claro que cada una de las variables puede ser expresada como combinacin lineal de los vectores
propios o componentes principales.

9.2.2 Mtodo basado en las covarianzas


El objetivo es transformar un conjunto dado de datos X de dimensin n x m a otro conjunto de datos Y de menor
dimensin n x l con la menor perdida de informacin til posible utilizando para ello la matriz de covarianza.
Se parte de un conjunto n de muestras cada una de las cuales tiene m variables que las describen y el objetivo es
que, cada una de esas muestras, se describa con solo I variables, donde l < m. Adems, el nmero de componentes
principales l tiene que ser inferior a la menor de las dimensiones de X.

l min{n, m}

Los datos para el anlisis tienen que estar centrados a media 0 (restndoles la media de cada columna) y/o autoesca-
lados(centrados a media 0 y dividiendo cada columna por su desviacin estndar).

l T
X= a=1 ta pa +E

Los vectores ta son conocidos como scores y contienen la informacin de cmo las muestras estn relacionadas unas
con otras adems, tienen la propiedad de ser ortogonales. Los vectores pa se llaman loadings e informan de la relacin
existente entre las variables y tienen la cualidad de ser ortonormales. Al coger menos componentes principales que
variables y debido al error de ajuste del modelo con los datos, se produce un error que se acumula en la matriz E .
El PCA se basa en la descomposicin en vectores propios de la matriz de covarianza. La cual se calcula con la siguiente
ecuacin:

T
cov(X) = Xn1X
cov(X)
m pa = a pa
a=1 a = 1

Donde a es el valor propio asociado al vector propio pa . Por ltimo,

t a = X pa

Esta ecuacin la podemos entender como que ta son las proyecciones de X en pa , donde los valores propios a miden
la cantidad de varianza capturada, es decir, la informacin que representan cada uno de los componentes principales.
La cantidad de informacin que captura cada componente principal va disminuyendo segn su nmero es decir, el
componente principal nmero uno representa ms informacin que el dos y as sucesivamente.

9.2.3 Limitaciones
La aplicacin del ACP est limitada por varios supuestos[1]

Asuncin de linealidad: Se asume que los datos observados son combinacin lineal de una cierta base.

Importancia estadstica de la media y la covarianza: el ACP utiliza los vectores propios de la matriz de co-
varianzas y slo encuentra las direcciones de ejes en el espacio de variables considerando que los datos se
distribuyen de manera gaussiana.
30 CAPTULO 9. ANLISIS DE COMPONENTES PRINCIPALES

9.3 Ejemplos
Un anlisis consider las calicaciones escolares n = 15 estudiantes en m = materias (lengua, matemticas,
fsica, ingls, losofa, historia, qumica, gimnasia). Los dos primeros componentes principales explicaban
juntos el 82,1% de la varianza. El primer de ellos pareca fuertemente correlacionado con las materias de hu-
manidades (lengua, ingls, losofa, historia) mientras que el segundo apareca relacionado con las materias
de ciencias (matemticas, fsica, qumica). As parece que existe un conjunto de habilidades cognitivas rela-
cionadas con las humanidades y un segundo relacionado con las ciencias, estos dos conjuntos de habilidades
son estadsticamente independientes por lo que un alumno puede puntuar alto en slo uno de ellos, en los dos
o en ninguno.[2]

Un anlisis de metodologa docente, consider las calicaciones de n = 54 estudiantes de la facultad de Biologa


de la ULA y m = 8 tipos de habilidades. El primer factor principal que explicaba las calicaciones era la
inteligencia del estudiante y en segundo lugar la metodologa de aprendizaje usada.[3]
Una anlisis de 11 indicadores socieconmicos de 96 pases, revel que los resultados podan explicarse en alto
grado a partir de slo dos componentes principales, el primero de ellos tena que ver con el nivel de PIB total
del pas y el segundo con el ndice de ruralidad.[4]

9.4 Referencia
[1] Jonathon Shlens.A Tutorial on Principal Component Analysis.

[2] Ejemplos de PCA (www.uoc.edu)

[3] Anlisis de dos metodologas mediante ACP

[4] Universidad Carlos III de Madrid

9.4.1 Enlaces externos


Matemticas del ACP y ejemplos (Universidad Carlos III de Madrid)
Captulo 10

Anlisis discriminante

El anlisis discriminante es una tcnica estadstica multivariante cuya nalidad es describir (si existen) las diferen-
cias signicativas entre g grupos de objetos (g > 1) sobre los que se observan p variables (variables discriminantes).
Ms concretamente, se comparan y describen las medias de las p variables clasicadoras a travs de los g grupos.
En caso de que estas diferencias existan, intentar explicar en qu sentido se dan y proporcionar procedimientos de
asignacin sistemtica de nuevas observaciones con grupo desconocido a uno de los grupos analizados, utilizando
para ello sus valores en las p variables clasicadoras (stos s, conocidos).
Podemos ver este procedimiento como un modelo de prediccin de una variable respuesta categrica (variable gru-
po) a partir de p variables explicativas generalmente continuas (variables clasicatorias). Por poner algn ejemplo,
podemos hablar del reconocimiento de formas, de texto, o del diagnstico automtico.

10.1 Vase tambin


Intervalo de conanza
Test de Student

Signicancia estadstica

31
32 CAPTULO 10. ANLISIS DISCRIMINANTE

10.2 Text and image sources, contributors, and licenses


10.2.1 Text
Estadstica multivariante Fuente: http://es.wikipedia.org/wiki/Estad%C3%ADstica%20multivariante?oldid=67504198 Colaborado-
res: Joseaperez, Kronoss, Lcgarcia, Bermiego, Renabot, Taragui, Boticario, RobotQuistnix, Yrbot, JAGT, Aiax, Chlewbot, Wissons,
CEM-bot, Thijs!bot, Cgb, TXiKiBoT, Fjcaba, SieBot, Juan Mayordomo, LucienBOT, Luckas-bot, El Quinche, CayoMarcio, Xqbot,
BenzolBot, Humbefa, ZroBot, Allforrous, Addbot y Annimos: 2
Vector aleatorio Fuente: http://es.wikipedia.org/wiki/Vector%20aleatorio?oldid=70165167 Colaboradores: VolkovBot, Leonpolanco,
CayoMarcio, Wikielwikingo, ZroBot y Addbot
Prueba t de Student Fuente: http://es.wikipedia.org/wiki/Prueba%20t%20de%20Student?oldid=80349098 Colaboradores: Sabbut, LP,
CEM-bot, Davius, Resped, Biolitos, Loveless, Bigsus-bot, BOTarate, Manw, Alberto2087, J3D3, Aleatorio, Juan Mayordomo, Luckas-
bot, MystBot, DiegoFb, ArthurBot, Xqbot, Botarel, Marsal20, PatruBOT, Humbefa, EmausBot, ChessBOT, MerlIwBot, KLBot2, Inva-
dibot, Acratta, MahdiBot, Addbot y Annimos: 21
Distribucin normal multivariante Fuente: http://es.wikipedia.org/wiki/Distribuci%C3%B3n%20normal%20multivariante?oldid=80118785
Colaboradores: Tartaglia, Davius, Cgb, Muro de Aguas, TXiKiBoT, Muro Bot, Bigsus-bot, Farisori, Poco a poco, Juan Mayordomo,
Luckas-bot, Amirobot, Diegotorquemada, Locobot, Ricardogpn, AstaBOTh15, MAfotBOT, KurtSchwitters, ZroBot, Sergio Andres
Segovia, Jvalerag, Elvisor, Addbot, Vgaribay, Tom deluxe y Annimos: 9
Distribucin T de Hotelling Fuente: http://es.wikipedia.org/wiki/Distribuci%C3%B3n%20T%C2%B2%20de%20Hotelling?oldid=
74592276 Colaboradores: BOT-Superzerocool, Urdangaray, KLBot2, Invadibot y Annimos: 3
Anlisis multivariante Fuente: http://es.wikipedia.org/wiki/An%C3%A1lisis%20multivariante?oldid=64530711 Colaboradores: Josea-
perez, Juan Manuel, Javier Carro, Tartaglia, Tano4595, LarA, BOT-Superzerocool, Chlewbot, CEM-bot, Botones, Cgb, Plux, Muro Bot,
PaintBot, Botito777, Juan Mayordomo, El Quinche, Mcapdevila, MerlIwBot, Addbot y Annimos: 6
Anlisis multivariante de la varianza Fuente: http://es.wikipedia.org/wiki/An%C3%A1lisis%20multivariante%20de%20la%20varianza?
oldid=64558063 Colaboradores: RobotQuistnix, Aiax, CEM-bot, Botones, Pk, Dpeinador, PaintBot, Alexbot, Juan Mayordomo, Boto a
Boto, DiegoFb, Enrique Cordero, EmausBot, Pokbot, KLBot2 y Annimos: 4
Anlisis de correspondencias Fuente: http://es.wikipedia.org/wiki/An%C3%A1lisis%20de%20correspondencias?oldid=82203030 Co-
laboradores: Cgb, TXiKiBoT, Muro Bot, Alexbot, LucienBOT, MastiBot, Luckas-bot, Xqbot, KLBot2 y Invadibot
Anlisis de componentes principales Fuente: http://es.wikipedia.org/wiki/An%C3%A1lisis%20de%20componentes%20principales?
oldid=79663563 Colaboradores: Ricardo Oliveros Ramos, Tano4595, RobotQuistnix, Pertile, BOT-Superzerocool, YurikBot, KnightRi-
der, Nihilo, CEM-bot, Jovandavid, Ignacio Icke, Davius, Elrayo~eswiki, Thijs!bot, JAnDbot, Netito777, Nicoguaro, AlleborgoBot, Muro
Bot, SieBot, Sebastian.roman.h, DragonBot, Eduardosalg, Juan Mayordomo, MastiBot, Luckas-bot, Ptbotgourou, Xqbot, Ricardogpn,
Botarel, BenzolBot, AstaBOTh15, Euivmar, KamikazeBot, Humbefa, Fran jo, ZroBot, Jorjial, KLBot2, Elvisor y Annimos: 15
Anlisis discriminante Fuente: http://es.wikipedia.org/wiki/An%C3%A1lisis%20discriminante?oldid=79857421 Colaboradores: BOT-
Superzerocool, Davius, Poromiami, AlleborgoBot, Muro Bot, Ensada, Wilfreddehelm, Juan Mayordomo, DiegoFb, Gabby cervantes,
KLBot2, Acratta, Addbot y Annimos: 6

10.2.2 Images
Archivo:GaussianScatterPCA.png Fuente: http://upload.wikimedia.org/wikipedia/commons/1/15/GaussianScatterPCA.png Licencia:
CC-BY-SA-3.0 Colaboradores:
PNG version of gigantic SVG
Trabajo propio (Descripcin original: I created this work entirely by myself. (Originally uploaded on en.wikipedia) -)
Artista original: Ben FrantzDale (talk) (Transferred by ILCyborg)
Archivo:Merge-arrow.svg Fuente: http://upload.wikimedia.org/wikipedia/commons/a/aa/Merge-arrow.svg Licencia: Public domain Co-
laboradores: ? Artista original: ?
Archivo:Mergefrom.svg Fuente: http://upload.wikimedia.org/wikipedia/commons/0/0f/Mergefrom.svg Licencia: Public domain Cola-
boradores: ? Artista original: ?
Archivo:Wikiversity-logo-Snorky.svg Fuente: http://upload.wikimedia.org/wikipedia/commons/1/1b/Wikiversity-logo-en.svg Licen-
cia: CC BY-SA 3.0 Colaboradores: Trabajo propio Artista original: Snorky

10.2.3 Content license


Creative Commons Attribution-Share Alike 3.0

Вам также может понравиться