Академический Документы
Профессиональный Документы
Культура Документы
ndice general
1 Estadstica multivariante 1
1.1 Enlaces externos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Vase tambin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Vector aleatorio 3
2.1 La distribucin de un vector aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Prueba t de Student 4
3.1 Historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 Usos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3 Estadsticos T y Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4 Pruebas t para dos muestras apareadas y desapareadas . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4.1 Desapareada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4.2 Apareada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.5 Clculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.5.1 Prueba t para muestra nica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.5.2 Pendiente de una regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.5.3 Prueba t para dos muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.5.4 Prueba t dependiente para muestras apareadas . . . . . . . . . . . . . . . . . . . . . . . . 8
3.6 Ejemplos desarrollados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.6.1 Varianzas desiguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.6.2 Varianzas iguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.7 Alternativas a la prueba t para problemas de locacin . . . . . . . . . . . . . . . . . . . . . . . . 9
3.8 Pruebas multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.8.1 Prueba T 2 monomuestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2
3.8.2 Prueba T bimuestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.9 Implementaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.10 Lecturas adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.11 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.12 Enlaces externos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.12.1 Calculadores en lnea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
i
ii NDICE GENERAL
6 Anlisis multivariante 23
6.1 Tcnicas Multivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.2 Vase tambin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.3 Enlaces externos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
8 Anlisis de correspondencias 26
8.1 Implementaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
8.2 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
10 Anlisis discriminante 31
10.1 Vase tambin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
10.2 Text and image sources, contributors, and licenses . . . . . . . . . . . . . . . . . . . . . . . . . . 32
10.2.1 Text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
10.2.2 Images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
10.2.3 Content license . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Captulo 1
Estadstica multivariante
Un vector aleatorio es un vector formado por una o ms variables aleatorias escalares. La estadstica multivariante se
ocupa de los vectores aleatorios que tienen aplicaciones en muchas ciencias y tcnicas. Podemos destacar entre ellas
la econometra y la taxonoma. Un modelo explicativo para una variable aleatoria se basa en explicar esta recurriendo
a otras. Los vectores aleatorios nos sirven para construir este tipo de modelos. Incluso en fsica, donde parece que los
modelos determinan claramente el valor de las variables, estas padecen errores producidos por variables no incluidos
en el modelo o procesos puramente aleatorios, lo que hace necesario recurrir a modelos estadsticos para estimar sus
parmetros.
Los mtodos estadsticos multivariantes y el anlisis multivariante son herramientas estadsticas que estudian el
comportamiento de tres o ms variables al mismo tiempo. Se usan principalmente para buscar las variables menos
representativas para poder eliminarlas, simplicando as modelos estadsticos en los que el nmero de variables sea
un problema y para comprender la relacin entre varios grupos de variables. Algunos de los mtodos ms conocidos
y utilizados son la Regresin lineal y el Anlisis discriminante.
Se pueden sintetizar dos objetivos claros:
1. Proporcionar mtodos cuya nalidad es el estudio conjunto de datos multivariantes que el anlisis estadstico
uni y bidimensional es incapaz de conseguir.
2. Ayudar al analista o investigador a tomar decisiones ptimas en el contexto en el que se encuentre teniendo en
cuenta la informacin disponible por el conjunto de datos analizado.
1. Mtodos de Dependencia:
(a) Un estudio de la regresin nos permite averiguar hasta que punto una variable puede ser prevista co-
nociendo otra. Se utiliza para intentar predecir el comportamiento de ciertas variables a partir de otras,
como por ejemplo los benecios de una pelcula a partir del gasto en mrketing y del gasto en produccin.
(b) El anlisis de la correlacin cannica intenta analizar la posible existencia de relacin entre dos grupos
de variables.
(c) Un anlisis discriminante nos puede dar una funcin discriminante que puede ser utilizada para distinguir
entre dos o ms grupos, y de este modo tomar decisiones.
(d) Un anlisis multivariante de la varianza (MANOVA), extendiendo el anlisis de la varianza (ANOVA),
cubre los casos en los que se conozca la existencia de ms de una variable dependiente sin poderse sim-
plicar ms el modelo.
(e) La regresin logstica permite la elaboracin de un anlisis de regresin para estimar y probar la inuencia
de una variable sobre otra, cuando la variable dependiente o de respuesta es de tipo dicotmico.
2. Mtodos de Interdependencia:
(a) El anlisis de los componentes principales procura determinar un sistema ms pequeo de variables que
sinteticen el sistema original.
1
2 CAPTULO 1. ESTADSTICA MULTIVARIANTE
(b) El anlisis clster clasica una muestra de entidades (individuos o variables) en un nmero pequeo de
grupos de forma que las observaciones pertenecientes a un grupo sean muy similares entre s y muy
disimilares del resto. A diferencia del Anlisis discriminante se desconoce el nmero y la composicin
de dichos grupos.
(c) La Iconografa de las correlaciones.
3. Mtodos Estructurales:
1.3 Bibliografa
Abraira Santos, Vctor. Mtodos Multivariantes en bioestadstica.
Captulo 2
Vector aleatorio
Un vector aleatorio es un vector formado por una o ms variables aleatorias escalares. Por variable aleatoria escalar
nos referimos a una variable que toma valores en un cuerpo. Normalmente, este cuerpo es el de los nmeros reales o
el de los nmeros complejos.
3
Captulo 3
Prueba t de Student
En estadstica, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el estadstico
utilizado tiene una distribucin t de Student si la hiptesis nula es cierta. Se aplica cuando la poblacin estudiada
sigue una distribucin normal pero el tamao muestral es demasiado pequeo como para que el estadstico en el que
est basada la inferencia est normalmente distribuido, utilizndose una estimacin de la desviacin tpica en lugar
del valor real. Es utilizado en anlisis discriminante.
3.1 Historia
El estadstico t fue introducido por William Sealy Gosset en 1908, un qumico que trabajaba para la cervecera
Guinness de Dubln. Student era su seudnimo de escritor.[1][2][3] Gosset haba sido contratado gracias a la poltica
de Claude Guiness de reclutar a los mejores graduados de Oxford y Cambridge, y con el objetivo de aplicar los nuevos
avances en bioqumica y estadstica al proceso industrial de Guiness.[2] Gosset desarroll el test t como una forma
sencilla de monitorizar la calidad de la famosa cerveza stout. Public su test en la revista inglesa Biometrika en el ao
1908, pero fue forzado a utilizar un seudnimo por su empleador, para mantener en secreto los procesos industriales
que se estaban utilizando en la produccin. Aunque de hecho, la identidad de Gosset era conocida por varios de sus
compaeros estadsticos.[4]
3.2 Usos
Entre los usos ms frecuentes de las pruebas t se encuentran:
El test de locacin de muestra nica por el cual se comprueba si la media de una poblacin distribuida nor-
malmente tiene un valor especicado en una hiptesis nula.
El test de locacin para dos muestras, por el cual se comprueba si las medias de dos poblaciones distribuidas
en forma normal son iguales. Todos estos test son usualmente llamados test t de Student, a pesar de que es-
trictamente hablando, tal nombre slo debera ser utilizado si las varianzas de las dos poblaciones estudiadas
pueden ser asumidas como iguales; la forma de los ensayos que se utilizan cuando esta asuncin se deja de lado
suelen ser llamados a veces como Prueba t de Welch. Estas pruebas suelen ser comnmente nombradas como
pruebas t desapareadas o de muestras independientes, debido a que tienen su aplicacin ms tpica cuando las
unidades estadsticas que denen a ambas muestras que estn siendo comparadas no se superponen.[5]
El test de hiptesis nula por el cual se demuestra que la diferencia entre dos respuestas medidas en las mismas
unidades estadsticas es cero. Por ejemplo, supngase que se mide el tamao del tumor de un paciente con
cncer. Si el tratamiento resulta efectivo, lo esperable seria que el tumor de muchos pacientes disminuyera de
tamao luego de seguir el tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas
o repetidas.[5][6]
El test para comprobar si la pendiente de una regresin lineal diere estadsticamente de cero.
4
3.3. ESTADSTICOS T Y Z 5
3.3 Estadsticos T y Z
La mayor parte de las pruebas estadsticas t tienen la forma T = Zs , donde Z y s son funciones de los datos estudiados.
Tpicamente, Z se disea de forma tal que resulte sensible a la hiptesis alternativa (p.ej. que su magnitud tienda a
ser mayor cuando la hiptesis alternativa es verdadera), mientras que s es un parmetro de escala que permite que la
distribucin de T pueda ser determinada.
es la media muestral de los datos, n es el tamao
Por ejemplo, en una prueba t de muestra nica, Z = X , donde X
n
muestral, y es la desviacin estndar de la poblacin de datos; s en una prueba de muestra nica es
/ , donde
es la desviacin estndar muestral.
Las asunciones subyacentes en una prueba t son:
En una prueba t especca, estas condiciones son consecuencias de la poblacin que est siendo estudiada, y de la
forma en que los datos han sido muestreados. Por ejemplo, en la prueba t de comparacin de medias de dos muestras
independientes, deberamos realizar las siguientes asunciones:
Cada una de las dos poblaciones que estn siendo comparadas sigue una distribucin normal. Esto puede
ser demostrado utilizando una prueba de normalidad, tales como una prueba Shapiro-Wilk o Kolmogrov-
Smirnov, o puede ser determinado grcamente por medio de un grco de cuantiles normales Q-Q plot.
Si se est utilizando la denicin original de Student sobre su prueba t, las dos poblaciones a ser comparadas
deben poseer las mismas varianzas, (esto se puede comprobar utilizando una prueba F de igualdad de varianzas,
una prueba de Levene, una prueba de Bartlett, o una prueba de Brown-Forsythe, o estimarla grcamente por
medio de un grco Q-Q plot). Si los tamaos muestrales de los dos grupos comparados son iguales, la prueba
original de Student es altamente resistente a la presencia de varianzas desiguales.[7] la Prueba de Welch es
insensible a la igualdad de las varianzas, independientemente de si los tamaos de muestra son similares.
Los datos usados para llevar a cabo la prueba deben ser muestreados independientemente para cada una de
las dos poblaciones que se comparan. Esto en general no es posible determinarlo a partir de los datos, pero si
se conoce que los datos han sido muestreados de manera dependiente (por ejemplo si fueron muestreados por
grupos), entonces la prueba t clsica que aqu se analiza, puede conducir a resultados errneos.
3.4.1 Desapareada
Las pruebas t desapareadas o de muestras independientes, se utilizan cuando se obtienen dos grupos de muestras
aleatorias, independientes e idnticamente distribuidas a partir de las dos poblaciones a ser comparadas. Por ejemplo,
supngase que estamos evaluando el efecto de un tratamiento mdico, y reclutamos a 100 sujetos para el estudio.
Luego elegimos aleatoriamente 50 sujetos para el grupo en tratamiento y 50 sujetos para el grupo de control. En este
caso, obtenemos dos muestras independientes y podramos utilizar la forma desapareada de la prueba t. La eleccin
aleatoria no es esencial en este caso, si contactamos a 100 personas por telfono y obtenemos la edad y gnero de
cada una, y luego se utiliza una prueba t bimuestral para ver en que forma la media de edades diere por gnero, esto
tambin sera una prueba t de muestras independientes, a pesar de que los datos son observacionales.
6 CAPTULO 3. PRUEBA T DE STUDENT
3.4.2 Apareada
Las pruebas t de muestras dependientes o apareadas, consisten tpicamente en una muestra de pares de valores con
similares unidades estadsticas, o un grupo de unidades que han sido evaluadas en dos ocasiones diferentes (una
prueba t de mediciones repetitivas). Un ejemplo tpico de prueba t para mediciones repetitivas sera por ejemplo que
los sujetos sean evaluados antes y despus de un tratamiento.
Una prueba 't basada en la coincidencia de pares muestrales se obtiene de una muestra desapareada que luego es utili-
zada para formar una muestra apareada, utilizando para ello variables adicionales que fueron medidas conjuntamente
con la variable de inters.[8]
La valoracin de la coincidencia se lleva a cabo mediante la identicacin de pares de valores que consisten en
una observacin de cada una de las dos muestras, donde las observaciones del par son similares en trminos de otras
variables medidas. Este enfoque se utiliza a menudo en los estudios observacionales para reducir o eliminar los efectos
de los factores de confusin.
3.5 Clculos
Las expresiones explcitas que pueden ser utilizadas para obtener varias pruebas t se dan a continuacin. En cada
caso, se muestra la frmula para una prueba estadstica que o bien siga exactamente o aproxime a una distribucin t
de Student bajo la hiptesis nula. Adems, se dan los apropiados grados de libertad en cada caso. Cada una de estas
estadsticas se pueden utilizar para llevar a cabo ya sea un prueba de una cola o prueba de dos colas.
Una vez que se ha determinado un valor t, es posible encontrar un valor p asociado utilizando para ello una tabla
de valores de distribucin t de Student. Si el valor p calulado es menor al lmite elegido por signicancia estadstica
(usualmente a niveles de signicancia 0,10; 0,05 o 0,01), entonces la hiptesis nula se rechaza en favor de la hiptesis
alternativa.
donde x es la media muestral, s es la desviacin estndar muestral y n es el tamao de la muestra. Los grados de
libertad utilizados en esta prueba se corresponden al valor n 1.
donde xi, i = 1, ..., n son conocidos, y son desconocidos, y i es el error aleatorio en los residuales que se
encuentra normalmente distribuido, con un valor esperado 0 y una varianza desconocida 2 , e Yi, i = 1, ..., n son las
observaciones.
Se desea probar la hiptesis nula de que la pendiente es igual a algn valor especicado 0 (a menudo toma el valor
0, en cuyo caso la hiptesis es que x e y no estn relacionados).
sea
b, b = mnimos cuadrados de estimadores,
SEb , SEb = mnimos cuadrados de estimadores los de estndar error.
Luego
b 0
tvalor = SEb
3.5. CLCULOS 7
tiene una distribucin t con n 2 grados de libertad si la hiptesis nula es verdadera. El error estndar de la pendiente:
1 n
(Y by )2
SEb = n2 n i=1 i 2i
i=1 (xi x)
los dos tamaos muestrales (esto es, el nmero, n, de participantes en cada grupo) son iguales;
se puede asumir que las dos distribuciones poseen la misma varianza.
Donde
1 2 2 )
SX1 X2 = 2 (SX1 + SX2
Aqu SX1 X2 es la desviacin estndar combinada, 1 = grupo uno, 2 = grupo 2. El denominador de t es el error estndar
de la diferencia entre las dos medias.
Por prueba de signicancia, los grados de libertad de esta prueba se obtienen como 2n 2 donde n es el nmero de
participantes en cada grupo.
Esta prueba se puede utilizar nicamente si se puede asumir que las dos distribuciones poseen la misma varianza.
(Cuando este presupuesto se viola, mirar ms abajo). El estadstico t si las medias son diferentes puede ser calculado
como sigue:
1 X
X
t= 2
SX1 X2 n1 + n1
1 2
Donde
(n1 1)SX
2 +(n 1)S 2
2 X2
SX1 X2 = 1
n1 +n2 2 .
Ntese que las frmulas de arriba, son generalizaciones del caso que se da cuando ambas muestras poseen igual
tamao (sustituyendo n por n1 y n2 ).
SX1 X2 es un estimador de la desviacin estndar comn de ambas muestras: esto se dene as para que su cuadrado sea
un estimador sin sesgo de la varianza comn sea o no la media iguales. En esta frmula, n = nmero de participantes,
8 CAPTULO 3. PRUEBA T DE STUDENT
1 = grupo uno, 2 = grupo dos. n 1 es el nmero de grados de libertad para cada grupo, y el tamao muestral total
menos dos (esto es, n1 + n2 2) es el nmero de grados de libertad utilizados para la prueba de signicancia.
Esta prueba es tambin conocida como prueba t de Welch y es utilizada nicamente cuando se puede asumir que las
dos varianzas poblacionales son diferentes (los tamaos muestrales pueden o no ser iguales) y por lo tanto deben ser
estimadas por separado. El estadstico t a probar cuando las medias poblacionales son distintas puede ser calculado
como sigue:
X 1 X 2
t= sX X
1 2
donde
s21 s22
sX 1 X 2 = n1 + n2 .
Aqu s2 es el estimador sin sesgo de la varianza de las dos muestras, n = nmero de participantes, 1 = grupo uno,
2 = grupo dos. Ntese que en este caso, sX 1 X 2 2 no es la varianza combinada. Para su utilizacin en pruebas de
signicancia, la distribucin de este estadstico es aproximadamente igual a una distribucin t ordinaria con los grados
de libertad calculados segn:
(s21 /n1 +s22 /n2 )2
g.l. = (s21 /n1 )2 /(n1 1)+(s22 /n2 )2 /(n2 1)
.
Esta ecuacin es llamada la ecuacin WelchSatterthwaite. Ntese que la verdadera distribucin de este estadstico
de hecho depende (ligeramente) de dos varianzas desconocidas.
Esta prueba se utiliza cuando las muestras son dependientes; esto es, cuando se trata de una nica muestra que ha
sido evaluada dos veces (muestras repetidas) o cuando las dos muestras han sido emparejadas o apareadas. Este es un
ejemplo de un test de diferencia apareada.
X D
0.
t= sD / n
Para esta ecuacin, la diferencia entre todos los pares tiene que ser calculada. Los pares se han formado ya sea
con resultados de una persona antes y despus de la evaluacin o entre pares de personas emparejadas en grupos
de signicancia (por ejemplo, tomados de la misma familia o grupo de edad: vase la tabla). La media (XD) y la
desviacin estndar (sD) de tales diferencias se han utilizado en la ecuacin. La constante 0 es diferente de cero si
se desea probar si la media de las diferencias es signicativamente diferente de 0 . Los grados de libertad utilizados
son n 1.
Estos podran ser, por ejemplo, los pesos de tornillos elegidos de un montn.
Vamos a llevar a cabo la prueba de hiptesis contando como hiptesis nula de que la media de las poblaciones de las
cuales hemos tomado las muestras son iguales.
3.7. ALTERNATIVAS A LA PRUEBA T PARA PROBLEMAS DE LOCACIN 9
La diferencia entre las dos medias de muestras, cada uno denotado por X i , la cual aparece en el numerador en todos
los enfoques de dos muestras discutidas anteriormente, es
X 1 X 2 = 0, 095.
La desviaciones estndar muestrales para las dos muestras son aproximadamente 0,05 y 0,11 respectivamente. Para
muestras tan pequeas, una prueba de igualdad entre las varianzas de las dos poblaciones no es muy poderoso. Pero
ya que los tamaos muestrales son iguales, las dos formas de las dos pruebas t se pueden desarrollar en forma similar
en este ejemplo.
Si se decide continuar con el enfoque para varianzas desiguales (discutido anteriormente), los resultados son
2
s1 s22
n1 + n2 0, 0485
y
gl 7, 03
El resultado de la prueba estadstica es aproximadamente 1,959. El valor p para la prueba de dos colas da un valor
aproximado de 0,091 y el valor p para la prueba de una cola es aproximadamente 0,045.
Si se sigue el enfoque para varianzas iguales (discutido anteriormente), los resultados son
SX1 X2 0, 084
y
gl = 10
Ya que el tamao de las muestras es igual (ambas tienen 6 elementos), el resultado de la prueba estadstica es nue-
vamente un valor que se aproxima a 1.959. Debido a que los grados de libertad son diferentes de la prueba para
varianzas desiguales, los valores P dieren ligeramente de los obtenidos un poco ms arriba. Aqu el valor p para la
prueba de dos colas es aproximadamente 0,078, y el valor p para una cola es aproximadamente 0,039. As, si hubiera
una buena razn para creer que las varianzas poblacionales son iguales, los resultados seran algo ms sugerentes de
una diferencia en los pesos medios de las dos poblaciones de tornillos.
prueba estadstica. Si los datos son substancialmente no normales, y el tamao muestral es pequeo, la prueba t puede
entregar resultados equivocados.
Cuando la asuncin de normalidad no se sostiene, una alternativa no paramtrica a la prueba t puede ofrecer un mejor
poder estadstico. Por ejemplo, para dos muestras independientes cuando la distribucin de datos es asimtrica (esto
es, que la distribucin est sesgada) o la distribucin tiene colas muy grandes, entonces el test de suma de posiciones
(ranks) de Wilcoxon (conocido tambin como prueba U de Mann-Whitney) puede tener de tres a cuatro veces mayor
poder estadstico que una prueba t.[9][10][11]
La contraparte no paramtrica a la prueba t de muestras apareadas es la prueba Wilcoxon de suma de posiciones
con signo para muestras pareadas. Para una discusin sobre cuando hacer una eleccin entre las alternativas t y no
paramtricos, consulte a Sawilowsky.[12]
El anlisis de varianza one-way generaliza la prueba t de dos muestras para casos donde los datos pertenecen a ms
que dos grupos.
Para una prueba multivariable de nica muestra, la hiptesis es que el vector medio ( ) es igual a un vector ( 0 )
dado. La prueba estadstica se dene como:
T 2 = n(x 0 ) S1 (x 0 )
Donde n es el tamao muestral, x es el vector de columnas medio y S una matriz de covarianza muestral m m .
Para un test multivariable de dos muestras, la hiptesis es que los vectores medios ( 1 , 2 ) de las dos muestras son
iguales. La prueba estadstica se dene como:
T2 = n1 n2
n1 +n2 (x1 x2 ) Spooled 1 (x1 x2 ).
3.9 Implementaciones
La mayora de los programas tipo hoja de clculo y paquetes estadsticos de lenguajes de programacin, tales como
QtiPlot, OpenOce.org Calc, LibreOce Calc, Microsoft Excel, SAS, SPSS, Stata, DAP, gretl, R, Python (), PSPP,
Infostat y Minitab, incluyen implementaciones del test t de Student.
Edgell, Stephen E., & Noon, Sheila M (1984). Eect of violation of normality on the t test of the correlation
coecient. Psychological Bulletin 95 (3): 576583. doi:10.1037/0033-2909.95.3.576.
3.11 Referencias
[1] Richard Mankiewicz, The Story of Mathematics (Princeton University Press), p.158.
[2] O'Connor, John J.; Robertson, Edmund F., Biografa de Prueba t de Student (en ingls), MacTutor History of Mathematics
archive, Universidad de Saint Andrews, http://www-history.mcs.st-andrews.ac.uk/Biographies/Gosset.html.
[3] Fisher Box, Joan (1987). Guinness, Gosset, Fisher, and Small Samples. Statistical Science 2 (1): 4552. doi:10.1214/ss/1177013437.
JSTOR 2245613.
[4] Raju TN (2005). William Sealy Gosset and William A. Silverman: two students of science. Pediatrics 116 (3): 7325.
doi:10.1542/peds.2005-1134. PMID 16140715.
[5] Fadem, Barbara (2008). High-Yield Behavioral Science (High-Yield Series). Hagerstwon, MD: Lippincott Williams & Wil-
kins. ISBN 0-7817-8258-9.
[6] Zimmerman, Donald W. (1997). A Note on Interpretation of the Paired-Samples t Test. Journal of Educational and
Behavioral Statistics 22 (3): 349360. JSTOR 1165289.
[7] Markowski, Carol A; Markowski, Edward P. (1990). Conditions for the Eectiveness of a Preliminary Test of Variance.
The American Statistician 44 (4): 322326. doi:10.2307/2684360. JSTOR 2684360.
[8] David, HA; Gunnink, Jason L (1997). The Paired t Test Under Articial Pairing. The American Statistician 51 (1): 912.
doi:10.2307/2684684. JSTOR 2684684.
[9] Sawilowsky S., Blair R. C. (1992). A more realistic look at the robustness and type II error properties of the t test to
departures from population normality. Psychological Bulletin 111 (2): 353360. doi:10.1037/0033-2909.111.2.352.
[10] Blair, R. C.; Higgins, J.J. (1980). A comparison of the power of Wilcoxons rank-sum statistic to that of Students t statistic
under various nonnormal distributions.. Journal of Educational Statistics 5 (4): 309334. doi:10.2307/1164905. JSTOR
1164905.
[11] Fay, MP; Proschan, MA (2010). Wilcoxon-Mann-Whitney or t-test? On assumptions for hypothesis tests and multiple
interpretations of decision rules. Statistics Surveys 4: 139. doi:10.1214/09-SS051. PMC 2857732. PMID 20414472.
[12] Sawilowsky S (2005). Misconceptions leading to choosing the t test over the Wilcoxon Mann-Whitney U test for shift in
location parameter. Journal of Modern Applied Statistical Methods 4 (2): 598600.
O'Mahony, Michael (1986). Sensory Evaluation of Food: Statistical Methods and Procedures. CRC Press. p.
487. ISBN 0-824-77337-3.
Press, William H.; Saul A. Teukolsky, William T. Vetterling, Brian P. Flannery (1992). Numerical Recipes in
C: The Art of Scientic Computing. Cambridge University Press. pp. p. 616. ISBN 0-521-43108-5.
En probabilidad y estadstica, una distribucin normal multivariante, tambin llamada distribucin gaussiana
multivariante, es una generalizacin de la distribucin normal unidimensional a dimensiones superiores.
( )
1
X (u; , ) = exp i u u u .
2
Si es una matriz no singular, entonces la distribucin puede describirse por la siguiente funcin de densidad:
( )
fX (x1 , . . . , xn ) = (2)n/21 ||1/2 exp 21 (x ) 1 (x )
X N (, ),
X NN (, ).
12
4.2. CASO BIVARIANTE 13
4.1.2 Un contraejemplo
El hecho de que dos variables aleatorias X e Y sigan una distribucin normal, cada una, no implica que el par (X, Y)
siga una distribucin normal conjunta. Un ejemplo simple se da con X Normal(0,1), Y = X si |X| > 1 e Y = X si |X|
< 1. Esto tambin es cierto para ms de dos variables aleatorias.[2]
( ( 2 ))
1 1 x y2 2xy
f (x, y) = exp +
2x y 1 2 2(1 2 ) x2 y2 (x y )
donde es el coeciente de correlacion entre X e Y . En este caso,
[ ]
x2 x y
= .
x y y2
1 0 0 0 0 ... 0
B = 0 1 0 0 0 ... 0
0 0 0 1 0 ... 0
lo que extrae directamente los elementos deseados.
Otro corolario sera que la distribucin de Z = b X , donde b es un vector de la misma longitud
( que )X y el
punto indica un producto vectorial, sera una distribucin gaussiana unidimensional con Z N b , bT b . Este
resultado se obtiene usando
b1 b2 ... bn
0 0 ... 0
B=. .. .. ..
.. . . .
0 0 ... 0
14 CAPTULO 4. DISTRIBUCIN NORMAL MULTIVARIANTE
y considerando slo la primera componente del producto (la primera la de B es el vector b ). Obsrvese cmo la
denicin positiva de implica que la varianza del producto vectorial debera ser positiva.
Adems, U puede elegirse de tal modo que sea una matriz de rotacin, tal que invirtiendo un eje no tenga ningn
efecto en N (0, ) , pero invirtiendo una columna, cambie el signo del determinante de U'. La distribucin N (, )
es en efecto N (0, I) escalada por 1/2 , rotada por U y trasladada por .
Recprocamente, cualquier eleccin de , matriz de rango completo U, y valores diagonales positivos i cede el paso
a una distribucin normal no singular multivariante. Si cualquier i es cero y U es cuadrada, la matriz de covarianza
U U T es una singular. Geomtricamente esto signica que cada curva elipsoide es innitamente delgada y tiene
volumen cero en un espacio n-dimensional, as como, al menos, uno de los principales ejes tiene longitud cero.
N
1,...,N (X) = r1 ,...,rN (X) = E Xj j
def def r
j=1
donde r1 + r2 + + rN = k.
Los momentos centrales de orden k viene dados como sigue:
(a) Si k es impar, 1,...,N (X ) = 0 .
(b) Si k es par, con k = 2 , entonces
1,...,2 (X ) = (ij k XZ )
4.7. DISTRIBUCIONES CONDICIONALES 15
donde la suma se toma sobre todas las disposiciones de conjuntos {1, . . . , 2} en parejas (no ordenadas). Esto es,
si se tiene un k-simo ( = 2 = 6 ) momento central, se estarn sumando los productos de = 3 covarianzas (la
notacin - se ha despreciado para facilitar la lectura):
E[X1 X2 X3 X4 X5 X6 ]
= E[X1 X2 ]E[X3 X4 ]E[X5 X6 ] + E[X1 X2 ]E[X3 X5 ]E[X4 X6 ] + E[X1 X2 ]E[X3 X6 ]E[X4 X5 ]
+ E[X1 X3 ]E[X2 X4 ]E[X5 X6 ] + E[X1 X3 ]E[X2 X5 ]E[X4 X6 ] + E[X1 X3 ]E[X2 X6 ]E[X4 X5 ]
+ E[X1 X4 ]E[X2 X3 ]E[X5 X6 ] + E[X1 X4 ]E[X2 X5 ]E[X3 X6 ] + E[X1 X4 ]E[X2 X6 ]E[X3 X5 ]
+ E[X1 X5 ]E[X2 X3 ]E[X4 X6 ] + E[X1 X5 ]E[X2 X4 ]E[X3 X6 ] + E[X1 X5 ]E[X2 X6 ]E[X3 X4 ]
+ E[X1 X6 ]E[X2 X3 ]E[X4 X5 ] + E[X1 X6 ]E[X2 X4 ]E[X3 X5 ] + E[X1 X6 ]E[X2 X5 ]E[X3 X4 ].
Esto da lugar a (21)!/(21 (1)!) trminos en la suma (15 en el caso de arriba), cada uno siendo el producto de
(3 en este caso) covarianzas. Para momentos de cuarto orden (cuatro variables) hay tres trminos. Para momentos
de sexto orden hay 3 5 = 15 trminos, y para momentos de octavo orden hay 3 5 7 = 105 trminos.
Las covarianzas son entonces determinadas mediante el reemplazo de los trminos de la lista [1, . . . , 2] por los
trminos correspondientes de la lista que consiste en r1 unos, entonces r2 doses, etc... Para ilustrar esto, examnese
el siguiente caso de momento central de cuarto orden:
[ ]
E Xi4 = 3ii2
[ ]
E Xi3 Xj = 3ii ij
[ ] 2
E Xi2 Xj2 = ii jj + 2 (ij )
[ ]
E Xi2 Xj Xk = ii jk + 2ij ik
E [Xi Xj Xk Xn ] = ij kn + ik jn + in jk .
donde ij es la covarianza de Xi y Xj . La idea del mtodo de arriba es que primero se encuentra el caso general para
el momento k -simo, donde se [ tiene k diferentes
] variables X - E [Xi Xj Xk Xn ] y entonces se pueden simplicar
apropiadamente. Si se tiene E Xi2 Xk Xn entonces, simplemente sea Xi = Xj y se sigue que ii = i2 .
= 1 + 12 1
22 (a 2 )
y matriz de covarianza
= 11 12 1
22 21 .
Esta matriz es el complemento de Schur de 22 en . Esto signica que para calcular la matriz condicional de
covarianza, se invierte la matriz global de covarianza, se desprecian las las y columnas correspondientes a las variables
bajo las cuales est condicionada y entonces se invierte de nuevo para conseguir la matriz condicional de covarianza.
16 CAPTULO 4. DISTRIBUCIN NORMAL MULTIVARIANTE
Ntese que se sabe que x2 = a altera la varianza, aunque la nueva varianza no dependa del valor especco de a ;
quizs ms sorprendentemente, la media se cambia por 12 1 22 (a 2 ) ; comprese esto con la situacin en la que
no se conoce el valor de a , en cuyo caso x1 tendra como distribucin
Nq (1 , 11 ) .
La matriz 12 1
22 se conoce como la matriz de coecientes de regresin.
En el caso
( ) (( ) ( ))
X1 0 1
N ,
X2 0 1
entonces
(z)
E(X1 |X2 > z) = (z)
donde esta ltima razn se llama a menudo razn inversa de Mills.
( )
1 1 1
Im,n = + tr 1
m n 2 m n
donde
[ ]
m = 1
m
2
m N
m
1
m
2
m
( )
.
m
= = .
.
m
N
m
( ( ) )
1 det 1 ( ) 1
DKL (N 0N 1) = loge + tr 1
1 0 + (1 0 ) 1 (1 0 ) N .
2 det 0
El logaritmo debe tomarse con base e en los dos trminos (logaritmos neperianos), siguiendo el logaritmo estn los
logaritmos neperianos de las expresiones que son ambos factores de la funcin de densidad o si no, surgen natu-
ralmente. La divergencia de arriba se mide en nats. Dividiendo la expresin de arriba por loge 2 se da paso a la
divergencia en bits.
( )
N /2 1/2 1
f (x) = (2) det() exp (x )T 1 (x )
2
y el estimador MV de la matriz de covarianza para una muestra de n observaciones es
n
b= 1
(Xi X)(Xi X)T
n i=1
lo cual es, simplemente, la matriz muestral de covarianza. Este es un estimador sesgado cuya esperanza es
b = n1
E[] .
n
Una covarianza muestral insesgada es
1
n
b=
(Xi X)(Xi X)T .
n 1 i=1
4.11 Entropa
La entropa diferencial de la distribucin normal multivariante es[4]
h (f ) = f (x) ln f (x) dx
1
= (N + N ln (2) + ln ||)
2
1
= ln{(2e)N ||}
2
donde || es el determinante de la matriz de covarianza .
1. Se calcula la descomposicin de Cholesky de , esto es, se encuentra la nica matriz triangular inferior A
tal que A AT = . Ntese que cualquier otra matriz A que satisfaga esta condicin, o sea, que es uno la
raz cuadrada de , podra usarse, pero a menudo encontrar tal matriz, distinta de la de la descomposicin de
Cholesky, sera bastante ms costoso en trminos de computacin.
2. Sea Z = (z1 , . . . , zN )T un vector cuyas componentes N normales e independientes varan (lo cual puede
generarse, por ejemplo, usando el mtodo de Box-Muller.
3. Sea X = + AZ .
4.14 Referencias
[1] Vase MVNDST en (incluye cdigo FORTRAN) o (incluye cdigo MATLAB).
[4] Gokhale, DV; NA Ahmed, BC Res, NJ Piscataway (May de 1989). Entropy Expressions and Their Estimators for Mul-
tivariate Distributions. Information Theory, IEEE Transactions on 35 (3): 688692. doi:10.1109/18.30996.
[5] Cox, D. R.; N. J. H. Small (August de 1978). Testing multivariate normality. Biometrika 65 (2): 263272. doi:10.1093/biomet/65.2.263.
[6] Smith, Stephen P.; Anil K. Jain (September de 1988). A test to determine the multivariate normality of a dataset. IEEE
Transactions on Pattern Analysis and Machine Intelligence 10 (5): 757761. doi:10.1109/34.6789.
Captulo 5
5.1 La distribucin
2
Si la notacin Tp,m es usada para denotar una variable aleatoria distribucin T-cuadrado de Hotelling con parmetros
p ym, entonces, si una variable aleatoria X distribucin T-cuadrado de Hotelling,
X Tp,m
2
entonces[1]
mp+1
X Fp,mp+1
pm
donde Fp,mp+1 es una distribucin F con parmetros p y mp+1.
x1 , . . . , xn Np (, )
n variables aletorias independientes, las cuales pueden representarse como un vector columna de orden p 1 de
nmeros reales. Defnase
x1 + + xn
x=
n
19
20 CAPTULO 5. HOTELLINGS T-SQUARED DISTRIBUTION
n(x ) 1
(x ) 2p ,
donde 2p es una distribucin ji-cuadrado con p grados de liberatd. Para demostrar eso se usa el hecho que x
Np (, /n) y entonces, al derivar la funcin caracterstica de la variable aletoria y = n(x ) 1 (x ) . Esto
se hizo bajo,
y () = E eiy ,
1
= E ein(x) (x)
1 p 1
(2) 2 |/n| 2 e 2 n(x)
1 1
= ein(x) (x) (x)
dx1 ...dxp
1
p
2i1 )(x)
(2) 2 |/n| 2 e 2 n(x) (
1 1
= dx1 ...dxp ,
1
1 1 1 2i1 )(x)
(2) 2 |(1 2i1 )1 /n| 2 e 2 n(x) (
p
1
12 1 1
= |( 2i ) /n| |/n|
2 dx1 ...dxp ,
= |(Ip 2iIp )| 2 ,
1
p
= (1 2i) 2 .
Sin embargo, es por lo general desconocida y se busca hacer una prueba de hiptesis sobre el vector de medias .
Defnase
1
n
W= (xi x)(xi x)
n 1 i=1
como la covarianza muestral. La traspuesta se ha denotado con un apstrofo. Se demuestra que W es una matriz
denida positiva y (n 1)W sigue una distribucin Wishart p-variada con n1 grados de libertad.[2] La estadstica
T-cudrado de Hotelling se dene entonces como
t2 = n(x ) W1 (x )
t2 Tp,n1
2
es decir
np 2
t Fp,np ,
p(n 1)
donde Fp,np es una distribucin F con parmetros p y np. Para calcular un p-valor, multiplique la estadstica t 2 y
la constante anterior y use la distribucin F.
5.3. ESTADSTICA T-CUADRADO DE HOTELLING PARA DOS MUESTRAS 21
1 1
nx ny
x= xi y= yi
nx i=1 ny i=1
nx ny
i=1 (xi x)(xi x) + i=1 (yi y)(yi y)
W=
nx + ny 2
como el estinador de la matriz de covarianza pooled insesgado the unbiased pooled covariance matrix estimate, then
Hotellings two-sample T-squared statistic is
nx ny
t2 = (x y) W1 (x y) T 2 (p, nx + ny 2)
nx + ny
and it can be related to the F-distribution by[2]
nx + ny p 1 2
t F (p, nx + ny 1 p).
(nx + ny 2)p
The non-null distribution of this statistic is the noncentral F-distribution (the ratio of a non-central Chi-squared
random variable and an independent central Chi-squared random variable)
nx + ny p 1 2
t F (p, nx + ny 1 p; ),
(nx + ny 2)p
with
nx ny 1
= V ,
nx + ny
where is the dierence vector between the population means.
5.5 Referencias
[1] Hotelling, H. (1931). The generalization of Students ratio. Annals of Mathematical Statistics 2 (3): 360378. doi:10.1214/aoms/1177732979.
[2] K.V. Mardia, J.T. Kent, and J.M. Bibby (1979) Multivariate Analysis, Academic Press.
22 CAPTULO 5. HOTELLINGS T-SQUARED DISTRIBUTION
Anlisis multivariante
El anlisis multivariante es un mtodo estadstico utilizado para determinar la contribucin de varios factores en
un simple evento o resultado.
Los factores de estudio son los llamados factores de riesgo (bioestadstica), variables independientes o variables
explicativas.
El anlisis multivariante mediante tcnicas de proyeccin sobre variables latentes tiene muchas ventajas sobre los
mtodos de regresin tradicionales:
se puede utilizar la informacin de mltiples variables de entrada, aunque stas no sean linealmente indepen-
dientes
puede trabajar con matrices incompletas, siempre que los valores faltantes estn aleatoriamente distribuidos y
no superen un 10%
puesto que se basan en la extraccin secuencial de los factores, que extraen la mayor variabilidad posible de la
matriz de las X (variables explicativas, tienen que ser dependientes) pueden separar la informacin del ruido.
Se asume que las X se miden con ruido.
Anlisis factorial
Anlisis discriminante
Anlisis Cluster
Anlisis de correspondencias
Anlisis conjunto
23
24 CAPTULO 6. ANLISIS MULTIVARIANTE
Escalamiento ptimo
Estadstica multivariante
Captulo 7
En estadstica el anlisis multivariante de la varianza o MANOVA (por su nombre en ingls, Multivariate analysis
of variance) es una extensin del anlisis de la varianza o ANOVA para cubrir los casos donde hay ms de una variable
dependiente que no pueden ser combinadas de manera simple. Adems de identicar si los cambios en las variables
independientes tienen efectos signicativos en las variables dependientes, la tcnica tambin intenta identicar las
interacciones entre las variables independientes y su grado de asociacin con las dependientes.
Cuando aparece la suma de cuadrados en el anlisis univariante de la varianza, en el anlisis multivariante de la
varianza aparecen ciertas matrices denidas positivas. Los elementos diagonales son del mismo tipo de sumas de
cuadrados que aparecen en el ANOVA univariante. Los elementos fuera de la diagonal se corresponden con sumas de
productos. Asumiendo condiciones de normalidad sobre distribuciones de error, el homlogo de la suma de cuadrados
debido al error tendr una distribucin de Wishart.
Anlogamente a ANOVA, MANOVA est basado en el producto del modelo de la matriz de varianza y el inverso de
la matriz de varianza del error. Las consideraciones de invarianza implican que las estadsticas de MANOVA deberan
ser una medida de magnitud de la descomposicin del valor singular de esta matriz producto, pero no hay una nica
eleccin pendiente de la naturaleza multi-dimensional de la hiptesis alternativa.
Las distribuciones estadsticas ms comunes son la lambda () de Samuel Stanley Wilks, la traza de Pillai-M. S.
Bartlett (ver traza de una matriz), la traza de Lawley-Hotelling y la raz mayor de Roy. La discusin contina sobre
los mritos de cada una, aunque la raz ms grande que conduce slo a una cota de signicancia no es de inters
prctico. Una complicacin ms es que la distribucin de estas estadsticas bajo la hiptesis nula no es sencilla y slo
puede ser aproximada, excepto en unos casos de pocas dimensiones. La mejor aproximacin de la lambda de Wilks
fue hallada por C. R. Rao.
En el caso de dos grupos, todas las estadsticas son equivalentes y las pruebas se reducen a la distribucin T cuadrada
de Hotelling.
25
Captulo 8
Anlisis de correspondencias
En estadstica multivariante, el anlisis de correspondencias es una tcnica descriptiva desarrollada por Jean-Paul
Benzcri.[1] Suele aplicarse al estudio de tablas de contingencia y es conceptualmente similar al anlisis de compo-
nentes principales con la diferencia de que en el anlisis de correspondencias los datos se escalan de modo que las
y columnas se tratan de modo equivalente.
El anlisis de correspondencias descompone el estadstico del test de la ji-cuadrado asociado a una tabla de con-
tingencia en componentes ortogonales.[2] Dado que se trata de una tcnica descriptiva, puede aplicarse incluso en
circunstancias en las que la prueba anterior no es apropiada.
Existen distintas versiones de esta tcnica, incluyendo:
8.1 Implementaciones
Orange posee un mdulo especco, orngCA
R dispone de paquetes tales como ade4, ca y FactoMineR que implementan este tipo de anlisis
8.2 Referencias
[1] Benzcri, J.-P. (1973). L'Analyse des Donnes. Volume II. L'Analyse des Correspondances. Paris, France: Dunod.
[2] Greenacre, Michael (1983). Theory and Applications of Correspondence Analysis. Londres: Academic Press. ISBN 0-12-
299050-1.
26
Captulo 9
ACP de una distribucin normal multivariante centrada en (1,3) con desviacin estndar 3 en la direccin aproximada (0,878,
0,478) y desviacin estndar 1 en la direccin perpendicular a la anterior. Los vectores muestran los autovectores de la matriz de
correlacin escalados mediante la raz cuadrada del correspondiente autovalor, y desplazados para que su origen coincidan con la
media estadstica.
En estadstica, el anlisis de componentes principales (en espaol ACP, en ingls, PCA) es una tcnica utilizada
para reducir la dimensionalidad de un conjunto de datos. Intuitivamente la tcnica sirve para hallar las causas de la
variabilidad de un conjunto de datos y ordenarlas por importancia.
27
28 CAPTULO 9. ANLISIS DE COMPONENTES PRINCIPALES
Tcnicamente, el ACP busca la proyeccin segn la cual los datos queden mejor representados en trminos de mni-
mos cuadrados. El ACP se emplea sobre todo en anlisis exploratorio de datos y para construir modelos predictivos.
El ACP comporta el clculo de la descomposicin en autovalores de la matriz de covarianza, normalmente tras centrar
los datos en la media de cada atributo.
9.1 Fundamento
El ACP construye una transformacin lineal que escoge un nuevo sistema de coordenadas para el conjunto original de
datos en el cual la varianza de mayor tamao del conjunto de datos es capturada en el primer eje (llamado el Primer
Componente Principal), la segunda varianza ms grande es el segundo eje, y as sucesivamente. Para construir esta
transformacin lineal debe construirse primero la matriz de covarianza o matriz de coecientes de correlacin. Debido
a la simetra de esta matriz existe una base completa de vectores propios de la misma. La transformacin que lleva
de las antiguas coordenadas a las coordenadas de la nueva base es precisamente la transformacin lineal necesaria
para reducir la dimensionalidad de datos. Adems las coordenadas en la nueva base dan la composicin en factores
subyacentes de los datos iniciales.
Una de las ventajas del ACP para reducir la dimensionalidad de un grupo de datos, es que retiene aquellas caractersti-
cas del conjunto de datos que contribuyen ms a su varianza, manteniendo un orden de bajo nivel de los componentes
principales e ignorando los de alto nivel. El objetivo es que esos componentes de bajo orden a veces contienen el
aspecto ms importante de esa informacin.
1. Mtodo basado en la matriz de correlacin, cuando los datos no son dimensionalmente homogneos o el orden
de magnitud de las variables aleatorias medidas no es el mismo.
2. Mtodo basado en la matriz de covarianzas, que se usa cuando los datos son dimensionalmente homogneos y
presentan valores medios similares.
(Fj )=1,...,n
j=1,...,m
Mj = {Fj | = 1, ..., n}
puede considerarse una muestra aleatoria para la variable Fj . A partir de los m n datos correspondientes a las m
variables aleatorias, puede construirse la matriz de correlacin muestral, que viene denida por:
cov(Fi ,Fj )
R = [rij ] Mmm donde rij =
var(Fi )var(Fj )
9.2. MATEMTICAS DEL ACP 29
Puesto que la matriz de correlaciones es simtrica entonces resulta diagonalizable y sus valores propios i verican:
m
i=1 i = 1
Debido a la propiedad anterior estos m valores propios reciben el nombre de pesos de cada uno de los m componentes
principales. Los factores principales identicados matemticamente se representan por la base de vectores propios
de la matriz R . Est claro que cada una de las variables puede ser expresada como combinacin lineal de los vectores
propios o componentes principales.
l min{n, m}
Los datos para el anlisis tienen que estar centrados a media 0 (restndoles la media de cada columna) y/o autoesca-
lados(centrados a media 0 y dividiendo cada columna por su desviacin estndar).
l T
X= a=1 ta pa +E
Los vectores ta son conocidos como scores y contienen la informacin de cmo las muestras estn relacionadas unas
con otras adems, tienen la propiedad de ser ortogonales. Los vectores pa se llaman loadings e informan de la relacin
existente entre las variables y tienen la cualidad de ser ortonormales. Al coger menos componentes principales que
variables y debido al error de ajuste del modelo con los datos, se produce un error que se acumula en la matriz E .
El PCA se basa en la descomposicin en vectores propios de la matriz de covarianza. La cual se calcula con la siguiente
ecuacin:
T
cov(X) = Xn1X
cov(X)
m pa = a pa
a=1 a = 1
t a = X pa
Esta ecuacin la podemos entender como que ta son las proyecciones de X en pa , donde los valores propios a miden
la cantidad de varianza capturada, es decir, la informacin que representan cada uno de los componentes principales.
La cantidad de informacin que captura cada componente principal va disminuyendo segn su nmero es decir, el
componente principal nmero uno representa ms informacin que el dos y as sucesivamente.
9.2.3 Limitaciones
La aplicacin del ACP est limitada por varios supuestos[1]
Asuncin de linealidad: Se asume que los datos observados son combinacin lineal de una cierta base.
Importancia estadstica de la media y la covarianza: el ACP utiliza los vectores propios de la matriz de co-
varianzas y slo encuentra las direcciones de ejes en el espacio de variables considerando que los datos se
distribuyen de manera gaussiana.
30 CAPTULO 9. ANLISIS DE COMPONENTES PRINCIPALES
9.3 Ejemplos
Un anlisis consider las calicaciones escolares n = 15 estudiantes en m = materias (lengua, matemticas,
fsica, ingls, losofa, historia, qumica, gimnasia). Los dos primeros componentes principales explicaban
juntos el 82,1% de la varianza. El primer de ellos pareca fuertemente correlacionado con las materias de hu-
manidades (lengua, ingls, losofa, historia) mientras que el segundo apareca relacionado con las materias
de ciencias (matemticas, fsica, qumica). As parece que existe un conjunto de habilidades cognitivas rela-
cionadas con las humanidades y un segundo relacionado con las ciencias, estos dos conjuntos de habilidades
son estadsticamente independientes por lo que un alumno puede puntuar alto en slo uno de ellos, en los dos
o en ninguno.[2]
9.4 Referencia
[1] Jonathon Shlens.A Tutorial on Principal Component Analysis.
Anlisis discriminante
El anlisis discriminante es una tcnica estadstica multivariante cuya nalidad es describir (si existen) las diferen-
cias signicativas entre g grupos de objetos (g > 1) sobre los que se observan p variables (variables discriminantes).
Ms concretamente, se comparan y describen las medias de las p variables clasicadoras a travs de los g grupos.
En caso de que estas diferencias existan, intentar explicar en qu sentido se dan y proporcionar procedimientos de
asignacin sistemtica de nuevas observaciones con grupo desconocido a uno de los grupos analizados, utilizando
para ello sus valores en las p variables clasicadoras (stos s, conocidos).
Podemos ver este procedimiento como un modelo de prediccin de una variable respuesta categrica (variable gru-
po) a partir de p variables explicativas generalmente continuas (variables clasicatorias). Por poner algn ejemplo,
podemos hablar del reconocimiento de formas, de texto, o del diagnstico automtico.
Signicancia estadstica
31
32 CAPTULO 10. ANLISIS DISCRIMINANTE
10.2.2 Images
Archivo:GaussianScatterPCA.png Fuente: http://upload.wikimedia.org/wikipedia/commons/1/15/GaussianScatterPCA.png Licencia:
CC-BY-SA-3.0 Colaboradores:
PNG version of gigantic SVG
Trabajo propio (Descripcin original: I created this work entirely by myself. (Originally uploaded on en.wikipedia) -)
Artista original: Ben FrantzDale (talk) (Transferred by ILCyborg)
Archivo:Merge-arrow.svg Fuente: http://upload.wikimedia.org/wikipedia/commons/a/aa/Merge-arrow.svg Licencia: Public domain Co-
laboradores: ? Artista original: ?
Archivo:Mergefrom.svg Fuente: http://upload.wikimedia.org/wikipedia/commons/0/0f/Mergefrom.svg Licencia: Public domain Cola-
boradores: ? Artista original: ?
Archivo:Wikiversity-logo-Snorky.svg Fuente: http://upload.wikimedia.org/wikipedia/commons/1/1b/Wikiversity-logo-en.svg Licen-
cia: CC BY-SA 3.0 Colaboradores: Trabajo propio Artista original: Snorky