Академический Документы
Профессиональный Документы
Культура Документы
ANÁLISIS DE VARIANZA
Si las medias de las mediciones realizadas por cada uno de los laboratorios están
muy dispersas, indica falta de consistencia en las mediciones. Esto puede ser porque
todos miden distinto o quizá porque la distribución del depósito en la chapa es irregular.
Es decir, se confunde la inconsistencia de los laboratorios con la cantidad de estaño
depositado en la tira.
Una solución posible para esto sería numerar aleatoriamente los discos, por
medio de una Tabla de Números Aleatorios o con una computadora, destinando a cada
uno de los laboratorios los siguientes discos:
Laboratorio A: 3, 10, 22 ….
Laboratorio B: 33, 42, 8 ….
Laboratorio A: 15, 12, 28 ….
Laboratorio A: 45, 21, 35 ….
Cátedra Estadística II 1
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
En la práctica, los experimentos deberán planearse de tal manera que las fuente
conocidas de variabilidad sean deliberadamente consideradas sobre un rango tan
amplio como sea necesario. Más aún, deberán variarse en tal forma que su variabilidad
pueda eliminarse en la estimación de la variable aleatoria.
Un modo es repetir el experimento en varios bloques en los que la fuente
conocida de variabilidad (esto es, variables extrañas) se mantienen fijas en cada bloque,
pero variando de bloque en bloque:
De este modo, las diferencias entre medias obtenidas por los 4 laboratorios, no
pueden atribuirse a variaciones entre tiras.
Medias
Muestra 1 y11 y12 ……… y1j …. y1n
Muestra 2 y21 y22 ……… y2j … y 2n
………. … … ……… …… … …… ………
Muestra i yi1 yi2 ……… yij … yin
………. … … ……… …… … …… ………
Muestra k yk1 yk2 ……… ykj … ykn
Cátedra Estadística II 2
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
i 0
i 1
j 1
cada una de las varianzas muestrales si2 está basada en (n-1) grados de libertad y
entonces está basada en k.(n-1) grados de libertad.
Por otro lado, la varianza de las k medias muestrales está dada por:
Cátedra Estadística II 3
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
F= /
es una variable aleatoria con distribución F con = k-1 y = k.(n-1) grados de
libertad.
Cabe esperar que la varianza entre muestras, , exceda la varianza dentro de
las muestras, , cuando la Hipótesis Nula es falsa, por eso Ho será rechazada si
F>F.
Con el argumento anterior se ha indicado cómo la prueba de las k medias se
puede fundamentar en la comparación de dos estimaciones de varianzas.
Es notable el hecho de que las dos estimaciones en cuestión [excepto para los
divisores (k-1) y k.(n-1)] pueden obtenerse “partiendo” o analizando la varianza total de
las n.k observaciones en dos partes. La varianza muestral de las n.k observaciones está
dada por:
Demostración:
k n k n
2 2 2
y y y y
ij i i . y y 2 y y y y y y
ij i ij i i . i .
i1 j1 i1 j1
k n k n k
2 2
y y 2
ij i y y
i . y y n
ij i y y
i .
i1 j1 i1 j1 i1
y como:
n
y y
ij i
0
j1
Se acostumbra a denotar:
Cátedra Estadística II 4
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
k n
SST
yij y.
2
i 1 j 1
b) Suma de Cuadrados de Error, SSE:
SS ( T r)
k1
F
SSE
k ( n1)
Total
Lab. A .25 .27 .22 .30 .27 .28 .32 .24 .31 .26 .21 .28 3.21
Lab. B .18 .28 .21 .23 .25 .20 .27 .19 .24 .22 .29 .16 2.72
Lab. C .19 .25 .27 .24 .18 .26 .28 .24 .25 .20 .21 .19 2.76
Lab. D .23 .30 .28 .28 .24 .34 .20 .18 .24 .28 .22 .21 3.00
Total 11.69
del que se quiere probar que las medias obtenidas por cada uno de ellos es
significativamente igual (Hipótesis Nula) con =0.05. Construir una Tabla de análisis
de varianza.
yij
2 1 2
SST C SS ( Tr) Ti C
n
i 1 j 1 i 1
Demostración:
Cátedra Estadística II 5
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
n
y y
ij i
0
Para Suma de Cuadrados totalj 1
k n k n
2 2
y y yij 2yijy. y.
2
SST
ij .
i1 j1 i1 j 1
k n k n
2
ij
1
y k n y
2
y 2 y ( k n )
. ( k n ) ij .
i1 j1 i1 j 1
k n
2
yij k n y.
2
i1 j1
2
k n
y
ij 2
1
k n
2 i1 j1
C k n y
.
( k n )
2
k n y
ij
( k n ) i 1 j 1
k n
yij C
2
SST
i1 j1
y C Ti C
1 1 2
SS( Tr)
n ij n
i1 j1 i1
2
1
k n n
C
k n yij
Ti
yij
i 1 j 1 j 1
Para el ejemplo:
Cátedra Estadística II 6
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
la Tabla queda:
Ya que F (2.87) excede a F0.05= 2.82, se rechaza la Hipótesis Nula, luego los
laboratorios no están logrando resultados consistentes.
Un segmento de programa Matlab que realiza esta prueba trabajando sobre una
matriz experimental, se describe a continuación:
function anova1
% Determinacion del estadistico F para un diseño completamente aleatorio
% con datos presentes en el archivo ascii cuadro.txt
% Entradas: u, matriz, obtenida del archivo ascii "cuadro.txt"
%
% Salida: F, real, Estadistico
%
load cuadro.txt;u=cuadro';n=size(u,1);k=size(u',1);
% Calculo de las medias de cada tratamiento (filas)
for i=1:k, m=0;
for j=1:n, m=m+u(j,i); end
med(i)=m;
end
gran_media=mean(med);
% Calculo de la correccion
Cátedra Estadística II 7
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
Luego ejecutando:
>> anova1
F=
2.8667
k n
yij i2
i 1 j 1
con respecto a y a las i , sujetas a la restricción
k n
2 yij i 0
i 1 j 1
k n k n k n
yij
i 0
i 1 j 1 i 1 j 1 i 1 j 1
k n
yij k n 0 0
i 1 j 1
Cátedra Estadística II 8
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
para un i dado:
n n n n
2 yij i 0
i
yij
j 1 j 1 j 1 j 1
Ejemplo: Estimar los parámetros del modelo con un criterio de clasificación para los
revestimientos de estaño del ejemplo anterior.
11.69
0.244
48
3.21 11.69 2.72 11.69
1 0.024 2 0.017
12 48 12 48
2.76 11.69 3.00 11.69
3 0.0135 4 0.006
12 48 12 48
Medias
Muestra 1 y11 y12 ……… y1j ….
Muestra 2 y21 y22 ……… y2j …
………. … … ……… …… … …… ………
Muestra i yi1 yi2 ……… yij …
………. … … ……… …… … …… ………
Muestra k yk1 yk2 ……… ykj …
y y
2 1 2
si ij i
ni 1
j 1
y
Cátedra Estadística II 9
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
Con:
Ti 2
k ni k
yij
2
SST C SS ( Tr) C
ni
i 1 j 1 i 1
siendo:
2
k ni k
1
yij
C
N
Ti
yij
i 1 j 1 i 1
Total
Marca A 0.5 0.0 3.2 1.4 0.0 1.0 8.6 2.9 17.6
Cátedra Estadística II 10
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
a) Emplear Análisis de Varianza para probar si las dos marcas difieren en en contenido
de aflatoxina, con un nivel de significancia a=0.05.
b) Probar la misma hipótesis usando la prueba t-bimuestral.
Respuesta:
a)
y1 2.2 y2 4.05 y. 2.2
8 6
SST y1j 3 2
y2j 3 2 146.25
j 1 j 1
2
2 2 2
SS ( Tr) ni yi 3 8 ( 2.2 3) 6 ( 4.05 3) 11.74
i 1
SSE = SST – SS(Tr) = 146.25 – 11.74 = 134.51
Dado que 1.05 < 4.75 (valor de F, de Tablas, con =0.05, =1 y =12) se rechaza
la Hipótesis de que las dos marcas difieren en el contenido de aflatoxina.
siendo t0.025= -2.18 con = n1 + n2 – 2 = 8 + 6 - 2=12 grados de libertad, se aprecia que
t > t0.025 por lo tanto se rechaza la Hipótesis de que las dos marcas difieren en el
contenido de aflatoxina.
Puede comprobarse que el estadístico t con grados de libertad y el estadístico F
con grados de libertad están relacionados por:
F(1,t
Cátedra Estadística II 11
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
B1 B2 Bj Bb Medias
Tratamiento 1 y11 y12 ……… y1j …. y1b .
Medias
aquí es la gran media, i es el efecto de i-ésimo tratamiento, i el efecto del j-ésimo
bloque y los i j son valores de variables aleatorias independientes normalmente
distribuidas que tienen media cero y varianza común 2 . Se restringen los parámetros
imponiendo las condiciones que:
a b
i 0
i 0
i 1 j 1
En el análisis de clasificación con dos criterios, cada tratamiento es representado
una vez dentro de cada bloque, el objetivo principal consiste en probar la significancia
de las diferencias entre las , o sea, probar la Hipótesis Nula: 1 = 2 = … = k = 0.
Cátedra Estadística II 12
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
Más aún, quizás convenga probar si la división en bloques ha sido eficaz, esto es
probar que la Hipótesis Nula: 1 = 2 = … = k = 0 puede rechazarse.
En cualquier caso, la Hipótesis alterna establece que al menos uno de los efectos
no es cero.
Como en el análisis con un criterio, se fundará la prueba de significancia
mediante comparaciones de 2 (una basada en la variación entre tratamientos, la otra
basada en la variación entre bloques y la última que mide el error experimental ). Nótese
que sólo el último es una estimación de 2 cuando cualquiera (o ambas) las Hipótesis
Nulas no son válidas.
Las sumas de cuadrados requeridas están dadas por el siguiente teorema:
donde:
C es el término de corrección
es la suma de las b observaciones para el i-ésimo tratamiento
es la suma de las a observaciones para el j-ésimo bloque
es la suma de todas las observaciones
SS ( T r)
MS( Tr) a1
F Tr
MSE SSE
( a1) ( b1)
excede F con (a-1) y (a-1).(b-1) grados de libertad. La Hipótesis Nula de que todas las
i son todas nulas, con un nivel de significancia si:
Cátedra Estadística II 13
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
SS ( Bl)
MS( Bl) b1
F Bl
MSE SSE
( a1) ( b1)
excede F con (b-1) y (a-1).(b-1) grados de libertad. Nótese que las medias de los
cuadrados MS(Tr), MS(Bl) y MSE se definen otra vez como las correspondientes sumas
de cuadrados divididas entre sus grados de libertad.
La siguiente tabla resume todo el procedimiento:
Considerando los detergentes como tratamientos y las lavadoras como bloques, obtener
la Tabla de Análisis de Varianza y probar, con un nivel de significación 0.01, si existen
diferencias entre los detergentes y/o entre las lavadoras.
4 – Cálculos:
C = 5652 / 12 = 26602
Cátedra Estadística II 14
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
la Tabla queda:
5- Dado que FTr = 11.6 > 9.78 se Rechaza la primera Hipótesis Nula, por lo tanto hay
diferencia significativa entre la eficacia de los detergentes, y dado que FBl = 21.1 > 10.9
también hay diferencia significativa entre la eficacia de las lavadoras.
Un segmento de programa Matlab que realiza esta prueba trabajando sobre una
matriz experimental, se describe a continuación:
function bloques
% Determinacion del estadistico F para un diseño en bloques aleatorios
% con datos presentes en el archivo ascii cuadro1.txt
% Entradas: u, matriz, obtenida del archivo ascii "cuadro1.txt"
%
% Salida: FTr, real, Estadistico
% FBl, real, Estadistico
%
load cuadro1.txt;u=cuadro1';b=size(u,1);a=size(u',1);
% Calculo de la suma de todas las observaciones
T=0; for i=1:a, for j=1:b, T=T+u(j,i); end, end
C=T^2/(a*b);
% Calculo de la Suma de cuadrados total
SST=0; for i=1:a, for j=1:b, SST=SST+u(j,i)^2; end, end
SST=SST-C;
% Calculo de la Suma de cuadrados de tratamientos
SSTr=0; for i=1:a, ss=0; for j=1:b, ss=ss+u(j,i); end
SSTr=SSTr+ss^2 ;
end
SSTr=SSTr/b-C;
% Calculo de la Suma de cuadrados de bloques
SSBl=0; for j=1:b, ss=0; for i=1:a, ss=ss+u(j,i); end
SSBl=SSBl+ss^2 ;
end
SSBl=SSBl/a-C;
% Calculo de la Suma de cuadrados de error
SSE=SST-SSBl-SSTr;
FTr=SSTr/(a-1)/(SSE/((a-1)*(b-1)))
FBl=SSBl/(b-1)/(SSE/((a-1)*(b-1)))
Luego ejecutando:
>> bloques
Cátedra Estadística II 15
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
FTr =
11.7788
FBl =
21.5310
COMPARACIONES MÚLTIPLES
Rp s r p
x
aquí es una estimación de:
x n
MSE
s
x n
Ejemplo: Con respecto a los datos de los pesos de los recubrimientos de estaño, aplicar
la prueba del Rango Múltiple de Duncan para probar cuáles medias de los laboratorios
difieren de las otras empleando un nivel de significancia de 0.05.
Laboratorio B C D A
Media 0.227 0.230 0.250 0.268
Cátedra Estadística II 16
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
0.0015
s 0.011
x 12
siendo el número de grados de libertad = k.(n-1) = 44. Por interpolación, en la Tabla
12-a, se obtienen los valores de rp:
p 2 3 4
rp 2.85 3.00 3.09
P 2 3 4
Rp 0.031 0.033 0.034
El rango de las cuatro medias es 0.268 – 0.227 = 0.041, que excede a R4 = 0.034,
que es el rango significativo mínimo.
Esto era de esperar, porque la prueba F indicó que las diferencias entre las cuatro
medias eran significativas con a = 0.05.
Para probar que hay diferencias significativas entre tres medias adyacentes, se
obtienen los rangos de 0.038 y 0.023 respectivamente para 0.230, 0.250, 0.268 y 0.227,
0.230, 0.250. Puesto que el primero de estos valores sobrepasa a R3 = 0.033, las
diferencias correspondientes no son significativas.
Por último en el caso de parejas adyacentes de medias, ningún par adyacente
tiene rango mayor que el rango significativo mínimo R2 = 0.031. Esto se resume:
donde se ha dibujado una línea bajo cualquier conjunto de medias adyacentes para las
cuales el rango es menor que un valor correspondiente de Rp , esto es, bajo cualquier
conjunto de medias adyacentes, para las cuales las diferencias no son significativas.
Se concluye así que el Laboratorio A obtiene los pesos medios de
recubrimiento más alto que los Laboratorios B y C.
1) Diferentes operarios
2) La utilización de diferentes fundentes para soldar.
Cátedra Estadística II 17
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
aquí cada método de soldadura se aplica sólo una vez por cada operario junto con cada
fundente.
Un arreglo experimental como el descripto de denomina Cuadro Latino. Un
Cuadro Latino n x n es una arreglo cuadrado de n letras distintas, las cuales aparecen
sólo una vez en cada renglón y en cada columna. Nótese que en un experimento en
Cuadro Latino de n tratamientos es necesario incluir n2 observaciones, n por cada
tratamiento.
Un experimento en Cuadro Latino sin repetición da solo (n-1).(n-2) grados de
libertad para estimar el error experimental. De modo que tales experimentos son
efectuados en contadas ocasiones sin repetición cuando n es pequeño.
Si existe un total de r repeticiones, el análisis de los datos presupone el siguiente
modelo, donde yij(k)l es la observación en el i-ésimo renglón, en la j-ésima columna, de
la l-ésima repetición y el subíndice k indica el k-ésimo tratamiento:
i 0
j 0
k 0
l 0
i 1 j 1 k1 l 1
donde:
es la gran media
i es el efecto de la i-ésima fila o renglón
j es el efecto de la j-ésima columna
k es el efecto del k-ésimo tratamiento
l es el efecto de la l-ésima repetición
ij(k)l variable aleatoria independiente normal con = 0 y varianza común 2.
nótese que por los “efectos de los renglones” y los “efectos de las columnas” se
entienden los efectos de las dos variables extrañas y que se incluyen los “efectos de la
repetición” como una tercera variable extraña. k está entre paréntesis ya que para un
diseño de Cuadro Latino dado, k es automáticamente determinada cuando i y j se
conocen.
La hipótesis principal a probar es la Hipótesis Nula k = 0, para toda k, es decir
la Hipótesis Nula de que no existe diferencia en la eficacia de n tratamientos.
También se puede probar si i = 0, para todo i y j = 0, para todo j con el fin de
comprobar si las dos variables extrañas tienen algún efecto sobre el fenómeno que se
está considerando.
Mas aún, se puede probar es la Hipótesis Nula l = 0, para toda l, contra la
alternativa que no todas las l son iguales a cero, y esta prueba del efecto de las
repeticiones puede ser importante si las partes del experimento , que representan los
Cuadros Latinos individuales, fueron realizados en distintos días, a diferentes
temperaturas, etc..
Cátedra Estadística II 18
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
donde:
Cátedra Estadística II 19
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
4 – Cálculos:
T.2. = 92.0 T.3 . = 78.0 T..1 = 119.5 T..2 = 120.5 T(A) = 87.5
C = 2402 / 18 = 3200.0
Cátedra Estadística II 20
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
la Tabla queda:
Cátedra Estadística II 21
Universidad de Mendoza Ing. Jesús Rubén Azor Montoya
Cátedra Estadística II 22