Академический Документы
Профессиональный Документы
Культура Документы
ANALISIS DE LA VARIANZA
Introduccin
Un fabricante de computadoras est a punto de presentar una nueva computadora
personal ms rpida. Sin duda, la mquina nueva es ms rpida, pero las pruebas iniciales indican
que hay ms variacin en el tiempo de procesamiento, el cual depende del programa que se
ejecute, y de la cantidad de datos de entrada y salida. Una muestra de 16 corridas de la
computadora, con diversos trabajos de produccin, revel que la desviacin estndar del tiempo
de procesamiento fue de 22 (centsimas de segundo) para la mquina nueva y de 12 (centsimas
de segundo) para el modelo actual. Con un nivel de significancia de 0.05, puede concluir que
hay ms variacin en el tiempo de procesamiento de la mquina nueva?
La distribucin F
La distribucin de probabilidad que se emplea en este captulo es la distribucin F, la cual debe
su nombre a sir Ronald Fisher, uno de los pioneros de la estadstica actual. Esta distribucin de
probabilidad sirve como la distribucin del estadstico de prueba para varias situaciones. Con ella
se pone a prueba si dos muestras provienen de poblaciones que tienen varianzas iguales, y
tambin se aplica cuando se desean comparar varias medias poblacionales en forma simultnea.
La comparacin simultanea de varias medias poblacionales se denomina anlisis de la varianza
(ANOVA o ANAVAR). En las dos situaciones, las poblaciones deben seguir una distribucin
normal, y los datos deben ser al menos de escala de intervalos.
1/18
Estadstica Inferencial
Ing. Ramn Rincones
de libertad se explican ms adelante. Observe que la forma de las curvas cambia cuando
varan los grados de libertad.
Con la distribucin F se pone a prueba la hiptesis de que la varianza de una poblacin normal es
igual a la varianza de otra poblacin normal. En los siguientes ejemplos se muestra el uso de la
prueba:
Dos mquinas cizalladoras se calibran para producir barras de acero con la misma longitud. Por
tanto, las barras debern tener la misma longitud media. Se desea tener la seguridad de que
adems de tener la misma longitud media tambin tengan una variacin similar.
El ndice de rendimiento medio de los dos tipos de acciones comunes puede ser el mismo, pero
quizs haya ms variacin en el ndice de rendimiento en un tipo que en otro. Una muestra de
2/18
Estadstica Inferencial
Ing. Ramn Rincones
Un estudio del departamento de marketing de un peridico importante revelo que los hombres
y las mujeres pasan cerca de la misma cantidad de tiempo por da navegando por la Web. Sin
embargo, en el mismo reporte se indica que haba casi el doble de variacin en el tiempo pasado
por da entre los hombres que las mujeres.
3/18
Estadstica Inferencial
Ing. Ramn Rincones
Ejemplo
La lnea de taxis Garca y Asociados, SRL ofrece servicio de transporte en limusina. El presidente
de la lnea, Sr. Garca, considera dos rutas desde el Aeropuerto Jacinto Lara hasta la el Hotel
Misin en el estado Yaracuy. El Sr Garca desea estudiar el tiempo que se requiere para para llegar
al aeropuerto y viceversa utilizando ambas rutas, y luego comparar los resultados. Utilizando un
nivel de significancia del 0,1.
Ruta Tiempo promedio Desviacin estndar Tamao de muestra
(min)
1 56 12 7
2 57 5 8
Determine:
Existe diferencia en la variacin de los tiempos de recorrido usando las dos rutas?
Anlisis
El Sr. Garca observ que los tiempos promedios parecen ser similares; pero hay una
mayor variacin en la dispersin en la ruta 1 que en la ruta 2
Esto se debe a que el Sr. Garca sabe que la ruta 1 tiene ms semforos, en tanto la ruta
2 es solo autopista, pero ms larga en recorrido por varios kilmetros.
Como la calidad de servicio es muy importante, el Sr. Garca desea realizar una prueba
estadstica para determinar si existe una diferencia significativa en la variacin en ambas
rutas.
Solucin:
Paso 1: Establecer las hiptesis, nula y alternativa.
Ntese que la prueba tiene dos colas, porque se busca una diferencia en la variacin de ambas
rutas. No se trata de demostrar que una ruta tiene mayor variacin que la otra.
Interpretacin: Efectivamente existe una variacin en los tiempos de recorrido entre ambas rutas,
y que la poca diferencia entre las medias no es obra de la casualidad.
Repita el mismo ejercicio, pero cambie el nivel de significancia al 1%, y vea lo que sucede ahora.
Tarea:
Steele Electric Productos, Inc., ensambla componentes elctricos para telfonos celulares.
Durante los ltimos 10 das, el empleado Mark ha promediado 9 productos rechazados, con una
desviacin estndar de 2 rechazos por da. Mientras que otro empleado Raymond promedio 8,5
productos rechazados, con una desviacin estndar de 1,5 rechazos durante el mismo periodo.
Con un nivel de significancia del 5 %. Se podra concluir que hay ms variacin en el nmero de
productos rechazados por da de Mark?
Respuesta:
5/18
Estadstica Inferencial
Ing. Ramn Rincones
personal para ser bomberos. La asignacin de cada uno de los 40 prospectos en el grupo de este
ano es aleatoria para cada uno de los cuatro mtodos.
Al final del programa de capacitacin, a los cuatro grupos se les administra una prueba
comn para medir la comprensin de las tcnicas contra incendios. La pregunta es: existe una
diferencia en las calificaciones medias del examen entre los cuatro grupos? La respuesta a esta
pregunta permitir comparar los cuatro mtodos de capacitacin.
Si emplea la distribucin t para comparar las cuatro medias poblacionales, tendra que
efectuar seis pruebas t distintas. Es decir, necesitara comparar las calificaciones medias de los
cuatro mtodos como sigue: A contra B, A contra C, A contra D, B contra C, B contra D y C contra
D. Si determina el nivel de significancia en 0,05, la probabilidad de una decisin estadstica
correcta es de 0,95, calculada de 1 0,05. Como se realizaron seis pruebas separadas
(independientes), la probabilidad de que no se tome una decisin incorrecta debido al error de
muestreo en cualquiera de las seis pruebas independientes es:
Para encontrar la probabilidad que al menos tenga un error debido al muestreo, reste
este resultado a 1. Por tanto, la probabilidad de al menos una decisin incorrecta debida al
muestreo es de 1 0,735 = 0,265. En resumen, si realiza seis pruebas independientes con la
distribucin t, la posibilidad de rechazar una hiptesis nula verdadera debido al error de
muestreo se incrementa de 0,05 a un nivel insatisfactorio de 0,265: es decir el area de rechazo
se increment a 26,5%. Es obvio que necesita un mejor mtodo que realizar seis pruebas t.
ANOVA permitir comparar las medias de tratamiento de forma simultnea y evitar la
acumulacin del error de Tipo I.
Ejemplo:
Anthony Salazar es la gerente de un banco comercial y desea comparar la productividad, medida
por el nmero de clientes atendidos, entre tres empleados. Selecciona cuatro das en forma
aleatoria y registra el nmero de clientes atendidos por cada empleado. Los resultados son:
6/18
Estadstica Inferencial
Ing. Ramn Rincones
Hay alguna diferencia en el nmero medio de clientes atendidos? En la grfica 2 se ilustra cmo
pueden aparecer las poblaciones si hubiera una diferencia en las medias del tratamiento.
Observe que las poblaciones siguen la distribucin normal y la variacin en cada poblacin es la
misma. Sin embargo, las medias no son iguales.
Ahora suponga que las poblaciones son iguales. Es decir, no hay una diferencia en las medias
(tratamiento). Esto se muestra en la grfica 3, e indicara que las medias poblacionales son iguales.
Observe de nuevo que las poblaciones siguen la distribucin normal, y que la variacin en cada
una de las poblaciones es la misma.
7/18
Estadstica Inferencial
Ing. Ramn Rincones
La prueba ANOVA
Cmo funciona la prueba ANOVA? Recuerde que se desea determinar si varias medias
muestrales provienen de una sola poblacion o de poblaciones con medias diferentes. En realidad,
estas medias muestrales se comparan mediante sus varianzas. Para explicar esto, releer las
suposiciones requeridas para ANOVA. Una de estas suposiciones fue que las desviaciones
estndar de las diversas poblaciones normales tenan que ser las mismas. Se aprovecha este
requisito en la prueba ANOVA. La estrategia es estimar la varianza de la poblacin (desviacin
estndar al cuadrado) de dos formas y despus determinar la razn de dichos estimados. Si esta
razn es aproximadamente 1, entonces por lgica los dos estimados son iguales, y se concluye
que las medias poblacionales no son iguales. La distribucin F sirve como un rbitro al indicar en
que instancia la razn de las varianzas muestrales es mucho mayor que 1 para haber ocurrido
por casualidad.
Consulte el ejemplo del banco comercial en la seccin anterior. El gerente desea determinar si
hay una diferencia en el nmero medio de clientes atendidos. Para iniciar, determine la media
global de las 12 observaciones. Esta es de 58, calculada de (55+54
+59+56+66+76+67+71+47+51+46+48) /12. Despus, para cada una de las 12 observaciones
encuentre la diferencia entre el valor particular y la media global. Cada una de estas diferencias
se eleva al cuadrado y estos cuadrados se suman. Este trmino se denomina variacin total.
VARIACIN TOTAL: Suma de las diferencias elevadas al cuadrado entre cada observacin y la
media global.
8/18
Estadstica Inferencial
Ing. Ramn Rincones
En nuestro ejemplo, la variacin total es de 1 082, determinada por (55 58)2 + (54 58)2 +(59
58)2 + + (48 58)2. Luego se divide esta variacin total en dos componentes: la que se debe
a los tratamientos y la que es aleatoria. Para encontrar estas dos componentes, se determina la
media de cada tratamiento. La primera fuente de variacin se debe a los tratamientos.
(56 58)2 + (56 58)2 + + (48 58)2 = 4(56 582) + 4(70 58)2 + 4(58 58)2 = 992
Si existe una variacin considerable entre las medias de los tratamientos, es lgico que
este trmino sea grande. Si las medias de los tratamientos son similares, este trmino ser un
valor bajo. El valor ms bajo posible es cero. Esto ocurrir cuando todas las medias de los
tratamientos sean iguales.
VARIACIN ALEATORIA: Suma de las diferencias elevadas al cuadrado entre cada observacin
y su media de tratamiento.
En el ejemplo, este trmino es la suma de las diferencias al cuadrado entre cada valor y a media
para ese empleado en particular. La variacin de error es 90.
9/18
Estadstica Inferencial
Ing. Ramn Rincones
{S2 = [X2 (X)2/n] / (n 1)}. En este caso hay tres tratamientos, por lo que se divide entre
2. El primer estimado de la varianza poblacional es 992/2.
Conclusin:
Como esta razn es muy distinta a 1, se concluye que las medias de los tratamientos no son
iguales. Hay una diferencia en el nmero medio de clientes atendidos por los tres empleados.
Como se puede apreciar los clculos para determinar ANOVA son bastante difcil de llevar
a cabo: adems de ser tediosos; en especial cuando la media global y las medias de tratamientos
tienen decimales. Existen dos alternativas para evitar los extensos clculos. El primero sera usar
un paquete estadstico, y el segundo mtodo se reducen los clculos como se muestra a en el
ejemplo siguiente.
Ejemplo:
Desde hace algn tiempo las aerolneas han reducido sus servicios, como alimentos y sndwiches
durante sus vuelos, y empezaron a cobrar un precio adicional por algunos servicios, como llevar
sobrepeso de equipaje, cambios de vuelo de ltimo momento y por mascotas que viajan en la
cabina. Sin embargo, aun estn muy preocupadas por el servicio que ofrecen. Hace poco un grupo
de cuatro aerolneas (se emplean nombres histricos por motivos confidenciales) contrat a una
empresa llamada Marketing Research, Inc., para encuestar a sus pasajeros sobre la adquisicin
de boletos, abordaje, servicio durante el vuelo, manejo del equipaje, comunicacin del piloto,
etc. Hicieron 25 preguntas con diversas respuestas posibles: excelente, bueno, regular o
deficiente. Una respuesta de excelente tiene una calificacin de 4, bueno 3, regular 2 y deficiente
1. Estas respuestas se sumaron, de modo que la calificacin final fue una indicacin de la
satisfaccin con el vuelo. Entre mayor la calificacin, mayor el nivel de satisfaccin con el servicio.
La calificacin mayor posible fue 100.
Marketing Research seleccion y estudio al azar pasajeros de las cuatro aerolneas. A
continuacin, se muestra la informacin. Hay alguna diferencia en el nivel de satisfaccin medio
entre las cuatro aerolneas? Use el nivel de significancia del 1 %.
85 77 76 72
80 83 78 65
88 80 74
68 65
65
Paso 1: Formule las hiptesis nula y alternativa. La hiptesis nula es que las calificaciones medias
son iguales para las cuatro aerolneas.
H0: 1 = 2 = 3 = 4
H1: 1 2 3 4
La hiptesis alternativa tambin se considera como al menos dos calificaciones medias no son
iguales. Si no se rechaza la hiptesis nula, se concluye que no hay una diferencia en las
calificaciones medias para las cuatro aerolneas. Si rechaza H0, concluye que hay una diferencia
en al menos un par de calificaciones medias, pero en este punto no se sabe cul par o cuantos
pares difieren.
Paso 4: Formule la regla de decisin. Para determinar la regla de decisin, necesita el valor crtico.
El valor crtico para el estadstico F se determina mediante la tabla F = 1 %. Para utilizar esta tabla
necesita conocer los grados de libertad en el numerador y el denominador. Los grados de libertad
en el numerador son iguales al nmero de tratamientos, designado k, menos 1. Los grados de
libertad en el denominador son el nmero total de observaciones, n, menos el nmero de
tratamientos. Para este ejemplo hay cuatro tratamientos y un total de 22 observaciones.
11/18
Estadstica Inferencial
Ing. Ramn Rincones
Paso 5: Seleccione la muestra, realice los clculos y tome una decisin. Es conveniente resumir
los clculos del estadstico F en una tabla ANOVA. El formato para una tabla ANOVA es como
sigue. En los paquetes de software estadstico tambin se emplea este formato.
Cuadro 1: ANOVA
Cuadro de ANOVA (ANAVAR)
Fuente de Suma de Grados de Media Cuadrtica Fcal
Variacin Cuadrados Libertad
Tratamientos SCT k-1 SCT / (k-1) = MCT MCT / MCE
Error SCE n-k SCE / (n-k) = MCE
Existen tres valores, la Suma de los Cuadrados (SC) que se utiliza para calcular F. Es posible
encontrar estos valores determinado el total la suma de los cuadrados y la suma cuadrtica de
los tratamientos; y luego encontrar la suma de los cuadrados de los errores mediante una resta.
El trmino del total de la suma de los cuadrados se encuentra en la variacin total; la suma de los
cuadrados de los tratamientos es la variacin que se debe stos; y la suma de los cuadrados de
los errores es la variacin dentro de cada tratamiento. Para encontrar el valor de F, se trabaja en
el cuadro de ANOVA.
Los grados de libertad para el numerador y el denominador son los mismos que para
encontrar los valores crticos de F (valores tabulados de F).
Por general, el proceso se comienza encontrando la suma total de los cuadrados de las
diferencias entre cada observacin y la media global. La frmula para encontrar la SUMA TOTAL
DE CUADRADOS (SCT):
SCTotal = X2 (X)2 / n
Donde:
12/18
Estadstica Inferencial
Ing. Ramn Rincones
Una vez elaborado este cuadro 2, no es necesario hacerlo si Ud. el diestro con la calculadora. Sin
embargo, lo recomiendo, para facilitar los clculos y evitar equivocaciones y errores numricos.
Ahora se procede calcular las variables necesarias para completar el cuadro de ANOVA y
eventualmente determinas Fcal
13/18
Estadstica Inferencial
Ing. Ramn Rincones
Procedimiento:
Primero: La Variacin Total
SCT = (TC2/nc) - (X)2/n = (3492/4) + (3912/5) + (5102/7) + (4142/6) (16642 /22) = 890,68
Cuadro 3: Resultados
Cuadro de ANOVA (ANAVAR)
Fuente de Suma de Grados de Media Cuadrtica Fcal
Variacin Cuadrados Libertad
Tratamientos SCT k-1 SCT / (k-1) = MCT MCT / MCE
Error SCE n-k SCE / (n-k) = MCE
Nota:
k = 4; n = 22; GLnumerador = k-1 = 4 1 = 3; GLdenominador = n 1 = 22 4 = 18
Conclusin:
El valor calculado de F es 8.99, el cual es mayor que el valor critico de 5.09, por tanto, la
hiptesis nula se rechaza, para un nivel de significancia del 1 % y tres grados de libertad para el
numerador y 18 grados de libertad para el denominador. La conclusin es que no todas las
medias poblacionales son iguales.
Interpretacin:
14/18
Estadstica Inferencial
Ing. Ramn Rincones
Las calificaciones medias no son iguales para las cuatro aerolneas. Es probable que las
calificaciones de los pasajeros se relacionen con una aerolnea particular. En este punto solo es
posible concluir que hay una diferencia en las medias del tratamiento. No se puede determinar
cules ni cuantos grupos de tratamientos difieren.
Tarea:
Clean es un nuevo limpiador multiusos a prueba en el mercado, y se han colocado
exhibidores en tres lugares distintos dentro de varios supermercados. A continuacin, se reporta
la cantidad de botellas de 12 onzas vendida en cada lugar del supermercado.
Con un nivel de significancia de 0,05, hay alguna diferencia en el nmero medio de botellas
vendido en los tres lugares?
Respuesta:
15/18
Estadstica Inferencial
Ing. Ramn Rincones
16/18
Estadstica Inferencial
Ing. Ramn Rincones
17/18
Estadstica Inferencial
Ing. Ramn Rincones
REFERENCIAS
Johnson, R y Kuby, P. (2008). Estadstica Elemental. 10ma edicin. Cengage Learnig. Mxico.
18/18
Estadstica Inferencial
Ing. Ramn Rincones
Lind, D, y otros (2008). Estadstica aplicada a los negocios y la economa. 13ma. Edicin. McGraw-
Hill Interamericana, Mxico.
Levin, R. y Rubn, D. (2004) Estadsticas para administracin y economa. 7ma edicin. Pearson
Educacin. Mxico.
19/18