Вы находитесь на странице: 1из 47

EXPERIMENTOS CON UN SOLO FACTOR: EL

ANLISIS DE VARIANZA

PROF. ZORITZA BRAVO


Mayo, 2009

Bibliografa recomendada

Mayo, 2009

Notacin

Mayo, 2009

Introduccin
Este modelo es el ms sencillo del diseo de experimentos,
en el cual la variable respuesta puede depender de la
influencia de un nico factor, de forma que el resto de las
causas de variacin se engloban en el error experimental
Se supone que el experimento ha sido aleatorizado por
completo, es decir, todas las unidades experimentales
han sido asignadas al azar a los tratamientos
Existen dos tipos de modelos: el de
efectos fijos y el de efectos aleatorios

Mayo, 2009

Efectos fijos y aleatorios


I. Los niveles del factor se seleccionan de
modo especfico por el experimentador.
Esto constituye el llamado modelo de
efectos fijos.
II. Los niveles de un factor son una muestra
aleatoria de una poblacin mayor de
tratamientos. Esto es el modelo de efectos
aleatorios.

Mayo, 2009

Ejemplos
Una firma comercial desea conocer la influencia que tiene
el nivel cultural de las familias en el xito de una campaa
publicitaria sobre cierto producto. Para ello, aprovecha los
resultados de una encuesta anterior clasificando las
respuestas en tantos grupos como niveles culturales ha
establecido.
Un
Un solo
solo factor
factor,, ya
ya que
que la
la firma
firma slo
slo
est
est interesada
interesada en
en averiguar
averiguar si
si los
los
distintos
distintos niveles
niveles culturales
culturales influyen
influyen oo
no
no de
de la
la misma
misma manera
manera sobre
sobre las
las
ventas,
ventas, no
no importndole
importndole la
la influencia
influencia
del
del resto
resto de
de los
los factores
factores que
que pueden
pueden
inducir
inducir aa una
una mayor
mayor oo menor
menor
tendencia
tendencia aa la
la compra
compra
Mayo, 2009

Diseo
Diseode
de
efectos
efectosfijos
fijos

Modelo de efectos fijos


Y: variable respuesta
Consideramos a poblaciones diferentes y comparamos la
respuesta a un tratamiento, o nico nivel de un factor.
En la poblacin i-sima (i = 1, . . . , a) se toman ni
observaciones.
La respuesta se cuantifica mediante yij , donde i = 1, . . . , a
se refiere a la poblacin en estudio y j = 1, . . . , ni se refiere
a la observacin j -sima.
Mayo, 2009

Modelo de efectos fijos


Y: variable respuesta

Consideramos ahora un factor con a niveles, es decir, en


total a tratamientos, y una nica poblacin.
Se observa la respuesta yij del tratamiento i-simo a ni
observaciones de la poblacin.

Mayo, 2009

Modelo de efectos fijos

El
Elvalor
valormedio
medio
de
Y,
de Y,la
la
variable
variable
respuesta,
respuesta,en
en
la
poblacin
la poblacinoo
nivel
niveli-simo
i-simo

Error
Erroraleatorio
aleatorio

Mayo, 2009

Modelo de efectos fijos


Alternativamente, se puede expresar de esta manera:

suponiendo grupos de igual tamao

Mayo, 2009

10

Modelo de efectos fijos

ij
es el error
aleatorio,
tal que
ij N (0, 2)
independientes
entre s,
E [ ij ] = 0 y
Var [ ij ] = 2

Mayo, 2009

11

Modelo de efectos fijos


Se supone, adems, que las unidades experimentales
estn en un ambiente uniforme, lo cual lleva a un diseo
completamente aleatorizado.
En el modelo de efectos fijos, los efectos de los
tratamientos i se definen como desviaciones respecto a la
media general, por lo que:

Mayo, 2009

12

Modelo de efectos fijos


Esperanza del
tratamiento i

Prueba de Hiptesis

Mayo, 2009

13

Modelo de efectos fijos

yi yij

y i yi / n, i 1,..., a

i 1
a

y yij

y y / N , N an

i 1 j 1

Mayo, 2009

14

Descomposicin de la suma de cuadrados total


La idea es descubrir cmo se reparte la variabilidad total
de la muestra. Una posible medida de variabilidad total
es la suma de cuadrados, denominada total, o suma
total de cuadrados corregida:

Mayo, 2009

15

Grados de libertad
Se tiene un total de an observaciones y a tratamientos
SCT tiene (an 1) grados de libertad.
SCTra tiene (a 1) grados de libertad.
SCE tiene a(n1) grados de libertad, porque hay n
rplicas dentro de cada tratamiento, es decir, se tienen
(n1) grados de libertad para estimar el error experimental.
Al tener a tratamientos, se tiene un total de a(n 1) grados
de libertad.

Mayo, 2009

16

Estimadores de la varianza

Si el trmino entre parntesis se divide entre n1, se


obtiene la varianza del tratamiento i

Mayo, 2009

17

Estimadores de la varianza
Se puede estimar la varianza poblacional combinando
dichas varianzas por grupos:

Si no hay diferencias entre los a


tratamientos, se puede estimar la
varianza poblacional 2 como
Mayo, 2009

18

Estimadores de la varianza
Se dispone, as de dos posibles estimadores de 2

Cuando no existen diferencias entre las medias


de los tratamientos, las estimaciones deben ser
similares.

Mayo, 2009

19

Estimadores de la varianza
Si consideramos las medias de cuadrados anteriores,
entonces, se puede demostrar, sustituyendo, que

De este modo, si para algn i 0,


entonces E(MCTra) > 2

Mayo, 2009

20

Anlisis estadstico
Cmo llevamos a cabo una prueba de hiptesis?

No hay
diferencia en las
medias
de los
tratamientos

Mayo, 2009

21

Anlisis estadstico
Como los errores ij se distribuyen independientemente entre s,
segn una N(0, ), entonces

Fisher

Aplicando
el
teorema
de
Cochran, se tiene que SSE/2 y
SSTra/2 son independientes,
por lo que si i = 0, i
Se distribuye como una F de
Snedecor, Fa1,Na
Mayo, 2009

22

Anlisis estadstico
Si algn i 0, entonces E(MSTra) > 2
entonces el valor del estadstico F 0 es
mayor, obtenindose una regin crtica
superior, de modo que se rechaza, a nivel ,
la hiptesis nula de igualdad de
tratamientos, si

Mayo, 2009

23

Tabla ANOVA

Se rechaza H0 a nivel cuando


F0 > F,a1,Na
Mayo, 2009

24

Estimacin de los parmetros


donde i = 1, . . . , a; j = 1, . . . , n, se
pueden estimar los parmetros y i
por el mtodo de los Mnimos
Cuadrados.
Suma de los
cuadrados de
los errores

Mayo, 2009

25

Intervalos de confianza
Si se asume que los errores estn distribuidos segn una
normal, entonces cada
De este modo, cuando 2 es desconocida un intervalo de
confianza al 100(1)% es

Intervalo de confianza para la media i del


tratamiento i-simo
Mayo, 2009

26

Intervalos de confianza

Intervalo de confianza para la diferencia


en las medias de dos tratamientos
cualesquiera i - j

Mayo, 2009

27

Ejemplo
Un ingeniero de desarrollo de productos est interesado en
maximizar la resistencia a la tensin de una nueva fibra
sinttica que se emplear en la manufactura de tela para
camisas de hombre. El ingeniero sabe por experiencia que la
resistencia
est influida por el porcentaje de algodn
presente en la fibra. Adems, sospecha que el contenido de
algodn debe estar aproximadamente entre un 10 y 40% para
que la tela resultante tenga otras caractersticas de calidad
que se desean (como la capacidad de recibir un tratamiento
de planchado permanente).

Mayo, 2009

28

Ejemplo
El ingeniero decide probar muestras a cinco niveles de
porcentaje de algodn: 15, 20, 25, 30 y 35%. Asimismo,
decide ensayar cinco muestras a cada nivel de contenido de
algodn. Las 25 observaciones deben asignarse al azar.
Para ilustrar la forma en que puede aleatorizarse el orden de
ejecucin, supngase que las observaciones se numeran
como sigue:

Mayo, 2009

29

Ejemplo
Ahora se elige al azar un nmero entre 1 y 25.
Supongamos que es el 8, entonces la observacin 8a se
ejecuta primero (es decir, a un 20% de algodn). A
continuacin se elige un nmero al azar entre 1 y 25,
quitando el 8. Supongamos que es el 4, entonces la
observacin 4a se ejecuta en segundo lugar (a un 15% de
algodn). Se repite el proceso hasta completar las 25
observaciones.
Esta secuencia de prueba aleatorizada es necesaria para
evitar que los resultados se contaminen por los efectos de
variables desconocidas que pueden salir de control durante
el experimento.
Mayo, 2009

30

Ejemplo

Mayo, 2009

31

15
10

Observaciones

20

25

Ejemplo

15

20

25

30

35

La grfica indica que la


resistencia a la tensin
aumenta con el contenido de
algodn hasta el 30%
Ms all del 30% ocurre un
notable decrecimiento en la
resistencia
La falta de traslape de las
cajas sugiere una diferencia
significativa entre los
contenidos medios de las
resistencias entre los grupos
Usando un 30% de algodn
parece que se fabrican las
mejores fibras, es decir, las
de mayor fortaleza

Porcentaje de algodn

Mayo, 2009

32

Ejemplo

Mayo, 2009

33

Hiptesis del modelo


Normalidad: ij sigue una distribucin normal
E(ij) = 0
Homocedasticidad: Var(ij) = 2
Independencia: ij son independientes entre s

Mayo, 2009

34

Metodologa
I. Estimar los parmetros del modelo.
II. Contrastar si el factor influye en la respuesta,
es decir, si los valores medios de Y son
diferentes al cambiar el nivel del factor.
III. Si el factor influye en la variable respuesta, es
decir, las medias no son iguales, buscar las
diferencias entre poblaciones (o niveles del
factor).
IV. Diagnosis del modelo: comprobar si las
hiptesis del modelo son ciertas mediante el
anlisis de los residuos.
Mayo, 2009

35

Estimacin de los parmetros


En este ejemplo, a = 5, ni = 5 y N = 25. Las
estimaciones puntuales de los parmetros son las
siguientes:

mean(resistencia[porcentaje==15])

Mayo, 2009

36

Anlisis de varianza

mode1=aov(resistencia~porcentaje)
summary(mode1)

porcentaje
Residuals

Df Sum Sq Mean Sq
4 475.76 118.94
20 161.20
8.06

F value Pr(>F)
14.757 9.128e06***

--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '
1

Mayo, 2009

37

Anlisis de varianza

qf(0.95, 4, 20)=2,8661

Por lo tanto,
rechazamos H0 a los
niveles anteriores y
concluimos que hay
diferencias entre
los tratamientos.

Regin de
rechazo

Mayo, 2009

38

Diagnosis del modelo


eij yij $
y ij

$
$i y y y y
y ij

dij

eij
MCE

par(mfrow=c(1,3),oma=c(1,1,1,1))
hist(rstandard(mode1),main='Histograma de los residuos
estandarizados',col="gray60")
boxplot(rstandard(mode1),main="Diagrama de cajas de los
residuos",col='gray')
qqnorm(rstandard(mode1), main='Grfica de probabilidad
normal de los residuos')
qqline(rstandard(mode1))
title("Chequeando normalidad de los residuos",outer=TRUE)

Mayo, 2009

39

Diagnosis del modelo: Normalidad


Chequeando normalidad de los residuos
Grfica de probabilidad normal de los residuos

1.5
1.0
0.5

-1.0

-1.0
-1.5

-0.5

0.0

Sample Quantiles

0.5
-1

-1.5

-0.5

0.0

4
2
0

Frequency

1.0

1.5

2.0

Diagrama de cajas de los residuos


2.0

Histograma de los residuos estandarizados

-2

rstandard(mode1)

-1

Theoretical Quantiles

Mayo, 2009

40

Diagnosis del modelo: homocedasticidad

1.5
1.0
0.5
-1.5

-1.0

-0.5

0.0

rstandard(mode1)

0.5
0.0
-0.5
-1.0
-1.5

rstandard(mode1)

1.0

1.5

2.0

Residuos versus valores ajustados

2.0

Diagrama de los residuos

10

15

20

25

Index

10

12

14

16

18

20

22

mode1$fitted

Mayo, 2009

41

Diagnosis del modelo: independencia

0.5
0.0
-0.5
-1.0
-1.5

rstandard(mode1)

1.0

1.5

2.0

Residuos contra el tiempo

10

15

20

25

Index

Mayo, 2009

42

Comparaciones entre medias


Una vez obtenidas diferencias significativas entre los
tratamientos, conviene estudiar por qu se rechaza la
igualdad entre medias, comparando todos los pares de
medias, porque puede ser que se rechace la igualdad de
medias porque haya un par de medias diferentes entre s.
Se considera, entonces, los siguientes contrastes:

Mayo, 2009

43

Diferencia significativa mnima


LSD de Fisher (Least significant difference)
Bajo la hiptesis
nula

Diferencia
significativa mnima

Mayo, 2009

44

Mtodo de Bonferroni
En este criterio se rechaza i = j (i j) si

donde p es el nmero de comparaciones que se pueden


obtener

Mayo, 2009

45

Distribucin de recorrido estudentizada

Independientes

se distribuye con una distribucin de recorrido


estudentizado de parmetros a y m.

Mayo, 2009

46

Mtodo de Tuckey
Se requiere que ni = n, i = 1, . . . , a.
Si esto no se cumple, entonces se toma n = mini{ni}

pairwise.t.test(resistencia,porcentaje,p.adjust.method='none')
pairwise.t.test(resistencia,porcentaje,p.adjust.method=bonferroni')
TukeyHSD(aov(resistencia~porcentaje))
Mayo, 2009

47

Вам также может понравиться