Вы находитесь на странице: 1из 26

Capítulo 1

Prácticas y problemas de diseño


de experimentos.

1.1. Problemas de diseño de experimentos con ordenador.


Problema 3.1. Datos apareados.
“El Ministerio de Trabajo desea saber si un plan de seguridad en el trabajo es efectivo
en la reducción del número de accidentes laborables y por tanto en la pérdida de horas de
trabajo debido a accidentes. Para ello se hace un seguimiento en 16 fábricas, observando las
horas de trabajo semanales pérdidas a causa de accidentes, antes y después de implantar
el plan de seguridad. Los datos obtenidos son los de la tabla adjunta. Analizar estos datos
y obtener conclusiones acerca del problema planteado”.

Fábrica 1 2 3 4 5 6 7 8
Antes 55 63 90 47 75 90 73 92
Después 52 60 85 49 65 87 67 85
Fábrica 9 10 11 12 13 14 15 16
Antes 110 33 44 74 60 87 41 15
Después 95 35 47 70 55 75 45 18

Desarrollo del Problema 3.1.


Este problema puede resolverse por dos métodos distintos pero equivalentes que llevan
a las mismas conclusiones.
En primer lugar y dado que el factor-tratamiento (plan de seguridad ) solo tiene dos
niveles (antes y después de implantar el plan) se puede considerar como un problema de
datos apareados. Se calcula la variable diferencia

Ydif = Yantes Ydespues ;

y se contrasta la hipótesis de que E (Ydif ) = 0:

1
2 Modelos estadísticos aplicados. Juan Vilar

Con el Statgraphics se utiliza el siguiente módulo

comparacion > dos muestras > comparacion de muestras pareadas

Una vez introducidas las variables Yantes e Ydespues ; el módulo proporciona resultados
analíticos y grá…cos acerca de la variable diferencia Ydif . Utilizando el test de la t respecto
a la media de una muestra resuelve el contraste H0 : E (Ydif ) = 0:
¿Utilizando directamente los datos de la tabla podría resolverse el problema contras-
tando la hipótesis H0 : E (Yantes ) = E (Ydespues ) ; frente a la alternativa de que las medias
son diferentes?
Si se quiere resolver el problema de esta forma ¿cómo se debe recoger la muestra?,
¿los resultados obtenidos por ambos procedimientos son iguales?, ¿cuál de los dos proce-
dimientos es mejor?
La resolución del problema también puede hacerse por una tabla ANOVA de un modelo
de diseño de experimentos con un factor tratamiento (plan de seguridad ) y un factor-bloque
(fábrica). Se siguen los siguientes pasos:

1. Con los datos del problema se crean tres variables de 32 observaciones:


? la variable respuesta Y;
? el factor (plan de seguridad ) con dos niveles (antes y después),
? el factor bloque “fábrica” con 16 niveles.

2. Se utiliza el siguiente módulo


comparacion > analisis de la varianza > anova factorial
sin interacción (máximo orden de interacción=1).
Este módulo proporciona un amplio estudio analítico y grá…co para responder al
problema planteado. ¿Cómo son el p valor del test de la t utilizado en la técnica
de datos apareados y el p valor del test de la F utilizado en la técnica de la tabla
ANOVA?
¿Es in‡uyente la variable bloque “fábrica”? En consecuencia ¿es adecuada la recogida
muestral para la resolución del problema?

3. Finalmente se contrastan las hipótesis básicas estructurales utilizando las técnicas


expuestas en el capítulo anterior.

Problema 3.2. (Diseño de experimentos en bloques completamente aleato-


rizados)
“Se ha realizado un diseño de experimentos para estudiar la calidad de las soldaduras,
el objetivo es determinar si existen diferencias entre las soldaduras según el elemento de
soldadura que se utilice entre tres posibles: níquel, hierro o cobre. Como pueden haber
Prácticas y problemas de diseño de experimentos. 3

diferencias signi…cativas entre los elementos a soldar se ha utilizado un diseño de bloques


completamente aleatorizados. Para ello se han utilizado diez lingotes (bloques) y de cada
uno de ellos se han soldado dos componentes utilizando los tres tipos de soldadura. Final-
mente se mide la fuerza (expresada en 100 libras por pulgada cuadrada) necesaria para
romper la soldadura. Los resultados obtenidos son los de la tabla adjunta. En base a estos
datos estudiar la in‡uencia de factor “tipo de soldadura”, ¿cambian los resultados si no se
tiene en cuenta el bloque “lingote”? ”.

B1 B2 B3 B4 B5 B6 B7 B8 B9 B10
Níquel 760 0 660 3 680 9 740 7 730 0 720 7 800 0 830 6 610 2 620 6
Cobre 710 6 740 1 700 7 750 4 660 7 650 0 700 8 760 2 660 0 720 0
Hierro 760 4 730 4 690 7 740 7 600 2 610 2 710 7 570 0 580 5 660 3

Desarrollo del Problema 3.2.


Se utiliza el siguiente módulo

comparacion > analisis de la varianza > anova factorial

En este módulo al introducir como variable dependiente “resistencia”y los dos factores:
el factor-tratamiento tipo de soldadura y el factor-bloque lingote, se obtiene un completo
análisis de la varianza que comprende:
- la tabla ANOVA que permite contrastar la in‡uencia de los dos factores;
- la tabla de medias que calcula la media de cada nivel de cada uno de los factores, así
como intervalos de con…anza para las mismas;
- el test de rangos múltiples que permite obtener los grupos homogéneos en ambos
factores y las diferencias signi…cativas entre las medias de dos niveles de un factor, se
pueden utilizar diferentes métodos (LSD, Sche¤é, Tuckey,.. ).
El estudio grá…co que ofrece el módulo es bastante completo:
- el grá…co de puntos y el de medias permiten con…rmar gra…camente las conclusiones
que se deducen de la tabla ANOVA,
- los tres grá…cos de residuos permiten tener idea aproximada acerca del cumplimiento
de las hipótesis básicas del modelo,
- si en el módulo de opciones de analisis se eligen “interacciones de orden 2 ”, se
obtienen grá…cos de interacciones que pueden dar una idea aproximada acerca de la posible
existencia o no de interacciones.
También se puede calcular el l test de Tuckey sobre la no existencia de interacción
aunque con un mayor trabajo ya que el paquete no lo calcula directamente.
Como en el análisis de cualquier modelo estadístico se deben guardar los residuos y
analizar el cumplimeinto de las hipótesis básicas estructurales como se indicó en el capítulo
anterior. El estudio sobre la heterocedasticidad debe hacerse en relación a cada uno de los
dos factores.
4 Modelos estadísticos aplicados. Juan Vilar

¿Qué ocurre si no se tiene en cuenta el factor-bloque?


Se puede repetir el estudio introduciendo solamente el factor tipo de soldadura. Esto
puede hacerse en este módulo o en el siguiente

comparacion > analisis de la varianza > anova simple

Problema 3.3. (Diseño de experimentos de dos factores con interacción).


“Se desea analizar el efecto que sobre el tiempo medio de respuesta tienen dos factores:
“la distribución de los …cheros” de las que se consideran tres variantes codi…cadas como F1,
F2 y F3; y el “número de bu¤ ers del sistema”, también se consideran tres niveles: 10, 20 y
30 bu¤ers. Se ha hecho una prueba con cada una de las nueve combinaciones posibles, cada
prueba consistió en observar el sistema un día completo y calcular el tiempo de respuesta
media al compilar un programa en lenguaje C en ese período de tiempo. El experimento
se replicó tres veces. Los resultados obtenidos se presentan en la tabla adjunta. En base a
estos datos ¿existe in‡uencia de alguno de los dos factores en el tiempo de respuesta del
sistema informático?, ¿existe interacción entre ambos factores?”
B10 B20 B30 B10 B20 B30 B10 B20 B30
20 7 20 0 10 8 20 9 20 7 20 2 30 7 20 9 30 5
F1 20 4 20 2 10 5 F2 30 4 20 4 10 9 F3 30 4 30 4 30 4
20 3 10 9 10 6 30 3 20 5 20 3 30 9 30 3 30 8

Desarrollo del Problema 3.3.


El desarrollo de este problema es análogo al anterior, se utiliza el análisis

comparacion > analisis de la varianza > anova factorial

? Se introduce la variable dependiente “tiempo”y los dos factores “…chero”y “bu¤ ers”.
? En un primer estudio conviene introducir el factor “réplica” que indica el orden en
el que se repitió el experimento y se estudia el modelo de tres factores sin replicación. Si
el modelo se ha replicado correctamente la tabla ANOVA indicará que el factor “réplica”
no in‡uye.
? En este caso se deshecha el factor “réplica” y se repite el estudio considerando el
modelo de dos factores e interacción entre los dos factores (interacción de orden 2). Se
obtienen conclusiones según los resultados obtenidos.
? Se …naliza con el análisis de residuos.

Problema 3.4. (Diseño de experimentos en cuadrado latino).


“Se quiere estudiar la e…cacia de cuatro fármacos diferentes (F1, F2, F3 y F4) en el
tratamiento de una enfermedad. Para ello se observa el número de días que tardan en
curar enfermos tratados con estos fármacos. Se considera que el factor edad y el factor
peso pueden in‡uir en el experimento, por ello se controlan estos factores y se consideran
cuatro niveles de edad (E1, E2, E3 y E4) y cuatro de peso (P1, P2, P3 y P4). Los resultados
del experimento diseñado según la técnica del cuadrado latino son los de la tabla adjunta.
¿Qué conclusiones se deducen del experimento?”
Prácticas y problemas de diseño de experimentos. 5

E1 E2 E3 E4
P1 10 F1 90 5 F2 7 F4 110 5F3
P2 8 F2 10 F1 80 5 F3 9 F4
P3 7 F3 60 5 F4 7 F1 8 F2
P4 6 F4 5 F3 6 F2 9 F1
Desarrollo del Problema 3.4.
Se deben introducir los datos de forma correcta en el …chero, una vez realizado ésto,
se utiliza el análisis anterior, siendo la variable respuesta “tiempo” y los tres factores
“peso”, “edad ” y “fármaco”. Al calcular la tabla ANOVA si alguno de los factores no es
signi…cativo se elimina del modelo y se calcula la nueva tabla ANOVA.

1.2. Problemas resueltos de diseño de experimentos.


Problema 3.5. (Diseño de experimentos con bloques completamente alea-
torizados)
“El servicio bibliotecario de una universidad está interesado en un programa para
gestionar la localización de un libro en la base de datos. Le ofrecen cinco programas para
tal …n: P1, P2, P3, P4, P5. En la universidad se dispone de cuatro tipos de ordenadores
y se desea saber si el tiempo de respuesta de los cinco programas ofertados es el mismo.
Para ello se diseña el siguiente experimento: se eligen diez libros al azar y se localizan
utilizando los cinco programas y los cuatro tipos de ordenadores. Los tiempos medio de
respuesta (en segundos) en cada caso son los de la tabla adjunta.”
Prog.1 Prog.2 Prog.3 Prog.4 Prog.5
Ord.1 10 3 10 6 00 5 10 2 10 1
Ord.2 20 2 20 4 00 4 20 0 10 8
Ord.3 10 8 10 7 00 6 10 5 10 3
Ord.4 30 9 40 4 20 0 40 1 30 4

Solución al Problema 3.5.


Cálculo de las medias condicionadas (según programa y según ordenador )

Prog.1 Prog.2 Prog.3 Prog.4 Prog.5 yi ^i


Ord.1 10 3 10 6 00 5 10 2 10 1 10 14 00 82
Ord.2 20 2 20 4 00 4 20 0 10 8 10 76 00 20
Ord.3 10 8 10 7 00 6 10 5 10 3 10 38 00 58
Ord.4 30 9 40 4 20 0 40 1 30 4 30 56 +10 60
P
yj 20 3 20 525 00 875 20 2 10 9 y = 10 96 ^i = 0
^ P^
j 00 340 00 565 10 085 00 240 00 060 j =0
6 Modelos estadísticos aplicados. Juan Vilar

Siendo ^ i = yi y y ^ j = y j y
Factor …la ( ) = Factor-bloque ordenador, i = 1; 2; 3; 4:
Factor columna ( ) = Factor-tratamiento programa, j = 1; 2; 3; 4; 5:
Las predicciones de cada tratamiento (casilla) se calculan utilizando
y^ij = ^ + ^ i + ^ j = yi + y j y ;
se obtiene
Predicciones Prog.1 Prog.2 Prog.3 Prog.4 Prog.5
Ord.1 10 48 10 705 00 055 10 38 10 08
Ord.2 20 10 20 325 00 675 20 00 10 70
Ord.3 10 72 10 945 00 295 10 62 10 32
Ord.4 30 90 40 125 20 475 30 80 30 50
A partir de esta tabla se calculan los residuos
eij = yij y^ij ;
obteniendo la siguiente tabla de residuos
Residuos Prog.1 Prog.2 Prog.3 Prog.4 Prog.5
Ord.1 00 18 00 105 00 455 00 18 00 02
Ord.2 00 10 00 075 00 275 00 00 00 10
Ord.3 00 08 00 245 00 305 00 12 00 02
Ord.4 00 00 00 275 00 475 00 30 00 10
Observar que la suma de los residuos de cada …la y de cada columna es cero.

Cálculo de las sumas de cuadrados:


4
X
scT ( ) = scT (ordenador ) = 5 ^ 2i
i=1
= 5 0 82 + 0 20 + 0 58 + 10 602 = 180 044:
0 2 0 2 0 2

5
X
scT ( ) = scT (programa) = 4 ^ 2
j
j=1

= 4 0 34 + 0 565 + 1 085 + 00 242 + 00 062 = 60 693:


0 2 0 2 0 2

De donde
scT = scT ( ) + scT ( ) = 180 044 + 60 693 = 240 737:
La variabilidad total es
4 X
X 5
scG = (yij y )2
i=1 j=1
2 2 2 2
= 10 3 10 96 + 10 6 10 96 + : : : + 40 1 10 96 + 30 4 10 96
= 250 688:
Prácticas y problemas de diseño de experimentos. 7

Una forma alternativa de calcular la variabilidad total (scG) es la siguiente

1X X 2
scG = ns2Y = n y y2
n i j ij
0 1
X 4 X5
= @ 2A
yij 20 10 962 :
i=1 j=1

La suma de residuos al cuadrado se obtiene como

scR = scG scT = 250 688 240 737 = 00 951:

El valor de scR también se puede calcular directamente


4 X
X 5
scR = e2ij = 00 182 + 00 1052 + : : : + 00 302 + 00 102 = 00 951
i=1 j=1

La Tabla ANOVA que se obtiene es la siguiente

Tabla ANOVA
Efecto Sum cuad. g.l. Varianza estadíst. F p-valor
scT ( ) : ordenador. 180 044 3 s^2 = 60 015 F^ = 750 89 00 000
scT ( ): programa. 60 693 4 s^2 = 10 673 F^ = 210 11 00 000
scT 240 737 7
scR 0 951 12 s^2R = 00 079
0

scG 250 688 19 s^2Y = 10 352

Contrastes que se deducen de esta tabla son los siguientes:

Sobre la in‡uencia del factor-tratamiento programa


(1)
H0 : “el factor-tratamiento programa no in‡uye”: i = 0; j = 1; : : : ; 5:

s^2 10 673
F^ = = = 210 11 F4;12 ? ) p val = 00 000:
s^2R 00 079
Se rechaza la hipótesis nula de no in‡uencia del factor programa.

Sobre la in‡uencia del factor-bloque ordenador.


(2)
H0 : “el factor-bloque ordenador no in‡uye”: i = 0; i = 1; : : : ; 4:

s^2 60 015
F^ = 2 = 0 = 750 89 F3;12 ? ) p val = 00 000:
s^R 0 079
Se rechaza la hipótesis nula de no in‡uencia del factor ordenador. Ha sido conve-
niente bloquear.
8 Modelos estadísticos aplicados. Juan Vilar

Coe…cientes de determinación.
- Porcentaje de variabilidad explicada por el factor-tratamiento programa

scT ( ) 180 044


R2 ( ) = = 0 = 00 70243 ) 700 243 %:
scG 25 688

- Porcentaje de variabilidad explicada por el factor-bloque ordenador

scT ( ) 60 693
R2 ( ) = = 0 = 00 26055 ) 260 055 %:
scG 25 688
- Porcentaje de variabilidad explicada por el modelo

scT
R2 = R2 ( ) + R2 ( ) = = 00 96298 ) 960 298 %:
scG
Si no tiene en cuenta el factor-bloque ordenador se obtiene la siguiente tabla ANOVA
que se deduce de la anterior

Tabla ANOVA con sólo el factor-tratamiento programa ( )


Efecto Sum cuad. g.l. Varianza estadíst. F p-valor
scT ( ): programa. 0
6 693 2 0
4 s^ = 1 673 F^ = 10 32 00 307
scR 180 995 15 s^2R = 10 266
scG 250 688 19 s^2Y = 10 352

Tener en cuenta que si no utiliza el factor-bloque ordenador, el diseño de experimentos


es otro y la muestra recogida diferente. En cualquier caso los resultados del análisis no
deberían variar mucho respecto a los aquí obtenidos.
Al hacer el contraste

(1)
H0 : “el factor programa no in‡uye”: i = 0; j = 1; : : : ; 5;

se obtiene

s^2 10 673
F^ = = = 10 32 2 F4;15 ? ) p val = 00 307
s^2R 10 266
Se acepta la hipótesis nula de no in‡uencia del factor programa, en contradicción con
lo obtenido anteriormente.
A la vista de lo obtenido en este problema, es fundamental controlar los factores
in‡uyentes en la variable respuesta.

Las siguientes grá…cas permiten examinar las hipótesis básicas del modelo:
En la Figura 3.1. se observa el grá…co de residuos frente a predicciones.
En las Figuras 3.2. y 3.3. se presentan los grá…cos de interacciones por cada uno de los
dos factores. De ellos se deduce la no existencia de interacción entre ambos factores.
Prácticas y problemas de diseño de experimentos. 9

Figura 3.1. Grá…co de residuos.

Figura 3.2. Grá…co de interacción respecto a programa.

Figura 3.3. Grá…co de interacción respecto a ordenador.


10 Modelos estadísticos aplicados. Juan Vilar

Intervalos de con…anza al 90 % para los parámetros del modelo.

Intervalo de con…anza para la varianza, 2;

(I 1) (J 1) s^2R 2 3 4 00 079 2
2 (I 1)(J 1) ) 2 12

3 4 00 079
50 226 = 2
12 00 05 2
2
12 00 95 = 210 026

00 948 00 948
= 00 045 2
00 181 =
210 026 50 226
Intervalo de con…anza para los efectos (ordenador). Se hace para 2 :
r
2I 1 2 ^2 n
^2 N 2; ) t(I 1)(J 1)
n s^R I 1
r
2 ( 00 82) 20
) t12
00 079 3
r
0 0 2 ( 00 82) 20
) 1 78 = t12 0 95 t12 00 95 = 10 78
00 079 3

10 78
) 2 2 00 82 = 00 82 00 054 = 00 874; 00 766 :
320 68
Intervalo de con…anza para los efectos (programa). Se hace para 3 :
^ r n
^ 2J 1 3 3
3 N 3; ) t(I 1)(J 1)
n s^R J 1
r
( 1 0 085) 20
3
) 0
t12
0 079 4
r
( 1 0 085) 20
3
) 10 78 = t12 00 95 0
t12 00 95 = 10 78
0 079 4

) 3 2 10 085 00 063 = 10 148; 10 022 :

Intervalos de con…anza para la diferencia de medias. Se hace para 1 3:


r r
(y 1 y 3 ) ( 1 3) I 10 425 ( 1 3) 4
t(I 1)(J 1) ) 0
t12
s^R 2 0 079 2
r
0 10 425 ( 1 3) 4
1 78 0
10 78
0 079 2

( 1 3) 2 10 425 00 099 = (10 326; 10 524):


Prácticas y problemas de diseño de experimentos. 11

Al calcular grupos homogéneos de los ordenadores se obtienen dos grupos:


? O1
? O3 - O2 -O4
La existencia de estos grupos se puede observar en el grá…co de medias

Figura 3.4. Grá…co de medias de los ordenadores.

Al calcular grupos homogéneos de los programas se obtienen tres grupos:


? P3 - P4
? P5 - P4
? P1 - P2
Esto se observa en el siguiente grá…co de medias de los programas.

Figura 3.5. Grá…co de medias de los programas.


12 Modelos estadísticos aplicados. Juan Vilar

Problema 3.6. (Diseño de experimentos con dos factores e interacción)


“Una empresa dedicada a la fabricación de baterías está interesada en diseñar una
batería que sea relativamente insensible a la temperatura ambiente. Para ello decide probar
con tres materiales distintos: M1, M2, y M3. Para estudiar el efecto del material y la
temperatura se diseña el siguiente experimento: utilizando baterías fabricadas con los tres
materiales se observa la duración de las baterías en horas cuando éstas trabajan a tres
niveles de temperatura: baja, media y alta. El experimento se replicaba cuatro veces y los
resultados obtenidos son los de la tabla adjunta.
Analizar estos datos y estudiar la in‡uencia de los factores material y temperatura en
el rendimiento de la batería. Conclusiones.”

Temperatura
Material Baja Media Alta
130 155 34 40 20 70
M1
74 180 80 75 82 58
150 188 136 122 25 70
M2
159 126 106 115 58 45
138 110 174 120 96 104
M3
168 160 150 139 82 60

Solución al Problema 3.6.


El modelo matemático a ajustar es el siguiente

yijk = + i + j +( )ij + "ijk

donde i es el efecto del factor material, i = 1; 2; 3 ) I = 3


j es el efecto del factor temperatura, j = 1; 2; 3 ) J = 3
( )ij es el efecto de la interacción entre ambos factores.
Para estimar estos parámetros se calculan las medias de cada casilla y las medias de
cada …la y cada columna.

Medias
yij Baja Media Alta yi
M1 1340 75 570 25 570 5 830 17
M2 1550 75 1190 75 490 5 1080 33
M3 1440 0 1450 75 850 5 1250 08
yj 1440 83 1070 58 640 17 y = 1050 53
Se calculan los parámetros del modelo utilizando

^ i = yi y ; ^ =yj
j y ; (d)ij = yij yi yj +y ;

se obtiene
Prácticas y problemas de diseño de experimentos. 13

Parámetros del modelo


(d)ij Baja Media Alta ^i
M1 120 28 270 95 150 69 220 36
M2 80 12 90 37 170 47 20 80
M3 200 38 180 62 10 78 190 55
^ 390 30 20 05 410 35
j

Se calculan las predicciones a partir de

y^ij = ^ + ^ i + ^ j + (d)ij = yij ;

se obtiene

Predicciones = Medias casilla


y^ij Baja Media Alta
0
M1 134 75 0
57 25 570 5
M2 1550 75 1190 75 490 5
M3 0 0
144 0 145 75 850 5
Los residuos se calculan como

eijk = yijk y^ij ; i; j = 1; 2; 3;

obteniendo
Residuos Baja Media Alta
40 75200 25 230 25170 25 370 5 120 5
M1
600 75 450 25 220 75 170 75 240 5 00 5
50 75 320 25 0
16 25 20 25 24 5 200 5
0
M2
30 25 290 75 130 75 40 75 80 5 40 5
60 0 340 0 280 25 250 75 100 5 180 5
M3
240 0 160 0 40 25 60 75 30 5 250 5

Observar que la suma de residuos de cada casilla vale cero.

Cálculo de las sumas de cuadrados:

scT ( ) = scT (material ) = 3 4 220 362 + 20 82 + 190 552 = 10;6830 70:

scT ( ) = scT (temperatura) = 3 4 390 32 + 20 052 + 410 352 = 39;1180 70:


0 1
120 282 + 270 972 + 150 692 +
B C
scT ( ) = scT (interacción) = 4 @ 80 122 + 90 372 + 170 472 + A = 9;6130 78:
200 382 + 180 622 + 10 782

scT = scT ( ) + scT ( ) + scT ( )


= 10;683 70 + 39;118 70 + 9;6130 78 = 59;4160 18:
0 0
14 Modelos estadísticos aplicados. Juan Vilar

3 X
X 3 X
4
scG = (yijk y )2
i=1 j=1 k=1
1X X X 2
= ns2Y = n y y2 = 77;6470 0:
n i j k ijk

scR = scG + scT = 77;6470 0 59;4160 18 = 18;2300 7:


La suma de cuadrados de residuos también se puede calcular directamente

3 X
X 3 X
4 3 X
X 3 X
4
scR = eijk = (yijk y^ij )2 =
i=1 j=1 k=1 i=1 j=1 k=1

40 752 + 200 252 + : : : + 30 52 + 250 52 =


= 18;2300 7:

Si se utiliza calculadora es más sencillo hacerlo por el método anterior.


La Tabla ANOVA que se obtiene en este problema es la siguiente:

Tabla ANOVA
Efecto Sum cuad. g.l. Varianza estadíst. F p-valor
scT ( ) 10;6830 70 2 s^2 = 5;3410 86 70 91 00 002
scT ( ) 39;1180 70 2 s^2 = 19;5590 4 280 97 00 000
scT ( ) 9;6130 78 4 s^2 = 2;4030 44 30 56 00 019
scT 59;4160 18 8
scR 18;2300 7 27 s^2R = 6750 213 s^R = 250 98
scG 77;6470 0 35 s^2Y = 2;2180 48 s^Y = 470 10
Los coe…cientes de determinación que se obtienen son
scT ( ) 10;6830 70
R2 ( ) = R2 (material ) = = = 00 1376 ) 130 76 %:
scG 77;6470 0
scT ( ) 39;1180 70
R2 ( ) = R2 (temperatura) = = = 00 5038 ) 500 38 %:
scG 77;6470 0
scT ( ) 9;6130 78
R2 ( ) = R2 (interacción) = = = 00 1238 ) 120 38 %:
scG 77;6470 0
scT 59;4160 18
R2 = = R2 ( ) + R2 ( ) + R2 ( )= = 00 7652 ) 760 52 %:
scG 77;6470 0

Contrastes que se deducen la tabla ANOVA son los siguientes:

1. Sobre la in‡uencia del factor-tratamiento material


Prácticas y problemas de diseño de experimentos. 15

(1)
H0 : “el factor no in‡uye”: i = 0; i = 1; : : : ; 3:

s^2 5;3410 86
F^ = 2 = = 70 91 F2;27 ? ) p val = 00 002:
s^R 6750 213
Se rechaza la hipótesis nula de no in‡uencia del factor material. Hecho que se observa
claramente en el grá…co de medias del factor material,

Figura 3.6. Grá…co de medias respecto a material.

Figura 3.7. Grá…co de medias respecto a la temperatura.

2. Sobre la in‡uencia del factor-tratamiento temperatura


(2)
H0 : “el factor temperatura no in‡uye”: i = 0; j = 1; : : : ; 3:

s^2 19;5590 4
F^ = = = 280 97 F2;27 ? ) p val = 00 000:
s^2R 6750 213
16 Modelos estadísticos aplicados. Juan Vilar

Se rechaza la hipótesis nula de no in‡uencia del factor temperatura. Esto se observa


en el grá…co de medias del factor temperatura (Figura 3.7.).
3. Sobre la in‡uencia de la interacción de los dos factores.
(3)
H0 : “la interacción de los dos factores no in‡uye”: ( )ij = 0; i; j = 1; : : : ; 3:

s^2 2;4030 44
F^ = = = 30 56 F2;27 ? ) p val = 00 019:
s^2R 6750 213
Se rechaza la hipótesis nula de no in‡uencia de la interacción de los factores para
niveles superiores a 00 02. Esto se puede observar en los grá…cos de interacciones (respecto
al factor material, Figura 3.8. y respecto al factor temperatura, Figura 3.9.).

Figura 3.8. Grá…co de interacciones respecto a material.

Figura 3.9. Grá…co de interacciones respecto a temperatura.

En la Figura 3.10. se presenta el grá…co de residuos frente a predicciones en el que no


se observa ningún problema.
Prácticas y problemas de diseño de experimentos. 17

Figura 3.10. Grá…co de residuos frente a predicciones.

Problema 3.7. (Diseño de experimentos en cuadrado latino).


“Para estudiar el efecto de la iluminación (A=natural, B=muy fuerte, C=escasa) en la
velocidad de lectura se realiza un experimento que consiste en contar el número de palabras
leídas en un minuto en distintos tipos de papel (b=blanco, c=en color, s=satinado) y dife-
rente tipografía (g=letra grande, p=letra pequeña, n=normal). Los resultados obtenidos
son los de la tabla adjunta.
Analizar estos datos y estudiar la posible in‡uencia de los factores iluminación, tipos
de papel y diferente tipografía en la variable de interés velocidad de lectura”.

Tipo de papel
Letra satinado blanco color
grande 258 A 230 C 240 B
normal 235 B 270 A 240 C
pequeña 220 C 225 B 260 A

Solución al Problema 3.7.


El modelo matemático-estadístico a ajustar es

yij(k) = + i + j + (k) + "ij(k) ;

donde el factor …la representa al factor tipo de letra, el factor columna representa al
factor tipo de papel y el factor letra (cuadrado latino) representa el factor iluminación.
Es un modelo con tres factores, cada uno de los cuales tiene tres niveles, se supone que no
existen interacciones entre los factores y puede resolverse con solo 32 = 9 observaciones
por medio del diseño fraccional de cuadrado latino.
Se calculan las medias y parámetros del modelo como sigue

y = 242
18 Modelos estadísticos aplicados. Juan Vilar

Medias y estimaciones
yi ^ i = yi y yj ^ =yj y y k ^k = y k y
j
2420 67 0
+0 67 0
237 67 0
4 33 2620 67 +200 67
2480 33 +60 33 2410 67 00 33 2330 33 80 67
2350 00 70 00 2460 67 +40 66 2300 00 120 00
A partir de estos valores se calculan las predicciones

y^ij(k) = ^ + ^ i + ^ j + ^(k) ; i; j = 1; 2; 3;

obteniendo
Predicciones
2590 00 2300 33 2380 67
2350 33 2680 67 2410 00
2180 67 2260 00 2600 33
Los residuos son
eij(k) = yij(k) y^ij(k) ; i; j = 1; 2; 3;
se obtiene

Residuos
10 00 00 33 10 33
00 33 10 33 10 00
10 33 10 00 00 33
Cálculo de las sumas de cuadrados

scT ( ) = scT (tipo letra) = 3 00 672 + 60 332 + 72 = 2680 67:

scT ( ) = scT (papel ) = 3 40 332 + 00 332 + 40 662 = 1220 00:


scT ( ) = scT (iluminación) = 3 200 672 + 80 672 + 122 = 1;9380 67:

scT = scT ( ) + scT ( ) + scT ( ) =


= 2680 67 + 1220 00 + 1;9380 67 = 2;3290 34:

La suma de cuadrados total es


3 X
X 3
2 1X X 2
scG = yij(k) y = ns2Y = n y y 2 = 2;338
n i j ij(k)
i=1 j=1

La suma de cuadrados no explicada (residual) es

scR = scG scT = 2;338 2;3290 34 = 80 67:

También scR puede calcularse directamente de los residuos


Prácticas y problemas de diseño de experimentos. 19

3 X
X 3 3 X
X 3
2
scR = e2ij(k) = yij(k) y^ij(k)
i=1 j=1 i=1 j=1

= 1 + 0 33 + 1 33 + 0 332 + 10 332 + 12 + 10 332 + 12 + 00 332


2 0 2 0 2 0

= 80 67:

Los coe…cientes de determinación son:

scT ( ) 2680 67
R2 ( ) = R2 (tipo letra) = = = 00 1149 ) 110 49 %:
scG 2;338

scT ( ) 1220 00
R2 ( ) = R2 (papel ) = = = 00 522 ) 50 22 %:
scG 2;338

scT ( ) 1;9380 67
R2 ( ) = R2 (iluminación) = = = 00 8292 ) 820 92 %:
scG 2;338

sgT 2;3290 34
R2 = = R2 ( ) + R2 ( ) + R2 ( ) = = 00 9962 ) 990 62 %:
scG 2;338

La tabla ANOVA que se obtiene es la siguiente

Tabla ANOVA
Efecto Sum cuad. g.l. Varianza estadíst. F p-valor
scT ( ) 2680 67 2 s^2 = 1340 33 31 00 031
scT ( ) 1220 00 2 s^2 = 610 00 0
14 08 00 066
scT ( ) 1;9380 67 2 s^2 = 9690 33 2230 69 00 004
scT 2;3290 34 6
scR 80 66 2 s^2R = 40 33 s^R = 20 08
scG 2;3380 0 8 s^2Y = 2920 25 s^Y = 170 09

De esta tabla se deducen los siguientes contrastes:

1. Sobre la in‡uencia del factor tipo de letra.

(1)
H0 : “el factor tipo de letra no in‡uye”: i = 0; i = 1; 2; 3:

s^2 1340 33
F^ = 2 = 0 = 31 F2;2 ? ) p val = 00 031:
s^R 4 33

Se rechaza para niveles de > 00 031 (por ejemplo = 00 05) la hipótesis nula de no
in‡uencia del factor tipo de letra. El grá…co de medias con…rma este hecho.
20 Modelos estadísticos aplicados. Juan Vilar

Figura 3.11. Grá…co de medias respecto al tipo de letra.

2. Sobre la in‡uencia del factor tipo de papel se obtiene,


(2)
H0 : “el factor tipo de papel no in‡uye”: i = 0; i = 1; 2; 3:

s^2 610 00
F^ = = = 140 08 F2;2 ? ) p val = 00 066:
s^2R 40 33
Se acepta para niveles de < 00 066 (por ejemplo = 00 05) la hipótesis nula de no
in‡uencia del factor tipo de papel. El grá…co de medias del factor tipo de papel es

Figura 3.11. Grá…co de medias respecto al tipo de papel.

3. Sobre la in‡uencia del factor tipo de iluminación, se deduce el siguiente contraste


(3)
H0 : “el factor tipo de iluminación no in‡uye”: i = 0; i = 1; 2; 3:

s^2 9690 33
F^ = 2 = 0 = 2330 39 F2;2 ? ) p val = 00 004:
s^R 4 33
Prácticas y problemas de diseño de experimentos. 21

Se rechaza para niveles de > 00 004 (por ejemplo = 00 05) la hipótesis nula de no
in‡uencia del factor tipo de iluminación. Esto puede observarse en el grá…co de medias del
factor

Figura 3.13. Grá…co de medias respecto al tipo de iluminación.

1.3. Problemas propuestos de diseño de experimentos.


Problema 3.8.
“Los siguientes datos proporcionan la presión, sistólica y diastólica, de la sangre (en
mm Hg) de 15 pacientes con hipertensión moderada, medidas antes y después de probar
un nuevo fármaco. En base a estos datos ¿puede a…rmarse que el nuevo fármaco es efectivo
para bajar la tensión arterial?”

Sistólica Diastólica Sistólica Diastólica


Pac Ant Desp Ant Desp Pac Ant Desp Ant Desp
1 210 201 130 125 9 173 147 115 103
2 169 165 122 121 10 146 136 102 98
3 187 166 124 121 11 174 151 98 90
.
4 160 157 104 106 12 201 168 119 98
5 167 147 112 101 13 198 179 106 110
6 176 145 101 85 14 148 129 107 103
7 185 168 121 98 15 154 131 100 82
8 206 180 124 105

Problema 3.9.
“Una empresa desea contrastar si el lunes es el día de la semana en que se presentan
más bajas por enfermedad común. Para ello, en base a los datos de cinco años, se eligen
al azar 10 lunes, 10 martes, 10 miércoles, 10 jueves y 10 viernes, anotando el número de
bajas durante tales días. Los resultados obtenidos son los de la tabla adjunta
22 Modelos estadísticos aplicados. Juan Vilar

Muestreo 1
Día número de bajas por día
Lunes 26 37 22 55 23 38 46 25 25 23
Martes 35 20 28 12 17 17 57 42 25 63
Miércoles 25 40 63 18 62 30 38 23 37 26
Jueves 51 20 30 13 42 28 17 73 25 22
Viernes 30 62 40 15 26 37 52 12 16 25

Un segundo estudio se realizó en base al mismo experimento pero cambiando el esquema


del muestreo, ahora se eligieron al azar diez semanas completas de los cinco años. Los
resultados que se obtuvieron son los siguientes:

Muestreo 2
Semana (número de bajas por día)
Día S1 S2 S3 S4 S5 S6 S7 S8 S9 S10
Lunes 40 32 56 65 18 43 30 51 46 38
Martes 32 51 34 35 23 22 45 35 32 58
Miércoles 42 30 29 30 15 30 42 51 31 26
Jueves 20 32 30 40 21 28 46 36 36 22
Viernes 26 27 27 17 23 37 53 22 15 22

En base a estos datos:

1. Indicar los modelos matemáticos asociados a ambos tipos de muestreo.

2. Calcular en ambos casos la tabla ANOVA. Conclusiones.

3. Utilizando los dos tipos de muestreo ¿existe un día o más en que el número de bajas
por enfermedad común sea signi…cativamente mayor?

4. En ambos casos ¿se veri…can las hipótesis del modelo? En caso negativo, transformar
los datos y recalcular los modelos.

5. Comparar razonadamente ambos esquemas de muestreo. Proponer un modelo de


muestreo más adecuado”.

Problema 3.10.
“Se realiza un experimento para investigar el proceso de obtención de la penicilina,
siendo la variable de interés la producción obtenida. El estudio se centra en observar los
resultados de 4 variantes del proceso básico, denominadas tratamientos A, B, C y D. Se
quiere controlar una materia prima importante, el licor de maíz, para ello se utilizan cinco
mezclas de licor de maíz (bloques) con los que se realiza el experimento. Los resultados
observados son los de la tabla adjunta. En base a estos datos ¿in‡uye la variante del
proceso en la producción obtenida? ¿El resultado sería el mismo si no se tiene en cuenta
el tipo de maíz utilizado?”.
Prácticas y problemas de diseño de experimentos. 23

Tratamientos
Bloque A B C D
Mezcla 1 89 88 97 94
Mezcla 2 84 77 92 79
Mezcla 3 81 87 87 85
Mezcla 4 87 92 89 84
Mezcla 5 79 81 80 88

Problema 3.11.
“Un experimento consiste en anotar las décimas de segundo que se tarda en parar el
cronómetro después de ponerlo en marcha. Para ello, se inicializa el cronómetro en 0:00:00,
se pone en marcha pulsando un botón para, después, pararlo pulsando el mismo botón. Se
anota el tiempo que se ha tardado en pararlo, ésto es, el tiempo que aparece indicado en
el cronómetro.
Con este experimento se desea estudiar la in‡uencia en la variable de interés (tiempo que
se tarda en detener el cronómetro en décimas de segundo) de dos factores: el tipo de reloj
utilizado (se han utilizado cuatro relojes: R1, R2, R3 y R4) y de la mano utilizada (derecha
(D) o izquierda (I)).
Todos los datos de este experimento han sido realizados por una sola persona que ha real-
izado cinco réplicas de cada tratamiento. Los datos obtenidos son los de la tabla adjunta.
En base a ellos estudiar la in‡uencia de los factores y analizar la existencia de interacción
entre los dos factores, ¿veri…can los residuos las hipótesis del modelo?”.

Reloj
Mano R1 R2 R3 R4
11 11 10 18 18 16 12 14
Derecha 16 12 20 17 17 20 15 16
11 13 15 16
17 17 30 22 21 25 21 16
Izquierda 11 17 28 22 22 23 18 21
16 20 26 18

Problema 3.12.
“Se ha realizado un experimento para comprobar si existen diferencias signi…cativas
en el tiempo de ejecución entre tres programas que calculan el factorial de un número.
También se desea investigar si in‡uye en la variable de interés el intervalo al que pertenece
el número del que se calcula el factorial.
Los programas utilizados son tres:
- Recfact, que calcula el factorial de forma recursiva.
- Tailfact, calcula el factorial de usando tail-recursion.
- Loopfact, calcula el factorial utilizando un bucle en el que calcula en sucesivas itera-
ciones el producto …nal.
24 Modelos estadísticos aplicados. Juan Vilar

Los intervalos elegidos para hacer el estudio son de longitud cien unidades: [1,100],
[101,200], [201,300], [301,400], [401,500].
En el experimento se generaba para cada uno de los cinco intervalos diez números
aleatorios (diez réplicas) y para cada número se calculaba el tiempo de ejecución de los
tres programas que calculan el factorial.Los datos obtenidos del experimento son los de la
tabla adjunta.

Intervalo
Programa I.1. I.2. I.3. I.4. I.5.
10 6 70 9 170 3 130 3 280 8 350 2 390 9 440 9 510 5 510 7
70 8 110 8 140 7 230 4 310 9 290 2 400 9 440 8 520 6 500 1
Recfact 80 5 40 5 190 0 220 2 320 0 310 0 360 9 390 5 550 1 500 6
50 7 20 8 190 3 140 8 290 9 310 1 460 4 430 1 490 0 560 6
0
82 40 6 240 8 150 0 340 5 260 5 370 5 390 2 490 1 550 9
30 2 110 7 210 5 280 4 460 3 510 6 580 9 680 0 850 6 740 1
100 9 170 0 360 6 270 9 520 6 430 7 550 9 650 2 760 6 840 7
Tailfact 10 7 70 9 250 5 210 6 430 0 390 5 590 6 550 1 780 2 790 6
5 9 110 2
0 220 0 320 8 470 6 440 8 600 2 670 5 830 5 750 8
60 1 110 9 340 5 340 5 460 4 470 8 700 2 610 9 770 6 740 1
100 7 10 7 330 7 210 5 420 5 460 4 530 4 540 5 720 4 760 3
110 0 30 2 270 8 210 0 460 7 410 8 580 7 660 1 740 6 770 4
Loopfact 7 8 110 7
0 240 9 210 1 500 3 430 5 680 3 630 4 820 6 750 8
60 0 110 6 350 8 270 3 380 4 450 1 570 4 570 8 720 2 830 5
50 9 160 7 180 9 320 0 450 2 510 3 650 8 600 4 740 0 810 3

Las variables en estudio son:


Programa: programa utilizado (1=Recfact, 2=Tailfact, 3=Loopfact)
Intervalo: intervalo del que se elegía el número (1,2,3,4, 5).
Réplica: réplica del experimento (1,...,10)
Tiempo: tiempo de ejecución en cada caso.
En base a estos datos,

1. Estudiar de la in‡uencia de los tres factores.

2. ¿Qué modelo estadístico se debe utilizar? ¿Se ajusta bien el modelo propuesto a
los datos? ¿Existe interacción entre los factores?, en caso a…rmativo interpretar la
interacción.

3. Analizar las hipótesis básicas del modelo.”

Problema 3.13.
“Se diseña un experimento para estudiar la in‡uencia del “tipo de cinta”(dos niveles)
y del “tipo de impresora”(dos niveles) en la variable “duración de la cinta en horas”. Los
datos se recogen en la tabla adjunta
Prácticas y problemas de diseño de experimentos. 25

Impresora I 1 Impresora I 2
Cinta A Cinta B Cinta A Cinta B
0 0
17 1 15 2 190 4 170 2 0 0
12 3 11 6 150 6 160 1
160 5 160 7 180 9 200 7 130 8 120 1 170 2 180 3
0
14 9 200 1 0
10 8 160 7

En base a estos datos

1. Escribir el modelo matemático asociado al problema y las hipótesis que se suponen.

2. Calcular la tabla ANOVA y obtener los contrastes que se deducen.

3. Si suponemos que la interacción es nula ¿cómo in‡uye en la tabla ANOVA? ¿Se


modi…can las conclusiones?

4. Calcular un intervalo de con…anza al 90 % para la duración media de la cinta con la


impresora I1.”

Problema 3.14.
“Se realiza un experimento para estudiar el efecto del tipo de material y el tratamiento
empleado en el desgaste de unas piezas mecánicas. Los datos obtenidos son los de la tabla
adjunta. En base a estos datos analizar la in‡uencia de los dos factores (diseño anadidado
o jerarquizado)”.

Material A B C D E
Tratamiento a b a b a b a b a b
Réplica 1 23 30 42 45 37 39 41 44 20 24
Réplica 2 25 31 44 50 38 39 42 49 25 30

Problema 3.15.
“Se realiza un experimento para comparar la energía que se requiere para llevar a
cabo tres actividades físicas: correr, pasear y montar en bicicleta. La variable de interés
es Y =“número de kilocalorías consumidas por kilómetro recorrido”. Se cree que las dife-
rencias metabólicas entre los individuos puede afectar al número de kilocalorías requeridas
para llevar a cabo una determinada actividad y se quiere controlar esta variable extraña.
Para ello se seleccionan ocho individuos al azar y se les pide que hagan las tres actividades
mencionadas. Se mide el número de kilocalorías consumidas por kilómetro obteniendo los
datos de la tabla adjunta. Las actividades se realizan en orden aleatorio con tiempo de
recupeación entre una y otra. ¿Puede pensarse que no in‡uye la actividad realizada en el
número de kilocalorías consumidas?.”

B.1. B.2. B.3. B.4. B.5. B.6. B.7. B.8


Correr 10 4 10 5 10 8 10 7 10 6 10 5 10 7 20 0
Caminar 10 1 10 2 10 3 10 3 00 7 10 2 10 1 10 3
Pedalear 00 7 00 8 00 7 00 8 00 1 00 7 00 4 00 6
26 Modelos estadísticos aplicados. Juan Vilar

Problema 3.16.
“Se están investigando los efectos que sobre la resistencia del papel produce el por-
centaje de concentración de …bra de madera (hardwood) en la pulpa, la presión del tanque
y el tiempo de cocción de la pulpa. Se seleccionan tres niveles de concentración de madera
y de presión, y dos niveles de tiempo de cocción. Por tanto, los factores son: concentración
porcentual de …bra que se estudia a tres niveles (2, 4 y 8); presión durante el tiempo de
cocción que se estudia a tres niveles (400, 500 y 650); y tiempo de cocción que se estudia
a dos niveles, 3 y 4 horas.
Se realiza un experimento completamente aleatorizado con dos réplicas y se registran
los datos que se recogen en el …chero problema-3-16.

1. Analizar los datos y obtener conclusiones.

2. Obtener los grá…cos de residuos apropiados y comentar la adecuación del modelo.”

Вам также может понравиться