Вы находитесь на странице: 1из 413

DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓN

Departamento de ingeniería de organización,


administración de empresas y estadística.

PROGRAMA

1. Análisis de la varianza. Comparación de dos tratamientos. La hipóte-


sis de normalidad, independencia y homocedasticidad. Estimación. Contraste
de igualdad de medias. Contraste de igualdad de varianzas. La distribución
F: Comparación de varios tratamientos. Modelo básico. Descomposición de la
variabilidad. Tabla del análisis de la varianza (ADEVA). Contraste de igualdad
de medias. Comparaciones múltiples. Diagnosis de las hipótesis del modelo de
análisis de la varianza. Grá…co probabilista normal. Contrastes de homocedas-
ticidad. Aleatorización.

2. Diseño de experimentos. Modelo con dos factores. Concepto de in-


teracción. Descomposición de la variabilidad. Tabla de análisis de la varianza.
Contraste de igual de medias. Diagnosis de las hipótesis del modelo. El modelo
en bloques aleatorizados. Modelo y estimación. Descomposición de la variabi-
lidad. Tabla de análisis de la varianza.

3. Regresión lineal. Hipótesis del modelo. Estimación de los parámetros por


máxima verosimilitud (mínimos cuadrados). Distribución de los estimadores.
Contrastes individuales de los parámetros del modelo. Contraste general de
regresión. El coe…ciente de determinación. Multicolinealidad: identi…cación y
sus consecuencias. Predicción en regresión simple. Variables cualitativas como
regresores. Diagnosis del modelo.

1
1. Análisis de la Varianza

Diseño de Experimentos y Modelos de Regresión

Curso 2016/17

1.1 Dos tratamientos


Comparación de dos tratamientos

Se desea comparar dos


A B
tratamientos para
51,3 29,6
39,4 47,0
reducir el nivel de
26,3 25,9 colesterol en la sangre.
39,0 13,0 Se seleccionan 20
48,1 33,1 individuos y se asignan
34,2 22,1 al azar a dos tipos de
69,8 34,1 dietas A y B. La tabla
31,3 19,5 muestra la reducción
45,2 43,8 conseguida después de
46,4 24,9 dos meses.

Análisis de la Varianza 3

Método: 4 pasos

- Definición del modelo de distribución


de probabilidad:
·Hipótesis
·Parámetros
- Estimación de los parámetros
- Diagnosis de las hipótesis
- Aplicación

Análisis de la Varianza 4
Modelo
M
O
V V D
E
L
P1 P2 O

y11 y 21
D
y12 y 22 A
  T
O
y1n1 y 2 n2 S

Análisis de la Varianza 5

Modelo: Hipótesis y Parámetros


Hipótesis básicas:
Normalidad Parámetros
yij Ÿ N(Pi,V2) P1
Homocedasticidad P2
Var [yij] = V2
V2
Independencia

Cov [yij, ykl] = 0

Análisis de la Varianza 6
Modelo

yij Pi  uij , uij o N (0, V 2 )


Las observaciones se descomponen en:
-Parte predecible Pi
-Parte aleatoria uij

0
Análisis de la Varianza 7

Estimación medias:

n1 A B
¦ y1 j 51,3
39,4
29,6
47,0
j 1
P1 : o y1x 26,3 25,9
n1 39,0 13,0
48,1 33,1
34,2 22,1
n2 69,8 34,1
¦ y2 j 31,3
45,2
19,5
43,8
j 1
P 2 : o y2x 46,4 24,9
n2 43,1 29,3

Análisis de la Varianza 8
Estimación varianza (residuos)
yij P i  uij , uij o N (0, V 2 ) Residuos
A B
8,2 0,3
-3,7 17,7
uij yij  P i -16,8 -3,4
-4,1 -16,3
eij yij  yix 5,0 3,8
-8,9 -7,2
eij : RESIDUO 26,7 4,8
-11,8 -9,8
2 ni 2,1 14,5
¦¦ eij2 3,3
0,0
-4,4
0,0
i 1 j 1
V 2 : o sˆR2 n
n2 ¦
i

eij 2
0;sˆR 130.95
j 1
Análisis de la Varianza 9

2
ˆ
Varianza residual: R
s

V V
P1 P2
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j  y1x ) 2 y22 ° ° 2 ¦ ( y2 j  y2x ) 2
sˆ1 sˆ2
 ¾ n1  1  ¾ ° n2  1
°
y1n1 °
¿ y2 n2 °
¿

2 ni

¦¦ e
i 1 j 1
2
ij
n1  1 2 n2  1 2
sˆR2 sˆ1  sˆ2
n2 n2 n2

Análisis de la Varianza 10
Diferencia de medias: y1x  y2x

V V
P1 P2
y11 ½ y21 ½
y12 °° V2 y22 ° ° V2
y1x o N ( P1 , ) y2x o N ( P 2 , )
 ¾ n1  ¾ ° n2
°
y1n1 °
¿ y2 n2 °
¿
V2 V2 ½
y1x  y2x o N ( P1  P 2 ,  )
°
n1 n2 °° ( y1x  y2x )  ( P1  P 2 )
( y1x  y2x )  ( P1  P 2 ) Ÿ o tn2
o N (0,1) ¾ 1 1
1 1 ° sˆR 
V  ° n1 n2
n1 n2 °¿

Análisis de la Varianza 11

Contraste de igualdad de medias

H 0 : P1 P2 R.R
R.R.
H1 : P1 z P 2 tn-2
1-D
y1x  y2x D/2
t0 o tn2 R. Acept. D/2
1 1
sˆR  -tD/2 tD/2
n1 n2

t0 d tD / 2 Ÿ No se rechaza H 0
t0 ! tD / 2 Ÿ Se rechaza H 0
Análisis de la Varianza 12
Ejemplo: D = 0.05

H 0 : P1 P2 R.R
R.R. t18
H1 : P1 z P 2
0.025
43.1  29.3 0.025
t0 2.69
1 1
11.44  -2.10 2.10
10 10

2.69 ! 2.10 Ÿ Se rechaza H 0

Análisis de la Varianza 13

Ejemplo: D = 0.01

H 0 : P1 P2 R.R
R.R.
H1 : P1 z P 2 t18
0.99
0.005 0.005
43.1  29.3
t0 2.69 D/2
1 1
11.44  -2.88 2.88
10 10

2.69 d 2.88 Ÿ No se rechaza H 0

Análisis de la Varianza 14
Nivel crítico (bilateral)
H 0 : P1 P2 t18
H1 : P1 z P 2
43.1  29.3 0.0074 0.0074
t0 2.69
1 1
11.44  -2.69 2.69
10 10

p  valor Pr( t18 ! 2.69) 0.0147


•D = 0.05 > p-valor Ÿ Se rechaza H0
•D = 0.01 < p-valor Ÿ No se rechaza H0

Análisis de la Varianza 15

Conclusiones (fijado D)

Si |to| > tD/2 se dice que Si |to| d tD/2 se dice que


la diferencia de la diferencia de
medias es medias no es
significativa. O significativa. No hay
simplemente que los evidencia suficiente
tratamientos son para afirmar que las
distintos (tienen medias de los
medias distintas). tratamientos sean
diferentes.

Análisis de la Varianza 16
No rechazar Ho, no implica que Ho sea cierta

El resultado |to| d tD/2, (no se rechaza Ho)


no debe interpretarse como que “se ha
demostrado que las dos medias son
iguales”.

No rechazar la hipótesis nula implica que


la diferencia entre las medias P1 - P2 no es
lo suficientemente grande como para ser
detectada con el tamaño muestral dado.

Análisis de la Varianza 17

Comparación de dos tratamientos con R

18
Comparación de dos tratamientos con R

19

Comparación de medidas del cuerpo humano por género


Means Conf. Int.

20
Intervalo de confianza para
la diferencia de medias: P1  P 2
( y1x  y2x )  ( P1  P 2 ) tn-2
o t n2
1 1
sˆR  D/2
n1 n2 D/2 1-D
-tD/2 tD/2

( y1x  y2x )  ( P1  P 2 )
Pr {  tD / 2 d d tD / 2 } 1  D
1 1
sˆR 
n1 n2
1 1
P1  P 2  ( y1x  y2x ) r tD / 2 sˆR 
n1 n2

Análisis de la Varianza 21

Ejemplo: intervalo de confianza P1  P 2

t18

0.025 0.025

-2.10 2.10
1 1
P1  P 2  ( y1x  y2x ) r tD / 2 sˆR 
n1 n2
1 1
P1  P 2  (43.1  29.3) r 2.10 u11.44 u 
10 10
P1  P 2 13.8 r 10.74
Análisis de la Varianza 22
Hipótesis de homocedasticidad

V1 V2
P1 P2
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j  y1x ) 2 y22 ° ° 2 ¦ ( y2 j  y2x ) 2
sˆ1 sˆ2
 ¾ n1  1  ¾ ° n2  1
°
y1n1 °
¿ y2 n2 °
¿

H 0 : V 12 V 22
H1 : V 12 z V 22

Análisis de la Varianza 23

Distribución F
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j  y1x ) 2 y22 ° ° 2 ¦ ( y2 j  y2x ) 2
sˆ1 sˆ2
 ¾ n1  1  ¾ ° n2  1
°
y1n1 °
¿ y2 n2 °
¿
(n1  1) sˆ12 ( n2  1) sˆ22
o F n21 1 o F n22 1
V 12 V 22

F n2 1 sˆ12
1
(n1  1) V 12
F o Fn1 1,n2 1
F n2 12
sˆ22
(n2  1) V 22

Análisis de la varianza 24
Distribución F

F40,40
F20,40
F10,40
F5,40

Análisis de la varianza 25

Algunas distribuciones F

F10,80
F10,40
F10,20
F10,10

Análisis de la varianza 26
Contraste de igualdad de varianzas

H 0 : V 12 V 22
H1 : V 12 z V 22 RR RR
D/2 1-D D/2
Si H 0 es cierto V 12 V 22 , R.A. Ho
sˆ12 F1-D/2 FD/2
F0 2
o Fn1 1,n2 1
sˆ1

Si F0  >F1D / 2 , FD / 2 @ Ÿ No se rechaza H 0
Si F0  >F1D / 2 , FD / 2 @ Ÿ Se rechaza H 0

Análisis de la varianza 27

Ejemplo: Contraste de igualdad de varianzas

H 0 : V 12 V 22
H1 : V 12 z V 22 RR RR
0.025 0.025
sˆ12 154.02 sˆ22 111.7
154.02 0.248 1.37 4.03
F0 1.37
111.7

1.37  >0.248,4.03@ Ÿ No se rechaza H 0

Análisis de la varianza 28
Tabla F FQ1 ,Q 2 ,D Ÿ P( FQ 1 ,Q 2 t FQ 1 ,Q 2 ,D ) D
D=0.05
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0 249,1 250,1 251,1 252,2 253,0 253,3 254,3 1
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,49 19,50 2
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,55 8,53 3
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,66 5,63 4
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,41 4,40 4,37 5
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,71 3,70 3,67 6
Grados de libertad del denominador: Q2

7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,27 3,23 7
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,97 2,93 8
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,76 2,75 2,71 9
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,59 2,58 2,54 10
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,46 2,45 2,40 11
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,35 2,34 2,30 12
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,26 2,25 2,21 13
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,19 2,18 2,13 14
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,12 2,11 2,07 15
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,07 2,06 2,01 16
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,02 2,01 1,96 17
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,98 1,97 1,92 18
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,94 1,93 1,88 19
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,91 1,90 1,84 20
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,88 1,87 1,81 21
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,85 1,84 1,78 22
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,82 1,81 1,76 23
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,80 1,79 1,73 24
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,78 1,77 1,71 25
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,76 1,75 1,69 26
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,74 1,73 1,67 27
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,73 1,71 1,65 28
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,71 1,70 1,64 29
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,70 1,68 1,62 30
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,59 1,58 1,51 40
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,95 1,87 1,78 1,74 1,69 1,63 1,58 1,52 1,51 1,44 50
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,48 1,47 1,39 60
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,89 1,81 1,72 1,67 1,62 1,57 1,50 1,45 1,44 1,35 70
80 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,88 1,79 1,70 1,65 1,60 1,54 1,48 1,43 1,41 1,32 80
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,86 1,78 1,69 1,64 1,59 1,53 1,46 1,41 1,39 1,30 90
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,85 1,77 1,68 1,63 1,57 1,52 1,45 1,39 1,38 1,28 100
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,37 1,35 1,25 120
Inf 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,24 1,22 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.

Ejemplo : P( F7,8 t 3.50) 0.05

Tabla F FQ1 ,Q 2 ,D Ÿ P( FQ 1 ,Q 2 t FQ 1 ,Q 2 ,D ) D
D=0.025
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 976,7 984,9 993,1 997,3 1001,4 1005,6 1009,8 1013,2 1014,0 1018,3 1
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,45 39,46 39,46 39,47 39,48 39,49 39,49 39,50 2
3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 14,17 14,12 14,08 14,04 13,99 13,96 13,95 13,90 3
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,75 8,66 8,56 8,51 8,46 8,41 8,36 8,32 8,31 8,26 4
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,52 6,43 6,33 6,28 6,23 6,18 6,12 6,08 6,07 6,02 5
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,37 5,27 5,17 5,12 5,07 5,01 4,96 4,92 4,90 4,85 6
Grados de libertad del denominador: Q2

7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,67 4,57 4,47 4,41 4,36 4,31 4,25 4,21 4,20 4,14 7
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,20 4,10 4,00 3,95 3,89 3,84 3,78 3,74 3,73 3,67 8
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,87 3,77 3,67 3,61 3,56 3,51 3,45 3,40 3,39 3,33 9
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,62 3,52 3,42 3,37 3,31 3,26 3,20 3,15 3,14 3,08 10
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,43 3,33 3,23 3,17 3,12 3,06 3,00 2,96 2,94 2,88 11
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,28 3,18 3,07 3,02 2,96 2,91 2,85 2,80 2,79 2,72 12
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,15 3,05 2,95 2,89 2,84 2,78 2,72 2,67 2,66 2,60 13
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,05 2,95 2,84 2,79 2,73 2,67 2,61 2,56 2,55 2,49 14
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,96 2,86 2,76 2,70 2,64 2,59 2,52 2,47 2,46 2,40 15
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,89 2,79 2,68 2,63 2,57 2,51 2,45 2,40 2,38 2,32 16
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,82 2,72 2,62 2,56 2,50 2,44 2,38 2,33 2,32 2,25 17
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,77 2,67 2,56 2,50 2,44 2,38 2,32 2,27 2,26 2,19 18
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,72 2,62 2,51 2,45 2,39 2,33 2,27 2,22 2,20 2,13 19
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,68 2,57 2,46 2,41 2,35 2,29 2,22 2,17 2,16 2,09 20
21 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80 2,73 2,64 2,53 2,42 2,37 2,31 2,25 2,18 2,13 2,11 2,04 21
22 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,60 2,50 2,39 2,33 2,27 2,21 2,14 2,09 2,08 2,00 22
23 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73 2,67 2,57 2,47 2,36 2,30 2,24 2,18 2,11 2,06 2,04 1,97 23
24 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,54 2,44 2,33 2,27 2,21 2,15 2,08 2,02 2,01 1,94 24
25 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68 2,61 2,51 2,41 2,30 2,24 2,18 2,12 2,05 2,00 1,98 1,91 25
26 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,49 2,39 2,28 2,22 2,16 2,09 2,03 1,97 1,95 1,88 26
27 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63 2,57 2,47 2,36 2,25 2,19 2,13 2,07 2,00 1,94 1,93 1,85 27
28 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,45 2,34 2,23 2,17 2,11 2,05 1,98 1,92 1,91 1,83 28
29 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59 2,53 2,43 2,32 2,21 2,15 2,09 2,03 1,96 1,90 1,89 1,81 29
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,41 2,31 2,20 2,14 2,07 2,01 1,94 1,88 1,87 1,79 30
40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,29 2,18 2,07 2,01 1,94 1,88 1,80 1,74 1,72 1,64 40
50 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,22 2,11 1,99 1,93 1,87 1,80 1,72 1,66 1,64 1,55 50
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,17 2,06 1,94 1,88 1,82 1,74 1,67 1,60 1,58 1,48 60
70 5,25 3,89 3,31 2,97 2,75 2,59 2,47 2,38 2,30 2,24 2,14 2,03 1,91 1,85 1,78 1,71 1,63 1,56 1,54 1,44 70
80 5,22 3,86 3,28 2,95 2,73 2,57 2,45 2,35 2,28 2,21 2,11 2,00 1,88 1,82 1,75 1,68 1,60 1,53 1,51 1,40 80
90 5,20 3,84 3,26 2,93 2,71 2,55 2,43 2,34 2,26 2,19 2,09 1,98 1,86 1,80 1,73 1,66 1,58 1,50 1,48 1,37 90
100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 2,08 1,97 1,85 1,78 1,71 1,64 1,56 1,48 1,46 1,35 100
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,05 1,94 1,82 1,76 1,69 1,61 1,53 1,45 1,43 1,31 120
Inf 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,94 1,83 1,71 1,64 1,57 1,48 1,39 1,30 1,27 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.

Ejemplo : P( F7,8 t 4.53) 0.025


Tabla F FQ1 ,Q 2 ,D Ÿ P( FQ 1 ,Q 2 t FQ 1 ,Q 2 ,D ) D
D=0.01
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6106,7 6157,0 6208,7 6234,3 6260,4 6286,4 6313,0 6333,9 6339,5 6365,6 1
2 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,42 99,43 99,45 99,46 99,47 99,48 99,48 99,49 99,49 99,50 2
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,05 26,87 26,69 26,60 26,50 26,41 26,32 26,24 26,22 26,13 3
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,20 14,02 13,93 13,84 13,75 13,65 13,58 13,56 13,46 4
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,13 9,11 9,02 5
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,56 7,40 7,31 7,23 7,14 7,06 6,99 6,97 6,88 6
Grados de libertad del denominador: Q2

7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,31 6,16 6,07 5,99 5,91 5,82 5,75 5,74 5,65 7
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,52 5,36 5,28 5,20 5,12 5,03 4,96 4,95 4,86 8
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 4,96 4,81 4,73 4,65 4,57 4,48 4,41 4,40 4,31 9
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,56 4,41 4,33 4,25 4,17 4,08 4,01 4,00 3,91 10
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,25 4,10 4,02 3,94 3,86 3,78 3,71 3,69 3,60 11
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,01 3,86 3,78 3,70 3,62 3,54 3,47 3,45 3,36 12
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,82 3,66 3,59 3,51 3,43 3,34 3,27 3,25 3,17 13
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,66 3,51 3,43 3,35 3,27 3,18 3,11 3,09 3,00 14
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,52 3,37 3,29 3,21 3,13 3,05 2,98 2,96 2,87 15
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,41 3,26 3,18 3,10 3,02 2,93 2,86 2,84 2,75 16
17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,31 3,16 3,08 3,00 2,92 2,83 2,76 2,75 2,65 17
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,23 3,08 3,00 2,92 2,84 2,75 2,68 2,66 2,57 18
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,15 3,00 2,92 2,84 2,76 2,67 2,60 2,58 2,49 19
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,09 2,94 2,86 2,78 2,69 2,61 2,54 2,52 2,42 20
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,03 2,88 2,80 2,72 2,64 2,55 2,48 2,46 2,36 21
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 2,98 2,83 2,75 2,67 2,58 2,50 2,42 2,40 2,31 22
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,93 2,78 2,70 2,62 2,54 2,45 2,37 2,35 2,26 23
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,89 2,74 2,66 2,58 2,49 2,40 2,33 2,31 2,21 24
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,85 2,70 2,62 2,54 2,45 2,36 2,29 2,27 2,17 25
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,81 2,66 2,58 2,50 2,42 2,33 2,25 2,23 2,13 26
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,78 2,63 2,55 2,47 2,38 2,29 2,22 2,20 2,10 27
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,90 2,75 2,60 2,52 2,44 2,35 2,26 2,19 2,17 2,06 28
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,87 2,73 2,57 2,49 2,41 2,33 2,23 2,16 2,14 2,03 29
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,70 2,55 2,47 2,39 2,30 2,21 2,13 2,11 2,01 30
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,94 1,92 1,80 40
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,56 2,42 2,27 2,18 2,10 2,01 1,91 1,82 1,80 1,68 50
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,75 1,73 1,60 60
70 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,67 2,59 2,45 2,31 2,15 2,07 1,98 1,89 1,78 1,70 1,67 1,54 70
80 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,42 2,27 2,12 2,03 1,94 1,85 1,75 1,65 1,63 1,49 80
90 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,61 2,52 2,39 2,24 2,09 2,00 1,92 1,82 1,72 1,62 1,60 1,46 90
100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,37 2,22 2,07 1,98 1,89 1,80 1,69 1,60 1,57 1,43 100
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,56 1,53 1,38 120
Inf 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,18 2,04 1,88 1,79 1,70 1,59 1,47 1,36 1,32 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.

Ejemplo : P( F7,8 t 6.18) 0.01

Comparación de dos tratamientos con R

32
Comparación de dos tratamientos con R

33

1.2 K tratamientos

Análisis de la varianza 34
¿Existen diferencias entre las cuatro semillas?

Se desea comparar el rendimiento de cuatro


semillas A,B,C y D. Un terreno se divide en 24
parcelas similares y se asigna al azar cada semilla
a 6 parcelas.

A B C D
229.1 233.4 211.1 270.4
253.7 233.0 223.1 248.6
241.3 219.2 217.5 230.0
254.7 200.0 211.8 250.7
237.2 224.3 207.6 230.0
241.3 202.0 213.7 245.8
242.9 218.7 214.1 245.9

Análisis de la varianza 35

Método: 4 pasos

- Definición del modelo de distribución de


probabilidad:
·Hipótesis
·Parámetros
- Estimación de los parámetros
- Diagnosis de las hipótesis
- Aplicación

Análisis de la varianza 36
Modelo

V V V
...
P1 P2 PK

y11 y21 yK1


y12 y22 yK 2
  ... 
y1n y2 n y Kn
1 2 K
Análisis de la varianza 37

Hipótesis del modelo

Normalidad
yij Ÿ N(Pi,V2)
Homocedasticidad
Var [yij] = V2
Independencia
Cov [yij, ykl] = 0

Análisis de la varianza 38
Modelo: Hipótesis y Parámetros
Hipótesis básicas: Parámetros
Normalidad P1
yij Ÿ N(Pi,V2) P2
Homocedasticidad

Var [yij] = V2

Independencia
PK
Cov [yij, ykl] = 0 V2
Análisis de la varianza 39

Modelo: Forma alternativa

yij Pi  uij , uij o N (0, V 2 )


Las observaciones se descomponen en:
Parte predecible Pi
Parte aleatoria uij

0
Análisis de la varianza 40
Estimación medias: Máxima Verosimilitud

n1
¦ y1 j
j 1
P1 : o y1x
n1
n2 A B C D
¦ y2 j 229.1 233.4 211.1 270.4
j 1 253.7 233.0 223.1 248.6
P 2 : o y 2x 241.3 219.2 217.5 230.0
n2
254.7 200.0 211.8 250.7
 237.2 224.3 207.6 230.0
nK 241.3 202.0 213.7 245.8
¦ y Kj 242.9 218.7 214.1 245.9
j 1
P K : o yK x
nK

Análisis de la varianza 41

Estimación varianza (residuos)

yij Pi  uij , uij o N (0,V 2 )


uij yij  Pi A B
Residuos
C D
-13.8 14.8 -3.0 24.5
eij yij  yix 10.8 14.4 9.0 2.7
-1.6 0.6 3.4 -15.9
eij : RESIDUO 11.8 -18.7 -2.3 4.8
-5.7 5.7 -6.5 -15.9
K ni -1.6 -16.7 -0.4 -0.1

¦ ¦ eij2 0.0 0.0 0.0 0.0

i 1j 1
V 2 : o sˆR2
nK sˆR2 142.4
Análisis de la varianza 42
Comparación de medias

La comparación de tratamientos con este modelo


se reduce a comparar las medias P1, P2, ..., PK ,
en primer lugar con el contraste:

H 0 : P1 P2  P K
H1 : Al menos una es diferente

Análisis de la varianza 43

Descomposición de la
variabilidad
¦ ¦ yij
yij Pi  uij Ÿ yij y ix  ( yij  y ix ) : restando y xx ,
n
yij  y xx ( y ix  y xx )  ( yij  y ix )
elevando al cuadrado y sumando para todo i,j
K ni
(donde ¦ ¦ ( y ix  y xx )( yij  y ix ) 0)
i 1j 1
K ni K ni K ni
2
¦ ¦ ( yij  y xx ) ¦ ¦ ( y ix  y xx )  ¦ ¦ ( yij  y ix ) 2
2
i 1j 1 i 1j 1 i 1j 1
K ni K K ni
2
¦ ¦ ( yij  y xx ) ¦ ni ( y ix  y xx )  ¦ ¦ ( yij  y ix ) 2
2
i 1j 1 i 1 i 1j 1

Análisis de la varianza 44
Variabilidades
Variabilid ades Grados de libertad
K ni
VT ¦ ¦ ( yij  y xx ) 2 n-1
i 1j 1
K
VE ¦ ni ( y ix  y xx ) 2 K-1
i 1
K ni K ni
2 2
VNE ¦ ¦ ( yij  y ix ) ¦ ¦ eij n-K
i 1j 1 i 1j 1

VT VE  VNE
n  1 ( K  1)  (n  K )

Análisis de la varianza 45

Descomposición: ejemplo
y xx 230.4
Datos Medias Residuos
229.1 233.4 211.1 270.4 242.9 218.7 214.1 245.9 -13.8 14.8 -3.0 24.5
253.7 233.0 223.1 248.6 242.9 218.7 214.1 245.9 10.8 14.4 9.0 2.7
241.3 219.2 217.5 230.0 242.9 218.7 214.1 245.9 -1.6 0.6 3.4 -15.9
254.7 200.0 211.8 250.7
= 242.9 218.7 214.1 245.9
+ 11.8 -18.7 -2.3 4.8
237.2 224.3 207.6 230.0 242.9 218.7 214.1 245.9 -5.7 5.7 -6.5 -15.9
241.3 202.0 213.7 245.8 242.9 218.7 214.1 245.9 -1.6 -16.7 -0.4 -0.1

-1.3 3.0 -19.3 40.0 12.5 -11.7 -16.3 15.5 -13.8 14.8 -3.0 24.5
23.3 2.6 -7.3 18.2 12.5 -11.7 -16.3 15.5 10.8 14.4 9.0 2.7
10.9 -11.2 -12.9 -0.4 12.5 -11.7 -16.3 15.5 -1.6 0.6 3.4 -15.9
24.3 -30.4 -18.6 20.3
= 12.5 -11.7 -16.3 15.5
+ 11.8 -18.7 -2.3 4.8
6.8 -6.1 -22.8 -0.4 12.5 -11.7 -16.3 15.5 -5.7 5.7 -6.5 -15.9
10.9 -28.4 -16.7 15.4 12.5 -11.7 -16.3 15.5 -1.6 -16.7 -0.4 -0.1

yij  y xx yi x  y xx yij  y i x

Análisis de la varianza 46
Variabilidades: ejemplo
Variabilid ades Grados de libertad
K ni
VT ¦ ¦ ( yij  y xx ) 2 7645.5 n-1 23
i 1j 1
K
VE ¦ ni ( y i x  y xx ) 2 4798.1 K-1 3
i 1
K ni
2
VNE ¦ ¦ eij 2847.4 n-K 20
i 1j 1

7645.5 4798.1  2847.4


23 3  20

Análisis de la varianza 47

Interpretación gráfica de la
descomposición

y1x
y 2x
y ix  y xx yij  y i x
y 3x

y 4x

y xx yij  y xx

Análisis de la varianza 48
Distribución de VE
2 V2
yij o N ( Pi , V ) Ÿ y i x o N ( Pi , )
ni
V
Si P1 P 2  P K que llamaremos P
V2
yix o N (P , )
Pi ni
2 2 2
§ y1x  P · § y 2x  P · § y P·
¨ ¸ ¨ ¸  ¨ Kx ¸ o F K2
¨V / n ¸ ¨V / n ¸ ¨V / n ¸
© 1¹ © 2 ¹ © K ¹

2 2 2
§ y1x  y xx · § y 2x  y xx · § y  y xx ·
¨ ¸ ¨ ¸  ¨ Kx ¸ o F K2 1
¨ V/ n ¸ ¨ V/ n ¸ ¨ V/ n ¸
© 1 ¹ © 2 ¹ © K ¹

Análisis de la varianza 49

Distribución de VNE
ni
¦ ( yij  y ix ) 2
j 1 (ni  1) sˆi2
yij o N ( Pi ,V 2 ) Ÿ sˆi2 o o F n2 1
ni  1 V 2 i

K ni n n nK
1 2
2
¦ ¦ ( yij  y ix ) ¦ ( y1 j  y1x )  ¦ ( y2 j  y 2x )    ¦ ( y Kj  y K x ) 2
2 2
i 1j 1 j 1 j 1 j 1
sˆR2
nK nK
(n1  1) sˆ12  (n2  1) sˆ22    (nK  1) sˆK2
nK

(n  K ) sˆR2 (n1  1) sˆ12 (n2  1) sˆ22 (nK  1) sˆK2


 
V2 V2 V2 V2
F n2 1  F n2 1    F n2 1
1 2 K
F n2 K

Análisis de la varianza 50
Contraste (Análisis de la Varianza)
H 0 : P1 P2  P K
H1 : Al menos una es diferente K
¦ ni ( yi x  yxx ) 2
(n  K ) sˆR2
x 2
o F n2 K x Si Ho es cierto : i 1
2
o F K2 1
V V
K 2
¦ ni ( y i x  y x x )
F0 i 1 o FK 1, n  K
2
( K  1) sˆR
F0 d FD Ÿ No se rechaza H 0
F0 ! FD Ÿ Se rechaza H 0

Análisis de la varianza 51

Tabla de Análisis de la Varianza

Suma de Grados de
Fuentes Cuadrados Libertad Varianzas F
¦ ni ( y i x  y xx ) 2
Tratamient os ¦ ni ( y i x  y xx ) 2 K 1 ¦ ni ( y i x  y xx ) 2 /( K  1)
( K  1) sˆR2
Residual ¦ ¦ ( yij  y i x ) 2 nK sˆ 2
R
Total ¦ ¦ ( yij  y xx ) 2 n 1

Análisis de la varianza 52
Tabla de Análisis de la Varianza
Suma de Grados de
Fuentes Cuadrados Libertad Varianzas F

Tratamient os 4798.1 3 1599.3 11.2


Residual 2847.4 20 142.4
Total 7645.5 23

Análisis de la varianza 53

Intervalos de confianza para


las medias
2 V2
yij o N ( Pi , V ) Ÿ y i x o N ( Pi , )
ni
y i x  Pi
o N (0,1)
V
R.R. R.R
ni
tn-K
y i x  Pi
o tn  K 1-D
sˆR D/2 D/2
ni R. Acept. H0
-tD/2 tD/2

Piyix rtD / 2 R
n
i

Análisis de la varianza 54
Intervalos de confianza

Semilla Media L. Inferior L. Superior


A 242.9 235.7 250.1
B 218.7 211.4 225.8
C 214.1 206.9 221.3
D 245.9 238.7 253.1

Análisis de la varianza 55

Intervalos de confianza (95%)

260

250
Rendimiento

240

230

220

210

200
A B C D

Semilla

Análisis de la varianza 56
Diferencia de medias: y1x  y2x

V V
P1 P2
y11 ½ y21 ½
y12 °° V2 y22 ° ° V2
y1x o N ( P1 , ) y2x o N ( P 2 , )
 ¾ n1  ¾ ° n2
°
y1n1 °
¿ y2 n2 °
¿
V2 V2 ½
y1x  y 2x o N ( P1  P 2 ,  )
°
n1 n2 °° ( y1x  y 2x )  ( P1  P 2 )
( y1x  y 2x )  ( P1  P 2 ) Ÿ o t n K
o N (0,1) ¾ 1 1
1 1 ° sˆ R 
V  ° n1 n2
n1 n2 °¿

Análisis de la varianza 57

Contraste multiples

H 0 : Pi Pj
R.R. R.R
H1 : P i z P j tn-K
1-D
yi x  y j x D/2
R. Acept. H0
D/2
tij o tn  K
1 1 -tD/2 tD/2
sˆR 
ni n j
t0 d tD / 2 Ÿ No se rechaza H 0
t0 ! tD / 2 Ÿ Se rechaza H 0
Análisis de la varianza 58
Diagnosis del modelo

Modelo

V V V
...
P1 P2 PK

y11 y21 yK1


y12 y22 yK 2
  ... 
y1n y2 n y Kn
1 2 K
Análisis de la varianza 60
Hipótesis del modelo

Normalidad
yij Ÿ N(Pi,V2)
Homocedasticidad
Var [yij] = V2
Independencia
Cov [yij, ykl] = 0

Análisis de la varianza 61

Residuos:
Normales y homocedásticos

yij Pi  uij
uij yij  P i eij yij  yix
uij o N (0, V 2 )

Residuos
A B C D
-13,8
10,8
14,8
14,4
-3,0
9,0
24,5
2,7
V
-1,6 0,6 3,4 -15,9
11,8 -18,7 -2,3 4,8
-5,7 5,7 -6,5 -15,9

0
-1,6 -16,7 -0,4 -0,1
0,0 0,0 0,0 0,0

Análisis de la varianza 62
Comprobación de la
normalidad
Los residuos deben de tener distribución normal.
Las observaciones originales también, pero cada
grupo con media diferente, por ello es preciso
estimar el modelo para descontar a cada
observación su media y obtener valores con la
misma distribución.

Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)

Análisis de la varianza 63

Gráfico probabilista normal


Es un gráfico X-Y de los Pasos:
residuos frente a los Ordenar los residuos de
percentiles de la
menor a mayor.
distribución normal.
e(1) d e(2) d  d e(n)
La idea básica es que Calcular los percentiles
cuando los residuos de la distribución
tienen distribución
normal
normal, los puntos i  0.5
deben formar Yi ) 1 ( ) u sˆR , i 1,2,..., n
n
aproximadamente Representar
una línea recta.
e(i ) , Yi

Análisis de la varianza 64
Gráfico prob. Normal
(ejemplo)
Orden Resid. Probab. Percen. Percen.
i eij (i-0.5)/n N(0,1) N(0,V )
Q-Q plot
1 -18,7 0,021 -2,04 -24,30
2 -16,7 0,063 -1,53 -18,30
3 -15,9 0,104 -1,26 -15,01 30,0
4 -15,9 0,146 -1,05 -12,58
5 -13,8 0,188 -0,89 -10,58
6 -6,5 0,229 -0,74 -8,85 20,0
7 -5,7 0,271 -0,61 -7,28
8 -3,0 0,313 -0,49 -5,83 10,0

Percentiles
9 -2,3 0,354 -0,37 -4,46
10 -1,6 0,396 -0,26 -3,15
0,0
11 -1,6 0,438 -0,16 -1,88
12 -0,4 0,479 -0,05 -0,62
13 -0,1 0,521 0,05 0,62 -10,0
14 0,6 0,563 0,16 1,88
15 2,7 0,604 0,26 3,15 -20,0
16 3,4 0,646 0,37 4,46
17 4,8 0,688 0,49 5,83
-30,0
18 5,7 0,729 0,61 7,28
19 9,0 0,771 0,74 8,85 -30,0 -20,0 -10,0 0,0 10,0 20,0 30,0
20 10,8 0,813 0,89 10,58 Residuos ordenados
21 11,8 0,854 1,05 12,58
22 14,4 0,896 1,26 15,01
23 14,8 0,938 1,53 18,30
24 24,5 0,979 2,04 24,30

Análisis de la varianza 65

Gráfico probabilista normal

99.9
99
Probabilidad

95
80
50
20
5
1
0.1
-30 -20 -10 0 10 20 30
Residuos

Análisis de la varianza 66
Ejemplos
99,9 99,9
99 99
95 95
80 80
50 50
20 20
5
1
Normal 5
1
No normal
0,1 0,1
-2,6 -1,6 -0,6 0,4 1,4 2,4 3,4 0 3 6 9 12 15

99,9 99,9
99 99
95 95
80 80
50 50
20 20
5
1 No normal
5
1
No normal
0,1 0,1
0 0,4 0,8 1,2 1,6 2 -3 -1 1 3 5

Análisis de la varianza 67

Comprobación de la homocedasticidad

En el proceso de estimación se ha supuesto que los


distintos tratamientos tienen la misma varianza.

Herramientas:
- Gráficos de residuos:
·Frente a valores previstos
·Frente a tratamientos (o factor,etc.)
- Contrastes formales:
Bartlett, Cochran, Hartley, Levene

Análisis de la varianza 68
Residuos - Valores previstos
30
20
En este modelo los valores
10
previstos corresponden a
residuos

0 la media del tratamiento.


-10
-20 Los puntos deben aparecer
-30 dispuestos al azar en una
210 220 230 240 250
valores previstos
banda horizontal alrededor
30
del eje horizontal.
20
Heterocedasticidad: a veces
10
residuos

0
la dispersión aumenta
-10 conforme la media crece.
-20
-30
0 5 10 15
Valores previstos

Análisis de la varianza 69

Residuos por tratamientos


25

15
máx.
Residuos

mín.

-5

-15

-25
A B C D
Semilla
En cada grupo los residuos aparecen esparcidos
con dispersión similar y media cero.

Análisis de la varianza 70
Residuos por tratamientos
25

15

máx.
Residuos

mín.
5
máx
-5 3
mín
-15

-25
A B C D
Semilla
En cada grupo los residuos aparecen esparcidos
con dispersión similar y media cero.

Análisis de la varianza 71

Contrastes formales

V2 VK
V1
...
P1 P2 PK

H 0 : V 12 V 22  V K2
H1 : Alguna es distinta

Análisis de la varianza 72
Contrastes formales

Un ejemplo de este tipo de contrastes formales es el


contraste de Bartlett.

Para el ejemplo de los tipos de semilla se tiene un p-


valor = 0.177>α No se rechaza la hipótesis nula
de homocedasticidad.

Análisis de la varianza 73

Diagnosis: Tres gráficos básicos


0,57 0,57

0,37 0,37
residuos

residuos

0,17 0,17

-0,03 -0,03

-0,23 -0,23

-0,43 -0,43
0 0,3 0,6 0,9 1,2 1 2 3

Valores previstos Tratamientos

99,9
99
Homocedasticidad
probabilidad

95
80
50
20
5
1 Normalidad
0,1
-0,33 -0,13 0,07 0,27 0,47
residuos
Gráfico probabilista normal

99,9
99
probabilidad

95
80
50
20
5
1
0,1
-0,33 -0,13 0,07 0,27 0,47
residuos

Análisis de la varianza 75

Transformaciones z=h(y) para estabilizar la


varianza

En la práctica, en la mayoría de los casos, alguna


de las transformaciones siguientes corrige la
heterocedasticidad:

· 1/x
· log(x)
· x2 (u otras transformaciones xp)
· x

Análisis de la varianza 76
Transformaciones Box-Cox
z ij1,5 p>1
p=1
1

0,5 p<1

0 yij
1
-0,5

-1
yijp  1
z ij
-1,5 p
z ij log yij si p 0

Análisis de la varianza 77

Búsqueda de la
transformación adecuada
0,57

0,37 La dispersión
aumenta al aumentar
residuos

0,17

-0,03 la media
-0,23

-0,43
0 0,3 0,6 0,9 1,2
p<1
Valores previstos
1,6
1,1
0,6
La dispersión
residuos

0,1 disminuye al
-0,4 aumentar la media
-0,9
-1,4
0 4 8 12 16 p>1
valores previstos

Análisis de la varianza 78
p
Elección de la transformación zij yij
Empezar con p=1 (datos sin transformar) y
decidir a partir de los gráficos si p>1 o
p<1.
­ p 1/ 2 Ÿ z ij yij
°
° p 0 Ÿ z ij log yij
° 1
° p 1 / 2 Ÿ z ij
p 1 o ® yij
° 1
° p 1 Ÿ z ij
° yij2
°   
¯

Parar cuando los gráficos estén ok.

Análisis de la varianza 79

Independencia
Es la hipótesis fundamental y con diferencia la más
importante de las tres, además es la más difícil de
comprobar.

La falta de independencia suele ir ligada a factores no


controlados por el experimentador y que influyen en
los resultados introduciendo errores sistemáticos.

La forma más recomendable de evitar errores


sistemáticos consiste en aleatorizar.

Análisis de la varianza 80
Aleatorización

La aleatorización evita que se produzcan


errores que sistemáticamente aumenten o
disminuyan un conjunto de medidas por
causas no reconocibles: al aleatorizar se
reparten estos errores por igual entre los
diferentes tratamientos y se convierten en
errores aleatorios, previstos en el modelo.

Análisis de la varianza 81

¿Cómo aleatorizar?
Asignar las unidades experimentales al azar a
los distintos tratamientos.
Aleatorizar el orden de ejecución de los
experimentos.
Aleatorizar respecto a cualquier otra variable
que implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsiones
que pueden ocurrir o no ocurrir, y que pudieran ser
serias o no si llegaran a ocurrir”

Análisis de la varianza 82
¿Cómo aleatorizar?

Asignar las unidades experimentales al azar a


los distintos tratamientos.
Aleatorizar el orden de ejecución de los
experimentos.
Aleatorizar respecto a cualquier otra variable
que implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsiones
que pueden ocurrir o no ocurrir, y que pudieran ser
serias o no si llegaran a ocurrir”

Análisis de la Varianza 83

Comparación de k tratamientos con R

Ejemplos:

- Comparación de k=4 tipos de semilla en la


producción de centeno (centeno.txt).
- Datos obtenidos por Heyl para medir el valor de la
constante de gravitación universal, G, comparación
para k=3 materiales (heyl.txt).
- Influencia del tipo de fibra en el tiempo de
combustión (fibras.txt).

Análisis de la Varianza 84
Ejemplo 1: Centeno

ARCHIVO TEXTO: centeno.txt

Análisis de la Varianza 85

Tabla ANOVA: Centeno

Análisis de la Varianza 86
Intervalos de confianza: Centeno
> source('ICplot.R')
> ICplot(mod, ‘Sem')

250
medias

230
210

A B C D

Sem

Análisis de la Varianza 87

Comparaciones Múltiples: Centeno

Análisis de la Varianza 88
Diagnosis: Centeno

Residuals vs Fitted Normal Q-Q

Standardized residuals
19 19

2
Residuals

0 10

1
0
-1
-20

12 12
10 10

215 220 225 230 235 240 245 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Constant Leverage:
Scale-Location Residuals vs Factor Levels
1.5
Standardized residuals

Standardized residuals
19
19

2
10
12
1.0

1
0
0.5

-1

12
0.0

10
-2

centeno$Sem :
215 220 225 230 235 240 245 C B A D

Fitted values Factor Level Combinations

Análisis de la Varianza 89

Ejemplo 2: Datos de Heyl

Datos de las mediciones realizadas para G (x 1011 N m2/kg2)

Análisis de la Varianza 90
ANOVA Ejemplo 2: Datos de Heyl

Análisis de la Varianza 91

Comparaciones múltiples: Datos de Heyl

El objetivo es saber qué tipo de semilla es mejor.

Análisis de la Varianza 92
Comparaciones múltiples: Datos de Heyl

Comparaciones 2 a 2

Análisis de la Varianza 93

Comparaciones múltiples: Datos de Heyl

Comparaciones 2 a 2

Análisis de la Varianza 94
Diagnosis: Datos de Heyl

Diagnosis del modelo

Análisis de la Varianza 95

Ejemplo 3: Combustión de distintos tipos de


fibra

Se ha realizado un experimento para medir el tiempo de


combustión de unos retales de cuatro fibras diferentes. En
la tabla siguiente se proporcionan los resultados obtenidos
(en segundos) del modelo.

Análisis de la Varianza 96
Ejemplo 3: Combustión de distintos tipos de
fibra

Se ha realizado un experimento para medir el tiempo de


combustión de unos retales de cuatro fibras diferentes. En
la tabla siguiente se proporcionan los resultados obtenidos
(en segundos) del modelo.

- ¿Tienen las cuatro fibras igual comportamiento respecto al


tiempo de combustión? Indique el nivel crítico del
contraste.
- ¿Cuál es la fibra que presenta menor tiempo medio de
combustión?.
- Analizar los residuos comprobar las hipótesis del modelo.

Análisis de la Varianza 97

Ejemplo 3: Combustión de distintos tipos de


fibra

Se rechaza la hipótesis nula de que todas las fibras sean


iguales frente a la alternativa de que alguna es distinta,
con un p-valor de 0.0001016 < α.

Análisis de la Varianza 98
Ejemplo 3: Combustión de distintos tipos de
fibra
Comparaciones múltiples. El mayor tiempo de combustión,
significativamente distinto a los anteriores: fibra A. En media
la C es la que tiene menor tiempo de combustión, pero no
significativamente distinta a la B y D.

Análisis de la Varianza 99

Ejemplo 3: Combustión de distintos tipos de


fibra

Diagnosis del modelo

Análisis de la Varianza 100


Análisis de la varianza con R:
comparación de dos tratamientos

Ejemplos:

- Velocidad de la luz: Michelson vs. Newcomb


- Sensores
- Pilas

Análisis de la Varianza 101

Análisis de la varianza con R:


Ejemplo 1: Michelson

En 1879, el físico norteamericano Albert A. Michelson tomó 100 medidas de la


velocidad de la luz en el aire empleando una modificación del método propuesto
por el físico francés Foucault. Las medidas que tomó se proporcionan a
continuación (en miles de km/s).
En 1882 Simon Newcomb midió el tiempo que una señal luminosa tardaba en recorrer
una distancia de 7.442 metros.
En el fichero Michelson.txt se incorporan los datos obtenidos de ambos experimentos,
en miles de km/s.
Los datos de Michelson y Newcomb fueron tomados con una diferencia de tres años y
con experimentos diferentes. Basándose en los resultados anteriores sobre el
modelo distribucional del que proceden estos datos, responde las siguientes
cuestiones:
- Compare gráficamente los datos de la velocidad de la luz de Newcomb y de
Michelson (diagramas de cajas e histogramas).
- Analice si existen diferencias significativas entre las estimaciones de la velocidad de
la luz obtenidas en ambos experimentos.

Análisis de la Varianza 102


Análisis de la varianza con R:
Ejemplo 1: Michelson

Análisis de la Varianza 103

Análisis de la varianza con R:


Ejemplo 1: Michelson

Comparación de los métodos de Michelson (M) y Newcomb (N):

Análisis de la Varianza 104


Análisis de la varianza con R:
Ejemplo 1: Michelson

Diagnosis: Contraste de Bartlett

Análisis de la Varianza 105

Análisis de la varianza con R:


Ejemplo 1: Michelson

Diagnosis: Contraste de Bartlett

Se rechaza la hipótesis nula de igualdad de varianzas

H 0 : V MICHELSON
2
V NEWCOMB
2

H1 : V MICHELSON
2
z V NEWCOMB
2

El rechazo de la hipótesis nula se debe a la presencia de valores


atípicos en el experimento de Newcomb.

Análisis de la Varianza 106


Análisis de la varianza con R:
Ejemplo 2: Sensores

Una empresa suministra tubos de escape a la industria del automóvil. En el tubo de


escape se coloca un sensor que comunica al ordenador del coche el contenido de
CO en los gases de escape. La empresa dispone de dos tipos de sensores A y B
basados en principios de medición diferentes. Tanto uno como otro se colocan en el
silencioso del tubo de escape. El departamento de I+D de la empresa sospecha que
pueden existir diferencias entre las mediciones efectuadas por los dos tipos de
sensor y decide realizar un experimento. La primera idea consiste en seleccionar 10
sensores del tipo A y otros 10 del tipo B y colocarlos en los tubos de escape de 20
coches distintos.
No obstante un ingeniero de la empresa sugiere que para evitar que la variabilidad
entre coches distintos enmascare los resultados del experimento, se utilicen 10
coches y que en cada uno de ellos se monte un sensor A y otro B ambos colocados
en el silencioso y en dos posiciones cercanas entre sí.
¿Qué procedimiento experimental le parece más adecuado? ¿Por qué?.
Finalmente se opta por el plan experimental propuesto por el ingeniero. El contenido en
partes por millón de CO observado en el experimento fue el que se indica en la
tabla (Sensor.txt):

Análisis de la Varianza 107

Análisis de la varianza con R:


Ejemplo 2: Sensores

Análisis de la Varianza 108


Análisis de la varianza con R:
Ejemplo 2: Sensores

No existen diferencias significativas entre los tipos de


sensores A y B

Análisis de la Varianza 109

Análisis de la varianza con R:


Ejemplo 2: Sensores

Diagnosis del modelo: Comprobación de la homocedasticidad


e independencia.

Análisis de la Varianza 110


Análisis de la varianza con R:
Ejemplo 2: Sensores

Diagnosis del modelo: Comprobación de la homocedasticidad


mediante el contraste de Bartlett. Alternativa sólo válida para
k=2 tratamientos.

Análisis de la Varianza 111

Análisis de la varianza con R:


Ejemplo 3: Tiempo de descarga de pilas

Se ha medido el tiempo hasta la descarga de dos marcas de


pilas y se desea contrastar si en base a esta variable las dos
marcas son distintas.

Tabla de datos: Energizer Ultracell


1,40 1,56
1,39 1,54
1,35 1,53
1,38 1,54
1,35 1,54
1,36 1,47
1,31 1,49
1,26 1,54
1,37 1,50

Análisis de la Varianza 112


Análisis de la varianza con R:
Ejemplo 3: Tiempo de descarga de pilas

Se ha medido el tiempo hasta la descarga de dos marcas de


pilas y se desea contrastar si en base a esta variable las dos
marcas son distintas.

Análisis de la Varianza 113

Análisis de la varianza con R:


Ejemplo 3: Tiempo de descarga de pilas

Comparaciones dos a dos del ejemplo PILAS2:

Análisis de la Varianza 114


Análisis de la varianza con R:
Ejemplo 3: Tiempo de descarga de pilas

Diagnosis del ejemplo PILAS2:

Análisis de la Varianza 115

Análisis de la varianza con R:


Ejemplo 3: Tiempo de descarga de pilas

Contraste de Bartlett para el ejemplo PILAS2:

No se rechaza la hipótesis nula de homocedasticidad


(igualdad de varianzas).

Análisis de la Varianza 116


Análisis de la Varianza, comparación de 2 tratamientos

1. Se estudian dos tipos de neumáticos con los resultados siguientes:


Tipo ni xi (Km) sbi (Km)
A 121 27465 2500
B 121 27572 3000
Calcular, con α = 0.01:
σ 21
a) Un intervalo de confianza para σ 22
.
b) Un intervalo de confianza para µ1 − µ2 .

2. Se dispone de rendimientos de dos máquinas. Los resultados de la máquina A son 137.5;


14.07; 106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3;
121.7; 98.4; 161.5; 167.8 y 67.3. ¿Son las máquinas iguales? (Suponer que los rendimientos
de ambas máquinas siguen distribuciones normales).

3. Un fabricante de automóviles debe elegir entre un determinado tipo de piezas de acero


suministradas por un proveedor A y otras suministradas por otro proveedor B. Para proceder
a la elección se ha analizado la resistencia a la tracción de las piezas suministradas por ambos
proveedores, tomando una muestra de tamaño 10 de las piezas del primero, y otra de tamaño
12 del segundo. La resistencia media de la muestra de A es de 54000 unidades y la de la
muestra de B es de 49000 unidades, siendo las desviaciones tı́picas muestrales corregidas
sbA = 2100 y sbB = 1900. Las resistencias de las piezas de ambos proveedores se distribuyen
normalmente. Las piezas del proveedor B son más baratas que las del proveedor A, por lo
que estas últimas sólo son rentables si tienen una resistencia media al menos 2000 unidades
mayor que las de B, y la misma variabilidad.
a) ¿A qué proveedor habrı́a que comprar las piezas a la vista de los resultados muestrales?
b) Obtener un intervalo de confianza al 90% para la diferencia de medias de la resistencia
de las piezas de los proveedores A y B.

Análisis de la Varianza, comparación de k tratamientos

1. En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos
distintos (A, B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha
realizado un control de calidad a una muestra tomada para cada modelo. El número de
defectos encontrados para cinco vehı́culos del modelo A son 5, 4, 6, 6 y 7; para seis vehı́culos
del modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehı́culos del modelo C: 9, 7, 8, 9, 10, 11, 10 y
10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.

1
2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto quı́mico.
Se sospecha que existen diferencias entre ellos aunque pequeñas. Para detectar estas diferen-
cias se pretende realizar un experimento a gran escala con el mismo número de observaciones
en cada grupo. Para determinar este tamaño muestral se ha realizado un experimento piloto
con 6 observaciones de cada método y los resultados (medias de cada grupo) han sido los
siguientes:
METODO 1 2 3 4 5
Media 425.6 423.2 418.8 430.2 422.2
y la varianza residual ŝ2R = 198.5.

(a) ¿ Cúal debe ser el tamaño muestral del experimento a gran escala para que el contraste
de análisis de la varianza sea significativo con α = 0.01 si el coeficiente de determinación
es igual al del experimento piloto?.
(b) El método A es el procedimiento habitual y el método D es el que se sospecha propor-
ciona mejor rendimiento. Una hipótesis que se pretende contrastar es H0 : µD = µA ,
frente a la hipótesis alternativa H1 : µD > µA . ¿ Qué condición debe cumplir la difer-
encia entre las medias muestrales de los dos métodos para rechazar H0 con α = 0.01?

3. Se ha realizado un experimento para estudiar el efecto de un único factor con I niveles


en la variable respuesta y con un número diferente de observaciones en cada tratamiento:
n1 , n2 , ..., nI siendo el total n = n1 + n2 + · · · + nI . Llamando yij a la observación j del
tratamiento i, i = 1, ..., I, j = 1, 2, ..., ni e ȳi• la media del tratamiento i. Se desea estimar
la media general ¿cuál de los dos estimadores siguientes
I ∑
∑ ni

I
yij ȳi•
i=1 j=1 i=1
y •• = , ỹ•• =
n I
tiene mı́nima varianza? Realiza la comprobación para el caso I = 5, con ni = 3, 2, 3, 5, 6 el
número de observaciones en cada tratamiento. Asumir que las observaciones son independi-
entes y que se cumple la hipótesis de homocedasticidad.

4. Considere la comparación de dos tratamientos en poblaciones normales. Demuestre que el


contraste t para comparar dos medias es análogo al contraste de la F en Análisis de la
Varianza (suponga n1 = n2 ).

5. Cinco tipos (A, B, C, D y E) de material sintético se han sometido a un ensayo de desgaste.


Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviación
tı́pica corregida en cada caso es la siguiente:
A B C D E
media xi 14.1 16.3 13.5 14.8 15.3
d. tı́pica ŝi 1.3 1.2 1.4 1.2 1.5

2
(a) Contrastar (α = 0.05) la hipótesis

H0 : µA = µB = µC = µD = µE
frente a la hipótesis alternativa,

H1 : alguna media es distinta de las demás.


(b) Indicar con nivel de confianza 0.95 el material con desgaste menor y qué materiales
tienen desgaste medio, distinto.
(c) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.

6. Se desea comprobar el efecto de un tratamiento térmico sobre la resistencia de un nuevo


material. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1 ,
T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes:
T1 T2 T3
2.65 4.31 4.81
2.67 3.96 5.32
2.46 4.64 4.93
1.90 4.74 5.49
2.62 4.00 4.45

(a) Contrastar mediante el test de análisis de la varianza si existen diferencias significativas


entre los tratamientos térmicos (α = 0.01).
(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dos
tratamientos. Si la relación entre la resistencia y la temperatura es lineal, es de esperar
que la media del tratamiento 2 verifique : H0 : µ2 = 12 (µ1 + µ3 ). Hacer el contraste
bilateral de esta hipótesis con α = 0.05. (Nota.- Usar la distribución de y 2 −(y 1 +y 3 )/2,
donde y i es la media de los datos correspondientes al tratamiento Ti ).

7. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difieren
significativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un quı́mico
hace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidos
han sido
Lote 1 Lote 2 Lote 3 Lote 4 Lote 5
23.46 23.59 23.51 23.28 23.29
23.48 23.46 23.64 23.40 23.46
23.56 23.42 23.46 23.37 23.37
23.39 23.49 23.52 23.46 23.32
23.40 23.50 23.49 23.29 23.38
La tabla de análisis de la varianza se proporciona a continuación. Comparar las medias de
los cinco tratamientos con nivel de significación total αT = 0.10.

3
Análisis de la varianza
Fuente Variabilidad g.l. Var. Media F Nivel crı́tico
Lote 0.096976 4 0.024244 5.54 0.0036
Residuos 0.08760 20 0.00438
Total 0.184576 24

4
2. Diseño de Experimentos

Diseño de experimentos:

Diseños Factoriales
Bloques Aleatorizados
Formas de realizar un experimento

Diseño Experimentos 3

2.1 Diseños factoriales


(dos factores)
Ejemplo
ANTÍDOTO
A B C D
0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.71
I
V 0.46 0.88 0.63 0.66
E 0.43 0.72 0.72 0.62
N 0.36 0.92 0.44 0.56
E 0.29 0.61 0.35 1.02
II
N 0.40 0.49 0.31 0.71
O 0.23 1.24 0.40 0.38
S 0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.36
III
0.18 0.38 0.24 0.31
0.23 0.29 0.22 0.33

Se analiza el efecto de tres venenos y cuatro antídotos


en el tiempo de supervivencia de unas ratas.

Diseño Experimentos 5

Comandos en R
ARCHIVO TEXTO: venenos.txt

Diseño Experimentos 6
Modelo
Factor 1
1 2  I
y111 y 211 y I 11 yijk P  D i  E j  DE ij  uijk
y112 y 212 y I 12
1 
   •Normalidad
Factor 2

y11m y 21m y I 1m
y121 y 221 y I 21 •Independencia
2
y122 y 222

y I 22 •Homocedasticidad
  
y12 m y 22 m y I 2m IuJ tratamientos
    
y1J 1 y2 J 1 y IJ 1 m replicaciones
y1J 2 y2 J 2 y IJ 2
J 
   n = muIuJ
y1Jm y 2 Jm y IJm

Diseño Experimentos 7

Factor 1
1 2 ... I

1
V V
... V

P  D1  E1  DE11 P  D 2  E1  DE 21 P  D I  E1  DE I 1

V V
... V
Factor 2

2
P  D1  E 2  DE12 P  D 2  E 2  DE 22 P  D I  E 2  DE I 2
    

J
V V
... V

P  D1  E J  DE1J P  D 2  E J  DE 2 J P  D I  E J  DE IJ
Modelo
yijk P  D i  E j  DE ij  uijk
¦iI 1Di 0 ¦ Jj 1 E j 0 ¦i
I
1 DE ij 0, j
¦ Jj 1DE ij 0, i
P : Media global
Di : Efecto del Factor 1 i, i=1,...,I
Ej : Efecto del Factor 2 j, j=1,...,J
DEij: Interacción de niveles ij
uijk : Componente aleatoria N(0,V2), k=1,…m

Diseño Experimentos 9

Estimación del modelo


P :o 1 Pˆ y xxx
Dˆ i y ixx  y xxx
D i :o I  1
Eˆ j y x j x  y xxx
E j :o J  1 š
DE ij y ij x  y ixx  y x j x  y xxx
DE ij :o ( I  1)( J  1)
Vˆ 2 2
sˆR
¦¦¦ eijk2
V 2 :o 1 IJ (m  1)

m J m I m I J m

¦y ijk ¦¦ y
j 1 k 1
ijk ¦¦ y ijk ¦¦¦ y
i 1 j 1 k 1
ijk
k 1 i 1 k 1
y ij x y ixx y x jx y xxx
m mJ mI n

Diseño Experimentos 10
Estimación del modelo

yijk P  D i  E j  DE ij  uijk

yijk Pˆ  Dˆ i  Eˆ j  DEij  eijk

eijk yijk  ( Pˆ  Dˆ i  Eˆ j  DEij ) yijk  yij x

g.l.=IJm-IJ=IJ(m-1)

Diseño Experimentos 11

Estimación
ANTÍDOTO
A B C D
0.31 0.82 0.43 0.45
V 0.45 1.10 0.45 0.71
I
0.46 0.88 0.63 0.66
E 0.43 0.72 0.72 0.62
0.41 0.88 0.56 0.61
N 0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
II
E 0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
N 0.32 0.82 0.38 0.67
0.22 0.30 0.23 0.30
O 0.21 0.37 0.25 0.36
III
0.18 0.38 0.24 0.31
S 0.23 0.29 0.22 0.33
0.21 0.34 0.24 0.33

Diseño Experimentos 12
Estimación
A
ANTÍDOTO
B C D Medias D̂ i
0,31 0,82 0,43 0,45
0,45 1,10 0,45 0,71
V I 0,46 0,88 0,63 0,66 0,615 0,136
0,43 0,72 0,72 0,62
E Medias 0,41 0,88 0,56 0,61

N
DE ij -0,038
0,36
0,067
0,92
0,032
0,44
-0,061
0,56
0,29 0,61 0,35 1,02
E II 0,40 0,49 0,31 0,71 0,544 0,066
0,23 1,24 0,40 0,38
N Medias 0,32 0,82 0,38 0,67
DE ij -0,060 0,073 -0,080 0,068
O 0,22 0,30 0,23 0,30
0,21 0,37 0,25 0,36
S III 0,18 0,38 0,24 0,31 0,276 -0,202
0,23 0,29 0,22 0,33
Medias 0,21 0,34 0,24 0,33
DE ij 0,098 -0,139 0,048 -0,007
Medias 0,314 0,677 0,389 0,534 0,479
Ê j -0,164 0,198 -0,089 0,056

Diseño Experimentos 13

Dos factores con interacción

Diseño Experimentos 14
Residuos
RESIDUOS
ANTÍDOTO
eijk yijk  yij x
¦e
A B C D

V
I
-0.103
0.038
-0.060
0.220
-0.128
-0.108
-0.160
0.100 ijk 0
0.048 0.000 0.073 0.050
E 0.018 -0.160 0.163 0.010
k
0.00 0.00 0.00 0.00
N 0.040 0.105 0.065 -0.108
-0.030 -0.205 -0.025 0.353
II
E 0.080 -0.325 -0.065 0.043
-0.090 0.425 0.025 -0.288
Vˆ 2
sˆ 2 ¦¦¦ e 2
ijk
0,022
N 0.00 0.00 0.00 0.00 IJ (m  1)
R

0.010 -0.035 -0.005 -0.025


O 0.000 0.035 0.015 0.035
III
-0.030 0.045 0.005 -0.015
S 0.020 -0.045 -0.015 0.005
0.00 0.00 0.00 0.00

Diseño Experimentos 15

Diseño Experimentos 16
Descomposición de la variabilidad

VT VE ( A)  VE ( B)  VE ( A u B)  VNE
(n  1) ( I  1)  ( J  1)  ( I  1)( J  1)  IJ (m  1)

DATOS MODELO

Diseño Experimentos 17

Variabilidades

I J m
VT ¦¦¦(y
i 1 j 1 k 1
ijk  y xxx ) 2
I I
VE ( A) mJ ¦ ( y i xx  y xxx ) 2
mJ ¦ (Dˆ i ) 2
i 1 i 1
J I
VE ( B ) mI ¦ ( y x j x  y xxx ) 2 mI ¦ ( Eˆi ) 2
j 1 i 1
I J
VE ( A u B ) m¦ ¦ (DE ij ) 2
i 1 j 1
I J m I J m
VNE ¦¦¦(y
i 1 j 1 k 1
ijk  y ij x ) 2
¦ ¦ ¦ (e
i 1 j 1 k 1
ijk )2

Diseño Experimentos 18
Descomposición de la
variabilidad

Diseño Experimentos 19

Análisis de la varianza
š
yijk P  D i  E j  DEij  uijk Ÿ yijk Pˆ  Dˆ i  Eˆ j  DE ij  eijk
yijk y xxx  ( y ixx  y xxx )  ( y x j x  y xxx )  ( y ij x  y ixx  y x j x  y xxx )  ( yijk  y ij x )
yijk  y xxx ( y ixx  y xxx )  ( y x j x  y xxx )  ( y ij x  y ixx  y x j x  y xxx )  eijk
I J m I J m I J m

¦¦ ¦ ( y
i 1 j 1 k 1
ijk  y xxx ) 2 ¦¦¦ ( y
i 1 j 1 k 1
i xx  y xxx ) 2  ¦¦¦ ( y x j x  y xxx ) 2 
i 1 j 1 k 1
I J m I J m
 ¦¦¦ ( y ij x  y ixx  y x j x  y xxx ) 2  ¦¦¦ eijk2
i 1 j 1 k 1 i 1 j 1 k 1

I J m I J

¦¦ ¦ ( yijk  y xxx )2
i 1 j 1 k 1
mJ ¦ ( y ixx  y xxx ) 2 mI ¦ ( y x j x  y xxx ) 2
i 1 j 1
I J I J m
 m¦¦ ( y ij x  y ixx  y x j x  y xxx )  ¦¦¦ eijk2 2

i 1 j 1 i 1 j 1 k 1

Diseño Experimentos 20
Contraste de Hipótesis
Si el Veneno no influye, los I niveles son iguales
a efectos de tiempo de supervivencia, entonces
D1 D 2  D I ¦iI 1Di 0

H 0 : D1 D 2  DI 0
H1 : Algún D i es distinto de 0

Diseño Experimentos 21

Contraste efecto principal de factor A

H 0 : D1 D 2  DI 0
H1 : Algún D i es distinto de 0
VNE
sˆR2 o E[ sˆR2 ] V 2
IJ (m  1)
VE ( A)
Si Ho es cierto, sˆ A2 o E[ sˆ A2 ] V 2
I 1
I

sˆ 2 mJ ¦ ( y i xx  y xxx ) 2 I  1
FA A
2
i 1
2
o FI 1; IJ ( m 1)
sˆ R sˆ R

Si FA ! FD Ÿ Se rechaza Ho
Diseño Experimentos 22
Contraste efecto principal de factor B

H 0 : E1 E2  E J 0
H1 : Algún E j es distinto de 0

VE ( B)
Si Ho es cierto, sˆ 2
o E[ sˆB2 ] V 2
J 1
B

J
2 mI ¦ ( y x j x  y xxx ) 2 J  1
sˆ j 1
FB B
2 2
o FJ 1; IJ ( m 1)
sˆ R sˆ R

Si FB ! FD Ÿ Se rechaza Ho
Diseño Experimentos 23

Contraste interacción AxB


H 0 : DE11 DE12  DE IJ 0
H 1 : Algún DE ij es distinto de 0
VE ( A u B)
Si Ho es cierto, sˆ 2
o E[ sˆ AB
2
] V2
( I  1)( J  1)
AB

2
sˆ AB
FAB 2
o F( I 1)( J 1); IJ ( m 1)
sˆR
Si FAB ! FD Ÿ Se
rechaza

Ho

A y B interaccio nan
Diseño Experimentos 24
Tabla de análisis de la varianza
Fuentes Suma de Grados de
Variabilid ad Cuadrados Libertad. Varianza F p  valor
2

mJ ¦ ( y ixx  y xxx )
A
2 2
A I 1 sˆ A sˆR2 pA

sˆB2
B mI ¦ ( y x j x  y xxx ) 2
J 1 sˆB2 sˆR2 pB
2
sˆ AB
AuB m¦¦ ( yij x  y ixx  y x j x  y xxx ) 2
( I  1)( J  1) 2
sˆ AB sˆR2 p AB

Residual ¦¦¦ e 2
ijk IJ (m  1) sˆR2

Total ¦¦¦ ( y  y ijk xxx )2 n 1

Diseño Experimentos 25

Tabla ANOVA

Diseño Experimentos 26
Interpretación

La interacción no es significativa

Se interpreta cada factor por


separado

Diseño Experimentos 27

Contrastes múltiples: Factor A

H 0 : Di Dj R.R. R.R
tIJ(m-1)
H1 : D i z D j
1-D
D/2 D/2
Dˆ i y i xx  y xxx ½
¾ Dˆ i  Dˆ j y i xx  y j xx R. Acept. H0
Dˆ j y j xx  y xxx ¿
-tD/2 tD/2
V2 V2
Dˆ i  Dˆ j o N (D i  D j ,  )
mJ mJ
y i xx  y j xx yixx  y j xx ! tD / 2 sˆR
2
o t IJ ( m 1)
mJ

2
sˆR
LSD

mJ Se rechaza Ho

Diseño Experimentos 28
Contrastes múltiples: Factor B

H 0 : Ei Ej R.R. R.R
tIJ(m-1)
H1 : E i z E j 1-D
D/2 D/2
Eˆi y xi x  y xxx ½
¾ Eˆ i  Eˆ j y xi x  y x j x R. Acept. H0
Eˆ j y x j x  y xxx ¿
-tD/2 tD/2
V2 V2
Eˆi  Eˆ j o N ( E i  E j ,  )
mI mI
yxi x  y x j x yxix  yx j x ! tD / 2 sˆR
2
o t IJ ( m 1)
mI

2
sˆR LSD

mI Se rechaza Ho

Diseño Experimentos 29

Intervalos de confianza
(interacción nula)

sˆR
P  D i  y i xx r tD / 2
mJ

sˆR
P  E i  y x j x r tD / 2
mI

Diseño Experimentos 30
Intervalos de Confianza
> source('ICplot.R')
> par(mfrow = c(1,2))
> ICplot(mod_box, 'VEN')
> ICplot(mod_box, 'ANT')
0.7

0.7
0.6

0.6
0.5
medias

medias

0.5
0.4

0.4
0.3

0.3
0.2

I II III A B C D

VEN ANT

Diseño Experimentos 31

Comparaciones Múltiples

Diseño Experimentos 32
Comparaciones Múltiples

Diseño Experimentos 33

Interacción
En este ejemplo NO se debe interpretar
porque no es significativa.
¿Cómo se haría?

Diseño Experimentos 34
Diagnosis: Sobre residuos

Normalidad
Homocedasticidad
Independencia

Diseño Experimentos 35

Diagnosis

Diseño Experimentos 36
Diseño Experimentos 37

Diagnosis: homocedasticidad

Diseño Experimentos 38
Homocedasticidad

Diseño Experimentos 39

Normalidad

Diseño Experimentos 40
Conclusión:Transformar

log y
1/y
Sqrt(y)

Diseño Experimentos 41

Transformación 1/y

Diseño Experimentos 42
Diagnosis: homocedasticidad
datos transformados z=1/y

Diseño Experimentos 43

Homocedasticidad
datos transformados z=1/y

Diseño Experimentos 44
Normalidad
datos transformados z=1/y

Diseño Experimentos 45

Comparaciones múltiples
intervalos de confianza

Diseño Experimentos 46
Diseño Experimentos 47

Ejercicio
Un investigador quiere estudiar el efecto del sexo (H, M) y
tipo de formación (ciencias, letras) en el dominio del inglés
escrito en profesores universitarios. Para ello se analiza el
nº de incorrecciones gramaticales en artículos científicos
enviados a publicación. Para combinación de niveles de los
factores se han elegido al azar tres profesores. En la tabla
se proporciona el nº de fallos detectados en artículos de 15
páginas. ¿Qué conclusiones pueden extraerse?.

Letras Ciencias

Hombre 8, 6, 13 22, 28,33

Mujer 5,10,6 12,14,9

Diseño Experimentos 48
Comandos en R
ARCHIVO TEXTO: ciencias.txt

> view(error)
> attach(error)
> names(error)
> error

Diseño Experimentos 49

Estimación

Diseño Experimentos 50
Descomposición variabilidad

Diseño Experimentos 51

Análisis de la Varianza

• Considerando nivel de significación 0,05,


los efectos principales y la interacción son SIGNIFICATIVOS

• La interpretación se hace a partir del gráfico de interacción

Diseño Experimentos 52
Interacción:
En este ejemplo es significativa.

Diseño Experimentos 53

Diagnosis: Sobre residuos

Normalidad
Homocedasticidad
Independencia

Diseño Experimentos 54
Diagnosis

Diseño Experimentos 55

Diagnosis: más graficos

Diseño Experimentos 56
Bloques Aleatorizados

Ejemplo de introducción
Fluorita
0% 1% 2% 3% 4%
M 1 15.02 11.86 9.94 12.45 13.23
e 2 8.42 10.15 8.54 6.98 8.93
z 3 18.31 16.84 15.86 14.64 15.96
c 4 10.49 10.52 8.04 10.50 10.34
l 5 9.78 9.59 6.96 8.15 9.24
a 6 9.28 8.84 7.04 6.66 9.46

Se desea estudiar el efecto de la Fluorita en la


reducción del coste energético en la fabricación de
cemento. Se emplean 6 mezclas distintas de materias
primas.

Diseño Experimentos 58
> fluorita = read.table('fluorita.txt', header = T)
> attach(fluorita)
> FLUO = factor(fluo)
> MEZ = factor(mez)
> fluorita

Diseño Experimentos 59

Modelo
Tratamientos
1 2  I yij P  D i  E j  uij
1 y11 y21  y I 1
•Normalidad
Bloques

2 y12 y22  y I 2
     •Independencia
J y1J y2 J  y IJ •Homocedasticidad
P : Media global
Di : Efecto del tratamiento i, i=1,...,I ¦iI 1Di 0
Ej : Efecto del bloque j, j=1,2,...,J ¦ Jj 1 E j 0
uij : Componente aleatoria N(0,V2)

Diseño Experimentos 60
Tratamientos
1 2 ... I

1
V V
... V

P  D1  E1 P  D 2  E1 P  D I  E1

V V
... V
Bloques

2
P  D1  E 2 P  D2  E2 P  D I  E2

    

J
V V
... V

P  D1  E J P  D2  E J P DI  EJ

Estimación del modelo


­ Pˆ y xx
­ P :o 1 °
°D :o I  1 °° Dˆ i y i x  y xx
° i Eˆ j y x j  y xx
Parámetros : ® Estimadore s : ®
° E j :o J  1 °
¦ ¦ eij2
°¯ V 2 :o 1 °Vˆ 2 sˆ 2
°¯ R
( I  1)( J  1)
J I I J
¦ yij ¦ yij ¦ ¦ yij
j 1 i 1 i 1j 1
yix yx j y xx
J I n

yij P  D i  E j  uij eij yij  Pˆ  Dˆ i  Eˆ j


yij Pˆ  Dˆ i  Eˆ j  eij yij  y i x  y x j  y xx

Diseño Experimentos 62
Estimación

1 2  I Eˆ j
1 y11 y 21  yI1 y x1 y x1  y xx
2 y12 y 22  yI 2 y x2 y x 2  y xx
      
J y1J y2 J  y IJ yxJ y x J  y xx
y 1x y 2x  yIx y xx
Dˆ i y 1x  y xx y 2 x  y xx  y I x  y xx

Diseño Experimentos 63

Estimación (ejemplo)

Fluorita
0% 1% 2% 3% 4%
M 1 15.02 11.86 9.94 12.45 13.23 12.50 1.77
e 2 8.42 10.15 8.54 6.98 8.93 8.60 -2.13
z 3 18.31 16.84 15.86 14.64 15.96 16.32 5.59 Ej
c 4 10.49 10.52 8.04 10.50 10.34 9.98 -0.76
l 5 9.78 9.59 6.96 8.15 9.24 8.74 -1.99
a 6 9.28 8.84 7.04 6.66 9.46 8.26 -2.48
11.88 11.30 9.40 9.90 11.19 10.73
1.15 0.57 -1.34 -0.84 0.46

Di

Diseño Experimentos 64
Residuos: Varianza residual
eij yij  Pˆ  Dˆ i  Eˆ j yij  y i x  y x j  y xx

Fluorita
0% 1% 2% 3% 4%
M 1 1.37 -1.21 -1.22 0.79 0.27
e 2 -1.33 0.98 1.27 -0.79 -0.13
z 3 0.84 -0.05 0.88 -0.84 -0.82
c 4 -0.64 -0.02 -0.60 1.36 -0.10
l 5 -0.11 0.28 -0.45 0.24 0.04
a 6 -0.13 0.02 0.12 -0.76 0.74

¦ ¦ eij2 17.51
sˆR2 0.88
( I  1)( J  1) 20

Diseño Experimentos 65

Estimación

Diseño Experimentos 66
Variabilidades

I J
VT ¦¦ ( y
i 1 j 1
ij  y xx ) 2
I
VE (T ) J ¦ ( y i x  y xx ) 2
i 1
J VT VE (T)  VE (B)  VNE
VE ( B ) I ¦ ( y x j  y xx ) 2

j 1
I J (n  1) ( I  1)  ( J  1)  ( I  1)( J  1)
VNE ¦¦ eij2
i 1 j 1

Diseño Experimentos 67

Descomposición de la variabilidad

Diseño Experimentos 68
Análisis de la varianza

yij P  D i  E j  uij Ÿ yij Pˆ  Dˆ i  Eˆ j  eij


yij y xx  ( y ix  y xx )  ( y x j  y xx )  ( yij  y ix  y x j  y xx )
yij  y xx ( y ix  y xx )  ( y x j  y xx )  ( yij  y ix  y x j  y xx )
I J I J I J I J

¦¦ ( y
i 1 j 1
ij  y xx ) 2
¦¦ ( y
i 1 j 1
ix  y xx )  ¦¦ ( y x j  y xx )  ¦¦ eij2
2

i 1 j 1
2

i 1 j 1

I J I J I J

¦¦ ( y
i 1 j 1
ij  y xx ) 2
J ¦ ( y ix  y xx )  I ¦ ( y x j  y xx )  ¦¦ eij2
i 1
2

j 1
2

i 1 j 1

Diseño Experimentos 69

Contraste de Hipótesis
Si la Fluorita no influye, los I tratamientos
son iguales a efectos de coste, entonces
D1 D 2  D I ¦iI 1Di 0

H 0 : D1 D 2  DI 0
H1 : Algún D i es distinto de 0

Diseño Experimentos 70
Contraste sobre tratamientos
H 0 : D1 D 2  DI 0
H1 : Algún D i es distinto de 0
VNE
sˆR2 o E[ sˆR2 ] V 2
( I  1)( J  1)
VE (Tratamient os)
Si Ho es cierto, sˆT2 o E[ sˆT2 ] V 2
I 1
I
J ¦ ( y i x  y xx ) 2 I  1
sˆT2 i 1
FT o FI 1;( I 1)( J 1)
sˆR2 sˆR2
Si FT ! FD Ÿ Se rechaza Ho
Diseño Experimentos 71

Explicación del contraste


Si Ho es cierto D i 0 Ÿ yij o N ( P  E j , V 2 )

yi1  yi 2    yiJ JP  ¦ Jj 1 E j
yix , E[ y i x ] P
J J
V2
y1x , y 2x ,..., y I x o N ( P , )
J
I ª I 2º
J ¦ ( y i x - y xx )2 « J ¦ ( y i x - y xx ) »
y1x  y 2x    y I x
y xx Ÿ sˆT2 i 1
Ÿ E« i 1 » V2
I I 1 « I 1 »
«¬ »¼

† Cuando Ho es cierto, sˆT2 y sˆR2 serán parecidas.


† Cuando Ho es falso, sˆT2 será mayor que sˆR2 .

Diseño Experimentos 72
Contraste de bloques
H 0 : E1 E2  E J 0
H1 : Algún E j es distinto de 0

VE (Bloques)
Si Ho es cierto, sˆB2 o E[ sˆB2 ] V 2
J 1

J
I ¦ ( y x j  y xx ) 2 J  1
sˆB2 j 1
FB o FJ 1;( I 1)( J 1)
sˆR2 sˆR2
Si FB ! FD Ÿ Se rechaza Ho
Diseño Experimentos 73

Tabla de análisis de la varianza


Fuentes Suma de Grados de
Variabilid ad Cuadrados Libertad. Varianza F p  valor
sˆT2
Tratamient o J ¦ ( y i x  y xx ) 2 I 1 sˆT2 sˆR2 pT

sˆB2
2
Bloque I ¦ ( y x j  y xx ) J 1 sˆB2 sˆR2 pB

Residual ¦ ¦ eij2 ( I  1)( J  1) sˆR2

Total ¦ ¦ ( yij  y xx ) 2 n -1

Diseño Experimentos 74
Tabla ANOVA

El tratamiento ( % fluorita) y el bloque ( mezcla) son


SIGNIFICATIVOS.

Diseño Experimentos 75

Intervalos de confianza
(ejemplo)
sˆR
P  D i  y i x r tD / 2
J

Fluorita Medias L.inf. L.Sup.


0% 11.88 11.09 12.68
1% 11.30 10.50 12.10
2% 9.40 8.60 10.19
3% 9.90 9.10 10.69
4% 11.19 10.40 11.99

Diseño Experimentos 76
Intervalos de Confianza (% Fluorita)
> source('ICplot.R')
> ICplot(mod_flu, "FLUO")
12
medias

11
10
9

0 1 2 3 4

FLUO

Diseño Experimentos 77

Intervalos de Confianza (Mezcla)


> source('ICplot.R')
> ICplot(mod_flu, "MEZ")
16
14
medias

12
10
8

1 2 3 4 5 6

MEZ

Diseño Experimentos 78
Contraste multiples: tratamientos

H 0 : Di Dj R.R. R.R
t(I-1)(J-1)
H1 : D i z D j
1-D
Dˆ i y i x  y xx ½ D/2 D/2
¾ Dˆ i  Dˆ j yix  y jx R. Acept. H0
Dˆ j y j x  y xx ¿
-tD/2 tD/2
V2 V2
Dˆ i  Dˆ j o N (D i  D j ,  )
J J

yi x  y j x 2
o t( I 1)( J 1) y i x  y j x ! tD / 2 sˆR Ÿ Se rechaza H 0
2
J

sˆR
J LSD

Diseño Experimentos 79

Contraste multiples: bloques

H 0 : Ei Ej R.R. R.R
t(I-1)(J-1)
H1 : E i z E j
1-D
Eˆi y xi  y xx ½° D/2 D/2
¾ Eˆi  Eˆ j y xi  y x j R. Acept. H0
Eˆ j y x j  y xx °¿
-tD/2 tD/2
V2 V2
Eˆi  Eˆ j o N ( E i  E j ,  )
I I

yxi  yx j 2
o t( I 1)( J 1) y xi  y x j ! tD / 2 sˆR Ÿ Se rechaza H 0
2
I

sˆR
I LSD

Diseño Experimentos 80
Comparación de medias
Fluorita LSD = 1.13
0% 1% 2% 3% 4%
2
LSD tD / 2 sˆR 0% 0 0,58 2,49 1,99 0,69
J 1% 0 1,90 1,40 0,11
2% 0 -0,50 -1,80
2
2.085 u 0.93 u 3% 0 -1,30
6 4% 0

1.13
LSD=1.24
Mezcla 1 2 3 4 5 6
2 1 0,00 3,90 -3,82 2,52 3,76 4,24
LSD tD / 2 sˆR 2 0 6,60 -1,37 -0,14 -0,35
I 3 0 6,34 7,58 8,07
2 4 0 1,23 1,72
2.085 u 0.93 u
5 5 0 0,49
1.24 6 0

Diseño Experimentos 81

Comparación de medias (Tukey)

95% family-wise confidence level


1-0
2-0
3-0
4-0
2-1
3-1
4-1
3-2
4-2
4-3

-4 -2 0 2

Differences in mean levels of FLUO

Diseño Experimentos 82
Comparación de medias (Tukey)
95% family-wise confidence level

2-1
4-1
6-1
4-2
6-2
5-3
5-4
6-5

-10 -5 0 5 10

Differences in mean levels of MEZ

Diseño Experimentos 83

Sin bloques

El % de FLUORITA no es SIGNIFICTIVO.
No se detectan diferencias
La Varianza residual es muy grande (10.6113)
Diseño Experimentos 84
Diagnosis: 2
1.5
Homocedasticidad 1
0.5
0
-0.5
Gráfico de residuos -1
-1.5
2 -2
1.5 0 1 2 3 4 5 6
1 Mezcla
0.5
0 1.6
-0.5 1.2
-1 0.8

residuos
-1.5 0.4
-2 0
0 1 2 3 4 -0.4
Fluorita -0.8
-1.2
-1.6
5 10 15 20
Valores previstos

Diagnosis: normalidad

99.9
99
probabilidad

95
80
50
20
5
1
0.1
-1.4 -0.9 -0.4 0.1 0.6 1.1 1.6
residuos
Diseño Experimentos 86
Diagnosis

Normalidad

Homocedasticidad

Diseño Experimentos 87

Apéndice

Diseño Experimentos 88
Diseños factoriales
(tres factores)

Diseño con tres factores


Factor A
Factores A, B y C con NA, NB,
A1 A2 A3 A4 A5 A6 Nc niveles.
B1
Nº de Tratamientos
B2
Factor B

T=NAxNBxNc
B3 Efectos principales 3 A, B , C
B4 Interacciones de orden dos 3
B5 AxB, AxC, BxC
C1 Interacción de orden tres 1.
C2
C3 AxBxC

Tratamiento: Cada combinación de niveles de los factores


6 x 5 x 3 = 90
Diseño Experimentos 90
K factores con N1, N2, ..., NK
niveles
x K efectos principale s con N i  1 grados de libertad cada uno
§K ·
x ¨ ¸ interaccio nes de orden 2, con (N i  1 )(N j  1 ) grados
©2¹
de libertad
§K ·
x ¨ ¸ interaccio nes de orden 3, con (N i  1 )(N j  1 )(N k  1 )
©3¹
grados de libertad
...
§K ·
x ¨ ¸ 1 interacció n de orden k, con (N1  1 )(N 2  1 )(N K  1 )
©K ¹
grados de libertad

Diseño Experimentos 91

Datos Factor 1 1
Factor 3
2 ... K

11 22 ...
 II
11 22 ...... K
K 11 22 ...... K
K 11 22 ...
... K
K
y1111 y1121  y11K 1 y 2111 y 2121  y11K 1 y I 111 y I 121  y I 1K 1
11 y1112 y1122  y11K 2 y 2112 y 2122  y11K 2  y I 112 y I 122  y I 1K 2
           
y111M y112M  y11KM y 211M y 212M  y11KM y I 11M y I 12M  y I 1KM
Factor 2

11 22 ...... K
K 11 22 ...... K
K 11 22 ...
... KK
y1211 y1221  y12 K 1 y 2211 y 2221  y 22 K 1 y I 211 y I 221  y I 2 K1
2 y1212 y1222  y12 K 2 y 2212 y 2222  y 22 K 2  y I 212 y I 222  yI 2K 2
           
y121M y122M  y12 KM y 221M y 222M  y 22 KM y I 21M y I 22M  y I 2 KM
...
    
11 22 ...... K
K 11 22 ...
... KK 11 22 ...... K
K
y1J 11 y1J 21  y1JK1 y 2 J 11 y 2 J 21  y 2 JK1 y IJ 11 y IJ 21  y IJK1
JJ y1J 12 y1J 22  y1JK 2 y 2 J 12 y 2 J 22  y 2 JK 2  y IJ 12 y IJ 22  y IJK 2
           
y1J 1M y1J 2 M  y1JKM y 2 J 1M y2 J 2M  y 2 JKM y IJ 1M y IJ 2 M  y IJKM

Diseño Experimentos 92
Ejemplo: Proceso químico
Tres factores: Concentración
1 4% C-1
Catalizador
Ag
Temperatuta
T-1 300º C
2 6% C-2 Ag+Zn T-2 320º C
3 8% C-3 Zn
4 10%
Variable respuesta: Rendimiento del proceso químico.
CONCENTRACIÓN
1 2 3 4
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
72.2 65.0 74.4 69.2 75.0 70.7 80.0 73.0
C-1 74.4 71.6 66.3 71.8 78.9 80.6 65.0 74.4
64.3 61.9 66.5 64.6 64.3 73.4 82.1 78.8
CATALIZADOR

T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2


62.5 75.9 70.8 79.2 76.3 83.3 72.3 80.3
C-2 65.8 72.9 63.9 80.1 79.1 88.0 72.4 86.9
71.2 77.8 76.6 75.3 89.0 84.7 75.6 86.3
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
69.0 73.8 69.0 84.5 72.8 94.1 78.4 87.5
C-3 70.3 59.2 68.2 93.7 73.7 87.3 79.9 79.7
68.8 80.8 78.7 80.1 80.7 89.0 80.3 79.5

Tres replicaciones

Diseño Experimentos 93

Modelo
yijkm P  D i  E j  J k  DE ij  DJ ik  EJ jk  DEJ ijk  uijkm
¦i 1D i
I
0 ¦ Jj 1DE ij 0, i ¦iI 1DE ij 0, j

¦i 1DJ ik 0, k
I
¦ ¦k 1DJ ik 0, i
K
j 1E j
J
0
¦k 1 EJ jk 0, j
K
¦ ¦ j 1 EJ jk 0, k
J
k 1J k
K
0

¦ i DEJ ijk 0, j, k , ; ¦ j DEJ ijk 0, i, k ; ¦k DEJ ijk 0, i, j.


I J K

I u J u K tratamientos
•Normalidad
uijkm •Independencia M replicaciones
•Homocedasticidad n = IuJuKuM

Diseño Experimentos 94
Medias
yijkm P  D i  E j  J k  DE ij  DJ ik  EJ jk  DEJ ijk  uijkm
I J K M
¦ ¦ ¦ ¦ yijk
i 1 j 1k 1m 1
y xxxx
IJKM
J K M I K M I J M
¦¦ ¦ yijkm ¦ ¦ ¦ yijkm ¦ ¦ ¦ yijkm
j 1k 1m 1 i 1 k 1m 1 i 1 j 1m 1
y i xxx y x j xx y xx k x
JKM IKM IJM
K M J M I K
¦ ¦ yijkm ¦ ¦ yijkm ¦ ¦ yijkm
k 1m 1 j 1m 1 i 1k 1
y ijxx y ixk x y x jk x
KM JM IM
M
¦ yijkm
m 1
y ijk x
M

Diseño Experimentos 95

Medias: Proceso químico


Concentración
1 2 3 4
C-1 68.2 68.8 73.8 75.6 71.6
Catalizador C-2 71.0 74.3 83.4 79.0 76.9
C-3 70.3 79.0 82.9 80.9 78.3
69.9 74.1 80.1 78.5 75.6

1 2 3 4
T-1 68.72 70.49 76.64 76.22 73.02
Temperatura T-2 70.99 77.61 83.46 80.71 78.19
69.9 74.1 80.1 78.5 75.6

T-1 T-2
C-1 71.95 71.25 71.6
C-2 72.96 80.89 76.9
C-3 74.15 82.43 78.3
73.02 78.19 75.6

1 2 3 4
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
C-1 70.30 66.17 69.07 68.53 72.73 74.90 75.70 75.40
C-2 66.50 75.53 70.43 78.20 81.47 85.33 73.43 84.50
C-3 69.37 71.27 71.97 86.10 75.73 90.13 79.53 82.23

Diseño Experimentos 96
Estimación del modelo
Pˆ y xxxx
Dˆ i y ixxx  y xxxx o I  1
Eˆ j y x j xx  y xxxx o J  1
Jˆ k y x x k x  y x xx x o K 1
š
DE ij y ijxx  y i xxx  y x j xx  y xxxx o ( I  1)( J  1)
š
DJ ik y i x k x  y i x xx  y xx k x  y xx xx o ( I  1)( K  1)
š
EJ jk y x jk x  y x j xx  y xxk x  y xxxx o ( J  1)( K  1)
š
DEJ ijk y ijk x  y ijxx  y i xk x  y x jk x  y i xxx  y x j xx  y xxk x  y xxxx o ( I  1)( J  1)( K  1)
2
2 ¦ ¦ ¦ ¦ eijkm
Vˆ sˆR2 ; eijkm yijkm  y ijk x
IJK ( M  1)

Diseño Experimentos 97

Modelo estimado

yijkm P  D i  E j  J k  DE ij  DJ ik  EJ jk  DEJ ijk  uijkm

yijkm
y xxxx  y i xxx  y xxxx  y x j xx  y xxxx  y xxk x  y xxxx 

 y ijxx  y i xxx  y x j xx  y xxxx 
 y i xk x  y i xxx  y xxk x  y xxxx 

 y x jk x  y x j xx  y xxk x  y xxxx 
 y ijk x  y ijxx  y i xk x  y x jk x  y i xxx  y x j xx  y xxk x  y xxxx 
 yijkm  y ijk x

Diseño Experimentos 98
Variabilidades

¦ ¦ ¦ ¦ yijkm  y xxxx
I J K M
JKM ¦ y i xxx  y xxxx
2 2
VT VE ( A)
i 1 j 1k 1m 1 i

VE ( B )
IKM ¦ y x j xx  y xxxx 2 VE (C ) IJM ¦ y xxk x  y xxxx
2

j k

VE ( A u B )
KM ¦ ¦ y ijxx  y i xxx  y x j xx  y xxxx 2
i j

JM ¦ ¦ y i xk x  y i xxx  y xxk x  y xxxx


2
VE ( A u C )
i k

VE ( B u C )
IM ¦ ¦ y x jk x  y x j xx  y xxk x  y xxxx 2
j k

VE ( A u B u C )
M ¦ ¦ ¦ y ijk x  y ijxx  y i xk x  y x jk x  y i xxx  y x j xx  y xxk x  y xxxx 2
i j k

¦ ¦ ¦ ¦ yijkm  y ijk x
2
VNE
i j k m

Diseño Experimentos 99

Grados de libertad

DESCOMPOSI CIÓN DE LA VARIABILID AD


VT VE ( A)  VE ( B )  VE (C ) 
VE ( A u B )  VE ( A u C )  VE ( B u C ) 
VE ( A u B u C )  VNE

GRADOS DE LIBERTAD
(n  1) ( I  1)  ( J  1)  ( K  1)
( I  1)( J  1)  ( I  1)( K  1)  ( J  1)( K  1)
( I  1)( J  1)( K  1)  IJK ( M  1)

Diseño Experimentos 100


Tabla ANOVA
FUENTE VARIABILID AD Gr . de Lib. Varianzas F
sˆ A2
JKM ¦ y i xxx  y xxxx
2
A I 1 sˆ A2
i sˆR2
B
IKM ¦ y x j xx  y xxxx 2 J 1 sˆB2
sˆB2
sˆR2
j
sˆC2
IJM ¦ y xxk x  y xxxx
2
C K 1 sˆC2
k sˆR2
2
2
2 sˆ AB
Au B KM ¦ ¦ y ijxx  y i xxx  y x j xx  y xxxx ( I  1)( J  1) sˆ AB
i j sˆR2
2
JM ¦ ¦ y i xk x  y i xxx  y xxk x  y xxxx
2 2 sˆ AC
Au C ( I  1)( K  1) sˆ AC
i k sˆR2
2
2
2 sˆBC
BuC IM ¦ ¦ y x jk x  y x j xx  y xxk x  y xxxx ( J  1)( K  1) sˆBC
j k sˆR2
M ¦ ¦ ¦ ( y ijk x  y ijxx  y i xk x  y x jk x  ... 2
2 sˆ ABC
Au B u C i j k
( I  1)( J  1)( K  1) sˆ ABC
...  y i xxx  y x j xx  y xxk x  y xxxx ) 2 sˆR2

¦ ¦ ¦ ¦ yijkm  y ijk x
2
Residual IJK ( M  1) sˆR2
i j k m

¦ ¦ ¦ ¦ yijkm  y xxxx
I J K M
2
Total IJKM  1
i 1 j 1k 1m 1

Diseño Experimentos 101

Instrucciones de R utilizadas
ARCHIVO TEXTO: quimico.txt
> quimico = read.table('quimico.txt', header = T)
> attach(quimico)
> CON = factor(con)
> class(con)
> TEMP = factor(temp)
> class(temp)
> CAT = factor(cat)
> class(cat)
> mod_qui = aov(rendim ~ CON*TEMP*CAT )

Diseño Experimentos 102


Estimación

Diseño Experimentos 103

Descomposición de la
variabilidad

Diseño Experimentos 104


Análisis de la varianza

Diseño Experimentos 105

Contraste efecto principal de factor A

H 0 : D1 D 2  DI 0
H1 : Algún D i es distinto de 0
I
JKM ¦ ( y ixxx  y xxxx ) 2 I  1
sˆ A2 i 1
FA o FI 1; IJK ( M 1)
sˆR2 sˆR2
FI 1; IJK ( M 1)
Si FA d FD Ÿ No se rechaza Ho
RR
D Si FA ! FD Ÿ Se rechaza Ho

FD
Diseño Experimentos 106
Contraste interacción AxB
H 0 : DE11 DE12  DE IJ 0
H1 : Algún DE ij es distinto de 0

2 VE ( A u B)
Si Ho es cierto, sˆ AB
( I  1)( J  1)
2
sˆ AB
FAB 2
o F( I 1)( J 1); IJK ( M 1)
sˆR
Si FAB ! FD Ÿ Se
rechaza

Ho

A y B interaccio nan
Diseño Experimentos 107

Contraste interacción AxBxC

H 0 : DEJ 111 DEJ 112  DEJ IJK 0


H1 : Algún DEJ ijk es distinto de 0
Si Ho es cierto
2
sˆ ABC
FABC 2
o F( I 1)( J 1)( K 1); IJK ( M 1)
sˆR

Si FABC ! FD Ÿ Se rechaza Ho

Diseño Experimentos 108


Interpretación
El efecto principal del factor concentración
influye significativamente (p-valor =0.0000)
en el rendimiento. Más adelante se
compararán las medias de los cuatro niveles
de este factor. Este factor no interacciona
con ningún otro.
Los efectos principales de catalizador y de
la temperatura son significativos, además
es muy significativa la interacción de los dos
factores (p-valor 0.0064). La comparación
de medias de estos factores debe ser
conjunta.

Diseño Experimentos 109

Contrastes múltiples: Factor A

H 0 : Di Dj R.R. R.R
tIJK(M-1)
H1 : D i z D j
1-D
D/2 D/2
Dˆ i y i x x x  y xx x x ½
Dˆ i  Dˆ j y i x x x  y j xx x R. Acept. H0
Dˆ j y j xxx  y xxxx ¾¿

V2 V2
-tD/2 tD/2
Dˆ i  Dˆ j o N (D i  D j ,  )
JKM JKM

yixxx  y j xxx 2
o t IJK ( M 1) Si yixx  y j xx ! tD / 2 sˆR ,
2 JKM
sˆR
JKM se rechaza Ho

Diseño Experimentos 110


Interpretación I
EFECTOS PRINCIPALES:
Solo se interpreta la Concentración
> source('ICplot.R')
> ICplot(mod_qui, "CON")
> TukeyHSD(mod_qui,'CON')
> plot(TukeyHSD(mod_qui,'CON'))

Diseño Experimentos 111

Interacción: Cat. x Temp.


T-1 T-2
C-1 71.95 71.25 71.6
C-2 72.96 80.89 76.9
C-3 74.15 82.43 78.3
73.02 78.19 75.6

Interacción Cat x Temp

84.00
82.00
80.00
Medias

78.00 Temp - 1
76.00 Temp - 2
74.00
72.00
70.00
0 1 2 3 4
Catalizador

Diseño Experimentos 112


Interpretación II
Se interpreta la interacción
Temperatura - Catalizador
> source('interIC.R')
> interIC(mod_quimicos,'temp','cat')
> interIC(mod_quimicos,'cat','temp')

Diseño Experimentos 113

Selección de temperatura y
catalizador.

Las mejores combinaciones


corresponden
a la T2 con K2 o K3.

Diseño Experimentos 114


Diagnosis del modelo
10

10

10
residuals(mod_qui)

residuals(mod_qui)

residuals(mod_qui)
5

5
0

0
-5

-5

-5
-10

-10

-10
1.0 2.0 3.0 4.0 1.0 1.4 1.8 1.0 1.5 2.0 2.5 3.0

con temp cat

Diseño Experimentos 115


Capítulo 2. Diseño de experimentos
2.1. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algodón (10%, 20% y 30%)
(2) Tipo de confección (A y B) en la resistencia al desgaste de ciertos tejidos de …bra sintética. Se
ha realizado el siguiente diseño con tres replicaciones (archivo desgaste:txt)

10% 20% 30%


115 120 126
A 112 135 118
133 139 142
107 110 132
B 114 102 114
108 117 125

1. Construir la tabla de Análisis de la Varianza y contrastar la in‡uencia de los dos factores y la


presencia de la interacción.

2. Hacer un contraste de diferencia de medias y decidir el tratamiento más adecuado para conseguir
la mayor resistencia al desgaste.

2.2 En una planta piloto se obtiene un nuevo producto mediante un proceso químico. Con el …n de
mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres temperaturas
diferentes. Los resultados del experimento son (archivo rendimiento:txt)

Temperatura
Catalizador 200 300 400
A 115 125 130 140 110 120
B 115 105 135 145 100 110

1. Contrastar si los factores Temperatura y Catalizador tienen efectos signi…cativos. ( = 0:05)

2. ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar una
probabilidad de error tipo I total, T = 0:03?

2.3 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,
letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número de
incorrecciones gramaticales en artículos cientí…cos enviados a publicación. Para cada combinación
de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el número
de fallos detectados en artículos de 15 páginas (archivo error:txt)

Letras Ciencias
Hombre 8, 6, 13 22, 28, 33
Mujer 5, 10, 6 12, 14, 9

1
Contrastar con nivel de signi…cación 0.05 si los efectos principales y la interacción son signi…cativos.
Tener en cuenta que P (F1;8 5:32) = 0:95, siendo F1;8 la distribución F con grados de libertad
1 y 8: Interpretar los resultados.

2.4 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)
de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método
1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3 2
con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es el
porcentaje de granos de maíz que no se han in‡ado adecuadamente. Los resultados del experimento
se muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviación
típica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores es
signi…cativa.

A B C
5.5 3.6 7.5
Sartén
(1,4) (1,8) (2,5)
3.8 3.4 4.3
Horno
(1,3) (0,9) (1,3)

2.5. La tabla muestra el tiempo de supervivencia de grupos de cuatro animales a los que se ha asignado
al azar tres venenos y posteriormente cuatro tratamientos. (archivo venenos:txt)

Tratamiento
A B C D
Veneno
I 0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.71
0.46 0.88 0.63 0.66
0.43 0.72 0.76 0.62
II 0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
III 0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.36
0.18 0.38 0.24 0.31
0.23 0.29 0.22 0.33

1. ¿Son los venenos y tratamientos signi…cativos? ¿Existe interacción entre el veneno y el tratamiento?

2. Analice los residuos del modelo anterior. ¿Se veri…can las hipótesis básicas del modelo? ¿Qué
transformación de los datos hace que se veri…quen las hipótesis?

3. Calcule la tabla de análisis de la varianza con los datos transformados. ¿Tiene la transformación
realizada algún efecto sobre los efectos principales y la interacción?

2
2.6 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo de exposición
(E) sobre la cantidad absorbida de un compuesto químico por un material sumergido en él. En el
estudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos de exposición (E1, E2, E3):
cada tratamiento se ha replicado tres veces. La cantidad absorbida (mg) del compuesto químico en
cada uno de los 27 experimentos se muestra en la tabla 1 (archivo absorbida:txt) y las medias en
la tabla 2:
Tabla 1: Cantidad Absorbida (mg)

Tiempo de Temperatura
Exposición T1 T2 T3
Tabla 2: Medias de Cantidad Absorbida (mg)
35.5 91.2 70.1
E1 29.7 100.7 64.1
Tiempo de Temperatura
31.5 82.4 70.1
Exposición T1 T2 T3 Medias
E1 32.23 91.43 68.10 63.92
52.5 71.0 79.4
E2 53.60 74.53 77.40 68.51
E2 53.3 77.0 77.7
E3 83.76 87.06 82.83 84.56
55.0 75.6 75.1
Medias 56.53 84.34 76.11 72.33
85.9 87.0 83.0
E3 85.2 86.1 87.0
80.2 88.1 78.5

La tabla 3 corresponde al análisis de la varianza del experimento.

Tabla 3: Tabla de análisis de la varianza


Fuente Suma de Grados de
Variabilidad Cuadrados Libertad Varianzas F p-valor
Temperatura 3673.61 2 1836.80 110.58 0.0000
T. Exposición 2112.65 2 1056.32 63.59 0.0000
Interacción 2704.44 4 676.11 40.70 0.0000
Residual 299.00 18 16.61
Total 8789.7 26

1. (a) Interpreta los resultados del análisis de la varianza.

2. Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que propor-
cionan una absorción mayor (95%).

3. Comprueba grá…camente la hipótesis de homocedasticidad e interpreta los resultados.

2.7. Se ha realizado un diseño experimental para determinar la in‡uencia de dos factores combinación
de hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Se
estudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido de
hidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan los
resultados: mejora en tanto por mil respecto a procedimiento estándar (archivo hidrocarburos:txt).
Los números entre paréntesis de la tabla se corresponden con las medias de cada tratamiento, de los
cuatro niveles del factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestra
la tabla de análisis de la varianza del experimento.

3
Tabla 1. Datos y medias entre paréntesis
A B C D Medias Etapa
10.3 10.5 7.2 13.0 1
11.1 8.2 5.3 12.9 1
1 15.3 9.7 12.5 5.3 2
2.1 8.9 19.1 12.0 2
Medias (9.7) (9.325) (11.025) (10.8) (10.213)
25.8 20.6 29.7 17.6 1
25.7 17.1 26.3 12.0 1
2 28.9 21.4 22.4 24.6 2
27.8 17.3 25.9 23.1 2
Medias (27.05) (19.1) (26.075) (19.325) (22.888)
28.5 21.0 30.4 20.5 1
31.2 26.8 26.6 26.2 1
3 24.8 19.4 34.4 27.8 2
26.5 22.2 27.5 21.9 2
Medias (27.75) (22.35) (29.975) (24.1) (25.981)
Medias (21.5) (16.925) (22.275) (18.075)
Tabla 2. ANOVA -
Suma Grados
Fuentes Cuadrados Libertad Var. F p-valor
Hidrocarburos 242.5 3 80.85 5.55 .0031
Hidrógeno 2234 2 1117 76.7 .0000
Interacción 119.3 6 19.88 1.36 .2546
Residual 523.7 36 14.55
Total 3120 47

1. Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factor
Hidrógeno. Indica si existen diferencias signi…cativas con nivel de signi…cación 0.05.

2. Elige el tratamiento que proporciona el rendimiento óptimo, justi…cando la respuesta. Da un inter-


valo de con…anza para el valor medio en dichas condiciones con nivel de con…anza del 95%.

3. El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observaciones
que se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisis
de la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.

Tabla 3. ANOVA - Etapa 1


Suma Grados
Fuentes Cuadrados Libert. Var. F p-valor
Hidrocarburos 115.9 3 38.63 6.07 .0093
Hidrógeno 1175.0 2 587.7 92.4 .0000
Interacción 218.4 6 36.39 5.72 .0051
Residual 76.3 12 6.358
Total 1586.0 23

4
Tabla 4. ANOVA - Etapa 2
Suma Grados
Fuentes Cuadrados Libert. Var. F p-valor
Hidrocarburos 162.9 3 54.31 3.35 .0555
Hidrógeno 1076 2 537.9 33.19 .0000
Interacción 94.94 6 15.82 0.976 .9762
Residual 194.5 12 16.21
Total 1528 23
¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realiza
el contraste con = 0:05)

2.8 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 o C y 320 o C) en la
duración de cierto componente. Para cada combinación de horno y temperatura se ha replicado
el experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas
(corregidas) de los datos de cada tratamiento.

Temperatura o C
290 o C 320 o C
Media Desv. T. Media Desv. T.
Horno 1 24.56 0.850 18.00 0.265
Horno 2 19.10 1.539 14.40 0.265
Horno 3 18.70 0.458 17.43 0.862
Contrasta si existe interacción entre los factores horno y temperatura ( = 0:05):

2.9. Cierto Organismo Público (O.P.) encargado de certi…car la composición de aleaciones de metales
preciosos, debe seleccionar entre dos Laboratorios al más capacitado para la realización de futuros
análisis de gran precisión. Para tomar la decisión les somete a la siguiente prueba: Prepara tres
aleaciones A, B y C que contienen proporciones distintas de oro. De cada una de ellas envía cu-
atro muestras a cada uno de los dos laboratorios. Así pues, cada laboratorio recibe un lote de 12
muestras (codi…cadas) ordenadas aleatoriamente sin conocer como han sido obtenidas. Los resul-
tados recibidos por el O.P. son (entre paréntesis las medias de las casillas) (archivo laboratorios:txt):

Aleac. A Aleac. B Aleac. C


10.96 11.03 10.95 11.00 11.07 11.01
Lab. I 11.08 11.01 11.04 10.97 10.97 11.03
(11.02) (10.99) (11.02)
10.97 10.96 10.97 10.96 11.02 11.00
Lab. II 10.94 10.95 10.97 10.98 11.01 11.01
(10.955) (10.97) (11.01)

1. Determinar si existen diferencias entre los resultados de los laboratorios y si éstos han encontrado
diferencias entre las aleaciones.

2. Aceptando que los datos cumplen la hipótesis de normalidad, indicar si podemos aceptar que
veri…can el resto de las hipótesis del modelo y en caso negativo que medidas se deben adoptar para
analizar los datos.

5
3. Realizar un test de razón de varianzas para contrastar que las varianzas de los dos laboratorios son
iguales, sabiendo que las tres aleaciones tienen composición distinta. Interpretar el resultado.
4. El O.P. conoce exáctamente el porcentaje en oro de la aleación A (11 %), de la B (11.02 %) y de
la C (11.04 %). Con esta información comparar los resultados de los laboratorios.

2.10 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en la
sangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestras
de 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado

Enfermo 1 2 3 4 5 Media
Equipo A 215 305 247 221 286 254.8
Equipo B 224 312 251 232 295 262.8
Contrastar con = 0:05 existen diferencias entre los dos equipos. (archivo colesterol :txt)
2.11. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resulta-
dos: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V N E = 61. El número de niveles del factor
es 5 y el número de bloques 8. Construir la tabla ADEVA. ¿ Cuál sería el resultado del análisis si
no se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada uno
de los modelos.
2.12. Se realiza un experimento para estudiar si la presencia de ‡uorita reduce el coste de fabricación
de clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo (en miles de
pesetas por Tm) se muestran en la siguiente tabla (archivo f luorita2:txt):

FLUORITA MI MII MIII ȳi


0% 15.4 10.6 17.8 14.6
1% 10.3 5.5 10.9 8.9
2% 7.4 1.2 8.1 5.5
3% 10.7 6.5 9.6 8.9
4% 13.5 11.6 15.5 13.5
ȳ 11.4 7.1 12.4

5 X
X 3
e2ij = 10:2 y = 10:3
i=1 j=1

1. (a) Determinar si el tipo de mezcla y el nivel de ‡uorita añadido in‡uyen signi…cativamente en el


coste de fabricación. Se supone que no existe interacción entre los dos factores.
(b) Contrastar que porcentaje de ‡uorita produce el menor coste del clinker.

2.13 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de la
variabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidad
total es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cada
tratamiento para que la interacción sea signi…cativa con = 0:01: (Explicar el procedimiento de
cálculo, dejando el resultado indicado en función de las tablas).

6
2.14 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totales
correspondientes a efectos principales e interacciones de orden 2, 3 y 4.

2.15 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles de
acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiado
tres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura del
baño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimento
se ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tres
datos de cada tratamiento.

A B C yi s^2i
1 1 1 40.2 0.25
1 1 2 61.1 2.68
1 2 1 35.9 2.43
1 2 2 57.1 4.44
2 1 1 49.0 3.49
2 1 2 70.3 7.77
2 2 1 46.7 5.08
2 2 2 67.6 1.03
3 1 1 41.9 4.27
3 1 2 62.7 11.41
3 2 1 37.1 1.33
3 2 2 60.3 6.13

1. (a) Dar un intervalo del 95 % de con…anza para la varianza del error experimental, 2.

2. Indicar si los efectos principales de A, B y C son signi…cativamente distintos de cero.

3. Dado 2 , construir un intervalo que cumpla que la probabilidad de que s^2i (la varianza muestral
corregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir 2 por su estimador y
con ayuda de este intervalo, discutir si se puede rechazar la hipótesis de homocedasticidad de las
observaciones.

2.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas a
cuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinación
incluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentran
en la misma proporción en cada animal? Realiza el contraste con nivel de signi…cación 0.05. (La
variabilidad total es 41.90). (archivo ultrasonidos:txt)

1.
a b c Medias
1 11.0 11.4 12.7 11:7
2 9.8 10.8 13.7 11:43
3 7.5 10.6 11.5 9:87
4 7.9 7.6 10.1 8:53
Medias 9.05 10.1 12.0 10.38

7
OTROS EJEMPLOS

2.17. Treinta y seis adultos (18 hombres y 18 mujeres) son utilizados en un estudio para comparar los
tensiómetros de tres fabricantes. Los sujetos de cada sexo son asignados de forma aleatoria en seis grupos
de tres cada uno. A tres grupos de cada sexo se les mide la presión de la sangre nada más comenzar el
experimento; a los otros tres grupos se les mide la presión después de diez minutos de descanso.
Los resultados son los siguientes:

I II III
H M H M H M
147 122 156 131 127 110
1 124 142 127 133 122 115
113 136 155 146 153 105
140 108 100 141 114 103
2 130 151 140 125 139 135
112 138 105 139 126 114

Conteste a las siguientes preguntas:

¿Existen diferencias entre los fabricantes en la medida de presión de la sangre?

¿Hay diferencia entre el descanso y el no descanso en la presión en la sangre?

¿Hay diferencia entre hombres y mujeres?

Comprobar si hay interacción entre descanso y sexo.

Comprobar las hipótesis de normalidad, homocedasticidad y homogeneidad.

En el archivo tension.sf3 están la variable respuesta presión y las variables factores descanso, fabri-
cante y sexo.
2.18 Se desea investigar el comportamiento de dos tipos de semilla y de tres tipos diferentes de fertil-
izante. Los resultados serán los diferentes rendimientos para las combinaciones de semillas y fertilizantes.
Se pide contestar a las siguientes preguntas:

¿Existen diferencias entre los fertilizantes?

¿Existen diferentes entre las semillas?

Estudiar si la interacción entre las semillas y fertilizantes es signi…cativa.

Comprobar las hipótesis de normalidad, homocedasticidad e independencia e homocedasticidad.

En el archivo rend.sf3 están la variable respuesta rendimiento y los factores semilla y fertilizante.

8
A B C
1 14.3 18.1 17.6
14.5 17.6 18.2
11.5 17.1 18.9
13.6 17.6 18.2
2 12.6 10.5 15.7
11.2 12.8 17.5
11.0 8.3 16.7
12.1 9.1 16.6

2.19. Se ha realizado un experimento para estudiar la in‡uencia de dos factores en el rendimiento


de un proceso. Estos factores son la temperatura, que puede estar a tres niveles (alta, media y baja), y
el catalizador, que puede ser el catalizador 1 o el catalizador 2. En el archivo rend2.sf3 se presentan los
resultados que se muestran en la siguiente tabla.

Temperatura

Alta Media Baja

Catalizador 1 279 174 397


172 277 348
176 130 434

Catalizador 2 253 252 417


238 367 427
387 323 423

¿De qué modelo se trata?

¿Qué efectos son signi…cativos?

¿Cuál es el tratamiento adecuado para obtener el mayor rendimiento?

2.20. Se ha realizado un experimento para estudiar las fuentes de variabilidad de la resistencia a la


compresión de cemento tipo Portland. El cemento ha sido mezclado con agua por tres obreros diferentes
(mezcladores) durante un tiempo …jo. Después, la resistencia de las probetas generadas ha sido medida
por otros tres obreros diferentes (medidores). Cada mezclador ha generado doce probetas, que se han
dividido en tres grupos de cuatro; cada uno de esos grupos de cuatro ha sido asignado a un medidor.
Los datos obtenidos para la resistencia a la compresión de cada probeta, dados en libras por pulgada
cuadrada, se proporcionan en la tabla siguiente y se encuentran en el archivo portland.sf3.

9
Medidor 1 Medidor 2 Medidor 3

Mezclador 1 5280 4340 4160


5520 4400 5180
4760 5020 5320
5800 6200 4600

Mezclador 2 4420 5340 4180


5280 4880 4800
5580 4960 4600
4900 6200 4480

Mezclador 3 5360 5720 4460


6160 4760 4930
5680 5620 4680
5500 5560 5600

¿Existen diferencias entre las resistencias dadas por los diferentes medidores? ¿y entre las probetas
generadas por cada mezclador?

¿Es signi…cativa, con nivel de signi…cación del 5%, la interacción entre medidores y mezcladores?

¿Se cumplen las hipótesis del modelo?

2.21. Se está estudiando el rendimiento de un proceso químico. Se piensa que las dos variables
más importantes pueden ser la presión y la temperatura. Se seleccionan tres niveles de cada factor. Los
resultados del experimento son los siguientes:

Presión
Temperatura 200 215 230
Baja 90.4 90.7 90.2
Baja 90.2 90.6 90.4
Media 90.1 90.5 89.9
Media 90.3 90.6 90.1
Alta 90.5 90.8 90.4
Alta 90.7 90.9 90.1

Utilizando el archivo proceso. sf3 conteste a las siguientes preguntas:

¿Qué conclusiones se pueden sacar de los datos?

¿Bajo qué condiciones podría operar este proceso?

¿Existe interacción entre temperatura y presión?

Compruebe las hipótesis del modelo.

10
2.22. Se realiza un experimento para estudiar la in‡uencia de la temperatura de operación y de tres
tipos de cristal en la salida de luz de un osciloscopio medidas en lux. En el archivo lux.sf3 se encuentran
los resultados obtenidos que se presentan a continuación:

Temperatura
Cristal 100 125 150
580 1090 1392
1 568 1087 1380
570 1085 1386
550 1070 1328
2 530 1035 1312
579 1000 1299
546 1045 867
3 575 1053 904
599 1066 889

¿Hay diferencia entre las temperaturas?

¿Hay diferencia en el cristal? ¿Cúal es el mejor?

Estudie si existe interacción entre la temperatura y el cristal.

2.22 Para comprobar la diferencia de rendimientos entre las distintas variedades de avena se diseño
un experimento con ocho variedades distintas. Como el terreno donde fueron plantadas las distintas
variedades estaba en pendiente se pensó que podría afectar la situación de la planta en su rendimiento.
Los resultados obtenidos en gramos fueron los siguientes:

I II III IV V
1 296 357 340 331 348
2 402 390 431 340 320
3 437 334 426 320 296
4 303 319 310 260 242
5 469 405 442 487 394
6 345 342 358 300 308
7 324 339 357 352 220
8 488 374 401 338 320

Si no se tiene en cuenta el efecto de las diferentes condiciones del terreno, conteste a las siguientes
preguntas:

¿Existen diferencias entre las variedades?

¿Cúal es la mejor y la peor?

La variedad ocho es autóctona y la más empleada. La cinco es la más cara. Si tuvierá que elegir
¿cuál elegiría?

Haga un contraste de las hipótesis del modelo: normalidad, homocedasticidad, homogeneidad e


independencia.

11
Conteste todas las preguntas anteriores si se introduce la variable que tiene en cuenta el efecto del
terreno.
2.23. Se desea comparar cuatro procedimientos de obtención de la penicilina (A, B, C y D); siendo
la variable respuesta producción en kg.
Una materia prima, licor de maíz, se tiene en cuenta en el experimento. Se dispone de cinco muestras
de licor de maíz. A continuación se presenta la tabla de los datos.

A B C D
1 89 88 97 94
2 84 77 92 79
3 81 87 87 85
4 87 92 89 84
5 79 81 80 88

¿Cómo afectan los procedimientos y la materia prima?

¿Cuál es el mejor procedimiento y materia prima?

Realice la diagnosis del modelo

En el archivo penicili.sf3 se encuentra la variable respuesta cantidad, el factor tratamiento y el bloque


mezcla.
2.24. En 1986 IBM realizó una serie de experimentos en varios de sus sistemas para investigar el
comportamiento de nuevos algoritmos para incorporar en la librería de funciones matemáticas de su
compilador FORTRAN. En el archivo fortran.sf3 se encuentran el tiempo empleado por llamada para
la ejecución (dado en s) de cinco funciones escalares, que se proporcionan en la siguiente tabla. El
tiempo se ha promediado en 10000 argumentos seleccionados aleatoriamente en los intervalos de interés
([- , ],...). Las ejecuciones se llevaron a cabo en tres sistemas IBM diferentes (4331, 4361 y 4341). Se
proporcionan también los nombres de las funciones escalares consideradas.

Función Sistema IBM


4331 4361 4341
EDUM 9,90 3,07 4,88
ACOS CIRC [ ; ] 179,62 33,28 33,23
SEN LINEAL [ ; ] 105,72 24,13 27,08
EXP LINEAL [ 16; 16] 254,82 39,14 37,46
D2DUM 13,47 4,63 5,72

El interés principal del experimento era el estudio de la e…cacia de los tres sistemas ¿ha resultado
adecuada la estrategia?

Realice la diagnosis del modelo y proponga posibles soluciones si detecta algún problema.

2.25 Unos alumnos de la universidad de Tu¤s (Massachussets, E.U.A.), preocupados por el estado
de corrosión de las tuberías de su universidad, decidieron realizar el siguiente experimento. Tomaron
muestras de agua corriente haciendo variar los factores Campus, Tipo de edi…cio y antigüedad del edi…cio.

12
Se midió la concentración de hierro en el agua corriente (mg=dm3 ) y para cada posible combinación de
factores se tomaron dos observaciones. En el archivo corrosio.sf3 se muestran los resultados que se
presentan en la siguiente tabla.

Factor Concentración de Fe
Antigüedad Tipo Campus
Viejo Académico Medford 0,23 0,28
Nuevo Académico Medford 0,36 0,29
Viejo Residencial Medford 0,03 0,06
Nuevo Residencial Medford 0,05 0,02
Viejo Académico Somerville 0,08 0,05
Nuevo Académico Somerville 0,03 0,08
Viejo Residencial Somerville 0,04 0,07
Nuevo Residencial Somerville 0,02 0,06

Identi…que el modelo de que se trata, estime sus parámetros y realice la diagnosis.

Si no se cumplieren las hipótesis del modelo indique qué podría hacerse para remediarlo.

Estudie las interacciones e interprete las que resulten signi…cativas.

13
Regresión
1: Regresión simple I

Regresión simple
consumo y peso de automóviles
Núm. Obs. Peso Consumo
(i) kg litros/100 km 25
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13 20
Consumo (litros/100 Km)

6 655 6
7 1273 14
8 1485 17
9 1366 18 15
10 1351 18
11 1635 20
12 900 10
13 888 7
14 766 9
10
15 981 13
16 729 7
17 1034 12
18 1384 17 5
19 776 12
20 835 10
21 650 9
22 956 12
0
23 688 8
24 716 7 500 700 900 1100 1300 1500 1700
25 608 7
26 802 11 Peso (Kg)
27 1578 18

E 0  E 1 xi  u i , u i o N (0, V 2 )
28 688 7
29
30
1461
1556
17
15
yi
Regresión Lineal 2
Regresión simple
consumo y peso de automóviles
Núm. Obs. Peso Consumo
(i) kg litros/100 km 25
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13 20

Consumo (litros/100 Km)


6 655 6
7 1273 14
8 1485 17
9 1366 18 15
10 1351 18
11 1635 20
12 900 10
13 888 7
14 766 9
10
15 981 13
16 729 7
17 1034 12
18 1384 17 5
19 776 12
20 835 10
21 650 9
22 956 12
0
23 688 8
24 716 7 500 700 900 1100 1300 1500 1700
25 608 7
26 802 11 Peso (Kg)
27 1578 18

E 0  E 1 xi  u i , u i o N (0, V 2 )
28 688 7
29
30
1461
1556
17
15
yi
Regresión Lineal 3

Ecuación de una recta

yi E 0  E1 xi

E1
yi
1

E0
xi

Regresión Lineal 4
Modelo

yi E 0  E 1 xi  u i , ui o N (0, V 2 )

yi
E 0  E1 x

xi
E 0 , E1 ,V 2 : parámetros desconocid os
Regresión Lineal 5

Modelo

yi E 0  E 1 xi  u i , ui o N (0, V 2 )

yi
E 0  E1 x

xi V

E 0  E1 xi
Regresión Lineal 6
Hipótesis del modelo

Linealidad
E[yi ]= E0+E1xi
Parámetros
Normalidad
yi|xi Ÿ N (E0+E1xi,V2)
E0
Homocedasticidad E1
Var [yi|xi] = V2
V2
Independencia
Cov [yi, yk] = 0

Regresión Lineal 7

Modelo

yi E 0  E 1 xi  u i , ui o N (0, V 2 )
yi : Variable dependiente
xi : Variable independiente
ui : Parte aleatoria
V

Regresión Lineal 8
Estimación
n
M ( E 0 , E1 ) ¦(y
i 1
i  E 0  E1 xi ) 2
n
dM
¦ ( yi  Eˆ0  Eˆ1 xi ) 0 ¦y nEˆ0  Eˆ1 ¦ xi
dE 0
i
i 1
n
dM
¦ ( yi  Eˆ0  Eˆ1 xi ) xi 0 ¦x y Eˆ0 ¦ xi  Eˆ1 ¦ xi2
dE 0
i i
i 1
n n

y Eˆ0  Eˆ1 x ½ ¦ ( yi  y )( xi  x) ¦ ( xi  x) 2
°i1 ˆ i1
n
¾ E
¦x y
i 1
i i n Eˆ0 x  Eˆ1 ¦ xi n °
2

¿
n
1
n

cov( xi , yi )
Eˆ1 ; Eˆ0 y  Eˆ1 x
var( xi )

Regresión Lineal 9

Estimación: máxima verosimilitud


1 ª 1 n 2º
l ( E 0 , E1, V 2 ) exp
« 2 i ¦1 ( yi  E 0  E1xi ) »
2S n / 2 V n ¬ 2V ¼
L( E 0 , E1, V 2 ) log l ( E 0 , E1, V 2 )
n n 1 n
 log(2S )  log V 2  2 ¦ ( yi  E 0  E1xi ) 2
2 2 2V i 1
dL 1 n
¦ ( yi  Eˆ0  Eˆ1xi ) 0 ¦ yi nEˆ0  Eˆ1 ¦ xi
dE 0 V i 12
dL 1 n
¦ ( yi  Eˆ0  Eˆ1xi ) xi 0 ¦ xi yi Eˆ0 ¦ xi  Eˆ1 ¦ xi2
dE 0 V 2 i 1
n n
2
y Eˆ0  Eˆ1 x ½ ¦ ( yi  y )( xi  x) ¦ ( xi  x )
°i 1
Eˆ1 i 1
Eˆ0 x  Eˆ1 ¦ xi2 n ¾°
n
¦ xi yi n n n
i 1 ¿
cov( xi , yi )
Eˆ1 ; Eˆ0 y  Eˆ1 x
var( xi )

Regresión Lineal 10
Estimación V2 : máxima verosimilitud
n n 1 n
L( E 0 , E1, V )  log(2S )  log V  2 ¦ ( yi  E 0  E1xi ) 2
2 2
2 2 2V i 1
dL n 1 1 n 2
  ¦ ( yi  Eˆ0  Eˆ1xi ) 0
2 2 2 4i 1
dV Vˆ 2Vˆ
n
¦ ( yi  Eˆ0  Eˆ1xi ) 2
Vˆ 2 i 1
n
ei yi  Eˆ 0  Eˆ1 xi
n ½ n
¦ ei 0 °
° 2
¦ ei2
i 1 i 1
¾ sˆ R
n
n2
¦ ei xi 0°
°
i 1 ¿

Regresión Lineal 11

Estimación
Máxima verosimilitud
­ 1 ª 1 n 2 º½
Max ® exp  ¦ (
«¬ 2V 2 i 1 iy  E  E x ) »¼ ¾
¯ 2S V
n/2 n 0 1 i
¿

Mínimos cuadrados
n
Mín ¦ ( yi  E 0  E1 xi ) 2
i 1

Eˆ0 y  Eˆ1 x
cov( xi , yi ) ¦i 1 ( xi  x )( yi  y )
n
Eˆ1
var( xi ) ¦i 1 ( xi  x ) 2
n

Regresión Lineal 12
Recta de regresión

Eˆ1
cov( xi , yi )
yˆ Eˆ 0  Eˆ1 x
var( xi )

y
Pendiente
Eˆ1
Eˆ 0 y  Eˆ1 x
x
Regresión Lineal 13

Estimación
consumo y peso de automóviles
25
Núm. Obs. Peso Consumo
(i) kg litros/100 km
1 981 11
2 878 12 20
Consumo (litros/100 Km)

3 708 8
4 1138 11
5 1064 13 15
6 655 6
7 1273 14
8 1485 17
9 1366 18 10
10 1351 18
11 1635 20
12 900 10 5
13 888 7
14 766 9
15 981 13
16 729 7 0
17 1034 12 500 700 900 1100 1300 1500 1700
18 1384 17 Peso (Kg)
19 776 12
835 10
cov( xi , yi )
20
1225.2
Eˆ1
21 650 9
22 956
688
12
8
0.0117
var( xi ) 104446.6
23
24 716 7
25 608 7
802 11

Eˆ0 y  Eˆ x 11.87  0.0117 u 1017.7


26
27
28
1578
688
18
7 1 0.071
29 1461 17
30 1556 15

Regresión Lineal 14
Residuos

,
yi Eˆ0  Eˆ1 xi ei
,



Valor observado Valor Previsto Residuo
ei

yi

yˆ i Eˆ 0  Eˆ1 xi

xi

Regresión Lineal 15

n
¦ ei2
Residuos sˆR2 i 1
; ei yi  yˆ i
n2

,
yi Eˆ0  Eˆ1 xi ei
,



Valor observado Valor Previsto Residuo
ei

yi

yˆ i Eˆ 0  Eˆ1 xi

xi

Regresión Lineal 16
Ejemplo: estimación
Núm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km
1 981 11 11,44 -0,44 25
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59 20

Consumo (litros/100 Km)


6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35 15
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49 10
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48 5
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
0
20 835 10 9,72 0,28
21 650 9 7,55 1,45 500 700 900 1100 1300 1500 1700
22 956 12 11,14 0,86 Peso (Kg)
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071  0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44

E0  E1 xi  ui , V2
28 688 7 8,00 -1,00
29
30
1461
1556
17
15
17,07
18,18
-0,07
-3,18
yi
Regresión Lineal 17

Propiedades de Eˆ1
cov( xi , yi ) 1 n
Ê1 ¦ xi  x yi  y
s x2 ns x2 i 1 0
1 n 1 n
¦
ns x2 i 1
xi  x y i  ¦ xi  x y
ns x2 i 1
xi  x
wi
n
¦ ¨¨
§ xi  x ·
¸y w1 y1  w2 y2    wn yn
nsx2
2 ¸ i
i 1 © ns x ¹

1 n
x ¦in 1 wi ¦i 1 xi  x 0
ns x2
1 n 1 n
x ¦in 1 wi xi ¦i 1 xi  x xi 2 ¦i 1
xi  x xi  1 2 ¦in 1 xi  x x 1 n
2 ¦i 1
xi  x 2 1
ns x2 ns x ns x ns x
2
§ 1 · n 1
x¦ w n
i 1
2
¨¨ 2 ¸¸ ¦i 1 xi  x 2
ns x2
i
© ns x ¹

Regresión Lineal 18
y, Eˆ1 son v.a. independientes
§ y1 · ½
¨ ¸ °
1 1 1 §1 1 1 ·¨ y2 ¸ T °
y y1  y2    yn ¨  ¸¨ ¸ a Y
n n n ©n n n¹  °
¨ ¸ °
¨y ¸ °
© n¹
¾
§ y1 · °
¨ ¸
¨ y2 ¸ °
Eˆ1 w1 y1  w2 y2    wn yn w1 w2  wn ¨ ¸ w Y ° T

 °
¨ ¸
¨y ¸ °
© n¹ ¿
V2 n
cov( y , Eˆ1 ) a var( Y )w
T

n
¦w
i 1
i 0

Regresión Lineal 19

Distribución de Eˆ1
yi o N ( E 0  E1 xi ,V 2 )
Eˆ1 w1 y1  w2 y2    wn yn o Comb. lineal de normales
E[ Eˆ1 ] E[ w1 y1  w2 y2    wn yn ]
w1 E[ y1 ]  w2 E[ y2 ]    wn E[ yn ] ( E[ yi ] E 0  E1 xi )
E 0 (¦ wi )  E1 (¦ wi xi ) E1
Var[ Eˆ1 ] Var[ w1 y1  w2 y2    wn yn ]
w12Var[ y1 ]  w22Var[ y2 ]    wn2 [ yn ] (Var[ yi ] V 2 )
n V2
(¦ wi2 )V 2
ns x2
§ V 2
·
i 1

ˆ
E1 o N ¨¨ E1 , 2 ¸¸
© ns x ¹

Regresión Lineal 20
Parámetro E1 y estimador Eˆ1
Eˆ1 0.0117 litros cada 100km/kg
1.17 litros cada 100km/100 kg
sˆR 1.54
SE ( Eˆ1 ) 0.087
ns X 30 u 3.2 t28
sˆR
E1  Eˆ1 r tD / 2 tn-2
ns x
1-D
E1 1.17 r 2.05 u 0.08 D/2
E1 1.17 r 0.16 .
1.01 d E1 d 1.33 -tD/2 tD/2
-2.05 2.05
Simple Linear Regression 21

Desviación típica de Eˆ1

sˆR
SE ( Eˆ1 )
ns X

La precisión en la estimación de la pendiente


mejora si:
1. La Desv. Típica residual es pequeña
2. La muestra n es grande
3. Los valores de x tienen mucha dispersión

Simple Linear Regression 22


Distribución de Ê 0
V2
x y o N ( E 0  E1 x , )
n
V2
x Eˆ1 o N ( E1 , )
ns x2
x y , Eˆ1 son independie ntes
½
Eˆ0 y  Eˆ1 x o Normal °
°° § V 2
§ x 2
··
E[ Eˆ0 ] E[ y ]  x E[ Eˆ1 ] E 0 ¾ Eˆ0 o N ¨¨ E 0 , ¨¨1  2 ¸¸ ¸¸
° © n © sx ¹ ¹
V 2
§ x 2
·
var[ Eˆ0 ] ¨¨1  2 ¸¸ °
n © s x ¹ °¿

Regresión Lineal 23

Distribución de ŝR2

yi E 0  E1xi  ui yi Eˆ0  Eˆ1xi  ei


ui o N (0, V 2 )
¦in 1ui2 ¦in 1 ei2 ­ ¦ ei 0
o F n2 o F n2 2 ®
V2 V2 ¯¦ ei xi 0

n
¦ ei2 2
(n  2) sˆR
i 1 o F n2 2
V2 V2

Regresión Lineal 24
Contraste principal de regresión:
¿depende y de x?
H 0 : E1 0
H 1 : E1 z 0
yi yi

yi E 0  E1 xi  ui yi E 0  ui
xi xi
H0 es falso H0 es cierto
x e y están relacionados x e y no están relacionados
Regresión Lineal 25

Contraste sobre la pendiente


V
H 0 : E1 0 yˆ i Eˆ0  Eˆ1 xi Eˆ1 o N ( E1 ,
ns x
)

H 1 : E1 z 0 Eˆ1  E1
o N (0,1) Ÿ
Eˆ1  E1
o tn2
V sˆR
ns x ns x

R.R
Eˆ1 R.R.
t1 ; tn-2
sˆR
1-D
ns x D/2
R. Acept.
t1 ! t n  2;D / 2 Ÿ Se rechaza Ho
-tD/2 tD/2

Regresión Lineal 26
Ejemplo: D = 0.05
H 0 : E1 0 yˆ i 0.071  0.0117 xi ; sˆR 1.54
R.R. t28 R.R
H 1 : E1 z 0
0.017 0.025 0.025
t0 13.4
1.54 /( 30 u 323.2) …
-2.05 2.05

13.4 ! 2.05 Ÿ Se rechaza H 0


El peso influye significativamente en el consumo

27

H 0 : E1 0
P-valor H 1 : E1 z 0

α = 0.05 Area Azul = p-valor

P-valor ≤ α P-valor > α


Con α=0.05
0 05 ““x”” influye Con α=0.05 “x” NO influye
significativamente en “y” significativamente en “y”

H1 : E1 z 0 H 0 : E1 0
Contraste: ordenada en el origen
H0 : E0 0
yˆ i Eˆ0  Eˆ1 xi
H1 : E 0 z 0
V2 x 2
Eˆ0 o N ( E 0 , (1  2 ))
n sx
Eˆ0
t0 2
;
sˆR x
1 2
n sx
t0 ! t n2;D / 2 Ÿ Se rechaza Ho

Regresión Lineal 29

Modelo estimado y contrastes


Dependiente (y) ~ Independiente (x)
Estimate Stand Error t value Pr(>|t|)
Intercept SE( )
=
SE( )
Regressor SE( )
=
SE( )

Dependiente (Consumo) ~ Independiente (Peso)


Estimate Stand Error t value Pr(>|t|)
Intercept -0.07126 0.945148 -0.075 0.943246
Peso 0.01173 0.000887 13.23 0.000000

Regresión Lineal 30
Descomposición de la
variabilidad en regresión
yi E 0  E1 xi  ui
yi Eˆ0  Eˆ1 xi  , ei


yˆ y  yˆ
i i i
yi yˆ  ( y  yˆ ) (restando y )
i i i
( yi  y ) ( yˆ  y )  ( y  yˆ ) (elevando al cuadrado y sumando)
i i i
n n n
¦ ( yi  y ) 2
¦ ( yˆi  y ) 2  ¦ ( yi  yˆi ) 2
i 1 i 1 i 1

VT VE  VNE

Regresión Lineal 31

Coeficiente de determinación R2
n
VE ¦ ( yˆi  y ) 2 VT VE  VNE
i 1
2 VE
n R
VNE ¦ ( yi  yˆ i ) 2 VT
i 1
0 d R2 d 1
n
VT ¦ ( yi  y ) 2 Mide el porcentaje de VT que
está explicado por el regresor
i 1
n
yˆ i y  Eˆ1 ( xi  x ) :Ÿ VE Eˆ12 ¦ ( xi  x ) 2 Eˆ12 ns x2
i 1
Regresión Lineal 32
Coef. determinación

R 2
1 R2 0.80

R2 0.50 R2 0

Regresión Lineal 33

Contraste F

H 0 : E1 0 Eˆ1
yˆ i Eˆ0  Eˆ1 xi
H 1 : E1 z 0

o F12
VE
(Si H o es cierto)
2
V VE VE
F o F1 ,n  2
2
¦in 1 ei2 VNE/(n-2 ) 2
(n  2) sˆR sˆR
o F n22
VNE
V2 V2
V2
VE VNE F ! FD Ÿ Se rechaza H0
, son independie ntes
V2 V2

Regresión Lineal 34
Contraste F yˆ i Eˆ0  Eˆ1 xi

E[VE ] V 2 (Si H o es cierto)


H 0 : E1 0
E[ sˆR2 ] V 2
H 1 : E1 z 0
VE
F 2
o F1,n  2 F ! FD Ÿ Se rechaza H0
sˆR

Rechazo H0
F1,n-2 Acep. H0


α = 0.05

Regresión Lineal 35

Contraste F yˆ i Eˆ0  Eˆ1 xi

n
H 0 : E1 0 VE ¦ ( yˆ i  yi ) 416.8
i 1
H 1 : E1 z 0 sˆR2 2.38
VE 416.8
F 175.1
sˆR2 2.38
F1,28

α = 0.05
175.1 ! 4.2 Ÿ Se rechaza H 0
4.2
Regresión Lineal 36
Tabla de Análisis de la Varianza
Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F

Explicada (VE) ¦ ( yˆ  y) 2
1 ¦ ( yˆ  y) 2 ¦ ( yˆ i  y)2
i i
sˆR2
Residual (VNE) ¦(y i  yˆ i ) 2 n2 sˆ 2
R
Total (VT) ¦(y i  y)2 n 1

R2
VE ¦ i
( ˆ
y  y ) 2

VT ¦(y i  y)2

Análisis de la varianza 37

Tabla de Análisis de la Varianza

Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F

Explicada (VE) 416.8 1 416.8 175.1


Residual (VNE) 66.64 28 2.38
Total (VT) 483.4 29

R2 0.862

Análisis de la varianza 38
Ejemplo: R2 yˆ i 0.071  0.0117xi ;

Núm. Obs. Peso Consumo Predicción Residuos 25


(i) kg litros/100 km
1 981 11 11,44 -0,44
20
2 878 12 10,23 1,77

Consumo (litros/100 Km)


3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28

sˆ R2
15
5
6
1064
655
13
6
12,41
7,61
0,59
-1,61
10
2.38
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35
9 1366 18 15,95 2,05 5
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
0
12 900 10 10,49 -0,49
500 700 900 1100 1300 1500 1700
13 888 7 10,35 -3,35
Peso (Kg)
14 766 9 8,91 0,09 n
15
16
981
729
13
7
11,44
8,48
1,56
-1,48
VE ¦ ( yˆ i  y ) 416.8
17 1034 12 12,06 -0,06 i 1
18 1384 17 16,16 0,84
776 12 9,03 2,97 n
¦ ( yi  yˆ i ) 66.64
19
20
21
835
650
10
9
9,72
7,55
0,28
1,45
VNE
22 956 12 11,14 0,86 i 1
23
24
688
716
8
7
8,00
8,33
0,00
-1,33 VT VE  VNE 483.4
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
416.8
27 1578
688
18
7
18,44
8,00
-0,44
-1,00
R2 86.2%
483.4
28
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18

Regresión Lineal 39

Regresión con R
ARCHIVO TEXTO: coches.txt

Regresión Lineal 40
Regresión con R: Estimación

Regresión Lineal 41

Gráfico en R

Regresión Lineal 42
Ejemplo 2: Pearson-Lee Data

Simple Linear Regression 43

Estimation with R

Simple Linear Regression 44


Simple Linear Regression 45

Conclusiones Principales
1. Hay una relación muy significativa entre la altura de las
hijas y la altura de la madre (p-valor es prácticamente 0)
Eˆ1 0.54
2. La relación es positiva: “A madre alta hija alta.”

3. La desviación típica de la pendiente (standard error) es


SE ( Eˆ1 ) 0.0259 Ÿ E1  0.54 r 1.96 u 0.0254
0.49 d E1 d 0.590

4. La estatura de la madre solo explica el 24% de la estatura


de la hija (R-squared = 0.24)

5. Dada la estatura de la madre se puede predecir la estatura


de la hija con un error medio de 5.75 cm (sR).

Simple Linear Regression 46


“Regresión” a la media

La recta de regresión (línea roja) tiene pendiente menor que 1 (línea azul) , lo que significa que las
madres altas tienden a tener hijas que son más altas que la media (pues la pendiente es positiva) pero
más bajas que ellas (porque la pendiente es menor que uno). De forma similar, las madres bajas tienen
hijas más bajas , pero más altas que sus madres. Este resultado resultó sorprendente y es el origen del
término “regresión”, que indica que los valores extremos de una generación tienden a regresa o
revertir hacia la media en la siguiente.

Simple Linear Regression 47

Regresión
2: Regresión simple II (Diagnosis y
Transformaciones)
Diagnosis del Modelo

La estimación está basada en las


siguientes hipótesis:
Linealidad
yi
Normalidad
E 0  E1 x
Homocedasticidad
Independencia xi

¾ Observaciones Atípicas (muy perjudiciales)


Las hipótesis se comprueban con los RESIDUOS
Regresión Lineal 2

Análisis de los Residuos


Núm. Obs. Peso Consumo Predicción Residuos

yi  yˆ i
(i) kg litros/100 km
1
2
981
878
11
12
11,44
10,23
-0,44
1,77
ei
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
25
5 1064 13 12,41 0,59
6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86 20
1485 17 17,35 -0,35
Consumo (litros/100 Km)

8
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89 15
12 900 10 10,49 -0,49
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56 10
16 729 7 8,48 -1,48
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84 5
19 776 12 9,03 2,97
20 835 10 9,72 0,28
21 650 9 7,55 1,45
22 956 12 11,14 0,86 0
23 688 8 8,00 0,00 500 700 900 1100 1300 1500 1700
24 716 7 8,33 -1,33
25 608 7 7,06 -0,06 Peso (Kg)
26 802 11 9,34 1,66

0.071  0.0117xi ; sˆ R2
1578 18 18,44 -0,44
yˆ i
27
28
29
688
1461
7
17
8,00
17,07
-1,00
-0,07
2.38
30 1556 15 18,18 -3,18

Regresión Lineal 3
Diagnosis del Modelo
Núm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km
1 981 11 11,44 -0,44 25
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59 20

Consumo (litros/100 Km)


6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35 15
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49 10
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48 5
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
0
20 835 10 9,72 0,28
21 650 9 7,55 1,45 500 700 900 1100 1300 1500 1700
22 956 12 11,14 0,86 Peso (Kg)
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071  0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
28 688 7 8,00 -1,00
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18

Regresión Lineal 4

Diagnosis del Modelo


Núm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km
1 981 11 11,44 -0,44
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59
6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
20 835 10 9,72 0,28
21 650 9 7,55 1,45
22 956 12 11,14 0,86
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071  0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
28 688 7 8,00 -1,00
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18

Regresión Lineal 5
No linealidad

Regresión Lineal 6

No homocedasticidad

Regresión Lineal 7
No homocedasticidad, ni
linealidad

Regresión Lineal 8

Observaciones atípicas

Regresión Lineal 9
Residuos Aceptables

Regresión Lineal 10

Normalidad de los Residuos

Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
Ejemplo de coches
120 99,9
99
100
probabilidad

95
80 80
60 50
20
40
5
20 1
0 0,1
-9 -6 -3 0 3 6 9 -6 -4 -2 0 2 4 6
Residuos Residuos

Regresión Lineal 11
Comprobación de la linealidad
y homocedasticidad
Ambas hipótesis se comprueban
conjuntamente mediante gráficos de los
residuos
Frente a valores previstos
Frente al regresor.
En muchas ocasiones se corrige la falta
de linealidad y la heterocedasticidad
mediante transformación de las variables.
log yi E 0  E1 x1i  ui
log yi E 0  E1 log x1i  ui

Regresión Lineal 12

Residuos – Regresor o Val.Previstos

Lineal y homocedástico No lineal y homocedástico


ei ei

0 0

xi xi
ei ei

0 0

Lineal y no homocedástico xi No lineal y no homocedástico xi


Regresión Lineal 13
Coches (ejemplo 1): Consumo ~ Peso

Normalidad ok Linealidad ok y
Homocedasticidad ok

Regresión Lineal 14

Cars (Ejemplo 2): mpg ~ weight


DESCRIPCIÓN: Datos de 391 coches (archivo:cars.txt) con
información del siete variables: consumo (mpg), cc (engine),
potencia (horse), peso (weight), tiempo de aceleración (accel),
origen del coche (origin, 1=USA, 2=UE, 3=Japón) y número de
cilindros (cylinders)

OBJETIVO: Estimar el modelo de


regresión simple entre el consumo
(mpg) y el peso (weight)

Regresión Lineal 15
Cars: mpg ~ weight

mpg = 49.20 − 0.0076 weight


(0.802) (0.00025)

= 0.69 ̂ = 4.34

Regresión Lineal 16

Cars: Figuras
No hay linealidad ni homocedasticidad

Figura 2.1 Figura 2.2

Regresión Lineal 17
Cars: cons ~ weight
TRANSFORMACIÓN: En lugar de medir el consumo en
millas por galón (mpg), vamos a cambiar a “litros cada
100 km (cons)”
cons = 235.1/mpg

Y X


Regresión Lineal 18

Cars: cons ~ weight


TRANSFORMACIÓN: En lugar de medir el consumo en
millas por galón (mpg), vamos a cambiar a “litros cada
100 km (cons)”
cons = 235.1/mpg

cons = −0.7689 + 0.0040 weight


(0.3298) (0.00011)

= 0.79 ̂ = 1.78

Regresión Lineal 19
Cars: Cambio Variable
Mejora la linealidad y homocedasticidad

Figura 2.3 Figura 2.4

Regresión Lineal 20

Cars: Normalidad
Normalidad no es problemática

Figura 2.5 Figura 2.6

Regresión Lineal 21
Cars: Instrucciones con R

> cars<-read.table("cars.txt",header=TRUE) % LEE EL ARCHIVO CARS.TXT


> attach(cars) % AÑADE LAS VARIABLES DEL CONJUNTO DE DATOS cars A LA MEMORIA

> mod_cars<-lm(mpg ~ weight) % ESTIMA EL MODELO DE REGRESIÓN SIMPLE (MOD_CARS)

> par(mfrow=c(1,2)) % DIVIDE LA PANTALLA GRÁFICA EN 1 FILA Y 2 COLUMNAS (ver FIGURAs 2.1 2.2)

> plot(weight,mpg,pch=19,col="blue") % DIBUJA Figura 2.1


> abline(mod_cars,col="red",lwd=2) % AÑADE Linea roja A la figura 2.1

> plot(weight,residuals(mod_cars),pch=19,col="blue",ylab="residuos") % DIBUJA Figura 2.2


> abline(c(0,0),col="red",lty=2,lwd=2) > summary(mod_cars) % Línea roja de la figura 2.2

> summary(mod_cars) % MUESTRA Resumen del modelo de regresión

Regresión Lineal 22

Cars: Instrucciones con R

Tabla 2.1

Regresión Lineal 23
Cars: Instrucciones con R

> cons <- 235.1/mpg % cambio variable


> m2 <- lm(cons ~ weight) % nuevo modelo

> plot(weight,cons,pch=19,col="blue") % Figuras 2.3 y 2.4


> abline(m2,col="red",lwd=2)
> plot(weight,residuals(m2),pch=19,col="blue",ylim=c(-10,10))
> abline(c(0,0),col="red",lwd=2,lty=2)
> abline(c(5,0),col="red",lwd=2,lty=2)
> abline(c(-5,0),col="red",lwd=2,lty=2)

> hist(residuals(m2),xlab="residuos",col="red",nclas=20) % figuras 2.5 y 2.6


> qqnorm(residuals(m2),col="blue",pch=19)
> qqline(residuals(m2),col="red",lwd=2,lty=2)

> summary(m2) % resumen del modelo m2 (tabla 2.2)

Regresión Lineal 24

Cars: Instrucciones con R

Tabla 2.2

Regresión Lineal 25
Forbes (Ejemplo 3)
Ejemplo “Forbes”
En un artículo de 1857 un físico escocés llamado “forbes.txt”
James D. Forbes presentó una serie de experimentos Temp Pres
realizados para estudiar la relación entre presión 1 194.5 20.79
atmosférica y punto de ebullición del agua. Forbes 2 194.3 20.79
3 197.9 22.40
sabía que la altitud podía ser determinada a partir de 4 198.4 22.67
la presión atmosférica medida con un barómetro, con 5 199.4 23.15
menores presiones a medida que aumenta la altitud. A 6 199.9 23.35
7 200.9 23.89
mediados del siglo XIX los barómetros eran 8 201.1 23.99
instrumentos muy frágiles y Forbes pensó que se 9 201.4 24.02
podía sustituir la medidas de la presión con medidas 10 201.3 24.01
11 203.6 25.14
de la temperatura de ebullición del agua. Recogió 12 204.6 26.57
datos de 17 emplazamientos en los Alpes y los 13 209.5 28.49
montes de Escocia. En cada lugar se midió con un 14 208.6 27.76
15 210.7 29.04
barómetro la presión en pulgadas de mercurio (Pres) 16 211.9 29.88
y la temperatura de ebullición del agua en grados 17 212.2 30.06
Fahrenheit (Temp) empleando un termómetro. Los
Weisberg, S. (2005). Applied Linear Regression, 3rd
datos se encuentran en el archivo “forbes.txt” edition. New York: Wiley.

Simple Linear Regression 26

Forbes: Modelo Inicial


Temp Pres Pred Resid
1 194.5 20.79 20.639 0.1511552
2 194.3 20.79 20.534 0.2557337
3 197.9 22.40 22.417 -0.0166790
4 198.4 22.67 22.678 -0.0081252
5 199.4 23.15 23.201 -0.0510176
6 199.9 23.35 23.462 -0.1124638
7 200.9 23.89 23.985 -0.0953562
8 201.1 23.99 24.090 -0.0999347
9 201.4 24.02 24.247 -0.2268024
10 201.3 24.01 24.195 -0.1845131
11 203.6 25.14 25.397 -0.2571657
12 204.6 26.57 25.920 0.6499419
13 209.5 28.49 28.482 0.0077692
14 208.6 27.76 28.012 -0.2516277
15 210.7 29.04 29.110 -0.0697017
Pres = −81.06 + 0.523 Temp 16
17
211.9
212.2
29.88
30.06
29.737
29.894
0.1428274
0.1659597
(2.05) (0.010)

= 0.994 ̂ = 0.233 Tabla 3.1

Regresión Lineal 27
Forbes: Conclusiones Modelo Inicial

• Según la figura y el valor R-cuadrado (0.994) el ajuste es


muy bueno.

• Comparando los valores Previstos con los Observados


(Pred) observamos que las diferencias (residuos) son
pequeñas ( ̂ = 0.233)

• Los dos parámetros del modelo son muy significativos


(entre paréntesis se proporcionan las desv. típicas.
estimadas de los parámetros estimados)

Regresión Lineal 28

Forbes: Diagnosis

Figura 3.1 Figura 3.2

En el gráfico de residuos frente al regresor se observa:

• La mayoría de las observaciones muestran no-linealidad


• Existe una observación atípica

Regresión Lineal 29
Forbes: Instrucciones R
> forbes <- read.table(“forbes.txt”,header=TRUE)
> attach(forbes)
> m <- lm(Pres ~ Temp)
> summary(m)

Regresión Lineal 30

Forbes: Instrucciones R (cont)


> forbes$Pred <- predict(m)
> forbes$Resid <- residuals(m)
> print(forbes,digits=4,print.gap=3) % proporciona tabla 3.1

Figuras 3.1 y 3.2


> par(mfrow=c(1,2))
> plot(Temp,Pres,pch=19,col="blue",xlab="Temperatura",
ylab="Presión")
> abline(m,col="red",lwd=2)
> plot(Temp,residuals(m),pch=19,col="blue",ylab="Residuos",
xlab="Temperatura")
> abline(c(0,0),lty=2,lwd=2,col="red")

Regresión Lineal 31
Forbes: Modelo 1
Temp Pres Lpres Pred Resid
= 100 × log 1 194.5 20.79 131.79 132.03 -0.2480225
2 194.3 20.79 131.79 131.85 -0.0688990
3 197.9 22.40 135.02 135.08 -0.0537700
4 198.4 22.67 135.55 135.53 0.0187713
5 199.4 23.15 136.46 136.42 0.0331010
6 199.9 23.35 136.83 136.87 -0.0411189
7 200.9 23.89 137.82 137.77 0.0561898
8 201.1 23.99 138.00 137.94 0.0584761
9 201.4 24.02 138.06 138.21 -0.1559337
10 201.3 24.01 138.04 138.12 -0.0844563
11 203.6 25.14 140.04 140.18 -0.1470658
12 204.6 26.57 142.44 141.08 1.3599445
13 209.5 28.49 145.47 145.47 0.0015070
14 208.6 27.76 144.34 144.66 -0.3197358
15 210.7 29.04 146.30 146.54 -0.2428181
16 211.9 29.88 147.54 147.62 -0.0791613
17 212.2 30.06 147.80 147.89 -0.0870083

Lpres = −42.16 + 0.8956 Temp


(3.34) (0.016) Tabla 4.1

= 0.995 ̂ = 0.379
Regresión Lineal 32

Forbes : modelo 1

Figura 4.1 Figura 4.2

En el gráfico de residuos frente al regresor se observa:


• Existe una observación claramente atípica
• Se ha corregido la falta de linealidad en el resto de las
observaciones.

Regresión Lineal 33
Forbes: Modelo 1

• Se ha realizado la transformación logarítmica de la presión


para corregir la falta de linealidad (da igual utilizar
logaritmos neperianos o decimales, se ha multiplicado por
100 para evitar números muy pequeños en las
estimaciones, no tiene efecto en el análisis)
• La observación atípica tiene mucha influencia en la
estimación del modelo, se aprecia como los residuos del
resto de las observaciones no tienen media cero.
• Por lo demás el ajuste es muy bueno como se ve en la
gráfica y en la tabla 4.1, los valores previstos se parecen
mucho a los observados (los residuos son pequeños)
• Conviene eliminar la observación atípica y recalcular.

Regresión Lineal 34

Forbes: Instrucciones R
> forbes1 <- read.table(“forbes.txt”,header=TRUE)
> attach(forbes1)
> m1 <- lm(100*log10(Pres) ~ Temp)
> summary(m1)

Regresión Lineal 35
Forbes: Instrucciones R (cont)
> forbes1$Lpres <- 100*log10(Pres)
> forbes1$Pred <- predict(m1)
> forbes1$Resid <- residuals(m1)
> print(forbes1,digits=4,print.gap=3) % proporciona tabla 4.1

Figuras 4.1 y 4.2


> par(mfrow=c(1,2))
> plot(Temp,100*log10(Pres),pch=19,col="blue",xlab="Temperatura“)
> abline(m1,col="red",lwd=2)
> plot(Temp,residuals(m1),pch=19,col="blue",ylab="Residuos",
xlab="Temperatura")
> abline(c(0,0),lty=2,lwd=2,col="red")

Regresión Lineal 36

Forbes: Modelo 2
(ELIMINANDO OBSERVACIÓN Nº 12)
Temp Pres Lpres Pred Resid
= 100 × log 1 194.5 20.79 131.79 131.99 -0.2006699
2 194.3 20.79 131.79 131.81 -0.0224480
3 197.9 22.40 135.02 135.02 0.0089107
4 198.4 22.67 135.55 135.46 0.0837061
5 199.4 23.15 136.46 136.35 0.1025441
6 199.9 23.35 136.83 136.80 0.0305783
7 200.9 23.89 137.82 137.69 0.1323953
8 201.1 23.99 138.00 137.87 0.1355832
9 201.4 24.02 138.06 138.13 -0.0774742
10 201.3 24.01 138.04 138.05 -0.0064475
11 203.6 25.14 140.04 140.10 -0.0586881
12* 204.6 26.57 142.44 140.99 1.4527324
13 209.5 28.49 145.47 145.35 0.1164833
14 208.6 27.76 144.34 144.55 -0.2088168
15 210.7 29.04 146.30 146.42 -0.1224318
16 211.9 29.88 147.54 147.49 0.0466349
17 212.2 30.06 147.80 147.76 0.0401403

Tabla 5.1
Lpres = −41.33 + 0.8911 Temp
(1.003) (0.0049)
La obs. 12 no se ha utilizado en
la estimación del modelo
= 0.9996 ̂ = 0.1136
Regresión Lineal 37
Forbes : modelo 2

Figura 5.1 Figura 5.2

En el gráfico de residuos frente al regresor se observa:


• No existen observaciones atípicas (las líneas rojas se
encuentran a ±2 ̂ )
• No se observa ninguna anomalía grave en el qqplot..

Regresión Lineal 38

Forbes: Modelo 2

• Se ha realizado la transformación logarítmica de la presión


para corregir la falta de linealidad y se ha eliminado la
observación 12 (el propio Forbes indica en su artículo que
se trataba de un error de medida)
• Comparando el modelo 1 y 2, no se aprecian grandes
cambios en los parámetros estimados , .
• La desviación típica residual se ha reducido
considerablemente de uno a otro, pasando de 0.379 a
0.113, y como consecuencia las desviaciones típicas de los
parámetros.
• El análisis de los residuos no indican ninguna desviación
importante de las hipótesis del modelo

Regresión Lineal 39
Forbes: Instrucciones R
> # Modelo m2 de Forbes
> out <- abs(residuals(m1)) > 3*0.3792
> m2 <- lm(100*log10(Pres[!out]) ~ Temp[!out])
> summary(m2)

Regresión Lineal 40

Forbes 2: Instrucciones R (cont)


> # Tabla 5.1
> P_Lpres =c(predict(m2)[1:11],NA,predict(m2)[12:16])
> P_Lpres[12] = -41.334683 + 0.891110*Temp[12]
> forbes2 <- forbes1
> forbes2$Pred <- P_Lpres
> forbes2$Resid <- 100*log10(Pres)-P_Lpres
> print(forbes2,digits=5,print.gap=3)

> # Figuras 5.1 y 5.2


> par(mfrow=c(1,2))
> plot(Temp[!out],residuals(m2),pch=19,col="blue",ylab="Residuos",
+ xlab="Temperatura",ylim=c(-.5,.5))
> abline(c(0,0),lty=2,lwd=2,col="red")
> abline(c(-.22,0),lty=2,lwd=2,col="red")
> abline(c(+.22,0),lty=2,lwd=2,col="red")
>
> qqnorm(residuals(m2),ylim=c(-.2,.2),pch=19,col="blue")
> qqline(residuals(m2),col="red",lty=2,lwd=2)

Regresión Lineal 41
FEV (Ejemplo 4)
Ejemplo “Fev” Forced Expiratory Volume (FEV)
654 observaciones, 5 variables

Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston


(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) y
fumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En la
lección de regresión múltiple estudiaremos el efecto del tabaco.

Fuente:
Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
age fev ht sex smoke
Variables 1 9 1.708 57.0 0 0
2 8 1.724 67.5 0 0
age años del individuo 3 7 1.720 54.5 0 0
fev variable continua en litros 4 9 1.558 53.0 1 0
ht variable continua, estatura en pulgadas 5 9 1.895 57.0 1 0
6 8 2.336 61.0 0 0
sex cualitativa (mujer=0, hombre=1) ...
smoke cualitativa (No-fumador=0, fumador=1)
Tabla 6.1

Regresión Lineal 42

FEV: Modelo Inicial


• Tanto en el gráfico de dispersión de FEV y altura (ht)
como en el de los residuos del modelo de regresión
simple se observa la relación no-lineal entre las dos
variables y la heterocedasticidad.

Figura 6.1 Figura 6.2

Regresión Lineal 43
FEV: modelo 1
log(fev) = −2.27 + 0.052 ht
(0.063) (0.0010)

= 0.7956 ̂ = 0.1508

Figura 6.3 Figura 6.4

Regresión Lineal 44

FEV: modelo 1

Figura 6.5 Figura 6.6

Regresión Lineal 45
5 ht
g( ) = −2.27 + 0.052
log(fev)
FEV: Modelo 1
((0.063)
0.063)) ((0.0010)
0.0010))
= 0.7956
0.7956 ̂ = 0.1508
0.1508
1

• Se ha realizado la transformación logarítmica de la variable


respuesta (fev) y se ha corregido la falta de linealidad y la
heterocedasticidad como se ve en las figuras 6.3 y 6.4
• El histograma y el qqplot (figura 6.5 y 6.6) no muestran
grandes desviaciones de la normalidad.
• Existen algunas observaciones atípicas pero se puede
comprobar que al eliminarlas los resultados no cambian
sustancialmente.
• Existe una relación muy significativa entre log(fev) y ht
(altura). Un incremento de un pulgada en la estatura supone
un aumento de la capacidad pulmonar del 5% (este
resultado cambiará al considerar otras variables)
• La altura explica un 79% (R2) de la variabilidad del log(fev).

Regresión Lineal 46

FEV: Modelo m1 con R

Tabla 6.2

Regresión Lineal 47
FEV : Instrucciones de R
> # FEV (ejemplo 4)
> dat <- read.table("fev.dat",header=TRUE)
> head(fev) #tabla 6.1
> attach(dat)
> m<-lm(fev~ht) # modelo m inicial
> par(mfrow=c(1,2))
> plot(ht,fev,col="blue") # figura 6.1
> abline(m,col="red",lwd=2)
> plot(ht,residuals(m),col="blue") # figura 6.2
> abline(c(0,0),col="red",lwd=2,lty=2)
> m1 <- lm(log(fev) ~ ht)
> summary(m1) # modelo estimado tabla 6.2
> plot(ht,log(fev),col="blue") # figura 6.3
> abline(m1,col="red",lwd=2) # figura 6.3
> plot(ht,residuals(m1),col="blue") # figura 6.4
> abline(c(0,0),col="red",lty=2,lwd=2)
> par(mfrow=c(1,2)) # figura 6.5 y 6.6
> hist(residuals(m1),col="red",nclass=20,xlab="Residuos")
> qqnorm(residuals(m1),col="blue")
> qqline(residuals(m1),col="red",lty=2,lwd=2)

Regresión Lineal 48

Brains (ejemplo 5)
Ejemplo “Brains” Peso del cuerpo y cerebro de mamiferos
62 observaciones, 2 variables

Descripción:
Para 62 especies de mamíferos se proporciona el peso medio del cuerpo en kilogramos y
del cerebro en gramos BrainWt BodyWt
Arctic_fox 44.500 3.385
Owl_monkey 15.499 0.480
Variables: Beaver 8.100 1.350
BrainWt Peso del cerebro (gramos) Cow 423.012 464.983
Gray_wolf 119.498 36.328
BodyWt Peso del Cuerpo (kilogramos) Goat 114.996 27.660

Tabla 7.1
OBJETIVO: Estudiar la relación entre
peso del cerebro y peso del cuerpo.

Fuentes
Allison, T. and Cicchetti, D. (1976). Sleep in mammals: Ecology and constitutional
correlates. Science, 194, 732-734.
Weisberg, S. (2005). Applied Linear Regression, 3rd edition. New York: Wiley

Regresión Lineal 49
Brains: Transformación
• En la escala original (figura 7.1) no tiene sentido el
modelo de regresión lineal.
• Haciendo las transformación logarítmica de las dos
variables (figura 7.2) se aprecia una clara relación lineal

Figura 6.1 Figura 6.2

Regresión Lineal 50

Brains: modelo 1
log(BrainWt) = 2.13 + 0.752 log(BodyWt)
(0.096) (0.028)

= 0.9208 ̂ = 0.6943

Figura 7.3 Figura 7.4

Regresión Lineal 51
log(BrainWt) = 2.13 + 0.752 log(BodyWt)

Brains (0.096) (0.028)

= 0.9208 ̂ = 0.6943

• La relación entre el logaritmo de peso del cuerpo y el


logaritmo del peso del cerebro es lineal como se ve en las
figuras 7.3 y 7.4
• Existen algunas observaciones atípicas pero se puede
comprobar que al eliminarlas los resultados no cambian
sustancialmente.
• El log del peso del cuerpo explica el 92% (R2) de la
variabilidad del log del peso del cerebro.

Regresión Lineal 52

Brains: Modelo m1 con R

Tabla 7.2

Regresión Lineal 53
Brains : Instrucciones de R
> brains <- read.table("brains.txt",header=TRUE)
> head(brains) # tabla 7.1
> par(mfrow=c(1,2))
> plot(BodyWt,BrainWt,col="blue",xlim=c(-1000,9000)) # figura 7.1
> sel = BrainWt>1000 # selecciona observaciones con peso del cerebro >1000
> text(BodyWt[out],BrainWt[out]-300,labels=brains[out,1]) # etiquetas 7.1
> m <- lm(BrainWt ~ BodyWt)
> abline(m,col="red",lwd=2) # figura 7.1
> plot(log(BodyWt),log(BrainWt),col="blue") # Figura 7.2 y 7.3
> m1 <- lm(log(BrainWt) ~ log(BodyWt))
> abline(m1,col="red",lwd=2) # linea en figura 7.2 y 7.3
> summary(m1) # tabla 7.2
> plot(log(BodyWt),residuals(m1),col="blue",ylim=c(-4,4)) # figura 7.4
> abline(c(0,0),col="red",lty=2,lwd=2)
> abline(c(-2*.6943,0),col="red",lty=2,lwd=2)
> abline(c(+2*.6943,0),col="red",lty=2,lwd=2)

Regresión Lineal 54

Funciones R para Regresión Simple

• m <- lm(y~x) Estima el modelo y (variable


dependiente) y x (regresor).
El modelo lo guarda en m
• summary(m) Modelo estimado
• plot(m) Diagnosis
• coef(m) Da los coeficientes
• residuals(m) Residuos del modelo
• fitted(m) Da los valores predichos
• deviance(m) Suma de residuos al cuadrado
• predict(m) Hace predicciones
• anova(m) Tabla ANOVA

Regresión Lineal 55
Regresión
3: Regresión Múltiple I

Ejemplo regresión múltiple

Consumo = E0 + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error


Y X1 X2 X3 X4
Consumo Cilindrada Potencia Peso Aceleración
l/100Km cc CV kg segundos
15 4982 150 1144 12
16 6391 190 1283 9
24 5031 200 1458 15
9 1491 70 651 21
11 2294 72 802 19
17 5752 153 1384 14
... ... ... ... ...

Var. dependientes Var. Independientes


o respuesta o regresores

Regresión Lineal 2
Modelo regresión múltiple
yi E 0  E1x1i  E 2 x2i    E k xki  ui ,
ui o N (0, V 2 )

E 0 , E1, E 2 ,, E k , V 2 : parámetros desconocidos


Linealidad Homocedasticidad
E[yi] = E0+ E1x1i+}+ Ekxki Var [yi|x1 ,...,xk] = V2
Normalidad Independencia
yi| x1 ,...,xk Ÿ Normal Cov [yi, yk] = 0

Regresión Lineal 3

Estimación
yi E0  E1 x1i  E 2 x2i    E k xk i  ui , ui o N (0, V 2 )

=
=

= − ̅ − ̅ −⋯− ̅

yi Eˆ0  Eˆ1 x1i    Eˆk xki  ei


yˆ i Eˆ0  Eˆ1 x1i    Eˆk xki
yˆ i Eˆ0  Eˆ1 x1i    Eˆk xki
n

¦e 2
i
ei yi  yˆ i o sˆR2 i 1
g.l. = n-k-1
n  k 1
Regresión Lineal 4
Notación matricial

§ y1 · §1 x11 x21  xk1 ·§ E 0 · § u1 ·


¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22  xk 2 ¸¨ E1 ¸ ¨ u 2 ¸

¨  ¸ ¨     ¸¨  ¸ ¨  ¸
¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨y ¸
© n¹
¨1
© x1n x2n  xkn ¸¹¨© E k ¸¹ ¨© u n ¸¹

Y Xβ  U
U o N (0, V 2 I )

Regresión Lineal 5

Estimación mínimo-cuadrática
§ y1 · §1 x11 x21  xk1 ·§ Eˆ0 · § e1 ·
¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22  xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨  ¸ ¨ ¨ ¸
    ¸¨  ¸ ¨  ¸
¨ ¸ ¨ ¸ ¨ ¸
¨y ¸ ¨1  xkn ¹© E k ¹ ¨© en ¸¹
¸¨ ˆ ¸
© n¹ © x1n x2n

Y Xβˆ  e
donde el vector e cumple
2 n
e ¦ ei2 es mínimo
i 1

Regresión Lineal 6
Para que ||e||2 sea mínimo, e tiene que ser
perpendicular al espacio vectorial generado las
columnas de X
§1 x11 x21  xk1 · § e1 ·
¨1 x12 x22  xk 2 ¸, e ¨e ¸
X ¨ ¸ ¨ 2 ¸
¨     ¸ ¨ ¸
©1 x1n x2 n  xkn ¹ © en ¹

­ ¦1nei 0
° n
°
Ÿ X Te 0 ® ¦1 ei x1i 0
° n 
°¯ ¦1 ei xki 0

Regresión Lineal 7

Mínimos cuadrados
Y Solución MC
x1
Y
e ˆ
YY
x1
x2

ˆ
Y ˆ

X Te 0 x2
X T Y X T Xβˆ  X T e
X T Y X T Xβˆ Ÿ βˆ ( X T X) 1 X T Y
Regresión Lineal 8
Matriz de proyección V
Y e (I  V)Y

x1 Val. Previstos
ˆ Xβˆ
Y
ˆ
Y VY ˆ X(X T X) 1 X T Y
Y
1 ˆ VY
Y
Residuos
e Y  Xβˆ Y  VY V X(XT X) 1 XT
(I  V)Y Simétrica V=VT
Idempotente VV=V

Regresión Lineal 9

Distribución de probabilidad
de β̂
Y o N ( Xβ, V 2I )
βˆ (X T X)1 X T Y CY (siendo C (X T X)1 X T )
βˆ o Normal
E[βˆ ] CE[Y ] CXβ (X T X)1 X T Xβ β
Var[βˆ ] Var[CY] CVar[Y ]CT
((X T X)1 X T )(V 2I )((X T X)1 X T )T
V 2 (X T X)1 X T X(XT X)1
V 2 (X T X)1

Regresión Lineal 10
Distribución de probabilidad
de β̂
βˆ o N (β, V 2 (X T X) 1 )
Eˆi o N ( E i , V 2 qii )
§ Eˆ 0 · § E0 · § q00 q01  q0 k ·
¨ ¸ ¨E ¸ ¨q
βˆ ¨ Eˆ1 ¸ β ( XT X) 1 q11  q1k ¸
¨ 1¸ Q ¨ 10 ¸
¨  ¸ ¨  ¸ ¨     ¸
¨ Eˆ ¸ © Ek ¹ © qk 0 qk1  qkk ¹
© k¹
dim(Q) (k  1) u (k  1)

Regresión Lineal 11

Residuos

Y Xβˆ  e





Observados Previstos Residuos

§ y1 · §1 x11 x21  xk1 ·§ Eˆ0 · § e1 ·


¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22  xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨  ¸ ¨ ¸ ¨ ¸¨ ¸
    ¨  ¸ 
¨ ¸ ¨ ¸ ¨ ¸
¨y ¸ ¨1  xkn ¸¹¨© Eˆ k ¸¹ ¨© en ¸¹
© n¹ © x1n x2n

ei yi  ( Eˆ0  Eˆ1x1i    Eˆ k xki )

Regresión Lineal 12
Varianza Residual

e Te ¦in 1 ei2
V2 V2
o F n2 k 1
2 ¦in 1 ei2
sˆR
¦in 1 ei2 n  k 1
E[ ] n  k 1 2
V2 (n  k  1) sˆR
o F n2k 1
¦in 1 ei2 V2
E[ ] V2
n  k 1

Regresión Lineal 13

Contraste individual Ei
H 0 : Ei 0
yi E 0  E1x1i   E k xki  ui
H1 : E i z 0

Eˆi o N ( E i , V 2 qii )
Eˆi  E i Eˆ1  E1
o N (0,1) Ÿ o t n  k 1
V qii sˆR qii
Eˆi
ti ; ti ! t n  k 1;D / 2 Ÿ Se rechaza Ho
sˆR qii

Regresión Lineal 14
Contrastes individuales

H 0 : Ei 0 yˆ i Eˆ0  Eˆ1 x1i    Eˆk xki


H1 : E i z 0
→ , ( )
Eˆi  E i
ti o t n  k 1
SE ( Eˆi )

R.R. R.R
Eˆ 1 tn-k-1
t1 ;
SE ( Eˆ ) 1
1-D D/2
t1 ! t n k 1;D / 2 Ÿ Se rechaza Ho D/2
R. Acept.
-tD/2 tD/2

Regresión Lineal 15

H 0 : Ei 0
P-valor H1 : E i z 0

α = 0.05 Area Azul = p-valor

n-k-1

P-valor ≤ α P-valor > α


Con α=0.05
0 05 ““x”” influye Con α=0.05 “x” NO influye
significativamente en “y” significativamente en “y”
H1 : E i z 0 H 0 : Ei 0
Modelo estimado y contrastes
Dependiente (y) ~ Independientes (x1, x2,..,xk)

Estimate Stand Error t value Pr(>|t|)


Intercept SE( )
=
SE( )
SE( )
=
SE( )
SE( )
=
SE( )

… … … … …

SE( )
=
SE( )

Regresión Lineal 17

Modelo estimado y contrastes


Dependiente (log(fev)) ~ Independientes (ht (estatura) , age (edad) )
Estimate Stand Error t value Pr(>|t|)
Intercept −1.9711 0.07833 −25.16 0.00000
ℎ 0.04399 0.001647 26.71 0.00000
0.01981 0.003181 6.23 0.00000

log(fev) = −1.97 + 0.0439 ht + 0.0198 age


(0.078) (0.0016) (0.0031)

̂ = 0.1476

Regresión Lineal 18
Modelo en diferencias a la
media
yi Eˆ0  Eˆ1x1i    Eˆ k xki  ei n
¦ yi
n
nEˆ0  Eˆ1 ¦ x1i    Eˆ k
n n
¦ xki  ¦ ei
i 1 i 1 i 1 1
Eˆ0  Eˆ1x1    Eˆ k xk
i,
y 0

yˆ i Eˆ0  Eˆ1x1i    Eˆ k xki


yˆ i  y Eˆ1 ( x1i  x1 )    Eˆ k ( xki  xk )
§ yˆ1  y · § x11  x1 x21  x2  xk1  xk ·§ Eˆ1 ·
¨ ¸ ¨ ¸¨ ¸
¨ 2
yˆ  y ¸ ¨ x12  x1 x22  x2  xk 2  xk ¸¨ Eˆ 2 ¸
¨  ¸ ¨     ¸¨ ¸
¨ ¸ ¨ ¸¨  ¸
¨ yˆ  y ¸ ¨x x x2n  x2  xkn  xk ¸¹¨© Eˆ k ¸¹
© n ¹ © 1n 1

ˆ Y ~ˆ ~ˆ
Y Xb YY Xb  e
Regresión Lineal 19

Modelo en diferencias a la
media
~ ~
Y Xb  U
§ y1  y · § y· § E1 · § Eˆ1 ·
¨ ¸ ¨ ¸ ¨ ¸ ¨ ¸
~ ¨ y2  y ¸ ¨ y¸ ¨ E2 ¸ ˆ ¨ Eˆ2 ¸
Y ¨ , Y , b ¨  ¸, b ¨  ¸
 ¸ ¨¸
¨¨ ¸¸ ¨¨ ¸¸ ¨¨ ¸¸ ¨¨ ¸¸
© n
y  y ¹ © ¹
y © Ek ¹ © Eˆk ¹
§ x11  x1 x21  x2  xk1  xk ·
¨ ¸
~ ¨ x12  x1
X
x22  x2  xk 2  xk ¸
¨     ¸
¨¨ ¸
© x1n  x1 x2n  x2  xkn  xk ¸¹

~ T ~ 1 ~ T ~ ~ ~
ˆb (X X) X Y bˆ o N (b, σ 2 ( XT X) 1 )

Regresión Lineal 20
Descomposición de la
variabilidad en regresión

yi Eˆ0  Eˆ1x1i    Eˆ k xki  ei


yi yˆ i  ei (Restando y )
( yi  y ) ( yˆ i  y )  ei

¦in 1 ( yi  y ) 2 ¦in 1 ( yˆ i  y ) 2  ¦in 1 ei2


VT VE  VNE

Regresión Lineal 21

Coeficiente de determinación R2

log(fev) = −1.97 + 0.0439 ht + 0.0198 age


(0.078) (0.0016) (0.0031)
n
VE ¦ ( yˆ
i 1
i  y)2 58.536
VE 58.536
n R2 0.8071
VNE ¦(y
i 1
i  yˆ i ) 2
13.990 VT 72.526

VT 58.536  13.990 72.526


0 d R2 d 1
Mide el porcentaje de VT que
está explicado por los regresores

Regresión Lineal 22
2
Coef. determinación corregido R
n
VE VT  VNE VNE (n  k  1) sˆR2 ¦ ( yi  y ) 2
R2 1 1 sˆ 2y i 1
VT VT VT (n  1) sˆ y2 n 1

sˆR2 VNE n 1
R2 1 2 1 u
sˆ y VT n  k  1
n 1
1  (1  R ) u
2

n  k 1

= 1 − (1 − 0.8071) × =0.8065

Regresión Lineal 23

Contraste general de regresión.


yi E 0  E1x1i   E k xki  ui
H 0 : E1 E 2  E k 0
H1 : alguno es distinto de 0

VE Acep. H0
Rechazo H0
2

E oV 2 (Si H o es cierto)
k
sˆR2 o V 2 α = 0.05
sˆE2
F o Fk ,n  k 1
sˆR2
F ! FD Ÿ Se rechaza H0 F1,n-2 Fα

Regresión Lineal 24
Contraste F
log(fev) = −1.97 + 0.0439 ht + 0.0198 age, ̂ = 0.1476
(0.078) (0.0016) (0.0031)

VE 58.436
sˆE2 29.268
H 0 : E1 E2 0 k 2
sˆR2 0.021
H1 : algún E i z 0 sˆE2 29.268
F 1362
F2,651 sˆR2 0.021

α = 0.05
1362 ! 3.01 Ÿ Se rechaza H 0

3.01 P-valor = 0.00000…


Regresión Lineal 25

Tabla de Análisis de la Varianza


Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F

sˆE2
Explicada (VE) ¦ ( yˆ i  y) 2
k sˆ 2
E sˆR2
Residual (VNE) ¦(y i  yˆ i ) 2 n  k 1 sˆR2
Total (VT) ¦(y i  y)
2
n 1

R2
VE ¦ i
( ˆ
y  y ) 2

VT ¦(y i  y)2

Análisis de la varianza 26
Tabla de Análisis de la Varianza
log(fev) = −1.97 + 0.0439 ht + 0.0198 age, ̂ = 0.1476
(0.078) (0.0016) (0.0031)

Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F

Explicada (VE) 58.536 2 29.268 1362


Residual (VNE) 13.990 651 0.0215
Total (VT) 72.526 653

58.536
R2 0.8071
72.526

Análisis de la varianza 27

Resumen de estimación con R

Regresión Lineal 28
Ejemplo 1: Cars
Depend Regresores

Y X1 X2 X3 X4

= −1.05 + 0.0058 engine + 0.0369 horse +


+ 0.0020 weight + 0.0813 accel

Regresión Lineal 29

Valores Previstos y Residuos


= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel

Datos Resultados n
VE ¦ ( yˆ i  y)2 4725.0
Y X1 X2 X3 X4 i 1
n
VNE ¦(y
i 1
i  yˆ i ) 2 1037.9
n
VT ¦(y
i 1
i  y)2 5762.9

2
1037.9
̂ = =
− −1 386
= 2.7
4725
= = = 81.99
5762.9

Regresión Lineal 30
DIAGNOSIS: residuos ~ regresores

Regresión Lineal 31

Diagnosis

Linealidad Normalidad
Homocedasticidad ok
ok

Regresión Lineal 32
Resumen del modelo

Regresión Lineal 33

Resumen del modelo (sin aceleración)

Regresión Lineal 34
Conclusiones modelo final
= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel
̂ = 1.64 = 81.99

1. No se aprecian desviaciones importantes de las hipótesis básicas del


modelo: linealidad, homocedasticidad y normalidad.

2. Se observa relación lineal significativa entre el consumo de los coches y su


peso (weight), potencia (horse) y centímetros cúbicos (engine). (Los p-
valores son menores que 0.05 en elmodelos). Los coeficientes estimados
son positivos, lo que significa que el aumento de cualquiera de las variables
independientes incrementa el consumo del vehículo. Con las cuatro
variables se explica el 81.99 % de la variabilidad del consumo.

Regresión Lineal 35

Conclusiones modelo final (cont)


3. En el modelo de cuatro regresores el parámetro asociado a aceleración no es
significativo. La inclusión de la variable “aceleración” no mejora
significativamente el modelo. Eso no implica que no exista relación lineal entre
aceleración y consumo (la regresión simple entre estas variables indican relación
significativa con coeficiente negativo).

4. El coeficiente asociado al peso es 0.0020, es muy significativo. Para


interpretarlo es necesario tener en cuenta las unidades: un aumento de una libra
en el peso del coche manteniendo constante el resto de las variables produce un
aumento del consumo de 0.002 litros/100 km. (Esto implica que un regresor se
puede cambiar manteniendo el resto constante, lo que sólo es posible en los
estudios experimentales.) El resto de los coeficientes se interpreta similarmente.

Regresión Lineal 36
CARS: Todos los modelos
Modelo
1
engine
2
horse
3
weight
4
accel ̂
1 0,032 1,874 76,28 76,22
0,0009

2 0,085 2,002 72,94 72,87


0,0026

3 0,004 1,780 78,55 78,49


0,0001

4 -0,663 3,380 22,70 22,50


0,062

12 0,0202 0,036 1,775 78,78 78,67


0,0019 0,0053

13 0,01313 0,00251 1,715 80,18 80,08


0,0023 0,0002872

14 0,03215 0,0048 1,877 76,28 76,16


0,00108 0,041

23 0,0351 0,0026 1,650 81,67 81,58


0,00432 0,00019

24 0,1027 0,336 1,892 75,90 75,78


0,0035 0,048

34 0,00379 -0,1689 1,734 79,75 79,65


0,0001147 0,0351

123 0,0052 0,0299 0,00225 1,643 81,86 81,72


0,0025 0,005 0,0002

124 0,01765 0,0539 0,2282 1,723 80,05 79,89


0,0019 0,0063 0,0459

134 0,01006 0,0027 -0,0986 1,704 80,50 80,35


0,0026 0,000298 0,039

234 0,04113 0,0025 0,0639 1,648 81,75 81,61


0,0063 0,00022 0,0489

1234 0,00587 0,03695 0,002018 0,0813 1,640 81,99 81,80


0,0026 0,0065 0,00031 0,049

Regresión Lineal 37

Conclusiones Generales
1. El que la relación lineal entre dos variables sea significativa no implica que exista
relación de CAUSALIDAD entre las variables. Se debe interpretar como asociación
entre las variables: los coches con más pesos presentan mayor consumo que los
coches con menos peso.

2. Cuando se añaden o eliminan variables de un modelo los coeficientes del resto


cambian. Eso es debido a la correlación entre los regresores. Cuando estas
correlaciones son altas los coeficientes pueden cambiar mucho, incluso de signo.
Esto se puede apreciar en el coeficiente de la variable accel, cuyo efecto sobre el
cosnumo depende del resto de las variables en el modelo. La alta correlación
entre los regresores hace muy difícil interpretar el significado de los
coeficientes, a este problema se le denomina MULTICOLINEALIDAD.

Regresión Lineal 38
Conclusiones (cont.)
7. La selección del modelo depende del objetivo. Siempre el modelo con más
regresores tiene el mayor R2. Utilizando el “R2 corregido” hay tres modelos
muy parecidos 23, 123 y 1234. El mejor modelo con un regresor es el 3, con R2
igual al 78.55%, al incluir la pontencia (horse) como nuevo regresor tenemos el
modelo 23 cuyo R2 sólo aumenta un 3%, hasta 81.67%. El modelo 123, incluye
además los cc del motor (engine) como regresor con un aumento en R2
despreciable (ahora 81.86%). En este modelo los tres coeficientes son
significativos. Si añadimos la variable accel, llegamos al modelo completo con
R2 igual a 81.99%. El coeficiente de la última variable no es significativo.
8. Al ir incluyendo regresores en un modelo los residuos van disminuyendo y con
ello la variabilidad no explicada. La desviación típica residual también suele
disminuir (hay que tener en cuenta que el denominador de la varianza residual
también disminuye). Los modelos 23, 123 y 1234 tienen una desviación típica
residual muy parecida y próxima a 1.64 litros/100km. La interpretación
(aproximada) es la siguiente (con el modelo 1234): si nos proporcionan los datos
del peso (weight), potencia (horse), cc (engine) y aceleración (accel) del coche
la distribución de su consumo tiene media la proporcionada por el modelo y
desviación típica 1.64 litros/100km.

Regresión Lineal 39

Ejemplo 2: Cerezos Negros


Se desea construir un
modelo de regresión para
obtener el volumen de
madera de una “cerezo
negro” en función de la
altura del tronco y del
diámetro del mismo a un
metro sobre el suelo. Se
ha tomado una muestra
de 31 árboles. Las
unidades de longitudes
son pies y de volumen
pies cúbicos.

Regresión Lineal 40
Cerezos negros: Datos

Árbol Diametro Altura Volumen Árbol Diametro Altura Volumen


1 8,3 70 10,30 17 12,9 85 33,80
2 8,6 65 10,30 18 13,3 86 27,40
3 8,8 63 10,20 19 13,7 71 25,70
4 10,5 72 16,40 20 13,8 64 24,90
5 10,7 81 18,80 21 14,0 78 34,50
6 10,8 83 19,70 22 14,2 80 31,70
7 11,0 66 15,60 23 14,5 74 36,30
8 11,0 75 18,20 24 16,0 72 38,30
9 11,1 80 22,60 25 16,3 77 42,60
10 11,2 75 19,90 26 17,3 81 55,40
11 11,3 79 24,20 27 17,5 82 55,70
12 11,4 76 21,00 28 17,9 80 58,30
13 11,4 76 21,40 29 18,0 80 51,50
14 11,7 69 21,30 30 18,0 80 51,00
15 12,0 75 19,10 31 20,6 87 77,00
16 12,9 74 22,20

Regresión Lineal 41

Gráficos x-y

1. Se aprecia relación entre las dos variables y el volumen


2. El gráfico del volumen versus diámetro presenta ligera curvatura
3. El gráfico del volumen versus altura presenta clara heterocedasticidad

Regresión Lineal 42
Primer modelo:cerezos negros
Volumen β0  β1 Diametro  β2 Altura  Error

Regresión Lineal 43

Diagnosis

Indicios de falta de linealidad

Regresión Lineal 44
Transformación
vol | k u altura u diámetro 2
log(vol) | E 0  E1 log(altura)  E 2 log(diámetro)  error

Regresión Lineal 45

Diagnosis (modelo transformado)

Antes

Ahora

Regresión Lineal 46
Interpretación
Se comprueba gráficamente que la distribución
de los residuos es compatible con las hipótesis
de linealidad y homocedasticidad.
El volumen está muy relacionada con la altura y
el diámetro del árbol (R2= 97.77%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error

es compatible con la ecuación vol=k u Alt uDiam2


La desviación típica residual es sR=0.081 que
indica que el error relativo del modelo en la
predicción del volumen es del 8.1%.

Regresión Lineal 47

Ejemplo 3: Tabaco
Ejemplo “Tabaco” Monóxido de Carbono (CO)
25 observaciones, 3 variables

Descripción: Se proporciona la producción de monóxido de


carbono (co) y el contenido de nicotina (nico) y alquitrán
(alq) en 25 marcas diferentes de cigarrillos americanos.

Fuente: Mendenhall, William, and Sincich, Terry (1992),


Statistics for Engineering and the Sciences (3rd ed.), New
York: (Original source: Federal Trade Commission, USA)

Variables
alq contenido en alquitrán mg
nico contenido en nicotina mg
co monóxido de carbono CO mg

Objetivo: Estudiar la relación entre CO con alquitrán


y nicotina

Regresión Lineal 48
CO ~ nico CO ~ alq

= 85.74 ̂ = 1.828 = 91.68 ̂ = 1.397

= 91.86 ̂ = 1.413

Regresión Lineal 49

Efecto de la multicolinealidad
(alta correlación entre nico y alq)

El coeficiente de la variable “nico” cambia de


12.39 a -2.36.
En el modelo con dos regresores, el
coeficiente de la variable “nico” no es
significativo.
Los standard errors de los coeficientes en el
= 0.9537 modelo de dos regresores han aumentado
considerablemente respecto a los de
regresión simple. El de “nico” pasa de 1.05 a
3.78. El cambio para “alq” es mayor.
Los estadísticos t se han reducido (debido al
aumento de los standards errors)
La desviación típica residual del modelo con
dos regresores es mayor que en el modelo
de regresión simple “CO ~ alq”

Regresión Lineal 50
Regresión con R

Interpretación (inicial)
Contraste F=438 (p-valor=0.0000) Ÿ Alguno de
los regresores influye significativamente en el
consumo.
Contrastes individuales:
La potencia y el peso influyen significativamente (p-
valor=0.0000)
Para D=0.05, la cilindrada y la aceleración también
tienen efecto significativo (p-valor < 0.05)
El efecto de cualquier regresor es “positivo”, al
aumentar cualquiera de ellos aumenta la variable
respuesta: consumo.
Los regresores explican el 82 % de la variabilidad
del consumo (R2 = 0.8197)

Regresión Lineal 52
Multicolinealidad

Cuando la correlación entre los


regresores es alta.
Presenta graves inconvenientes:
Empeora las estimaciones de los efectos de
cada variable Ei: aumenta la varianza de las
estimaciones y la dependencia de los
estimadores)
Dificulta la interpretación de los parámetros
del modelo estimado (ver el caso de la
aceleración en el ejemplo).

Regresión Lineal 53

Identificación de la multicolinealidad:
Matriz de correlación de los regresores.

Regresión Lineal 54
Gráficos consumo - xi
24 24
20 20
consumo

consumo
16 16
12 12
8 8
4 4
0 0
500 1000 1500 2000 0 40 80 120 160 200 240
peso potencia
24 24
20 20
consumo

consumo
16 16
12 12
8 8
4 4
0 0
0 2 4 6 8 8 11 14 17 20 23 26
(X 1000)
cilindrada aceleracion

Regresión Lineal 55

Consumo y aceleración

Regresión Lineal 56
Multicolinealidad: efecto en la
varianza de los estimadores
yi E 0  E1x1i  E 2 x2i  ui

ª§ Eˆ ·º
var «¨¨ 1 ¸¸» X~ T X~ 1V 2 ~T X
X ~ nS XX S XX
§ s12
¨
¨s
s12 ·¸
s22 ¸¹
§ s12
¨
¨r s s
r12 s1s2 ·¸
s22 ¸¹
¬© Eˆ 2 ¹¼ © 12 © 12 1 2

§ 1  r12 ·
¨ 2 2 2 ¸
¨ s1 (1  r12 ) s1 s2 (1  r12 )¸
| S XX | s12 s22 (1  r12
2
) S XX
1
¨ ¸
 r12 1
¨ ¸
¨ s s (1  r 2 ) s22 (1  r12
2
) ¸
© 1 2 12 ¹

§ V 2
 r12V 2 ·
¨ ¸
ª§ Eˆ1 ·º ¨ ns12 (1  r122 ) 2 ¸
ns1 s2 (1  r12 )
var «¨¨ ¸¸» ¨ ¸
«¬© Eˆ 2 ¹»¼
2
¨  r12V V2 ¸
¨ ns s (1  r122 ) ns2 (1  r12 ) ¸¹
2 2
© 1 2

Regresión Lineal 57

Consecuencias de la
multicolinealidad
Gran varianza de los estimadores E
Cambio importante en las
estimaciones al eliminar o incluir
regresores en el modelo
Cambio de los contrastes al eliminar
o incluir regresores en el modelo.
Contradicciones entre el contraste F
y los contrastes individuales.

Regresión Lineal 58
Regresión
4. Regresión Múltiple: Variables
Cualitativas y Predicción

Variables cualitativas como


regresores
Consumo Cilindrada Potencia Peso Aceleración Origen
l/100Km cc CV kg segundos
15 4982 150 1144 12 Europa
16 6391 190 1283 9 Japón
24 5031 200 1458 15 USA
9 1491 70 651 21 Europa
11 2294 72 802 19 Japón
17 5752 153 1384 14 USA
12 2294 90 802 20 Europa
17 6555 175 1461 12 USA
18 6555 190 1474 13 USA
12 1147 97 776 14 Japón
16 5735 145 1360 13 USA
12 1868 91 860 14 Europa
9 2294 75 847 17 USA
... ... ... ... ... ...

Regresión Lineal 2
Variables cualitativas como
regresores
­
°
Europa
Origen ® Japón
°̄ USA ­0 si i  JAPON
Z JAP i ®1 si i  JAPON
¯

­0 si i  USA
ZUSA i ®1 si i  USA
¯

­0 si i  EUROPA
Z EUR i ®1 si i  EUROPA
¯

Consumo = E0 + E1 CC + E2 Pot + E3 Peso +

+ E4 Acel + DJAP ZJAP + DUSA ZUSA + Error

Regresión Lineal 3

Variables cualitativas
Consumo Cilindrada Potencia Peso Aceleración ZJAP ZUSA ZEUR
l/100Km cc CV kg segundos
15 4982 150 1144 12 0 0 1
16 6391 190 1283 9 1 0 0
24 5031 200 1458 15 0 1 0
9 1491 70 651 21 0 0 1
11 2294 72 802 19 1 0 0
17 5752 153 1384 14 0 1 0
12 2294 90 802 20 0 0 1
17 6555 175 1461 12 0 1 0
18 6555 190 1474 13 0 1 0
12 1147 97 776 14 1 0 0
16 5735 145 1360 13 0 1 0
12 1868 91 860 14 0 0 1
9 2294 75 847 17 0 1 0
... ... ... ... ... ... ... ...
Consumo = E0 + E1 CC + E2 Pot + E3 Peso +

+ E4 Acel + DJAP ZJAP + DUSA ZUSA + Error

Regresión Lineal 4
Interpretación var. cualitativa
Consumo = E0 + E1 CC + E2 Pot + E3 Peso +

+ E4 Acel + DJAP ZJAP + DUSA ZUSA + Error

• Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA


Consumo = E0 + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error

• Coches japoneses: ZJAP =1 y ZUSA = 0


Consumo = E0 + DJAP + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error

• Coches americanos: ZJAP =0 y ZUSA = 1


Consumo = E0 + DUSA + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error

Regresión Lineal 5

Interpretación del modelo


Americanos
y
Europeos Ref.
E0 +
DUSA Japoneses
E0

E0 + DJAP

xi

Regresión Lineal 6
Modelo estimado (con R)

Regresión Lineal 7

Interpretación
Se introduce en el modelo la variable cualitativa
ORIGEN del vehículo (USA=1, EUR=2,JAP=3). En el
modelo se utiliza USA como referencia.
El p-valor del coeficiente asociado a OrigenJAP es
0.1467 >.05, se concluye que no existe diferencia
significativa entre el consumo de los coches
Japoneses y Americanos (manteniendo constante el
peso, cc, pot y acel.)
La misma interpretación para OrigenEUR, no existe
diferencia en el consumo de coches EUR y USA.
Comparando R2 =0.8212 de este modelo con el
anterior R2=0.8199, se confirma que el modelo con
las variables de Origen no suponen una mejora
sensible.

Regresión Lineal 8
Body: Instrucciones con R
# ejemplo1 cars : modelo de regresión

> cars <- read.table("cars.txt",header=TRUE)


> attach(cars)

> cons <- 235.1/mpg # transformamos la variable


> Origen <- factor(origin,labels=c("USA","EUR","JAP"))
# la instrucción “factor()” es necesaria
# para introducir en el modelo de
# regresión una variable cualitativa
> m <- lm(cons ~ engine + horse + weight+ accel + Origen)
> summary(m)

Regresión Lineal 9

Modelo de regresión con


variables cualitativas
En general, para considerar una variable
cualitativa con r niveles, se introducen en
la ecuación r-1 variables ficticias
­0 i  nivel 1 ­0 i  nivel 2 ­0 i  nivel r  1
z1i ®1 i  nivel 1, z 2i ®1 i  nivel 2,  , z r 1i ®1 i  nivel r  1
¯ ¯ ¯
Y el nivel r no utilizado es el que actúa de
referencia
yi E 0  E1 x1i    E k xki 
 D 1 z1i  D 2 z 2i    D r 1 z r 1,i  ui


variable cualitativa
Regresión Lineal 10
Ejemplo: Body
Nombre: Body (Cuerpo Humano) Exploring Relationships in Body
Dimensions
507 Observaciones, 25 Variables

Descripción: Este ejemplo contiene 21 medidas del cuerpo humano, además


de la edad, peso, altura y género (mujeres = 0, hombres =1) de 507
individuos de los que 247 son hombres y 260 mujeres. Los datos fueron
recogidos entre personas que acudía frecuentemente al gimnasio en USA,
la mayoría de ellos entre 20 y 40 años.

Fuente: Exploring Relationships in Body Dimensions, Grete Heinz,Louis J.


Peterson,Roger W. Johnson , Carter J. Kerk, Journal of Statistics
Education Volume 11, Number 2 (2003),
www.amstat.org/publications/jse/v11n2/datasets.heinz.html

OBJETIVO: Relación entre el peso y altura diferenciando entre


hombres y mujeres.

Regresión Lineal 11

Estatura Peso
Hombres 177.7cm 78.1 kg
Body Mujeres 164.9cm 60.6 kg
Diferencia 12.8 cm 17.5 kg

Weight = E0 + E1 Height + DHOM ZHOM + Error

Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error

Regresión Lineal 12
Interpretación

8.36 kg

A igualdad de
ESTATURA, la
diferencia de
PESO entre un
hombre y una
mujer es
Figura 2.1. 8.36 kg

Regresión Lineal 13

Body: Instrucciones con R


# body : modelo de regresión

> body <- read.table("body.txt",header=TRUE)


> attach(body)
> m.body<-lm(Weight~Height+Gender)
> summary(m.body)

# figura 2.1

> plot(Height,Weight,col=Gender+2) # Gender +2 asigna el color rojo (2)


# a mujeres y el verde (3) a los hombres
> abline(c(-56.949,0.7129),col = "red",lwd=2) # linea de regresión de mujeres
> abline(c(-56.949+8.3659,0.7129),col = "green",lwd=2) # regresión hombres

Regresión Lineal 14
FEV (Ejemplo 3)
Ejemplo “Fev” Forced Expiratory Volume (FEV)
654 observaciones, 5 variables

Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston


(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) y
fumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En la
lección de regresión múltiple estudiaremos el efecto del tabaco.

Fuente:
Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
age fev ht sex smoke
Variables 1 9 1.708 57.0 0 0
2 8 1.724 67.5 0 0
age años del individuo 3 7 1.720 54.5 0 0
fev variable continua en litros 4 9 1.558 53.0 1 0
ht variable continua, estatura en pulgadas 5 9 1.895 57.0 1 0
6 8 2.336 61.0 0 0
sex cualitativa (mujer=0, hombre=1) ...
smoke cualitativa (No-fumador=0, fumador=1)
Tabla 6.1

Regresión Lineal 15

Modelo de regresión
Log(fev) = E0 + E1 ht + E2 age + DHOM ZHOM + DHOM ZHOM + Error

Log(fev) = -1.9 + 0.042ht + 0.023age + 0.029 ZHOM – 0.046 ZFUM + Error

Regresión Lineal 16
Interpretación
1. Todos los coeficientes son significativamente distintos de cero.
2. A igualdad del resto de las variables, un aumento de 1cm en la
Estatura produce un incremento en fev del 4.2%
3. A igualdad del resto de las variables, un aumento de 1 año en la
Edad produce un incremento en fev del 2.3%
4. A igualdad del resto de las variables, los hombres tienen un 2.9%
más de fev que las mujeres.
5. A igualdad del resto de las variables, los fumadores tienen un
4.6% menos de fev que los no-fumadores.

IMPORTANTE: El objetivo del estudio era cuantificar el efecto de


fumar en la capacidad pulmonar de los jóvenes, el restos de las
variables del modelo son necesarias (imprescindibles) para
detectar el efecto, aunque juegan un papel secundario.

Regresión Lineal 17

fev: Instrucciones con R


# ejemplo 3: fev
> pulmon <- read.table("fev.dat",header=TRUE)
> attach(pulmon)
> m.pulmon <- lm(log(fev) ~ ht + age + sex + smoke)
> summary(m.pulmon)

# sex es una variable que toma valores 0,1


# 0 mujeres
# 1 hombres
#
# smoke es una variable 0,1, también 0 no fumador,
# y 1 fumador
#
# Cuando son variables 0,1 no es necesario convertirlas
# en variables CUALITATIVAS o FACTOR utilizando la
# instrucción
# genero=factor(sex,labels=c(“Mujer”,”Hombre”))

Regresión Lineal 18
Predicción
Media mh|xh Nueva Observ. yh|xh

mh yh
mh

xh xh

ŷ h

xh

Regresión Lineal 19

Predicción de la media mh
(Regresión simple)
mh ŷ h

xh xh

m  yˆ r tD / 2 sˆR vhh
h h ŷ h

1 ( xh  x ) 2
vhh (1  2
)
n sx
xh
Regresión Lineal 20
Predicción de la media mh
(Regresión multiple)
mh ŷ h

xh xh

m  yˆ r tD / 2 sˆR vhh
h h ŷ h
1
vhh (1  (x h  x)T S x1 (x h  x))
n
xh
Regresión Lineal 21

Intervalos de predicción para


una nueva observación yh

ŷ h

xh
y  yˆ r tD / 2 sˆR 1  vhh
h h

Regresión Lineal 22
Límites de predicción
m  yˆ r tD / 2 sˆR vhh
yˆ Eˆ0  Eˆ1 x1    Eˆ k xk h h

y  yˆ r tD / 2 sˆR 1  vhh
y h h

x
Regresión Lineal 23

Predicción
Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error

Peso predicho para el PESO MEDIO de hombre de 175cm

Pred_Weight = -56.9 + 0.713 x 175 + 8.366x 1 = 76.18 kg

Peso predicho para la media de la distribución del peso de las


mujeres de 170cm de estatura

Pred_Weight = -56.9 + 0.713 x 170 + 8.366x 0 = 64.25 kg

Regresión Lineal 24
Intervalos
95% confianza
Int. Confianza Previsto Lim. Inf Lim. Sup
Height=175,Sexo = 1 76.19 75.04 77.33
Height=170,Sexo = 0 64.25 63.03 65.47

Int. Predicción Previsto Lim. Inf Lim. Sup


Height=175,Sexo = 1 76.19 58.85 93.51
Height=170,Sexo = 0 64.25 49.92 81.59

Regresión Lineal 25

Predicción: Instrucciones R
# ejemplo 3: fev
> newbody <- data.frame(Height=170,Gender=0)
> predict(m.body,newbody,interval="confidence")
fit lwr upr
1 64.2563 63.03951 65.4731

> newbody <- data.frame(Height=170,Gender=0)


> predict(m.body,newbody,interval="prediction")
fit lwr upr
1 64.2563 46.92133 81.59128

> newbody <- data.frame(Height=175,Gender=1)


> predict(m.body,newbody,interval="confidence")
fit lwr upr
1 76.18717 75.04465 77.32969

> newbody <- data.frame(Height=175,Gender=1)


> predict(m.body,newbody,interval="prediction")
fit lwr upr
1 76.18717 58.85725 93.5171

Regresión Lineal 26
Otros ejemplos con R
> newcar <- data.frame(horse=130,engine=180,accel=12,Origen="USA", weight=3000)
> predict(m,newcar,interval="confidence")
fit lwr upr
1 11.84055 11.47096 12.21014

> newboy <- data.frame(ht=160,age=17,sex=1,smoke=0)


> predict(m.pulmon,newboy,interval="confidence")
fit lwr upr
1 5.33023 5.041005 5.619455
> newcars <- data.frame(horse=c(130,140,150)
+ ,engine=c(180, 185, 190)
+ ,accel=c(10,11,12)
+ ,Origen=c("USA","JAP","EUR")
+ ,weight=c(3000,2000,2500))
> pred.w.clim <- predict(m,newcars,interval="confidence")
> pred.w.clim
fit lwr upr
1 11.67788 11.197035 12.15872
2 10.13996 9.440399 10.83952
3 11.62928 11.027327 12.23123

Regresión Lineal 27

APÉNDICE: PREDICCIÓN

Regresión Lineal 28
Predicción de la media mh
(Regresión simple)
mh ŷ h

xh xh
yh o N ( E 0  E1xh , V 2 ) yˆ h Eˆ0  Eˆ1xh y  Eˆ1 ( xh  x )
mh E 0  E1xh E[ yˆ h ] E[ Eˆ0  Eˆ1xh ] E 0  E1xh mh
var[ yˆ h ] var[ y  Eˆ1 ( xh  x )]
var[ y ]  ( xh  x ) 2 var[ Eˆ1 ]
§ ·
¨ V2¨
§
( xh  x ) 2 ·¸ ¸ V2 V2
yˆ h o N ¨ mh , ¨1  ¸¸  ( xh  x ) 2
¨ n ¨ 2 ¸¸
© ©
sx ¹¹ n nsx2

Regresión Lineal 29

Predicción de la media mh
(Regresión múltiple)
mh ŷ h

yh o N (mh , V 2 )
xh x'h
βˆ T x'h , x'T (1, x1h , x2h , , xkh )
E 0  E1 x1h    E k xkh
yˆ h
mh h

E [ yˆ h] E[βˆ T x'h ] E[βˆ T ]x'h βT x'h


β x'h
T

var[ yˆ h ] var[βˆ T x'h ] T


x'
h var[ βˆ T ]x'h
T 1
T
x 'h V 2 vhhV 2
yˆ h o N §¨ mh , V 2vhh ·¸
x' h (X X)

T 1
© ¹
T
v
hh x'
h (X X) x 'h

Regresión Lineal 30
Expresión alternativa para vhh
yˆ h y  bˆ T (x h  x)
var[ yˆ h ] var[ y  bˆ T (x h  x)] var[ y ]  (x h  x)T var[bˆ ](x h  x)
~T ~
V2 ~ ~ X X
 (x h  x)T ( XT X) 1 (x h  x)V 2 , (S x )
n n
V2
(1  (x h  x)T S x1 (x h  x))
n

1 xh x Ÿ vhh 1/ n
vhh (1  (x h  x)T S x1 (x h  x)) x h z x Ÿ vhh ! 1 / n
n

Regresión Lineal 31

Intervalos de confianza para la


media mh

yˆ h o N mh , V 2 vhh
yˆ h  mh ŷ h
o N (0,1)
V vhh
yˆ h  mh
o tn  k 1
sˆR vhh xh

m  yˆ r tD / 2 sˆR vhh
h h
Regresión simple
1 1 ( xh  x ) 2
vhh (1  (xh  x)T S x1 (xh  x)) vhh (1  )
n n s x2

Regresión Lineal 32
Predicción de una nueva
observación yh (Reg.Simple)
yh
ŷ h
mh

xh xh
yˆ h Eˆ0  Eˆ1 xh yh o N (mh , V ) 2

yˆ h o N (mh , V 2 vhh ) mh E 0  E1 xh
e~ y  yˆ
h h h

E[e~h ] E[ yh ]  E[ yˆ h ] 0
var[ e~h ] var[ yh ]  var[ yˆ h ] e~h o N ( 0, V 2 (1  vhh ))
V 2  V 2 vhh

Regresión Lineal 33

Predicción de una nueva


observación yh (Reg. Múltiple)
yh
ŷ h
mh

xh xh
yˆ h y  bˆ T x h yˆ h o N (mh , V 2vhh )
­ E[e~h ] E[ yh ]  E[ yˆ h ] 0
e~h yh  yˆ h o ® ~ ] var[ y ]  var[ yˆ ] V 2 (1  v )
¯ var[ eh h h hh

~
eh o N ( 0, V (1  vhh ))
2

Regresión Lineal 34
Intervalos de predicción para
una nueva observación yh
e~h o N 0, V 2 (1  vhh )
e~h yh  yˆ h ŷ h
yh  yˆ h
o N (0,1)
V 1  vhh
yh  yˆ h
o tn  k 1
sˆR 1  vhh
xh
y  yˆ r tD / 2 sˆR 1  vhh
h h

Regresión Lineal 35

Límites de predicción
m  yˆ r tD / 2 sˆR vhh
yˆ Eˆ0  Eˆ1 x1    Eˆ k xk h h

y  yˆ r tD / 2 sˆR 1  vhh
y h h

x
Regresión Lineal 36
Diagnosis: Residuos

Y Xβˆ  e





Observados Previstos Residuos

§ y1 · §1 x11 x21  xk1 ·§ Eˆ0 · § e1 ·


¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22  xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨  ¸ ¨ ¸ ¨ ¸¨ ¸
    ¨  ¸ 
¨ ¸ ¨ ¸ ¨ ¸
¨y ¸ ¨1  xkn ¸¹¨© Eˆ k ¸¹ ¨© en ¸¹
© n¹ © x1n x2n

ei yi  ( Eˆ0  Eˆ1x1i    Eˆ k xki )

Regresión Lineal 37

Distribución de los residuos


Y o N ( Xβ, V 2 I ) e (I  V)Y

V X(X T X) 1 X T

­e o Normal
°
® E[e] (I  V)E[Y] (I  V)Xβ 0
°̄var[e] (I  V) var(Y)(I  V) V 2 (I  V)
e o N (0, V 2 (I  V))

ei o N (0, V 2 (1  vii ))
Regresión Lineal 38
Distancia de Mahalanobis
Di2 (x i  x)T S x 1 (x i  x) (Dist. de Mahalanobis)

­x i x Ÿ Di2 0
Mide la distancia de x i a x Ÿ ®
¯x i z x Ÿ Di ! 0
2

1
vii x'Ti ( XT X) 1 x'i (1  (x i  x)T S x1 (x i  x))
n
vii son los elementos diagonales de la matriz V

V X(X T X) 1 XT
n n n 1
vii ¦ vij v ji ¦ vij2  vii2 Ÿ vii (1  vii ) ¦ vij2 t 0 Ÿ d vii d 1
j 1 j 1, j z i j 1, j z i n

Regresión Lineal 39

Residuos estandarizados

ei o N (0, (1  vii )V ) 2

var(ei ) (1  vii )V 2

Cuando xi está próximo a x Ÿ vii | 1 / n Ÿ var(ei ) | V 2

Cuando xi está lejos de x Ÿ vii | 1 Ÿ var(ei ) | 0 Ÿ ei | 0

Residuos estandarizados
ei
ri
sˆR 1  vii

Regresión Lineal 40
Modelos de regresión lineal
REGRESION SIMPLE

1. La tabla muestra los mejores tiempos mundiales en Juegos Olı́mpicos hasta 1976 en carrera
masculina para distintas distancias.
y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795
x: distancia (m) 100 200 400 800 1500 5000 10000 42196

(a) Estimar la regresión lineal de y sobre x y calcular la varianza residual y el coeficiente


de correlación.
(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).
(c) Analizar si la relación lineal es adecuada, transformando las variables si es necesario.
(d) Supóngase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.
Estimar el tiempo previsto para el record olı́mpico en dicha carrera, dando un intervalo
de confianza con α = 0.05.

2. Según la ecuación de los gases ideales, la presión ejercida por un gas a volumen y temperatura
constante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimar
el peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se va
soltando poco a poco gas, variando la presión, pero manteniendo la temperatura constante.
En la tabla adjunta se proporcionan mediciones de la presión (con respecto a la atmosférica,
1 atm = 14.7 psi) y de la masa del gas para el árgon.

Presión (psi) Masa (g)


52 1.028
49 0.956
44 0.880
39 0.793
34 0.725
29 0.645
25 0.593
21 0.526
19 0.500
19 0.442
11 0.373
0 0.210
(a) Para estimar el peso molecular del árgon a partir de los datos, se propone el siguiente
modelo de regresión

Pi = β 0 + β 1 mi + ui con ui ∼ N(0, σ 2 ).
Estimar los parámetros del modelo y contrastar si el término independiente es signi-
ficativo.

1
(b) Se considera el modelo alternativo

Pi = αmi + ui , con ui ∼ N(0, σ 2 ).


Obtener el estimador de máxima verosimilitud del parámetro α, ası́ como su varianza.
(c) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significación 0.05.
(d) Para el segundo modelo, obtener un intervalo de predicción para la presión cuando la
masa es igual a 1 gramo.
(e) Obtener la varianza del estimador de E[Ph |mh ], es decir del valor medio de la presión
Ph para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el del
primer apartado, ¿qué efecto tendrı́a sobre la predicción adoptar el modelo alternativo?

3. Sir Francis Galton (1877) estudió la relación entre la estatura de una persona (y) y la estatura
de sus padres (x) obteniendo las siguientes conclusiones:

(a) Existı́a una correlación positiva entre las dos variables.


(b) Las estaturas de los hijos cuyos padres medı́an más que la media era, en promedio,
inferior a la de sus progenitores, mientras que los padres con estatura inferior a la
media en promedio tenı́an hijos más altos que ellos, calificando este hecho como de
”regresión” a la media.

Contrastar (α = 0.05) estas dos conclusiones con la ecuación ŷ = 17.8 + 0.91x resultante de
estimar un modelo de regresión lineal entre las variables (en cm.) descritas anteriormente
para una muestra de tamaño 100 si la desviación tı́pica (estimada) de β̂ 1 es 0.04.

4. La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la ve-
locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H
la constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias
respecto a la Via Láctea. Se pide:

Galaxia Distancia Velocidad


(millones años luz) (103 Km/s)
Virgo 22 1.21
Pegaso 68 3.86
Perseo 108 5.15
Coma Berenices 137 7.56
Osa Mayor 1 255 14.96
Leo 315 19.31
Corona Boreal 390 21.56
Géminis 405 23.17
Osa Mayor 2 700 41.83
Hidra 1100 61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.

2
Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen.
Tómese 1 año luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.

(a) Estimar por regresión la constante de Hubble.


(b) Como T = d/v = d/Hd = 1/H, la inversa de la constante de Hubble representa la
edad estimada del Universo. Construir un intervalo de confianza del 95% para dicha
edad .

5. Para establecer la relación entre el alargamiento en mm (Y ) producido en un cierto material


plástico sometido a tracción y la tensión aplicada en toneladas por cm2 (X) se realizaron 10
experimentos cuyos resultados se muestran en la tabla

xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70
yi 23 20 33 45 67 52 86 74 98 102
Tabla: Alargamiento yi (mm) producidos por la tensión xi (Tm/cm2 ).

(a) Ajustar el modelo de regresión lineal E(Y |x) = β 0 + β 1 x y contrastar (α = 0.01) la


hipótesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar un
alargamiento de 50 milı́metros, sabiendo que la desviación tı́pica residual vale 10.55.
(b) Si el lı́mite de elasticidad se alcanza cuando x = 2.2 Tm/cm2 , construir un intervalo
de confianza al 95% para el alargamiento medio esperado en ese punto.
(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nula
debe ser nulo también, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores
¿Cuál es el sesgo del estimador del parámetro de la pendiente si se estima según el
modelo del apartado 1?

6. Estimar por mı́nimos cuadrados los parámetros a y b de la ecuación y = a + bx2 con la


muestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).

7. La ecuación de regresión entre las ventas de un producto y y su precio x es ŷ = 320 − 1.2x,


ŝR = 2 y ŝy = 4. Si el número de datos ha sido n = 50, contrastar H0 : β 1 = −1 frente a la
alternativa H1 : β 1 < −1.

8. Se estudia la relación entre el tiempo de reparación (minutos) de ordenadores personales y


el número de unidades reparadas en ese tiempo por un equipo de mantenimiento con los
resultados mostrados en la siguiente tabla

unidades reparadas 1 3 4 6 7 9 10
tiempo de reparación 23 49 74 96 109 149 154

Se pide:

3
(a) Construir la recta de regresión para prever el tiempo de reparación y utilizarla para
construir un intervalo de confianza (α = 0.01) para el tiempo medio de reparación de
8 unidades.
(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparación para un lote
de 14 unidades.
(c) Si los tiempos de reparación fuesen medias de 10 datos. ¿Cual serı́a la recta de regresión?

REGRESION MULTIPLE

9. En la tabla se muestran los costes financieros mensuales en miles de euros (y) de 16 delega-
ciones de una gestora de inversiones, además se proporciona el número de nuevos préstamos
del mes (x1 ) y el número de préstamos pendientes (x2 ).

n x1 x2 y
1 80 8 2256
2 93 9 2340
3 100 10 2426
4 82 12 2293
5 90 11 2330
6 99 8 2368
7 81 8 2250
8 96 10 2409
9 94 12 2364
10 93 11 2379
11 97 13 2440
12 95 11 2364
13 100 8 2404
14 85 12 2317
15 86 9 2309
16 87 12 2328

(a) Estima la ecuación de regresión

yi = β 0 + β 1 x1i + β 2 x2i + ui con ui ∼ N(0, σ 2 )

incluyendo la varianza del modelo.


(b) Realizar los contrastes individuales e interpretar los coeficientes.
(c) Realiza el contraste general de regresión o contraste de la F. Proporciona el p-valor.
(d) Proporciona la tabla con valores previstos y residuos.
(e) Comprueba las hipótesis del modelo.

4
10. Los fabricantes que utilizan rodamientos en sus productos tienen interés en la fiabilidad de
estos componentes. La medida básica de fiabilidad se denomina rating life, y consiste en el
número de revoluciones que soporta el 90% de los rodamientos antes de la fractura, a esto
se denota por L10. Los modelos teóricos indica que este valor está relacionado con la carga
(P) a la que se somete el rodamiento, el diámetro (D) del rodamiento y el número de bolas
(Z) del mismo, mediante la ecuación:
3
kZ a D b

L10 = .
P

Se desea comprobar experimentalmente esta ecuación, para lo cual se realizó un experimento


con rodamientos de distintos fabricantes y tipos. Los datos se encuentran en el archivo
(ballbearing.txt), en la tabla 1 se muestra los 10 primeros datos. La información que contiene
es la siguiente:

Com: Codigo de empresa 1, 2, and 3


N: Número de ensayo (en cada empresa)
Year: Año del ensayo NA = No disponible
NB : Número de Rodamiento
P: Carga
Z: Número de bolas
D: Diámetro
L10: Percentil 10
L50: Percentil 50
Slope: Parámetro de la distribución Weibull
Btype: Tipo de rodamiento 1, 2, y 3 in la empresa 2; 0 en los demás casos.

Com N Year NB P Z D L10 L50 Slope Btype


1 1 1936 24 4240 8 .68750 19.200 84.50 1.27 0
1 2 1937 20 4240 8 .68750 26.200 74.20 1.81 0
1 3 1937 14 4240 8 .68750 11.100 68.10 1.04 0
1 4 1937 19 4240 8 .68750 11.800 66.80 1.09 0
1 5 1937 18 4240 8 .68750 13.500 79.40 1.06 0
1 6 1938 21 2530 9 .50000 5.800 25.70 1.27 0
1 7 1938 28 4240 8 .68750 18.300 44.70 2.10 0
1 8 1938 27 4240 8 .68750 5.620 73.20 0.73 0
1 9 1940 20 4240 8 .68750 15.800 82.70 1.14 0
1 10 1940 22 4240 8 .68750 8.700 41.60 1.20 0
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···

5
(a) Estima el modelo
log(L10i ) = β 0 + β 1 log(Zi ) + β 2 log(Di ) + β 3 log(Pi ) + ui con ui ∼ N(0, σ 2 ),
y realiza los contrastes individuales y el contraste general.
(b) Según el modelo, β 3 = −3. Realiza el contraste
H0 : β 3 = −3
H1 : β 3 6= −3
Proporciona el p-valor del contraste.
(c) Da un intervalo de confianza para los parámetros a y b del modelo teórico.
(d) Se definen las variables ficticias T2 y T3 para identificar los rodamientos tipo 2 y 3 del
segundo fabricante (información en la variable Btype). Estima e interpreta el siguiente
modelo de regresión:
log(L10i ) = β 0 + β 1 log(Zi ) + β 2 log(Di ) + β 3 log(Pi ) +
α2 T2i + γ 2 T2i × log(Zi ) + δ 2 T2i × log(Di ) +
α3 T3i + γ 3 T3i × log(Zi ) + δ 3 T3i × log(Di ) + ui

(e) Compara el modelo del apartado 1 con el modelo del apartado 4.

11. La matriz de varianzas de tres variables estandarizadas es la siguiente


 
1 0.8 0.6
 0.8 1 0.2 
0.6 0.2 1
Calcular la ecuación de regresión de la primera variable respecto a las otras dos.
12. Dos variables x1 y x2 tienen la siguiente matriz de varianzas
 
1 0.5
0.5 1
y las regresiones simples con y son ŷ = 0.75x1 ; ŷ = 0.6x2 . Calcular la regresión múltiple
entre y y las dos variables x1 , x2 sabiendo que la variable y tiene media cero y varianza
unidad.
13. Para establecer la relación entre el voltaje de unas baterı́as y la temperatura de fun-
cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguiente
tabla

Baterı́a 1 2 3 4 5 6 7 8
Temperatura 10 10 20 20 30 30 40 40
Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8

6
Se pide:

(a) Contrastar la hipótesis (α = 0.05) de que no existe relación lineal entre el voltaje y la
temperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterı́as de Cadmio y las 2,4, 6 y 8 con
baterı́as de Zinc. Introducir en el análisis anterior una variable cualitativa que tenga
en cuenta los dos tipos de baterı́as y contrastar si es significativa al 95%.
(c) Dar un intervalo de confianza para el voltaje de una baterı́a de Cadmio que va a trabajar
a 35◦ centı́grados. (Utilizar el modelo estimado en el apartado 2).
(d) Comprobar que se cumplen las hipótesis del modelo construido en los apartados ante-
riores.

14. La variable y se relaciona con las variables x1 y x2 según el modelo E(y) = β 0 + β 1 x1 + β 2 x2 ;


no obstante se estima el siguiente modelo de regresión que no incluye la variable x2

ŷi = β̂ 0 + β̂ 1 x1i .

Justificar en qué condiciones el estimador β̂ 1 es centrado.

15. Se efectúa una regresión con dos variables explicativas E[y] = β 0 + β 1 x1 + β 2 x2 . La matriz
de varianzas de x1 y x2 es
 
2 1
1 3

¿Cuál de los dos estimadores β̂ 1 y β̂ 2 tendrá menor varianza?

16. Con los datos de la tabla, se pide:

x -2 -2 -1 -1 0 0 1 1 2 2 3 3
y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresión simple con y como variable dependiente y x como
regresor. Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + ui
y realizar el contraste H0 : β 2 = 0.
(c) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + β 3 x3i + ui
Realizar el contraste general de regresión con α = 0.01. Seleccionar entre los tres el
modelo más adecuado, justificando la respuesta.

7
17. Una de las etapas de fabricación de circuitos impresos requiere perforar las placas y recubrir
los orificios con una lámina de cobre mediante electrólisis. Una caracterı́stica esencial del
proceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluar
el efecto de 7 variables, X1 : Concentración de Cobre, X2 : Concentración de Cloruro, X3 :
Concentración de Ácido, X4 : Temperatura, X5 : Intensidad, X6 : Posición y X7 : Superficie
de la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales y
los resultados de cada experimento se muestran en la tabla.

X1 X2 X3 X4 X5 X6 X7 Y
1 1 -1 1 1 1 -1 2.13
1 -1 1 1 1 -1 -1 2.15
-1 1 1 1 -1 -1 -1 1.67
1 1 1 -1 -1 -1 1 1.53
1 1 -1 -1 -1 1 -1 1.49
1 -1 -1 -1 1 -1 1 1.78
-1 -1 -1 1 -1 1 1 1.80
-1 -1 1 -1 1 1 -1 1.93
-1 1 -1 1 1 -1 1 2.19
1 -1 1 1 -1 1 1 1.61
-1 1 1 -1 1 1 1 1.70
-1 -1 -1 -1 -1 -1 -1 1.43

Responder a las siguientes preguntas aplicando el modelo de regresión múltiple: matriz


identidad de 8 × 8.

(a) Estimar el modelo de regresión múltiple

yi = β 0 + β 1 x1i + β 2 x2i + β 3 x3i + β 4 x4i + β 5 x5i + β 6 x6i + β 7 x7i + ui .

Obtener la descomposición de la variabilidad del modelo y realizar el contraste

H0 : β 1 = β 2 = β 3 = β 4 = β 5 = β 6 = β 7 = 0

frente a la hipótesis alternativa H1 : algún β j es distinto de cero.

(b) Realizar cada uno de los contrastes individuales e indicar qué variables tienen efecto
significativo.
(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar el
modelo y contrastar sus coeficientes. Interpretar los resultados del experimento.

18. El molibdeno se añade a los aceros para evitar su oxidación, pero en instalaciones nucleares
presenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Se
ha realizado un experimento para determinar el grado de oxidación del acero en función del
porcentaje de molibdeno. Además se ha tenido en cuenta el efecto del tipo de refrigerante
utilizado (R1 , R2 ). Los resultados se muestran en la tabla.

8
Molibdeno (%)
Refrig. 0.5% 1% 1.5% 2% Medias
R1 26.2 23.4 20.3 23.3 23.3
R2 34.8 31.7 29.4 26.9 30.7
R1 33.2 31.3 28.6 29.3 30.6
R2 43.0 40.0 31.7 33.3 37.0
Media 34.3 31.6 27.5 28.2 30.4
(a) Escribir un modelo de regresión que incluya el porcentaje de molibdeno y el tipo de re-
frigerante como regresores; estimar el modelo e indicar qué parámetros son significativos
(α = 0.05)).
(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalación
y los correspondientes a las dos últimas en otra distinta. Escribir un nuevo modelo que
incluya este aspecto. Comprobar que este nuevo regresor está incorrelado con los dos
anteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminación de uno
de ellos no influye en el valor de los estimadores β̂ i , (i 6= 0) restantes. ¿ Influye en
la varianza residual y en los contrastes ? Explicar este efecto en función de que el
parámetro β del regresor eliminado sea o no nulo.

19. Sea x1 la altura del tronco de un árbol y x2 el diámetro del mismo en su parte inferior. El
volumen y del tronco de árbol puede ser calculado aproximadamente con el modelo
yi = αx1i x22i + ui ,
según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas
x1i , x2i , siendo α el parámetro (desconocido) de proporcionalidad, más una componente
de error aleatorio ui . La tabla siguiente contiene los datos (en metros y metros cúbicos)
correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.

Obs. x1i x2i yi


1 10,1 0,117 0,062
2 11,3 0,130 0,085
3 20,4 0,142 0,204
4 14,9 0,193 0,227
5 23,8 0,218 0,470
6 19,5 0,236 0,484
7 21,6 0,257 0,623
8 22,9 0,269 0,722
9 19,8 0,297 0,821
10 26,8 0,328 1,280
11 21,0 0,351 1,034
12 27,4 0,376 1,679
13 29,0 0,389 2,073
14 27,4 0,427 2,022
15 31,7 0,594 4,630

9
(a) Estimar α por máxima verosimilitud suponiendo que las variables ui tienen distribución
normal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo
de predicción de su volumen (95% de confianza).
(c) En el análisis de los residuos se observa que la varianza de los errores crece con el
volumen del tronco. Para obtener homocedasticidad se propone el siguiente modelo
transformado utilizando logaritmos neperianos,

log yi = β 0 + β 1 log x1i + β 2 log x2i + ui

Contrastar (nivel de significación 0.05) si estos dos valores son aceptables.


(d) Con este modelo, dar un intervalo de predicción (95% de confianza) para el volumen
del tronco del apartado 2.

20. Ciertas propiedades del acero se mejoran sumergiéndolo a alta temperatura (T0 = 1525
o
F ) en un baño templado de aceite (t0 = 95 o F ). Para determinar la influencia de las
temperaturas del acero y del baño de aceite en las propiedades finales del material se han
elegido tres valores de la temperatura del acero y tres del baño de aceite,
 
 1450 o F  70 o F
Temperatura acero (T ) 1525 o F Temperatura aceite (t) 95 o F
o
1600 F 120 o F
 

y se han realizado los siguientes experimentos:

x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1
x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0
yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0

dónde se ha utilizado la siguiente transformación (para simplificar cálculos)

Ti − 1525 ti − 95
x1i = y x2i = .
75 25
Estimar el modelo de regresión

yi = β 0 + β 1 x1i + β 2 x2i + β 3 x1i x2i + ui

e indicar qué parámetros son significativos para nivel de significación 0.05. Estimar y con-
trastar el modelo anterior empleando las variables originales Ti y ti .

10
Diseño de Experimentos 12 de abril de 2012

Cuestiones
(30 minutos, 4 puntos)

1. Los siguientes datos son medidas de presión (psi) en un muelle a torsión para diferentes configuraciones
entre el extremo del muelle y un punto de apoyo.

La tabla de análisis de la varianza para la comparación de las medias correspondientes a los cinco
niveles determinados por el ángulo (angle) se ha obtenido con R y es la siguiente

Realizar la comparación dos a dos de las medias de los cinco tratamientos (LSD). Interpretar los
resultados de la comparación.
Nota: Para todo el ejercicio utilizad α = 0.05.

2. Obtener la descomposición de la variabilidad (análisis de la varianza) en el modelo de un factor,


justificando cada paso. Indicar por qué se anula el término correspondiente al doble producto en el
segundo miembro de la igualdad.
Diseño de Experimentos 12 de abril de 2012

Problema
(45 minutos, 6 puntos)

En un estudio realizado en la Universidad Virginia Tech, se desea comprobar el efecto de añadir un


producto quı́mico quelante (Carboximetil Celulosa, CMC) como parte del acabado ignı́fugo de tejidos de
algodón con el fin de retardar su tiempo de combustión. El tejido de algodón en estudio se ha lavado en dos
soluciones distintas: Baño 1 con CMC y Baño 2 sin CMC. Para estudiar si la intensidad de lavado influye
en el resultado, se ha hecho el experimento con cinco lavados y diez lavados. En cada caso se utilizaron 12
telas, que posteriormente se quemaron, midiendose los tiempos de combustión (segundos) que se muestran
en la tabla.

Lavados Baño 1 Baño 2


5 13.7 23.0 15.7 6.2 5.4 5.0
25.5 15.8 14.8 4.4 5.0 3.3
14.0 29.4 9.7 16.0 2.5 1.6
14.0 12.3 12.3 3.9 2.5 7.1
10 27.2 16.8 12.9 18.2 8.8 14.5
14.9 17.1 13.0 14.7 17.1 13.9
10.8 13.5 25.5 10.6 5.8 7.3
14.2 27.4 11.5 17.7 18.3 9.9

La media y la varianza corregida para cada tratamiento es:

Lavados Baño Media Varianza


5 1 16.68 35.92
5 2 5.24 14.07
10 1 17.07 37.31
10 2 13.07 19.75

1. Obtén la tabla de análisis de la varianza del experimento y realiza los contrastes con nivel de signifi-
cación 0.05.

2. Calcula el intervalo de confianza (α = 0.05) para la media de cada tratamiento, dibuja el gráfico de
interacciones con los intervalos de confianza correspondientes e interpreta los resultados del experi-
mento.

3. Como se aprecia en la segunda tabla, las varianzas correspondientes a los tratamientos del Baño 2
son parecidas y bastante inferiores a las varianzas de los tratamientos correspondientes al Baño 1.
Llamando σ 21 a la varianza teórica para los datos del baño 1 y σ 22 a la varianza teórica para los datos
del baño 2, realiza el contraste:

H0 : σ 21 = σ 22
H1 : σ 21 6= σ 22

Nota: Utilizad α = 0.05.


1 1 1 1
LSD  t 0.05 ·sˆR ·   2.09· 1.16· 
20,
2 ni n j ni n j
yij  i  uij  yij  y i  ( yij  y i ) : restando y  
 y ij
,
n
yij  y   ( y i  y  )  ( yij  y i )
elevando al cuadrado y sumando para todo i, j
K ni
(donde  ( y i  y  )( yij  y i )  0)
i 1 j 1
K ni K ni K ni

 ( yij  y  )2    ( y i  y  )2   ( yij  yi )2


i 1 j 1 i 1 j 1 i 1 j 1
K ni K K ni

 ( yij  y  )2   ni ( y i  y  )2   ( yij  y i )2
i 1 j 1 i 1 i 1 j 1

Variabilidades Grados de libertad


K ni
VT   ( yij  y  ) 2 n -1
i 1 j 1
K
VE   ni ( y i  y  ) 2 K -1
i 1
K ni K ni
VNE   ( yij  y i ) 2   eij 2 n-K
i 1 j 1 i 1 j 1

K ni K  ni

 ( y i  y  )( yij  y i )    i
i 1 
( y  y   ( yij  y i  )   0

i 1 j 1 j 1 

ni

(y
j 1
ij  y i ) 0
Analysis of Variance Table
Response: Tiempo
Df Sum Sq Mean Sq F value Pr(>F)
Lavados 1 202.13 202.13 7.5519 0.008659 **
Bath 1 715.34 715.34 26.7261 5.494e-06 ***
Lavados:Bath 1 166.14 166.14 6.2071 0.016567 *
Residuals 44 1177.68 26.77
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

1 1
yij·  t 0.05 ·sˆR ·  yij·  2.01· 26.77·  yij·  3.01
44,
2 ni 12

B1 B2
L10 17.067 13.067
L5 16.683 5.242
11·35.92  11·37.31
sˆR21   36.61
11  11
11·14.07  11·19.75
sˆR2 2   16.91
11  11

sˆR21
~ F22,22
sˆR2 2
36.61
 2.16
16.91

Fa 0.424
Fb 2.357
2o Examen Parcial Diseño de Experimentos y Regresión 21 de mayo de 2012

Cuestiones (30 minutos, 4 puntos)

1. Sea Y ∈ ℜn el vector de la variable dependiente de un modelo de regresión múltiple, con los regresores
definidos por la matriz X ∈ ℜn×(k+1) , tal que

Y = Xβ + U (1)

donde U ∼ N (0, σ 2 I). Un modelo de regresión múltiple se replica cuando se obtienen dos vectores de
variable respuesta Y1 e Y2 , cada uno de dimensión n, para los mismos regresores (la misma matriz X).
Se ajusta el modelo:
Y ′ = Xβ + U ′ (2)
1 ′
donde Y ′ = 2 (Y1 + Y2 ). Sea β̂ al vector de parámetros estimados para el modelo (1), y β̂ para el

modelo (2). Obtener la relación entre V ar(β̂ ) y V ar(β̂), justificando la respuesta.

2. Dos propietarios de un viñedo de Oregon cultivan diferentes variedades de uva con las que fabrican
vino. Durante el proceso de fabricación han recabado diferentes datos con el fin de identificar aquellas
variables que, a juicio de los catadores, producen el mejor vino. En concreto se ha recabado información
sobre la edad de la barrica de roble (x1 : años), el porcentaje del racimos completos utilizados (x2 : %),
la temperatura de fermentación (x3 : o C), y sobre las variables cualitativas Clon de pinot noir, que
puede tomar dos valores (Pommard y Wadenswill), y el tipo de roble empleado en la fabricación de las
barricas que tambien puede tomar dos valores (Allier y Troncais).
Escriba la ecuación del modelo de regresión lineal que permite relacionar la puntuación emitida por
los catadores (y) con los regresores mencionados anteriormente. Interprete los parámetros del modelo.
2o Examen Parcial Diseño de Experimentos y Regresión 21 de mayo de 2012

Problema (45 minutos, 6 puntos)

Durante la producción y el transporte del petróleo, éste se mezcla con agua formando una emulsión. Una
manera de separar los dos lı́quidos es creando un campo eléctrico fuerte, de forma que las gotas de petróleo
crecen y suben a la superficie. Un grupo de investigación de la Universidad de Bergen (Noruega) tomó una
serie de datos para determinar los factores que influı́an en el voltaje requerido para separar la mezcla. Las
siete variables investigadas fueron las siguientes:
x1 : Composición porcentual de la mezcla ( %)
x2 : Salinidad de la emulsión ( %)
x3 : Temperatura de la emulsión (o C)
x4 : Tiempo en reposo desde que se realiza la mezcla (horas)
x5 : Concentración de sulfatante (reduce la tensión superficial)( % en peso)
x6 : Proporción de sustancias quı́micas sulfatantes (Span y Triton)( %)
x7 : Cantidad de sólidos añadidos ( % en peso)

Se prepararon las 19 emulsiones que se muestran en la tabla. Para cada emulsión se midió el voltaje
(kilovoltios por centı́metro) necesario para que se iniciara el proceso de separación, este valor representa la
variable respuesta (y).

DATOS
Experimento y (tensión) x1 x2 x3 x4 x5 x6 x7
1 0,64 40 1 4 0,25 2 0,25 0,5
2 0,80 80 1 4 0,25 4 0,25 2
3 3,20 40 4 4 0,25 4 0,75 0,5
4 0,48 80 4 4 0,25 2 0,75 2
5 1,72 40 1 23 0,25 4 0,75 2
6 0,32 80 1 23 0,25 2 0,75 0,5
7 0,64 40 4 23 0,25 2 0,25 2
8 0,68 80 4 23 0,25 4 0,25 0,5
9 0,12 40 1 4 24 2 0,75 2
10 0,88 80 1 4 24 4 0,75 0,5
11 2,32 40 4 4 24 4 0,25 2
12 0,40 80 4 4 24 2 0,25 0,5
13 1,04 40 1 23 24 4 0,25 0,5
14 0,12 80 1 23 24 2 0,25 2
15 1,28 40 4 23 24 2 0,75 0,5
16 0,72 80 4 23 24 4 0,75 2
17 1,08 60 2,5 13,5 12,125 3 0,50 1,25
18 1,08 60 2,5 13,5 12,125 3 0,50 1,25
19 1,04 60 2,5 13,5 12,125 3 0,50 1,25

El experimento cumple que la matriz de varianzas de los siete regresores es una matriz diagonal, es decir

355, 56 0 0 0 0 0 0
 

 0 2 0 0 0 0 0 

 0 0 80, 22 0 0 0 0 
1 eT e  
Sxx = (X X) =  0 0 0 125, 347 0 0 0 .
n  

 0 0 0 0 0, 889 0 0 

 0 0 0 0 0 0, 0556 0 
0 0 0 0 0 0 0, 5
2o Examen Parcial Diseño de Experimentos y Regresión 21 de mayo de 2012

El modelo estimado es

ybi = 0, 6081 − 0, 0205x1 + 0, 1700x2 − 0, 0153x3 − 0, 0084x4 + 0, 4600x5 + 0, 5200x6 − 0, 1267x7 ,

con varianza residual sb2R = 0, 2086.

1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto significativo
(α = 0, 05).

2. Realice el constraste general de regresión (α = 0, 05) y calcule el coeficiente de determinación del


modelo.

3. Tras la diagnosis del modelo se consideró la opción de introducir como regresores los productos x1 x2 y
x1 x5 . El modelo resultante, únicamente con los regresores significativos, aparece en la tabla siguiente
(modelo B). Elija razonadamente entre el modelo inicial y el modelo B.
Una de las variables que pueden controlar los técnicos en el proceso de separación es x5 (sulfatante).
Explique el efecto conjunto de las variables x1 y x5 , teniendo en cuenta que x1 varı́a de 40 a 80 y x5
entre 2 y 4.

MODELO B
mod bergenB=lm(y ∼ x1 + x2 + x5 + x1 ∗ x2 + x1 ∗ x5 )

Call:
lm(formula = y ~ x1 + x2 + x5 + x1 * x2 + x1 * x5)

Residuals:
Min 1Q Median 3Q Max
-0.55684 -0.10684 0.03316 0.10816 0.62316

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.933158 0.926881 -3.165 0.007460 **
x1 0.035083 0.014664 2.392 0.032543 *
x2 0.640000 0.172971 3.700 0.002670 **
x5 1.180000 0.259457 4.548 0.000547 ***
x1:x2 -0.007833 0.002735 -2.864 0.013290 *
x1:x5 -0.012000 0.004102 -2.925 0.011823 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.3282 on 13 degrees of freedom


Multiple R-squared: 0.8643, Adjusted R-squared: 0.8122
F-statistic: 16.56 on 5 and 13 DF, p-value: 3.086e-05
 
var ˆ   2  X T X 
1

Y1  Y2
Y'
2

 
var ˆ '   '  X T X 
2 1

var(Y X )   2 I
Y Y  1  2I   2I  2I
var(Y ' X )  var  1 2 X   var Y1  Y2 X   
 2  4 4 2

  1
var ˆ '  var ˆ
2
 

 0 Pommard (Referencia)  0 Allier (Referencia)


z1  z2 
 1 Wadenswill  1 Troncais

y 0  1 x1  2 x2  3 x3  1 z1   2 z2  u
0 , 1 , 2 , 3 , 1 ,  2
2

y ˆ0  ˆ1 x1  ˆ2 x2  ˆ3 x3  ˆ1 z1  ˆ 2 z2  e


ˆ0 , ˆ1 , ˆ2 , ˆ3 , ˆ1 , ˆ 2

 1


2

3

 1

 2

 0

0 0  1
0   2 0  1   2
2o Examen Parcial Diseño de Experimentos y Regresión 21 de mayo de 2012

El modelo estimado es

ybi = 0, 6081 − 0, 0205x1 + 0, 1700x2 − 0, 0153x3 − 0, 0084x4 + 0, 4600x5 + 0, 5200x6 − 0, 1267x7 ,

con varianza residual sb2R = 0, 2086.

1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto significativo
(α = 0, 05).

2. Realice el constraste general de regresión (α = 0, 05) y calcule el coeficiente de determinación del


modelo.

3. Tras la diagnosis del modelo se consideró la opción de introducir como regresores los productos x1 x2 y
x1 x5 . El modelo resultante, únicamente con los regresores significativos, aparece en la tabla siguiente
(modelo B). Elija razonadamente entre el modelo inicial y el modelo B.
Una de las variables que pueden controlar los técnicos en el proceso de separación es x5 (sulfatante).
Explique el efecto conjunto de las variables x1 y x5 , teniendo en cuenta que x1 varı́a de 40 a 80 y x5
entre 2 y 4.

MODELO B
mod bergenB=lm(y ∼ x1 + x2 + x5 + x1 ∗ x2 + x1 ∗ x5 )

Call:
lm(formula = y ~ x1 + x2 + x5 + x1 * x2 + x1 * x5)

Residuals:
Min 1Q Median 3Q Max
-0.55684 -0.10684 0.03316 0.10816 0.62316

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.933158 0.926881 -3.165 0.007460 **
x1 0.035083 0.014664 2.392 0.032543 *
x2 0.640000 0.172971 3.700 0.002670 **
x5 1.180000 0.259457 4.548 0.000547 ***
x1:x2 -0.007833 0.002735 -2.864 0.013290 *
x1:x5 -0.012000 0.004102 -2.925 0.011823 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.3282 on 13 degrees of freedom


Multiple R-squared: 0.8643, Adjusted R-squared: 0.8122
F-statistic: 16.56 on 5 and 13 DF, p-value: 3.086e-05
Segundo Examen Parcial de Diseño de Experimentos y Regresión 21 de mayo de 2012

Problema (45 minutos, 6 puntos)

1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto signi…cativo
( = 0; 05):
Para los contrastes individuales hay que comparar con el percentil 0,975 de la distribución t con 11
(19-7-1) grados de libertad que es 2; 20
0;0205
t1 = p = 3; 689 *
0;2086(1=355;56 19)
0;17
t2 = p = 2; 29 *
0;2086(1=2 19)
0;0153
t3 = p = 1; 3078
0;2086(1=80;22 19)
0;0084
t4 = p = 0; 897
0;2086(1=125;34 19)
0;46
t5 = p = 4; 139 *
0;2086(1=0;889 19)
0;52
t6 = p = 1; 17
0;2086(1=0;0556 19)
0;126
t7 = p = 0; 855
0;2086(1=0;5 19)

VE =VT V N E = 19 s2y 11 sb2R = 19 0;5432 11 0;2086 = 8; 03

2. Realice el constraste general de regresión ( = 0; 05) y calcule el coe…ciente de determinación del


modelo.
Contraste conjunto F = (V E=7)=b s2R = 5; 4992 > F7;11 = 3; 01: Se rechaza H0 :
8;03
R2 = V E=V T = = 0; 7781:
10;32
1
R2
Otra posibilidad es a partir del contraste de la F, F = 7 = 5; 4992 =) R2 =
2
1
(1 R )
19 7 1
F
= 0;7778:
11
+F
7
3. Mejor el modelo B. Diagnosis adecuada, R2 mayor y sb2R menor.
La interpretación:
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Cuestiones (30 minutos, 4 puntos)

1. Para comparar las mediciones de la tensión arterial realizadas con dos aparatos, se decide tomar la
tensión a 10 enfermos con un aparato en cada brazo (se selecciona aleaoriamente el aparato que se pone
en cada brazo). Los resultados se presentan en la tabla siguiente. Proponga un modelo para contrastar
si existen diferencias entre las mediciones realizadas con los dos aparatos; obtenga la tabla ADEVA e
interprete los resultados ( = 0;05):

Aparato 1 Aparato 2 Medias


Enfermo 1 12.46 12.06 12.26
Enfermo 2 9.39 10.50 9.94
Enfermo 3 10.39 10.17 10.28
Enfermo 4 10.53 12.78 11.65
Enfermo 5 12.21 11.61 11.91
.
Enfermo 6 11.60 11.86 11.73
Enfermo 7 9.35 8.13 8.74
Enfermo 8 11.95 10.81 11.38
Enfermo 9 8.91 9.59 9.25
Enfermo 10 12.07 13.32 12.7
Medias 10.89 11.08 10.98

2 Para el modelo de diseño experimental con dos factores e interacción, deduzca la expresión del intervalo
de con…anza para la varianza del error experimental.
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Problema (45 minutos, 6 puntos)

Se ha realizado un experimento para estudiar la in‡uencia sobre el rendimiento (Y ) de un proceso químico,


de la Presión y Temperatura de trabajo. Se han tomado dos niveles (1 Atm y 2 Atm) para la presión y
dos también (300K y 400K) para la temperatura, realizándose tres replicaciones para cada combinación de
factores. En tabla se muestran los resultados:

Presión
1 Atm 2 Atm
Temperatura 300 K 11.12 10.33 11.11 5.60 4.46 3.88
400 K 1.19 1.27 2.89 4.39 6.31 7.23

1. Inicialmente se consideró como único factor de análisis la Temperatura. Estudie la in‡uencia de la


Temperatura sobre el rendimiento, sin incluir la Presión en el análisis.

2. En un estudio posterior se decidió considerar conjuntamente los dos factores. Sabiendo que la vari-
abilidad explicada por el factor Presión es 3.04, construya una nueva tabla de análisis de la varianza,
indicando qué efectos son signi…cativos.

3. Construya el grá…co de interacción entre Presión y Temperatura, utilícelo para interpretar los resul-
tados del apartado 2. ¿Existen condiciones experimentales óptimas que maximicen el rendimiento?

Nota. Utilice = 0;05 en todos los contrastes.


Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Cuestiones (30 minutos, 4 puntos)

1. Obtenga la varianza del estimador del coe…ciente de regresión simple 1 e interprétela en función de
cada uno de los términos de los que depende.

2. Para estudiar el efecto de dos regresores x1 y x2 sobre una variable respuesta y, se han estimado tres
modelos diferentes de regresión que se representan en las Tablas 1 a 3.

Tabla 1: Modelo 1

Tabla 2: Modelo 2

Tabla 3: Modelo 3

Sabiendo que el coe…ciente de correlación entre x1 y x2 es 0.954, elija el modelo más adecuado justi…cando
la respuesta ¿Se puede a…rmar con un 95 % de con…anza que los regresores x1 y x2 in‡uyen en la variable
respuesta?
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Problema (45 minutos, 6 puntos)

Una empresa está estudiando la productividad de sus 16 empleados. Para ello analiza tres variables
cuantitativas X1 ; X2 ; X3 y si poseen o no Máster profesional (1= No máster, 2 =Máster), que se modela
a través de dos variables z1 y z2 que identi…can a No Máster y Máster respectivamente. A partir de los
datos de productividad de todos los empleados para un año se ha estimado el siguiente modelo de regresión
múltiple:

ybi = 4;688 + 3;732x1i 0;229x2i + 3;751x3i + 5;562z2i ,

0 1
2;31 0;75 0;75 0;375 0;75
B 0;75 0;5 0;25 0 0:; 5 C
B C
siendo (X 0 X) 1 =B
B 0;75 0;25 0;5 0 0;5 C ; y sbR = 1;9:
C
@ 0;375 0 0 0;25 0 A
0;75 0;5 0;5 0 1

1) Realice los contrastes individuales indicando las variables que in‡uyen signi…cativamente en la pro-
ductividad. Interprete el resultado explicando el signi…cado de cada parámetro. ( = 0; 05):

2) Sabiendo que el coe…ciente de determinación es igual a 0;877, realice el contraste conjunto. ( = 0;05):

3) Si se escribe el modelo en la siguiente forma alternativa,

yi = 01 z1i + 02 z2i + 1 x1i + 2 x2i + 3 x3i + ui ,

donde 01 y 02 son las ordenadas en el origen para los dos niveles de la variable cualitativa, ¿cuál será el
valor estimado de 01 y 02 ?:
H0 : 02 =0
Realice el contraste:
H1 : 02 6= 0
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Cuestiones (30 minutos, 4 puntos)

1. Para comparar las mediciones de la tensión arterial realizadas con dos aparatos, se decide tomar la
tensión a 10 enfermos con un aparato en cada brazo (se selecciona aleatoriamente el aparato que se
pone en cada brazo). Los resultados se presentan en la tabla siguiente. Proponga un modelo para
contrastar si existen diferencias entre las mediciones realizadas con los dos aparatos; obtenga la tabla
ADEVA e interprete los resultados (α = 0,05).

Aparato 1 Aparato 2 Medias


Enfermo 1 12.46 12.06 12.26
Enfermo 2 9.39 10.50 9.94
Enfermo 3 10.39 10.17 10.28
Enfermo 4 10.53 12.78 11.65
Enfermo 5 12.21 11.61 11.91
.
Enfermo 6 11.60 11.86 11.73
Enfermo 7 9.35 8.13 8.74
Enfermo 8 11.95 10.81 11.38
Enfermo 9 8.91 9.59 9.25
Enfermo 10 12.07 13.32 12.7
Medias 10.89 11.08 10.98

SOLUCIÓN:
Es un modelo en bloques aleatorizados. El factor es el aparato, con dos niveles (I=2) y el bloque los
enfermos, con 10 niveles (J=10)
La tabla ADEVA es

Se concluye que no existen diferencias significativas entre las mediciones realizadas con los dos aparatos.
Sí existen diferencias significativas entre los enfermos.

2. Para el modelo de diseño experimental con dos factores e interacción, deduzca la expresión del intervalo
de confianza para la varianza del error experimental.
SOLUCIÓN:
En un modelo con dos factores e interacción se verifica que:

V NE
−→ χ2IJ(m−1) ;
σ2
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

siendo I y J respectivamente los niveles de los dos factores y m el número de replicaciones.


Una expresión alternativa es
IJ(m − 1) s2R
−→ χ2IJ(m−1) .
σ2
Se puede deducir que la expresión del intervalo con confianza (1 − α) % es:

V NE V NE
≤ σ2 ≤ .
χ2IJ(m−1);α/2 χ2IJ(m−1);1−α/2
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Problema (45 minutos, 6 puntos)

Se ha realizado un experimento para estudiar la influencia sobre el rendimiento (Y ) de un proceso químico,


de la Presión y Temperatura de trabajo. Se han tomado dos niveles (1 Atm y 2 Atm) para la Presión y
dos también (300K y 400K) para la Temperatura, realizándose tres replicaciones para cada combinación de
factores. En tabla se muestran los resultados:

1.
Presión
1 Atm 2 Atm
Temperatura 300 K 11.12 10.33 11.11 5.60 4.46 3.88
400 K 1.19 1.27 2.89 4.39 6.31 7.23

2. Inicialmente se consideró como único factor de análisis la Temperatura. Estudie la influencia de la


Temperatura sobre el rendimiento, sin incluir la Presión en el análisis.
3. En un estudio posterior se decidió considerar conjuntamente los dos factores. Sabiendo que la vari-
abilidad explicada por el factor Presión es 3.04, construya una nueva tabla de análisis de la varianza,
indicando qué efectos son significativos.
4. Construya el gráfico de interacción entre Presión y Temperatura, utilícelo para interpretar los resul-
tados del apartado 2. ¿Existen condiciones experimentales óptimas que maximicen el rendimiento?

Nota. Utilice α =0.05 en todos los contrastes.

1. SOLUCIÓN:
2. Se puede hacer mediante un contraste de igualdad de media de dos distribuciones normales,

H0 : µ1 = µ2
H1 : µ1 = µ2

llamando ȳ1 a la media de rendimientos a temperatura 300K e ȳ2 a temperatura 400K , se tiene que
ȳ1 − ȳ2
t=  ∼ t10
ŝR 26

siendo

2 
6
(yij − ȳi )2
i=1 j=1
ŝ2R = = 9,214
10
sustituyendo se tiene que t = 2,209 que es inferior a t10,0,025 = 2,23 por lo tanto no existen diferencias
significativas para α = 0,05.
3. Modelo de dos factores con interacción, la tabla de analisis de la varianza es
Fuente SS Df Mean Square F-Ratio
Efectos Principales
Temperatura 44.93 1 44.93 45.03**
Presion 3.04 1 3.04 3.05
Interacción
TxP 81.12 1 81.12 81.30**

Residual 7.98 8 0.997


Total 137.07 11
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Los valores de la F obtenidos en la tabla se comparan con F1,8,α=0,05 = 5,32. El efecto principal de la
Temperatura es muy significativo, el efecto principal de la Presión no es significativo y la interacción
es muy significativa.

4.

La interacción es clarísima. Los intevalos de confianza muestra que a la presión de 2 Atm no existen
diferencias significativas entre las dos temperaturas. Sin embargo, a la presión de 1 Atm, el rendimiento
medio a 300K es muy superior que a 400K. Las condiciones óptimas son 1Atm y 300K. La amplitud
de los intervalos de confianza es
 
1 2 1
t8,α=0,025 × ŝR × = 2,31 × 0,998 × = 1,31
3 3
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Cuestiones (30 minutos, 4 puntos)

1. Obtenga la varianza del estimador del coeficiente de regresión simple β 1 e interprétela en función de
cada uno de los términos de los que depende.
SOLUCIÓN: (ver libro de la asignatura)
σ2
var(β̂ 1 ) =
ns2X
La varianza del estimador depende de la varianza condicionada de la variable dependiente, del número
de observaciones y de la varianza muestral de la variable independiente. Cuanto mayor el número de
muestras y mayor dispersión del regresor más precisa será la estimación.
2. Para estudiar el efecto de dos regresores x1 y x2 sobre una variable respuesta y, se han estimado tres
modelos diferentes de regresión que se representan en las Tablas 1 a 3.

Tabla 1: Modelo 1

Tabla 2: Modelo 2

Tabla 3: Modelo 3
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Sabiendo que el coeficiente de correlación entre x1 y x2 es 0.954, elija el modelo más adecuado justificando
la respuesta ¿Se puede afirmar con un 95 % de confianza que los regresores x1 y x2 influyen en la variable
respuesta?
SOLUCIÓN: R2 el coeficiente de determinación no nos sirve para comparar estos tres modelos, porque
el modelo con más regresores siempre tiene un coeficiente mayor. Para hacer una comparación global de
los modelos en este caso se utiliza R̄2 , el coeficiente de determinación corregido o ajustado, según éste el
mejor modelo es el 3.
En este caso es útil realizar los tres modelos de regresión. Las dos variables muestran una relación lineal
significativa con la variable respuesta, esto se observa en los modelos de regresión simple. En el modelo de
regresión múltiple los contrastes individuales indican que los coeficientes no son significativamente distintos
de cero, pero el contraste conjunto nos dice que al menos uno es dsitinto de cero. Dicho de otra forma: los
dos a la vez no son necesarios, basta con tener un regresor. Eso es debido a la alta correlación entre los dos
regresores.
Si el modelo se quiere para hacer predicciones, el modelo 1 es válido y el preferido en general.
Decidir si influyen o no los regresores y cómo influyen, depende de como se hayan tomado los datos y
del problema concreto. En este caso podemos afirmar que los dos regresores muestran una relación lineal
significativa con la variable respuesta al 95 % de confianza.
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Problema (45 minutos, 6 puntos)

Una empresa está estudiando la productividad de sus 16 empleados. Para ello analiza tres variables
cuantitativas X1 , X2 , X3 y si poseen o no Máster profesional (1= No máster, 2 =Máster), que se modela
a través de dos variables z1 y z2 que identifican a No Máster y Máster respectivamente. A partir de los
datos de productividad de todos los empleados para un año se ha estimado el siguiente modelo de regresión
múltiple:

yi = 4.688 + 3.732x1i − 0.229x2i + 3.751x3i + 5.562z2i ,

 
2.31 -0.75 -0.75 -0.375 0.75
 -0.75 0.5 0.25 0 -0.5 
 
siendo (X  X)−1 =
 -0.75 0.25 0.5 0 -0.5 
 ; y sR =1.9.
 -0.375 0 0 0.25 0 
0.75 -0.5 -0.5 0 1

1. Realice los contrastes individuales indicando las variables que influyen significativamente en la pro-
ductividad. Interprete el resultado explicando el significado de cada parámetro. (α=0.05).

2. Sabiendo que el coeficiente de determinación es igual a 0.877, realice el contraste conjunto. (α=0.05).

3. Si se escribe el modelo en la siguiente forma alternativa,

yi = β 01 z1i + β 02 z2i + β 1 x1i + β 2 x2i + β 3 x3i + ui ,

donde β 01 y β 02 son las ordenadas en el origen para los dos niveles de la variable cualitativa, ¿cuál
será el valor estimado de β 01 y β 02 ?


H0 : β 02 = 0
Realice el contraste: .
H1 : β 02 = 0

SOLUCIÓN:
1.
Los contrastes individuales son:
H0 : β i = 0 
β
=⇒Si H0 es cierta, ti = √i −→ tn−k−1 . En este caso t16−4−1
H1 : β i = 0 sR qii
3, 73
t1 = √ = 2, 77 > t11;0,025 = 2,2
1, 9 0, 5
0, 229
t2 = − √ = −0, 17
1, 9 0, 5
3, 75
t3 = √ = 3, 94 > t11;0,025 = 2,2
1, 9 0, 25
5, 56
t4 = √ = 2, 92 > t11;0,025 = 2,2
1, 9 1
Todos los regresores resultan significativos a excepción de x2 .
Interpretación de los parámetros :

 0 = 4,688 es la ordenada en el origen de los trabajadores que no poseen máster. Tal como está parame-
β
trizado el modelo la referencia son los trabajadores que no poseen máster.
 = 3,732;a igualdad del resto de regresores, por cada unidad que aumenta x1 ,la productividad aumenta
β 1
en 3.732 unidades.
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

 2 = −0,17;a igualdad del resto de regresores, por cada unidad que aumenta x2 ,la productividad disminuye
β
en 0.17 unidades, aunque este regresor no ha resultado ser significativo.
 3 = 3,94;a igualdad del resto de regresores, por cada unidad que aumenta x3 ,la productividad aumenta
β
en 3.94 unidades.

 2 = 5,562;existe diferencia significativa entre la productividad de los trabajadores que poseen master y la
α
de los que no poseen master, manteniendo constante el resto de regresores. La productividad es 5.562
unidades superior en los trabajadores que poseen máster.

2. El coeficiente de determinación R2 = 0,877. El contraste general de regresión es:



H0 : β 1 = β 2 = β 3 = α2 = 0
H1 : alguno distinto de 0
VE
Si H0 es cierta, k −→ Fk,n−k−1 . En términos de R2 ,esta expresión es
V NE
n−k−1

R2 11
F = = 19, 60 > F4,11;0,05 = 3, 36. =⇒Se rechaza H0 . Alguno o todos los regresores son
1 − R2 4
significativos.
3. Comparando la parametrización del enunciado con la planteada en el apartado 3 se concluye que:

01 = 4, 688, es la estimación de la ordenada en el origen de los trabajadores que no poseen máster
β
02 = 4, 688 + 5, 562 = 10, 25, la ordenada en el origen de los trabajadores que poseen máster.
β

El contraste que piden es



H0 : β 02 = 0
H1 : β 02 = 0
02 = β
Como β 01 + α
 2 , se verifica que

 02 ) = var(β
var(β  01 + α 01 ) + var(
 2 ) = var(β 01 , α
α2 ) + 2cov(β  2 ) = σ2 (2, 31 + 1 + 2 × 0, 75) = 4, 81σ2 .

Por lo tanto, si H0 es cierta,



β 
β 10, 24
t =  02 −→ t11 =⇒ t = √02 = √ = 2, 45 > t11;0,025 = 2,2, se rechaza H0
 
sR 4, 81 1, 9 4, 81
v ar(β 02 )
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

Cuestiones (45 minutos, 5 puntos)

1. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecución depende del compilador. Un
ingeniero de software desea comparar tres compiladores (A, B y C), para ello ha seleccionado 5 pro-
gramas muy distintos, cada uno de los cuales ha sido compilado por los tres compiladores. Los tiempos
de CPU resultantes han sido:
1 2 3 4 5 Medias
A 122.9 147.4 189.6 200.9 307.3 193.6
B 113.8 135.1 173.8 199.3 296.6 183.7
C 131.2 152.8 192.7 219.8 318.9 203.1
Medias 122.7 145.1 185.3 206.7 307.6

La variabilidad total es 62899.2 y su descomposición es 937.2 (Variabilidad Explicada por Compilador),


61868.9 (Variabilidad Explicada por el Programa) y 93.2 (Variabilidad no Explicada).
Indica qué compilador es el más rápido, justificando la respuesta. Da un intervalo de confianza (95 %)
para la diferencia de las medias entre los dos compiladores más rápidos.

2. En un modelo de regresión múltiple, explica paso a paso como se obtiene la fórmula de la covarianza
entre dos estimadores β̂ i y β̂ j para i =
 j. Indica en cada paso qué hipótesis básica del modelo estás
utilizando.

3. Para determinar el valor de un cierto parámetro nuclear se han realizado 8 experimentos, el valor
medio de las medidas ha sido 3.567 con una desviación típica corregida igual a 0.2886. El valor medio
se corresponde de forma aceptable con el valor esperado, pero la desviación típica obtenida se considera
excesiva. En una revista científica los resultados que proporcionan los autores y que obtuvieron con 10
experimentos son de una media igual a 3.44 y una desviación típica corregida igual a 0.1888. Aceptando
normalidad, proporciona un intervalo de confianza para el cociente de las dos varianzas, con α = 0,05.
Explica, justificando la respuesta, cómo se obtienen los dos valores necesarios de la tabla de la F.
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

Problema (45 minutos, 5 puntos)

Staphylococcus Aureus (SA) es una bacteria resistente a la penicilina y sensible únicamente a un an-
tibiótico denominado vancomicina. Para determinar si un paciente está infectado con dicha bacteria es
preciso realizar un cultivo de una muestra sanguínea en el laboratorio en un gel con tryptone. El protocolo
actual recomienda que el cultivo se realice a 35 grados centígrados con una concentración de tryptone del
1 %. Si la bacteria está presente aparece en el cultivo y es fácilmente detectable a simple vista. Se ha realiza-
do un experimento para establecer la temperatura y concentración de tryptone óptimos para el crecimiento
de la bacteria. En la tabla se muestra el resultado de un experimento factorial replicado, donde se incluye
la temperatura de incubación, 27, 35 y 43 grados centígrados, y la concentración de Tryptone 0.6, 0.8, 1.0,
1.2 y 1.4 ( % en peso), la variable respuesta (Recuento) es el número de colonias de bacterias observadas en
cada cultivo (por ejemplo, un valor de 62 significa 62 millones de colonias por mililitro)

Concentración
0.6 0.8 1.0 1.2 1.4
27o 33 72 32 131 28 179 59 221 43 195
Temp 35o 62 113 54 151 98 147 176 211 119 162
43o 77 76 81 125 117 127 146 201 101 184

Se ha analizado el experimento como un diseño de dos factores con interacción obteniéndose la siguiente
tabla de análisis de varianza

1. Teniendo en cuenta el p-valor de la interacción, se decide eliminar este término de la tabla de la análisis
de la varianza. Construye la nueva tabla de la varianza de dos factores sin interacción e indica si con el
nuevo modelo los efectos principales de TEMP y CONC son significativos (utiliza α = 0,05). Explica
a qué se debe la diferencia de los resultados obtenidos.

2. La correlación entre Recuento y Concentración es igual a 0.495. Estima el modelo de regresión simple
entre la variable respuesta Recuento y la variable independiente Concentración. Contrasta si existe
relación lineal significativa entre las dos variables (utiliza α = 0,05 y ten en cuenta que la media
aritmética de los 30 valores de la variable respuesta es 117.33 millones de colonias por mililitro)

3. Escribe de manera específica, utilizando los datos del problema, el vector Y y la matriz X correspon-
dientes al modelo de regresión múltiple

RECUENT Oi = β 0 + β 1 T EM Pi + β 2 CONCi + ui

Explica, justificando la respuesta, si en este modelo y con estos datos se pueden dar problemas de
multicolinealidad.
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

Cuestiones (45 minutos, 5 puntos)

1. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecución depende del compilador. Un
ingeniero de software desea comparar tres compiladores (A, B y C), para ello ha seleccionado 5 pro-
gramas muy distintos, cada uno de los cuales ha sido compilado por los tres compiladores. Los tiempos
de CPU resultantes han sido:
1 2 3 4 5 Medias
A 122.9 147.4 189.6 200.9 307.3 193.6
B 113.8 135.1 173.8 199.3 296.6 183.7
C 131.2 152.8 192.7 219.8 318.9 203.1
Medias 122.7 145.1 185.3 206.7 307.6

La variabilidad total es 62899.2 y su descomposición es 937.2 (Variabilidad Explicada por Compilador),


61868.9 (Variabilidad Explicada por el Programa) y 93.2 (Variabilidad no Explicada).
Indica qué compilador es el más rápido, justificando la respuesta. Da un intervalo de confianza (95 %)
para la diferencia de las medias entre los dos compiladores más rápidos.
SOLUCIÓN:
La tabla de Análisis de la Varianza es:
F. V. G.L. Var. o CM Contraste F
VE(compilador) 937.2 2 468.6 40.22 Significativo >F2,8,α=0,05
VE(programa) 61868.9 4 15467.23 1327.66 Significativo >F4,8,α=0,05
VNE 93.2 8 11.65
VT 62899.2 14
Existen diferenciassignificativas entre los Compiladores. Para saber cuáles son los mas rápidos es
necesario realizar los contrastes dos a dos:
  
H0: µi = µj √
.Se rechaza H0 si |yi. − yj. | > t8;0,025 × sR × 15 + 15 = 2,306 × 11,65 × 15 + 15 = 4,98.
H0: µi = µj
Todos los compiladores son significativamente distintos entre si. Los dos mas rápidos son el compilador
A y el B
El intervalo de confianza es:
µA − µB ∈ 9,5 ± 4,98 = [4,52; 14,48] con una confianza del 95 %.

2. En un modelo de regresión múltiple, explica paso a paso como se obtiene la fórmula de la covarianza
entre dos estimadores β̂ i y β̂ j para i =
 j. Indica en cada paso qué hipótesis básica del modelo estás
utilizando.
SOLUCIÓN:
Ver transparencia 36 del capítulo no 3: Regresión Lineal. de la colección de transparencias de la
asignatura.

3. Para determinar el valor de un cierto parámetro nuclear se han realizado 8 experimentos, el valor
medio de las medidas ha sido 3.567 con una desviación típica corregida igual a 0.2886. El valor medio
se corresponde de forma aceptable con el valor esperado, pero la desviación típica obtenida se considera
excesiva. En una revista científica los resultados que proporcionan los autores y que obtuvieron con 10
experimentos son de una media igual a 3.44 y una desviación típica corregida igual a 0.1888. Aceptando
normalidad, proporciona un intervalo de confianza para el cociente de las dos varianzas, con α = 0,05.
Explica, justificando la respuesta, cómo se obtienen los dos valores necesarios de la tabla de la F.
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

SOLUCIÓN:

Los datos indican: n1 = 8, x1 = 3,567, s1 = 0,2886 y n2 = 10, x2 = 3,44, s2 = 0,1888.
(n1 − 1)s1 2 s1 2
(n1 − 1)σ21 σ21 s2 2 σ22 s2 2
Se verifica  F(n −1),(n −1) =⇒ −→ F7,9 =⇒ Fa × ≤ ≤ Fb ×
(n2 − 1)s2 2 1 2
s2 2 s1 2 σ21 s1 2
(n2 − 1)σ22 σ22

Siendo Fa = F7,9;0,975 y Fb = F7,9;0,025 .


El valor Fb = F7,9;0,025 = 4,20 se obtiene directamente de las tablas
1 1
El valor Fa = F7,9;0,975 = = = 0,2075.
F9,7;0,025 4,82
Sustituyendo en la expresión del intervalo:
0,18882 σ22 0,18882 σ22
0,2075 × ≤ ≤ 4,20 × =⇒ [0,09 ≤ ≤ 1,8228] con confianza 95 %.
0,28862 σ21 0,28862 σ21
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

Problema (45 minutos, 5 puntos)

Staphylococcus Aureus (SA) es una bacteria resistente a la penicilina y sensible únicamente a un an-
tibiótico denominado vancomicina. Para determinar si un paciente está infectado con dicha bacteria es
preciso realizar un cultivo de una muestra sanguínea en el laboratorio en un gel con tryptone. El protocolo
actual recomienda que el cultivo se realice a 35 grados centígrados con una concentración de tryptone del
1 %. Si la bacteria está presente aparece en el cultivo y es fácilmente detectable a simple vista. Se ha realiza-
do un experimento para establecer la temperatura y concentración de tryptone óptimos para el crecimiento
de la bacteria. En la tabla se muestra el resultado de un experimento factorial replicado, donde se incluye
la temperatura de incubación, 27, 35 y 43 grados centígrados, y la concentración de Tryptone 0.6, 0.8, 1.0,
1.2 y 1.4 ( % en peso), la variable respuesta (Recuento) es el número de colonias de bacterias observadas en
cada cultivo (por ejemplo, un valor de 62 significa 62 millones de colonias por mililitro)

Concentración
0.6 0.8 1.0 1.2 1.4
27o 33 72 32 131 28 179 59 221 43 195
Temp 35o 62 113 54 151 98 147 176 211 119 162
43o 77 76 81 125 117 127 146 201 101 184

Se ha analizado el experimento como un diseño de dos factores con interacción obteniéndose la siguiente
tabla de análisis de varianza

1. Teniendo en cuenta el p-valor de la interacción, se decide eliminar este término de la tabla de la análisis
de la varianza. Construye la nueva tabla de la varianza de dos factores sin interacción e indica si con el
nuevo modelo los efectos principales de TEMP y CONC son significativos (utiliza α = 0,05). Explica
a qué se debe la diferencia de los resultados obtenidos.
SOLUCIÓN: La nueva tabla de la varianza se obtiene sumando los variabilidades correspondientes
a la interacción y reisiduos del modelo del enunciado, de manera que la VNE y sus grados de libertad
se obtienen como

V NE = 883 + 56553 = 57436


gl = 8 + 15 = 23

Los demás términos de la tabla no se modifican, de manera que la tabla final es:
FUENTE VARIAB GL VARIANZAS F
TEMP 5100 2 2550.2 1.021
CONC 32794 4 8198.6 3.283
RESIDUAL 57436 23 2497.2

Sólo es significativo el efecto de la CONCENTRACIÓN, pues el límite para α = 0,05 es F4,23 = 2,8 <
3,283
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

La diferencia se debe a que la varianza residual se reduce considerablemente al aumentar los grados
de libertad de los residuos, lo que aumenta los estadísticos F y disminuyen los límites de aceptación
que se obtienen de las tablas.

2. La correlación entre Recuento y Concentración es igual a 0.495. Estima el modelo de regresión simple
entre la variable respuesta Recuento y la variable independiente Concentración. Contrasta si existe
relación lineal significativa entre las dos variables (utiliza α = 0,05 y ten en cuenta que la media
aritmética de los 30 valores de la variable respuesta es 117.33 millones de colonias por mililitro)
SOLUCIÓN:
Teniendo en cuenta que la variabilidad total es V T = 5100 + 32794 + 57436 = 95330, la varianza de
la variable respuesta s2y se obtiene de la siguiente forma

95330
s2y = = 3177,6
30
y la varianza del regresor s2x

6 × (0,6 − 1)2 + 6 × (0,8 − 1)2 + 6 × (1 − 1)2 + 6 × (1,2 − 1)2 + 6 × (1,4 − 1)2


s2x = = 0,08
30
Utilizando lo anterior y el coeficiente de correlación, se puede obtener el estimador de la pendiente

sxy sy 3177,6
β̂ 1 = 2 = r = 0,495 = 98,65
sx sx 0,08

y la ordenada en el origen

β̂ 0 = ȳ − β̂ 1 x̄ = 117,33 − 98,65 × 1 = 18,67

La variabilidad no explicada, VNE, de regresión simple se obtiene como

V E = 0,4952 × 95330 = 23358


V NE = V T − V E = 95330 − 23358 = 71972

y la varianza residual
71972
ŝ2R = = 2570
28
El contraste de la t es por tanto
β̂ 1
t= √ = 3,014
ŝR /( nsx )
que es significativo para α = 0,05, pues t0,25;28 = 2,05.

3. Escribe de manera específica, utilizando los datos del problema, el vector Y y la matriz X correspon-
dientes al modelo de regresión múltiple

RECUENT Oi = β 0 + β 1 T EM Pi + β 2 CONCi + ui

Explica, justificando la respuesta, si en este modelo y con estos datos se pueden dar problemas de
multicolinealidad.
SOLUCIÓN: Y = Xβ + U, siendo cada término
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

     
33 1 27 0,6 u1
 72   1 27 0,6   u2 
     
 32   1 27 0,8   u3 
     
 131   1 27 0,8   u4 
     
 28   1 27 1,0   u5 
     
 179   1 27 1,0   u6 
     
 59   1 27 1,2   u7 
     
     
 221   1 27 1,2   u8 
     
 43   1 27 1,4   u9 
     
 195   1 27 1,4   u10 
     
 62   1 35 0,6   u11 
     
 113   1 35 0,6   u12 
     
 54   1 35 0,8   u13 
     
 151   1 35 0,8    u14 
    β0  
 98   1 35 1,0   u15 
 =   β1  +  
 147   1 35 1,0   u16 
    β  
 176   1 35 1,2  2  u17 
     
 211   1 35 1,2   u18 
     
 119   1 35 1,4   u19 
     
 162   1 35 1,4   u20 
     
 77   1 43 0,6   u21 
     
     
 76   1 43 0,6   u22 
     
 81   1 43 0,8   u23 
     
 125   1 43 0,8   u24 
     
 117   1 43 1,0   u25 
     
 127   1 43 1,0   u26 
     
 146   1 43 1,2   u27 
     
 201   1 43 1,2   u28 
     
 101   1 43 1,4   u29 
184 1 43 1,4 u30
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Cuestiones (30 minutos, 4 puntos)

1.) El estudio de la observabilidad de un sistema eléctrico es un paso previo a la estimación de su


estado, y resulta crucial para cualquier Centro de Control de un sistema eléctrico, con el fin de garantizar
la seguridad del sistema.
Unos investigadores del Laboratorio de Estadística de la ETSII-UPM han desarrollado un nuevo método
(alternativo al que tradicionalmente se ha utilizado) para estudiar la observabilidad.
Han realizado pruebas para determinar si el nuevo método es computacionalmente más rápido que el
tradicional. Para ello han usado un sistema eléctrico tipo, que se suele utilizar para probar este tipo de
metodologías. En este sistema tipo han aplicado ambos Métodos (Tradicional y Nuevo) en 100 situaciones
distintas para el sistema eléctrico (denominadas Escenarios), obteniendo un valor para la variable dependi-
ente CPU-Time (en segundos) para cada combinación de Método y Escenario.

Indique qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así como
la ecuación de dicho modelo y las hipótesis que se asumen.

Complete la tabla ADEVA que se muestra a continuación e indique si existen diferencias significativas
entre los métodos. ¿Existen diferencias significativas entre los escenarios considerados?

F.V Sum. cuadrados G.l. Var F


Método 7,79426·108
Escenario 99 163761,0
Residual
Total 8,119·108

Sabiendo que las medias de los CPU Time correspondientes al nuevo (N) método y el tradicional (T)
son respectivamente y N· = 817, 58 e yT · = 4765, 51, construya los intervalos de confianza para la media
de cada método e indique cuál es el mejor.

2.) Un estadístico, preocupado por el diferente resultado que le dan cuatro tipos de pilas diferentes,
decide realizar un experimento para comparar la duración por unidad de coste (DUC, medidas en minutos
por dólar) de esas pilas.
Para ello compra cuatro pilas de cada tipo (de diferentes lotes), las ordena de modo aleatorio y mide
el tiempo durante el cual suministran corriente eléctrica a un aparato. Los tipos de pila se denominan
respectivamente tipos 1, 2, 3 y 4.
A continuación se muestran la tabla ADEVA y los resultados de las comparaciones dos a dos correspon-
dientes a la estimación del modelo con un factor.
a) Interprete los resultados (α = 0,01).

Figura 1. Tabla ADEVA


Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Figura 2. Comparaciones dos a dos

b) A la vista de los gráficos que se muestran a continuación realice la diagnosis del modelo, indicando
claramente si se cumplen las hipótesis del modelo. Si se diera este último caso, proponga una solución posible
para ello.

Figura 3. Diagnosis del modelo.


Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Problema (45 minutos, 6 puntos)


Un alumno de la Universidad de Arizona ha realizado un experimento factorial para medir la resistencia
a la tracción (psi) del asfalto. Los asfaltos utilizan habitualmente dos tipos de áridos: basálticos o silíceos.
En un primer momento ha utilizado un asfalto con árido basáltico y ha considerado cuatro métodos de
compactación (estático, velocidad regular, velocidad baja y velocidad muy baja). Con cada uno de ellos ha
repetido el experimento 3 veces. En la Tabla 1 se muestran la media y la varianza (corregida) para los tres
datos de cada tratamiento:
Compactación
Estática V. reg V. baja V. muy baja
y i· 65,3 129,0 97,3 57,3
s2i 6,33 13,0 16,33 2,33

Tabla 1: Medias y varianzas corregidas de los tratamientos con asfalto basáltico


1. Contraste si el tipo de compactación influye significativamente en la resistencia a la tracción e indique,
en caso afirmativo, el método de compactación que proporciona una mayor resistencia a la tracción
(α = 0, 05).
2. Se ha realizado un experimento similar al anterior (cuatro métodos de compactación, tres replicaciones)
pero utilizando asfalto silíceo. En el análisis se han obtenido los siguientes resultados:
Compactación
Estática V. reg V. baja V. muy baja
y i· 67,7 111,0 60,7 41,7
s2i 8,33 21,0 4,33 4,33

Tabla 2: Medias y varianzas de los tratamientos con asfalto silíceo

La tabla ADEVA para los datos correspondientes al asfalto silíceo es:

Tabla 3: Análisis de la varianza con asfalto silíceo

a) Indique qué metodos de compactación producen resistencias a la tracción significativamente distintas


en el asfalto silíceo.
b) Contraste si las varianzas experimentales de los modelos correspondientes a los asfaltos basálticos
(apartado 1) y silíceos (apartado 2) son iguales (α = 0, 05).
3. Se decide combinar la información recogida en los dos e•xperimentos, los detallados en los apartados 1
y 2 respectivamente. Con esta información contraste si existe interacción significativa entre los factores
tipo de árido y compactación, dibuje el gráfico de la interacción e interprétela. Indique qué combinación
de factores es la más adecuada para conseguir la máxima resistencia a la tracción (α = 0, 05).
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Cuestiones (30 minutos, 4 puntos)

1.) El estudio de la observabilidad de un sistema eléctrico es un paso previo a la estimación de su


estado, y resulta crucial para cualquier Centro de Control de un sistema eléctrico, con el fin de garantizar
la seguridad del sistema.
Unos investigadores del Laboratorio de Estadística de la ETSII-UPM han desarrollado un nuevo método
(alternativo al que tradicionalmente se ha utilizado) para estudiar la observabilidad.
Han realizado pruebas para determinar si el nuevo método es computacionalmente más rápido que el
tradicional. Para ello han usado un sistema eléctrico tipo, que se suele utilizar para probar este tipo de
metodologías. En este sistema tipo han aplicado ambos Métodos (Tradicional y Nuevo) en 100 situaciones
distintas para el sistema eléctrico (denominadas Escenarios), obteniendo un valor para la variable dependi-
ente CPU-Time para cada combinación de Método y Escenario.

Indique qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así como
la ecuación de dicho modelo y las hipótesis que se asumen.
Modelo en Bloques Aleatorizados: yij = µ + αi + β j + uij . No hay réplicas de cada "tratamiento".
Sólo se quiere determinar qué Método es mejor, el bloque Escenario se incluye sólo por si explica una
porción importante de la Variabilidad Total del CPU-Time.
Se asume: Normalidad, homocedasticidad e independencia.

Complete la tabla ADEVA que se muestra a continuación e indique si existen diferencias significativas
entre los métodos. ¿Existen diferencias significativas entre los escenarios considerados?

F.V Sum. cuadrados G.l. Var F


7.79426·10 8
Método 7.79426·108 2-1=1 7.79426·10 8 1.6426·10 5
= 4745.1
163761
Escenario 16212339 99 163761.0 1.6426·10 5
= 0.997
Residual 16261661 (I-1)(J-1)=1·99 1.6426·10 5
Total 8.119·108 199

Sabiendo que las medias de los CPU Time correspondientes al nuevo (N) método y el tradicional (T)
son respectivamente y N· = 817,58 e yT · = 4765,51, construya los intervalos de confianza para la media
de cada método e indique cuál es el mejor.

µ + αN ∈ y N· ± sR ·t(I−1)(J−1); α2 √1J → µ + αN ∈ 817,58 ± 1.6426·10 5 t99; α2 √100
1
→ µ + αN ∈ 817,58 ±
405,29·1,96

100
;
µ + αN ∈ (738,1432; 897.0168)

µ + αT ∈ y T · ± sR ·t(I−1)(J−1); α2 √1J → µ + β N ∈ (4686,1; 4844,9)

2.) Un estadístico, preocupado por el diferente resultado que le dan cuatro tipos de pilas diferentes,
decide realizar un experimento para comparar la duración por unidad de coste (DUC, medidas en minutos
por dólar) de esas pilas.
Para ello compra cuatro pilas de cada tipo (de diferentes lotes), las ordena de modo aleatorio y mide
el tiempo durante el cual suministran corriente eléctrica a un aparato. Los tipos de pila se denominan
respectivamente tipos 1, 2, 3 y 4.
A continuación se muestran la tabla ADEVA y los resultados de las comparaciones dos a dos correspon-
dientes a la estimación del modelo con un factor.
a) Interprete los resultados. (α = 0,01).
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Figura 1. Tabla ADEVA

De la Tabla ANOVA se tiene que hay diferencias significativas entre los 4 tipos de pilas.

Figura 2. Comparaciones dos a dos

Con α = 0,01 existen diferencias significativas entre A y B, entre A y C pero no existen diferencias
significativas entre A y D (sí las habría para α = 0,1).
También existen diferencias significativas entre By C y B y D, pero no entre C y D (sí las habría para
α = 0,1).
b) A la vista de los gráficos que se muestran a continuación realice la diagnosis del modelo, indicando
claramente si se cumplen las hipótesis del modelo y si se cumplen o no. Si se diera este último caso, propón
una solución posible para ello.
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Figura 3. Diagnosis del modelo.

HOMOCEDASTICIDAD: Gráfico de residuos frente a valores previstos: no se observa forma de "trompe-


ta", no hay heterocedasticidad. Además, en el gráfico de residuos frente a nivel del factor se ha de comprobar
que el cociente entre el rango de los residuos para el nivel de factor en que éste sea máximo (pilas tipo A en
este caso) y el caso en que este sea mínimo (pilas tipo D en este caso) no sea superior a 3 (aprox).
NORMALIDAD: Q-Q plot, o contraste de la Chi-cuadrado o el de Kolmogorov. Aunque el tamaño de
muestra no es grande en este caso podemos considerar aceptable lo que observamos, aunque para mayor
seguridad al respecto habría que pasar uno de los contrastes mencionados.
INDEPENDENCIA: Se ha de suponer que el experimento se ha llevado a cabo en las condiciones de
aleatorización adecuadas.
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Problema (45 minutos, 6 puntos)


Un alumno de la Universidad de Arizona ha realizado un experimento factorial para medir la resistencia
a la tracción (psi) del asfalto. Los asfaltos utilizan habitualmente dos tipos de áridos: basálticos o silíceos.
En un primer momento ha utilizado un asfalto con árido basáltico y ha considerado cuatro métodos de
compactación (estático, velocidad regular, velocidad baja y velocidad muy baja). Con cada uno de ellos ha
repetido el experimento 3 veces. En la Tabla 1 se muestran la media y la varianza (corregida) para los tres
datos de cada tratamiento:
Compactación
Estática V. reg V. baja V. muy baja
y i· 65,3 129,0 97,3 57,3
s2i 6,33 13,0 16,33 2,33

Tabla 1: Medias y varianzas corregidas de los tratamientos con árido basáltico


1. Contraste si el tipo de compactación influye significativamente en la resistencia a la tracción e indique,
en caso afirmativo, el método de compactación que proporciona una mayor resistencia a la tracción
(α = 0, 05).
2. Se ha realizado un experimento similar al anterior (cuatro métodos de compactación, tres replicaciones)
pero utilizando asfalto silíceo. En el análisis se han obtenido los siguientes resultados:
Compactación
Estática V. reg V. baja V. muy baja
y i· 67,7 111,0 60,7 41,7
s2i 8,33 21,0 4,33 4,33

Tabla 2: Medias de los tratamientos con asfalto silíceo

La tabla ADEVA para los datos correspondientes al asfalto silíceo es:

Tabla 3: Análisis de la varianza con asfalto silíceo

a) Indique qué metodos de compactación producen resistencias a la tracción significativamente distintas


en el asfalto silíceo.
b) Contraste si las varianzas experimentales de los modelos correspondientes a los asfaltos basálticos
(apartado 1) y silíceos (apartado 2) son iguales (α = 0, 05).
3. Se decide combinar la información recogida en los dos experimentos, los detallados en los apartados 1
y 2 respectivamente. Con esta información contraste si existe interacción significativa entre los factores
tipo de árido y compactación, dibuje el gráfico de la interacción e interprétela. Indique qué combinación
de factores es la más adecuada para conseguir la máxima resistencia a la tracción (α = 0, 05).
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

SOLUCIÓN PROBLEMA

1.- Se obtiene la siguiente tabla ADEVA:

S.C. G.L. Var. Contraste


VE 9668.67 3 3222,89 339,25
VNE 76 8 9,5
VT 9744,67 11

donde se han calculado


4

4 
3
s2i
(ni − 1)
 i=1
VE = (y i• − y •• )2 = 9668, 67 y s2R = = 9, 5.
n−4
i=1 j=1
Como F0 = 339, 25 > F3,8;0,05 = 4, 07 =⇒Se rechaza H0 =⇒El método de compactación influye signi-
ficativamente en la resistencia la tracción.
Para determinar qué método proporciona una mayor resistencia se realizan los contrastes múltiples:

H0 : µi = µj
.
H1 : µi = µj
   
Se rechaza H0 si y i• − yj•  > t8;α/2 × sR × 13 + 13 = 2, 30 × 3, 08 23 = 5, 78.

De los contrastes realizados se conclyuye que todas las diferencias son estadísticamente significativas, las
medias son distintas. Por tanto la mayor resistencia a la tracción se produce con velocidad.

2. De la tabla ADEVA se obtiene s2R = 9, 5 con 8 grados de libertad


H0 : µi = µj
a) Se realizan los contrastes .
H1 : µi = µj
   
Se rechaza H0 si y i• − yj•  > t8;α/2 × sR × 13 + 13 = 2, 30 × 3, 08 23 = 5, 78.
Todos los métodos de compactación son distirntos.
b) Se realiza el contraste

H0 : σ 2B = σ 2S
.
H1 : σ 2B = σ 2S

Del primer apartado se obtiene la varianza residual del experimento con árido basáltico: s2RB = 9, 5
De la tabla ADEVA del segundo apartado se obtiene la varianza residual del expeirmento con árido
silíceo: s2RS = 9, 5

8 × s2RB
Si H0 es cierta  F8,8.
8 × s2RS
8 × s2RB
Es un contraste bilateral. Como = 1 ∈ [F8,8;0,975 ; F8,8;0,025 ] = [0, 22; 4, 43] =⇒ No se puede
8 × s2RS
rechazar H0 .
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

3. Combinando ambos experimentos se obtiene un experimento con dos factores e interacción: Factor
A: tipo de árido ( 2 niveles); Factor B: tipo de compactación ( 4 niveles) y 3 replicaciones.
La tabla de medias resultante es

Compactación
Estática V. reg V. baja V. muy baja y i••
Basltico 65,3 129,0 97,3 57,3 87,3
Silíceo 67,7 111,0 60,7 41,7 70,3
y •j• 66,5 120 79 49,5 y ••• = 78, 8

2 
4 
3
Con los datos de la tabla se calcula V E(A × B) = (y ij• − y i•• − y •j• + y ••• )2 = 1145.
i=1 j=1 k=1
Con grados de libertad (I − 1) × (J − 1) = 3
La varianza residual del experimento con dos factores y replicación es:
8 × s2RB + 8 × s2RS
s2R = = 9, 5. Siendo los grados de libertad I × J × (m − 1) = 2 × 4 × (3 − 1) = 16
16
El contraste para determinar la existencia de interacción es:
V E(AB)/3
= 40, 175 > F3,16;0,05 = 3, 24. =⇒ Se rechaza H0 =⇒ La interacción es significativa.
s2R

El gráfico es

Gráfico de Interacción
141 Árido
Basáltico
121 Silíceo
Resistencia

101

81

61

41
1 2 3 4
compactacion

La mayor resistencia se produce con Árido Basáltico-Compactación 2 ( v. regular), que es significastiva-


mente distinta de Árido Silíceo-Compactación
 2 ( v. regular)
 como se comprueba al hacer el contraste:.
1 1 2
|y BR − ySR | > t16;α/2 × sR × 3 + 3 = 2, 12 × 3, 08 3 = 5, 33. =⇒ 129 − 111 > 5, 33.
> mod_simple <- lm( Precio ~ RAM)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 92.51 46.67 1.982 0.0674
RAM 98.11 41.23 2.379 0.0321
---
Residual standard error: 87.47 on 14 degrees of freedom
Multiple R-squared: 0.2879, Adjusted R-squared: 0.2371
F-statistic: 5.661 on 1 and 14 DF, p-value: 0.03211


> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G)


Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.664 47.676 1.126 0.284
RAM 72.184 10.582 6.822 2.87e-05
DiscoDuro 10.496 1.151 9.120 1.84e-06
Pantalla -3.264 5.953 -0.548 0.594
Z3G 117.888 13.609 8.663 3.04e-06
––-

Residual standard error: 22.12 on 11 degrees of freedom


Multiple R-squared: 0.9642, Adjusted R-squared: 0.951
F-statistic: 74.12 on 4 and 11 DF, p-value: 6.986e-08

> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G + X5 + X6 + X7)


(Resto de salida de R eliminada intencionadamente)
Residual standard error: 22.01 on 8 degrees of freedom
Multiple R-squared: 0.9742, Adjusted R-squared: 0.951
F-statistic: 43.23 on 7 and 8 DF, p-value: 9.798e-06

( ) ( )
√ ̂


> mod_simple <- lm( Precio ~ RAM)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 92.51 46.67 1.982 0.0674
RAM 98.11 41.23 2.379 0.0321
---
Residual standard error: 87.47 on 14 degrees of freedom
Multiple R-squared: 0.2879, Adjusted R-squared: 0.2371
F-statistic: 5.661 on 1 and 14 DF, p-value: 0.03211


̂

> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G)


Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.664 47.676 1.126 0.284
RAM 72.184 10.582 6.822 2.87e-05
DiscoDuro 10.496 1.151 9.120 1.84e-06
Pantalla -3.264 5.953 -0.548 0.594
Z3G 117.888 13.609 8.663 3.04e-06
––-

Residual standard error: 22.12 on 11 degrees of freedom


Multiple R-squared: 0.9642, Adjusted R-squared: 0.951
F-statistic: 74.12 on 4 and 11 DF, p-value: 6.986e-08

( ) ̂ ̂( ̂ )
> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G + X5 + X6 + X7)
(Resto de salida de R eliminada intencionadamente)
Residual standard error: 22.01 on 8 degrees of freedom
Multiple R-squared: 0.9742, Adjusted R-squared: 0.951
F-statistic: 43.23 on 7 and 8 DF, p-value: 9.798e-06

( ) ( )
√ ̂

̂ ( )

( ̅) ( )
( ) ( )

̂ ̂ √

̂ ( )

( ̅) ( )
( ) ( )

̂ ̂ √


Segundo Examen Parcial - Diseño y Regresión 20 de mayo 2013

Problema
(45 minutos, 6 puntos)

En el departamento de I + D + i de una empresa se está investigando la influencia de dos variables


cuantitativas (X1 , X2 ) sobre la resistencia de un material (Y ). Se han realizado 30 ensayos en un laboratorio.
Los resultados se resumen como sigue:

[ ]
−1 = 0,8664 −0,0146
Sxx ; Sxy = [3,48 9,5973]T ; sbR = 2,32 ; sby = 10,83
−0,0146 1,1160

1. Estimar el modelo (en desviaciones a la media) y realizar los contrastes individuales (excluyendo el
del término independiente) y el contraste conjunto. Interpretar los resultados.

2. Con las mismas variables cuantitativas del apartado anterior, se han añadido 60 ensayos de otros dos
laboratorios (30 de cada laboratorio), de forma que resultan en total 90 datos. Se añade al modelo la
variable cualitativa correspondiente. Los resultados son los siguientes:

ybi = 1, 18 + 2, 49x1i + 10, 83x2i + 2, 11z2i − 1, 01z3i

 
0,0340 −0,0012 −0,0026 −0,0345 −0,0339
 −0,0012 0,0103 0,0002 0,0029 0,0010 
 
(X ′ X)−1 =
 −0,0026 0,0002 0,0129 0,0042 0,0024 
 ; sbR = 2, 46 ; sby = 10, 77;
 −0,0345 0,0029 0,0042 0,0688 0,0344 
−0,0339 0,0010 0,0024 0,0344 0,0672

Interpretar los coeficientes de regresión. Realizar los contrastes individuales y el contraste conjunto e
interpretar los resultados, comparándolos con los del apartado 1.

3. ¿Es significativa la diferencia entre el promedio de la respuesta para los laboratorios 2 y 3?

Nota: Utilizar α = 0, 05 en todos los contrastes.


Segundo Examen Parcial - Diseño y Regresión 20 de mayo 2013

SOLUCIÓN

Nota: Cada uno de los tres apartados puntúa lo mismo, es decir 2 puntos sobre los 6 puntos del Problema.

Apartado 1)
b = S −1 Sxy = [2,8801 10,6597]
β xx
b = 2, 88 = estimación del incremento promedio de la resistencia cuando X1 se incrementa en una
β 1
unidad, y X2 no varı́a.
b = 10, 65 = estimación del incremento promedio de la resistencia cuando X2 se incrementa en una
β 2
unidad, y X1 no varı́a.
Contraste conjunto:
V N E = (30 − 2 − 1) × 2,322 = 145, 32
V E = 29 × 10, 832 − 145, 32 = 3256, 1
F = (3256, 1/2)/2,322 = 302, 47 > F2,27 (0, 95) = 3, 35
La información conjunta (sin desagregar en la contribución de cada uno) proporcionada por (X1 , X2 )
es relevante para explicar/predecir la resistencia Y
Contrastes individuales:

t1 = 3,486/(2, 32 0, 8664/30) = 7, 3 > t27 (0, 975) = 2, 05
La información que proporciona X1 adicional a la proporcionada por X2 es relevante para expli-
car/predecir la resistencia Y

t2 = 9, 59/(2, 32 1, 11/30) = 23,82 > t27 (0, 975) = 2, 05
La información que proporciona X2 adicional a la proporcionada por X1 es relevante para expli-
car/predecir la resistencia Y

Apartado 2)
b = 2, 49 = estimación del incremento promedio de la resistencia cuando X1 se incrementa en una
β 1
unidad, y el resto de los factores no varı́a.
b = 10, 83 = estimación del incremento promedio de la resistencia cuando X2 se incrementa en una
β 2
unidad, y el resto de los factores no varı́a.
b 1 = 2, 11 = estimación de la diferencia entre la ordenada en el origen del segundo laboratorio y la del
α
primero.
b 2 = −1, 01 = estimación de la diferencia entre la ordenada en el origen del tercer laboratorio y la del
α
primero.
Contraste conjunto:
V N E = (90 − 4 − 1) × 2,462 = 514, 38
V E = 89 × 10, 772 − 514, 38 = 9809
F = (9809/4)/2,462 = 405, 22F4,85 (0, 95) = 2, 48
Contrastes individuales:

t1 = 2,49/(2, 46 0, 0103 = 9, 99 > t85 (0, 975) = 1, 99
La información que proporciona X1 adicional a la proporcionada por X2 , Z2 , Z3 es relevante para
explicar/predecir la resistencia Y
Segundo Examen Parcial - Diseño y Regresión 20 de mayo 2013


t2 = 10, 83/(2, 46 0, 0129 = 38, 78 > t85 (0, 975) = 1, 99
La información que proporciona X2 adicional a la proporcionada por X1 , Z2 , Z3 es relevante para
explicar/predecir la resistencia Y

t3 = 2,11/(2, 46 0, 0688 = 3, 28 > t85 (0, 975) = 1, 99
La ordenada en el origen para el laboratorio dos es significativamente distinta de la del laboratorio uno

t4 = −1, 01/(2, 46 0, 0672 = −1, 58 < t85 (0, 975) = 1, 99
La ordenada en el origen para el laboratorio tres no es significativamente distinta de la del laboratorio
uno.

Comparando con los resultados del apartado uno, se observa que los coeficientes de X1 , X2 son similares
ası́ como los valores de la varianza residual sb2R , lo cual indica que tanto los efectos de los factores X1 , X2
sobre la respuesta Y como la varianza del error experimental u (medida de la incertidumbre de la Y dadas
X1 , X2 ) son similares en los tres laboratorios.

Apartado 3)
H0 : α 2 = α 3
H1 : α2 ̸= α3
α2 − α
var(b b 3 ) = α2 (0, 0688 + 0, 0672 − 2 × 0, 0344)
b 2 −b √
α α3
t = sb √0,0688+0,0672−2×0,0344 = (2, 11−)−1, 01))/2, 46 0, 0688 + 0, 0672 − 2 × 0, 0344 = ,4, 9 > t85 (0, 975) =
R
1, 99; se rechaza H0 ; por tanto, la diferencia entre las estimaciones de las ordenadas en el origen de los la-
boratorios dos y tres es estadı́sticamente significativa.
Examen Final - Diseño y Regresión 31 de mayo 2013

REGRESIÓN - Cuestiones (30 minutos, 4 puntos)


1. En 1980 se realizó un estudio en EEUU para determinar si fumar reduce la capacidad
pulmonar de los jovenes. Los participantes (654 en total) fueron chicos y chicas entre
9 y 19 años, la mayorı́a de los cuales (589) eran no fumadores. La capacidad pulmonar
utilizada es el volumen en litros expulsado por un individuo durante el primer segundo
en una expiración forzada y se denomina FVE (forced expiratory volume). Se incluye
el modelo de regresión entre la variable FVE (en logaritmos) y los regresores edad,
estatura, sexo (0 mujer, 1 hombre) y fuma (0 No, 1 Sı́).

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.943998 0.078639 -24.721 < 2e-16
edad 0.023387 0.003348 6.984 7.1e-12
altura 0.042796 0.001679 25.489 < 2e-16
sexo 0.029319 0.011719 2.502 0.0126
fuma -0.046068 0.020910 -2.203 0.0279
---
Residual standard error: 0.1455 on 649 degrees of freedom
Multiple R-squared: 0.8106, Adjusted R-squared: 0.8095
F-statistic: 694.6 on 4 and 649 DF, p-value: < 2.2e-16

La matriz de varianzas de los estimadores es la siguiente

[,1] [,2] [,3] [,4] [,5]


[1,] 6.18e-03 1.55e-04 -1.27e-04 1.39e-04 4.22e-05
[2,] 1.55e-04 1.12e-05 -4.36e-06 5.04e-06 -2.08e-05
[3,] -1.27e-04 -4.36e-06 2.82e-06 -4.28e-06 1.81e-06
[4,] 1.39e-04 5.04e-06 -4.28e-06 1.37e-04 2.01e-05
[5,] 4.22e-05 -2.08e-05 1.81e-06 2.01e-05 4.37e-04

¿Cómo influye el hábito de fumar en la capacidad pulmonar? ¿Cómo influye la estatura?


¿Quién tiene mayor capacidad pulmonar, los hombres o las mujeres?
Sabiendo que la estimación de la media es m̂h = xTh β̂, calcule var(m̂h ) y, a partir de
este resultado, obtenga un intervalo de confianza (95 %) para la capacidad pulmonar
(en logaritmos) de una mujer de 18 años que no fuma y mide 170 cm.
2 Se ha estimado con n = 20 observaciones la ecuación de regresión
ŷi = 1,4205 + 0,1422x1 + 0,2908x2
siendo la matriz de varianzas de los regresores SXX , las covarianzas entre cada regresor
y la variable dependiente SXY , y la varianza de la variable dependiente s2Y los siguientes:
( ) ( )
9,57 −0,423 1 T 1,239
SXX = , SXY = X̃ Ỹ = , s2Y = 0,2667
−0,423 0,293 n 0,0251
Realiza el contraste general de regresión con α = 0,05 y calcula el coeficiente de deter-
minación.
Examen Final - Diseño y Regresión 31 de mayo 2013

REGRESIÓN - Problema
(45 minutos, 6 puntos)

El examen de ingreso en un colegio consistió en tres pruebas: matemáticas, inglés y


cultura general. Para ensayar la capacidad del examen para predecir el papel de los alumnos
en un curso de estadı́stica, los datos de una muestra de 200 estudiantes fueron reunidos y
analizados. Se definen las variables, siendo:
Y : Puntuación en el curso de estadı́stica
X1 : Puntuación en la prueba de matemáticas
X2 : Puntuación en la prueba de inglés
X3 : Puntuación en la prueba de cultura general
se obtuvieron los siguientes resultados:
ȳ = 75; sy = 10; x̄1 = 24; sx1 = 5; x̄2 = 15; sx2 = 3; x̄3 = 36; sx3 = 4;
ry,x1 = 0,9; ry,x2 = 0,75; ry,x3 = 0,8; rx1,x2 = 0,7; rx1,x3 = 0,7; rx2,x3 = 0,85;

1. Estime el modelo de regresión simple entre el conocimiento de estadı́stica y el de inglés.


¿Es significativo dicho conocimiento?

2. Obtenga el modelo de regresión entre la puntación en el curso de estadı́stica y las demás


puntuaciones. Interprete la relación entre el conocimiento de matemáticas, inglés y
cultura general y el conocimiento de estadı́stica a partir del modelo estimado. Justifique
la respuesta.
Nota: utilice la matriz
 
0,0851 −0,0536 −0,0402
−1
Sxx =  −0,0536 0,4342 −0,2299 
−0,0402 −0,2299 0,2443

3. ¿Son significativos el conocimiento de matemáticas, inglés y cultura general en el de


estadı́stica?
Explique las similitudes o discrepancias entre el modelo de regresión múltiple (apartado
2) y el modelo de regresión simple (apartado 1).
Nota: utilice α = 0,05.
Examen Final - Diseño y Regresión 31 de mayo 2013

DISEÑO DE EXPERIMENTOS - Cuestiones


(30 minutos, 4 puntos)

1) La Fundación José Antonio Artigas y Sanz va a conceder una beca de estudios en


la Universidad de Columbia para realizar un Master. A ella optan en su fase final 10
alumnos. Para ello se les evalúa en cinco materias diferentes, por lo que la nota máxima
que pueden obtener es de 50 puntos. Para que el proceso sea lo más transparente y
justo posible, dos profesores evalúan dichos exámenes. A continuación se muestran los
resultados de las correcciones de los dos profesores para cada alumno.

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 Medias
Profesor 1 44 47 33 38 50 41 39 42 45 22 42.3
Profesor 2 43 46 33 37 50 42 39 42 44 44 42
Medias 43.5 46.5 33 37.5 50 41.5 39 42 44.5 44

El tribunal organizador ha dispuesto de un tercer profesor para el caso en que existan


discrepancias significativas. ¿Tiene que actuar el tercer profesor? Justifique la respuesta.

2) Para un modelo de análisis de la varianza con un factor en el que se tienen dos


tratamientos (I = 2), demuestre que el contraste de la F para la hipótesis nula
H0 : µ1 = µ2 = µ frente a la alternativa (alguna es distinta), es equivalente a rea-
lizar el contraste de la t.
Examen Final - Diseño y Regresión 31 de mayo 2013

DISEÑO DE EXPERIMENTOS - Problema


(45 minutos, 6 puntos)
En un experimento con cobayas se ha estudiado el efecto en el crecimiento de los dientes
de añadir un suplemento de vitamina C en la alimentación de los animales. Se emplearon dos
tipos de suplementos: Zumo de Naranja (ZN) y Ácido Ascórbico (AA) y tres dosis diferentes
(0.5, 1.0 y 2.0 miligrámos). A cada combinación de los dos factores se asignaron 10 cobayas.
La variable respuesta es la longitud media de los dientes de la cobaya. Los resultados del
experimento se analizaron como un modelo de dos factores con interacción. La tabla de
análisis de la varianza es:
Response: LONG
Df Sum Sq Mean Sq F value Pr(>F)
VITAMIN 1 205.35 205.35 15.572 0.0002312 ***
DOSIS 2 2426.43 1213.22 92.000 < 2.2e-16 ***
VITAMIN:DOSIS 2 108.32 54.16 4.107 0.0218603 *
Residuals 54 712.11 13.19
la tabla de medias
0.5 1.0 2.0
OJ 13.23 22.70 26.06
VC 7.98 16.77 26.14
y la de desviaciones tı́picas
0.5 1.0 2.0
ZN 4.46 3.91 2.66
AA 2.75 2.52 4.80
1. El modelo de diseño de dos factores con interacción es
yijk = µ + αi + β j + (αβ)ij + uijk
con uijk variables aleatorias con distribución normal de media cero y varianza σ 2 , αi
mide el efecto del tipo de suplemento, β j el efecto de la dosis y (αβ)ij la interacción.
Con la información disponible estima cada uno de los parámetros del modelo. Interpreta
los resultados del análisis estadı́stico.
2. ¿Existen diferencias significativas entre las longitudes medias de los dientes de las co-
bayas que han sido alimentadas con un suplemento de 2 mg de ZN y las que han
sido alimentadas con 2 mg de AA? Justifica la respuesta utilizando un contraste de
hipótesis. Repite el contraste y contesta a las siguientes preguntas: ¿Existen diferencias
significativas entre las longitudes medias de los dientes de las cobayas que han sido
alimentadas con un suplemento de 1 mg de ZN y las que han sido alimentadas con 1
mg de AA? ¿Existen diferencias significativas entre las longitudes medias de los dientes
de las cobayas que han sido alimentadas con un suplemento de 0.5 mg de ZN y las que
han sido alimentadas con 0.5 mg de AA?
Haz la representación gráfica que consideres adecuada para explicar este efecto.
3. Contrasta si la varianza del error experimental de los datos correspondientes a nivel
ZN es distinta que los AA con α = 0,05.
DISEÑO DE EXPERIMENTOS: 31 de mayo de 2013

SOLUCIÓN CUESTIONES:
Cuestión 1:

Es un modelo en bloques aleatorizados donde el factor es el profesor y la


varaible bloque los alumnos.
La descomposición de la variabilidad es:
V T = V E(P rof.) + V E(Al.) + V N E

Donde:
2 
 10
V E(P rof.) = (y i• − y •• )2 = 0.45. =⇒ g.l. = I − 1 = 1.
i=1 j=1

2 
10 
2 
10
V NE = e2ij = (yij − yi• − y •j + y•• )2 = 2, 05. =⇒
i=1 j=1 i=1 j=1
g.l. = (I − 1)(J − 1) = 9.
El contraste es:

H0 : α1 = α2
.
H1 : α1 = α2
V E(P rof.)/1
Si H0 es cierta =⇒ F0 = = 1, 98 < F1,9;0,05 = 5, 12 =⇒ No se
V NE/9
rechaza H0 =⇒No hay diferencias significativas entre los profesores.

Cuestión 2:

En el caso de un factor con dos tratamientos siendo n1 = n2 = m,


VE
el contraste de la F es: F = 12 , donde
sR
2  m
VE = (y i• − y•• )2 = m[(y 1• − y •• )2 + (y2• − y •• )2 ] =
i=1 j=1 2  2 
y1• + y 2• y 1• + y 2•
=m y 1• − ( ) + y 2• − ( ) ,
2 2
siendo
y1• + y 2•
y •• = .
2
Operando:
 2  2 
2y1• − y 1• − y 2• 2y2• − y 1• − y2•
VE =m + =
2 2

1
 2  2 
y 1• − y 2• y 2• − y1• m
=m + = (y − y 2• )2 .
2 2 2 1•

Por lo que el constraste de F quedaría


m  2
(y1• − y 2• )2 . y − y
F0 = 2 =  1•
2•  → F1,2m−2 .
s2R s 2
R m

El contraste de la t es:
y 1• − y2•
t0 =
→ t2m−2
2
sR m

Por lo que (t0 )2 = F0


Considerando las variables, se verifica siempre que (tg )2 = F1,g .
Por lo tanto ambos contrastes son equivalentes.

2
SOLUCIÓN AL PROBLEMA
1. Llamando y i•• , y •j• , y ij• y y •••, a las medias de filas, columnas, tratamien-
tos y media general se tiene que

 = y ••• ,
µ
 i = y i•• − y ••• ,
α

β j = y •j• − y ••• ,


αβ = y ij• − yi•• − y•j• + y•••
ij

la media general es 18.81 y el valor de las estimaciones de los parámetros


restantes se muestran la figura siguiente:

Como los tres efectos son significativos ( para nivel de significación 0.05),
el efecto del suplemento en la longitud de los dientes, depende de la dosis. Al
aumentar la dosis aumenta la longitud. A dosis bajas (0.5 y 1.0), se consigue
mayor longitud con ZN. A dosis altas (2.0) las medias de los dos suplementos
son similares.
2. Llamando µ13 y µ23 a los parámetros que nos dan la longitud media de
los dientes de la cobaya alimentada con ZN con 2 mg y la alimentada con AA
con 2 mg, se pide hacer el contraste

H0 : µ13 = µ23
H1 : µ13 = µ23

2
Llamando LSD = tα/2,54 × sR × 10 = 3.25,

|y 13• − y 23• | = |26.06 − 26.14| < LSD

no existen diferencias significativas en las longitudes medias de los dientes de


las cobayas con 2 mg de ZN y las alimentadas con 2 mg de AA.

3
30,00

25,00

20,00

15,00 ZN
AA
10,00

5,00

0,00
0,5 1 2

Figure 1:

Se repite el contaste para los otros valores de la dosis

H0 : µ12 = µ22
H1 : µ12 = µ22

|y 12• − y 22• | = |22.70 − 16.77| > LSD


sí existen diferencias significativas en las longitudes medias de los dientes de las
cobayas con 1 mg de ZN y las alimentadas con 1 mg de AA.

H0 : µ11 = µ21
H1 : µ11 = µ21

|y11• − y 21• | = |13.23 − 7.98| > LSD


sí existen diferencias significativas en las longitudes medias de los dientes de las
cobayas con 0.5 mg de ZN y las alimentadas con 0.5 mg de AA.
La representación gráfica es el gráfico de interacción que se ha obtenido en
el apartado 1.
3. Llamando s2R,ZN y s2R,AA a las varianzas residuales correspondientes a los
tratamientos ZN y AA, se tiene que

4.462 + 3.912 + 2.662


s2R,ZN = = 14.085
3
2.752 + 2.522 + 4.802
s2R,AA = = 12.318
3
y su cocientes
14.085
F = = 1.14
12.318

4
está dentro de la región de aceptación obtenida con una F27,27 para nivel de
significación 0.05, por lo que se acepta que las dos varianzas experimentales
pueden ser iguales.

5
Solución cuestiones

1) Todos los contrastes individuales resultan significativos con α = 0, 05.


El promedio de capacidad pulmonar de los fumadores es, a igualdad del
resto de los factores, 0,046 unidades menor (porcentualmente) que el de los no
fumadores.
Si la estatura se incrementa en una unidad, el promedio de la capacidad
pulmonar se incrementa (porcentualmente) 0,042 unidades. Este incremento es
el mismo para hombres, mujeres, fumadores y no fumadores.
El promedio de capacidad pulmonar de los hombres es, a igualdad del resto
de los factores, 0,0293 unidades mayor (porcentualmente) que el de las mujeres.
b h = sb2 ν hh
b h ) = xTh var(β)x
var(m R
T
[ ]
xh = 1 18 170 0 0
 
−1, 94
 0, 023 
[ ] 
bh =
Predicción puntual m b
xTh β = 1 18 170 0 0  0, 042  =
 
 0, 029 
−0, 046
5, 65;

Intervalo para nueva observación:


√ √ √
mb h ±t649 sbR 1 + ν hh = m
b h ±t649 sb2R + sb2R ν hh = 5, 65±1, 96 0, 0212 + 0, 027 =
(5, 30; 6, 16)
[ ]
[ ] 1, 239
2) V E = nβS b xy = 20 0, 1422 0, 2908 = 3, 67
0, 0251
V N E = V T − V E = 20s2y − V E = 1, 664;
sb2R = V N E/(20 − 1 − 2) = 0, 098
s2R = 18, 74 > F2,17 = 3, 59; se rechaza H0
F = (V E/2)/b
R2 = V E/V T = 0, 688

1
REGRESIÓN - Problema 31 de mayo de 2013
SOLUCIÓN
(45 minutos, 6 puntos)

1. Estime el modelo de regresión simple entre el conocimiento de estadı́stica


y el de inglés. ¿Es significativo dicho conocimiento?
El modelo que se pide es un modelo de regresión simple de la forma:

d=β
CE b βb
0+ I CI

donde:
b = Cov(CE, CI) = rY X2 sY sX2 = 0.75 10 = 2.5
β I
s2CI s2X2 3

y
b = ȳ − β
β b x̄2 = 75 − 2.5x15 = 37.5.
0 I
Para concluir si el conocimiento de inglés es significativo en el conocimiento
de estadı́stica, contrastamos las hipótesis siguientes:
H0 : β I = 0
H1 : β I ̸= 0
Ası́:

b −0
β I
tI = ,
sbR

sX2 n

en donde la desviación tı́pica residual para el modelo de regresión simple


es desconocida, y se obtiene a partir de la Variabilidad no explicada como:
b 2 ns2 = 200x100 − 2.52 x200x9 = 8750
V N E = V T − V E = ns2y − β I x2
V NE 8750
sb2R = = = 44.19; sbR = 6.648.
n−2 198
Por lo tanto:

2.5
tI = = 15.95,
6.648

3 200
Se compara el valor obtenido con el valor de las tablas (t198;α/2 = 1.96),
como 15.95>1.96, se rechaza la H0 y se concluye que el conocimiento de
inglés es significativo.

1
2. Obtenga el modelo de regresión entre la puntación en el curso de es-
tadı́stica y las demás puntuaciones. Interprete la relación entre el conocimiento
de matemáticas, ingles y cultura general y el conocimiento de estadı́stica
a partir del modelo estimado.
Solución
El modelo que se pide es un modelo de regresión múltiple de la forma:

b x
yb = β b e2 + β
b x
1 e1 + β 2 x 3 e3

   
βb 1.34
1
bb = 
βb  −1  0 
2  = SXX SXY =
b
β3 0.84

donde:
       
Cov(y, x1 ) rY X1 sY sX1 0.8x5x10 45
SXY = Cov(y, x2 ) = rY X2 sY sX2  = 0.75x3x10 = 22.5 .
Cov(y, x3) rY X3 sY sX3 0.8x4x10 32
Interpretación:
b = 1.34, Si la puntuación de matemáticas aumenta un punto, la pun-
β 1
tuaciçon de estadı́stica aumenta por término 1.34 puntos manteniendo el
resto constante.
b = 0, Si la puntuación de inglés aumenta un punto, la puntuaciçon de
β 2
estadı́stica no aumenta ningún puntopor término medio manteniendo el
resto constante.
b = 0.84, Si la puntuación de cultura general aumenta un punto, la
β 3
puntuaciçon de estadı́stica aumenta por término 0.84 puntos manteniendo
el resto constante.
3. ¿Son significativos el conocimiento de matemáticas, inglés y cultura gen-
eral en el de estadı́stica? Explique las similitudes o discrepancias entre
este modelo y el modelo de regresión múltiple.
H0 : β i = 0
H1 : β i ̸= 0
sı́:

b −0
β i
ti = √ ,
sbR qii
−1
en donde qii son los elementos de la diagonal principal de la matriz Sxx ,
y sbR la desviación tı́pica residual para el modelo de regresión múltiple,
que es desconocida, y se obtiene a partir de la Variabilidad no explicada
como:

2
 
45
V N E = V T −V E = ns2y −nbbT sXY = 200x100−200x(1.34 0 0.84) 22.5 =
32
2613.5
V NE 2613.5
sb2R = = = 13.33; sbR = 3.65.Ası́:
n−k−1 196
t1 = 17.8; t2 = 0 y t3 = 6.6. Estos valores se comparan (en valor absoluto)
con t196,α/2 = 1.96.
Resultan significativos el conocimiento de matemáticas y el conocimiento
de cultura general

3
√ ̅ ̂

̂ ̂ ̂

̂
*( )+
̂
Df Sum Sq Mean Sq F value Pr(>F)
pres 1 4 4 2.028e+31 <2e-16 ***
temp 1 4 4 2.028e+31 <2e-16 ***
Residuals 1 0 0
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

̅
̅

( ̅) ( )
( ) ( )

̂ ̂ √


Examen Final, Diseño y Regresión, GITI y GIQ 28 de junio de 2013

Problema (45 minutos, 5 puntos)

El grupo FIAT ha decidido promocionar el relanzamiento de uno de sus modelos de coche más emblemáti-
cos organizando un evento en el que sus dos pilotos del equipo Ferrari de Fórmula 1, Fernando Alonso y
Felipe Massa, van a hacer pruebas en las que el objetivo es analizar la variable ’consumo (en litros/100 km)’,
para 3 estilos de conducción diferentes: Suave, Normal y Agresiva. Cada piloto ha realizado la prueba con
cada estilo de conducción 2 veces, con lo que el número total de datos es 12. Los datos obtenidos se muestran
a continuación:
Consumo Estilo Conducción Piloto
8.561 Agresiva Alonso
12.751 Agresiva Alonso
14.057 Agresiva Massa
13.159 Agresiva Massa
9.731 Normal Alonso
10.343 Normal Alonso
7.997 Normal Massa
7.385 Normal Massa
8.347 Suave Alonso
8.562 Suave Alonso
9.857 Suave Massa
8.140 Suave Massa

Figura 1:

1. Indica qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así como
la ecuación de dicho modelo y las hipótesis que se asumen. Realiza la tabla ADEVA y extrae las
conclusiones que consideres relevantes (Nivel de significación: 0.1).

2. Construye el gráfico de interacción (incluyendo intervalos, con nivel de significación: 0.1) e indica
cuándo se produce el menor y mayor consumo, así como si es significativamente mayor o menor,
respectivamente que los demás.

3. A la vista de los gráfico de residuos de la Figura 2 indica si la diagnosis del modelo es correcta. En
caso negativo propón posibles soluciones. Construye además un intervalo para la varianza del error.

4. Por último, y para promocionar las buenas características medioambientales del coche que relanza
FIAT, se han realizado mediciones también de las emisiones de CO2. Propón un modelo de regresión
que pudiera tener en cuenta para explicar las emisiones de CO2, tanto el consumo como la influencia
del piloto y de su estilo de conducción.
Examen Final, Diseño y Regresión, GITI y GIQ 28 de junio de 2013

Residuals vs Fitted Normal Q−Q

2 2
2

2
Standardized residuals
1

1
Residuals

0
−1

12
12
−1
−2

−2

1
1

8 9 10 11 12 13 −1.5 −0.5 0.0 0.5 1.0 1.5

Fitted values Theoretical Quantiles

Constant Leverage:
Scale−Location Residuals vs Factor Levels
1.5

2
1
2
2
Standardized residuals

Standardized residuals
1.0

12
0
0.5

−1

12
−2

1
0.0

Estilo :
8 9 10 11 12 13 Suave Normal Agresiva

Fitted values Factor Level Combinations

Figura 2: Diagnosis del modelo


Cuestiones (30 minutos, 4 puntos)
1.) Se ha realizado un experimento para estudiar la dificultad de dos tests de nivel de

inglés. Diez estudiantes han realizado las dos pruebas. Los resultados se presentan en la
tabla adjunta.

Se pide:
● Indicar de qué modelo se trata así como la ecuación del mismo y las hipótesis que se
asumen.
Es un modelo en bloques: Bloque: "Estudiante", Factor: "TEST". La ecuación del modelo
es:
y ij = μ + α i + β j + u ij , u ij → NIID0, σ 2 . Se asumen las hipótesis de homocedasticidad,
normalidad e independencia.
● Interpretar el resultado.
Tanto el factor "TEST" (que tiene I = 2 niveles) como el bloque "Estudiante" (con J = 10
niveles) resultan significativos (tanto para nivel de significación 0. 05 como para 0. 1), pues
los p-valores que se aparecen en la tabla ADEVA son respectivamente 0.02746 y 8.267·10 −8 ,
ambos menores que 0.05 y también que 0.1.
● Construir la tabla ADEVA si sólo se hubiera tenido en cuenta el factor "TEST" e
indica las consecuencias que esto habría tenido.
Fuente Var. Sum. sq. G.l. Var F-stat
2
TEST 1.404 1 s TEST = 1.404 1.404/9.6152 = 0.1460
2
Residual 171.243+1.83 = 173.073 18 s R = 173.073/18 = 9.6152
Total 1.404+171.243+1.83 = 174.477 20-1=19
Al comparar 0.1460 con la F 1,18;0.05 = 4. 41, al ser 0.1460<4.41 no se rechaza la hipótesis
nula, con lo que se obtendría (erróneamente al no incorporar el bloque) que no hay diferencias
significativas entre los dos tests de inglés. Eso es debido a que se incrementa la residual al haber
incorporado en ésta la variabilidad que en realidad es debida al bloque.

2.) Para un modelo de bloques aleatorizados con 2 niveles para el factor y 2 para el
bloque se tiene que:
y ·· = 4.55; y 1· = 2.75; y ·2 = 3.75.
 
Un alumno ha obtenido que α 2 = 2 y β 1 = 0.8. ¿Son válidos estos valores para ese
modelo? Justifica tu respuesta.
Nota: y ij es la observación para factor a nivel i-ésimo y bloque a nivel j-ésimo. α i es el
efecto principal asociado al factor, y β j el del bloque.
Modelo en bloques: y ij = μ + α i + β j + u ij , u ij → NIID0, σ 2 
 
La estimación de los α i → α 1 = y 1· − y ·· = 2. 75 − 4. 55 = −1. 8. Entonces, α 2 no puede valer
2 como se indica en el enunciado, sino que debería ser 1.8. 

La estimación de los β j → α 2 = y ·2 − y ·· = 3. 75 − 4. 55 = −0. 8. Entonces, β 1 sí es correcto
el valor del enunciado.
Evaluación Continua 2 Diseño de Experimentos y Regresión 19 de mayo de 2014

Cuestiones (30 minutos, 4 puntos)

1. En un análisis de regresión simple utilizando el modelo yi = β0 + β1 xi + ui ,


ui N (0, σ 2 ), se ha obtenido la siguiente salida con R:

Call:
lm(formula = y ~ x)

Residuals:
Min 1Q Median 3Q Max
-293.717 -40.719 -0.008 51.541 204.689

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 39.792 48.768 ______ 0.425
x 63.362 9.214 ______ 1.97e-06 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 127.2 on 18 degrees of freedom


Multiple R-squared: 0.7243,Adjusted R-squared: 0.709
F-statistic: _______ on 1 and 18 DF, p-value: 1.969e-06

Complete los huecos de la salida de R (donde pone “t value” y “F-statistic”). Obtenga el intervalo de
confianza al 95 % para β0 y β1 . Indique si son significativos teniendo en cuenta los intervalos obtenidos
y teniendo en cuenta la salida de R.

2. La ley de Hooke, que gobierna el comportamiento elástico de un material por debajo del lı́mite elástico
afirma que la relación entre los esfuerzos aplicados (ϑ) y las deformaciones unitarias (ε), es lineal y
se puede aproximar por el modelo:

ϑi = Ψεi + ui , ui N (0, σ),

donde Ψ, la constante de proporcionalidad, se denomina módulo de Young (P a), y es caracterı́stico


de cada material. En la práctica, el módulo de Young se determina mediante un ensayo de tracción,
sometiendo al material a diferentes deformaciones, midiendo esfuerzos y ajustando una recta por
mı́nimos cuadrados que pasa por el origen. La pendiente de la recta es una estimación del módulo de
Young.
Se han realizado 10 experimentos sobre una barra de bronce y se ha estimado la ecuación:

b i = 9, 6 · 1010 εi .
ϑbi = Ψε

Obtenga la expresión teórica para Ψ b mediante el método de mı́nimos cuadrados. Calcule un intervalo
de confianza al 99 % para el módulo de Young sabiendo que la desviación tı́pica estimada de dicho
estimador es 0, 2 · 1010 P a. El valor que aparece reflejado en la literatura para el módulo de Young es
del bronce es 10, 8 · 1010 Pa, ¿es compatible este valor con el obtenido en el experimento?
Evaluación Continua 2 Diseño de Experimentos y Regresión 19 de mayo de 2014

Problema (45 minutos, 6 puntos)

Un grupo de estudiantes ha recogido datos correspondientes a 60 empresas para determinar si existe


relación lineal entre los beneficios de una empresa (y) y el número de empleados (x1 ) de dicha empresa,
ambas variables en unidades codificadas. El primer modelo estimado ha sido:

ybi = 4, 7 + 3,393x1i , con R2 = 0,1021.

1. Contraste si el número de empleados tiene efecto significativo en los beneficios de una empresa (α =
0, 01).

2. Se estima un segundo modelo que incluye adicionalmente el regresor ventas (x2 ) y tiene en cuenta que
la mitad de las empresas pertenecen al sector energético y la otra mitad al sector de las telecomunica-
ciones. Para ello se introduce una variable cualitativa Z que toma el valor 1 si la empresa es del sector
energético y 0 si no lo es. El modelo estimado es:

ybi = 1,266 + 2,094x1i + 9,923x2i + 6,833Zi , con sb2R = 1, 1 y V T = 7133, 33.

Realice los contrastes individuales y general de regresión sabiendo que:


 
0,0335 0,0018 −0,0008 −0,0332
 0,0018 0,0161 −0,0025 0,0013 
(X T X)−1 =  −0,0008 −0,0025 0,0169
.
0,0014 
−0,0332 0,0013 0,0014 0,0669

Interprete los resultados explicando el significado de cada parámetro y compare con los resultados del
apartado anterior. (Nota: En todos los contrastes utilice α = 0, 01).

3. Calcule un intervalo de confianza (95 %) para el valor medio de los beneficios de una empresa del
sector de las telecomunicaciones con x1 = 0, 6 y x2 = 1,8 y para una empresa del sector energético con
las mismas caracterı́sticas ¿Cuál es la diferencia entre los beneficios medios de ambas empresas? ¿Es
significativa esta diferencia?.
Evaluación Continua 2 Diseño de Experimentos y Regresión 19 de mayo de 2014

Solución cuestiones

Cuestion 1
β̂0 39,792
t value (Intercept): t0 = = 48,768 = 0,8159
Ŝ(β̂0 )
β̂1 63,362
t value x: t1 = = 9,214 = 6,8767
Ŝ(β̂1 )
(n−2)R2 18∗0,7243
F-statistic: F0 = 1−R2
= 1−0,7243 = 47,2884

β0 ∈ β̂0 ± tn−2;α/2 ∗ Ŝ(β̂0 ) = 39,792 ± 2,1009 ∗ 48,768 = (−62,6647, 142,2487)

β1 ∈ β̂1 ± tn−2;α/2 ∗ Ŝ(β̂1 ) = 63,362 ± 2,1009 ∗ 9,214 = (44,0043, 82,7197)

β0 no es significativo porque el intervalo de confianza contiene al cero; según la salida de R, p-valor =


0,425 > α/2 ⇒ no significativo.
β1 es significativo porque el intervalo de confianza no contiene al cero; según la salida de R, p-valor =
1,97e − 06 < α/2 ⇒ significativo.

Cuestion 2

ϑi = Ψεi + ui , ui N (0, σ 2 )
Definimos
n
X
M (Ψ) = (ϑi − Ψεi )2
i=0

Por tanto
n
P
n ϑi εi
∂M (Ψ) X i=0
=2 (ϑi − Ψεi )(−εi ) = 0 ⇒ Ψ̂ = n
∂Ψ
ε2i
P
i=0
i=0

Es importante notar que la ecuación anterior se puede escribir


n
X n
X
(ϑi − Ψ̂εi )(−εi ) = 0 ⇒ ûi εi = 0
i=0 i=0

Luego solo hay una ecuación que relaciona los residuos entre sı́, luego hay n-1 residuos independientes

β1 ∈ β̂1 ± tn−1;α/2 ∗ Ŝ(β̂1 ) = 9,6 · 1010 ± 3,2498 ∗ 0,2 · 1010 = (8,95 · 1010 , 10,25 · 1010 ) P a

El valor de la literatura está fuera del intervalo, luego no es compatible con los resultados del experi-
mento (con un 99 % de confianza).
Evaluación Continua 2 Diseño de Experimentos y Regresión 19 de mayo de 2014

Solución problema

1. Modelo de regresión simple



H0 : β1 = 0
H1 : β1 6= 0
V E/1 58R2
Si H0 cierta F0 = = = 6, 5952 < F1,58;α=0,01 = 7, 08 (se ha tomado de las tablas
V N E/58 1 − R2
el valor correspondiente a la F1,60;α=0,01 ). El número de empleados no tiene un efecto significativo en los
beneficios de una empresa al 99 %.

2. Modelo de regresión múltiple

Los contrastes individuales:

βbi 1, 266 2, 094 9, 923 6, 833


√ √ √ √
sbβi
b 1, 05 × 0, 0335 1, 05 × 0, 0161 1, 05 × 0, 0169 1, 05 × 0, 0669 .
ti 6, 59 15,72 72, 69 25, 16

1. Los valores ti se comparan con t56;0,005 = 2, 66 (con 60 grados de libertad).


Todos salen significativos incluido el regresor número de empleados que no salı́a en la regresion simple.

El
 contraste general de regresión:
H0 : βi = 0 ∀ i
.
H1 : alguno distinto
V E/3 7071, 73/3
Si H0 cierta F0 = = = 2142, 75
V N E/56 sb2R
puesto que V E = V T − V N E = 7133, 33 − (60 − 3 − 1) × 1,1 = 7071, 73.
F0 > F3,56;0,01 = 4, 13 (se ha tomado de las tablas el valor correspondiente a la F3,60;α=0,01 ). Se rechaza
H0 .
Interpretación:
El contraste general de regresión indica que alguno de los regresores o todos son significativos. Los
contrastes individuales indican que son todos significativos.
Regresor número de empleados: En el modelo de regresión múltiple ha salido significativo. Al aumentar
el número de empledados en una unidad, a igualdad de ventas y sector, los beneficios medios aumentan
1,094 unidades.
Regresor ventas: Al aumentar las ventas en una unidad, a igualdad de numero de empleados y sector,
los beneficios medios aumentan 9,923 unidades
Regresor sector: A igualdad de numero de empleados y de ventas, las empresas del sector energético en
promedio tienen mas beneficios (6,833 unidades) que las empreas del sector de las telecomunicaciones.
Todos los regresores en este modelo explican el 99,14 % de la varı́abilidad. (R2 = 0, 9914).

3. Intervalo de confianza/predicción

xTh = [1 0, 6 1, 8 0];
T
ybh = xh β = 20, 3838
b
vhh = xTh (X T X)−1 xh = 0, 0879√ √ √
yh ∈ ybh ± t56;α=0,025 × sbR × 1 + vhh = 20, 3838 ± 2 × 1, 1 × 1 + 0,0879

Para el sector energético


xTh = [1 0, 6 1, 8 1];
ybh = xTh βb = 27, 2168
vhh = xTh (X T X)−1 xh = 0, 0950
Evaluación Continua 2 Diseño de Experimentos y Regresión 19 de mayo de 2014

√ √ √
yh ∈ ybh ± t56;α=0,025 × sbR × 1 + vhh = 27, 2168 ± 2 × 1, 1 × 1 + 0,0950

La diferencia entre los beneficios medios de ambas empresas es:


27, 2168 − 20, 3838 = 6, 833, que coincide con el parámetro de la varaible cualitativa.
Esta diferencia es significativa, se ha visto en el contraste del apartado 2 ( al 99 %), y se ve en este tercer
apartado porque los intervalos de confianza construidos no se solapan.(al 95 %).
Problema (45 minutos, 6 puntos)
Se ha realizado un experimento para estudiar la dependencia de la resistencia de un material
respecto de la temperatura del horno (100, 150 y 200 °C) y tipo de horno (A y B). Se han tomado
tres temperaturas y dos hornos.
Para cada combinación de temperatura y tipo de horno se han tomado tres observaciones. Los
datos se presentan en la tabla adjunta. Entre paréntesis se presentan las medias para las
observaciones de cada cruce o tratamiento.
100 150 200
A 21.16 22.23 21,44 15.25 15.42 15.68 12.64 13.01 13.78
(21.61) (15.45) (13.14)
B 6.39 6.01 6.09 11.26 11.53 11.68 9.36 9.02 10.00
(6.16) (11.49) (9.46)

1. Estudiar la dependencia de la resistencia respecto de exclusivamente el factor temperatura.


Tener en cuenta que la variabiliad total es 426.93.
2. Añadir al análisis el factor tipo de horno y obtener el tratamiento (combinación de
temperatura y tipo de horno) que proporcione las resistencia promedio máxima y mínima
apoyándose en el gráfico de interacción y los intervalos de confianza para las medias de los
tratamientos. Para los cálculos, tener en cuenta que las variabilidades explicadas por el tipo
de horno y los residuos son 266.57 y 2.05.
3. Realizar el contraste de igualdad de varianzas para los dos tratamientos que hayan resultado
del análsisis anterior.
3bis) Obtener un intervalo de confianza para la varianza del error experimental.
Solución de problema

1) Se trata de un modelo con un factor.


Para obtener la variabilidad explicada hay que calcular las medias para las tres temperaturas
y la media general
y 1. = 13, 88; y 2. = 13, 47; y 3. = 11, 30; y .. = 12, 88
V E = 3 × 2 × [(13, 88 − 12, 88)2 + (13, 47 − 12, 88)2 + (11, 30 − 12, 88)2 ] = 23, 11
V N E = V T − V E = 403, 8
La tabla ADEVA es
F de var Suma de C. G. de lib. C.M- F
Temperatura 23,11 2 11,55 0,43
Residual 403,82 15 26,92
Total 426,93 17
Como 0, 43 < F2,15 = 3, 68, no resulta significativo el efecto del factor temperatura.
2) Se trata ahora de un modelo con dos factores e interacción.
V E(interacción) = V T − V E(T emp) − V E(tipodehorno) − V N E = 135, 2
La tabla ADEVA es
F de var Suma de C. G. de lib. C.M- F
Temperatura 23,11 2 11,55 67,58
Tipo de horno 266,57 1 266,57 1558,81
Interacción 135,2 2 67,59 395,29
Residual 2,05 12 0,17
Total 426,93 17
Comparando los valores de los cocientes (F) con los percentiles F2,12 = 3, 88, F1,12 = 4, 74,tanto
los dos efectos principales como las interacciones resultan significatvos.

Los intervalosde confianza son y ij. ± t12 sbR / 3,los extremos inferior y superior para los seis
intervalos se resentan en la tabla siguiente.
Tratamiento Ext. inferior Ext. superior
11 20,87 22,34
12 5,42 6,89
21 14,71 16,18
22 10,75 12,22
31 12,40 13,87
32 8,72 10,19
Se observa que al no haber solapamiento entre los intervalos, las condiciones de menor y mayor
respuesta promedio se identifican claramente, 12 y 11 respectivamente.
3) V N E/σ 2 ∼ χ23×2×(3−1)

P [χ212,0.025 < V N E/σ 2 < χ212,0.975 ] = 0, 95


P [4, 04 < V N E/σ 2 < 23, 34] = 0, 95
El intervalo es (0, 087; 0, 507)

𝛼
 𝛼


 𝛼
 𝛼


𝛼
mod = aov(y ~ facA * facB)
anova(mod)
var(y)

>> anova(mod)

Df Sum Sq Mean Sq F value Pr(>F)


facA ??? 0.921 ??? ??? ???
facB ??? ??? 0.516 ??? ???
facA:facB ??? 0.250 ??? ??? ???
Residuals ??? ??? ???

>> var(y)
0.0639383

𝑦𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + (𝛼𝛽)𝑖𝑗 + 𝑢𝑖𝑗𝑘 𝑢𝑖𝑗𝑘 → 𝑁(0, 𝜎)


𝑖𝑖𝑑

 𝑦̅𝑖··
 𝜇 + 𝛼𝑖
Response: calidad
Df Sum Sq Mean Sq F value Pr(>F)
modo 1 40.5 40.500 1.7482 0.2343
Residuals 6 139.0 23.167

Response: calidad
Df Sum Sq Mean Sq F value Pr(>F)
modo 1 40.5 40.50 9.5294 0.03668 *
entorno 1 72.0 72.00 16.9412 0.01466 *
modo:entorno 1 50.0 50.00 11.7647 0.02654 *
Residuals 4 17.0 4.25





Df Sum Sq Mean Sq F value Pr(>F)
A 3 0.92121 0.30707 13.8056 3.777e-06 ***
B 2 1.03301 0.51651 23.2217 3.331e-07 ***
A:B 6 0.25014 0.04169 1.8743 0.1123
Residuals 36 0.80073 0.02224

𝑦̅𝑖··
𝜎
𝑦̅𝑖·· ~ 𝑁(𝜇 + 𝛼𝑖 , )
√𝑘
𝜇 + 𝛼𝑖
𝑠̂𝑅
𝜇 + 𝛼𝑖 ∈ 𝑦̅𝑖·· ± 𝑡𝛼,𝐼𝐽(𝐾−1) ·
2 √𝑘
Examen Final Diseño de Experimentos y Modelos de Regresión 6/junio/2014

Cuestiones 1. (30 minutos, 4 puntos)

1. En un modelo de regresión múltiple el vector de residuos se obtiene


b
e = Y − Xβ

siendo Y el vector de dimensión n que contiene la variable dependiente, X la matriz de


b el vector de parámetros estimados.
dimesión n × (k + 1) que contiene los regresores y β
Demuestra, que la matriz de varianzas del vector de residuos var(e) es

var(e) = (I − V )σ 2

siendo V = X(X T X)−1 X T .

2. Se ha estimado un modelo de regresión con dos variables independientes y 150 obser-


vaciones obteniéndose la siguiente ecuación:

ybi = −1,17 + 0,025 log x1 + 0,59 log x2 , sb2R = 2,48

La matriz de varianzas estimada de bb = [β


b ,β
1
b ]T es
2

( )−1 ( )
,253 ,201
T
X̃ X̃ sbR =
2
.
,201 ,288

Realiza los contrastes individuales de los dos regresores. ¿Cuanto vale la correlación
b y β
entre β b ?. ¿Cuanto vale la correlación entre log x1 y log x2 ? ¿Si eliminamos el
1 2
b ?¿Cómo?
regresor x2 , afectará el resultado al valor de β 1
Ten en cuenta que la matriz de varianza teórica de los estimadores bb = [βb ,βb ]T es
1 2
 
σ2 r σ2
n s21 (1−r2 )
−ns 2
 1 2 (1−r )
s
,
r σ2 σ2
−ns 2 n s22 (1−r2 )
1 s2 (1−r )

donde n es el número de observaciones, r el coeficiente de correlación entre los regre-


sores, s21 y s22 las varianzas muestrales de los regresores y σ 2 la varianza del modelo de
regresión.
Examen Final Diseño de Experimentos y Modelos de Regresión 6/junio/2014

Problema
(45 minutos, 6 puntos)

Se ha ajustado un modelo de regresión múltiple del consumo diario de energı́a eléctrica


de un pais en función de la temperatura. Además se ha tenido en cuenta si el dı́a es laborable,
sábado o domingo. Llamando ZLi la variable que toma valor 1 si el dı́a i es laborable y cero
en otro caso, ZSi la variable que toma valor 1 si el dı́a i es sábado y cero en otro caso y
finalmente ZDi la variable que toma valor 1 si el dı́a i es domingo y cero en otro caso, el
modelo resultante es:

log(yi ) = 3,62−0,0274Ti +0,000579Ti2 −0,136ZSi −0,2436ZDi +ei , sbR = 0,073, R2 = 0,6568


( )−1
y la matriz X T X es
 
60,595 −5,7689 0,11924 −2,3070 −2,9636
 −5,7689 0,5987 −0,012878 0,012241 0,07484 
 
10−3
×
 0,11924 −0,012878 0,00028577 −0,00052891 −0,001779 

 −2,3070 0,012241 −0,00052891 13,9727 2,3431 
−2,9636 0,07484 −0,001779 2,3431 13,9770

La variable yi es el número de GWh consumidos en el dı́a i. (Nota: log es logaritmo neperiano).

1. El modelo se ha estimado con 600 dı́as, obtén la descomposición de la variabilidad del


modelo (o análisis de la varianza), e indica los grados de libertad de cada término.
Realiza el contraste general de regresión.

2. Responde con el contrate que consideres oportuno a las siguientes preguntas:

a) ¿Existe diferencia significativa entre el consumo de un dı́a laborable y un sábado?


b) ¿Existe diferencia significativa entre el consumo de un dı́a laborable y un domingo?
c) ¿Existe diferencia significativa entre el consumo de un sábado y un domingo?

3. El consumo de un lunes laborable concreto fue 37.5 GWh y la temperatura media del
dı́a igual a 7.4 o C. Obtén el residuo correspondiente y explica si el valor 37.5 GWh es
un dato coherente con las hipótesis del modelo.
Da un intervalo de confianza para el consumo medio previsto para un lunes con tem-
peratura igual a 7.4o C.
Examen Final Extraordinario Diseño de Experimentos y Regresión 4/julio/2014

Cuestiones (30 minutos, 4 puntos)


Cuestión 1:
Jesús López es un veterano ingeniero que se dedica profesionalmente a la calibración de motores
diésel para una multinacional automovilística. Actualmente está analizando el rendimiento del novedoso
prototipo Calohuesa-TDI-1800cc, sometiéndolo a diversas condiciones externas, variando la temperatura
de operación y el carburante empleado. El rendimiento de estos motores se mide mediante un aparato
denominado “banco de rodillos”.

En la tabla siguiente se muestran las diversas pruebas realizadas:


Temperatura
Temperatura 1 Temperatura 2 Temperatura 3
Carburante 1 90.5 , 91.5 95.5 , 94.5 94.8 , 95.2 (93.67)
Carburante
Carburante 2 91.5 , 90.5 94.8 , 95.2 90.8 , 91.2 (92.33)
(91.0) (95.0) (93.0) (93.0)
Observación: para facilitar los cálculos, en negrita se indica la media de cada fila, columna y media global.
También se sabe que 𝑠𝑠̂𝑦𝑦 = 4.52.
• Escribir el modelo empleado, indicando las hipótesis asumidas.
• Calcular la tabla ADEVA, e indicar qué efecto(s) influye(n) significativamente en el
rendimiento (𝛼𝛼 = 0.05).
• ¿Qué combinación (o combinaciones) de factor (o factores) son las que proporcionan el mejor
rendimiento? (𝛼𝛼 = 0.05) Justificar la respuesta con el gráfico correspondiente, indicando el
valor de la cota superior e inferior de los intervalos de confianza.

Cuestión 2:
Los denominados “software OCR” (Optimal Character Recognition) se emplean para la digitalización
de textos a partir de un archivo de imagen de entrada.
Un estudiante de la ETSII pretende estudiar el tiempo de procesamiento que requiere un determinado
software OCR (medido en milisegundos), en función del tamaño de la imagen empleada (medido en Mb).
Para ello, procesa mediante el programa diversas imágenes, midiendo el tiempo de procesamiento para
cada una de ellas. El tamaño (en Mb) de las imágenes procesadas son los siguientes:
5.2 6.3 7.5 8.6 10.0 11.1 12.5 13.0 13.2 14.0
Tras ajustar el modelo de regresión lineal simple, obtiene los siguientes resultados:
� = 0.02 + 12.05 · 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡ñ𝑜𝑜
𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 ; 𝑉𝑉𝑉𝑉 = 13500
• El fabricante nos indica que, al incrementar en 1 Mb la imagen, se incrementará el tiempo de
procesamiento en 10 unidades. Sospechamos que el incremento real es mayor que el valor que
nos indica el fabricante. En base al experimento realizado, ¿podemos afirmar que la afirmación
del fabricante es falsa? (𝛼𝛼 = 0.05)
• Calcular un intervalo para el tiempo medio que se tarda en procesar imágenes de 10 Mb,
considerando 𝛼𝛼 = 0.05.
Examen Final Extraordinario Diseño de Experimentos y Regresión 4/julio/2014
Solución Cuestión 1:

Apartado 1
El modelo empleado es el siguiente:
𝑦𝑦𝑖𝑖𝑖𝑖𝑖𝑖 = 𝛼𝛼𝑖𝑖 + 𝛽𝛽𝑗𝑗 + (𝛼𝛼𝛼𝛼)𝑖𝑖𝑖𝑖 + 𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖
Donde se asumen las siguientes tres hipótesis:
- Los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖 ) siguen una distribución normal.
- Los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖 ) son independientes entre sí.
- La varianza de los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖 ) es constante (homocedasticidad).

Apartado 2
La tabla ADEVA es la siguiente:
Analysis of Variance Table

Response: rend
Df Sum Sq Mean Sq F value Pr(>F)
temp 2 32.000 16.0000 55.172 0.0001372 ***
carb 1 5.333 5.3333 18.391 0.0051576 **
temp:carb 2 10.667 5.3333 18.391 0.0027586 **
Residuals 6 1.740 0.2900
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

De la anterior tabla ADEVA se observa que, con un nivel de confianza del 95%, afecta el factor
Temperatura, el factor Carburante, y la interacción Temperatura*Carburante.

Apartado 3
Para determinar cuál es la mejor combinación de temperatura y carburante, realizamos el gráfico de
interacción (Verde: carburante 1. Rojo: carburante 2).

Del gráfico anterior se deduce que las combinaciones que proporcionan un mayor rendimiento son:
 Temperatura 2, con cualquier carburante.
 Temperatura 3, con el carburante 1.
Examen Final Extraordinario Diseño de Experimentos y Regresión 4/julio/2014

Solución Cuestión 1:

Calculamos 𝑠𝑠𝑥𝑥 = 2.96, 𝑠𝑠̂𝑥𝑥 = 3.12

Contraste: 𝐻𝐻0 : 𝛽𝛽1 = 10 𝐻𝐻1 : 𝛽𝛽1 > 10

𝛽𝛽̂1 − 𝛽𝛽1
~𝑡𝑡𝑛𝑛−2
𝑠𝑠̂𝑅𝑅 /√𝑛𝑛 · 𝑆𝑆𝑥𝑥
𝑉𝑉𝑉𝑉 = 𝛽𝛽̂1 · 𝑛𝑛 · 𝑠𝑠𝑥𝑥2 = (12.05)2 · 10 · (2.96)2 = 12720
𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑉𝑉𝑉𝑉 − 𝑉𝑉𝑉𝑉 = 777.9

777.9
𝑠𝑠̂𝑅𝑅 = � = 9.86
8

𝛽𝛽̂1 − 𝛽𝛽1 12.05 − 10


𝑡𝑡0 = = = 1.94
𝑠𝑠̂𝑅𝑅 /√𝑛𝑛 · 𝑆𝑆𝑥𝑥 9.86/√10 · 2.96
𝑃𝑃(𝑡𝑡8 < 1.85) = 0.95
Como 1.94 > 1.85, rechazamos H0

Solución Cuestión 2:

𝑦𝑦�ℎ = 120.52

(𝑥𝑥ℎ − 𝑥𝑥̅ )2 1 (10 − 10.14)2 1


𝜈𝜈ℎℎ = �1 + � · = �1 + �· = 0.1002
𝑆𝑆𝑥𝑥2 𝑛𝑛 2.962 10

𝑚𝑚ℎ ∈ 𝑦𝑦�ℎ ± 𝑡𝑡𝛼𝛼,8 · 𝑠𝑠̂𝑅𝑅 · �𝜈𝜈ℎℎ


2

𝑚𝑚ℎ ∈ 120.52 ± 2.306 · 9.86 · √0.1002

𝑚𝑚ℎ ∈ [113.32 127.71]


Examen Extraordinario Diseño de Experimentos y Regresión 4/julio/2014

Problema. (45 minutos, 6 puntos)


En el proceso de reciclaje de residuos metálicos es necesario aplicar un campo magnético que
permita realizar la separación selectiva con garantı́as.
Para diseñar adecuadamente un proceso de separación se han analizado seis factores que pueden
influir en el campo magnético requerido y se han tomado 19 medidas. Se ha estimado un modelo de
regresión múltiple, obteniéndose:
ybi = −0, 622 + 0, 170x1i − 0, 015x2i − 0, 008x3i + 0, 460x4i + 0, 520x5i − 0, 127x6i ,
con V T = 10,32 y sb2R = 0,40, siendo la matriz:
 
38 0 0 0 0 0
 0 1525, 18 0 0 0 0 
 
 
eT X
X e = 0 0 2381, 65 0 0 0 .
 0 0 0 16, 89 0 0 
 
 0 0 0 0 1, 06 0 
0 0 0 0 0 9, 5
1. Realice los contrastes individuales e indique cuál (o cuales) de los seis regresores tiene(n) un
efecto significativo sobre el campo requerido. Realice el contaste general de regresión y calcule
2
R2 y R . (Utilizar α = 0,05)
2. Los expertos indican que conviene incluir en el modelo de regresión una variable cualitativa que
contemple la heterogeneidad de los residuos metálicos, que puede tomar tres valores: baja, media
y alta. Esta caracterı́stica se puede incorporar en el modelo a través de las variables ficticias z1
(que toma el valor 1 si la heterogeneidad es baja, 0 en otro caso), z2 (que toma el valor 1 si la
heterogeneidad es media, 0 en otro caso) y z3 (que toma el valor 1 si la heterogeneidad es alta,
0 en otro caso).
El modelo estimado tras la incorporación de esta caracterı́stica ha sido:
ybi = −1, 048+0, 820z1i +0, 517z2i +0, 170x1i −0, 015x2i −0, 008x3i +0, 460x4i +0, 520x5i −0, 127x6i
con sb2R = 0, 23, siendo la matriz de varianzas y covarianzas de los estimadores de los parámetros
 
0,0555 0,0278 0 0 0 0 0 0
 0,0278 0,1001 0 0 0 0 0 0 
 
 0 0 0,0061 0 0 0 0 0 
 
 0 0 0 0,0002 0 0 0 0 
Mβb =  
.

 0 0 0 0 0,0001 0 0 0 
 0 0 0 0 0 0,0136 0 0 
 
 0 0 0 0 0 0 0,2177 0 
0 0 0 0 0 0 0 0,0242

Realice los contrastes individuales y el contraste general de regresión para el nuevo modelo.
Interprete los resultados. (α = 0,05)
Los residuos metálicos con heterogenidad baja y media, ¿requieren un campo magnético distinto?
Justifı́quelo realizando el contraste oportuno.
3. Se ha realizado un tercer modelo que incluye la heterogeneidad de los residuos metálicos y algunos
regresores, resultando:
ybi = −1, 255 + 0, 820z1i + 0, 517z2i + 0, 170x1i + 0, 460x4i
2
con sb2R = 0, 23, R2 = 69, 22 % y R = 60, 42 %.

Razone qué modelo de los tres propuestos es el más adecuado.


Examen Extraordinario Diseño de Experimentos y Regresión 4/julio/2014

Solución del Problema. (45 minutos, 6 puntos)

Modelo de regresión múltiple


{
H0 : β i = 0
H1 : β i ̸= 0

sbR = 0,40 = 0,6325
Los valores qii son los términos de la diagonal de la matriz Q = (Xe T X)
e −1 . Como en el enunciado
dan X e X,
T e es necesario calcular la inversa, que -por tratarse de una matriz diagonal- es la matriz con
los términos de la diagonal invertidos.
q11 = 1/38; q22 = 1/1525,18; q33 = 1/2381,65; q44 = 1/16,89; q55 = 1/1,06; q66 = 1/9,5.
Los contrastes individuales son:
b
β 0,170 −0,015 −0,008 0,460 0,52 −0,127
i
√ √ √ √ √ √
sbβi
b sbR × q11 sbR × q22 sbR × q33 sbR × q44 sbR × q55 sbR × q66 .
ti 1,66 −0,93 −0,62 2,99 0,85 −0,62

Los valores ti se comparan con t12;0,025 = 2, 179. El único regresor significativo es x4 .


Todos salen significativos incluido el regresor número de empleados que no salı́a en la regresion
simple.

El contraste general de regresión:


{
H0 : β i = 0 ∀ i
H1 : alguno distinto

V E/6 5,52/6
Si H0 cierta F0 = = = 2,3 puesto que:
sbR
2 0,40

V E = V T − V N E = 10,32 − (19 − 6 − 1) × 0,40 = 5,52.

F0 < F6,12;0,05 = 3,00. Por tanto, no se rechaza H0 .

El coeficiente de determinación:

VE 5,52 2 sb2R 0,40


R2 = = = 0,5349; R =1− =1− = 0,3023
VT 10,32 sby
2 0,5733

VT 10,32
sb2y = = = 0,5733
n−1 18

Modelo de regresión múltiple con variables cualitativas


En el enunciado se proporciona la matriz de varianzas y covarianzas de los regresores.

Los contrastes individuales son:


b
β 0,82 0,517 0,170 −0,15 −0,008 0,46 0,52 −0,127
i √ √ √ √ √ √ √ √
sbβi
b 0,0555 0,1001 0,0061 0,0002 0,0001 0,0136 0,2177 0,0242
ti 3,48(∗) 1,63 2,18 −1,06 −0,80 3,95(∗) 1,11 −0,8164

Los valores ti se comparan con t10;0,025 = 2, 228 .


Los regresores significativos son los marcados con (*)

El contraste general de regresión:


Examen Extraordinario Diseño de Experimentos y Regresión 4/julio/2014

{
H0 : β i = 0 ∀ i
H1 : alguno distinto

V E/8 8,02/8
Si H0 cierta F0 = = = 4,36
sbR
2 0,23
puesto que V E = V T − V N E = 10,32 − (19 − 8 − 1) × 0,23 = 8,02
F0 > F8,10;0,05 = 3,07 Se rechaza H0 .

Interpretación:
El contraste general de regresión indica que alguno de los regresores o todos son significativos.
Los contrastes individuales indican que el variable correspondiente a la heterogenidad de los residuos
metalicos baja y el regresor x4 son significativos.
Regresor Heterogeneidad de residuos metálicos baja: A igualdad del resto de regresores, existe
diferencia significativa en el campo magnético requerido por los residuos metálicos de hetogeneidad
baja y heteogeneidad alta (que es la referencia). En promedio, los residuos metalicos de heterogeneidad
baja requieren un campo magnetico superior ( 0.82 unidades).
Regresor x4 : Al aumentar en una unidad, manteniendo el resto constante, el campo magnetico
requerido en promedio aumenta en 0.46 unidades.
Todos los regresores en este modelo explican el 77, 71 % de la varı́abilidad. (R2 = 0, 7771).

Comparación
{ residuos de heterogeneidad baja-media:
H0 : α B = α M
.
H1 : αB ̸= αM
bB − α
α bM
Si H0 es cierta, t10
sb (b
αB − α bM )
sb2 (b
αB − αb M ) = sb2 (bαB ) + sb2 (b
αM ) − 2cov(b b M ) = 0,0555 + 0,1001 − 2 × 0,0278 = 0,1
αB , α

bB − α
α bM 0,82 − 0,517
= √ = 0,9582 < t10;0,025 = 2,228
sb (b
αB − α
bM ) 0,1
Por tanto, no se rechaza H0 . No existe diferencia significativa.

Tercer modelo. Comparación de modelos

2
Modelo: sb2R R2 R No regresores
1 0,40 0,5349 0,3023 6
2 0,23 0, 7771 0,5988 8
3 0,23 0,6922 0,6042 4

A la vista de los resultados, el tercer modelo es el mejor seguido muy de cerca por el modelo 2. La
sb2R es, junto con la del modelo 2, la mas pequeña, y aunque la R2 es mayor la del modelo 2, es lógico
2
porque tiene mas regresores, muchos de ellos no significativos, pero la R del modelo 3 es la mayor, y
contiene un menor número de regresores.
En el primer modelo hay discrepancias entre el contaste general de regresion (no se rechaza H0 ) y
los contrastes individuales (regresor x4 es significativo).
EXÁMENES
Curso 2014/15
Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

Cuestiones (30 minutos, 4 puntos)

1. En un laboratorio disponen de tres medidores de pH con los que se han tomado


diferentes medidas del pH de un líquido, resultando los valores que se indican en la
tabla siguiente
Medidor 1 Medidor 2 Medidor 3
n 8 10 8
ȳ 5.7 6.6 5.0
ŝ 1.3 1.8 2.2

a) Contrastar si existen diferencias significativas entre los tres medidores.


b) Calcular un intervalo de confianza para el pH del líquido.

2. El número de maletas extraviadas por las compañías A y B en tres rutas diferentes


(R1, R2 y R3) se muestran en la tabla siguiente (se disponen de tres datos diferentes
por cada ruta y compañía)

R1 R2 R3
A 19, 14, 19 2, 4, 5 7, 9, 9
B 9, 6, 0 17, 12, 8 14, 16, 12

La tabla de análisis de la varianza generada con el programa R a partir de estos


datos es la siguiente:

Analysis of Variance Table

Response: y
Df Sum Sq Mean Sq F value Pr(>F)
ruta 2 40.11 20.056 2.0988 0.1653375
compañia 1 2.00 2.000 0.2093 0.6554873
ruta:compañia 2 387.00 193.500 20.2500 0.0001426 ***
Residuals 12 114.67 9.556
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

a) Escribir la ecuación del modelo que se ha utilizado y explicar qué representa


cada término de la ecuación. Indicar qué factores son significativos y por qué.
b) Dibujar el diagrama de interacción y explicar cómo se interpretan en este dia-
grama las conclusiones obtenidas en la tabla de análisis de la varianza.

NOTA: Para las dos cuestiones α = 0,05


Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

Problema (45 minutos, 6 puntos)

Una cadena de restaurantes de comida rápida desea elegir entre 3 nuevos menús
(A,B,C). Eligen al azar 6 restaurantes de la cadena para participar en el estudio. De
acuerdo con el diseño de bloques al azar, cada restaurante hace la prueba de los 3 nuevos
menús. Cada semana cada restaurante probará uno de los menús, de manera que el tiempo
necesario para realizar el estudio es de tres semanas. El orden en el que cada restaurante
prueba los menus es elegido al azar. En la tabla se proporciona el volumen de ventas para
cada semana.

A B C
R1 31 27 24
R2 31 28 31
R3 45 29 46
R4 21 18 48
R5 42 36 46
R6 32 17 40
La variabilidad explicada por los tres tratamientos es 539, la explicada por los bloques
560 y la residual 543.

1. Obtén la tabla de análisis de la varianza del experimento teniendo en cuenta el factor


(menú) y el bloque (restaurante), realizando los contrastes correspondientes. Com-
pleta el análisis realizando las comparaciones dos a dos que consideres pertinente
(α = 0,05).

2. En el modelo de bloques aleatorizados

yij = µ + αi + βj + uij , uij N(0, σ)

con i = 1, 2, ..., I (niveles del factor) y j = 1, 2, ..., J (bloques) calcular la esperanza


(media) y varianza de
PJ PI
j=1 yij i=1 yij
y i• = y •j =
J I
en función de los parámetros del modelo µ, αi , βj y σ 2 .

3. Los restaurantes 1, 3 y 5 son especiales. Llamando µ•j = E[y •j ] a la media de las


ventas del restaurante j, contrastar con α = 0,05 que

H0 : µ•1 + µ•3 + µ•5 = µ•2 + µ•4 + µ•6


H1 : µ•1 + µ•3 + µ•5 < µ•2 + µ•4 + µ•6
Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

Solución de las Cuestiones

Cuestion 1

• Apartado (a)
Se utiliza el siguiente modelo para los datos

yij = µi + uij , uij N(0, σ 2 ), i = 1, · · · , K, j = 1, · · · , ni

Planteamos el siguiente contraste

H0 : µ 1 = µ 2 = µ 3
H1 : Algn µi distinto

Para resolverlo utilizamos análisis de la varianza

X ni
K X K
X
2
V NE = (yij − ȳi• ) = (ni − 1)ŝ2i = 7 · 1,32 + 9 · 1,82 + 7 · 2,22 = 74,87
i=1 j=1 i=1

K
X
VE = ni (ȳi• − ȳ•• )2 = 8·(5,7−5,8)2 +10·(6,6−5,8)2 +8·(5,0−5,8)2 = 11,58
i=1
ya que
K
P
ni ȳi•
i=1 8 · 5,7 + 10 · 6,6 + 8 · 5,0
ȳ•• = = = 5,83
K
P 8 + 10 + 8
ni
i=1

Tabla anova
FV SC GL VAR F
Factor 11.58 2 5.79 1.78
Residuos 74.87 23 3.26
Total 86.45 25
Como F2,23;0,05 = 3,42, se acepta la hipótesis nula, luego no hay diferencias
entre las medias de los medidores.
• Apartado (b)
Según el apartado anterior µ1 = µ2 = µ3 = µ. Por tanto el intervalo de
confianza lo calculamos a partir de la media de todos los datos

K
P
ni ȳi•
i=1
ȳ•• = ⇒ ȳ•• N(µ, σ 2 /n)
n
Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

K
N(µ, σ 2 /ni )
P
donde n = ni . Efectivamente, como yi•
i=1

K K
1X 1X
E(ȳ•• ) = ni E(ȳi• ) = ni µ = µ
n i=1 n i=1

K K
1 X 2 1X σ2
V ar(ȳ•• ) = 2 ni V ar(ȳi•) = ni σ 2 =
n i=1 n i=1 n

Finalmente
r r
ŝ2R 3,26
µ ∈ ȳ•• ± t(n−k);α/2 = 5,8 ± 2,069 = 5,8 ± 0,73 = (5,07, 6,53)
n 26

Cuestion 2

• Modelo
yijk = µ + αi + βj + αβij + uijk , uijk N(0, σ 2 )
I
X J
X I
X J
X
αi = 0, βj = 0, αβij = 0, αβij = 0,
i=1 j=1 i=1 j=1

◦ El factor “compañía” no es significativo ya que p-valor=0.655 >α (Fα =


0,2093 < F1,12;0,05 = 4,747).
◦ El factor “ruta” no es significativo ya que p-valor=0.165 >α (Fβ = 2,0988 <
F2,12;0,05 = 3,885).
◦ La interacción entre “compañía” y “ruta” es significativa ya que p-valor=0.0001
<α (Fαβ = 20,25 > F2,12;0,05 = 3,885).
• Diagrama interacción
20

Factor: compañia
Nivel: A Nivel: B
15
medias
10
5
0

Nivel: R1 Nivel: R2 Nivel: R3


Factor: ruta
Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

Los intervalos de confianza del gráfico se calculan mediante la expresión


r
ŝ2R
ȳij• ± tIJ(m−1);α/2
m

Las medias ȳij• son:

R1 R2 R3
A 17.333 3.667 8.333
B 5.000 12.333 14.000

Por otro lado r r


ŝ2R 9,556
tIJ(m−1);α/2 = 2,179 = 3,889
m 3
Sustituyendo se obtienen los intervalos de confianza

R1 R2 R3
A (13.445, 21.222) (-0.222, 7.555) (4.445, 12.222)
B (1.111, 8.888) (8.445, 16.222) (10.111, 17.889)
Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

Solución del Problema

1.
Fuentes Variabilidades GL Varianzas F
Menús 539 2 269.5 4.96*
Restaurantes 560 5 112.0 2.06
Residuos 543 10 54.3
Total 1642 17

Como F0,05;2,10 = 4,03 existen diferencias significativas entre los tres menús.
Como F0,05;5,10 = 3,33 no existen diferencias significativas entre los seis restaurantes.
Hacemos las comparaciones dos a dos de los tres menús:.
r r
2 2
LSD = t0,025,10 ŝR = 2,23 × 7,4 × = 9,5
J 6

|ȳ1• − ȳ2• | = 7,9 < LSD


|ȳ1• − ȳ3• | = 5,5 < LSD
|ȳ2• − ȳ3• | = 13,4 > LSD ∗ ∗

Sólo existen diferencias significativas entre B y C. Teniendo en cuentas las tres medias
33.7 (A), 25.8 (B) y 39.2 (C), el menú C tiene más ventas que el B. No existen diferencias
significativas en las otras comparaciones.

2.
E[yi1 + yi2 + · · · + yiJ ]
E[ȳi• ] =
J
(µ + αi + β1 ) + (µ + αi + β2 ) + · · · + (µ + αi + βJ )
=
J
= µ + αi

pues β1 + β2 + · · · + βJ = 0

var[yi1 + yi2 + · · · + yiJ ]


var[ȳi• ] =
J2
σ + σ + ... + σ 2
2 2
=
J2
2
σ
=
J
σ2
Con el mismo razonamiento E[ȳ•j ] = µ + βj y var[ȳ•j ] = I
.

3.
w = (ȳ•1 + ȳ•3 + ȳ•5 ) − (ȳ•2 + ȳ•4 + ȳ•6 )
Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

es fácil ver que

E[w] = (µ•1 + µ•3 + µ•5 ) − (µ•2 + µ•4 + µ•6 )


σ2
var(w) = 6 × = 2σ 2
3
el contraste que piden es

H0 : µ w = 0
H1 : µ w < 0

Como

w → N(µw , 2σ 2 )
w − µw
t = √ → t10
2ŝR
(ȳ•1 + ȳ•3 + ȳ•5 ) − (ȳ•2 + ȳ•4 + ȳ•6 ) 19,9
t = √ =√ = 1,9
2ŝR 2 × 7,4
El contraste es unilateral, la región de rechazo es

t < −t0,05;10 = −1,81

y claramente 1.9 no está en la región de rechazo. Aceptamos H0 .


> mod = lm(ventas ~ TV + web)
> summary(mod)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 124.093 35.941 3.453 0.00304
TV 24.233 13.627 1.778 0.09325
web 10.446 3.713 2.813 0.01197

Residual standard error: 77.9 on 17 degrees of freedom


Multiple R-squared: 0.3679, Adjusted R-squared: 0.2935
F-statistic: 4.947 on 2 and 17 DF, p-value: 0.02026

0.213 −0.055 −0.014


(𝑋 𝑇 · 𝑋)−1 = (−0.055 0.031 0.001 )
−0.014 0.001 0.002

 𝛼 = 0.05

𝛼 = 0.05

𝑦𝑖 = 𝛽0 + 𝛽1 · 𝑥𝑖 + 𝑢𝑖

𝑥𝑖
𝑦𝑖
𝑦̂𝑖
𝑒𝑖



 𝑒𝑖 𝑦̂𝑖 )

𝑒𝑖 𝑦̂𝑖
Segundo Examen Parcial - Diseño y Regresión 11 de mayo de 2015

Problema (45 minutos, 6 puntos)

Se ha realizado un experimento para explicar y predecir una variable física Y en función de una serie
de factores. El número de datos es 60. En primer lugar se analiza la dependencia de Y respecto de la
temperatura. Los resultados de la estimación son los siguientes:

ybi = 1;81 + 2;8Ti

con R2 = 0;769 y s^R = 1;864

1. Contrastar que la pendiente del modelo 1 es nula y calcular un intervalo de con…anza para 1.
Interpretar el resultado. ( = 0;05)

2. El experimento se realizó con tres catalizadores A, B y C y con distintos valores de la presión P: Se ha


estimado un nuevo modelo añadiendo las variables explicativas P y la variable cualitativa “catalizador”:
Los resultados de la nueva estimación son:

yb = 1;104 2;11T + 5;07P + 0;96ZB + 2;38ZC

con R2 = 0;936; sbR = 1;005


2 3
0;053 0;0193 0;0237 0;05 0;05
6 0;0193 0;285 0;282 0 0 7
6 7
(X 0 X) 1 =6
6 0;0237 0;282 0;292 0 0 7
7
4 0;05 0 0 0;1 0;05 5
0;05 0 0 ;05 0;1
Realizar los contrastes individuales y el contraste conjunto de regresión, interpretando los resultados.
¿Existen diferencias signi…cativas entre los efectos de los catalizadores B y C? ( = 0;05)

3. Estudiar el sesgo que introduce en la estimación del efecto de la temparatura el utilizar el modelo del
apartado 1 cuando el modelo verdadero es el del apartado.2. ¿En qué condiciones es nulo el sesgo?
𝐻0 : 𝛽1 = 𝛽2 = 0 ; 𝐻1 : 𝑎𝑙𝑔𝑢𝑛𝑎 𝛽𝑗 ≠ 0
𝐹0 = 4.947 ~𝐹2,17 𝛼

𝛽̂0

𝛽̂1
𝛽̂2

𝑥ℎ = [1 3 20]𝑇
̂
𝑦̂ℎ = 𝛽 𝑥ℎ = [124.1 24.2 10.4] · [1 3 20]𝑇 = 404.7
𝑇

𝐼𝐶(𝑚ℎ ) = 𝑦̂ℎ ± 𝑡17,𝛼 · 𝑠̂𝑅 · √1 + 𝜈ℎℎ = 𝑦̂ℎ ± 𝑡17,𝛼 · 𝑠̂𝑅 · √1 + 𝑥ℎ𝑇 · (𝑋 𝑇 · 𝑋)−1 · 𝑥ℎ
2 2
= 404.7 ± 77.9 · 2.11 · √1 + 0.644 = (195.2 , 614.2)

𝑉𝐸 𝑉𝑁𝐸 ∑(𝑒𝑖 )2 ∑(𝑒𝑖 )2


𝑅2 = = 1− = 1− 2 = 1− 2
𝑉𝑇 𝑉𝑇 ∑(𝑦 − 𝑦̅ ) ∑(𝑒𝑖 + 𝑦̂ 𝑖 )
𝑖
∑ (𝑒𝑖 + 𝑦̂ 𝑖 − )
𝑛
Segundo Examen Parcial - Diseño y Regresión 11 de mayo de 2015

Solución del problema

p
1. t = b 1 =b
sR =sx n

b = r Sy ;
1 Sx

1
Sy2 = ( 60 s2R =(1
)(58b r2 )) = 14; 53

Sx = rSy = b 1 = 1; 19
p
t = b 1 =b
sR =sx n = 13; 9 > t0;975 con 58 grados de libertad = 2; 00

b p
Intervalo 1 t58 sbR =sx n (2; 4 3; 2)

El contraste indica que se rechaza la hipótesis nula de que la temperatura no in‡uye sobre la vari-
ablerespuesta, lo cual concuerda con que el intervalo de con…anza para la pendiente no contenga al
cero

2. Contrastes individuales
p p
t1 = b 1 =b
sR q11 = 2;11=(1;005 0;285) = 3; 93; mayor en módulo que t0;975 con 55 grados de
libertad = 2; 005
p p
t2 = b 2 =b
sR q11 = 5;07=(1;005 0;292) = 9; 33 > 2; 005
p p
t3 = b 3 =b
sR q11 = 0;96=(1;005 0;1) = 3; 02 > 2; 005
p p
t4 = b 4 =b
sR q11 = 2;38=(1;005 0;1) = 7; 48 > 2; 005
Contraste conjunto:

s2R
F = (V E=4)=b

VE =VT R2 = 0; 936 = 816; 5

F = 202; 1 > F0;95 con 4 y 55 grados de libertad = 2; 54

Tanto los contrastes individuales como el conjunto resultan signi…cativos. Los resultados del tercer y
cuarto contraste individual indican que hay diferencias signi…cativas entre las ordenadas en el origen
de A-B, y A-C, respectivamente.
Para B frente a C
p
t = (2;38 0;96)=((1;005 (0;1 + 0;1 2 0;05))) = 4; 47 > 2; 005

De este último contraste se deduce que son signii…cativamente distintas las ordenada en el origen para
B y C.
3. Si las regresiones simples entre T y las demás variables son
1 1
P = 0 + 1T + u1

2 2
Z2 = 0 + 1T + u2
3 3
Z3 = 0 + 1T + u3

e introducimos estas expresiones en la regresión múltiple entre Y y T; P; Z2 ; Z3


Segundo Examen Parcial - Diseño y Regresión 11 de mayo de 2015

Y = 0 + 1T + 2P + 2 Z2 + 3 Z3 + u;
obtenemos
1 1 2 2 3 3
Y = 0 + 1T + 2( 0 + 1T + u1 ) + 2( 0 + 1T + u2 ) + 3
3 ( 0 + 1 T + u ) + u;
1 2 3
el coe…ciente de T en la regresión simple que resulta es 1 + 2 1 + 2 1 + 3 1; y el sesgo sería

1 2 3
2 1 + 2 1 + 3 1

que sólo sería nulo en general cuando 11 = 21 = 31 = 0; es decir cuando las correlaciónes entre T y
cada una de las demás variables explicativas sean todas nulas.
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

Cuestiones (30 minutos, 4 puntos)

1. Se considera la cantidad de sodio en hamburguesas de varias marcas de cada uno de los


tipos siguientes:

Carne de ternera,

Carne de buey,

Carne de pollo y

Mezcla (hasta 15 % de carne de pollo).

Se desea determinar si el tipo de carne in‡uye en la cantidad de sodio. Para ello se dispone
de 4 observaciones para cada tipo de de carne, y de la siguiente tabla de Análisis de la Varianza
incompleta:
Fuente de variación Suma de Cuadrados G. l. Cuadrado medio Estadístico F
Tipo de carne 5.91
Residual 54
Total
Se pide:
a) Indicar de qué modelo se trata así como la ecuación del mismo y las hipótesis de dicho
modelo,
b) Completar la tabla ADEVA,
c) A la vista de lo anterior enunciar e interpretar las conclusiones que puedan obtenerse
de esta tabla.
NOTA: Tomar = 0;05:

a) Modelo de análisis de la varianza con un factor: yij = i + uij ; con uij ! N (0;  2 ): Y se asumen las
hipótesis de normalidad, homocedasticidad e independencia.
Fuente de variación Suma de Cuadrados G. l. Cuadrado medio Estadístico F
Tipo de carne 26;5953 = 79;785 K 1=3 4;55;91 = 26;595 5.91
b) 2
Residual 54 n K = 12 sbR = V N E=12 = 54=12 = 4;5
Total 79;785 + 54 = 133;785 n 1 = 15
El valor del estadístico F (de la tabla, 5.91) se compara con el valor en tablas para una FK 1;n K;0;05 
F3;12;0;05 = 3;49: Y como 5;91 > 3;49 entonces se rechaza la H0 : 1 = 2 = 3 = 4 , frente a la H1 : Alguna es
distinta. Por tanto el factor "tipo de carneresulta signi…cativo. El "tipo de carne"in‡uye signi…cativamente
en la cantidad de sodio presente.

2. Una empresa que se dedica a la construcción de campos de golf está estudiando la calidad
de varios tipos de césped. Para ello, se mide la distancia recorrida por una pelota de golf
en el campo después de bajar por una rampa (esto se hace para proporcionar a la pelota
una velocidad inicial constante).
El terreno en el que se realizan pruebas dispone tiene mayor pendiente en la dirección
Norte-Sur, por lo que es razonable dividir el terreno en cinco bloques de manera que las
pendientes de las parcelas individuales dentro de cada bloque sean las mismas. En todos
ellos se utilizó el mismo método para la siembra y las mismas cantidades de semilla.
Los datos que se proporcionan en la tabla corresponden a mediciones de las distancias
desde la base de la rampa al punto donde se pararon las pelotas.
En el estudio se incluyeron las variedades de césped siguientes:

Agrostis T. (Césped muy …no y denso, de hojas cortas y larga duración), (A)
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

Agrostis C. (Hoja muy …na, estolonífera. Forma una cubierta muy tupida), (B)
Paspalum N. (Hojas gruesas, bastas y con rizomas. Forma una cubierta poco densa)
(C) y
Paspalum V. (Césped …no, perenne, con rizomas y estolones) (D).

Bloque/Variedad de césped (A) (B) (C) (D)


Bloque 1 1.3 2.2 1.8 3.9
Bloque 2 1.6 2.4 1.7 4.4
Bloque 3 0.5 0.4 0.6 2
Bloque 4 1.2 2 1.5 4.1
Bloque 5 1.1 1.8 1.3 3.4
Indicar si alguna de las variedades de césped resulta ser signi…cativamente mejor que las
demás (en términos de la distancia recorrida por la pelota de golf en el campo después
de bajar por una rampa). NOTA: Se pide ilustrar y explicar las conclusiones sobre el
grá…co de medias.
Modelo en bloques aleatorizados: yij =  + i + j + uij ; con uij ! N (0;  2 ): Y se asumen las hipótesis
de normalidad, homocedasticidad e independencia. El subíndice i hace referencia al tipo de césped y
el j al bloque.
Se calculan las medias:
yA: = 1;14
yB: = 1;76
yC: = 1;38
yD: = 3;56
y;1 = 2;3
y;2 = 2;525
y;3 = 0;875
y;4 = 2;2
y;5 = 1;9
y:: = 1;96
Y la tabla ADEVA que se obtiene:
Tanto el factor çéspedçomo el bloque son signi…cativos.
A continuación se muestra el grá…co de medias (efectos principales factor çésped"):
Cada intervalo se calcula como: yi:  t(5 1)(4 1); 0;05 sbR p15 , con i = A; B; C; D:
2
p 1
yi:  2;179 0;0793 p5 = yi:  2;1790;1259365 = yi:  0;2744156
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

3.5
3.0
2.5
medias

2.0
1.5
1.0

A B C D

CESPED

El cesped tipo "D"es el que da lugar la mayor distancia, y ésta es signi…cativamente mayor que el
resto.
Los intervalos del grá…co vienen dados por:
1;14  0;2744156
1;76  0;2744156
1;38  0;2744156
3;56  0;2744156
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

Problema (45 minutos, 6 puntos)

Se está estudiando la dureza ( kg fuerza) de unas probetas de acero. Se piensa que la dureza depende del
método de medición empleado (M1, M2, M3) y del contenido en carbón activo (1 %, 2 %) de la probeta.
Para ello se ha realizado el experimento (replicado dos veces) que se presenta en la siguiente tabla:

Contenido en carbón activo


1% 2%
218 187
M1
205 201
202 204
Método M2
220 233
165 227
M3
169 311

1. Indique el tipo de experimento que se ha realizado y formule el modelo matemático correspondiente.


Obtenga la tabla de Ánálisis de la Varianza del experimento, y realice los contrastes correspondientes
(α = 0, 05) sabiendo que la Variabilidad Total de los datos es 15583,7 y la estimación de algunas
interacciones es (αβ)  M2,1 % = 11, 58 y (αβ)
 M1,1 % = 24, 08; (αβ)  M3,1 % = −35, 66.

2. Complete el análisis realizando los contrastes y los gráficos que considere convenientes para interpretar
los resultados. Indique los tratamientos (condiciones experimentales) en los que se han obtenido durezas
medias distintas (α = 0, 05).

3. En el informe final del experimento se han escrito una serie de afirmaciones; indique si son verdaderas
o falsas justificando la respuesta a la vista de los resultados anteriores o realizando nuevos cálculos o
gráficos si los considera necesarios.

a) Los tres métodos de medición son equivalentes si se considera un nivel de significación de 0,05.
b) Las probetas con el 2 % de carbón activo presentan por término medio mayor dureza que las que
tienen un 1 % de carbón activo.
c) Al hacer la diagnosis se incumple la hipótesis de homocedasticidad.
d) La varianza del Método 3 de medición es el doble que la correspondiente al Método 1 (α = 0, 05).
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

Solución Problema

1. Es un diseño factorial con dos factores replicado 2 veces. Un factor es el método de medición (3 niveles)
y el otro factor es el contenido en carbón activ o (2 niveles). La ecuación del modelo es

yijk = µ + αi + β j + (αβ)ij + uijk i = 1, 2, 3; j = 1, 2; k = 1, 2


y cumple las hipótesis 2
uijk  N(0, σ ) e independientes.
Se verifican también las ecuaciones de restricción:
3 2 3
  2
αi = 0; β j = 0; (αβ)ij = 0 ∀j (αβ)ij = 0 ∀i.
i=1 j=1 i=1 j=1
La tabla de análisis de la varianza es:
Fuente de variabilidad Suma de cuadrados Grados de libertad Cuadrados medios Contraste
VE(Método) 516,2 2 258,1 0,361
VE( %Carbón activo) 2821,3 1 2821,3 3.94
VE(Interacción) 7942,2 2 3971,1 5.54
VNE 4301,0 6 716,83
VT 15583,7 11

Para α = 0, 05, el valor de las tablas es F2,6;α=0,05 = 5,14 y F1,6;α=0,05 = 5,99

Por lo tanto únicamente resulta estadísticamente significativa la interacción

2. Los resultados del experimento se debe interpretar a partir del gráfico de la interacción.

Factor: CAR
300

Nivel: 1%
Nivel: 2%
250
medias

200
150

Nivel: I Nivel: II Nivel: III

Factor: MET

La expresión para los intervalos de confianza que se han incluido en el gráfico de la interacción es:
sR
µ + αi + β j + (αβ)ij ∈ y ij ± tα/2 × √ con (1 − α) % de confianza.
2
En particular:
Tratamiento I: M3-1 % sería µ + αi + β j + (αβ)ij ∈ [120,68; 213,32] con 95 % de confianza.
Tratamiento II: M3-2 % sería µ + αi + β j + (αβ)ij ∈ [222,68; 315,33] con 95 % de confianza.

Ambos intervalos no se solapan, podemos decir que su diferencia es estadísticamente significativa.

El contraste:

H0 : µT I = µT II
H1 : µT I = µT II  
 
 
y y  167 − 269 
Si H0 es cierta,  T I− T II  t6 =⇒ |t0 | =    = 3,81 > t6;0,025 = 2,45 =⇒Se
1 1 √ 1 1 
sR +  716,83 + 
nT I nT II 2 2
rechaza H0 .
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

Los tratamientos I( Método3-1 %) y II (Método 3-2 %) son distintos como se puede apreciar en el gráfico,
viendo que los intervalos de confianza no se solapan.
Entre el resto de los tratamientos no existen diferencias estadísticamente significativas.

3. a) Falsa: Al haber interacción, la influencia del método depende del % de carbon. En concreto el M3
proporciona mediciones distintas dependiendo de si las probetas tienen el 1 % o el 2 % de carbón. Es
decir el M3 es capaz de diferencias entre 1 % y 2 % y los otros métodos no.
b) Falsa: Por término media ambas probetas presentan la misma dureza, sólo con el Método 3 se
concluye que las probretas con el 2 % de carbón tienen mayor dureza por término medio que las
probetas con el 1 %.
c) Verdadera: Se calculan los residuos, y al hacer los gráficos de la diagnosis se observan que no
cumple la hipótesis de homocedasticidad.
Contenido en carbón activo
1% 2%
6,5 −7
M1
−6,5 7
Los residuos son:
−9 −14,5
Método M2
9 14,5
−2 −42
M3
2 42

Residuals vs Fitted Normal Q−Q


12 12
40

2
Standardized residuals
20

1
Residuals

7
−20

7
−1
−40

−2

11
11

180 200 220 240 260 −1.5 −0.5 0.0 0.5 1.0 1.5

Fitted values Theoretical Quantiles

Constant Leverage:
Scale−Location Residuals vs Factor Levels
1.5

12
11
12
2
Standardized residuals

Standardized residuals
1.0

7
0
0.5

7
−1
−2

11
0.0

CAR :
180 200 220 240 260 1% 2%

Fitted values Factor Level Combinations


Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

d) Verdadera: 
H0 : σ2M3 = 2σ2M1
Si se realiza el contraste
H1 : σ2M3 = 2σ2M1
Se verifica
(nM3 − 1) s2M3
(nM3 − 1)σ2M3
 F(nM3 −1);(nM1 −1 ) = F3,3
(nM1 − 1) s2M1
(nM1 − 1)σ2M1

1 s2M3
Si H0 cierta=⇒ σ2M3 = 2σ2M1 =⇒  F(nM3 −1);(nM1 −1 ).
2 s2M1
Se calcula
2 
 2 2 
 2
(eM1,jk )2 (eM3,jk )2
j=1 k=1 j=1 k=1
s2M1 = = 60,83; s2M3 = = 1178, 7
nM1 − 1 nM3 − 1

1 s2M3
F0 = = 9,69 ∈ [F3,3;0,975 ; F3,3;0,025 ] = [0,065; 15,44] =⇒ No se puede rechazar H0 .
2 s2M1

H0 : σ2M3 ≥ 2σ2M1
O tambien se puede realizar el contraste:
H1 : σ2M3 < 2σ2M1
1 s2M3
En este caso F0 = = 9,69, y se rechazará H0 cuando F0 < F3,3;0,95 = 1/9,28 = 0,11 =⇒ No se
2 s2M1
puede rechazar H0 .
17 de junio de 2015

Cuestiones (30 minutos, 4 puntos)

1. La empresa EMUS, S.L. está estudiando el rendimiento de un proceso químico, para


ello realiza 30 experimentos y estudia la relación lineal entre la Temperatura (T ) y la
Presión(P ) sobre el rendimiento :
Se denomina X a la matriz de regresores (X = [1 X1 X2 ]); siendo:
2 3 2 3
5;1 0;12 0;05 0;06
(X T X) 1 = 4 0;12 30;8 0;08 5 ; X T Y = 4 0;05 5y s^R = 0;03:
0;05 0;08 0;001 9;45
Se pide:

a) Estimar el modelo de regresión multiple y realizar los contrastes individuales ( =


0;05) (1 punto)
b) Se va a tomar nueva observación con 89o C y 1 bar; obtenga un intervalo de predicción
para la nueva observación.( = 0;05) (1 punto)

Solución:

a. El modelo estimado es:


2^ 3 2 3
0 0;1605
^ = ^ 0 + ^ 1 T + ^ 2 P; donde ^ = 4 ^ 1 5 = (X T X) 1 X T Y = 4 0;7914 5;
^ 2;45 10 3
2
así, el modelo estimado es: ^ = 0;16 + 0;79T 0;002P:
d
Para realizar los contrastes individuales se contrasta H0 = i = 0 vs H1 6= 0, donde la V AR( ^ i ) =
s^2R qii , siendo qii los elementos diagonales de la matriz (X T X) 1 :
^ 0 0;79
t1 = 1p = p = 4;75;
s^R q11 0;03 30;8
^ 0 0;002
2
t2 = p = p = 2;58:
s^R q22 0;03 0;001
Comparamos los valores de la t con tn k 1 = t27;0;025 = 2;052: Por lo que la P y T in‡uyen signi…ca-
tivamente en el :

b. El intervalo solicitado es para una nueva observación no utilizada en la estimación del modelo.
El intervalo es:
p
2 ^h tn k 1 s^R 1 + vhh
siendo ^h el valor previsto para 89 o
2 C y 1 bar (0;1605 +3 0;7912x89
2 3 0;00245x1 = 70;57) y
5;1 0;12 0;05 1
vhh = xTh (X T X) 1 xh = 1 89 1 4 0;12 30;8 0;08 5 4895 = 243957; 56:
0;05 0;08 0;001 1
p
2 70;57 2;052 0;03 1 + 243957; 56 = 70; 57 30;41 ! 2 (40; 16; 100)
17 de junio de 2015

2. Se realizan los tres modelos de regresión simple entre la variable Y, costes de producción
de la primera edición de un best-seller, y las variables explicativas X1, tinta; X2, coste del
papel y X3, coste de las tapas, obteniendo para los contrastes individuales los siguientes
p valores : 0; 002; 0;012 y 0; 04 respectivamente.
A continuación se estima el modelo de regresión múltiple con las tres variables explicativas
mencionadas anteriormente Y^ = ^ 0 + ^ 1 X1 + ^ 2 X2 + ^ 3 X3 siendo los p-valores de los tres
contrastes individuales 0; 001; 0; 01 y 0; 035 y el contraste conjunto de regresión múltiple
H0 : 1 = 2 = 3 = 0 vs H1 : algún i 6= 0 con p valor = 0; 001.
Interprete los resultados presentados anteriormente, utilice = 0;05. (1 punto)
Posteriormente se realiza la diagnosis del modelo. El grá…co de los residuos frente a los
valores observados Y muestra relación entre ellos. Justi…que este comportamiento. (1
punto).
Solución:
Todos los contrastes individuales de los modelos de regresión simple y los contrastes individuales del
modelo de regresión múltiple son signi…cativos, ya que los p valores < = 0;05:El contraste general
de regresión también es signi…cativo p valor < = 0;05:Por lo que no se detecta ninguna incoherencia
. El modelo de regresión múltiple es correcto a falta de la diagnosis.
No tenemos información para estudiar la homocedasticidad y la normalidad de los residuos. Nos dicen
en el enunciado que el grá…co de los residuos frente a los valores observados Y muestra relación entre
ellos, los residuos y el vector Y^ son ortogonales, esa es la razón de que el grá…co que usamos para la
diagnosis sea e vs Y^ (valores previstos), y no e vs Y (valores observados). Por lo que concluimos que
es lógico que aparezca relación entre ellos, como puede observarse a continuación:

e=Y Y^ = Y X^ = Y X(X T X) 1
X T Y = (I V )Y
Examen Final Ordinario Modelos de Regresión 29 de mayo de 2015

Problema (45 minutos, 6 puntos)

Se ha realizado un experimento en una fábrica de papel con el objetivo de explicar la


variable CALIDAD del mismo (Y ) en función de tres variables cuantitativas X1 ; X2 y X3 y
una cualitativa, Z: MEJORA, que toma el valor 0 si no se aplican ciertas técnicas de mejora
en el proceso productivo y 1 si se aplican.
Resulta necesario (para que la diagnosis sea correcta) trabajar con todas las variables
cuantitativas: Y; X1 ; X2 y X3 en logaritmos en todo momento. El número total de datos de los
que se dispone es n = 153:

1. En primer lugar se realizan las tres regresiones simples: de log(y) frente a log(x1 ); de log(y)
frente a log(x2 ) y de log(y) frente a log(x3 ): En la tabla se proporcionan la media y la
varianza de todas las variables cuantitativas transformadas, y además cov(log(y); log(x1 )) =
0;639; cov(log(y); log(x2 )) = 0;382; cov(log(y); log(x3 )) = 0;505:

Variable log (y) log (x1 ) log (x2 ) log (x3 )


Media 3.108 3.011 2.952 3.332
Varianza 0.634 0.696 0.464 0.529

1. Se pide calcular para los tres modelos de regresión simple mencionados los estimadores de
los coe…cientes de los modelos de regresión simple así como el coe…ciente de determinación
para cada uno de ellos (R12 ; R22 y R32 ):
log (y) = 01 + 11 log (x1 ) + u1 ;
log (y) = 02 + 12 log (x2 ) + u2 ;
log (y) = 03 + 13 log (x3 ) + u3 :
¿Qué modelo elegiría basándose en el porcentaje de variabilidad explicada por el modelo
considerando que la diagnosis de los 3 modelos es correcta?
b = cov(log(y);log(x1 ))
= 0;639
= 0;9181
11 var(log(x1 )) 0;696
b = log(y) b log(x1 ) = 3;108 0;9181 3;011 = 0;3436
01 11
b = cov(log(y);log(x2 ))
= 0;382
= 0;8233
12 var(log(x2 )) 0;464
b = log(y) b log(x2 ) = 3;108 0;8233 2;952 = 0;6776
02 12
b = cov(log(y);log(x3 ))
= 0;505
= 0;9546
13 var(log(x3 )) 0;529
b = log(y) b log(x3 ) = 3;108 0;9546 3;332 = 0;0727
03 13
2 2
cov(log(y);log(x1 )) 0;639
R12 = (corr(log(y); log(x1 )))2 = std(log(x1 )) std(log(y)) = p p
0;696 0;634
= 0;9253
2 2
cov(log(y);log(x2 )) 0;382
R22 = (corr(log(y); log(x2 )))2 = std(log(x2 )) std(log(y)) = p p
0;464 0;634
= 0;4960
2 2
cov(log(y);log(x3 )) 0;505
R32 = (corr(log(y); log(x3 )))2 = std(log(x3 )) std(log(y)) = p p
0;529 0;634
= 0;7604

2. A continuación se construye un modelo de regresión múltiple para explicar el log(y) a


través de log(x1 ); log(x2 ) y log(x3 ), mediante un modelo de regresión múltiple, obteniéndose
los resultados que se muestran a continuación:
Se pide interpretar los resultados de los contrastes individuales, así como del contraste
general de regresión, y a la vista de lo anterior proponer si dicho modelo puede ser
Examen Final Ordinario Modelos de Regresión 29 de mayo de 2015

simpli…cado, indicando cómo. (Tomar = 0;05). Discutir las diferencias con los resultados
del apartado 1) y comentar a qué pueden deberse.

Si el modelo es: log(y) = + log(x1 ) + log(x2 ) + 2 ):


0 1 2 3 log(x3 ) + u; con u ! N (0;
Con esta notación:
b = 0;04826
0
b = 0;69084
1
b = 0;04973
2
b = 0;27071
3
CONTRASTES INDIVIDUALES:
Con los p-valores de la …gura (salida de R) se tiene que 0 y 2 no resultan estadísticamente signi-
…cativos (p-valores iguales a 0.531 y 0.106, respectivamente). Aunque el segundo de ellos está cerca de
serlo para un nivel de signi…cación que fuera = 0;1.
El valor de los estimadores de 1 ; 2 y 3 ; es decir, b 1 = 0;69084, b 2 = 0;04973 y b 3 = 0;27071
se ha modi…cado bastante respecto a los b , b y b . Esto podría ser debido a un problema de
11 12 13
multicolinealidad, para corroborarlo se debería disponer de la matriz de correlaciones de los regresores
(log(x1 ), log(x2 ) y log(x3 )).
CONTRASTE GENERAL DE REGRESIÓN:
H0 : 1 = 2 = 3 =0
H1 : Alguna distinta de cero
Como el p-valor del contraste general de regresión es 2;2 10 16 se rechaza la hipótesis nula en favor de
la alternativa.

3. Se introduce la variable z : MEJORA (cualitativa) en el modelo óptimo obtenido del


apartado anterior y se tiene que el estimador del coe…ciente de regresión b M EJORA =
0;355115 y el valor de su error estándar de estimación vale 0;03221758: Indicar justi…-
cadamente si dicha variable cualitativa resulta signi…cativa así como la interpretación de
dicho coe…ciente de regresión.
b M EJORA
El estadístico t para el correspondiente contraste individual se calcula así: t stat = error estandar estimacion (b M EJORA )
0;355115
0;03221758 = 11;0224
Examen Final Ordinario Modelos de Regresión 29 de mayo de 2015

Y como j 11;0224j >> tn k 1 t153 4 1; 0;05 ' 2 resulta estadísticamente signi…cativa pues se
2
rechaza la H0 : M EJORA = 0:
Ordenada en el origen con MEJORA=0 vale b 0 y con MEJORA=1 sería: b 0 + b M EJORA = b 0
0;355115:
Al pasar de MEJORA=0 a MEJORA=1, el log(Calidad) disminuye 0;355115:
Examen Extraordinario - Diseño y Regresión 26 de junio de 2015

Cuestiones (30 minutos, 4 puntos)

1. Unos estudiantes de Biologı́a están analizando la reducción de una enzima en un reacción quı́mica,
para ello trabajan con tres reacciones diferentes y cinco mezclas.

Reacción
1 2 3 M edias
1 199 124 80 134, 3
2 200 120 78 132, 7
3 198 120 78 132, 7
4 197 122 82 133, 3
5 200 121 80 133, 3
M edias 198, 8 121, 4 79, 6 ȳ.. = 133, 3
Obtenga la tabla ADEVA y concluya qué variables son significativas. Justifique y escriba el modelo
correcto para el experimento realizado.
2 Se estudia la producción de un fármaco, para ello se utilizan dos componentes que se denominan
Componente 1 y Componente 2, cada componente tiene dos niveles, y cada tratamiento tiene dos
réplicas. Los p-valores del efecto principal del Componente 1 (A), del efecto principal de la Componente
2 (B) y la interacción de segundo orden AB son respectivamente p-valor= 0, 999, p-valor= 0, 2378 y
p-valor= 0, 000.
A continuación se presenta la tabla con las medias de los cuatro tratamientos y el gráfico de la
interacción AB.

C1 − 1 C1 − 2
C2 − 1 35 21
C2 − 2 20 34

Tabla de medias de los tratamientos

Se pide:

a) ¿Qué condiciones experimentales son las más favorables para obtener la máxima producción? La
varianza residual del modelo de dos factores es ŝ2R = 1, 04. Utilice α = 0, 05.
b) Estime la V E(A:Componente 1) y la V E(B:Componente 2) considerando únicamente los datos
del gráfico.
𝑠̂𝑦2 = 1473.4 ; 𝑠̂𝑥2 = 26.25 ; 𝑐𝑜𝑣(𝑥, 𝑦) = 𝑠𝑥𝑦 = 142.96 𝑦̅ = 86.31 ; 𝑥̅ = 16.5

𝑠̂𝑅 = 26.76
𝛽1 𝛼 = 0.05

{𝑧𝑎𝑙𝑡𝑎 , 𝑧𝑚𝑒𝑑𝑖𝑎 , 𝑧𝑏𝑎𝑗𝑎 }

𝑏𝑒𝑛𝑒𝑓𝑖𝑐𝑖𝑜𝑠 = 𝛽0 + 𝛽1 · 𝑣𝑖𝑠𝑖𝑡𝑎𝑠 + 𝛼𝑏𝑎𝑗𝑎 · 𝑧𝑏𝑎𝑗𝑎 + 𝛼𝑎𝑙𝑡𝑎 · 𝑧𝑎𝑙𝑡𝑎 + 𝑢

0.3982 -0.0188 -0.0927 -0.0880


-0.0188 0.0011 0.0006 0.0003
(𝑋 𝑇 −1
· 𝑋) = -0.0927 0.0006 0.1669 0.0835
-0.0880 0.0003 0.0835 0.1743
𝑋𝑇 · 𝑌 = [3021 54707 965 1050]T
𝑠̂𝑅 = 26.81

𝛼 = 0.05

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -68.7562 83.9978 -0.819 0.419
visitas 15.7032 13.7715 1.140 0.263
Zbaja -0.9008 11.0369 -0.082 0.935
Zalta 14.0552 11.3655 1.237 0.226
ninos -12.0809 16.1811 -0.747 0.461

Residual standard error: 27 on 30 degrees of freedom


Multiple R-squared: 0.5633, Adjusted R-squared: 0.5051
F-statistic: 9.675 on 4 and 30 DF, p-value: 3.784e-05

𝛼 = 0.05
EXÁMENES
Curso 2015/16
Examen de Diseño y Regresión, GITI 14 de marzo de 2016

Cuestiones (30 minutos, 4 puntos)

1.) Los propietarios de un hotel rural quieren reducir el gasto en lavandería ya que se han
dado cuenta que con el detergente que utilizan en la actualidad tienen que devolver la ropa
"supuestamente limpia.a la lavandería en demasiadas ocasiones.
Han realizado un experimento para comparar cuatro detergentes de distintas marcas en
tres tipos de manchas distintas y han medido la "blancura"de la ropa después del lavado.
Se pide plantear el modelo más adecuado, indicar su nombre y justi…car la respuesta de la
elección. Indicar el detergente que obtiene mejores resultados, así como el peor. NOTA: La
obtención de un valor mayor signi…ca mayor blancura. Utilizar = 0;05:

El modelo adecuado es un modelo en bloques aleatorizados: se quiere detectar cuál es el detergente más
e…caz, pero el tipo de mancha puede in‡uir en la "blancura"que se obtiene.

2
yij = + i + j + uij ; con uij N (0; );
donde es la media global, i y j los efectos principañes asociados al "factor detergente "bloque mancha- 2

espectivamente. uij es el término de error. Cada yij es la blancura obtenida con detergente i-ésimo para la
mancha j-éisma.
A la vista de la tabla de medias, el mejor detergente en media es el Detergente 3, y el peor el Detergente
4. Ahora vamos a ver si existe diferencia estadísticamente signi…cativa con los demás detergentes.

Figura 1: Tabla de medias. Cuestión 1.

Los residuos se calculan: eij = yij y i: y :j + y :: y quedarían:


P
I P
J
e2ij
P
I P
J
V NE i=1 j=1 18;833
V NE = e2ij , donde I = 4 y J = 3 en este caso. Y sb2R = (I 1)(J 1) = (4 1)(3 1) = 6 = 3;138:
i=1 j=1
Para el cálculo de los intervalos utilizamos la expresión:
+ i 2 y i: t(4 1)(3 1); 2 sbR p1J ; con lo que quedaría que:
Examen de Diseño y Regresión, GITI 14 de marzo de 2016

Figura 2: Residuos del modelo en bloques

p
+ 1 2 y 1: t6; 2 3;138 p13 ! + 1 2 46;333 2;447 1;7714 p1 ,
3
entonces + 1 2 46;333 2;5026,
entonces + 1 2 [43;8304; 48;8356]:
p
+ 2 2 y 2: t6; 2 3;138 p13 ! + 2 2 48;333 2;5026, entonces + 2 2 [45;8304; 50;8356]:
p
+ 3 2 y 3: t6; 2 3;138 p13 ! + 3 2 51 2;5026, entonces + 3 2 [48;4974; 53;5026]:
p
+ 4 2 y 4: t6; 2 3;138 p13 ! + 4 2 42;667 2;5026, entonces + 4 2 [40;1644; 45;1696]:

2.) Un grupo de profesores de Primaria sospecha que sus alumnos aprenden de manera más
efectiva con música clásica de fondo a un volumen constante y moderado, y menos efectiva en
silencio o con música cuyo volumen y tipología sea variable.
Por ello eligen 24 alumnos al azar y los dividen de manera aleatoria en tres grupos de ocho
alumnos. Todos ellos estudian en las condiciones descritas un texto durante 30 minutos:

Sonido Constante de fondo, música clásica a volumen constante (SC),

Sonido que varía periódicamente (SV),

Sin sonido ni música de fondo (SS).

Después se les hace a los alumnos un test sobre el texto con 10 preguntas, y se recogen sus
puntuaciones.
Examen de Diseño y Regresión, GITI 14 de marzo de 2016

a) Indicar de qué modelo se trata y plantear la ecuación del mismo de…niendo qué es cada
término y subíndice, así como las hipótesis que se asumen.
Modelo de análisis de la varianza con un factor.

2
yij = i + uij con uij N (0; ):
Llamaremos a nivel del factor SC: 1, SV: 2, SS: 3. El factor "sonido de fondo"tiene K = 3 niveles.
i = 1; 2; 3. yij son las puntuaciones del alumno j-ésimo que ha estudiado el texto en la condición i (según la
de…nición anterior). i parte predecible, explicada por el modelo. uij término de error.
Se asumen las hipótesis de homocedasticidad, normalidad e independencia.
b) Indicar el número de parámetros a estimar.
Se estiman 1 , 2 , 3 y 2 , que es la varianza del error. Por tanto, se estiman 4 parámetros.
c) Respecto a la diagnosis del modelo se proporcionan los dos grá…cos siguientes y se
realiza un contraste de bondad de ajuste obteniéndose un p-valor de 0.2614. Se pide indicar si
con toda esta información las hipótesis indicadas en a) pueden comprobarse y si se cumplen.
NOTAS: Tomar = 0;05. En el contraste de bondad de ajuste la H0 es que los residuos son
normales, y la H1 que no lo son.
Para comprobar homocedasticidad se utiliza el grá…co proporcionado en el enunciado: residuos frente a
valores previstos, y al no observarse que la dispersión crezca al hacerlo los valores previstos, o decrezca con
ellos (residuos en forma de "trompeta") esto nos permite dar por válida la hipótesis de homocedasticidad.
En cuanto a la hipótesis de normalidad, a la vista del Q-Q plot (puntos bastante alineados al representar
percentiles de los valores muestrales frente a los teóricos (distribución normal correspondiente) y sobre
todo dado que el p-valor proporcionado para el contraste de bondad de ajuste es 0.2614, que es mayor que
cualquiera de los niveles de signi…cación habituales (.01, 0.05 y 0.1) no se rechaza la hipótesis de normalidad.
Independencia: Es la hipótesis fundamental y con diferencia la más importante de las tres, además es la
más difícil de comprobar. Ninguno de los grá…cos mostrados permite comprobar esta hipótesis. Pero en este
sentido la clave está en la aleatorización.
d) Indicar si se necesita algún grá…co o comprobación adicional. En caso a…rmativo indicar
cuáles.
Como se indicaba en c) Respecto a la hipótesis de independencia: Ninguno de los grá…cos mostrados
permite comprobar esta hipótesis. Pero en este sentido la clave está en la aleatorización.
La aleatorización evita que se produzcan errores que sistemáticamente aumenten o disminuyan un con-
junto de medidas por causas no reconocibles: al aleatorizar se reparten estos errores por igual entre los
diferentes tratamientos y se convierten en errores aleatorios, previstos en el modelo.
Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016

Problema (45 minutos, 6 puntos)

Se estudia la variable aleatoria  , resistencia a la compresión (psi) en probetas de hormigón asfálti-


co en función del "método de compresión"(Estático, Regular, Bajo y Muy Bajo) y el "tipo de sustancia
agregada"(Basalto y Silicio). Se ha experimentado en las ocho posibles combinaciones (ocho tratamientos)
de ambos factores replicando cada experimento tres veces. A continuación se muestran los resultados del
experimento (Tabla 1) y la tabla ADEVA (Tabla 2) para el diseño experimental:

Método de compresión
   
Tipo Sustancia  68,63,65 126,128,133 93,101,98 56,59,57
 71,66,66 107,110,116 63,60,59 40,41,44

  1 : Resultados del experimento

  2 : Tabla ADEVA

1. Formule el modelo matemático que se ha utilizado. Razone qué efectos son significativos. Interprete
los resultados obtenidos, realice los gráficos que necesite para decidir qué tratamientos son distintos.
¿Existe un tratamiento con mayor resistencia a la compresión, y un tratamiento con menor resistencia
a la compresión?.¿Cuáles y por qué? (3.5 puntos)

2. Obtenga un intervalo de confianza para la varianza del error experimental del diseño experimental.
(1.5 puntos)

3. Indique qué distribución sigue  y estime por máxima verosimilitud los parámetros  y   del
modelo propuesto en el primer apartado. (1 punto)
Nota: Utilice para todos los apartados  = 005
Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016

Solución:

1. Formule el modelo matemático que se ha utilizado. Razone qué efectos son significativos. Interprete
los resultados obtenidos, realice los gráficos que necesite para decidir qué tratamientos son distintos.
¿Existe un tratamiento con mayor resistencia a la compresión, y un tratamiento con menor resistencia
a la compresión?.¿Cuáles y por qué? (3.5 puntos)
Se plantea um modelo con dos factores e interacción. La variable respuesta  es la resistencia a la
compresión (psi), los dos factores son: Factor 1-Tipo de Sustancia y Factor 2-Método de compresión.
El modelo matemático es:

 =  +  +   +   +   () → (0 2 )


X 
X 
X 
X
 =  =   =   = 0; con  = 2  = 4  = 1 2 3(número de réplicas)
=1 =1 =1 =1

Observando la tabla ADEVA concluimos que el efecto principal "Tipo de Sustancia", el efecto principal
"Método de compresión 2la interacción entre "Tipo-Método"son significativas, ya que los p-valores son
 −   005
Como la interacción es significativa, el efecto del primer factor depende del nivel al que esté el segundo
factor (y viceversa). Para poder saber que tratamiento es el que tiene mayor resistencia, menor
resistencia y cúales son distintos calclamos el gráfico de la interacción incluyendo los intervalos de
confianza para las medias de los ocho tratamientos. A continuación se presenta una tabla con las
medias de cada tratamiento.

Método de compresión
   
Tipo Sustancia  65,33 129 97,33 57,33
 67,66 111 60,66 41,66

Medias de los tratamientos

Calculamos el intervalo de confianza para las medias de cada tratamiento, como se describe a contin-
uación:
r
1
̄ ± (−1);2 ̂

r r r
√ 1 1 1
siendo (−1);2 = 16;0025 = 212; ̂ = 95 y = Por lo tanto, (−1);2 ̂ = 372
 3 
A continuación se presenta el gráfico de la interacción con las medias de cada uno de los ocho tratamientos
y los respectivos intervalos de confianza.
Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016

Interactions and 95.0 Percent LSD Intervals


138 Metodo
1
118 2
Resistencia
3
98 4

78

58

38
1 2
Tipo

́    ́


El tratamiento con mayor resistencia a la compresión es Método regular y Tipo B, el tratamiento con
menor resistencia a la compresión es Método muy bajo y Tipo S. Ya que corresponden al más alto y más
bajo respectivamente y sus intervalos no se solapan con los intervalos de los demás tratamientos. Los unicos
tratamientos que no se pueden considerar distintos son:M1-TB con ME-TS, M3-TS con M1-TB, M3-TS con
MMB-TB.

2. Obtenga un intervalo de confianza para la varianza del error experimental del diseño experimental.
(1.5 puntos)
Nos piden un intervalo de confianza para  2 así:
PPP
  2 (( − 1))̂2
→ 2(−1) ; = → 2(−1) ;
2 2 2

 (2 ≤ 2(−1) ≤ 2 ) = 1 − ;

(( − 1))̂2
2 ≤ ≤ 2 
2
Y el intervalo para  2 es:

(( − 1))̂2 2 (( − 1))̂2


≤  ≤
2 2

siendo ( − 1) = 16 ̂2 = 95 2 = 69 y 2 = 2885. Por lo tanto el intervalo pedido es:

 2 ∈ (53; 22)
Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016

3. Indique qué distribución sigue  y estime por máxima verosimilitud los parámetros  y   del
modelo propuesto en el primer apartado. (1 punto)
La distribución de  sigue una distribución normal, ya que es una combinación de variables normales,
con esperanza y varianza las siguientes:

[ ] = [ +  +   +   +  ] =  +  +   +   + 0 =  +  +   +  

 [ ] =  [ +  +   +   +  ] = 0 +  2 =  2

Por lo tanto la distribución de  es:

 →  ( +  +   +   ;  2 )

Estimación máximo verosimil de los parámetros  y   del modelo.

1
1 − (( −− −  −  ))2
 ( ) = √  2
 2
Función de verosimilitud:

1 
1 − [( −− −  −  )]2 
2
(111   243 ;  1    1   24   ) =   2   
 (2)2

Función soporte:

 X X X  −  −  −   −  
( 1    1   24   2 ) =  − log  2 − [ ]2 
2 
  

XXX PPP
 c ) = 0 ⇒ ̂ = 
=0⇒2 ( − ̂ − ̂ − ̂  −   = ̄
 

 XX
= 0;  = 1 2 ⇒ c )=0⇒
( − ̂ − ̂ − ̂  −  

 
XX
̂ = c )=0⇒
( − ̂ − ̂ − ̂  −  
 
P P
  
̂ = − ̄ = ̄ − ̄


XXX P P
 c ) = 0 ⇒  ⇒ ̂ =   
= 0  = 1 2 3 4 ⇒ ( −̂−̂ −̂  −   −̄ = ̄ −̄
  
Evaluación Continua 2 Diseño de Experimentos y Regresión 23 de mayo de 2016

Cuestiones (30 minutos, 4 puntos)

1. Dado el siguiente modelo de regresión:

ŷi = −19,62 + 0,59x1i + 3,72x2i , n = 12, R̄2 = 0,96,

Además se tiene la siguiente información sobre los datos analizados:

ȳ = 124,50, ŝ2y = 4104,27, x̄1 = 105,75, ŝ2x1 = 3201,84, x̄2 = 22,08, ŝ2x2 = 68,63.

Se pide:

a) Realizar el contraste general de regresión.


b) Analizar si hay multicolinealidad.

2. Se desea comparar dos tratamientos para reducir el nivel de colesterol en la sangre.


Se seleccionan 20 individuos y se asignan al azar a dos tipos de dieta, A y B. La
tabla muestra la reducción conseguida después de dos meses:
Reduccion nivel
colesterol Dieta
51.3 A
39.4 A
26.3 A
39.0 A
48.1 A
34.2 A
69.8 A
31.3 A
45.2 A
46.4 A
29.6 B
47.0 B
25.9 B
13.0 B
33.1 B
22.1 B
34.1 B
19.5 B
43.8 B
24.9 B

a) Proponer un modelo de regresión que permita analizar si hay diferencias entre


las dietas y estimar los parámetros de dicho modelo.
b) Contrastar si hay diferencias en la reducción de nivel colesterol según la dieta
seguida.

Nota.- Utilizar α=0,05


Evaluación Continua 2 Diseño de Experimentos y Regresión 23 de mayo de 2016

Problema (45 minutos, 6 puntos)

En una zona del mar Mediterráneo se han tomado 12 medidas de las concentraciones
de metales pesados en el sedimento (ng/g). Los metales medidos han sido Cd, Pb, Cr, As
y Hg. Para analizar si la concentración de Pb está relacionada con las concentraciones del
resto de metales pesados, se han ajustado diferentes modelos de regresión. Se presentan
los resultados de 4 de ellos, ası́ como las medias y la matriz de varianzas de las variables.
Modelo 1:

lm(formula = Pb ~ Cd)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.75081 10.87684 0.805 0.44
Cd 1.09455 0.09154 11.957 3.02e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 17.18 on 10 degrees of freedom


Multiple R-squared: 0.9346,Adjusted R-squared: 0.9281
F-statistic: 143 on 1 and 10 DF, p-value: 3.022e-07

Modelo 2:

lm(formula = Pb ~ Cr)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -40.2072 15.1626 -2.652 0.0242 *
Cr 7.4584 0.6462 11.542 4.21e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 17.75 on 10 degrees of freedom


Multiple R-squared: 0.9302,Adjusted R-squared: 0.9232
F-statistic: 133.2 on 1 and 10 DF, p-value: 4.208e-07

Modelo 3:

lm(formula = Pb ~ Cd + Cr)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -19.6155 13.4732 -1.456 0.1794
Cd 0.5850 0.2009 2.912 0.0173 *
Cr 3.7244 1.3723 2.714 0.0238 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 13.43 on 9 degrees of freedom


Multiple R-squared: 0.9641,Adjusted R-squared: 0.9561
F-statistic: 120.7 on 2 and 9 DF, p-value: 3.167e-07
Evaluación Continua 2 Diseño de Experimentos y Regresión 23 de mayo de 2016

Modelo 4:
lm(formula = Pb ~ Cd + Cr + As + Hg)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -5.5137 59.1801 -0.093 0.9284
Cd 0.5967 0.2204 2.708 0.0303 *
Cr 2.2402 1.8726 1.196 0.2705
As 0.6466 0.5310 1.218 0.2628
Hg -0.2422 0.5683 -0.426 0.6828
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 13.8 on 7 degrees of freedom


Multiple R-squared: 0.9705,Adjusted R-squared: 0.9536
F-statistic: 57.54 on 4 and 7 DF, p-value: 1.942e-05
Tabla de medias:
Pb Cd Cr As Hg
124.50 105.75 22.08 64.00 98.83
Matriz de varianzas:
Pb Cd Cr As Hg
Pb 4104.27 3504.59 511.86 1169.27 44.09
Cd 3504.59 3201.84 438.02 974.55 71.23
Cr 511.86 438.02 68.63 150.55 2.38
As 1169.27 974.55 150.55 394.18 17.91
Hg 44.09 71.23 2.38 17.91 63.24
1. A partir de la información presentada en los Modelos 1 y 2, conteste a las siguientes
preguntas:
a) ¿Hay evidencia de relación entre las concentraciones de Pb y Cd? Proporcione
el p-valor del contraste y calcule el intervalo de confianza para el parámetro de
la pendiente.
b) Contraste si hay evidencia estadı́stica para asegurar que la pendiente del mo-
delo de regresión, que relaciona el Pb con el Cr, es mayor que 6.
2. Se ha estimado un modelo de regresión multiple que incluye los regresores Cd y Cr
(Modelo 3).
a) Interprete los resultados del Modelo 3 explicando el significado de cada paráme-
tro. Compare el Modelo 3 con los Modelos 1 y 2 y explique las diferencias.
b) Calcule la matriz de varianzas de los estimadores βb1 y βb2 . Compruebe que
rβb1 βb2 = −rx1 x2 .
3. Proporcione los intervalos de predicción obtenidos con los cuatro modelos para la
concentración de Pb de una nueva prospección de sedimiento, cuando las concentra-
ciones de Cd, Cr, As y Hg coinciden con la media. Justifique qué modelo elegirı́a de
los cuatro presentados si se quiere obtener la mejor predicción de la concentración
de Pb.

Nota.- Utilice α=0,05


Evaluación Continua 2 Diseño de Experimentos y Regresión 23 de mayo de 2016

Solución de las Cuestiones

1. Cuestión 1

a) El contraste que hay que resolver es:

H0 : β1 = β2 = 0
H1 : Algún βi 6= 0

Lo resolvemos mediante análisis de la varianza:

V T = (n − 1)ŝ2y = 45146,97

ŝ2R
R̄2 = 1 − ⇒ ŝ2R = (1 − R̄2 )ŝ2y = 164,17
ŝ2y
V NE = (n − K − 1)ŝ2R = 1477,54
V E = V T − V NE = 43669,43
Por tanto
V E/K VE
F = = ⇒ F0 = 133
V NE/(n − K − 1) K ŝ2R
Como F2,9;0,05 =4.26, se rechaza la hipótesis nula.
b) Hay multicolinealidad cuando los regresores están muy correlacionados:
  
T
 s21 s12 β̂1
= n(β̂12 s21 + β̂22 s22 + 2β̂1 β̂2 s12 )

V E = nb̂ Sxx b̂ = n β̂1 β̂2
s12 s22 β̂2

Despejando
V E − nβ̂12 s21 − nβ̂22 s22
s12 =
2nβ̂1 β̂2
43669,43 − 0,592 (12 − 1)3201,84 − 3,722 (12 − 1)68,63
⇒ s12 = = 397,95
24 · 0,59 · 3,72
Y el coeficiente de correlación
s12
ρ12 = = 0,93
s1 s2
Por tanto, si hay multicolinealidad.

2. Cuestión 2

a) El modelo es
yi = β0 + β1 zD + ui , ui → N(0, σ 2 )
donde zD =1 si el individuo sigue la dieta A, y zD =0 si el individuo sigue la
dieta B. De los datos se tiene que:

ȳ = 36,2 ŝ2y = 174,18


Evaluación Continua 2 Diseño de Experimentos y Regresión 23 de mayo de 2016

z̄D = 0,5 ŝ2zD = 0,2631 s2zD = 0,25


ŝy,zD = 3,63
Por tanto
ŝy,zD
β̂1 = = 13,8 β̂0 = ȳ − β̂1 z̄D = 29,3
ŝ2zD
V T = (n − 1)ŝ2y = 3309,42
V E = nβ̂1 s2zD = 952,2
V NE = V T − V E = 2357,22
V NE
σ̂ 2 = ŝ2R = = 130,96
n−2
b) El contraste que hay que resolver es:

H0 : β1 = 0
H1 : β1 6= 0

Para resolver el contraste:

β̂1
t0 = q = 2,696
ŝ2R /ns2zD

Como t18;0,025 =2.101, se rechaza la hipótesis nula: hay diferencias en la reduc-


ción del nivel de colesterol según la dieta seguida.
Evaluación Continua 2 Diseño de Experimentos y Regresión 23 de mayo de 2016

Solución del problema

1. a) Con el modelo 1: Si hay evidencia de relación. Del contraste individual: p-valor


del contrate=3,02 ∗ 10−7 <<< α = 0,05.
 
El intervalo: β1 ∈ βb1 ± t α × sb βb1 con confianza 1 − α.
n−2;
2  
De la salida del program R se obtiene: β1 = 1,09455; b
b s βb1 = 0,09154.
De las tablas: t10;0,025 = 2,228.
El intervalo es β1 ∈ 1,09455 ± 2,228 × 0,09154 =⇒
β1 ∈ [0,89; 1,29] con confianza 95 % .
b) Con el modelo 2: El contraste es:

H0 : β1 ≤ 6 βb1 − 6
=⇒Si H0 cierta=⇒   ˜tn−2
H1 : β1 > 6 sb βb1
Es un contraste unilateral por la derecha. Con lo datos de la salida de R se
obtiene:
7,46 − 6
t0 = = 2,2568 > t10;0,05 = 1,815 =⇒Se rechaza H0 , hay evidencia
0,6462
estadı́stica para asegurar que la pendiente del modelo es mayor que 6.
2. a) Los resultados del modelo 3 indican los siguiente:
- El contraste general es significativa, alguno o todso los regresores son sig-
nificativos (α = 0,05)
- Los contrastes individuales son significativos. Ambos regresores tienen un
efecto positivo sobre la concentración de Pb. En concreto, al aumentar la
concentración de Cd en una unidad, manteniendo la de Cr constante la
concentración de Pb aumenta por término medio en 0.5850 unidades. Al
aumentar la concentración de Cr en una unidad, manteniendo la de Cd
constante, la concentración de Pb aumenta por término medio en 3.7244
unidades.
2
- Es un buen modelo, el coeficiente de determinación corregido es R =
sR = 13,43.
0,9561 y la desviación tı́pica residual b
Las diferencias de los resultados del modelo 3 respecto a los de los modelos 1
y 2 se pueden resumir como sigue:
- Ha disminuido el p-valor de los contrastes individuales, aunque los regre-
sores siguen siendo significativos. (α = 0,05)
- Ha cambiado el valor de los estimadores de los coeficientes de los regresores.
En ambos casos ha disminuido.
- Ha aumentado la varianza de los estimadores de los coeficientes de los
regresores.
Estas tres diferencias pueden indicar la existencia de multicolinealidad.
2
Adicionalmente se observa que R = 0,9561 es superior al correspondiente a
los modelos 1y 2, y la sbR = 13,43, es inferior. Esto indica que la capacidad
predictiva de este modelo es superior a la de los modelos 1 y 2.
Evaluación Continua 2 Diseño de Experimentos y Regresión 23 de mayo de 2016

−1
sb2R −1

13,43 3201,84 438,02
b. La matriz de varianzas es: Mβb = S = =
  n xx 12 438,02 68,63
0,037 −0,236
−0,236 1,73
El coeficiente de correlación entre los resgresores es:
438,02
rx 1 x 2 = √ √ = 0,93.
3201,84 × 68,63
El coeficiente de correlación entre los estimadores de los parámetros es:
−0,236
rβb1 xβb2 = √ √ = −0,93.
0,037 × 1,73
Se comprueba entonces que rβb1 βb2 = −rx1 x2 .
(Nota.- se podı́a haber hecho teóricamente).

3. El intervalo de predicción para una nueva observación tanto para los modelos de
regresión simple (modelos 1 y 2) como los modelos de regresión múltiple se pueden
escribir:

yh ∈ yeh ± t α × sbR × 1 + νhh .
n−k−1;
2
Como se pide hacer la predicción cuando las concentraciones de los regresores coin-
ciden con la media=⇒
1 1 1
Para todos los modelos: yeh = ybh = y h = 124,5. Y además νhh = = = .
n
bh n 12
Lo único que varı́a en los intervalos de predicción de un modelo a otro son los grados
de libertad de la distribución t, y el valor de la bsR .
Modelo 1:
r
1
yh ∈ 124,5 ± 2,23 × 17,18 × 1+ .
12
Modelo 2:
r
1
yh ∈ 124,5 ± 2,23 × 17,75 × 1+ .
12
Modelo 3:
r
1
yh ∈ 124,5 ± 2,26 × 13,43 × 1+ .
12
Modelo 4:
r
1
yh ∈ 124,5 ± 2,36 × 13,8 × 1+ .
12
2
Si se quiere conseguir la mejor predicción, el modelo elegido debe tener mayor R ,
menor bsR y menor intervalo de predicción. Con los datos del problema, el modelo
elegido para cumplir con el objetivo es el modelo 3.
α




(𝑦̅𝐵∙ − 𝑦̅𝐶∙ ) − (𝜇𝐵 − 𝜇𝐶 )
~ 𝑡8,𝛼/2
1 1
𝑠̂𝑅 √𝑛 + 𝑛
𝐵 𝐶

1 1
IC(𝜇𝐵 − 𝜇𝐶 ) = (𝑦̅𝐵∙ − 𝑦̅𝐶∙ ) ± 𝑠̂𝑅 · 𝑡8, 0.05 ·√ +
𝑛𝐵 𝑛𝐶

2
IC(𝜇𝐵 − 𝜇𝐶 ) = (137.70 − 145.54) ± √20.01 · 1.86 · √ = (−13.10, − 2.58)
5

𝑒𝑖𝑗 = 𝑦𝑖𝑗 − 𝜇̂ − 𝛼̂𝑖 − 𝛽̂𝑗 = 𝑦𝑖𝑗 − 𝑦̅𝑖· − 𝑦̅·𝑗 + 𝑦̅··



275.51
𝑠̂𝑅2 = = 4.59
60

2 2
𝐼𝐽(𝑚−1)·𝑠̂𝑅 𝐼𝐽(𝑚−1)·𝑠̂𝑅
𝐼𝐶(𝜎 2 ) = ( 2 , 2 ) = (3.3 6.8)
χ𝛼/2 χ1−𝛼/2

𝐼𝐶( 𝜎) = (1.8 2.6)

2 2 2 2
𝐻0 : 𝜎𝐶1 = 𝜎𝐶3 ; 𝐻1 : 𝜎𝐶1 ≠ 𝜎𝐶3

2
𝑠̂𝐶3
𝐹0 = 2 ~ 𝐹𝑛𝐶3 −1, 𝑛𝐶1 −1
𝑠̂𝐶1
121,53
𝐹0 = 3,391
= 35.83 ~ 𝐹15,15
𝐹𝑎 = 0.35 𝑦 𝐹𝑏 =
2.86 𝐹0
Tipo de Temperatura ºC
Material -10ºC 20ºC 50ºC
1 130 155 34 40 20 70
74 180 80 75 82 58
2 150 188 136 122 25 70
159 126 106 115 58 45
3 138 110 174 120 96 104
168 160 150 139 82 60

Tipo de Temperatura ºC
Material -10ºC 20ºC 50ºC Medias
1
134.75 57.25 57.50 83.17
2
155.75 119.75 49.50 108.33
3
144.00 145.75 85.50 125.08
Medias 144.83 107.58 64.17 105.53

Fuente Suma de Gl Cuadrado Medio Razón-F


Cuadrados
temp 39118,7 2 19559,4 28,97
mate 10683,7 2 5341,86 7,91
temp * mate 9613,78 4 2403,44 3,56
RESIDUOS 18230,8 27 675,213
TOTAL 77647,0 35
α

α
𝑌 = 𝑋𝛽 + 𝑈,

𝑌 = 𝑍𝛽′ + 𝑈′
𝛽̂ 𝑦 𝛽̂ ′ 𝛽̂ ′ = 𝐴−1 𝛽̂ .
Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

Cuestiones (30 minutos, 4 puntos)

1. En una regresión múltiple con variable dependiente Y hay dos variables cuantitativas X1
y X2 y una variable cualitativa Z con 3 niveles A, B y C (se de…nen en relación con ésta
3 variables binarias Z1 ; Z2 y Z3 , donde Z1 toma el valor 1 cuando Z es igual a A y 0 en
el resto de casos, Z2 toma el valor 1 cuando Z es igual a B y 0 en el resto de casos y
Z3 toma el valor 1 cuando Z es igual a C y 0 en el resto de casos. Los resultados de la
estimación del modelo Y = 0 + 1 X1 + 2 X2 + 2 Z2 + 3 Z3 + U para n = 60 datos, y donde
U es el término de error se presentan en la tabla adjunta.

Se proporciona también la matrix (X 0 X) 1:

Se pide:
a) Calcular un intervalo de con…anza para 2:
b) Realiza el contraste:

H0 : 2 = 3;
H0 : 2 6= 3:

b
a) Sabemos que 2p 2
sbR = q22 ! tn k 1

En este caso b 2 = 4;03478; sbR = 0;9067; n = 60; k = 4 y q22 = 0;0056495816 (el elemento que ocupa
la posición (3,3) de la matriz Q = (X 0 X) 1 ).
Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

p
2 2 b2 t60 4 1; 2 sbR
q22 , que queda:
p
2 2 4;03478 2 0;9067 0;0056495816, ya que de tablas la t60 4 1; =0;05 es aproximadamente 2.
2

2 2 4;03478 0;1393
2 2 (3;8955; 4;1741)

2. Queremos contrastar:

H0 : 2 = 3;
H0 : 2 6= 3;

equivalente a contrastar:

H0 : 2 3 = 0;
H0 : 2 3 6= 0:

p p
Sabemos que b 2 ! N ( 2; q 2 ) y b3 ! N ( 3; q 3 ):
var(b 2 b 3 ) = var(b 2 ) + var(b 3 ) 2 cov(b 2 ; b 3 ) =
= 2q + 2q 2 2q =
2 3 2; 3

= 0;90672 (0;1062 + 0;1000193 2 0;049662) =


= 0;90672 0;1069 = 0;0879:
Si H0 cierta entonces pb0;0879
2 b3
t60 4 1 y como pb0;0879
2 b3
= 4;61366
p 0;57922
0;0879
= 17;5151, que en valor
absoluto es claramente mayor que 2, el valor aproximado de la t60 4 1; 2 :
Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

3. Una cadena de restaurantes de comida italiana ha detectado que las ubicaciones en las
que han tenido más éxito son aquéllas cercanas a institutos y colegios de enseñanza
secundaria. Se cree que las ventas trimestrales (representadas por Y ) en esos restaurantes,
se relacionan en forma creciente con la población estudiantil en miles de estudiantes
(representada por X). Es decir, que los restaurantes cercanos a centros escolares con
gran población tienden a generar más ventas que los que están cerca de centros con
población pequeña. Aplicando el análisis de regresión podremos plantear una ecuación
que muestre cómo se relaciona la variable dependiente Y con la variable independiente
X. Los datos se muestran en la tabla adjunta. Además se proporciona la sb2R = 191;25 y la
covarianza entre X e Y , cov(X; Y ) = 315;556:

Restaurante X (población estudiantes, miles) Y (ventas trimestrales)


1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
Totales 140 1300

Se pide dar un intervalo de predicción del 95 % para el promedio de venta trimestral para
los restaurantes cercanos a centros escolares con 10000 estudiantes.

La expresión del intervalo de predicción para el valor medio en regresión simple viene dado por:
2 (xh x)2
yh ! N (mh ; 1+ :
n s2x

Los estimadores para la ordenada en el origen y pendiente del modelo de regresión múltiple:

b = y b x = 1300 5 140 = 130 5 14 = 60


0 1
10 10
b cov(X; Y ) 315;556
1 = = = 5:
var(X) 63;111

p 1 (xh x)2 1 (10 14)2 1


mh 2 ybh tn k 1; 2 sbR vhh , donde vhh = n 1+ s2x
= 60 1+ 63;111 = 60 (1 + 0;2535)
Entonces vhh = 0;0209:
ybh = b 0 + b 1 xh = 60 + 5 10 = 110:
p
mh 2 ybh tn k 1; 2 sbR vhh
p p
mh 2 110 2;306 191;25 0;0209 = 110 4;6103
El intervalo para el valor promedio cuando xh = 10 (la variable explicativa está en miles), sería:
mh 2 (105;3897, 114;6103):
Problema

Se ha realizado un experimento para estudiar el efecto de 3 dietas sobre el


peso de los profesores de universidad. Se han elegido 4 profesores y se les ha
sometido a las 3 dietas.
Los resultados de reducción de peso al …nal del mes de prueba se muestran
en la tabla adjunta.

Dieta 1 Dieta 2 Dieta 3 Medias


Profesor 1 5,89 3,99 3,11 4,33
Profesor 2 6,43 4,04 3,39 4,63
Profesor 3 1,59 1,84 0,31 1,25
Profesor 4 3,29 1,58 1,88 2,25
Medias 4,30 2,86 2,17 3,11

1) Sabiendo que s2y = 3; 01, estudiar la dependencia de la reducción de peso


respecto de solamente la dieta, sin tener en cuenta el factor profesor. Indicar
las dietas más e…caz y menos e…caz, en caso de que sea posible.
2) Incorporar al análisis el factor profesor; comparar los resultados con los
del análisis anterior, incluyendo la selección de las dietas más y menos e…caces.
¿De qué ha servido incluir el factor profesor? ¿Cuál de los dos análisis es más
…able y porqué?

3) Calcular un intervalo de con…anza para la varianza del error experimental


del modelo del apartado 2.

Solución
1)
V T = 12s2y = 36; 11

V E(dieta) = 4x[(4:3 3:11)2 + (2; 86 3; 11)2 + (2; 17 3; 11)2 ] = 9; 46

Fuente Suma de C Grados de lib. C.M. F p-valor


Dieta 9,46 2 4,73 1,59 0,25
Residual 26,65 9 2,96
Total 36,11 11

Por tanto, al ser el p-valor mayor que el valor estándar de referencia de 0,05,
no resulta signi…cativo el efecto de la dieta.
Para determinar la dieta más e…caz y la menos e…caz en principio se re-
alizarían los contrastes por parejas, pero al no ser signi…cativo el efecto de la

1
dieta, no sería necesario. De todas formas, se presentan a continuación, por
razones pedagógicas.

H0 : i = j
H1 : i 6= j p
t = (y i: y j: )=b
sR (1=4) + (1=4) sigue una distribución t9 bajo H0
El percentil 0,975 de la distribución t con 9 grados de libertad es 2,26
Para dieta 1 frente a dieta 2; t = 1; 18 < 2; 26
Para dieta 1 frente a dieta 3; t = 1; 75 < 2; 26
Para dieta 2 frente a dieta 3; t = 0; 57 < 2; 26
Por tanto, se con…rma que ninguna de las diferencias es signi…cativas.
2) V E(paciente) = 3x[(4:33 3:11)2 + (4; 63 3; 11)2 + (1; 25 3; 11)2 +
(2; 25 3; 11)2 ] = 23; 9

Fuente Suma de C. Grados de lib. C.M: F p-valor


Dieta 9,46 2 4,73 10,31 0,011
Paciente 23,9 3 7,96 17,36 0,0023
Residual 2,75 6 0,45
Total 36,11 11
Por tanto, al ser los dos p-valores menores que el valor estándar de referencia
de 0,05, resultan signi…cativos tanto el efecto de la dieta como el del paciente.
La inclusión del efecto del paciente reduce la varianza residual y aumenta la
precisión de los contrastes; por tanto, es más …able el segundo análisis que el
primero.
Para determinar la dieta más e…caz y la menos e…caz en principio se re-
alizarían los contrastes por parejas.
H0 : i = j

H1 : i 6= j p
t = (y i: y j: )=b
sR (1=4) + (1=4) sigue una distribución t6 bajo H0
El percentil 0,975 de la distribución t con 6 grados de libertad es 2,45
Para dieta 1 frente a dieta 2; t = 3; 00 > 2; 45
Para dieta 1 frente a dieta 3; t = 4; 45 > 2; 45
Para dieta 2 frente a dieta 3; t = 1; 45 > 2; 45
Por tanto, se puede concluir que la dieta más e…caz es la 1 pero no se puede
concluir si la menos e…caz es la 2 o la 3.
3) V E= 2 2
6
2
Los percentiles 0,025 y 0,975 de la distribución con 6 grados de libertad
son 1,23 y 4,45
2 2 2
P( 6;0;025 < V E= < 6;0;975 ) = 0; 95
Transformando las dos desigualdades anteriores, se obtiene que el intervalo
de con…anza es (0,19,2,22)

2
Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

Cuestiones (30 minutos, 4 puntos)

1. En una regresión múltiple con variable dependiente Y hay dos variables cuantitativas X1
y X2 y una variable cualitativa Z con 3 niveles A, B y C (se de…nen en relación con ésta
3 variables binarias Z1 ; Z2 y Z3 , donde Z1 toma el valor 1 cuando Z es igual a A y 0 en
el resto de casos, Z2 toma el valor 1 cuando Z es igual a B y 0 en el resto de casos y
Z3 toma el valor 1 cuando Z es igual a C y 0 en el resto de casos. Los resultados de la
estimación del modelo Y = 0 + 1 X1 + 2 X2 + 2 Z2 + 3 Z3 + U para n = 60 datos, y donde
U es el término de error se presentan en la tabla adjunta.

Se proporciona también la matrix (X 0 X) 1:

Se pide:
a) Calcular un intervalo de con…anza para 2:
b) Realiza el contraste:

H0 : 2 = 3;
H0 : 2 6= 3:

b
a) Sabemos que 2p 2
sbR = q22 ! tn k 1

En este caso b 2 = 4;03478; sbR = 0;9067; n = 60; k = 4 y q22 = 0;0056495816 (el elemento que ocupa
la posición (3,3) de la matriz Q = (X 0 X) 1 ).
Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

p
2 2 b2 t60 4 1; 2 sbR
q22 , que queda:
p
2 2 4;03478 2 0;9067 0;0056495816, ya que de tablas la t60 4 1; =0;05 es aproximadamente 2.
2

2 2 4;03478 0;1393
2 2 (3;8955; 4;1741)

2. Queremos contrastar:

H0 : 2 = 3;
H0 : 2 6= 3;

equivalente a contrastar:

H0 : 2 3 = 0;
H0 : 2 3 6= 0:

p p
Sabemos que b 2 ! N ( 2; q 2 ) y b3 ! N ( 3; q 3 ):
var(b 2 b 3 ) = var(b 2 ) + var(b 3 ) 2 cov(b 2 ; b 3 ) =
= 2q + 2q 2 2q =
2 3 2; 3

= 0;90672 (0;1062 + 0;1000193 2 0;049662) =


= 0;90672 0;1069 = 0;0879:
Si H0 cierta entonces pb0;0879
2 b3
t60 4 1 y como pb0;0879
2 b3
= 4;61366
p 0;57922
0;0879
= 17;5151, que en valor
absoluto es claramente mayor que 2, el valor aproximado de la t60 4 1; 2 :
Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

3. Una cadena de restaurantes de comida italiana ha detectado que las ubicaciones en las
que han tenido más éxito son aquéllas cercanas a institutos y colegios de enseñanza
secundaria. Se cree que las ventas trimestrales (representadas por Y ) en esos restaurantes,
se relacionan en forma creciente con la población estudiantil en miles de estudiantes
(representada por X). Es decir, que los restaurantes cercanos a centros escolares con
gran población tienden a generar más ventas que los que están cerca de centros con
población pequeña. Aplicando el análisis de regresión podremos plantear una ecuación
que muestre cómo se relaciona la variable dependiente Y con la variable independiente
X. Los datos se muestran en la tabla adjunta. Además se proporciona la sb2R = 191;25 y la
covarianza entre X e Y , cov(X; Y ) = 315;556:

Restaurante X (población estudiantes, miles) Y (ventas trimestrales)


1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
Totales 140 1300

Se pide dar un intervalo de predicción del 95 % para el promedio de venta trimestral para
los restaurantes cercanos a centros escolares con 10000 estudiantes.

La expresión del intervalo de predicción para el valor medio en regresión simple viene dado por:
2 (xh x)2
yh ! N (mh ; 1+ :
n s2x

Los estimadores para la ordenada en el origen y pendiente del modelo de regresión múltiple:

b = y b x = 1300 5 140 = 130 5 14 = 60


0 1
10 10
b cov(X; Y ) 315;556
1 = = = 5:
var(X) 63;111

p 1 (xh x)2 1 (10 14)2 1


mh 2 ybh tn k 1; 2 sbR vhh , donde vhh = n 1+ s2x
= 60 1+ 63;111 = 60 (1 + 0;2535)
Entonces vhh = 0;0209:
ybh = b 0 + b 1 xh = 60 + 5 10 = 110:
p
mh 2 ybh tn k 1; 2 sbR vhh
p p
mh 2 110 2;306 191;25 0;0209 = 110 4;6103
El intervalo para el valor promedio cuando xh = 10 (la variable explicativa está en miles), sería:
mh 2 (105;3897, 114;6103):
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
TABLA 0,1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0,2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0,3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
Normal 0,4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0,5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
Estandar 0,6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0,7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0,8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0,9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1,0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1,1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1,2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1,3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
P (Z ≤ z) 1,4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
N(0,1) 1,5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1,6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1,7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1,8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1,9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
z 2,0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2,1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2,2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
Ejemplo. 2,3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2,4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
P(Z ≤ 1.96) = 0.9750 2,5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2,6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2,7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2,8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2,9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3,0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
N(0,1) P (Z ≤ z)

Distribución normal estándar (continuación)


z
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
3,1 .9990323 .9990645 .9990957 .9991259 .9991552 .9991836 .9992111 .9992377 .9992636 .9992886
3,2 .9993128 .9993363 .9993590 .9993810 .9994023 .9994229 .9994429 .9994622 .9994809 .9994990
3,3 .9995165 .9995335 .9995499 .9995657 .9995811 .9995959 .9996102 .9996241 .9996375 .9996505
3,4 .9996630 .9996751 .9996868 .9996982 .9997091 .9997197 .9997299 .9997397 .9997492 .9997584
3,5 .9997673 .9997759 .9997842 .9997922 .9997999 .9998073 .9998145 .9998215 .9998282 .9998346
3,6 .9998409 .9998469 .9998527 .9998583 .9998636 .9998688 .9998739 .9998787 .9998834 .9998878
3,7 .9998922 .9998963 .9999004 .9999042 .9999080 .9999116 .9999150 .9999184 .9999216 .9999247
3,8 .9999276 .9999305 .9999333 .9999359 .9999385 .9999409 .9999433 .9999456 .9999478 .9999499
3,9 .9999519 .9999538 .9999557 .9999575 .9999592 .9999609 .9999625 .9999640 .9999655 .9999669
4,0 .9999683 .9999696 .9999709 .9999721 .9999733 .9999744 .9999755 .9999765 .9999775 .9999784

Relación entre Binomial,


Poisson y Normal
Binomial n → ∞, p → 0 Poisson
n,p λ
λ = np

n→∞ λ →∞
p → 1/ 2 µ =λ
µ = np σ= λ
σ = np (1 − p)
Normal
µ,σ
α
g.l. 0,995 0,990 0,975 0,950 0,500 0,050 0,025 0,010 0,005
1 ,00004 ,00016 ,00098 ,00393 0,455 3,841 5,024 6,635 7,879
2 ,01002 ,0201 0,051 0,103 1,386 5,991 7,378 9,210 10,60
3 ,0717 0,115 0,216 0,352 2,366 7,815 9,348 11,34 12,84
Tabla χ2 4 0,207 0,297 0,484 0,711 3,357 9,488 11,14 13,28 14,86
5 0,412 0,554 0,831 1,145 4,351 11,07 12,83 15,09 16,75
6 0,676 0,872 1,237 1,635 5,348 12,59 14,45 16,81 18,55
7 0,989 1,239 1,690 2,167 6,346 14,07 16,01 18,48 20,28
8 1,344 1,647 2,180 2,733 7,344 15,51 17,53 20,09 21,95
9 1,735 2,088 2,700 3,325 8,343 16,92 19,02 21,67 23,59
10 2,156 2,558 3,247 3,940 9,342 18,31 20,48 23,21 25,19
11 2,603 3,053 3,816 4,575 10,341 19,68 21,92 24,73 26,76
12 3,074 3,571 4,404 5,226 11,340 21,03 23,34 26,22 28,30
13 3,565 4,107 5,009 5,892 12,340 22,36 24,74 27,69 29,82
14 4,075 4,660 5,629 6,571 13,339 23,68 26,12 29,14 31,32
15 4,601 5,229 6,262 7,261 14,339 25,00 27,49 30,58 32,80
16 5,142 5,812 6,908 7,962 15,338 26,30 28,85 32,00 34,27
17 5,697 6,408 7,564 8,672 16,338 27,59 30,19 33,41 35,72
α 18 6,265 7,015 8,231 9,390 17,338 28,87 31,53 34,81 37,16
19 6,844 7,633 8,907 10,117 18,338 30,14 32,85 36,19 38,58
20 7,434 8,260 9,591 10,851 19,337 31,41 34,17 37,57 40,00
21 8,034 8,897 10,283 11,591 20,337 32,67 35,48 38,93 41,40
22 8,643 9,542 10,982 12,338 21,337 33,92 36,78 40,29 42,80
χ ν, α 23 9,260 10,196 11,689 13,091 22,337 35,17 38,08 41,64 44,18
24 9,886 10,856 12,401 13,848 23,337 36,42 39,36 42,98 45,56
25 10,520 11,524 13,120 14,611 24,337 37,65 40,65 44,31 46,93
26 11,160 12,198 13,844 15,379 25,336 38,89 41,92 45,64 48,29
ν: grados de libertad (g.l.) 27 11,808 12,878 14,573 16,151 26,336 40,11 43,19 46,96 49,65
28 12,461 13,565 15,308 16,928 27,336 41,34 44,46 48,28 50,99
29 13,121 14,256 16,047 17,708 28,336 42,56 45,72 49,59 52,34
30 13,787 14,953 16,791 18,493 29,336 43,77 46,98 50,89 53,67
40 20,707 22,164 24,433 26,509 39,335 55,76 59,34 63,69 66,77
EJEMPLO 50 27,991 29,707 32,357 34,764 49,335 67,50 71,42 76,15 79,49
60 35,534 37,485 40,482 43,188 59,335 79,08 83,30 88,38 91,95
70 43,275 45,442 48,758 51,739 69,334 90,53 95,02 100,43 104,21
P(χ9 ≥ 19,02) = 0,025 80 51,172 53,540 57,153 60,391 79,334 101,88 106,63 112,33 116,32
90 59,196 61,754 65,647 69,126 89,334 113,15 118,14 124,12 128,30
100 67,328 70,065 74,222 77,929 99,334 124,34 129,56 135,81 140,17
120 83,852 86,923 91,573 95,705 119,334 146,57 152,21 158,95 163,65
α
g.l 0,20 0,15 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005
1 1,376 1,963 3,078 6,314 12,706 31,821 63,656 127,321 318,289 636,578
2 1,061 1,386 1,886 2,920 4,303 6,965 9,925 14,089 22,328 31,600
Tabla 3 0,978 1,250 1,638 2,353 3,182 4,541 5,841 7,453 10,214 12,924
4 0,941 1,190 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610
5 0,920 1,156 1,476 2,015 2,571 3,365 4,032 4,773 5,894 6,869
6 0,906 1,134 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959
t-Student 7 0,896 1,119 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408
8 0,889 1,108 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041
9 0,883 1,100 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781
10 0,879 1,093 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587
11 0,876 1,088 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437
12 0,873 1,083 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318
13 0,870 1,079 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221
14 0,868 1,076 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140
15 0,866 1,074 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073
16 0,865 1,071 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015
17 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965
18 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922
19 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883
α 20 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850
21 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819
22 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,792
23 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,768
24 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745
tν,α 25 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725
26 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707
27 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,689
ν: grados de libertad (g.l.) 28 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674
29 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,660
30 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646
40 0,851 1,050 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551
50 0,849 1,047 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496
EJEMPLO 60 0,848 1,045 1,296 1,671 2,000 2,390 2,660 2,915 3,232 3,460
70 0,847 1,044 1,294 1,667 1,994 2,381 2,648 2,899 3,211 3,435
80 0,846 1,043 1,292 1,664 1,990 2,374 2,639 2,887 3,195 3,416
P(t9 ≥ 2,262) = 0,025 90 0,846 1,042 1,291 1,662 1,987 2,368 2,632 2,878 3,183 3,402
100 0,845 1,042 1,290 1,660 1,984 2,364 2,626 2,871 3,174 3,390
infinito 0,842 1,036 1,282 1,645 1,960 2,327 2,576 2,808 3,091 3,291
0,20 0,15 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005
Tabla F Fν 1 ,ν 2 ,α ⇒ P ( Fν 1 ,ν 2 ≥ Fν 1 ,ν 2 ,α ) = α
α=0.05 Grados de libertad del numerador: ν1
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0 249,1 250,1 251,1 252,2 253,0 253,3 254,3 1
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,49 19,50 2
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,55 8,53 3
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,66 5,63 4
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,41 4,40 4,37 5
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,71 3,70 3,67 6
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,27 3,23 7
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,97 2,93 8
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,76 2,75 2,71 9
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,59 2,58 2,54 10
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,46 2,45 2,40 11
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,35 2,34 2,30 12
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,26 2,25 2,21 13
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,19 2,18 2,13 14
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,12 2,11 2,07 15
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,07 2,06 2,01 16
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,02 2,01 1,96 17
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,98 1,97 1,92 18
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,94 1,93 1,88 19
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,91 1,90 1,84 20
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,88 1,87 1,81 21
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,85 1,84 1,78 22
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,82 1,81 1,76 23
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,80 1,79 1,73 24
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,78 1,77 1,71 25
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,76 1,75 1,69 26
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,74 1,73 1,67 27
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,73 1,71 1,65 28
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,71 1,70 1,64 29
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,70 1,68 1,62 30

Grados de libertad del denominador: ν2


40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,59 1,58 1,51 40
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,95 1,87 1,78 1,74 1,69 1,63 1,58 1,52 1,51 1,44 50
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,48 1,47 1,39 60
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,89 1,81 1,72 1,67 1,62 1,57 1,50 1,45 1,44 1,35 70
80 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,88 1,79 1,70 1,65 1,60 1,54 1,48 1,43 1,41 1,32 80
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,86 1,78 1,69 1,64 1,59 1,53 1,46 1,41 1,39 1,30 90
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,85 1,77 1,68 1,63 1,57 1,52 1,45 1,39 1,38 1,28 100
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,37 1,35 1,25 120
Inf 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,24 1,22 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.

Ejemplo : P ( F7,8 ≥ 3.50) = 0.05


Tabla F Fν 1 ,ν 2 ,α ⇒ P ( Fν 1 ,ν 2 ≥ Fν 1 ,ν 2 ,α ) = α
α=0.025 Grados de libertad del numerador: ν1
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 976,7 984,9 993,1 997,3 1001,4 1005,6 1009,8 1013,2 1014,0 1018,3 1
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,45 39,46 39,46 39,47 39,48 39,49 39,49 39,50 2
3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 14,17 14,12 14,08 14,04 13,99 13,96 13,95 13,90 3
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,75 8,66 8,56 8,51 8,46 8,41 8,36 8,32 8,31 8,26 4
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,52 6,43 6,33 6,28 6,23 6,18 6,12 6,08 6,07 6,02 5
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,37 5,27 5,17 5,12 5,07 5,01 4,96 4,92 4,90 4,85 6
7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,67 4,57 4,47 4,41 4,36 4,31 4,25 4,21 4,20 4,14 7
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,20 4,10 4,00 3,95 3,89 3,84 3,78 3,74 3,73 3,67 8
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,87 3,77 3,67 3,61 3,56 3,51 3,45 3,40 3,39 3,33 9
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,62 3,52 3,42 3,37 3,31 3,26 3,20 3,15 3,14 3,08 10
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,43 3,33 3,23 3,17 3,12 3,06 3,00 2,96 2,94 2,88 11
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,28 3,18 3,07 3,02 2,96 2,91 2,85 2,80 2,79 2,72 12
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,15 3,05 2,95 2,89 2,84 2,78 2,72 2,67 2,66 2,60 13
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,05 2,95 2,84 2,79 2,73 2,67 2,61 2,56 2,55 2,49 14
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,96 2,86 2,76 2,70 2,64 2,59 2,52 2,47 2,46 2,40 15
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,89 2,79 2,68 2,63 2,57 2,51 2,45 2,40 2,38 2,32 16
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,82 2,72 2,62 2,56 2,50 2,44 2,38 2,33 2,32 2,25 17
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,77 2,67 2,56 2,50 2,44 2,38 2,32 2,27 2,26 2,19 18
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,72 2,62 2,51 2,45 2,39 2,33 2,27 2,22 2,20 2,13 19
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,68 2,57 2,46 2,41 2,35 2,29 2,22 2,17 2,16 2,09 20
21 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80 2,73 2,64 2,53 2,42 2,37 2,31 2,25 2,18 2,13 2,11 2,04 21
22 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,60 2,50 2,39 2,33 2,27 2,21 2,14 2,09 2,08 2,00 22
23 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73 2,67 2,57 2,47 2,36 2,30 2,24 2,18 2,11 2,06 2,04 1,97 23
24 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,54 2,44 2,33 2,27 2,21 2,15 2,08 2,02 2,01 1,94 24
25 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68 2,61 2,51 2,41 2,30 2,24 2,18 2,12 2,05 2,00 1,98 1,91 25
26 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,49 2,39 2,28 2,22 2,16 2,09 2,03 1,97 1,95 1,88 26
27 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63 2,57 2,47 2,36 2,25 2,19 2,13 2,07 2,00 1,94 1,93 1,85 27
28 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,45 2,34 2,23 2,17 2,11 2,05 1,98 1,92 1,91 1,83 28
29 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59 2,53 2,43 2,32 2,21 2,15 2,09 2,03 1,96 1,90 1,89 1,81 29
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,41 2,31 2,20 2,14 2,07 2,01 1,94 1,88 1,87 1,79 30

Grados de libertad del denominador: ν2


40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,29 2,18 2,07 2,01 1,94 1,88 1,80 1,74 1,72 1,64 40
50 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,22 2,11 1,99 1,93 1,87 1,80 1,72 1,66 1,64 1,55 50
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,17 2,06 1,94 1,88 1,82 1,74 1,67 1,60 1,58 1,48 60
70 5,25 3,89 3,31 2,97 2,75 2,59 2,47 2,38 2,30 2,24 2,14 2,03 1,91 1,85 1,78 1,71 1,63 1,56 1,54 1,44 70
80 5,22 3,86 3,28 2,95 2,73 2,57 2,45 2,35 2,28 2,21 2,11 2,00 1,88 1,82 1,75 1,68 1,60 1,53 1,51 1,40 80
90 5,20 3,84 3,26 2,93 2,71 2,55 2,43 2,34 2,26 2,19 2,09 1,98 1,86 1,80 1,73 1,66 1,58 1,50 1,48 1,37 90
100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 2,08 1,97 1,85 1,78 1,71 1,64 1,56 1,48 1,46 1,35 100
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,05 1,94 1,82 1,76 1,69 1,61 1,53 1,45 1,43 1,31 120
Inf 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,94 1,83 1,71 1,64 1,57 1,48 1,39 1,30 1,27 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.

Ejemplo : P ( F7,8 ≥ 4.53) = 0.025


Tabla F Fν 1 ,ν 2 ,α ⇒ P ( Fν 1 ,ν 2 ≥ Fν 1 ,ν 2 ,α ) = α
α=0.01 Grados de libertad del numerador: ν1
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6106,7 6157,0 6208,7 6234,3 6260,4 6286,4 6313,0 6333,9 6339,5 6365,6 1
2 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,42 99,43 99,45 99,46 99,47 99,48 99,48 99,49 99,49 99,50 2
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,05 26,87 26,69 26,60 26,50 26,41 26,32 26,24 26,22 26,13 3
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,20 14,02 13,93 13,84 13,75 13,65 13,58 13,56 13,46 4
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,13 9,11 9,02 5