Вы находитесь на странице: 1из 8

Estadstica II

Examen Final - Junio 2012

Responda a los siguientes ejercicios en los cuadernillos de la Universidad.


No olvide poner su nombre y el n
umero del grupo de clase en cada hoja.
Indique claramente el inicio y final de cada ejercicio.

Ejercicios
1. (2.5 puntos) Se dispone de una muestra (aleatoria simple) de 42 valores de precios diarios de
la energa electrica en el mercado espa
nol, X. En dicha muestra se tiene que x
= 58.096 y
sx = 4.486 (cuasidesviaci
on tpica).
Responda a las preguntas siguientes, indicando en cada caso que supone sobre la poblacion y la
muestra.
a) (1 punto) La empresa para la que trabaja ha presupuestado el precio diario de la energa
electrica en 56.5 euros. Se puede concluir de los datos de la muestra que existe una diferencia significativa en el precio promedio diario del mercado respecto al precio presupuestado?
Obtenga el p-valor del contraste, y comente su conclusion.
Los valores de la muestra anterior se pueden dividir en dos submuestras, correspondientes a 30
das laborables (L) y 12 das festivos (F ). Para estas dos muestras se tiene que x
l = 59.863,
x
f = 53.678, sl = 3.107 y sf = 4.442.
b) (0.5 puntos) A continuaci
on se muestra una salida de Statgraphics correspondiente a un
contraste de hip
otesis de las desviaciones tpicas de las poblaciones asociadas a las dos
muestras:
Comparacin de Desviaciones Estndar
Precio L Precio F
Desviacin Estndar
3,10698
4,44224
Varianza
9,6533
19,7335
Gl
29
11
Razn de Varianzas= 0,489184
Intervalos de confianza del 95,0%
Desviacin Estndar de Precio L: [2,47442; 4,17676]
Desviacin Estndar de Precio F: [3,14686; 7,54238]
Razones de Varianzas: [0,156525; 1,21082]
Prueba-F para comparar Desviaciones Estndar
Hiptesis Nula: sigma1 = sigma2
Hiptesis Alt.: sigma1 <> sigma2
F = 0,489184 valor-P = 0,121374

Con esta informaci


on, indique si sera razonable suponer que las varianzas de los precios en
das laborables y festivos son iguales. Justifique su respuesta.
c) (1 punto) Contraste si existe una diferencia significativa entre los precios promedio de la
electricidad en das laborables y festivos, para un nivel de significacion del 10 %. Indique la
forma de la regi
on crtica del contraste y comente su conclusion.

Soluci
on. Denotamos por Xi los precios diarios de la energa electrica, i = 1, . . . , 42.
a) Para validar el valor empleado por la compa
nia en sus presupuestos, llevamos a cabo el
contraste
H0 : = 56.5
H1 : 6= 56.5,
donde representa la media de los precios diarios de la electricidad. Tambien se podra
haber llevado a cabo el contraste unilateral con H0 : 56.5, para verificar si existe
suficiente evidencia de que el precio haya aumentado.
Suponemos que tenemos una muestra aleatoria simple. Al ser el tama
no de la muestra
elevado, n = 42, suponemos que el teorema central del lmite proporciona una aproximaci
on

razonable para la distribuci


on de la media muestral de estos valores, X, y en particular que
Z=


X
N (0, 1),
S/ n

donde S representa la cuasidesviacion tpica muestral.


El p-valor del contraste se puede obtener a partir del valor del estadstico para la muestra
dada, bajo la hip
otesis nula,
z=

58.096 56.5

= 2.306.
4.486/ 42

El p-valor para este contraste bilateral sera


p-valor = 2P (Z > z) = 2P (Z > 2.306) = 0.0211,
esto es, igual al 2.11 %. Por tanto, para cualquier nivel de significacion superior a este valor
(por ejemplo, para el 5 %) rechazaramos la hipotesis nula, esto es, aceptaramos que para
dicho nivel de significaci
n la media de los precios es significativamente diferente al valor
presupuestado de 56.5.
Para responder a esta pregunta tambien se podra haber supuesto normalidad, en cuyo caso
Z tn1 y el p-valor correspondiente sera 2P (T41 > 2.306) = 0.0262. Las conclusiones
seran similares.
b) De la salida de Statgraphics se tiene que, si suponemos que los datos de ambas muestras
siguen distribuciones normales, el contraste de igualdad de varianzas tiene un p-valor del
12.1 %, y por tanto no rechazaramos la hipotesis nula para niveles de significacion razonables, como el 5 %, por ejemplo. En esos casos, concluimos que no tenemos evidencia
suficiente para pensar que las dos varianzas sean diferentes.
c) Queremos llevar a cabo ahora un contraste de igualdad de medias. Dado que el n
umero de
datos en alguna de las muestras no es muy elevado, vamos a suponer que los datos siguen
distribuciones normales, que disponemos de dos muestras aleatorias simples, y que ambas
son independientes. Finalmente, suponemos que ambas varianzas son iguales.
El contraste de interes es el definido por
H0 : l = f
H1 : l 6= f ,
Bajo las hip
otesis anteriores, el estadstico del contraste sera
T =

l X
f (l f )
X
q
tnl +nf 2 ,
SP n1l + n1f

donde SP es un estimador de la cuasi-desviacion tpica de la poblacion conjunta.

La regi
on crtica vendr
a dada en nuestro caso, ya que H0 implica l = f , por


(nl 1)s2l + (nf 1)s2f

l
f
2
tn +n 2;/2 ,
R = q
,
s
=
P
l
f
1
1
s

nl + nf 2
+
P
n
n
l

donde de los datos muestrales


s2P =

(30 1)3.1072 + (12 1)4.4422


= 12.425,
30 + 12 2

y tambien tenemos que tnl +nf 2;/2 = t40,0.05 = 1.684. Como


x
l x
f
59.863 53.678
q
=q
 = 5.137 > 1.684 = t40,0.05 ,
1
1
1
1
sP nl + nf
12.425 30
+ 12
el valor para las muestras est
a en la region crtica del contraste, y por tanto rechazamos la
hipotesis nula y concluimos que las medias en das laborables y festivos son significativamente diferentes.
2. (4.5 puntos) En un estudio sobre la aplicacion de la Ley de Dependencia se han recogido datos de
31 personas con alg
un tipo de discapacidad para analizar la relacion entre edad (x) y dependencia
(y). Para cuantificar esta u
ltima variable se utiliza el baremo de la ley, que otorga a cada persona
una puntuaci
on en una escala (continua) de 0 (menor gravedad) a 100 (mayor gravedad) en
funcion de la gravedad de su situaci
on. A partir de una puntuacion de 25 puntos la ley dispone
que la persona en cuesti
on tiene derecho a percibir alg
un tipo de ayuda economica. Los datos
obtenidos se resumen a continuaci
on:
P31
P31 2
P31
i=1 yi = 534.5,
i=1 xi = 157205.95,
i=1 xi = 2188.1,
P31
P31 2
i=1 xi yi = 41149.35.
i=1 yi = 15895.11,
a) (0.5 puntos) Enumere y describa las hipotesis del modelo de regresion lineal simple.
b) (1 punto) Asumiendo que las hipotesis anteriores son validas a la hora de predecir el grado
de dependencia de una persona (y) en funcion de su edad (x), y teniendo en cuenta los
datos obtenidos, a partir de que edad la puntuacion media en el baremo sera suficiente (25
puntos o m
as) para percibir ayuda economica? Utilice una estimacion puntual para dar su
respuesta.
c) (0.5 puntos) Sea F el estadstico del contraste ANOVA, es decir, F =
coeficiente de determinaci
on del modelo de regresion lineal, R2 =
F =

SCM
SCT .

SCM
SCR/(n2) ,

y R2 el

Demuestre que

R2
(n 2).
1 R2

d ) (0.5 puntos) Existe evidencia muestral de que la puntuacion en el baremo de dependencia


depende linealmente de la edad?
e) (0.5 puntos) A continuaci
on se muestran los coeficientes del modelo y la tabla ANOVA
obtenida en Statgraphics para el modelo que considera la variable edad como una funci
on
lineal de la variable grado de dependencia:
Regresin Simple - Edad vs. Dependencia
Variable dependiente: Edad
Variable independiente: Dependencia
Lineal: X = a + b*Y

Anlisis de Varianza
Fuente
Suma de Cuadrados
Modelo
1753,47
Residuo
1007,91
Total (Corr.)
2761,38

Gl
1
29
30

Cuadrado Medio
1753,47
34,7556

Razn-F
50,45

Valor-P
0,0000

Indique los valores de la varianza residual y del coeficiente de determinacion para este
modelo. Que relaci
on tiene el valor del coeficiente de determinacion con el obtenido para
el modelo que explica los valores de la variable grado de dependencia en funcion de la
variable edad?
f ) (1 punto) Se desea volver a calcular la estimacion del apartado 2b), pero empleando ahora
el modelo que proporciona valores para la variable edad a partir de la variable grado de
dependencia. Que estimaci
on se obtendra para la edad promedio en la que se alcanza un
grado de dependencia de 25 puntos, a partir de dicho modelo?
g) (0.5 puntos) Calcule un intervalo de confianza al 90 % para la edad promedio estudiada en
el apartado anterior.
Soluci
on.
a) El modelo de regresi
on lineal simple establece a partir de pares de variables observados
(X1 , Y1 ), . . . , (Xn , Yn ) la relaci
on
Yi = 0 + 1 Xi + Ui ,

Ui N (0, 2 ),

i = 1, . . . , n.

Para el modelo se asume que la relacion entre X e Y es lineal (linealidad ), el termino de error
sigue una distribuci
on normal (normalidad ) y la variable de error tiene esperanza cero (homogeneidad ) y la misma varianza en todas las observaciones (homocedasticidad ). Adem
as,
se supone que los errores correspondientes a diferentes observaciones son independientes
(independencia).
b) A partir de los datos indicados en el enunciado tenemos que
x
=
s2x

cov(x, y) =

31
X

31
X

xi /31 = 70.58, y =
yi /31 = 17.24
i=1
i=1
!
31
31
X
X
2
2
xi 31
x /30 = 92.05, s2y =
yi2
i=1
i=1
!
31
X
i=1

!
2

31
y

/30 = 222.64

xi yi 31
xy /30 = 114.08

A partir de estos datos estimamos la recta de regresion de interes (Y en funcion de X) por


mnimos cuadrados:
cov(x, y)
114.08
1 =
=
= 1.239
0 = y 1 x
= 70.24.
s2x
92.05
obteniendo la ecuaci
on de la recta y = 1.239x 70.24.
Haremos una estimaci
on de la puntuacion media a una edad determinada x0 , E[Y |X = x0 ],
a traves de la recta de regresi
on E[Y |X = x0 ] = 1.239x0 70.24. De esta ecuacion podemos
determinar a partir de que edad esta estimacion alcanza o supera los 25 puntos:
25 + 70.24
= 76.87.
1.239
Es decir, a partir de los 76.9 a
nos se espera que la puntuacion en el baremo alcance o supere
los 25 puntos.
c) Tenemos que
SCM
SCM
F =
y R2 =
.
SCR/(n 2)
SCT
y0 = 1.239x 70.24 25 x0

Adem
as, sabemos que 1 =
F

ESS
T SS

RSS
T SS

= R2 +

RSS
T SS .

As pues:

SCM
SCM
SCM SCR SCT
SCM SCT
=
(n 2) =
(n 2) =
(n 2)
SCR/(n 2)
SCR
SCR SCT SCR
SCT SCR
SCT
1
1
= R2
(n 2) = R2
(n 2) = R2
(n 2),
SCR
SCR/SCT
1 R2

con lo que queda demostrado.


d ) Queremos contrastar si el modelo de regresion lineal es globalmente significativo, es decir:
H0 : 1 = 0
H1 : 1 6= 0

Y no depende linealmente de X
Y depende linealmente de X

SCM
Para ello podemos utilizar el estadstico F = SCR/(n2)
, que bajo la hipotesis nula sigue
una distribuci
on F1,n2 . De los datos del problema tenemos que
2
R2 = rxy
=

114.082
cov(x, y)2
=
= 0.635.
s2x s2y
92.05 222.64

De acuerdo con el apartado anterior, el valor del estadstico en la muestra es:


f=

R2
0.635
(n 2) =
29 = 50.45,
1 R2
1 0.635

El p-valor del contraste ser


a:
p-valor = P (F > f |H0 ) = P (F1,29 > 50.45) = 8.2 108 0.
El valor m
as pr
oximo en la tabla es F1,29;0.01 = 7.598. Al ser el p-valor tan peque
no,
podemos concluir que se rechaza H0 , es decir, que esta muestra proporciona evidencia de
que la puntuaci
on en el baremo de dependencia depende linealemente de la edad.
e) En este caso estamos considerando el modelo que explica los valores de X en funcion de
Y . De los valores de la salida de Statgraphics se tiene que la varianza residual toma el
valor indicado en la columna Cuadrado medio y la fila Residuo, esto es, s2R = 34.76,
mientras que el coeficiente de determinacion se puede obtener como el cociente de los valores
correspondientes a las sumas de cuadrados del modelo sobre la total, esto es,
R2 =

SCM
1753.47
=
= 0.635,
SCT
2761.38

que el mismo valor que hemos obtenido para el modelo inicial Y = 0 + 1 X.


f ) Nos piden ahora que trabajemos con la relacion x
= 00 + 10 y. Los valores de las estimaciones
de mnimos cuadrados de los coeficientes del modelo se obtienen como
cov(x, y)
114.08
10 =
=
= 0.512,
2
sy
222.64

00 = x
10 y = 61.75,

y el modelo de regresi
on es x
= 61.75 + 0.512y. Con estos valores obtenemos para y0 = 25 la
estimaci
on puntual x
0 = 61.75 + 0.512 25 = 74.55 (que no coincide con el valor obtenido
anteriormente).
g) El intervalo de confianza pedido se obtendra como
s 

1
(y0 y)2
2
x
0 tn2,/2 sR
+
.
n (n 1)s2y
El valor de s2R para este modelo lo hemos obtenido en la salida de Statgraphics anterior,
s2R = 34.76 (alternativamente se podra haber obtenido de s2R = SCR/(n 2) = (1
R2 )SCT/(n 2) = (1 R2 )(n 1)s2x /(n 2)). Como tn2,/2 = t29,0.05 = 1.699, obtenemos
el intervalo
s


1
(25 17.24)2
74.55 1.699 34.76
+
= [72.515; 76.585].
31
30 222.64

Cuestiones
1. (1 punto) Un compa
nero afirma que distingue sin dudar entre dos bebidas muy similares de cola
y yo le replico que ambas tienen identico sabor y que no las puede diferenciar.
Para demostr
arselo, le propongo el siguiente experimento: preparo cinco vasos llenando cada uno
de ellos con una de las dos bebidas escogida al azar, y le presento estos cinco vasos para que
intente acertar cu
al de ellas corresponde a cada vaso. Estoy dispuesto a rechazar mi hipotesis si
acierta las cinco veces.
acepta, aunque me dice que suele fallar en uno de cada 20 vasos (comenta que por culpa del
El
hielo, que a veces tiene sabores extra
nos).
Para este contraste de hip
otesis se pide calcular:
a) (0.25 puntos) La probabilidad del error de tipo I.
b) (0.25 puntos) La probabilidad de no rechazar mi hipotesis siendo falsa (error de tipo II).
c) (0.25 puntos) La potencia del contraste.
d ) (0.25 puntos) Como afectara un aumento en el n
umero de pruebas a las probabilidades
de los errores de tipo I y tipo II?
Soluci
on. En la siguiente tabla se presenta un resumen de las probabilidades asociadas a cada
uno de los posibles resultados del contraste propuesto:

Probabilidad de acertar
No se rechaza (falla alguna)
Se rechaza (acierta las 5)

H0 : no distingue
p = 1/2
1 (1/2)5
= (1/2)5

H1 : distingue
p = 19/20
1 = 1 (19/20)5
(19/20)5

a) La probabilidad de un error de tipo I (rechazar siendo cierta H0 ) viene dado por = (1/2)5 .
b) La probabilidad de no rechazar H0 siendo falsa, esto es, el error de tipo II, viene dado por
1 = 1 (19/20)5 .
c) La funci
on de potencia del contraste es (p) = p5 .

d ) Un incremento en el n
umero de pruebas hara que y disminuyesen. Por tanto, la
probabilidad de un error de tipo I, , disminuira y la de un error de tipo II, 1 ,
aumentara.
2. (0.5 puntos) El siguiente panel de graficas muestra los diagramas de dispersion de 6 conjuntos
de datos.

1. El siguiente panel de graficas muestra los diagramas de dispersion de 6 conjuntos de datos.Cual de


las siguientes afirmaciones es verdadera?

Que grupo de diagramas de dispersion tendran un coeficiente de correlacion muy cercano a


cero? Indique la respuesta correcta y justifique porque son incorrectas las restantes opciones.

Que grupo de diagramas de dispersion tendran un coeficiente de correlacion muy cercano a cero?
(a) El diagrama
A, B, DA,yB,F.D y F.
a) Los diagramas
b) Los diagramas
(b) El diagrama
A, E y A,
F. E y F.
c) Los diagramas
(c) El diagrama
A, C, DA,yC,F.D y F.
d ) Los diagramas B, C, D y F.
(d) El diagrama
B, C, D y F.
Soluci
on. Los diagramas B y E muestran una clara relacion lineal entre las variables, con

2. Se desea
probar Hde0 :correlaci
= 10
H1 : 6=signo,
10. pero
Paradistintos
lo anterior,
se toma
una las
muestra
aleatoria
de
coeficientes
on v.s
de diferente
de cero,
por tanto
opciones
a),
700 datos
valor
de la estadstica de prueba (estadarizada) resulta ser -1.96. El valor-p asociado
b) yyd)elson
incorrectas.
a la prueba
es:
En consecuencia, la respuesta c) es la correcta. En los diagramas A, C, D y F no se observa
ninguna relaci
on lineal significativa entre las variables.

(a) 0.025

(b) 0.05

(c) 1.96

(d) Ninguno de los anteriores.

3. (0.5 puntos) A partir de una muestra aleatoria de tama


no 47 se construye un intervalo de confianza para la media de la poblaci
on obteniendose el intervalo (38, 45) con un 96 % de confianza.
Indique cu
al de las afirmaciones siguientes es correcta y justifique porque son incorrectas las
restantes opciones:
a) Si se tomaran otras 50 muestras aleatorias del mismo tama
no, de la misma poblaci
on y
con el mismo nivel de confianza y se estimara con cada muestra el valor de , esto es, se
calculase el valor de la media muestral x
, 48 de tales estimaciones perteneceran al intervalo
(38, 45).
b) Si se tomaran otras 50 muestras aleatorias del mismo tama
no de la misma poblacion y con
el mismo nivel de confianza y con cada muestra se construyera un intervalo de confianza
para la media, aproximadamente en 48 de tales intervalos se encontrara el valor de .
c) Para una muestra, la probabilidad de que la media muestral x
se encuentre fuera del intervalo de confianza para calculado con esa muestra y con un nivel de confianza del 96 % es
igual a 0.04.

Soluci
on. La respuesta c) es incorrecta, ya que la media muestral es el centro del intervalo de
confianza para , y por tanto pertenece al mismo.
La respuesta a) tambien es incorrecta, porque al ser la media muestral una variable aleatoria
(que sigue aproximadamente una distribucion normal), el n
umero de valores que pertenecen al
intervalo tambien es una variable aleatoria, y no tiene porque ser siempre igual a 48, sino que
dependera de las 50 muestras tomadas. Ademas, se esta comparando el valor de cada media
muestral con otra media muestral (la inicial), y la distribucion de la diferencia de estas medias
tendra una varianza diferente de la empleada para construir el intervalo (y por tanto el nivel de
confianza no sera el indicado).
La respuesta correcta es la b).
4. (1 punto) La evoluci
on en el tiempo (para periodos de tiempo no muy largos) del n
umero de
usuarios de un servicio ofrecido en una red social se supone que sigue una ecuacion de la forma
Nt = N0 e1 t ,

(1)

donde Nt indica el n
umero de usuarios en un momento t, N0 es el n
umero de usuarios en el
instante inicial t = 0 y 1 es la tasa de aumento del n
umero de usuarios. Se han recogido datos
sobre este n
umero de usuarios (medido en miles de usuarios semanales) en un periodo de 8
semanas, obteniendose:
t (semana)
Nt

0
100

1
125

2
169

3
246

4
336

5
436

6
586

7
867

8
1090

Como calculos intermedios se tienen:


P8
P8
P8
P8
2
log(Nt )2 = 307.22,
t=0 log(Nt ) = 52.096,
t=0 Nt = 2700879,
t=0 Nt = 3955,
P8 t=0
P8
P8 2
P8
t=0 t Nt = 23030.
t=0 t log(Nt ) = 226.81,
t=0 t = 204,
t=0 t = 36,
a) (0.5 puntos) Indique la transformacion a introducir en el modelo anterior (1) para obtener
un modelo de regresi
on lineal.
b) (0.5 puntos) Estime la tasa de aumento del n
umero de usuarios 1 aplicando el metodo de
mnimos cuadrados al modelo de regresion lineal anterior.
Soluci
on.
a) Tomando logaritmos en la ecuacion (1) obtenemos el modelo lineal
log(Nt ) = log(N0 ) + 1 t

y = 0 + 1 x,

donde y log(Nt ) y x t.

b) Estimamos la tasa de aumento 1 como la pendiente de este modelo de regresion lineal.


Para ello tenemos en cuenta que
P 2
P 2
204 362 /9
2
2
t t ( t t) n
sx = st =
=
= 7.5
n1 P
8 P P
t log(Nt ) t t t log(Nt )/n
cov(x, y) = cov(t, log(Nt )) = t
n1
226.81 36 52.096/9
=
= 2.303,
8
y la estimaci
on pedida viene dada por
cov(x, y)
2.303
1 =
=
= 0.307.
2
sx
7.5

Вам также может понравиться