Formula Rio

Estadı́stica II
Examen Final 19/06/2015

Soluciones
Responda a las preguntas siguientes en los cuadernillos de la Universidad

Utilice diferentes cuadernillos para responder a cada uno de los ejercicios
Indique claramente en cada cuadernillo su nombre, número de orden en el grupo y grupo reducido de clase
1. (3,5 puntos) La aerolı́nea FastAir ha lanzado una campaña de publicidad en la que anuncia que sus vuelos
en cierta ruta son más puntuales que los de la competencia. Un vuelo se considera “puntual” si el retraso
en la hora de salida no supera los 15 minutos. Una organización de consumidores se propone contrastar
dicha afirmación, para lo cual recopila datos de puntualidad en 35 vuelos de FastAir y 50 vuelos de otras
aerolı́neas, de los cuales fueron puntuales 31 y 36 vuelos, respectivamente.
a) (1 punto) Plantea el contraste de hipótesis apropiado, identificando las hipótesis nula y alternativa;
indica el estadı́stico de contraste.
b) (0,5 puntos) Determina la región de rechazo del contraste y resuelve el mismo con un nivel de
significación del 2%.
c) (0,5 puntos) Calcula el p-valor del contraste.
d ) (0,25 puntos) Determina para qué niveles de significación no se rechaza la hipótesis nula con los datos
obtenidos.
e) (0,25 puntos) Interpreta los resultados. ¿Qué muestran estos sobre la evidencia disponible y la pu-
blicidad de FastAir ?
f ) (1 punto) Calcula el valor (aproximado) de la potencia del contraste anterior para un nivel de signi-
ficación del 2 %, si la diferencia (poblacional) entre las proporciones de vuelos puntuales es igual a
0,1. Interpreta tu resultado.
Solución.
a) Se trata de un contraste para la diferencia entre dos proporciones, con muestras grandes independien-
tes de dos poblaciones. Denotamos por p1 y p2 las proporciones de vuelos puntuales de FastAir y de
la competencia, respectivamente. El contraste de hipótesis es: H0 : p1 6 p2 (o también H0 : p1 = p2 )
vs. H1 : p1 > p2 . El estadı́stico de contraste es
31 36
p̂1 − p̂2 aprox. 35 − 50
Z=q ∼ N (0, 1), z=q ≈ 1,84,
1 1
67 67 1 1
p̂0 (1 − p̂0 ) n1 + n2 85 (1 − 85 ) 35 + 50
donde p̂0 = (n1 p1 + n2 p2 )/(n1 + n2 ).

b) Se rechaza H0 si z > z0,02 ≈ 2,055 (RR0,02 = {z|z > 2,055}). Por tanto, con los datos obtenidos no
se rechaza H0 con un nivel de significación del 2%.
c) El p-valor del contraste vale P {Z > 1,84} ≈ 0,0329.
d ) Con los datos obtenidos no se rechaza la hipótesis nula para niveles de significación α 6 0,0329.
e) Los resultados muestran una evidencia moderada de que los vuelos de FastAir son más puntuales
que los de la competencia, como indica su publicidad, ya que, por ejemplo, se rechaza H0 con un
nivel de significación del 4%. Sin embargo, la evidencia en favor de la publicidad de FastAir no es
muy fuerte, ya que no podemos rechazar H0 con un nivel de significación del 3%.
f ) El cálculo de la potencia se basa en la relación
potencia = P (rechazar H0 | p1 − p2 = 0, 1).
Como la región de rechazo es RR0,02 = {z|z > 2,055}, la potencia vendrá dada por
 
p̂ 1 − p̂ 2
P q > 2,055 | p1 − p2 = 0, 1 ,
p̂0 (1 − p̂0 ) n11 + n12
pero como bajo p1 − p2 = 0, 1 se tiene que
p̂1 − p̂2 − 0, 1 aprox.
Y ≡q ∼ N (0, 1),
p̂0 (1 − p̂0 ) n11 + 1

n2
podemos escribir que

   
0, 1 0, 1
potencia = P Y + q
1 1
> 2,055 = P Y > 2,055 − q 67 67 1 1


p̂0 (1 − p̂0 ) n1 + n2 85 (1 − 85 ) 35 + 50
= P (Y > 0,944) = 0,172,
un valor muy reducido de la potencia, debido a que 0, 1 está muy próximo al valor 0 correspondiente
a la hipótesis nula.
Una solución más correcta (pero posiblemente menos immediata) teniendo en cuenta que p1 6= p2 ,
serı́a trabajar con
p̂1 − p̂2 − 0, 1 aprox.
Y0 ≡ q ∼ N (0, 1),
p̂1 (1−p̂1 ) p̂2 (1−p̂2 )
n1 + n2
de manera que, usando p̂1 = 31/35 = 0,886 y p̂2 = 36/50 = 0,72,

   
0, 1 0, 1
potencia = P Y 0 + q > 2,055 = P Y 0 > 2,055 − q 
p̂1 (1−p̂1 ) p̂2 (1−p̂2 ) 0,886×0,214 0,72×0,28
n1 + n2 35 + 50
= P (Y 0 > 0,853) = 0,197,
2. (2,5 puntos) Se quiere comparar el nivel de dificultad de los exámenes parciales primero (P1 ) y segundo
(P2 ) de la asignatura Estadı́stica II. Para ello, suponiendo que el nivel de dificultad de cada parcial se
refleje en las notas obtenidas por los estudiantes (sea X la variable aleatoria asociada a la nota obtenida
en P1 e Y la variable aleatoria asociada a P2 ), se han seleccionado al azar 9 estudiantes y se han observado
las siguientes notas:
Estudiante x y
1 5.5 6
2 7 7.4
3 4 4
4 8 7.6
5 6 6.3
6 5 4.8
7 9.5 10
8 5 5.6
9 5.5 6.5
a) (1 punto) Dada la naturaleza de las dos muestras disponibles, plantea el contraste oportuno para
evaluar si el nivel de dificultad de P2 ha sido más bajo que el nivel de dificultad de P1 . Indica los
supuestos bajo los que vas a realizar este contraste. Especifica las hipótesis nula y alternativa y
soluciona el contraste proporcionando el valor del estadı́stico adecuado y la forma de la región de
rechazo para α = 0,05.
b) (1 punto) Ahora suponemos que la muestra de X se ha obtenido de manera independiente respecto
2
a la muestra de Y , y que X e Y siguen distribuciones normales con varianzas conocidas: σX = 2,9
2
y σY = 3,1, respectivamente. Plantea nuevamente un contraste para evaluar si el nivel de dificultad
de P2 ha sido mas bajo que el nivel de dificultad de P1 . Especifica las hipótesis nula y alternativa,
y soluciona el contraste proporcionando el valor del estadı́stico adecuado y su p-valor. Indica tus
conclusiones si α = 0,05.
c) (0,5 puntos) Indica si las siguientes afirmaciones son verdaderas o falsas, justificando tus respuestas:
1) Los contrastes de los apartados 2a y 2b siempre llevan a conclusiones diferentes, manteniendo
los mismos datos, si el nivel de significación es suficientemente reducido.
2) El contraste del apartado 2a no se puede llevar a cabo a menos que las dos poblaciones sean
normales.
Solución.
a) Dado que las muestras son pareadas, podemos emplear un contraste para la diferencia entre dos
medias para muestras pareadas, y construir la tabla de las diferencias D = X − Y observadas en la
muestra disponible:
Estudiante D
1 -0.5
2 -0.4
3 0
4 0.4
5 -0.3
6 0.2
7 -0.5
8 -0.6
9 -1
Como el tamaño de la muestra es reducido, supondremos que D sigue una distribución normal con
varianza poblacional desconocida. Nuestras hipótesis nula y alternativa serán
H0 : D0 ≥ 0,
H1 : D0 < 0.
El contraste planteado puede estudiarse considerando el estadı́stico

D̄
T = √ ∼ tn−1 ,
sd / n
y la región de rechazo (n − 1 = 8)
RR0,05 = {t : t < −t8;0,05 } = {t : t < −1,860} .
Dados los datos del ejercicio, el valor del estadı́stico es

d¯ −0,3
t= √ = = −2,09,
sd / n 0,43/3
y como t = −2,09 ∈ RR0,05 , en este caso rechazamos la hipótesis nula.
Podemos concluir que los datos contienen suficiente evidencia en favor de que las notas del Parcial
2 hayan sido en promedio más altas que las notas del Parcial 1, y eso implicarı́a que el nivel de
dificultad del Parcial 2 ha sido más bajo que el nivel de dificultad del Parcial 1.
b) Dado que ahora las muestras son independientes y las poblaciones normales y con varianzas conocidas,
podemos emplear un contraste para la diferencia entre dos medias para dos poblaciones normales
con varianzas conocidas y considerar el estadı́stico
X̄ − Ȳ
Z=q 2 2
∼ N (0, 1).
σX σY
nX + nY
El contraste tendrá las siguientes hipótesis nula y alternativa:

H0 : µX − µY ≥ 0,
H1 : µX − µY < 0,
Dados los datos del ejercicio,
2
x̄ = 6,17, ȳ = 6,47, σX = 2,9, σY2 = 3,1, nX = nY = 9,
el valor del estadı́stico es
x̄ − ȳ 6,17 − 6,47
z=q 2 2
= q = −0,37,
σX σY 2,9 3,1
nX + nY 9 + 9
y su p-valor es
P (Z ≤ −0,37) = P (Z ≥ 0,37) = 0,3557.
Como el p-valor es mayor que α, no podemos rechazar la hipótesis nula.
Podemos concluir que los datos no contienen suficiente evidencia en favor de que las notas del Parcial
2 hayan sido en promedio más altas que las notas del Parcial 1.
c) Estas dos afirmaciones son:
1) Falsa. Para niveles de significación muy reducidos tendemos a no rechazar la hipótesis nula en
cualquier contraste (a menos que el valor muestral del estadı́stico coincida exactamente con el
valor bajo la hipótesis nula), y por tanto la conclusión tiende a ser la misma en ambos casos.
2) Falsa. Si el tamaño muestral es elevado, el teorema central del lı́mite implica que la distribución
de D̄ es aproximadamente normal, y se puede llevar a cabo el contraste basado en esta propiedad.
(Otra respuesta posible es que basta con que la diferencia de las dos poblaciones sea normal,
para cualquier tamaño muestral.)
3. (4 puntos) Se ha realizado una encuesta de calidad docente en la Universidad a 1084 alumnos de la misma
para estimar el aumento de interés (I) por una determinada asignatura por parte de los alumnos, en
función de la valoración dada a su trabajo personal (T ) por dichos alumnos. Las dos variables se han
valorado en una escala (continua) de 1 a 5. Se ha realizado un análisis de regresión con Excel obteniéndose
los siguientes valores:
1084
X 1084
X 1084
X 1084
X
Ii = 3441,25, Ti = 3481,11, Ii2 = 11292,88, Ti2 = 11768,99.
i=1 i=1 i=1 i=1
En base a las tablas anteriores calcule:

a) (0,25 puntos) El coeficiente de determinación indicando su interpretación.
b) (0,25 puntos) El coeficiente de correlación indicando su interpretación.
c) (0,5 puntos) Calcula un intervalo de confianza al 95 % para la pendiente del modelo.
d) (0,5 puntos) ¿Qué interés I estimas que tendrá un alumno que valore su trabajo personal como 3,5?
Calcula un intervalo de confianza al 95 % asociado a dicha estimación.
e) (0,5 puntos) ¿Se podrı́a afirmar que a medida que aumenta el trabajo personal del alumno el interés
por la asignatura disminuye en promedio? Contrástalo a un 5 % de significación.
Para poder estimar mejor la variable interés del alumno (I) se han añadido a la regresión anterior las
siguientes variables explicativas, también valoradas de 1 a 5:
“Profesor”: valoración dada al profesor.
“Lecturas”: valoración de las lecturas repartidas por el profesor.
“Material”: valoración del material repartidas por el profesor.
Se ha obtenido la siguiente tabla ANOVA para el modelo multivariante resultante:
f ) (0,5 puntos) Calcula un intervalo de confianza al 90 % para el coeficiente de la variable “Lecturas”
en el modelo de regresión múltiple. Basándote en este intervalo, comenta sobre la significación de la
variable “Lecturas” en el modelo múltiple.
g) (0,5 puntos) Calcula una estimación de la varianza del error del modelo utilizando un estimador
insesgado.
h) (1 punto) Responde verdadero o falso a las siguientes cuestiones razonando tu respuesta:
1) Podemos decir que el modelo de regresión lineal múltiple es globalmente significativo.
2) La variable explicativa “Material” no es significativa al 1 % de significación.
3) La variable explicativa “Profesor” tiene un mayor efecto en el interés del alumno por la asignatura
que el resto de las variables explicativas.
4) El coeficiente de determinación en este modelo es 0,3865.
Solución.
a) Tenemos que
SCM 188,97
R2 = = = 0,513,
SCT 368,33
y por tanto podemos explicar el 51,3 % de la variabilidad de la variable “Interés del alumno por la
asignatura” con el valor de la variable “Valoración que hace el alumno de su Trabajo Personal.”
b) Obtenemos √ p
ρ = R2 = 0,513 = 0,716.
Se puede decir que existe una correlación lineal entre las variables “Interés” y “Trabajo personal”
positiva, puesto que la pendiente es positiva, y fuerte, puesto que el valor es mayor que 0,6.
c) El intervalo de confianza para β1 se obtiene aplicando la fórmula
" s #
s2R
β̂1 ∓ tn−2;α/2 ,
(n − 1)s2T
ya que T es la variable independiente del modelo.

De la tabla ANOVA tenemos que la varianza residual vale s2R = 0,1657; de la tabla adjunta también
tenemos que β̂1 = 0,5659. De los datos incluidos obtenemos que la varianza de la variable “Trabajo
personal” es !
1 X
s2T = Ti2 − nT̄ 2 = 0,5469.
n−1 i
Por último, de la tabla de la normal (al ser n elevado) t1082;0,025 ≈ z0,025 = 1,96.
Con todos estos datos obtenemos que
IC0,95 (β1 ) = [0,5331; 0,5987].
d ) Dado que el modelo de regresión es

Iˆ = 1,3569 + 0,5659T,
obtenemos una predicción puntual para T0 = 3,5,
I0 = 1,3569 + 0,5659 × 3,5 = 3,3376.
El intervalo de confianza pedido vendrá dado por

" s #
(3,5 − 3,211)2

1
3,3376 ∓ 1,96 0,5469 1 + + = [1,8873; 4,7878]
1084 1083 × 0,5469
e) El contraste a realizar es
H0 : β1 ≥ 0
H1 : β1 < 0
De la tabla obtenemos el valor de estadı́stico T0 = 33,763, y la región de rechazo viene dada por
RRα = {t0 < tn−2;α }. Utilizamos la aproximación de la t de Student (al ser n muy elevado) por la
normal tn−2;0,05 ≈ z0,05 = 1,645.
No se puede rechazar la hipótesis nula por lo que no se puede afirmar que a medida que aumenta la
“Valoración del trabajo personal” disminuya el “Interés del alumno” a un 5 % de significación.
f ) De los datos en la tabla, este intervalo tiene la forma
IC0,9 (β2 ) = [0,053 ∓ t1079;0,05 0,032] = [0,0004; 0,1056].
Como el valor 0 no pertenece al intervalo, la variable es (individualmente) significativa para un nivel

de confianza del 10 %.
g) El estimador insesgado de la varianza del error es la varianza residual, que de la tabla indicada vale
s2R = 0,131.
h) Para las preguntas Verdadero/Falso tenemos:
1) Verdadero, puesto que el contraste de la tabla ANOVA rechaza que el modelo no sea significativo
globalmente, dado el valor del estadı́stico F = 428,06 y el p-valor asociado, aproximadamente
igual a 0 (6,70 10−221 )
H0 : β 1 = β 2 = β 3 = β 4 = 0
H1 : algún βj 6= 0
2) Falso, ya que si hacemos el contraste
H0 : β 4 = 0
H1 : β4 6= 0
rechazamos la hipótesis nula puesto que el estadı́stico t0 = 8,10 y el p-valor del contraste es casi
nulo (1,38 10−15 ) ası́ que la variable sı́ es significativa.
3) Verdadero, porque si miramos los coeficientes de las pendientes parciales observamos que es el
mayor coeficiente. Si variamos un punto la valoración del Profesor, la variable Interés del alumno
aumenta en 0,385 en promedio, si el resto de las variables explicativas se mantienen constantes.
Este el es el mayor valor de los coeficientes estimados.
4) Falso, ya que R2 = SCM/SCT = 225,95/368,33 = 0,6134

Formula Rio

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Formula Rio

Загружено:

Авторское право:

Доступные форматы

Estadı́stica II

Examen Final 19/06/2015

Responda a las preguntas siguientes en los cuadernillos de la Universidad

donde p̂0 = (n1 p1 + n2 p2 )/(n1 + n2 ).

potencia = P (rechazar H0 | p1 − p2 = 0, 1).

podemos escribir que

= P (Y > 0,944) = 0,172,

de manera que, usando p̂1 = 31/35 = 0,886 y p̂2 = 36/50 = 0,72,

= P (Y 0 > 0,853) = 0,197,

El contraste planteado puede estudiarse considerando el estadı́stico

Dados los datos del ejercicio, el valor del estadı́stico es

El contraste tendrá las siguientes hipótesis nula y alternativa:

En base a las tablas anteriores calcule:

ya que T es la variable independiente del modelo.

d ) Dado que el modelo de regresión es

El intervalo de confianza pedido vendrá dado por

IC0,9 (β2 ) = [0,053 ∓ t1079;0,05 0,032] = [0,0004; 0,1056].

Como el valor 0 no pertenece al intervalo, la variable es (individualmente) significativa para un nivel

2) Falso, ya que si hacemos el contraste

Вам также может понравиться