Вы находитесь на странице: 1из 12

EXAMEN DE ESTADISTICA

Junio 2007

Apellidos:

DNI

Nombre:

GRUPO:

1. Grupos A, B, C, D y E
Describa los siguientes histogramas en terminos de centralidad, dispersion y asimetra.
Sit
ue sobre la grafica, y de forma cualitativa, la media, la moda y la mediana. As
mismo, indique a que funcion de densidad continua de las estudiadas durante el curso
se podran ajustar los datos.
(1 punto)

Respuesta:
Histograma de la izquierda: se trata de un histograma bastante simetrico, con un
mismo valor de media, moda y mediana. La dispersion de los datos es simetrica en
torno a la media y si tuvieramos que ajustarlo a una funcion continua que nos diera la
funcion de densidad, se ajustara a una Normal o a una t de Student.
Histograma de la derecha: se trata de un histograma bastante asimetrico, con una
valor de media mayor que la mediana, y esta u
ltima a su vez mayor que la moda. La
dispersion de los datos es hacia la derecha y se trata de un histograma con asimetra
hacia la derecha. Si tuvieramos que ajustarlo a una funcion continua que nos diera la
funcion de densidad, se ajustara a una 2 o a una F de Fisher.

2. Grupos A, B, C, D y E
Que representa la region de aceptacion cuando hablamos de un contraste de hipotesis?
Indique su relacion con el concepto de nivel de confianza. Adj
untese un grafico ilustrativo.
(1 punto)
Respuesta:
Son todos los valores del estadstico de prueba que llevan a la aceptacion de la hipotesis
nula.
Dado que el estadstico de prueba sigue una determinada distribucion muestral (conocida bajo la hipotesis de que H0 es cierta), la region de aceptacion se establece asumiendo un nivel de confianza, o probabilidad de haber aceptado H0 siendo esta correcta.
En lugar de nivel de confianza, tpicamente se habla de su complementario, el nivel
de significacion , o probabilidad de rechazar H0 cuando esta es correcta. Con esta
notacion, el nivel de confianza suele expresarse como (1 ), o en tanto por ciento
como 100(1 )%.

Otra forma de decir lo mismo es considerar que si se repite un gran n


umero de veces un
contraste de hipotesis y H0 fuera verdadera, en el 100(1)% de los casos el estadstico
de prueba cae en la region de aceptacion y se dice entonces que la hipotesis nula no se
rechaza con un nivel de confianza (1 ).

3. Grupos A, B, C, D y E
Una centralita recibe unas 300 llamadas por hora. Si se sabe que dicha centralita no
puede establecer mas de 12 conexiones por minuto, calcular:
a) La probabilidad de que reciba una sola llamada en un minuto dado.
b) La probabilidad de que la capacidad de la centralita quede rebasada en un minuto
dado.
(1 punto)
Respuesta:
a) Se sigue una distribucion de Poisson, cuya funcion de densidad viene dada por
p(x; ) =

x
e .
x!

El n
umero promedio de llamadas por minuto sera
=

300 llamadas
= 5 llamadas por minuto.
60 minutos

La probabilidad que nos piden es


P (X = 1) = p(1; 5) = 5e5 = 0.0337.
b) En este caso la probabilidad que nos piden es
P (X > 12) = 1 P (X 12) = 1

12
X

r=0

p(r; 15) = 1 0.998 = 0.002.

4. Grupos A, B, C, D y E
Se tiene una muestra de 100 datos representados en un histograma con 10 marcas de
clase. Se establece la hipotesis nula de que la funcion de densidad teorica a la que se
ajustaran dichos datos es una normal y se aplica un test de bondad del ajuste para
comprobar dicha hipotesis. Los parametros poblacionales de la distribucion se estiman
a partir de los 100 datos de la muestra. El estadstico de contraste da un valor de
15.04. Discutir los niveles de significacion para los cuales se aceptara o rechazara la
hipotesis nula.
(1 punto)
Respuesta:
La hipotesis nula se acepta si 2 < 2, , donde el n
umero de grados de libertad es
= k p 1 con k = 10 (intervalos), p = 2 (dos parametros poblacionales estimados
a partir de la misma muestra), es decir, = 10 2 1 = 7.
Si acudimos a la tabla de la 2 con = 7 vemos
20.050,7 = 14.067

20.025,7 = 16.013,

por lo que el valor umbral de estara comprendido entre 0.025 y 0.050. De hecho, el
dato del enunciado, 15.04, es justo la media aritmetica de los dos valores anteriores,
por lo que una interpolacion lineal nos dara que para < (0.025 + 0.050)/2 = 0.0375
aceptaramos la hipotesis nula, y que para > 0.0375 la rechazaramos.
Nota: usando disttool de MATLAB se obtiene que el valor exacto es
= 1 chi2cdf(15.04,7)=0.0355.

5. Grupos A, B, C, D y E
La calificacion media de un examen final en un grupo numeroso de alumnos fue de 72
puntos, con una varianza de 9. El 10% superior de los alumnos obtuvo un sobresaliente,
y el 27% inferior un suspenso. Hallar:
a) La calificacion mnima del sobresaliente.
b) La calificacion maxima del suspenso.
Adjuntar un grafico ilustrativo.
(1 punto)
Respuesta:
a) Sabemos que P (X > SBmin ) = 0.10, donde X sigue una distribucion N(72,3).
Tipificando la variable se obtiene
SBmin 72
= 0.10.
3
Mirando en las tablas vemos que la abcisa de la normal tipificada que deja a su derecha
un area de 0.10 es aproximadamente 1.28. Por tanto,


P z>

SBmin 72
1.28
3

SBmin = 75.84.

b) De forma similar tenemos P (X < SSmax ) = 0.27, que tipificando escribimos como
72 SSmax
SSmax 72
= 0.27 = P z >
.
P z<
3
3
Recorriendo de nuevo la tabla de la normal tipificada encontramos que dicha probabilidad se obtiene para una abcisa de 0.61, por lo que podemos escribir


72 SSmax
0.61
3

SSmax = 70.17.

6. Grupos A, B y E
Supongamos que el coeficiente de correlacion en la regresion lineal simple entre las
variables X e Y es 0.50.
a) Que tanto por ciento de variacion total de la variable Y no explica la recta de
regresion Y sobre X (es decir, Y = a + bX)?
b) Cuando aumenta el valor de la variable X, en promedio, aumenta, disminuye o se
mantiene constante el valor de la variable Y ?
(1 punto)
Respuesta:
a) El coeficiente de determinacion relaciona la variacion explica con la variacion total
mediante
r 2 = 0.25 =

VT VNE
VNE
VE
=
=1
VT
VT
VT

VNE
= 1 r 2 = 0.75,
VT

es decir, un 75%.
b) Como r < 0, la pendiente de Y sobre X es negativa y, por tanto, la relacion entre
X e Y es inversa. Cuando X aumenta, en promedio Y disminuye.

7. Grupos C y D
Hallar la probabilidad de que entre 100000 cifras escogidas al azar entre 0 y 9 (inclusives), el n
umero 6 salga menos de 9971 veces.
(1 punto)
Respuesta:
Tenemos una distribucion binomial con probabilidad de exito p = 1/10 = 0.1. Como
el n
umero de ensayos es enorme, la u
nica opcion es aproximar por una distribucion
normal. En este caso se verifican ampliamente las condiciones para tal aproximacion
= np = 105 0.1 = 104 > 5

= npq = 105 0.1 0.9 = 9000 = 94.87 > 5


Podemos entonces calcular la probabilidad requerida mediante
9970.5 10000
P (x < 9971) = P (x 9970) = P (x < 9970.5) = P z <
=
94.87

= P (z < 0.31) = P (z > 0.31) = 0.378

8. Grupos A, B, C, D y E
Un examen de oposicion consiste en la extraccion de 3 bolas de un total de 34, correspondientes a los 34 posibles temas del examen. Un opositor se ha preparado x temas.
a) Indique la formula generica de la probabilidad de que al menos uno de los temas
preparados caiga en el examen.
b) Aplique la expresion anterior para 5, 10, 15, 20, 25 y 30 temas preparados.
c) Realice una representacion grafica de la probabilidad frente al n
umero de temas
preparados.
(2 puntos)
Respuesta:
a) Sea el suceso A = {saberse al menos un tema del examen}. La probabilidad que
nos piden es precisamente
P (A) = 1 P (A).

Si llamamos x al n
umero de temas preparados por el opositor, y teniendo en cuenta
que la extraccion de las bolas ha de realizarse necesariamente sin reemplazamiento,
podemos calcular
34 x 33 x 32 x

,
P (A) =
34
33
32
Por lo que finalmente podemos escribir
P (A) = 1

34 x 33 x 32 x

.
34
33
32

b)
x
P (A)

5
10
15
20
25
30
0.3894 0.6618 0.8381 0.9392 0.9860 0.9993

c)

9. Grupos A, B, C, D y E
Se quiere saber si la temperatura de la superficie del mar en el Atlantico y en el
Pacfico tropical ha variado desde 1970 a 2006, en comparacion con el perodo entre
1950 y 1969. Se toman dos series temporales caractersticas de la temperatura en el

Atlantico y en el Pacfico, llamadas respectivamente ATL-3 y NINO-3.


En la siguiente
tabla aparecen los datos correspondientes a ambos ndices de temperatura. Se trata de
datos mensuales, con un total de 240 datos en el primer perodo, y 444 en el segundo.

ATL-3
NINO-3
o
19501969 x = 26.0066 C x = 25.8661 o C
s = 0.3387 o C
s = 0.7341 o C
o
19702006 x = 26.2236 C x = 25.9876 o C
s = 0.3488 o C
s = 0.9594 o C
a) Para cada cuenca, establezca un intervalo para la diferencia de medias entre ambos
perodos (con un nivel de confianza del 95%).
b) Analice, con un nivel de confianza del 95%, en cual de las dos cuencas se ha producido un cambio significativo en la media, si es que lo ha habido.
c) En las cuencas en las que no se haya producido un cambio en la media, analice si
los dos periodos temporales pertenecen a la misma poblacion.
(2 puntos)
Respuesta:
a) Como el n
umero de datos es grande, el intervalo de confianza para la diferencia de
medias puede calcularse como (distribuciones normales con varianzas desconocidas)

I = (X 1 X 2 ) z/2

S12 S22
+
,
n1
n2

que con los datos del enunciado conduce a

0.33872 0.34882
+
=
IATL-3 = (26.0066 26.2236) 1.96
240
444
= [0.2170 0.0537]

(0.2707, 0.1633)
s

0.73412 0.95942
I
= (25.8661 25.9876) 1.96
+
=
NINO-3
240
444
= [0.1215 0.1288]

(0.2503, +0.0073)

b) Planteamos las siguientes hipotesis


(

H0 : 1 = 2 (no ha habido cambio significativo de temperatura)


H1 : 1 6= 2

Se acepta H0 si
|x1 x2 |
z/2 .
z=r
s22
s21
+ n2
n1
9

En nuestro caso, como = 0.05 y z/2 = 1.960, tenemos


zATL-3 =

0.2170
= 7.92
0.0274

zNINO-3
=

0.1215
= 1.85
0.0657

se rechaza H0

se acepta H0

c) La u
nica cuenca en la que no puede demostrarse que se haya producido un cambio
de temperatura es en la del Pacfico. Por tanto, es en ella en la que realizamos el
contraste de igualdad de varianzas
(

Se acepta H0 si
F =

H0 : 12 = 22
H1 : 12 6= 22

i
s21 h

F
,
F
1/2,n1 1,n2 1
/2,n1 1,n2 1 .
s22

Con los datos de la tabla podemos calcular


F =

0.73412
= 0.5855,
0.95942

mientras que de la consulta de las tablas se obtiene


F0.975,239,443 =

1
F0.025,443,239

1
F0.025,,

1
= 0.909
1.1

F0.025,239,443 F0.025,, 1.1


Como el valor de F no esta contenido en el intervalo [0.909, 1.100], rechazamos H0 .

10

10. Grupos A, B y E
La temperatura media anual local en el pasado puede inferirse a partir de la concentracion del isotopo de 18 O de la precipitacion. Dada la siguiente tabla de valores
medidos de ambas cantidades en la actualidad
Localizacion 18 O (%0 )
A
8
B
14
C
21
D
26
E
30
F
36
G
45

Temperatura ( C)
10
0
11
23
29
40
50

a) Representar graficamente la recta de regresion correspondiente.


b) Determinar si la correlacion es significativa. Razonar el resultado.
(2 puntos)
Respuesta:
a)
b=

s2xy
1631.9
=
= 1.6833
s2x
969.4286

a = y bx = 20.4286 1.6833 (25.7143) = 22.8568

b)
r=

t=

r (n 2)
1 r2

s2xy
1631.9
=
= 0.9959
sx sy
31.1356 52.6281
= 24.5552 = t5,/2 = 2 8.9 105 0

Este valor no viene en la tabla. Se trata de que viendo que el estadstico t es muy
grande sepan identificar que la correlacion es altamente significativa. Alternativamente,
pueden considerar un valor de dado y deducir que es altamente significativa.
11

11. Grupos C y D
En una determinada ciudad europea se ha estudiado la distribucion en los tipos de
multas antes y despues de la introduccion del carnet por puntos, obteniendose los
siguientes resultados

antes del carnet por puntos


tras la introduccion
del carnet por puntos

multas
por exceso
de velocidad
120

multas
por exceso
de alcohol
39

multas
por mal
aparcamiento
492

87

33

320

Existe independencia entre el tipo de multa y el uso o no del carnet por puntos usando
como niveles de significacion = 0.05 y = 0.01?
(2 puntos)
Respuesta:
Hay que realizar un contraste de independencia de caracteres. La hipotesis nula
H0 : los dos caracteres son independientes
se acepta si
2 =

o2ij
n ,2
i=1 j=1 eij

2 X
3
X

Las frecuencias esperadas se determinan a partir de las frecuencias marginales mediante


eij =

ox i oy j
n

Estos valores son los que se muestran en la tabla de contingencia entre parentesis

antes del carnet por puntos


tras la introduccion
del carnet por puntos
oyj

multas
por exceso
de velocidad
120 (123.52)

multas
por exceso
de alcohol
39 (42.96)

multas
por mal
aparcamiento
492 (484.52)

oxi
651

87 (83.48)

33 (29.04)

320 (327.48)

440

207

72

812

1091

Con estos datos finalmente se calcula


2 =

o2ij
n = 1092.44 1091 = 1.44
i=1 j=1 eij

2 X
3
X

mientras que para los dos niveles de significacion indicados se tiene


20.05,2 = 5.99

20.01,2 = 9.21

En ambos casos vemos que se verifica la desigualdad de mas arriba, por lo que no
podemos rechazar la hipotesis nula. Es decir, existe independencia entre el tipo de
multa y el uso o no del carnet por puntos.
Firma:

12

Вам также может понравиться