Вы находитесь на странице: 1из 8

116 Capı́tulo 5.

Métodos de inferencia: Contrastes no paramétricos

Ejemplo 1

Una fábrica de detergentes produce 3 productos de caracterı́sticas si-


milares con distintos nombres, A, B y C. Actualmente, la producción de
A es 4 veces mayor que la de B y C, que son iguales. El gerente está in-
teresado en saber si esta producción se ajusta a la demanda existente.
Para ello, se observan las ventas de tales productos en un hipermercado
durante una semana:

A B C Total
Ventas 620 100 130 850

¿Qué le aconsejarı́as al gerente respecto a la producción actual de los


tres tipos de detergentes?
pA = proporción de producción de A, pB = proporción de producción
de B y pC = proporción de producción de C, según el enunciado,

pB = pC pA = 4pB (5.1)
como además,
pA + p B + pC = 1 (5.2)
sustituyendo (5.1) en (5.2) tenemos,

4pB + pB + pB = 1
6pB = 1
1
pB =
6
y utilizando de nuevo (5.1),
1 4
pC = pA =
6 6
Si planteamos la hipótesis nula que recoge la producción actual y
analizamos su coherencia con las ventas, tendremos una respuesta a la
pregunta. Ası́ pues,
4 1 1
H0 : pA = pB = pC =
6 6 6
H1 : Al menos una de las igualdades no se cumple.

Si H0 es cierta y la producción es correcta, tendrı́amos las siguientes


frecuencias esperadas para las ventas,
5.2 Pruebas basadas en la distribución χ2 117

A B C

4 1 1
Ventas 6
∗ 850 = 566, 67 6
∗ 850 = 141, 67 6
∗ 850 = 141, 67


3
(Oi − Ei )2
χ2 = ∼ χ2(3−1)
i=1
Ei
Valor calculado:
 (Oi − Ei )2 (620 − 566, 67)2 (100 − 141, 67)2 (130 − 141, 67)2
χ2 = = + +
Ei 566, 67 141, 67 141, 67
= 5, 02 + 12, 25 + 0, 96
= 18, 24

Buscamos en tablas el valor que en una χ22 deja una probabilidad 0,05
por delante, este valor es 5,99.
Como 18, 24 > 5, 99, rechazamos H0 . Las producciones de los tres
productos no están acordes con sus ventas. Por tanto aconsejarı́a corregir
las producciones

Contraste de bondad de ajuste con datos no categóricos.


La forma habitual de presentar los datos en este tipo de pruebas es
por medio de una tabla de intervalos, para establecer categorı́as como en
el caso anterior:
Clase ni
L 0 – L1 n1
L 1 – L2 n2
...
Lk−1 – Lk nk
n
La hipótesis que planteamos es, por ejemplo:

H0 : Los datos proceden de una distribución Normal.


H1 : Los datos no proceden de una distribución Normal.

En otros casos, podrı́a interesar contrastar si dicha distribución es de


Poisson, Exponencial, Binomial, etc.
118 Capı́tulo 5. Métodos de inferencia: Contrastes no paramétricos

El estadı́stico de la prueba es:



k
(ni − np∗ )2 i
∼ χ2k−1−r
i=1
npi

donde np∗i es la frecuencia que se esperarı́a obtener en el caso de que


la distribución de la población fuera la planteada en la hipótesis nula.
k es el número de intervalos que se han establecido para agrupar lo
datos, y, r es el número de parámetros de la distribución estimados a
partir de los datos.
El desarrollo es análogo al anterior, la región de aceptación será:

R.A. = {χ2 ≤ χ2k−1−r (α)}


Si el estadı́stico toma un valor perteneciente a la región, aceptamos la
hipótesis nula. No hay suficiente evidencia para rechazar la hipótesis de
Normalidad de los datos y por tanto, podemos aceptar una distribución
aproximadamente Normal para los datos del ejemplo.
Ejemplo 2

Cierta universidad posee un programa de concesión de becas para


realizar colaboraciones en los departamentos. Las cuantı́as de las becas
varı́an según la dedicación y el tipo de colaboración que realicen los
alumnos. Examinada una muestra aleatoria de 150 becas, se obtuvieron
los siguientes resultados:

Cuantı́a de la beca Número de becas


(miles de pesetas)
40-50 3
50-60 10
60-65 12
65-70 15
70-75 40
75-80 32
80-100 38

¿Puede decirse, a la vista de los datos, y utilizando un 5 % de signi-


ficación, que las cuantı́as de las becas se conceden de acuerdo con una
distribución Normal?

H0 : Los datos proceden de una distribución Normal.


H1 : Los datos no proceden de una distribución Normal.
5.2 Pruebas basadas en la distribución χ2 119

En primer lugar necesitamos estimar la media y la varianza, como


vimos en el tema 3 pueden estimarse mediante los correspondientes valo-
res muestrales, que pueden calcularse después de obtener las marcas de
clase de cada intervalo, x̄ = 74, 98 y s = 11, 12. Podemos reformular la
hipótesis como,
H0 : X ∼ N (74, 98; 11, 12)
H1 : Los datos no proceden de una distribución Normal.
Si H0 es cierta podemos calcular las probabilidades de cada intervalo,
tipificando y consultando las tablas,

40 − 74, 98 X − 74, 98 50 − 74, 98


P (40 ≤ X ≤ 50) = P ( ≤ ≤ )
11, 12 11, 12 11, 12
= P (−3, 14 ≤ Z ≤ −2, 25)
= P (Z < −2, 25) − P (Z < −3, 14)
= 0, 0122 − 0, 0008 = 0, 0115
de forma análoga pueden calcularse el resto de probabilidades,
P (X < 40) = 0,0008
P (50 ≤ X ≤ 60) = 0, 077
P (60 ≤ X ≤ 65) = 0, 096
P (65 ≤ X ≤ 70) = 0, 142
P (70 ≤ X ≤ 75) = 0, 174
P (75 ≤ X ≤ 80) = 0, 174
P (80 ≤ X ≤ 100) = 0, 314.
P (X > 100) = 0, 0122
A partir de las cuales se obtienen las frecuencias esperadas para cada
intervalo:
marca de clase Cuantı́a de la beca Número frec. esperadas
(miles de pesetas) de becas
< 40 0 0.0008*150=0,12
45 40-50 3 0,0115*150= 1,725
55 50-60 10 0,077*150= 11,55
62,5 60-65 12 0,096*150= 14,4
67,5 65-70 15 0,142*150= 21,3
72,5 70-75 40 0,174*150= 26,1
77,5 75-80 32 0,174 *150= 26,1
90 80-100 38 0,314*150= 47,1
> 100 0 0,0122*150=1,83
120 Capı́tulo 5. Métodos de inferencia: Contrastes no paramétricos

Hay que agrupar los intervalos que tengan una frecuencia esperada
inferior a 5, en este caso el primero con el segundo y nos queda,

Cuantı́a de la beca Número de becas frec. esperadas


(miles de pesetas)
< 60 13 13,395
60-65 12 14,4
65-70 15 21,3
70-75 40 26,1
75-80 32 26,1
> 80 38 48,93

 (Oi − Ei )2
∼ χ2(6−1−2)
Ei
los grados de libertad de la χ2 son el número de categorı́as ya agrupadas
(6) menos 1 y se le resta 2 porque hemos estimado dos parámetros la
media y la desviación tı́pica.
Valor calculado:
 (Oi − Ei )2 (13 − 13, 395)2 (12 − 14, 4)2 (15 − 21, 3)2
= + +
Ei 13, 395 14, 4 21, 3
2 2
(40 − 26, 1) (32 − 26, 1) (38 − 48, 93)2
+ + +
26, 1 26, 1 48, 93
= 0, 09 + 0, 4 + 1, 86 + 7, 4 + 1, 33 + 1, 76
= 13, 45

Buscamos en tablas el valor que en una χ23 deja una probabilidad 0,05
por delante, este valor es 7,81.
Como 13, 45 > 7, 81, rechazamos H0 . Hay evidencia suficiente en los
datos para pensar que la cuantı́a de las becas no se distribuye Normal

Ejercicio 1

A partir del cuadro adjunto, comprobar si se puede considerar Nor-


mal de media 8 la distribución teórica de la población de la que se ha
obtenido la muestra aleatoria constituida por las 100 observaciones de
dicho cuadro.
5.2 Pruebas basadas en la distribución χ2 121

Intervalos Frecuencias
0,5-3,5 10
3,5-6,5 20
6,5-9,5 30
9,5-12,5 30
12,5-15,5 10

solución No podemos rechazar H0 (χ2 = 2,79).

5.2.2. Test de Independencia


Este tipo de test se utiliza para estudiar si dos variables categóricas
o cualitativas son independientes. Los datos se suelen presentar en forma
de tabla de contingencia, como en la Tabla 5.1:

X /Y y1 y2 y3 ... yk Marginal de X
x1 n11 n12 n13 ... n1k n1·
.. .. ..
. . .
xr nr1 nr2 nr3 ... nrk nr·
Marginal de Y n·1 n·2 n·3 ... n·k n

Tabla 5.1: Tabla de frecuencias conjuntas y marginales

Las hipótesis que se plantean en este test son:

H0 : X e Y son independientes
H1 : X e Y son dependientes

El estadı́stico de la prueba, si la hipótesis nula es cierta, es:


ni· n·j 2
 (nij − )
χ2 = n ∼ χ2(k−1)(r−1)
ni· n·j
∀i,j
n
ni· n·j
donde es la frecuencia que se puede esperar en el caso de que las
n
variables sean independientes.
La región de aceptación será:
122 Capı́tulo 5. Métodos de inferencia: Contrastes no paramétricos

RA = {χ2 ≤ χ2(r−1)(k−1) (α)}


donde k es el número de columnas y r el de filas.

Para tomar la decisión se actúa igual que en los anteriores contrastes.


Ejemplo 3

”Si el mundo fuera una aldea de 100 personas, de entre los habitantes
de la aldea, 1 estudia en la Universidad, 2 poseen ordenadores y 14 no
saben leer.”
Si esta estadı́stica la separamos por sexos, consideramos excluyen-
tes las categorı́as, y la realizamos sobre una muestra de 200 personas
obtenemos la siguiente tabla:
Va a la Universidad Tiene ordenador No sabe leer
Hombre 8 15 70
Mujer 4 8 95
A la vista de los datos obtenidos, comprobar si existe relación entre
el tipo de formación y el género de la persona.
a) Resolverlo con un nivel de significación del 1 %.

Va a la Tiene No sabe
Universidad ordenador leer
Hombre 8 15 70 93
Mujer 4 8 95 107
12 23 165 200

X = Sexo (hombre, mujer)


Y = Tipo de formación
H0 : las variables son independientes
H1 : existe una relación entre las variables
Frecuencias esperadas si H0 es cierta:

Universidad Tiene ordenador No sabe leer

93 ∗ 12 93 ∗ 23 93 ∗ 165
Hombre = 5, 58 = 10, 69 = 76, 72
200 200 200
107 ∗ 12 107 ∗ 23 107 ∗ 165
Mujer = 6, 42 = 12, 30 = 88, 27
200 200 200
5.2 Pruebas basadas en la distribución χ2 123

Si H0 es cierta:

 (Oi − Ei )2
∼ χ2(3−1).(2−1)
Ei

Valor calculado: 6,303

El valor de tablas que en una distribución χ22 deja una probabilidad


de 0,01 por delante es 9,21.

Como 6, 303 < 9, 21, no podemos rechazar H0 . No existe evidencia


suficiente para pensar que las variables nivel de estudios y sexo no
son independientes.

b) Resolver de nuevo el test al 5 %.

Sin embargo si α = 0,05, el valor de tablas que en una distribución


χ22 deja una probabilidad de 0,05 por delante es 5,99.

Y entonces cambia la decisión, como 6, 303 < 5, 99, podemos re-


chazar H0 . Existe evidencia suficiente para pensar que las variables
nivel de estudios y sexo no son independientes.

c) Calcular el p-valor correspondiente.

Si calculamos el p-valor que corresponde al valor del estadı́stico,


nos damos cuenta de lo que pasa,

p − valor = P (χ22 > 6, 303) = 0, 043

Вам также может понравиться