Академический Документы
Профессиональный Документы
Культура Документы
1.1 Introducción
La EPN, ha establecido que los alumnos que los estudiantes, deben destinar al menos 10
horas de dedicación al estudio cada semana para poder aprender los temas que se tratan.
Como podemos establecer o inferir si esto en verdad está ocurriendo?.
Para el ejemplo de la EPN, la afirmación o hipótesis podría ser: “los alumnos dedican al
menos 10 horas cada semana al estudio”; mientras que, para el caso de los salarios, la
afirmación para decidir si es o no verdadera, podría ser: “no hay diferencias significativas
entre los salarios de hombres y mujeres”.
Es importante recalcar que en estos casos, el interés de la prueba no está en calcular las
horas de estudio o en calcular los salarios, sino solamente en establecer o inferir si
existen o no diferencias significativas, desde el punto de vista estadístico.
Considerando que la afirmación o hipótesis planteada (llamada hipótesis nula), podría ser
falsa, suele complementarse ésta con una hipótesis alternativa para cubrir el rango de
posibilidades de la prueba. Así, una prueba de hipótesis tiene la siguiente estructura:
Con la primera situación, cometemos lo que se llama error tipo I, mientras que con lo
segundo, se tiene el llamado error tipo II.
Estos errores se miden con los conceptos de probabilidad condicional que fueron
abordados anteriormente, y se denotan como:
Esta probabilidad α para el error tipo I, suele llamarse también la región crítica de la
prueba, y está dada por los valores o cuantiles de las leyes o modelos de probabilidad
utilizados en las pruebas, donde se tiene la suficiente evidencia muestral para rechazar la
hipótesis nula.
Así, el modelo de probabilidad de la prueba se puede dividir en dos áreas o regiones, una
para la hipótesis nula y otra para la hipótesis alternativa. Esto lo podemos apreciar en el
siguiente gráfico:
Estos cuantiles, se encuentran tabulados en las hojas finales de todos los libros de
estadística, y para leerlos, el investigador debe establecer el nivel de confianza o error y
en ocasiones un parámetro llamado grados de libertad (el cual representa el número de
parámetros independientes que se tiene en el estudio). Estos valores pueden ser
obtenidos fácilmente en una hoja electrónica de Excel.
Y con esto tenemos entonces la regla para decidir respecto de la prueba de hipótesis
planteada. Esquemáticamente lo podemos apreciar a continuación:
Regla de decisión:
Dentro de este contexto de la región crítica y el nivel de confianza, surge la denominada
probabilidad de significancia estadística, que suele notarse con la letra minúscula p.
Pero porqué es suficiente esta probabilidad de significancia estadística para decidir sobre
la prueba?, pues por lo siguiente:
Imaginen como si tuvieran una botella: el fondo de la botella tiene una marca para
registrar cuando se ha llenado o ha llegado a un nivel de 0.05 o 5% (región crítica). El
fondo de la botella representa la región crítica, mientras que la parte de arriba de la botella
representa la región de confianza o de aceptación de la hipótesis nula.
Y es por esta razón que en muchos cursos de proyectos y estadística, suelen dar como
regla (al 95% de confianza) lo siguiente:
En este curso nos vamos a concentrar en las pruebas de mayor frecuencia de uso, que
son las pruebas para medias y proporciones.
Sea X1, X2, X3, ,,,, Xn, una muestra aleatoria de una variable con distribución normal con
media µ y varianza constante.
( x o )
t
n
Donde:
x es la media de la muestra
o es el parámetro que deseamos probar
es la desviación estándar poblacional, y
n es el tamaño de la muestra
Este estadístico t se ajusta a la ley o modelo t-student de probabilidades, con (n-1) grados
de libertad. Para el caso de muestras n>30, no hay ninguna diferencia con la ley normal
de probabilidades.
Para calcular el cuantil de la ley t-student se necesita establecer los grados de libertad
que están dados por el tamaño de la muestra menos 1, es decir:
La EPN, ha establecido que los alumnos deben destinar al menos 10 horas de dedicación
estudio cada semana para poder aprender los temas que se tratan. Para verificar si está
cumpliendo o no con este requerimiento se tomó la siguiente muestra aleatoria de horas
de estudio:
Horas estudio
Alumno
a la semana
1 12.0 Entonces planteamos la siguiente prueba de hipótesis:
2 11.0
3 9.0
4 11.0
5 12.5
6 13.0 Ho: los alumnos estudian 10 horas
7 10.5 (requerimiento mínimo EPN)
8 9.5
9 10.0 versus
10 10.0
11 11.0 H1: los alumnos no estudian 10 horas
12 8.5
13 9.0
14 10.0
15 10.5
16 11.0
17 12.0
18 11.5
19 10.5
20 12.0
parámetro establecido
horas estudio por la EPN 10
estadístico t 2.66
Significancia 0.015
Interpretación:
Considerando un nivel de confianza del 95% (región crítica de rechazo es 5%), y que la
probabilidad de significancia estadística es p=0.015, tenemos suficiente evidencia
muestral para rechazar la hipótesis nula (p<0.05), es decir los estudiantes no están
estudiando en promedio 10 horas por semana.
Qué pasaría si el promedio hubiera sido, por ejemplo, 6.7 horas de estudio. En este
caso se tiene una situación negativa, puesto que los estudiantes no estarían
dedicando el mínimo de horas de estudio requerido,
Tomen en cuenta también que si como resultado de la prueba se hubiera dado que no
hay diferencias significativas (aceptamos la hipótesis nula), entonces la interpretación
hubiera sido que los alumnos están estudiando, en promedio, las 10 horas establecidas
(ni más, ni menos horas).
Sea X1, X2, X3, ,,,, Xn, una muestra aleatoria de una variable cualquiera, a partir de la cual
se calcula una proporción P.
Esta prueba tiene la ventaja que puede ser realizado con cualquier tipo de variable, por
ejemplo, podríamos tomar la proporción de mujeres, o la proporción de enfermos o la
proporción de estudiantes con beca, o la proporción de proyectos terminados, etc, etc.
1
P Po
z 2n
PoQo
n
Donde:
P es la proporción calculada con la muestra
Po es el parámetro que deseamos probar
Qo es el complemento del parámetro (Qo = 100 - Po )
n es el tamaño de la muestra
el símbolo | |, representa tomar el resultado siempre con signo positivo
En una empresa laboran 257 personas, de las cuales el 4.7% presentan algún tipo de
discapacidad. De acuerdo a la ley, las empresas están obligadas a contratar al menos un
5% de personas discapacitadas. Esta empresa está dentro de la ley?.
Solución:
estadístico z 0.22
significancia 0.587
Sean X1,X2, X3, …, Xn1, y Y1, Y2, Y3, …, Yn2, dos muestras aleatorias con distribución
normal.
Y sean
x la media de la muestra X
s x2 la varianza muestral de la muestra X
n1 el tamaño de la muestra X
y la media de la muestra Y
2
s y la varianza muestral de la muestra Y
n2 el tamaño de la muestra Y
Estas variables están referidas a un mismo evento, es decir en ambas muestras se mide
el mismo fenómeno, por ejemplo, ingresos, edades, pesos, tallas. Es importante aclarar
que no tiene sentido comparar ingresos familiares (variable X) con talla (variable Y), sino
que siempre la comparación es ingresos con ingresos, o talla con talla, etc.
( x y)
t
1 1
sp
n1 n2
Donde
sp
(n 1)s
1
2
x (n2 1) s y2
n1 n2 2
Y este estadístico t se ajusta a una ley t-student con (n1+n2-2) grados de libertad.
Salarios (dólares)
Hombres Mujeres
1 300 232
2 350 332
3 400 300
4 270 268
Se escogieron 16 hombres y 16
5 345 316
mujeres (no es necesario que
6 380 316 exista el mismo número de
7 390 336 muestras en cada uno de los
8 400 347 grupos, estos pueden tener
9 350 301 tamaños distintos).
10 370 344
11 400 373
12 398 306
13 410 322
14 420 397 Se plantea la siguiente prueba de
15 360 325 hipótesis:
16 370 364
Salarios (dólares)
Hombres Mujeres
promedio salarios 369.6 323.7
varianza 1633.7 1575.2
desviación estándar 40.42 39.69
muestra 16 16
estadístico t 3.24
significancia 0.003
Tenemos que la probabilidad de significancia estadística p=0.003, nos indica que existe
una gran evidencia muestral para rechazar la hipótesis nula con una confianza del 99%
(p < 0.01), y por lo tanto podemos establecer que si existen diferencias notables o
diferencias estadísticamente significativas entre los salarios de los hombres y los salarios
de las mujeres.
Si tanto los hombres como las mujeres, desarrollan actividades similares, se podría decir
que si existe discriminación de género en dicha empresa.
2.3 Pruebas para dos muestras pareadas o relacionadas
Es importante entender primero lo que significan muestras pareadas. Esto se refiere
cuando de un mismo individuo se toman dos medidas en un experimento.
Por ejemplo, se podría tomar el peso de las personas antes y después de someterse a un
tratamiento para reducir de peso. Entonces en este caso tenemos un proyecto para
evaluar si el tratamiento ofertado es o no efectivo.
Este tipo de pruebas, suele aplicarse también para el caso de lo que suele llamarse
medidas repetidas. Esto no significa que la medida se repita, sino que se da en
situaciones donde un grupo de medidores toman la medida de alguna variable sobre un
mismo individuo. Por ejemplo, para el caso de un deportista, el cual es evaluado o medido
por un grupo de dos o más jueces; así cada juez da la calificación (medida) a su criterio
del mismo deportista, siendo ese el sentido de la medida repetida.
Para llevar a cabo la prueba de hipótesis se calcula la variable diferencia (D) entre las
variables X e Y, es decir, D = X – Y.
D
t
sD / n
Donde
D es la media de la variable diferencia D=X-Y
sD es la desviación estándar de la variable diferencia D=X-Y
n el tamaño de la muestra
Con base esta variable diferencia, la prueba de hipótesis planteada, es equivalente a decir
que esta diferencia es igual a cero (hipótesis nula), versus la diferencia no es igual a cero
(hipótesis alternativa).
Para llevar a cabo el experimento y tratar de establecer cual o cuales son los mejores
abonos, se delimitan pequeñas parcelas sobre las cuales se siembra la papa y se aplican
los abonos al azar, tomando como medida la cosecha obtenida de papa de cada una de
las parcelas diferenciadas por el tipo de abono aplicado. Así, interesa establecer si existen
o no diferencias entre los abonos para la cosecha de papa.
1
ANOVA, son las siglas que suele utilizase para referirse al “análisis de la varianza”.
De esta manera surgen conceptos básicos para los modelos anova, teniendo
principalmente los siguientes:
En el caso de los abonos para cosecha de la papa, el factor es el abono, el que está
compuesto por cuatro tratamientos o grupos (los tratamientos vienen a ser cada uno de
los cuatro tipos diferentes de abono), la variable respuesta en la cantidad de papa
cosechada en cada una de las parcelas, y la unidad experimental está dada por la parcela
sobre la cual se siembra y aplica el abono.
Hipótesis nula (Ho): Todas las medias de los tratamientos son iguales
(lo que es equivalente a decir que no hay
diferencias entre los tratamientos o grupos)
versus
Hipótesis alternativa (H1): No todas las medias de los tratamientos son
iguales (es decir, existen diferencias entre uno
o más tratamientos o grupos)
TRATAMIENTOS (FACTOR)
1 2 ... j ... k
Y11 Y12 ... Y1j ... Y1k
Y21 Y22 ... Y2j ... Y2k
. . . .
. (D A T O S) .
. . . .
Yi1 Yi2 ... Yij ... Yik
. . . .
Yn11 Yn22 ... Ynjj ... Ynkk
Para el caso de los abonos para la cosecha de papa se tiene los siguientes datos
experimentales:
Es decir el primer abono se aplicó en 10 parcelas, donde los valores dados, representan
la producción de papas en kilogramos. El segundo abono se aplicó en 6 parcelas, el
tercero en 4 parcelas, y el cuarto abono se aplicó en 7 parcelas.
Yij t j eij
para j = 1, 2, 3,..., k i = 1, 2, 3, ..., nj
tj j
Cuál es el sentido de esta expresión?. Recuerden lo que significa el promedio (es el valor
representativo del grupo o tratamiento), y por lo tanto la diferencia entre la media del
grupo o tratamiento con la media global, es la manera lógica de cuantificar el efecto del
tratamiento.
Mientras que, el error aleatorio (asumiendo que son independientes entre sí, y que están
distribuidos con una ley normal con media 0 y varianza constante σ 2), está dado como la
diferencia entre la observación menos la media poblacional del j-ésimo tratamiento μj, es
decir se tiene que:
eij Yij j
Y, reemplazando estas definiciones en el modelo, tenemos:
Yij ( j ) (Yij j )
Pero en vista de que no se conocen los valores poblacionales μ j y μ, se estiman estos
con los datos obtenidos fruto de la experimentación.
Luego tenemos:
Yij Y (Y j Y ) (Yij Y j )
y elevando al cuadrado esta expresión (identidad) y sumando para todos los valores “i” y
“j”, se obtiene la llamada “identidad fundamental del análisis de la varianza”, dada por
la siguiente expresión2:
k nj k nj k nj
(Y
j 1 i 1
ij Y ) (Y j Y ) (Yij Y j ) 2
2
j 1 i 1
2
j 1 i 1
k nj
Suma _ cuadrados _ tratamient os SCTR (Y j Y ) 2
j 1 i 1
k nj
Suma _ cuadrados _ errores SCE (Yij Y j ) 2
j 1 i 1
2
Nótese que el primer término del lado izquierdo de la igualdad, el sumatorio para el índice i, se reduce (por
propiedades de sumatorio) al número de casos observados por tratamiento.
Es decir, la identidad fundamental, es: STC = SCTR + SCE
Total STC (N - 1)
Entonces, este modelo analiza la variabilidad que se observa en los datos, y se plantea la
prueba de hipótesis (comentada al inicio de esta sesión):
Prueba de hipótesis:
O también al usar algún paquete estadístico o una hoja electrónica como excel, se obtiene
adicionalmente la llamada probabilidad de significación estadística, teniendo que si
esta probabilidad es menor que 0.05 (si se considera el 95% de confiabilidad), entonces
hay diferencias significativas, caso contrario no hay diferencias entre tratamientos.
La probabilidad de significación estadística está dada por el área que va desde el valor F
(calculado por los datos) hasta el infinito. Gráficamente se tiene:
Para el ejercicio de los cuatro abonos para la siembra de papa, aplicando la expresión de
la identidad fundamental del análisis de la varianza, se tiene la siguiente tabla resumen
del análisis de la varianza:
3
Los grados de libertad significan el número de parámetros independientes que se tiene, es decir, cuántos datos son
suficientes que nos den para conocer el resto de parámetros o incógnitas.
Por la probabilidad de significación estadística (p=0.0000), puede concluirse que si hay
diferencias significativas entre los abonos, en cuanto al rendimiento de la papa. Es
decir, que con unos abonos se obtiene mayor rendimiento de papas que con otros
abonos.
Así, con el abono 4, se tiene el mayor rendimiento (19.2 kg en promedio), seguido del
abono 2, quedando al final los abonos 1 y 3 que parecen muy similares entre estos en
cuanto al rendimiento.
Sin embargo, podemos apreciar que entre los abonos 2 y 4 hay una pequeña diferencia
(de casi 3 kg), ¿cómo saber si la diferencia que se observa es significativa?
Pero entonces, una vez que se determinó que si existen diferencias entre los tratamientos
(abonos), es importante responder ahora la siguiente pregunta, ¿cuáles tratamientos
(abonos) son responsables de las diferencias detectadas?.
Y esto se responde con los llamados contrastes o pruebas de contrastes para determinar
que tratamientos son los que difieren y cuales tiene un comportamiento similar (ESTO SE
LO DESARROLLA EN CLASES).
Sin embargo, como no conocemos las varianzas poblacionales (o del universo total),
estas varianzas se estiman con base en los cuadrados medios obtenidos en nuestra tabla
resumen del análisis de la varianza.
Así, se tiene las siguientes relaciones (que pueden ser demostradas, pero que las vamos
a utilizar directamente sin ninguna demostración):
De este esquema de relaciones, tenemos que la varianza de los tratamientos puede ser
estimada de la siguiente manera:
De esta manera, tenemos que el efecto de los tratamientos sobre la variabilidad de los
datos, está dada por la siguiente expresión algebraica:
Efecto _ tratamient os
CMTR CME *100%
CMTR n 1* CME
Donde CME, es el cuadrado medio de los errores
CMTR, es el cuadrado medio de los tratamientos, y
n, es el número de datos que se tiene por tratamiento
Solución:
Para calcular el efecto o responsabilidad que tienen los dispositivos, debemos calcular la
tabla resumen del análisis de la varianza:
Primero: debemos calcular la media aritmética de cada uno de los grupos o tratamientos
Segundo: restamos cada media de la media global de los datos
Tercero: elevamos al cuadrado estas diferencias
Cuarto: sumamos estas diferencias por grupo y multiplicamos por el número de elementos
del grupo
Quinto: sumamos estos resultados y listo
Entonces:
Efecto _ tratamient os
CMTR CME *100%
CMTR n 1* CME
Así, utilizando esta expresión, tenemos que el efecto de los tratamientos es:
Este modelo resulta muy interesante para muchas aplicaciones. Por dar un caso,
hablando del ámbito educativo, se podría evaluar “en qué medida son responsables los
profesores de una unidad educativa en las diferencias que se observan en los notas
de los estudiantes”.
4. Modelos de bondad de ajuste
4.1 Introducción
Recordemos la definición de probabilidad que se vio en la sesión 2 de este curso, donde
se definió la probabilidad del evento A como:
Por ejemplo, supongamos que lanzamos una moneda. Sabemos por la definición dada,
que la probabilidad que salga cara es 0,5 (o 50%) y la probabilidad que salga sello es 0,5
(o 50%).
Esto implica que si nosotros lanzamos la moneda, por ejemplo 2 veces, desde el punto de
vista teórico o ideal, la moneda debería dar como resultados una cara y un sello, de
donde tomando la frecuencia relativa de estos resultados se tendría las probabilidades
mencionadas.
Pero que tal si lanzamos ahora 10 veces la moneda y registramos las veces que salen la
cara y el sello. Desde el punto de vista teórico o ideal, deberían haber salido 5 caras
(50%) y 5 sellos (50%), sin embargo, ocurre esto?, pues nuevamente la respuesta es, no
necesariamente. Supongamos que salieron 7 (70%) caras y 3 sellos (30%). Estamos un
poco más cerca de los valores reales.
Supongamos que hemos registrado las veces que salió cada uno de los resultados de una
moneda en 100 lanzamientos, teniendo lo siguiente:
Frecuencia observada
Cara 98
Sello 2
Total 100
Viendo estos resultados, de manera intuitiva, podemos asegurar que la moneda es una
moneda de truco, o que esta alterada, puesto que una moneda normal, en 100
lanzamientos, debería tener frecuencias cercanas a 50 (por la definición de probabilidad).
Veamos otra moneda donde se registró igualmente los resultados de 100 lanzamientos:
Frecuencia observada
Cara 57
Sello 43
Total 100
Frecuencia Frecuencia
observada esperada (ideal)
Cara 98 50
Sello 2 50
Total 100 100
Frecuencia
Variable Frecuencia esperada
(categorías) observada (ideal)
1 O1 e1
2 O2 e2
3 O3 e3
. . .
i Oi ei
. . .
. . .
k Ok ek
Total N N
Y para llevar a cabo esta prueba se construye el siguiente estadístico (se ajusta a la
llamada ley chi-cuadrado de probabilidades):
(O k
e ) 2
2 i i
i 1 ei
Planteando la siguiente prueba de hipótesis:
Y, para leer este cuantil teórico en las tablas, necesitamos de dos parámetros, el nivel de
confiabilidad y los grados de libertad.
Ejemplo. Para apreciar la fortaleza de esta prueba, se plantea el siguiente caso que
ocurrió hace muchas décadas atrás (por los años 20 aproximadamente). Un jugador en un
casino de juegos, registró las veces que salían cada una de las caras de un dado. Con
esta información esta persona realizó unos cálculos y dedujo que el dado estaba alterado.
Llevó a la policía, incautó el dado y verificaron que efectivamente el dado estaba alterado.
Esta persona planteó una demanda millonaria y ganó por supuesto.
Qué hizo esta persona?. Pues en esa época no había mucha información sobre este tema
y lo que aplicó fue estas ideas de las pruebas de bondad de ajuste.
Supongamos (no hay un registro de los datos del jugador) que esa persona registró los
siguientes valores:
Variable
(categorías = caras Frecuencia Frecuencia
del dado) observada esperada (ideal)
1 10 25
2 50 25
3 15 25
4 25 25
5 15 25
6 35 25
Sabemos que la probabilidad de que salga cada una de las caras en un dado es de 1/6, lo
que multiplicado por las observaciones totales (150) da 25 que es la frecuencia esperada
o ideal.
Ejemplo. Veamos si los accidentes de tránsito que ocurren en la ciudad de Quito durante
los días de una semana ocurren o no de manera uniforme. Para esto se cuenta con la
siguiente información:
Con base en los datos el estadístico chi-cuadrado nos da 2 =85,2, mientras que el
cuantil teórico (95% confiabilidad y 6 grados de libertad) es 12,6. La probabilidad de
significancia estadística (con el Excel) es p=0.000.
De donde podemos inferir que rechazamos la hipótesis nula Ho. Esto implica que los
accidentes no ocurren de manera uniforme durante los días de la semana, es decir hay
algunos días donde ocurren más accidentes que otros (lo que ya sabemos, pero lo
estamos comprobando de manera científica).
En este sentido esta prueba es muy poderosa para muchos proyectos e investigaciones
en diversas áreas.
Una de las limitaciones de esta prueba es que NO ES APLICABLE cuando las muestras
que se observan son muy grandes. Como grande puede asumirse a partir de 5000
observaciones (esto no es una regla, sino una cuestión empírica solamente).
Así, se tiene la variable A con m categorías, y la variable B con n categorías. Las Oij son
las frecuencias observadas, por ejemplo, O11, representan el número de casos que
pertenecen a la categoría 1 de la variable A, y a la categoría 1 de la variable B.
Al igual que el caso anterior, deben calcularse las frecuencias esperadas o teóricas, las
que se calculan de la siguiente manera:
Primero se suman los totales de las frecuencias por cada fila, obteniendo los
valores, m1, m2, …, mm
Segundo se suman los totales de las frecuencias por cada columna, obteniendo
los valores, n1, n2, …, nn
Primero, sumamos las frecuencias observadas para cada una de las filas y cada
una de las columnas
Variable B (categorías)
Frecuencia
Variable A 1 2 3 . j . . n total por
(categorías) filas
1 O11 O12 O13 O1j O1n m1
2 O21 O22 O23 O2j O2n m2
3 O31 O32 O33 O3j O3n m3
. . . . . .
i Oi1 Oi2 Oi3 Oij Oin mi
. . . . . .
. . . . . .
Frecuencia
total por
columnas
n1 n2 n3 nj nn N
Una vez calculadas las frecuencias esperadas, se procede a calcular el estadístico chi-
cuadrado (igual al caso anterior):
m n (Oij eij ) 2
2
i 1 j 1 eij
La prueba de hipótesis que se plantea es la siguiente:
Para realizar esta prueba, se lee el cuantil teórico en tablas de la distribución chi-
cuadrado, y se decide de la siguiente manera:
Variable B (sexo)
Variable A (rangos
Hombre Mujer
de ingresos)
0-100 25 20
101-200 30 31
201-500 40 37
501-1000 50 52
1001-2000 20 19
Por ejemplo, se tienen 50 casos de hombres que ganan entre 501 y 1000 dólares, etc.
Vamos a calcular las frecuencias esperadas, para lo cual comenzamos calculando los
totales de frecuencia por filas y por columna, teniendo lo siguiente:
Variable B (sexo)
0-100 25 20 45
101-200 30 31 61
201-500 40 37 77
501-1000 50 52 102
1001-2000 20 19 39
Frecuencia total
por columnas 165 159 324
Con estos datos, por ejemplo, para la primera celda (hombres que ganan menos de 100
dólares), la frecuencia esperada la obtenemos así, 165*45 / 324 = 22,9 (total de la
primera columna por el total de la primera fila y dividiendo para la frecuencia total).
Variable B (sexo)
Variable A (rangos
Hombre Mujer
de ingresos)
0-100 22,9 22,1
101-200 31,1 29,9
201-500 39,2 37,8
501-1000 51,9 50,1
1001-2000 19,9 19,1
Así, se tiene que 2 < cuantil teórico (0,64 < 9,49), y por lo tanto no rechazamos la
hipótesis nula (no hay asociación entre estas variables).
Para apreciar esto, veamos la distribución relativa (frecuencia relativa) de los ingresos por
cada una de las categorías de la variable sexo.
Variable B (sexo)
Variable A
(rangos de Hombre Mujer
ingresos)
En esta tabla podemos apreciar que la distribución de los ingresos es parecida entre los
hombres y las mujeres (no hay diferencias notables).
A esto se refiere el hecho de decir que no hay asociación entre las variables.
Por otro lado, supongamos por un momento que hubiésemos concluido que si habían
diferencias significativas. Esto implicaría que las variables si están asociadas y por lo
tanto los hombres, presentan una distribución de ingresos salariales notablemente
diferente a la de las mujeres.
Prueba de hipótesis para la varianza
Sea X1, X2, X3, ,,,, Xn, una muestra aleatoria de una variable con distribución normal con media µ
y varianza desconocida σ2. Con base en la muestra aleatoria, se plantea la siguiente prueba de
hipótesis:
Ho:
vs
H1:
donde
S2 es la varianza muestral ( ∑ ̅ )
es el parámetro que deseamos probar
n es el tamaño de la muestra
Este estadístico se ajusta a la ley chi-cuadradp de probabilidades, con (n-1) grados de libertad
(los cuantiles constan en la segunda página del formulario).
Calculamos
El valor 19.6 indica que no se rechaza la hipótesis nula, por lo tanto la varianza si es de dos
gramos.