Вы находитесь на странице: 1из 35

ESCUELA POLITECNICA NACIONAL – FACULTAD SISTEMAS

CURSO DE ESTADISTICA Y PROBABILIDADES


PROFESOR: MAT. FERNANDO CARRASCO

1. Fundamentos Pruebas de hipótesis

1.1 Introducción

La EPN, ha establecido que los alumnos que los estudiantes, deben destinar al menos 10
horas de dedicación al estudio cada semana para poder aprender los temas que se tratan.
Como podemos establecer o inferir si esto en verdad está ocurriendo?.

El Consejo Nacional de las Mujeres (CONAMU), permanentemente está interesada en


hacer un seguimiento para analizar o inferir si los salarios laborales entre hombres y
mujeres son o no similares. Si pueden establecer que los salarios promedio de los
hombres y las mujeres no son iguales o difieren notablemente, tienen elementos de juicio
para asegurar que existe discriminación y por ende tomar y recomendar acciones
necesarias en torno a tal situación.

Una empresa o una institución o una fundación o un organismo cualquiera, fruto de un


proceso de intervención en algún proyecto de cualquier índole, necesitan establecer o
inferir si el proceso tuvo o no algún efecto significativo para cambiar las condiciones
iniciales comparadas con las condiciones finales, y por lo tanto establecer si el proyecto
tuvo o no algún impacto.

Para dar respuesta a cualquiera de estas situaciones, necesitamos de los elementos


básicos de lo que se llama la inferencia estadística.

La inferencia estadística, es un procedimiento o método para calcular una


probabilidad que nos permite decidir si una afirmación o hipótesis planteada es o
no verdadera con base en una muestra aleatoria de datos, es decir, con base en la
experimentación.

Este proceso descrito es lo que se conoce como una prueba de hipótesis

Para el ejemplo de la EPN, la afirmación o hipótesis podría ser: “los alumnos dedican al
menos 10 horas cada semana al estudio”; mientras que, para el caso de los salarios, la
afirmación para decidir si es o no verdadera, podría ser: “no hay diferencias significativas
entre los salarios de hombres y mujeres”.

Es importante recalcar que en estos casos, el interés de la prueba no está en calcular las
horas de estudio o en calcular los salarios, sino solamente en establecer o inferir si
existen o no diferencias significativas, desde el punto de vista estadístico.

Así, nos interesa establecer si las horas promedio de estudio difieren o no


significativamente respecto del requerimiento mínimo establecido (10 horas), o si el
salario promedio de los hombres difiere significativamente del salario promedio de las
mujeres, no la magnitud del salario.
1.2 Estructura de una prueba de hipótesis

Considerando que la afirmación o hipótesis planteada (llamada hipótesis nula), podría ser
falsa, suele complementarse ésta con una hipótesis alternativa para cubrir el rango de
posibilidades de la prueba. Así, una prueba de hipótesis tiene la siguiente estructura:

Hipótesis nula (Ho): no hay diferencias significativas


versus
Hipótesis alternativa (H1): si existen diferencias significativas

Respecto de la decisión que se adopte con la afirmación o hipótesis nula, podemos


cometer dos errores:

 Rechazar la hipótesis nula, siendo verdadera, y


 No rechazar (aceptamos) la hipótesis nula, siendo falsa.

Con la primera situación, cometemos lo que se llama error tipo I, mientras que con lo
segundo, se tiene el llamado error tipo II.

Estos errores se miden con los conceptos de probabilidad condicional que fueron
abordados anteriormente, y se denotan como:

 α (alfa) - para el error tipo I, y


 β (beta) - para el error tipo II.

En importante recalcar dos aspectos relevantes sobre la hipótesis nula:

 en ésta, siempre se ubican afirmaciones (de acuerdo al tipo de prueba que se


realice), de igualdad, o en otras palabras, que no hay diferencias significativas
entre grupos, o las medias son iguales, o no hay asociación entre las variables, y

 la hipótesis nula siempre se asume como verdadera, a menos que se presente la


suficiente evidencia en su contra (a partir de la muestra aleatoria) para rechazarla
y aceptar por lo tanto la hipótesis alternativa.

Esta probabilidad α para el error tipo I, suele llamarse también la región crítica de la
prueba, y está dada por los valores o cuantiles de las leyes o modelos de probabilidad
utilizados en las pruebas, donde se tiene la suficiente evidencia muestral para rechazar la
hipótesis nula.

Así, el modelo de probabilidad de la prueba se puede dividir en dos áreas o regiones, una
para la hipótesis nula y otra para la hipótesis alternativa. Esto lo podemos apreciar en el
siguiente gráfico:

Esquema de una prueba de hipótesis:


Es muy común tomar para la región crítica, valores de 0.05 o 0.01, y a los
complementos de estos valores, 0.95 o 95% y 0.99 o 99%, suele llamarse el nivel de
CONFIANZA O CONFIABILIDAD de la prueba.
Sin embargo, esta interpretación del nivel de confianza, debe ser considerada en el marco
de la teoría de muestreo, es decir, que de todas las muestras posibles de tamaño n que
pueden construirse, por ejemplo, en el 95% de las veces, obtendremos siempre el mismo
resultado o conclusión.

El llamado cuantil o valor teórico, es el valor de la ley de probabilidad de la prueba, que


divide a la distribución de probabilidad en dos partes: región crítica o de rechazo de la
hipótesis nula y la región de confianza o aceptación de la hipótesis nula.

Estos cuantiles, se encuentran tabulados en las hojas finales de todos los libros de
estadística, y para leerlos, el investigador debe establecer el nivel de confianza o error y
en ocasiones un parámetro llamado grados de libertad (el cual representa el número de
parámetros independientes que se tiene en el estudio). Estos valores pueden ser
obtenidos fácilmente en una hoja electrónica de Excel.

Luego con los datos obtenidos a partir de la experimentación (muestra aleatoria), se


construye la estadística de prueba y se contrasta o compara con el cuantil teórico,
teniendo que si el estadístico calculado con la muestra aleatoria de datos es mayor
que el cuantil teórico, se tiene la suficiente evidencia para rechazar la hipótesis
nula, caso contrario podemos aceptar la hipótesis nula.

Y con esto tenemos entonces la regla para decidir respecto de la prueba de hipótesis
planteada. Esquemáticamente lo podemos apreciar a continuación:

Regla de decisión:
Dentro de este contexto de la región crítica y el nivel de confianza, surge la denominada
probabilidad de significancia estadística, que suele notarse con la letra minúscula p.

1.3 Probabilidad de significancia estadística


Esta probabilidad de significancia estadística, es el valor de la probabilidad que existe
desde el estadístico calculado con la muestra aleatoria de datos, hasta el infinito. Lo
podemos ver en el siguiente esquema:
Esta probabilidad se la obtiene cuando realizamos estas pruebas con algún paquete
estadístico en una computadora, y es suficiente tener esta probabilidad p para decidir
sobre la prueba de hipótesis, obviando el tener que recurrir a tablas para obtener los
cuantiles de las leyes de probabilidad de las pruebas.

Pero porqué es suficiente esta probabilidad de significancia estadística para decidir sobre
la prueba?, pues por lo siguiente:

Si decidimos, por ejemplo, que el tamaño de la región crítica o de rechazo de la hipótesis


nula es de 0.05 o 5% (equivalente a decir 95% de confianza), este es el tamaño de la cola
de la ley de probabilidad.

Entonces, si la probabilidad de significancia estadística es, digamos, p=0.35, podemos ver


que esta probabilidad es más grande que la probabilidad α (0.05) de la región crítica, y
por lo tanto el estadístico calculado cae en la región de la hipótesis nula (puesto que le
cubre totalmente a la región crítica).

Imaginen como si tuvieran una botella: el fondo de la botella tiene una marca para
registrar cuando se ha llenado o ha llegado a un nivel de 0.05 o 5% (región crítica). El
fondo de la botella representa la región crítica, mientras que la parte de arriba de la botella
representa la región de confianza o de aceptación de la hipótesis nula.

Entonces si nosotros introducimos en la botella los “p=0.35 de significancia estadística”,


claramente podemos apreciar que el nivel de la botella rebasa la marca de la región crítica
para ubicarse en la región de confianza y por lo tanto de no rechazo de la hipótesis nula.

Y es por esta razón que en muchos cursos de proyectos y estadística, suelen dar como
regla (al 95% de confianza) lo siguiente:

 si p > 0.05, se acepta la hipótesis nula


 si p < 0.05, se rechaza la hipótesis nula

1.4 Tipos de pruebas


Existen varios tipos de pruebas: para proporciones, medias, varianzas, entre otras.

En este curso nos vamos a concentrar en las pruebas de mayor frecuencia de uso, que
son las pruebas para medias y proporciones.

Podemos hacer las siguientes pruebas:

 prueba para una proporción con una muestra


 prueba para una media con una muestra
 prueba de medias para dos muestras independientes
 prueba de medias para dos muestras pareadas, y
 prueba de medias para más de dos muestras.
2. Modelos de pruebas de hipótesis

2.1 Pruebas para una muestra

2.1.1 Prueba para una media

Sea X1, X2, X3, ,,,, Xn, una muestra aleatoria de una variable con distribución normal con
media µ y varianza constante.

Con base en la muestra aleatoria, se plantea la siguiente prueba de hipótesis:

Hipótesis nula Ho): la media µ es igual a un parámetro µo (µ = µo)


versus
Hipótesis alternativa (H1): la media µ no es igual a un parámetro µo (µ ≠ µo)

Para esto se calcula el siguiente estadístico:

( x  o )
t 

n
Donde:
x es la media de la muestra
 o es el parámetro que deseamos probar
 es la desviación estándar poblacional, y
n es el tamaño de la muestra

Este estadístico t se ajusta a la ley o modelo t-student de probabilidades, con (n-1) grados
de libertad. Para el caso de muestras n>30, no hay ninguna diferencia con la ley normal
de probabilidades.

Para calcular el cuantil de la ley t-student se necesita establecer los grados de libertad
que están dados por el tamaño de la muestra menos 1, es decir:

 Grados de libertad = (n-1)

Veamos el siguiente ejemplo:

La EPN, ha establecido que los alumnos deben destinar al menos 10 horas de dedicación
estudio cada semana para poder aprender los temas que se tratan. Para verificar si está
cumpliendo o no con este requerimiento se tomó la siguiente muestra aleatoria de horas
de estudio:
Horas estudio
Alumno
a la semana
1 12.0 Entonces planteamos la siguiente prueba de hipótesis:
2 11.0
3 9.0
4 11.0
5 12.5
6 13.0 Ho: los alumnos estudian 10 horas
7 10.5 (requerimiento mínimo EPN)
8 9.5
9 10.0 versus
10 10.0
11 11.0 H1: los alumnos no estudian 10 horas
12 8.5
13 9.0
14 10.0
15 10.5
16 11.0
17 12.0
18 11.5
19 10.5
20 12.0

Para esto debemos calcular la media y la desviación estándar de la variable horas de


estudio, y procedemos a calcular el estadístico t y la probabilidad de significancia
estadística para decidir sobre la prueba de hipótesis planteada:

promedio horas estudio 10.7


desviación estándar 1.22
Muestra 20
grados libertad 20-1 = 19

parámetro establecido
horas estudio por la EPN 10

estadístico t 2.66
Significancia 0.015

La probabilidad de significancia estadística fue obtenida en el Excel con el comando


siguiente:
=DISTR.T(2.66,19,2)

Interpretación:

Considerando un nivel de confianza del 95% (región crítica de rechazo es 5%), y que la
probabilidad de significancia estadística es p=0.015, tenemos suficiente evidencia
muestral para rechazar la hipótesis nula (p<0.05), es decir los estudiantes no están
estudiando en promedio 10 horas por semana.

Pero esto tiene dos consecuencias:


 Como el promedio es de 10.7 horas de estudio se tiene una situación positiva,
puesto que los estudiantes están dedicando, en promedio, más de las 10 horas de
estudio a la semana (es tal caso, felicitaciones), pero

 Qué pasaría si el promedio hubiera sido, por ejemplo, 6.7 horas de estudio. En este
caso se tiene una situación negativa, puesto que los estudiantes no estarían
dedicando el mínimo de horas de estudio requerido,

Tomen en cuenta también que si como resultado de la prueba se hubiera dado que no
hay diferencias significativas (aceptamos la hipótesis nula), entonces la interpretación
hubiera sido que los alumnos están estudiando, en promedio, las 10 horas establecidas
(ni más, ni menos horas).

2.1.2 Prueba para una proporción

Sea X1, X2, X3, ,,,, Xn, una muestra aleatoria de una variable cualquiera, a partir de la cual
se calcula una proporción P.

Esta prueba tiene la ventaja que puede ser realizado con cualquier tipo de variable, por
ejemplo, podríamos tomar la proporción de mujeres, o la proporción de enfermos o la
proporción de estudiantes con beca, o la proporción de proyectos terminados, etc, etc.

Con base en la muestra aleatoria, se plantea la siguiente prueba de hipótesis:

Ho: la proporción P es igual a un parámetro Po (P = Po)


Versus

H1: la proporción P no es igual a un parámetro Po (P ≠ Po)

Para esto se calcula el siguiente estadístico:

1
P  Po 
z  2n
PoQo
n
Donde:
P es la proporción calculada con la muestra
Po es el parámetro que deseamos probar
Qo es el complemento del parámetro (Qo = 100 - Po )
n es el tamaño de la muestra
el símbolo | |, representa tomar el resultado siempre con signo positivo

Este estadístico t se ajusta a la ley normal de probabilidades.


Veamos el ejemplo siguiente:

En una empresa laboran 257 personas, de las cuales el 4.7% presentan algún tipo de
discapacidad. De acuerdo a la ley, las empresas están obligadas a contratar al menos un
5% de personas discapacitadas. Esta empresa está dentro de la ley?.

Solución:

En este caso tenemos la siguiente prueba de hipótesis:

Ho: la proporción de discapacitados es igual a 5%


H1: la proporción de discapacitados no es igual a 5%

En este caso tenemos:

muestra (n) 257


proporción discapacitados (P) 4.7

parámetro establecido por ley


(Po) 5
complemento (Qo) 95

estadístico z 0.22

significancia 0.587

Analizando la probabilidad de significancia estadística (p=0.587), el estadístico cae en la


hipótesis nula (p>0.05), y por lo tanto no rechazamos la hipótesis nula, pudiendo aceptar
que dicha empresa cumple con la ley. La significancia fue calculada en el Excel con el
comando: “=DISTR.NORM.ESTAND(valor z)”.

2.2 Pruebas para dos muestras independientes


Vamos a analizar el caso de pruebas de medias para dos poblaciones independientes.
Esto significa, comparar dos grupos poblacionales diferentes, como es el caso hombres
versus mujeres, Quito versus Guayaquil, etc.

Sean X1,X2, X3, …, Xn1, y Y1, Y2, Y3, …, Yn2, dos muestras aleatorias con distribución
normal.

Y sean
x la media de la muestra X
s x2 la varianza muestral de la muestra X
n1 el tamaño de la muestra X

y la media de la muestra Y
2
s y la varianza muestral de la muestra Y
n2 el tamaño de la muestra Y
Estas variables están referidas a un mismo evento, es decir en ambas muestras se mide
el mismo fenómeno, por ejemplo, ingresos, edades, pesos, tallas. Es importante aclarar
que no tiene sentido comparar ingresos familiares (variable X) con talla (variable Y), sino
que siempre la comparación es ingresos con ingresos, o talla con talla, etc.

Con base en las muestras aleatorias, se plantea la siguiente prueba de hipótesis:

Hipótesis nula (Ho): no hay diferencias significativas entre las


muestras (las medias son iguales)
versus

Hipótesis alternativa (H1): si hay diferencias significativas entre las


muestras (las medias no son iguales)

Para esto se construye el siguiente estadístico:

( x  y)
t 
1 1
sp 
n1 n2

Donde

sp 
(n  1)s
1
2
x  (n2  1) s y2 
n1  n2  2

Y este estadístico t se ajusta a una ley t-student con (n1+n2-2) grados de libertad.

Veamos el siguiente caso:

El Consejo Nacional de las Mujeres (CONAMU), tomó unas muestras aleatorias de


salarios en una empresa para establecer si hay o no diferencias salariales entre
empleados hombres y mujeres. Se supone que tanto hombres como mujeres realizan
labores similares y tienen formación y competencias similares también. Con base en las
muestras siguientes de salarios, establecer si existen o no diferencias con un 99% de
confianza:

Salarios (dólares)
Hombres Mujeres
1 300 232
2 350 332
3 400 300
4 270 268
Se escogieron 16 hombres y 16
5 345 316
mujeres (no es necesario que
6 380 316 exista el mismo número de
7 390 336 muestras en cada uno de los
8 400 347 grupos, estos pueden tener
9 350 301 tamaños distintos).
10 370 344
11 400 373
12 398 306
13 410 322
14 420 397 Se plantea la siguiente prueba de
15 360 325 hipótesis:
16 370 364

Hipótesis nula (Ho): no hay diferencias significativas entre los


salarios de hombres y salarios de mujeres

Hipótesis alternativa (H1): si hay diferencias significativas entre los


salarios de hombres y salarios de mujeres

Calculamos la media, varianza y la varianza combinada de ambas muestras, teniendo los


siguientes resultados:

Salarios (dólares)
Hombres Mujeres
promedio salarios 369.6 323.7
varianza 1633.7 1575.2
desviación estándar 40.42 39.69
muestra 16 16

Desviación combinada (sp) 40.1

grados libertad 16+16-2=30

estadístico t 3.24

significancia 0.003

Tenemos que la probabilidad de significancia estadística p=0.003, nos indica que existe
una gran evidencia muestral para rechazar la hipótesis nula con una confianza del 99%
(p < 0.01), y por lo tanto podemos establecer que si existen diferencias notables o
diferencias estadísticamente significativas entre los salarios de los hombres y los salarios
de las mujeres.

Si tanto los hombres como las mujeres, desarrollan actividades similares, se podría decir
que si existe discriminación de género en dicha empresa.
2.3 Pruebas para dos muestras pareadas o relacionadas
Es importante entender primero lo que significan muestras pareadas. Esto se refiere
cuando de un mismo individuo se toman dos medidas en un experimento.

Por ejemplo, se podría tomar el peso de las personas antes y después de someterse a un
tratamiento para reducir de peso. Entonces en este caso tenemos un proyecto para
evaluar si el tratamiento ofertado es o no efectivo.

Este tipo de pruebas, suele aplicarse también para el caso de lo que suele llamarse
medidas repetidas. Esto no significa que la medida se repita, sino que se da en
situaciones donde un grupo de medidores toman la medida de alguna variable sobre un
mismo individuo. Por ejemplo, para el caso de un deportista, el cual es evaluado o medido
por un grupo de dos o más jueces; así cada juez da la calificación (medida) a su criterio
del mismo deportista, siendo ese el sentido de la medida repetida.

Sean (X1,Y1), (X2,Y2), (X3,Y3),… (Xn,Yn), n pares de observaciones pareadas o


relacionadas para una muestra de n elementos.

Con base en las muestras aleatorias, se plantea la siguiente prueba de hipótesis:

Hipótesis nula (Ho): no hay diferencias significativas entre las


muestras (las medias son iguales)
versus

Hipótesis alternativa (H1): si hay diferencias significativas entre las


muestras (las medias no son iguales)

Para llevar a cabo la prueba de hipótesis se calcula la variable diferencia (D) entre las
variables X e Y, es decir, D = X – Y.

Luego calculamos la media y la varianza de esta variable diferencia, y se construye el


siguiente estadístico:

D
t 
sD / n
Donde
D es la media de la variable diferencia D=X-Y
sD es la desviación estándar de la variable diferencia D=X-Y
n el tamaño de la muestra

Este estadístico se ajusta a la ley t-student con (n-1) grados de libertad.

Con base esta variable diferencia, la prueba de hipótesis planteada, es equivalente a decir
que esta diferencia es igual a cero (hipótesis nula), versus la diferencia no es igual a cero
(hipótesis alternativa).

Tomemos el siguiente caso:


Una institución de control de actividades médicas, desea verificar si un muy promocionado
tratamiento para reducción de peso, es o no efectivo respecto de lo que ofrece. Para esto,
la institución decide realizar un proyecto con base en un seguimiento a un grupo de 15
personas tomadas de manera aleatoria que se sometieron al tratamiento COMECUENTO,
teniendo la siguiente información:

Peso personas (kg) D=X-Y


Antes del Luego del Diferencias
tratamiento tratamiento de peso (X-
(X) (Y) Y)
Persona
1 65.0 64.5 0.5
2 60.0 61.0 -1.0
3 65.0 65.0 0.0
4 70.0 69.0 1.0
5 90.0 89.8 0.2
6 89.0 88.0 1.0
7 100.0 99.7 0.3
8 77.0 77.0 0.0
9 69.0 68.0 1.0
10 73.0 74.0 -1.0
11 85.0 85.0 0.0
12 82.0 81.2 0.8
13 80.0 79.8 0.2
14 79.0 79.0 0.0
15 68.0 68.2 -0.2

La media, varianza y estadístico de la diferencia son:

Diferencias Con un 95% de confianza, y


de peso (X- analizando la probabilidad de
Y)
significancia estadística, vemos
que no podemos rechazar la
promedio diferencia pesos 0.19
varianza 0.40
hipótesis nula (p>0.05), es decir
desviación estándar 0.63 NO EXISTEN DIFERENCIAS entre
muestra 15 los pesos promedio antes y
después de someterse al
grados libertad 15-1=14 tratamiento para reducir de peso, y
por lo tanto la institución de control
estadístico t 1.1 tiene buenos argumentos para
establecer que el promocionado
significancia 0.271 tratamiento es un fraude.

Generalizando los dos casos anteriores de comparaciones de medias para cuando se


tienen 3 o más grupos, se abordan estas pruebas con unos modelos especiales llamados
análisis de la varianza (ANOVA),
3. El análisis de la varianza
3.1 Introducción
El análisis de la varianza, nombrado muchas veces como “ANOVA1”, es un tipo de modelo
que se enmarca en lo que suele llamarse como el “diseño de experimentos” o “modelos
experimentales controlados” o simplemente “experimentos estadísticos controlados”. Para
llevar a cabo un diseño experimental estadístico, debe tenerse en cuenta varios aspectos
que juegan un papel muy importante, comenzado como es obvio por la formulación del
problema que se desea resolver. En muchas aplicaciones, se hace necesaria la
experimentación, debido a la incertidumbre misma que se tiene del problema a tratar.
Luego, es importante comenzar por establecer claramente el propósito del experimento
que se desea llevar a cabo, para poder controlar variables o efectos que podrían interferir
o afectar al modelo, lo que podría llevar a conclusiones o resultados erróneos.

Por ejemplo, quisiéramos establecer, de un grupo de cinco abonos, cuál de éstos es el


mejor para aplicar en una plantación de maíz y obtener el mayor rendimiento. El objetivo
o propósito está claramente establecido, y en torno a las condiciones del experimento
deben controlarse aspectos para evitar conclusiones que podrían ser falsas, tales como,
la calidad de la tierra donde se aplican cada uno de los cinco tipos de abono, el cuidado
que se aplicaría a cada una de las parcelas de experimentación.

Así, el siguiente aspecto, extremadamente importante, en la experimentación estadística,


es que, el experimento sea llevado a cabo en condiciones lo más homogéneo posible, lo
que evita la introducción de sesgos o errores que muchas veces no pueden controlarse,
ya sea por costos o desconocimiento de la complejidad misma del problema.

Sin embargo, muchas veces no pueden realizarse los experimentos en condiciones


ideales, ante lo cual se han desarrollado una serie de variantes sobre los modelos de
análisis de la varianza, para tratar de controlar y eliminar ciertos efectos que podrían
alterar los resultados del experimento. Tenemos así, el llamado modelo anova de efectos
fijos, modelo anova de efectos aleatorios, modelo anova de bloques, los modelos anova
factoriales, que se ajustan a ciertos esquemas y objetivos experimentales. En la presente
sesión se abordan dos tipos de modelos de análisis de la varianza, el modelo de efectos
fijos, siendo éste, el más sencillo pero al mismo tiempo el de mayor uso, y el modelo de
efectos aleatorios.

3.2 Modelo ANOVA de efectos fijos


Supongamos que se quiere establecer cuál es el mejor abono, entre un grupo de cuatro
tipos de abonos diferentes que existen en el mercado para la cosecha o rendimiento de
papa.

Para llevar a cabo el experimento y tratar de establecer cual o cuales son los mejores
abonos, se delimitan pequeñas parcelas sobre las cuales se siembra la papa y se aplican
los abonos al azar, tomando como medida la cosecha obtenida de papa de cada una de
las parcelas diferenciadas por el tipo de abono aplicado. Así, interesa establecer si existen
o no diferencias entre los abonos para la cosecha de papa.

1
ANOVA, son las siglas que suele utilizase para referirse al “análisis de la varianza”.
De esta manera surgen conceptos básicos para los modelos anova, teniendo
principalmente los siguientes:

 Factor: es la variable independiente, compuesta por un conjunto de


tratamientos o grupos de experimentación, sobre los cuales se establece la
variabilidad o diferencias de la variable respuesta.
 Variable respuesta: o variable dependiente, es la medida resultante del
experimento, y
 Unidad experimental: es el individuo o elemento, que produce la medida.

En el caso de los abonos para cosecha de la papa, el factor es el abono, el que está
compuesto por cuatro tratamientos o grupos (los tratamientos vienen a ser cada uno de
los cuatro tipos diferentes de abono), la variable respuesta en la cantidad de papa
cosechada en cada una de las parcelas, y la unidad experimental está dada por la parcela
sobre la cual se siembra y aplica el abono.

Bajo estos antecedentes, se plantea una prueba de hipótesis cuya estructura y,


objetivo del modelo (establecer si existen o no diferencias entre los tratamientos)
es lo siguiente:

Hipótesis nula (Ho): Todas las medias de los tratamientos son iguales
(lo que es equivalente a decir que no hay
diferencias entre los tratamientos o grupos)
versus
Hipótesis alternativa (H1): No todas las medias de los tratamientos son
iguales (es decir, existen diferencias entre uno
o más tratamientos o grupos)

Se llama además modelo de efectos fijos, debido a que los tratamientos no se


seleccionan aleatoriamente de un conjunto de posibles tratamientos, sino que se
determinan de antemano como los posibles tratamientos para la experimentación.

Los datos tomados en la experimentación pueden ser arreglados o sistematizados de la


siguiente manera:

TRATAMIENTOS (FACTOR)

1 2 ... j ... k
Y11 Y12 ... Y1j ... Y1k
Y21 Y22 ... Y2j ... Y2k
. . . .
. (D A T O S) .
. . . .
Yi1 Yi2 ... Yij ... Yik
. . . .
Yn11 Yn22 ... Ynjj ... Ynkk
Para el caso de los abonos para la cosecha de papa se tiene los siguientes datos
experimentales:

TRATAMIENTOS (FACTOR ABONO)

Abono 1 Abono 2 Abono 3 Abono 4


parcelas 12.5 15.9 12.4 20
parcelas 10.9 16 12.8 19.8
parcelas 11.8 16.5 11.9 17.7
parcelas 12 17 12.2 19.5
Parcelas 12.2 16.7 18.8
Parcelas 12.4 15.8 19
Parcelas 12.8 19.7
Parcelas 11.9
Parcelas 11.5
Parcelas 11.7

Es decir el primer abono se aplicó en 10 parcelas, donde los valores dados, representan
la producción de papas en kilogramos. El segundo abono se aplicó en 6 parcelas, el
tercero en 4 parcelas, y el cuarto abono se aplicó en 7 parcelas.

El modelo ANOVA de efectos fijos es el siguiente:

Yij    t j  eij
para j = 1, 2, 3,..., k i = 1, 2, 3, ..., nj

donde Yij son las observaciones de la variable respuesta o dependiente


μ es la media de toda la población (digamos una media global)
tj es el efecto de la respuesta sobre el j-esimo tratamiento, y
eij es el error experimental
El efecto del j-ésimo tratamiento, se cuantifica como la diferencia entre la media
poblacional del j-ésimo tratamiento (μj) y la media global (μ), es decir, se define como:

tj  j  
Cuál es el sentido de esta expresión?. Recuerden lo que significa el promedio (es el valor
representativo del grupo o tratamiento), y por lo tanto la diferencia entre la media del
grupo o tratamiento con la media global, es la manera lógica de cuantificar el efecto del
tratamiento.
Mientras que, el error aleatorio (asumiendo que son independientes entre sí, y que están
distribuidos con una ley normal con media 0 y varianza constante σ 2), está dado como la
diferencia entre la observación menos la media poblacional del j-ésimo tratamiento μj, es
decir se tiene que:

eij  Yij   j
Y, reemplazando estas definiciones en el modelo, tenemos:

Yij    (  j   )  (Yij   j )
Pero en vista de que no se conocen los valores poblacionales μ j y μ, se estiman estos
con los datos obtenidos fruto de la experimentación.

Entonces, μj se estima con la media muestral del tratamiento j, y


μ se estima con la media muestral de todos los datos.

Luego tenemos:

Yij  Y  (Y j  Y )  (Yij  Y j )
y elevando al cuadrado esta expresión (identidad) y sumando para todos los valores “i” y
“j”, se obtiene la llamada “identidad fundamental del análisis de la varianza”, dada por
la siguiente expresión2:

k nj k nj k nj

 (Y
j 1 i 1
ij  Y )  (Y j  Y )  (Yij  Y j ) 2
2

j 1 i 1
2

j 1 i 1

Donde estos términos se conocen respectivamente como: “suma total de cuadrados”


(STC), “suma de cuadrados de los tratamientos” (SCTR), y “suma de cuadrados de los
errores” (SCE), es decir se tiene que:
k nj
Suma _ total _ cuadrados  STC   (Yij  Y ) 2
j 1 i 1

k nj
Suma _ cuadrados _ tratamient os  SCTR   (Y j  Y ) 2
j 1 i 1

k nj
Suma _ cuadrados _ errores  SCE   (Yij  Y j ) 2
j 1 i 1

2
Nótese que el primer término del lado izquierdo de la igualdad, el sumatorio para el índice i, se reduce (por
propiedades de sumatorio) al número de casos observados por tratamiento.
Es decir, la identidad fundamental, es: STC = SCTR + SCE

A partir de esta identidad fundamental, se construye un cuadro llamado, “tabla de


análisis de la varianza”, estructurado de la siguiente manera:

Tabla de análisis de la varianza


Fuente de Suma de Grados de Estadística F
Cuadrados medios
variación cuadrados libertad (Fisher)

Tratamientos SCTR (k -1) CMTR = SCTR / (k-1)


F= CMTR / CME
Error SCE (N - k) CME = SCE / (N-k)

Total STC (N - 1)

Donde, k es el número de tratamientos, y N es el número total de datos observados.


Además puede apreciarse que los llamados cuadrados medios son en realidad varianzas,
y lo que hace este análisis es descomponer la variabilidad total de los datos en dos
componentes, una debido al efecto de los tratamientos, y una segunda componente
debido a errores aleatorios.

Entonces, este modelo analiza la variabilidad que se observa en los datos, y se plantea la
prueba de hipótesis (comentada al inicio de esta sesión):

Prueba de hipótesis:

 Hipótesis nula Ho: no hay diferencias entre los tratamientos


versus
 Hipótesis alternativa H1: si hay diferencias entre tratamientos

Gráficamente esta prueba tiene el siguiente esquema:


Esta prueba se decide con el estadístico F de Fisher, teniendo que si esta estadística es
menor que el cuantil teórico de la ley F, se cumple la hipótesis nula, caso contrario, se da
la hipótesis alternativa, es decir, que si hay diferencias entre tratamientos.

Para calcular el valor o cuantil teórico de la ley F, se establece un cierto nivel de


confiabilidad de la prueba, generalmente se considera el 95% o 99% de confiabilidad de la
prueba, y se consideran los grados de libertad3.

O también al usar algún paquete estadístico o una hoja electrónica como excel, se obtiene
adicionalmente la llamada probabilidad de significación estadística, teniendo que si
esta probabilidad es menor que 0.05 (si se considera el 95% de confiabilidad), entonces
hay diferencias significativas, caso contrario no hay diferencias entre tratamientos.

La probabilidad de significación estadística está dada por el área que va desde el valor F
(calculado por los datos) hasta el infinito. Gráficamente se tiene:

Para el ejercicio de los cuatro abonos para la siembra de papa, aplicando la expresión de
la identidad fundamental del análisis de la varianza, se tiene la siguiente tabla resumen
del análisis de la varianza:

Tabla de análisis de la varianza


Suma de Grados de Cuadrados Estadística F
Fuente de variación
cuadrados libertad medios (Fisher)
Tratamientos (abonos) 254.7 3 84.9
241.5
Error 8.1 23 0.4
Total 262.8 26 Sig p = 0.0000

3
Los grados de libertad significan el número de parámetros independientes que se tiene, es decir, cuántos datos son
suficientes que nos den para conocer el resto de parámetros o incógnitas.
Por la probabilidad de significación estadística (p=0.0000), puede concluirse que si hay
diferencias significativas entre los abonos, en cuanto al rendimiento de la papa. Es
decir, que con unos abonos se obtiene mayor rendimiento de papas que con otros
abonos.

Y esto puede apreciarse en el siguiente cuadro donde se muestran los rendimientos


promedios (kilogramos) obtenidos por cada uno de los abonos:

Abono 1 Abono 2 Abono 3 Abono 4


12.0 16.3 12.3 19.2

Así, con el abono 4, se tiene el mayor rendimiento (19.2 kg en promedio), seguido del
abono 2, quedando al final los abonos 1 y 3 que parecen muy similares entre estos en
cuanto al rendimiento.

Sin embargo, podemos apreciar que entre los abonos 2 y 4 hay una pequeña diferencia
(de casi 3 kg), ¿cómo saber si la diferencia que se observa es significativa?

Supongamos por un momento que la diferencia observada entre estos abonos no es


significativa (desde el punto de vista estadístico), y que el abono 2 es mucho más barato
que el abono 4, entonces se podría escoger el abono 2 para la producción de papas, ya
que el resultado, bajo la suposición planteada, es que no existirían diferencias
significativas en los rendimientos entre estos abonos.

Pero entonces, una vez que se determinó que si existen diferencias entre los tratamientos
(abonos), es importante responder ahora la siguiente pregunta, ¿cuáles tratamientos
(abonos) son responsables de las diferencias detectadas?.

Y esto se responde con los llamados contrastes o pruebas de contrastes para determinar
que tratamientos son los que difieren y cuales tiene un comportamiento similar (ESTO SE
LO DESARROLLA EN CLASES).

3.3 Modelo ANOVA de efectos aleatorios

El modelo de análisis de la varianza de efectos aleatorios, a diferencia del modelo de


análisis de la varianza de efectos fijos, tiene como objetivo lo siguiente:

“Establecer en que porcentaje, los tratamientos, afectan o inciden en la


variabilidad observada en los datos”

El modelo anova de efectos aleatorios, es exactamente igual al modelo anova de efectos


fijos y debe igualmente construirse la tabla resumen del análisis de la varianza, puesto
que ésta es el insumo básico para calcular el efecto que tienen los tratamientos sobre
la variabilidad o varianza observada en los datos.
A diferencia del modelo de efectos fijos, en donde pueden haber distinto números de
elementos en cada uno de los grupos o tratamientos, en el modelo de efectos aleatorios,
debe haber el mismo número (digamos “n”), de elementos en cada uno de los
grupos o tratamientos.

Veamos ahora el procedimiento para calcular el efecto de los tratamientos sobre la


variabilidad de los datos:

Efecto = varianza de los tratamientos / varianza de los datos

Para el modelo de análisis de la varianza de efectos aleatorios, estas varianzas, están


dadas por el siguiente esquema:

 Varianza datos = varianza errores + varianza tratamientos

Sin embargo, como no conocemos las varianzas poblacionales (o del universo total),
estas varianzas se estiman con base en los cuadrados medios obtenidos en nuestra tabla
resumen del análisis de la varianza.

Así, se tiene las siguientes relaciones (que pueden ser demostradas, pero que las vamos
a utilizar directamente sin ninguna demostración):

 Varianza errores = CME (cuadrado medio de los errores)


 Varianza errores + n*(varianza tratamientos) = CMTR (cuadrado medio de
los tratamientos)

De este esquema de relaciones, tenemos que la varianza de los tratamientos puede ser
estimada de la siguiente manera:

 Varianza tratamientos = (CMTR – CME) / n


 Varianza errores = CME
 Varianza datos = CME + (CMTR – CME) / n

De esta manera, tenemos que el efecto de los tratamientos sobre la variabilidad de los
datos, está dada por la siguiente expresión algebraica:

Efecto _ tratamient os 
CMTR  CME  *100%
CMTR  n  1* CME 
Donde CME, es el cuadrado medio de los errores
CMTR, es el cuadrado medio de los tratamientos, y
n, es el número de datos que se tiene por tratamiento

Veamos a continuación un ejemplo:

Un laboratorio farmacéutico dispone de varios dispositivos para envasar agua destilada en


envases para suero fisiológico que sirven para tratamientos de enfermedades. Estos
dispositivos deben envasar 1000 centímetros cúbicos de agua destilada. Con el propósito
de efectuar un control de calidad sobre las cantidades que se envasan, de decidió
escoger al azar 4 dispositivos de entre todos los disponibles. De cada uno de los
dispositivos se tomaron al azar 5 muestras de sueros y se procedió a medir exactamente
las cantidades de agua destilada, obteniendo la siguiente información:

DISPOSITIVOS LLENADO SUEROS (ALEATORIO)


Dispositivo 1 Dispositivo 2 Dispositivo 3 Dispositivo 4
1000 998 1005 1002
1001 1005 1001 1005
1005 1007 1000 1010
990 1000 1003 1007
995 1000 1000 1008

Se desea establecer en qué medida los dispositivos (tratamientos) son responsables de


las diferencias que se observan en los datos.

Solución:

Para calcular el efecto o responsabilidad que tienen los dispositivos, debemos calcular la
tabla resumen del análisis de la varianza:

Para esto calculamos primero las sumas de cuadrados:

Recordemos que para calcular el término STC (suma total de cuadrados) de


acuerdo a la expresión algebraica dada, debe realizarse lo siguiente:

Primero: calculamos le media aritmética de todos los datos


Segundo: restamos cada uno de los datos (observaciones) con la media aritmética global
Tercero: elevamos al cuadrado estas diferencias
Cuarto: sumamos todos estos valores elevados al cuadrado y listo

La media aritmética = 1002,1

Luego STC = (1000-1002,2)2 + (1001-1002,2)2 +(1005-1002,2)2 + …


…. + (1008- 1002,2)2 = 417,8

El término SCTR (suma de cuadrados de los TRATAMIENTOS) de acuerdo a la expresión


algebraica, debe realizarse lo siguiente:

Primero: debemos calcular la media aritmética de cada uno de los grupos o tratamientos
Segundo: restamos cada media de la media global de los datos
Tercero: elevamos al cuadrado estas diferencias
Cuarto: sumamos estas diferencias por grupo y multiplicamos por el número de elementos
del grupo
Quinto: sumamos estos resultados y listo

Las medias de cada uno de los tratamientos son:

Dispositivo 1 Dispositivo 2 Dispositivo 3 Dispositivo 4


998,2 1002 1001,8 1006,4

Entonces:

SCTR = 5*[(998,2-1002.2)2 + (1002-1002.2)2 + (1001,8-1002.2)2


+ (1006,4-1002.2)2 ] = 169
Mientras que la suma de cuadrados de los errores la obtenemos por diferencia, es decir,

SCE = SCT – SCTR = 248,8.

Los grados de libertad, están dados por:


Grados libertad tratamientos = tratamientos – 1 = 4 -1 = 3.
Grados libertad total = número datos total - 1 = 20 – 1 = 19
Grados libertad errores = grados total – grados tratamientos = 19 – 3 = 16

Los cuadrados medios son:


CMTR = SCTR / 3 = 169 / 3 = 56,3, y
CME = SCE / 16 = 248,8 / 16 = 15,6

Así, la tabla resumen del análisis de la varianza está dada por:

Tabla de análisis de la varianza


Fuente de Suma de Grados de Cuadrados Estadística F
variación cuadrados libertad medios (Fisher)

Tratamientos 169,0 3 56,3 3,62


Error 248,8 16 15,6
Total 417,8 19 0,036154281

La celda resaltada en amarillo es la probabilidad de significancia estadística, que en el


Excel puede obtenerse con el comando: “=DIST.F(3;16; 3.62)” que nos indica si existen o
no diferencias entre los tratamientos, siendo éste el objetivo del modelo anova de
efectos fijos.

Pero recordemos que para el modelo de efectos aleatorios, lo que interesa es


cuantificar el efecto o responsabilidad que tienen los tratamientos sobre la
variabilidad observada en los datos, y este efecto lo cuantificamos por:

Efecto _ tratamient os 
CMTR  CME  *100%
CMTR  n  1* CME 
Así, utilizando esta expresión, tenemos que el efecto de los tratamientos es:

Efecto = (56,3 – 15,6) / [ 56,3 + (5-1)*15,6 ] *100% = 34,4%

Podemos apreciar que los dispositivos son responsables de un 34,4% de la variabilidad


que se observa en los datos, y con esto tenemos un instrumento valioso para poder tomar
una decisión técnica de qué hacer en esta situación para mejorar el trabajo que se realiza.

Este modelo resulta muy interesante para muchas aplicaciones. Por dar un caso,
hablando del ámbito educativo, se podría evaluar “en qué medida son responsables los
profesores de una unidad educativa en las diferencias que se observan en los notas
de los estudiantes”.
4. Modelos de bondad de ajuste
4.1 Introducción
Recordemos la definición de probabilidad que se vio en la sesión 2 de este curso, donde
se definió la probabilidad del evento A como:

# de resultados que cumplen la condición del evento A


P( A) 
# de posibles resultados del exp erimento

Donde, A es un evento (subconjunto del espacio muestral), y el espacio muestral es el


conjunto de todos los posibles resultados de un experimento.

Algo que es importante resaltar en torno a esta definición, es si ¿la probabilidad se


cumple o no en la vida real?. Y la respuesta es que la probabilidad si se cumple en la
vida real, pero al repetir el experimento un cierto número de veces.

Por ejemplo, supongamos que lanzamos una moneda. Sabemos por la definición dada,
que la probabilidad que salga cara es 0,5 (o 50%) y la probabilidad que salga sello es 0,5
(o 50%).

Esto implica que si nosotros lanzamos la moneda, por ejemplo 2 veces, desde el punto de
vista teórico o ideal, la moneda debería dar como resultados una cara y un sello, de
donde tomando la frecuencia relativa de estos resultados se tendría las probabilidades
mencionadas.

Sin embargo, puede ocurrir esto?. Pues la respuesta es, no necesariamente.


Supongamos que en los dos lanzamientos, ocurrieron 2 caras y 0 sellos. Tomando la
frecuencia relativa se tiene 100% para la ocurrencia de cara, y 0% para la ocurrencia de
sello, valores que están lejos de los valores reales o verdaderos que son 50% para cara y
50% para sello.

Pero que tal si lanzamos ahora 10 veces la moneda y registramos las veces que salen la
cara y el sello. Desde el punto de vista teórico o ideal, deberían haber salido 5 caras
(50%) y 5 sellos (50%), sin embargo, ocurre esto?, pues nuevamente la respuesta es, no
necesariamente. Supongamos que salieron 7 (70%) caras y 3 sellos (30%). Estamos un
poco más cerca de los valores reales.

Ahora registremos 100 lanzamientos de la moneda, y supongamos que se obtuvo 55


caras (55%) y 45 sellos (45%). Podemos apreciar ahora que estamos cada vez más cerca
de las probabilidades verdaderas: cara (50%) y sello (50%).
Y lo que ocurre es que mientras más veces repitamos el experimento, la frecuencia
relativa se va aproximando a las probabilidades reales o verdaderas

Pues precisamente las pruebas de bondad de ajuste se basan en esta característica


de la probabilidad.

Supongamos que hemos registrado las veces que salió cada uno de los resultados de una
moneda en 100 lanzamientos, teniendo lo siguiente:
Frecuencia observada
Cara 98
Sello 2
Total 100

Viendo estos resultados, de manera intuitiva, podemos asegurar que la moneda es una
moneda de truco, o que esta alterada, puesto que una moneda normal, en 100
lanzamientos, debería tener frecuencias cercanas a 50 (por la definición de probabilidad).

Veamos otra moneda donde se registró igualmente los resultados de 100 lanzamientos:

Frecuencia observada
Cara 57
Sello 43
Total 100

Viendo estos resultados, y de acuerdo al concepto de probabilidad que en 100


lanzamientos de una moneda, deberían darse 50 caras y 50 sellos (idealmente), no se
tiene porqué sospechar de esta moneda y con mucha confianza podríamos decir que la
moneda no está alterada o que está en buen estado o es una moneda normal.

Así, las pruebas de bondad de ajuste, se basan en comparar estas frecuencias


observadas con las frecuencias ideales o teóricas que se obtienen con la probabilidad de
ocurrencia. De esta manera, este modelo de bondad de ajuste nos permite decidir si el
evento que estamos analizando tiene o no el comportamiento esperado de un
evento normal.

Para el caso de la primera moneda la comparación sería de la siguiente manera:

Frecuencia Frecuencia
observada esperada (ideal)
Cara 98 50
Sello 2 50
Total 100 100

Donde la frecuencia esperada o ideal se calcula multiplicando el número de lanzamientos


(100) o pruebas realizadas por la probabilidad de ocurrencia de cada uno de los
resultados de la moneda (0,5 para cara y 0,5 para sello). Así, para la cara y sello, las
frecuencias esperadas están dadas por: 100*0,5 = 50.

4.2 Pruebas de bondad de ajuste para una variable

Esta prueba como se mencionó, tiene como objetivo analizar si la distribución de un


conjunto de datos (dados por la frecuencia observada) se ajusta o no a su distribución
teórica de probabilidades, en otras palabras, significa analizar si un evento observado se
parece o es similar o no a un comportamiento normal o ideal de tal evento.
Para esto los datos se registran de la siguiente manera:

Frecuencia
Variable Frecuencia esperada
(categorías) observada (ideal)

1 O1 e1
2 O2 e2
3 O3 e3
. . .

i Oi ei
. . .
. . .

k Ok ek
Total N N

Donde O1, O2, …, Ok son las frecuencias o casos observadas,


e1, e2, …, e k son las frecuencias o casos esperados o ideales,
Además, O1 + O2 + …+ Ok = N
e1 + e2 + …+ ek = N
Y las frecuencias esperadas se obtienen multiplicando el número total de observaciones N
por la probabilidad de ocurrencia de cada una de las categorías de la variable, es decir:

ei = N * Probabilidad (ocurra categoría i) para i=1,2,3,.., k

Y para llevar a cabo esta prueba se construye el siguiente estadístico (se ajusta a la
llamada ley chi-cuadrado de probabilidades):

(O  k
e ) 2
2   i i
i 1 ei
Planteando la siguiente prueba de hipótesis:

 Hipótesis nula Ho: no hay diferencias significativas entre las


distribuciones de la frecuencia observada y la frecuencia esperada o ideal.
versus
 Hipótesis alternativa H1: si hay diferencias significativas entre las
distribuciones de la frecuencia observada y la frecuencia esperada o ideal.

Recordando las pruebas de hipótesis estudiadas anteriormente, se tiene el siguiente


esquema:
Donde el cuantil teórico se lee en las tablas de la distribución chi-cuadrado, y se decide de
la siguiente manera:

Si  2 < cuantil teórico, no rechazamos Ho (no hay diferencias)

Si  2 >cuantil teórico, aceptamos la hipótesis H1 (no hay diferencias)

O también con base en la probabilidad de significancia estadística, podemos decidir sobre


la prueba de hipótesis.

Y, para leer este cuantil teórico en las tablas, necesitamos de dos parámetros, el nivel de
confiabilidad y los grados de libertad.

La confiabilidad es una decisión del investigador y usualmente se toman


confiabilidades del 95% o 99%, mientras que los grados de libertad se calculan
restando uno al número de categorías de la variable que se está analizando.

A continuación se incluyen algunos cuantiles teóricos de la ley chi-cuadrado:

Cuantil teórico Cuantil teórico


para 95% para 99%
Grados de libertad confiabilidad confiabilidad
1 3,84 6,64
2 5,99 9,22
3 7,82 11,32
4 9,49 13,28
5 11,07 15,09
6 12,60 16,81
7 14,07 18,47
8 15,51 20,08
9 16,93 21,65
10 18,31 23,19
11 19,68 24,75
12 21,03 26,25
13 22,37 27,72
14 23,09 29,17
15 25,00 30,61

En los libros de estadística se encuentran al final tablas completas de estos cuantiles.

Ejemplo. Para apreciar la fortaleza de esta prueba, se plantea el siguiente caso que
ocurrió hace muchas décadas atrás (por los años 20 aproximadamente). Un jugador en un
casino de juegos, registró las veces que salían cada una de las caras de un dado. Con
esta información esta persona realizó unos cálculos y dedujo que el dado estaba alterado.
Llevó a la policía, incautó el dado y verificaron que efectivamente el dado estaba alterado.
Esta persona planteó una demanda millonaria y ganó por supuesto.

Qué hizo esta persona?. Pues en esa época no había mucha información sobre este tema
y lo que aplicó fue estas ideas de las pruebas de bondad de ajuste.

Supongamos (no hay un registro de los datos del jugador) que esa persona registró los
siguientes valores:

Variable
(categorías = caras Frecuencia Frecuencia
del dado) observada esperada (ideal)
1 10 25
2 50 25
3 15 25
4 25 25
5 15 25
6 35 25

Total 150 150

Sabemos que la probabilidad de que salga cada una de las caras en un dado es de 1/6, lo
que multiplicado por las observaciones totales (150) da 25 que es la frecuencia esperada
o ideal.

La prueba de hipótesis que se plantea sería:

 Hipótesis nula Ho: no hay diferencias significativas entre las


distribuciones de la frecuencia observada y la frecuencia esperada o ideal.
Esto es equivalente a decir que: EL DADO NO ESTA ALTARADO.
versus
 Hipótesis alternativa H1: si hay diferencias significativas entre las
distribuciones de la frecuencia observada y la frecuencia esperada o ideal.
Esto equivale a decir que: EL DADO ESTA ALTERADO.

Con los datos calculamos el estadístico chi-cuadrado:

 2 = (10-25)2/25 + (50-25)2/25 +(15-25)2/25 +(25-25)2/25 +(15-25)2/25 +


(35-25)2/25 = 46.
El cuantil teórico, con 95% de confiabilidad y 5 grados de libertad (puesto que tenemos 6
categorías dadas por las caras del dado), es 11,07 (observar la tabla de cuantiles
teóricos). Luego como  2 > cuantil teórico (46 > 11,07) estamos en la hipótesis
alternativa, es decir que si hay diferencias significativas entre la distribución de las
frecuencias observadas con las frecuencias esperadas y por lo tanto podemos deducir
que el dado está alterado.

Podemos también calcular la probabilidad de significancia estadística (en el Excel se lo


hace con el comando: “=DISTR.CHI(46 ; 5)”), obteniendo p=0.0000, lo que nos indica que
caemos en la región crítica o de rechazo de la hipótesis nula, y por lo tanto existen
diferencias significativas (lo que implica que el dado está alterado de alguna forma).

Ejemplo. Veamos si los accidentes de tránsito que ocurren en la ciudad de Quito durante
los días de una semana ocurren o no de manera uniforme. Para esto se cuenta con la
siguiente información:

Accidentes por día Frecuencia Frecuencia


de la semana observada esperada (ideal)
Lunes 5 23
Martes 8 23
Miércoles 10 23
Jueves 25 23
Viernes 50 23
Sábado 45 23
Domingo 18 23

Total 161 161


Como frecuencia esperada (161 / 7 = 23) asumimos que los accidentes ocurren de
manera uniforme, (esto es lo que queremos analizar si se da o no).

Nuestra prueba de hipótesis sería:

 Hipótesis nula Ho: no hay diferencias significativas entre las


distribuciones de la frecuencia observada y la frecuencia esperada o ideal.
Esto es equivalente a decir que: LOS ACCIDENTES DE TRANSITO SE DAN
POR IGUAL DURANTE TODOS LOS DIAS DE LA SEMANA.
versus
 Hipótesis alternativa H1: si hay diferencias significativas entre las
distribuciones de la frecuencia observada y la frecuencia esperada o ideal.
Esto equivale a decir que: LOS ACCIDENTES DE TRANSITO NO SE DAN
POR IGUAL DURANTE LOS DIAS DE LA SEMANA.

Con base en los datos el estadístico chi-cuadrado nos da  2 =85,2, mientras que el
cuantil teórico (95% confiabilidad y 6 grados de libertad) es 12,6. La probabilidad de
significancia estadística (con el Excel) es p=0.000.

De donde podemos inferir que rechazamos la hipótesis nula Ho. Esto implica que los
accidentes no ocurren de manera uniforme durante los días de la semana, es decir hay
algunos días donde ocurren más accidentes que otros (lo que ya sabemos, pero lo
estamos comprobando de manera científica).

En este sentido esta prueba es muy poderosa para muchos proyectos e investigaciones
en diversas áreas.

Una de las limitaciones de esta prueba es que NO ES APLICABLE cuando las muestras
que se observan son muy grandes. Como grande puede asumirse a partir de 5000
observaciones (esto no es una regla, sino una cuestión empírica solamente).

4.3 Pruebas de bondad de ajuste para tablas de contingencia


Esta prueba de bondad de ajuste, puede aplicarse para el caso en que se cruzan dos
variables, digamos A y B, donde lo que nos interesa conocer es si existe o no
asociación o relación entre las variables.

Una tabla de contingencia tiene la siguiente estructura:


Variable B (categorías)
Variable A 1 2 3 . j . . n
(categorías)
1 O11 O12 O13 O1j O1n
2 O21 O22 O23 O2j O2n
3 O31 O32 O33 O3j O3n
. . . . . .
i Oi1 Oi2 Oi3 Oij Oin
. . . . . .
. . . . . .
m Om1 Om2 Om3 Omj Omn

Así, se tiene la variable A con m categorías, y la variable B con n categorías. Las Oij son
las frecuencias observadas, por ejemplo, O11, representan el número de casos que
pertenecen a la categoría 1 de la variable A, y a la categoría 1 de la variable B.

Al igual que el caso anterior, deben calcularse las frecuencias esperadas o teóricas, las
que se calculan de la siguiente manera:

 Primero se suman los totales de las frecuencias por cada fila, obteniendo los
valores, m1, m2, …, mm

 Segundo se suman los totales de las frecuencias por cada columna, obteniendo
los valores, n1, n2, …, nn

 Luego obtenemos la suma total de las frecuencias (N)

 Finalmente las frecuencias esperadas se calculan multiplicando la frecuencia


total de cada una de las filas por la frecuencia total de cada una de las
columnas y dividiendo por el total de la frecuencia (N).

Por ejemplo, la frecuencia esperada para la primera celda (categoría 1 de la variable A,


y categoría 1 de la variable B), se obtiene multiplicando la frecuencia total de la
primera fila por la frecuencia total de la primera columna y esto se divide para la
frecuencia total. Y así se procede respectivamente con el resto de celdas.

Es decir, procedemos de la siguiente manera:

Primero, sumamos las frecuencias observadas para cada una de las filas y cada
una de las columnas
Variable B (categorías)
Frecuencia
Variable A 1 2 3 . j . . n total por
(categorías) filas
1 O11 O12 O13 O1j O1n m1
2 O21 O22 O23 O2j O2n m2
3 O31 O32 O33 O3j O3n m3
. . . . . .
i Oi1 Oi2 Oi3 Oij Oin mi
. . . . . .
. . . . . .

m Om1 Om2 Om3 Omj Omn mm

Frecuencia
total por
columnas
n1 n2 n3 nj nn N

Segundo, calculamos las frecuencias esperadas (multiplicando el total de cada fila


por el total de cada columna y se divide para el total de casos N):
Variable B (categorías)
Variable A
(categoría 1 2 . . . n
s)
1 e11 = n1*m1/N e12= n2*m1/N e1n= nn*m1/N
2 e21= n1*m2/N e22= n2*m2/N e2n= nn*m2/N
3 e31= n1*m3/N e32= n2*m3/N e3n= nn*m3/N
. . . .
i ei1= n1*mi/N ei2= n2*mi/N ein= nn*mi/N
. . . .
. . . .
m em1= n1* mm /N em2= n2* mm /N emn= nn*mm/N

Una vez calculadas las frecuencias esperadas, se procede a calcular el estadístico chi-
cuadrado (igual al caso anterior):

m n (Oij  eij ) 2
2   
i 1 j 1 eij
La prueba de hipótesis que se plantea es la siguiente:

 Hipótesis nula Ho: No hay asociación entre las variables. Esto es


equivalente a decir que la distribución de la variable A es similar o
parecida para cada una de las categorías de la variable B, o viceversa.
versus
 Hipótesis alternativa H1: Si hay asociación entre las variables. Esto es
equivalente a decir que la distribución de la variable A difiere
significativamente para algunas de las categorías de la variable B, o
viceversa.

Para realizar esta prueba, se lee el cuantil teórico en tablas de la distribución chi-
cuadrado, y se decide de la siguiente manera:

Si  2 < cuantil teórico, entonces no rechazamos Ho


Si  2 > cuantil teórico, tenemos la hipótesis H1

O también decidimos sobre la prueba con base en la probabilidad de significancia


estadística.

Este cuantil teórico de las tablas, lo obtenemos estableciendo la confiabilidad (que es


una decisión del investigador, tomando el 95% o 99% generalmente), mientras que los
grados de libertad se calculan multiplicando los grados de libertad de cada una de
las variables que se está analizando.

Así, sabiendo que la variable A tiene m categorías, y la variable B tiene n categorías,


entonces los grados de libertad = (n-1)(m-1).

Vemos el siguiente caso:

Ejemplo. Se registraron los casos de niveles de ingresos económicos por sexo, y se


desea establecer si existe o no asociación entre los ingresos económicos y el sexo de las
personas.

Se cuenta con los siguientes datos:

Variable B (sexo)

Variable A (rangos
Hombre Mujer
de ingresos)

0-100 25 20
101-200 30 31
201-500 40 37
501-1000 50 52
1001-2000 20 19

Por ejemplo, se tienen 50 casos de hombres que ganan entre 501 y 1000 dólares, etc.
Vamos a calcular las frecuencias esperadas, para lo cual comenzamos calculando los
totales de frecuencia por filas y por columna, teniendo lo siguiente:
Variable B (sexo)

Variable A (rangos Frecuencia


Hombre Mujer
de ingresos) total por filas

0-100 25 20 45
101-200 30 31 61
201-500 40 37 77
501-1000 50 52 102
1001-2000 20 19 39

Frecuencia total
por columnas 165 159 324

Con estos datos, por ejemplo, para la primera celda (hombres que ganan menos de 100
dólares), la frecuencia esperada la obtenemos así, 165*45 / 324 = 22,9 (total de la
primera columna por el total de la primera fila y dividiendo para la frecuencia total).

Y así se procede con el resto de celdas, obteniendo la siguiente tabla de frecuencias


esperadas o ideales:

Variable B (sexo)
Variable A (rangos
Hombre Mujer
de ingresos)
0-100 22,9 22,1
101-200 31,1 29,9
201-500 39,2 37,8
501-1000 51,9 50,1
1001-2000 19,9 19,1

A continuación se procede a calcular el estadístico chi-cuadrado:

 2 = (25-22,9)2/22,9 + (30-31,1)2/31.1 + … + (19-19,1)2/19,1 = 0,64

Ahora el cuantil teórico, con 95% de confianza o confiabilidad y 4 grados de libertad (4


grados para la variable ingresos por 1 grado de la variable sexo) es 9,49 (Vea la tabla 1
del capítulo anterior de esta sesión).

Así, se tiene que  2 < cuantil teórico (0,64 < 9,49), y por lo tanto no rechazamos la
hipótesis nula (no hay asociación entre estas variables).

La probabilidad de significancia estadística la podemos calcular con el Excel con el


mismo comando descrito anteriormente (“=DISTR.CHI(0,64 ; 4)”), teniendo
p=0,958, lo que nos confirma que nuestro estadístico cae en la zona de la hipótesis
nula.

Esto implica que no existe asociación entre la variable ingresos y la variable


sexo.
Pero, es muy importante resaltar la interpretación del resultado. Decir que no
existe asociación entre estas variable, implica que independientemente del sexo,
la distribución de los ingresos es muy similar o parecida, es decir que no
importa que sea hombre o sea mujer, la distribución de los ingresos es parecida.

Para apreciar esto, veamos la distribución relativa (frecuencia relativa) de los ingresos por
cada una de las categorías de la variable sexo.

Variable B (sexo)

Variable A
(rangos de Hombre Mujer
ingresos)

0-100 15,2 % 12,6 %


101-200 18,2 % 19,5 %
201-500 24,2 % 23,3 %
501-1000 30,3 % 32,7 %
1001-2000 12,1 % 11,9 %

Total 100 % 100 %

En esta tabla podemos apreciar que la distribución de los ingresos es parecida entre los
hombres y las mujeres (no hay diferencias notables).

A esto se refiere el hecho de decir que no hay asociación entre las variables.

Por otro lado, supongamos por un momento que hubiésemos concluido que si habían
diferencias significativas. Esto implicaría que las variables si están asociadas y por lo
tanto los hombres, presentan una distribución de ingresos salariales notablemente
diferente a la de las mujeres.
Prueba de hipótesis para la varianza
Sea X1, X2, X3, ,,,, Xn, una muestra aleatoria de una variable con distribución normal con media µ
y varianza desconocida σ2. Con base en la muestra aleatoria, se plantea la siguiente prueba de
hipótesis:
Ho:
vs
H1:

Para dar respuesta a esta prueba, se calcula el siguiente estadístico:

donde
S2 es la varianza muestral ( ∑ ̅ )
es el parámetro que deseamos probar
n es el tamaño de la muestra

Este estadístico se ajusta a la ley chi-cuadradp de probabilidades, con (n-1) grados de libertad
(los cuantiles constan en la segunda página del formulario).

Veamos el siguiente ejemplo:


En un proceso de llenado, la tolerancia para el peso de los recipientes es de ocho gramos. Para
reunir este requisito, la desviación estándar en el peso debe ser de dos gramos. Los pesos de 15
recipientes seleccionados al azar dieron como resultado una desviación estándar de 2.8 gramos.
Si los pesos se encuentran normalmente distribuidos, determinar si la varianza de éstos es
diferente del valor necesario con un 95% de confianza.

En este caso se tiene que: y .

Calculamos

Se plantea la prueba de hipótesis:


Ho:
vs
H1:

El valor 19.6 indica que no se rechaza la hipótesis nula, por lo tanto la varianza si es de dos
gramos.

Вам также может понравиться