Вы находитесь на странице: 1из 26

Enseñando Estadística con Infostat

Facultad de Ciencias Económicas - UNC - 2013

ENSEÑANZA DE ESTADÍSTICA
BASICA CON “INFOSTAT”

ESTADÍSTICA INFERENCIAL:
ESTIMACIÓN POR INTERVALOS Y PRUEBA DE HIPÓTESIS
PARA UNA y DOS POBLACIONES

Cátedras de Estadística II: Patricia CARO


Docentes Auxiliares:
Tolosa, Leticia
Vera, María Luz
Cátedras de Estadística II: Fernando GARCIA
Docentes Auxiliares:
Ahumada María Inés
Lorena Anaya

No hay que empezar siempre por la noción primera de las cosas que se estudian,

sino por aquello que puede facilitar el aprendizaje.

Aristóteles
1
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

ESTIMACIÓN POR INTERVALO Y PRUEBAS DE HIPÓTESIS PARA UN PARÁMETRO

INTRODUCCIÓN

La inferencia estadística comprende un conjunto de métodos mediante los cuales podemos hacer
afirmaciones respecto a una población completa a partir de la observación de una parte de ella, una
muestra.
Dos formas básicas para realizar inferencia estadística son la estimación de parámetros y las pruebas
de hipótesis.

OBJETIVOS

El objetivo principal de este módulo es proporcionar a los alumnos algunas herramientas


computacionales útiles para el análisis confirmatorio de datos, generalmente ligado a la Estadística
Inferencial. A través de ejemplificaciones se describirán las distintas metodologías estadísticas
inferenciales para una población: estimación de parámetros y pruebas de hipótesis. Adicionalmente se
describirá el procedimiento para la determinación del tamaño muestral.
Para esta clase se ha seleccionado el software estadístico Infostat1. El diseño de Infostat es similar al
de otros softwares estadísticos, lo que brinda al usuario la posibilidad de adaptarse al uso de los
mismos de manera relativamente fácil. Es importante que tenga en claro que solo la práctica permite
un mejor conocimiento del software, por lo que se espera que sus amplias posibilidades se vayan
descubriendo a medida que avancen en el estudio de los diversos módulos del programa. InfoStat
cuenta con un manual de ayuda; para acceder al mismo se debe elegir en el menú AYUDA la opción
Manual2.
En este módulo se trabajará con bases de datos de diversas actividades del manual de Estadística II del
Ciclo Básico a Distancia.

1
La versión estudiantil es libre y está disponible en la página: http://www.infostat.com.ar/, solicitar una clave
gratuita ingresando por la solapa “Versión Estudiantil”.
2
Balzarini M.G., González L., Tablada M., Casanoves F., Di Rienzo J.A., Robledo C.W. (2008). Manual del Usuario,
Editorial Brujas, Córdoba, Argentina.
2
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

1. ESTIMACIÓN DE PARÁMETROS

Existen dos tipos de estimación, la puntual que es de cálculo sencillo, pero es difícil que esta
estimación coincida con el verdadero valor del parámetro poblacional, aparte de no informar sobre el
error que cometemos. Otra forma es la estimación por intervalos que consiste en calcular a partir de
la muestra, un intervalo con una probabilidad dada (nivel de confianza) de contener el valor del
parámetro poblacional, informándonos del error.
InfoStat permite realizar estos dos tipos de estimaciones para los parámetros que sean de interés.

1.1 ESTIMACIÓN PARA LA MEDIA POBLACIONAL


Comenzamos una estimación puntual y por intervalos de confianza para la media poblacional. A modo
de ejemplo, usaremos los datos del archivo “Act 9_Focos Vida Útil”.
Supongamos que queremos construir un intervalo de confianza para la vida útil promedio (en hs.) de
una nueva marca de focos de luz (parámetro de interés: media poblacional)3. Se fija un nivel de
confianza del 95% y se tiene una muestra de tamaño 10 (n=10). No se conoce la varianza de la
población, por lo que se usa el estadístico t de Student con n-1 grados de libertad. La distribución t
sólo se puede utilizar en muestras que provengan de una población normal. Entonces, previo a realizar
una estimación por intervalos para la media poblacional debemos probar la normalidad de la variable
en la población. Para probar normalidad podemos hacerlo por medio de un análisis gráfico o mediante
una prueba de hipótesis. Los gráficos que podemos usar son: Q-Q plot, Histograma, Box-Plot.

GRÁFICOS  Q-Q plot  variable: Vida Útil (en hs.)  Distribución: Normal (tildar “Mostrar recta y=x).

GRÁFICOS  Histograma  variable: Vida Útil (en hs.)  En la ventana “Herramientas gráficas” 
Ajuste: Normal.

A partir del análisis gráfico podemos considerar los datos provienen de una población con distribución
normal, luego estamos en condiciones de construir el intervalo de confianza para el parámetro de
interés, en este caso, el promedio de horas de duración de los focos de la nueva marca. Para ello,

3
Se hace referencia a la Actividad 9 (pág. 27) del apunte de Estadística II del Ciclo Básico a Distancia.

3
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

seleccione menú ESTADÍSTICAS → INFERENCIA BASADA EN UNA MUESTRA → INTERVALOS DE


CONFIANZA para acceder a la siguiente ventana:

En esta ventana, deberemos seleccionar la variable de interés, en nuestro caso “Vida Útil (en hs.)”. Al
presionar el botón Aceptar InfoStat activa el cuadro donde tildaremos el parámetro a estimar (media)
y el nivel de confianza elegido (95% en nuestro caso). Por defecto, trabajaremos con las opciones
estimación paramétrica y bilateral4.

Finalmente, marcando Aceptar, obtendremos la siguiente tabla:

4
A pesar de que en el curso no demostramos la conveniencia de construir intervalos simétricos cualquiera sea su
distribución, mencionamos que ello es conveniente a fin de minimizar la amplitud de los intervalos de estimación. Esa
simetría se entiende en el sentido de dejar fuera del intervalo que se construye igual probabilidad en cada cola. Por eso
siempre seleccionaremos “Bilateral” cuando estimemos intervalos de confianza para cualquier parámetro.

4
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

El software provee la estimación puntual de la media poblacional (en este caso la media muestral
4.010,80) y la estimación por intervalos. Los límites de confianza son obtenidos utilizando los cuantiles
de la distribución T de Student (como la varianza poblacional es desconocida el software la estima
desde la muestra). Dichos límites son calculados como 4010,80 +/- 2,262 x 70,18. Podemos concluir
con un 95% de confianza que el intervalo (3852,03; 4169,57) contiene el verdadero valor de la vida útil
promedio (en hs.) de los focos de la nueva marca en la población de la cual se extrajo la muestra.

1.2 ESTIMACIÓN PARA LA PROPORCIÓN POBLACIONAL

En la construcción de intervalos de confianza para la proporción de éxitos, InfoStat utiliza


directamente los cuantiles de la distribución Binomial (n, P) asociada al estadístico número de éxitos
muestrales, con n igual al número de repeticiones y P la proporción de éxitos poblacional. Así, los
intervalos de confianza construidos con Infostat para la proporción poblacional son exactos,
construidos a partir de la distribución exacta de esta variable.

Dado que nosotros utilizamos para construir intervalos de confianza para este parámetro poblacional P
(proporción de éxitos) la distribución asintótica normal de la proporción muestral.

Considerando esta aclaración, podremos realizar una lectura de una salida de intervalos de confianza
para la proporción, proporcionada por Infostat. Trabajamos con el archivo y la variable “Doncencia”
(debe estar definida cómo numérica). Mantenemos la opción Bilateral y en Éxitos se puede dejar
indicado >0 o indistindamente =1, para identificar el éxito que en este caso son los que elegirían ser
docentes.

Cuando se desea un intervalo para P (proporción de éxitos) y no se dispone de una variable de tipo
binaria, InfoStat permite definir el criterio para que el software pueda hacer dicotómica con el objetivo
obtener el intervalo de confianza para P. En “Éxito: valores…” Considera éxito valores: >, >=, <, <= o =

5
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

que un valor especificado por el usuario en el campo reservado para ingresar dicho valor. En nuestro
caso, consideraremos éxito a los valores de la variable “Docencia” > 0 (ó =1).

También es posible definir diferentes Niveles de confianza para la estimación, por ejemplo 99%:

En base a estas salidas podemos concluir con un 95% de confianza que el intervalo [0,29; 0,49]
contiene el verdadero valor de la proporción poblacional de estudiantes que se dedicarían a la
docencia luego de egresados. Por su parte, con un 99% de confianza el intervalo [0,26; 0,52] contiene
la verdadera proporción poblacional de estudiantes que se dedicarían a la docencia luego de
egresados. La precisión de la estimación se reduce al aumentar el nivel de confianza.

1.3 ESTIMACIÓN PARA LA VARIANZA POBLACIONAL

Para realizar una estimación por intervalos para la varianza poblacional usaremos los datos de la
Actividad 19 (pág. 33) del apunte de Estadística II del Ciclo Básico a Distancia. En esta actividad se
solicita un asesoramiento sobre el precio de las acciones de un banco, no sólo en su promedio de
cotización sino también respecto a su variabilidad. Se fija un nivel de confianza del 95%.
Para el Cálculo del intervalo del parámetro “media poblacional”, al desconocer la varianza poblacional,
el software la estima esta última con los datos de la muestra, y los límites de confianza son obtenidos
utilizando los cuantiles de la distribución T de Student.
Por su parte, en el caso de la estimación por intervalos para la varianza los límites de confianza son
obtenidos utilizando los cuantiles de la distribución Chi cuadrado.
En ambos casos deberemos probar previamente la normalidad de la variable en la población para
justificar el uso de los respectivos estadísticos a considerar en ambas estimaciones por intervalo.
Para ello realizamos análisis gráfico (Q-Q plot) y pruebas de normalidad (Shapiro Wilks5).
GRÁFICOS  Q-Q plot  variable: Cotización  Distribución: Normal (tildar “Mostrar recta y=x).

5
Este test prueba la hipótesis nula de que la variable tiene distribución normal; se recomienda para muestras
pequeñas (n ≤ 50), mientras que el test de Kolmogorov-Smirnov se utiliza para muestras grandes.
6
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

ESTADÍSTICAS  Inferencia basada en una muestra  Prueba de normalidad (Shapiro Wilks


modificado) variable: Cotización.

Las hipótesis de la prueba en el caso de Shapiro son:


H0: las observaciones tienen distribución normal,
H1: las observaciones no tienen distribución normal.

Por ambos métodos concluimos que la variable tiene distribución normal en la población (No se
rechaza la hipótesis nula en el caso del test  p-value > alpha.
Las medidas resumen de la variable mostrarán las estimaciones puntuales de los parámetro de interés,
entre otras medidas de utilidad.
ESTADÍSTICAS  Medidas resumen  variable: Cotización  indicamos las medidas de interés.

Probada la normalidad de la variable en la población estamos en condiciones de realizar las


estimaciones solicitadas mediante intervalos de confianza.

7
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

Intervalo de confianza para la media poblacional:


ESTADÍSTICAS  Inferencia basada en una muestra  Intervalos de confianza  variable: Cotización
 Parámetro: Media.

Con un nivel de confianza del 95% el intervalo [$129,86; $136,65] contendrá el verdadero valor de
cotización media de las acciones del banco.
Por su parte, si queremos obtener un intervalo de confianza del 95% para la varianza poblacional de la
variable “cotización” seguiremos los mismos pasos seleccionando la varianza como parámetro de
interés, obteniendo el siguiente resultado:
ESTADÍSTICAS  Inferencia basada en una muestra  Intervalos de confianza  variable: Cotización
 Parámetro: Varianza.

Intervalo de confianza para la Varianza poblacional:

Como se dijo previamente, en este caso los límites de confianza son obtenidos utilizando los cuantiles
de la distribución Chi cuadrado. Dichos límites son calculados como LI=64,74 x 23/38,08 y LS= 64,74 x
23/11,69. Podemos concluir con un 95% de confianza que el intervalo (39,11; 127,40) pesos2 contiene
el verdadero valor de la varianza de la cotización de las acciones en la población de la cual se extrajo la
muestra.

8
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

2. PRUEBAS DE HIPÓTESIS PARA UN PARÁMETRO

InfoStat permite construir pruebas de hipótesis referidas a distintos parámetros poblacionales.


Presentaremos inferencias basadas en una muestra aleatoria y en dos muestras aleatorias, tanto
independientes como dependientes o apareadas. Finalmente, expondremos algunas pruebas no
paramétricas.

Cabe aclarar que InfoStat, a efectos de decidir si se rechaza o no la hipótesis nula, provee el valor p
para una prueba bilateral, p(Bilateral), o el valor p para pruebas unilaterales derecha, p(Unilateral D), o
izquierda, p(Unilateral I), según se especifique. Cuando el valor p es menor o igual que el nivel de
significación seleccionado para la prueba (p ≤ α), el estadístico pertenece a la región de rechazo, es
decir la prueba sugiere el rechazo de la hipótesis nula.

2.1 Pruebas de hipótesis para la Media poblacional

Para la media poblacional, Infostat sólo cuenta con la “Prueba T para una media”. Permite probar
hipótesis unilaterales o bilaterales, sobre el valor de la esperanza de una variable aleatoria. La prueba
utiliza una estimación de la varianza de la variable respuesta.
El estadístico de la prueba, bajo la hipótesis nula, sigue una distribución t de Student con n-1 grados
x − µ0
de libertad. Es decir que el estadístico que subyace en el test es: t = ∼ t( n−1)
s/ n
¿Bajo qué condiciones simultáneas utilizamos este estadístico?
• Población normal. Por lo tanto habrá que verificar si podemos suponer normalidad.
Analizamos gráficamente y realizamos uno prueba de hipótesis por ejemplo (Shapiro-Wilks o
Kolmogorov)
• Varianza Poblacional es desconocida.
• Aplicable para cualquier tamaño de muestra

Además, se puede solicitar la construcción de un intervalo de confianza, especificando el nivel de


confianza.

Para resolver la Actividad N° 6 de la Guía a Distancia podemos trabajar con esta prueba, para inferir
sobre la efectividad de la oferta de cortadoras de césped implementada. Se supone que tras la
aplicación de la oferta el promedio de cortadoras vendidas por sucursal haya aumentado y esto es lo
que pretendemos probar. Hasta ahora el promedio era de 5 máquinas y no se informa nada sobre el
desvío estándar poblacional. Vamos a trabajar un nivel de significación del 5 %.

Previamente obtengamos un Resumen con las principales medidas descriptivas, con el menú
ESTADISTICAS → Medidas de resumen… y seleccionar la variable “cortadoras”:

Medidas resumen
Variable n Media D.E. Var(n-1) Mín Máx Asimetría Kurtosis
cortadoras 10 7,00 2,00 4,00 3,00 10,00 -0,63 -0,13

9
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

1) Las hipótesis deben plantearse considerando una prueba lateral derecha debido a que se
sospecha (se espera) que la cantidad promedio por sucursal haya aumentado. Esta situación
debe reflejarse en la Hipótesis alternativa, es decir que H1 es la que indica el sentido de la
prueba:
H0: μ = 5 máquinas
H1: μ > 5 máquinas
n

∑x
i =1
i
2) El estimador de μ es: x =
n

3) ¿El estadístico? Dependerá de lo que conocemos de la población:

• ¿Población normal? No sabemos, por lo tanto habrá que verificar si podemos suponer
normalidad. Analizamos gráficamente y realizamos uno prueba de hipótesis para verificar:
Análisis gráfico para verificar normalidad de los datos:
Q-Q Plot : cortadoras

10,09 n= 10 r= 0,976 (cortadoras)


Cuantiles observados(cortadoras)

8,32

6,55

4,77

3,00
3,00 4,77 6,55 8,32 10,09
Cuantiles de una Normal(7,4)

Los puntos se ubican alrededor

Prueba de hipótesis para verificar normalidad de los datos:


H0: La variable se ajusta a una distribución normal
H1: La variable no se ajusta a una distribución normal

Nivel de significación del 5 %.

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
cortadoras 10 7,00 2,00 0,96 0,8850

Conclusión: Comparando el α=0,05 con el valor de p =0,885, concluimos con un nivel de


significación del 5% que los datos provienen de una población con distribución normal

• La varianza Poblacional es desconocida.


• La muestra es de tamaño 10

10
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

Entonces están dadas las condiciones para seleccionar el estadístico para la prueba de hipótesis sobre
x − µ0
la media: t= ∼ t( n−1)
s/ n

4) Con un nivel de significación del 5%, determinamos el punto crítico y delimitamos zonas de
rechazo y no rechazo de la Hipótesis Nula:

t( n−1);(1−α ) = t9;(0,95)
t * = 1,83
Este valor se puede obtener mediante el Calculador de probabilidades y cuantiles, en el menú
ESTADISTICAS → Probabilidades y Cuantiles… Allí elegir la distribución T Student, grados de libertad
v=(n-1)=9, y como la prueba es lateral derecha habrá un solo punto crítico que deja el nivel de
significación en la cola derecha de la distribución (5%):

Luego: Zona de NO Rechazo {t/ tObs ≤ 1,83}


Zona de Rechazo {t/ tObs > 1,83}

Gráficamente: mediante el menú APLICACIONES → Didácticas → Gráficos de funciones de densidad


continuas…

11
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

Función de densidad
T Student(9): p(evento)=0,0500
0,39

0,29

Densidad
0,19

ZNR ZR
0,10

0,00
-5,67 -2,83 0,00 2,83 5,67
Variable

Ahora con los datos de la muestra calculemos el valor observado del Estadístico:

x − µ0 7−5
tObs = = = 3,16
s / n 2 / 10

Decisión: El estadístico observado resultó mayor que el valor crítico, por lo tanto
se rechaza H0. Es decir que el promedio de máquinas vendidas por sucursal es
mayor que 5, con un nivel de significación del 5%. Se pude afirmar que la oferta
resultó efectiva.

Ahora vamos a presentar una manera alternativa, y por supuesto más sencilla de obtener con el
Infostat el criterio para decidir si rechazamos o no H0. Seleccione menú ESTADÍSTICAS → INFERENCIA
BASADA EN UNA MUESTRA → PRUEBA T PARA UNA MEDIA y en la ventana que aparece elija la
variable Cortadoras. Marcando Aceptar se abre la siguiente ventana:

En dicha ventana deberemos elegir el tipo de prueba (en nuestro caso lateral derecha), especificar el
valor de parámetro según la hipótesis nula. Destildamos la opción Intervalo de Confianza6.

6
En este curso sólo vamos a trabajar con Intervalos de Confianza centrados, por lo tanto recomendamos no tildar la opción
cuando se soliciten pruebas laterales.

12
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

La salida que se obtiene es:

Prueba t para una media


Valor de la media bajo la hipótesis nula: 5
Variable n Media DE T p(Unilateral D)
cortadoras 10 7,00 2,00 3,16 0,0058

Aquí podemos concluir a partir del estadístico observado T=3,16 buscando el valor crítico o
directamente con el valor de probabilidad.

Antes de concluir analicemos gráficamente qué implica rechazar o no la H0 a partir del p-valor:

El valor p (o “valor de significación”) representa la verdadera probabilidad de cometer el error de tipo I


y por eso se compara con el valor de α, que es el nivel de significación que el investigador está
dispuesto a aceptar. Entonces como resultó menor que α (0,0058 <0,05) se rechaza la hipótesis nula.

¡La Oferta fue efectiva! Pero ¿Cuántas máquinas cortadoras en promedio se vende ahora?

El rechazo de la Hipótesis nula nos está informado que ahora el promedio es mayor que 5, pero no la
magnitud de la nueva media poblacional. Por eso resulta útil obtener una estimación por intervalo
para µ.

Bilateral
Estimación paramétrica
Variable Parámetro Estimación E.E. n LI(95%)) LS(95%))
cortadoras Media 7,00 0,63 10 5,57 8,43

Conclusión: Con un nivel de confianza del 95%, el intervalo [5,57; 8,43] contiene
al verdadero promedio de máquinas vendidas por sucursal.

13
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

3. PRUEBAS DE HIPÓTESIS PARA DOS PARÁMETRO

3.1. DIFERENCIA DE MEDIAS PARA MUESTRAS INDEPENDIENTES

En esta sección, vamos a comparar parámetros de dos poblaciones, medias, varianzas y proporciones.
Tomaremos como ejemplos para explicar los pasos a seguir en el Infostat ejercicios de la Guía a
Distancia de Estadística II.
El programa dispone de una Prueba la hipótesis sobre la esperanza de la variable aleatoria definida
como la diferencia de las medias. Se suponen muestras aleatorias independientes de distribuciones
normales con varianza común. Por otra parte se puede solicitar el cálculo del estadístico que
contemple el caso de varianzas heterogéneas y seleccionar el nivel de significación para la prueba de
varianzas. Además puede obtenerse el intervalo de confianza para la diferencia de las medias
poblacionales seleccionando el nivel de confianza.
Comenzamos, comparando dos medias poblacionales, tomando muestras independientes. En primer
lugar planteamos la prueba de hipótesis para la diferencia de medias con muestras independientes y
luego estimamos la verdadera diferencia poblacional. Trabajaremos paso a paso, y luego mostramos la
salida completa.
Previamente debemos comprobar que las variables tengan distribución normal. Además verificar si las
varianzas poblacionales son conocidas o desconocidas. En este último caso habrá que inferir si
podemos suponer que son iguales o distintas7. Es importante verificar que se cumplan los supuestos
para validar las conclusiones finales.

Supongamos ahora que queremos probar si el nivel de ausentismo de docentes de Nivel inicial es
diferente con respecto a docentes de nivel primario (Actividad 19). Planteamos un nivel de
significación del 10%.
Primero obtenemos la estadística descriptiva de ambas muestras:
Seleccione menú ESTADÍSTICAS → MEDIDAS RESUMEN. En variables considere “faltas” y particionar
por “nivel”.

Medidas resumen
nivel Variable n Media D.E. E.E. Mín Máx
1,00 faltas anuales 25 8,96 2,82 0,56 3,00 15,00
2,00 faltas anuales 25 8,64 3,82 0,76 0,00 14,00

1) Hipótesis:

H 0 : µ1 − µ2 = 0
H1 : µ1 − µ 2 ≠ 0

O también:

7
Si se rechaza la igualdad de varianzas igualmente podremos realizar la prueba pero en el estadístico intervienen
las dos varianzas muestrales y cambian los grados de libertad. Ver punto 9 del Cap I

14
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

H 0 : µ1 = µ 2
H1 : µ1 ≠ µ 2

2) El estimador es la diferencia de medias muestrales: ∆µˆ : x1 − x2

3) El estadístico de prueba o criterio de test es8 :

( X 1 − X 2 ) − ( µ1 − µ 2 ) H 0 ( n1 − 1) s12 + ( n2 − 1) s22
t= ∼ t( n1+ n2 −2 ) donde s2 =
1 1 2 ( n1 − 1) + ( n2 − 1)
( + )s
n1 n2

Este estadístico requiere de dos importantes supuestos: a) Normalidad y b) igualdad de varianzas.


Vamos a realizar una prueba de hipótesis para comprobar si se cumplen ambos:

a) Prueba de hipótesis para verificar normalidad de los datos:


H0: La variable se ajusta a una distribución normal
H1: La variable no se ajusta a una distribución normal
Nivel de significación del 10 %.

Shapiro-Wilks (modificado)
nivel Variable n Media D.E. W* p(Unilateral D)
1,00 faltas 25 8,96 2,82 0,97 0,9065
2,00 faltas 25 8,64 3,82 0,92 0,1932

Conclusión: Comparando el α=0,10 con el valor de p =0,9065, concluimos la variable


Faltas del nivel Inicial provienen de una población con distribución normal. Asimismo la
variable Faltas del Nivel primario se ajusta a una distribución normal (p=0,1932>0,10).

b) Prueba de hipótesis para verificar HOMOGENEIDAD DE VARIANZAS:


En este caso resulta importante probar si las varianzas poblaciones son iguales o
diferentes porque esto determina los grados de libertad del estadístico t para la prueba de
igualdad de medias que nos ocupa en esta actividad.
Entonces las hipótesis son:
H0: σ 12 = σ 22 vs H1: σ 12 ≠ σ 22
O también:
σ 12 σ 12
H0 : = 1 vs H 1 : ≠1
σ 22 σ 22
El estadístico y su distribución de probabilidad, bajo hipótesis nula cierta, es el siguiente:

8
Es posible calcular varianza común siempre que se verifique igualdad de varizanzas.

15
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

 σ 12  s2 2
F = 2  2
∼ F( n1−1),( n2 −1)
 σ 2  H 0 s1
σ 12
Como bajo la hipótesis nula = 1 entonces:
σ 22
s2 2
F Obs =
s12
Luego para buscar los puntos críticos:

1 1
F1* = F(24,24);(0,05) = = = 0,504
F(24, 24);(0,95) 1,984
F2* = F(24,24) ; (0,995) = 1,984 Función de densidad
F-Snedecor(24,24,0): p(evento)=0,1000
1,1

ZNR = {F / 0,504 ≤ F ≤ 1,984} 0,8

ZR = {F / F < 0,504 v F > 1,984}


Densidad

0,5

0,3

ZNR: 0,90

0,0
0,00 0,87 1,74 2,61 3,48
Variable

La evidencia muestral para tomar la decisión de rechazar o no la hipótesis nula es el


cociente de varianzas muestrales:
7,96
FObs = = 0,5463
14,57

Con Infostat: menú ESTADISTICAS → Inferencia basada en dos muestras


→ Prueba F para igualdad de Varianzas

16
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

Prueba F para igualdad de varianzas

Var Grupo(1) Grupo(2) n(1) n(2) Var(1) Var(2) F p prueba


faltas {1,00} {2,00} 25 25 7,96 14,57 0,55 0,1453 Bilat_

Decisión: con un nivel de significación del 10% no se rechaza la hipótesis nula y se concluye
que las varianzas poblaciones son iguales u homogéneas.

Ahora sí podemos continuar con la prueba de hipótesis para la diferencia de medias:

4) Con α=10%, se determinan las Zonas de Rechazo y No Rechazo

t* = t α Por ser una prueba Bilateral


( n1 + n2 − 2 );(1− )
2

t48;(0,95) = 1,677

Es decir que los puntos críticos son: t1* = −1,677 y t2* =1,677

Función de densidad
T Student(48): p(evento)=0,1000
0,40

0,30
Densidad

0,20

0,10

0,00
-5,11 -2,55 0,00 2,55 5,11
Variable

5) Calculamos el valor estadístico a partir de los datos muestrales (bajo hipótesis nula cierta
∆µ = 0

(n1 − 1) s12 + (n2 − 1) s22 (25 − 1)7,96 + (25 − 1)14, 57


s2 = =
(n1 − 1) + (n2 − 1) (25 − 1) + (25 − 1)
540, 72
s2 = = 11, 265
48

Luego, TObs:

17
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

(8,96 − 8, 64) − 0 0,32


tObs = =
1 1 0,9493
( + )11, 265
25 25
tObs = 0, 337

Decisión: El valor del estadístico observado pertenece a la Zona de NO rechazo


y con un nivel de significación del 10%, concluimos que el promedio de faltas del
personal docente del Nivel Inicial no es estadísticamente diferente del promedio
de faltas del Nivel primario.

Veamos ahora cómo obtener la salida correspondiente a esta prueba, con Infostat:

Los datos deben estar ubicados en dos columnas, una que contengan los valores de la variable “faltas”
y otra para “nivel”. Seleccione menú ESTADÍSTICAS → INFERENCIA BASADA EN DOS MUESTRAS →
PRUEBA T y en la ventana que aparece, en la solapa de Variables elegir la variable “faltas” y como
Criterio de clasificación, la variable “nivel”.

También se puede solicitar que muestre N obs, (Número de observaciones), Medias (medias
muestrales), Varianzas (varianzas muestrales), Diferencia (diferencia de medias muestrales), gl (grados
de libertad de la distribución del estadístico), p (valor p) y T (valor del estadístico T), En el caso que sea
de interés construir un intervalo de confianza para la diferencia de medias poblacionales hay que
elegir el nivel de confianza.

Prueba T para muestras Independientes


Clasif Variable Grupo1 Grupo2 n(1) n(2) Media(1) Media(2) Media(1)-Media(2) LI(95) LS(95) pHomVar T gl p-valor prueba
nivel faltas {1,0} {2,0} 25 25 8,96 8,64 0,32 -1,59 2,23 0,1453 0,34 48 0,7375 Bilat

18
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

Si se observa la Salida de Infostat como p=0,7375>α, no se rechaza la Hipótesis Nula de igualdad de


medias.

En la misma salida se observar el pHomVar que es el valor de probabilidad para la prueba de


“Homogeneidad de varianzas”. En este ejemplo, no se rechaza la hipótesis nula de homogeneidad de
varianzas (nivel de significación nominal indicado al solicitar la prueba t es =0.05). Dado que la prueba
de hipótesis indicó varianzas homogéneas, el estadístico T es el que presentamos antes, que se
distribuye con (n1+n2-2) gl . En cambio si el pHomVar hubiera resultado <5% , la prueba se ejecuta
igual pero con el estadístico T con ν grados de libertad.

3.2 Prueba para diferencia de medias (muestras apareadas)

La Prueba que ofrece Infostat es “Prueba para muestras apareadas” (es decir muestras dependientes)
y permite testear la hipótesis de igualdad de medias cuando se toman observaciones de a pares.
La prueba se basa en la distribución de la variable diferencia ( di ) entre los pares de observaciones. Se
puede realizar un contraste bilateral, unilateral derecho o unilateral izquierdo.
Bajo la hipótesis nula el estadístico sigue una distribución t de Student con n-1 grados de libertad,
donde “n” en este caso es la cantidad de pares de observaciones.

Resolvamos la Actividad N° 23: La Escuela de Graduados de la Facultad está invitando a los


profesionales a participar de su oferta académica (Maestrías y Postgrados) aduciendo que el
ingreso individual aumenta luego de realizar algún curso superior, Esta afirmación se basa en un
estudio realizado sobre 15 participantes de sus cursos a los que se les preguntó sus ingresos
mensuales antes y después de egresar, Con los datos obtenidos:

a) ¿Está en lo cierto la Escuela de Graduados?, Trabaje con α = 0,10


b) En caso afirmativo, ¿cuántos pesos más ganan los profesionales luego de graduarse, en
promedio?

Primero a partir de los pares de valores observados de cada egresado, generamos la variable,
luego las columnas auxiliares para calcular los cuadrados de los desvíos con respecto a la media
de la variable di :

Graduado $ antes $ después di [di-M(d)] [di-M(d)]²

1 900 1300 -400 -209,33 43.820,44

2 1260 1500 -240 -49,33 2.433,78

3 1750 1750 0 190,67 36.353,78

4 1100 1100 0 190,67 36.353,78

5 800 1100 -300 -109,33 11.953,78

19
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

6 2100 2100 0 190,67 36.353,78

7 1700 2000 -300 -109,33 11.953,78

8 1380 1500 -120 70,67 4.993,78

9 1000 1600 -600 -409,33 167.553,78

10 1550 1800 -250 -59,33 3.520,44

11 3500 3500 0 190,67 36.353,78

12 2600 2600 0 190,67 36.353,78

13 1250 1500 -250 -59,33 3.520,44

14 1450 1450 0 190,67 36.353,78

15 2100 2500 -400 -209,33 43.820,44

Σ -2860 0 511.693,33

Promedio -190,6667 0

Observación: para poder realizar esta prueba InfoStat requiere de un archivo con dos columnas: una
para las observaciones provenientes de la distribución 1 y otra para las de la distribución 2.

1) Hipótesis:

H 0 : µantes − µdespues = 0
H1 : µantes − µdespues < 0
O también:

H0 : D = 0
H1 : D < 0
Planteamos una prueba lateral izquierda porque la variable di fue definida cómo $antes-
$después y como se sospecha que luego de recibirse ganan más dinero. Se puede trabajar
definiendo la diferencia en forma inversa, pero la prueba se plantea como Lateral Derecha.

2) Estadístico de prueba y su distribución de probabilidad:

20
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

d − DH0
T= ∼ t( n ' −1)
Sd
n
donde :
n´ es la cantidad de pares observados
Sd
Sd = es el error estadar del estimador
n

3) Criterio de test:

Para obtener el punto crítico, con un nivel de significación del 10%:

Función de densidad
T Student(14): p(evento)=0,1000
0,39

0,29
Densidad

0,20

0,10

0,00
-5,00 -3,70 -2,40 -1,10 0,20 1,50 2,80 4,10 5,40
Variable

t * = −t14; 0,90 = −1,345

ZNR = {T / T ≥ -1,345}
ZR = {T / T > -1,345}

Para poder decidir, a partir de los datos de la muestra calculemos el Estadístico observado:

d − D0 190,667
TObs = = = 3,8626
Sd 191,20
n 15

CONCLUSION: El Tobs pertenece a la Zona de Rechazo, es decir que con una


significación del 10% concluimos que la afirmación de la Escuela de Graduados
es correcta.

21
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

Ahora veamos cómo obtener la salida con Infostat: crítico, con

Seleccione menú ESTADÍSTICAS → INFERENCIA BASADA EN DOS MUESTRAS → PRUEBA T


APAREADA y en la ventana que aparece elegir las variables $antes, y $despues. Marcando
Aceptar se abre la siguiente ventana y tildar :

En dicha ventana deberemos elegir el tipo de prueba (en nuestro caso unilateral izquierda),
También se puede solicitar que muestre N (número de casos o pares de observaciones), Medias
(medias muestrales), media (dif) (media muestral de la diferencia), DE(dif) (varianza muestral de
la diferencia), p (valor p) y T (valor del estadístico T), En el caso que sea de interés se puede
solicitar un intervalo de confianza, pero recordar que si la Prueba es LATERAL, el intervalo que se
calcula NO será un intervalo centrado.

Haciendo Aceptar obtendremos los siguientes resultados:


Prueba T (muestras apareadas)

Obs(1) Obs(2) N media(dif) DE(dif) T p(Unilateral I)


$ Antes $ Despues 15 -190,67 191,18 -3,86 0,0009

Como el valor p=0,0009 es menor que el nivel de significación seleccionado para la prueba (α
=0,10) la prueba sugiere el rechazo de la hipótesis nula, es decir podemos concluir que los
ingresos antes y después de graduarse NO son los mismos.

Por otra parte para obtener una estimación por intervalos para la diferencia podemos correr
nuevamente la prueba pero indicando Prueba=Bilateral y Tildamos Intervalo de Confianza de
90%, por ejemplo:

22
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

Prueba T (muestras apareadas)

Obs(1) Obs(2) N media(dif) DE(dif) LI(90%)) LS(90%)) T__


$ Antes $ Despues 15 -190,67 191,18 -277,61 -103,72 -3,86

INTERPRETACIÓN: Con una confianza del 90% la verdadera diferencia entre los ingresos de los
egresados (antes y después de graduarse) está contenida en el Intervalo (-103,73; -277,60)
SUPUESTOS para validar la prueba:

No debemos olvidar de verificar el supuesto de normalidad de la variable di

Q-Q Plot di

332.54 n= 15 r= 0.937 (di)


Cuantiles observados(di)

147.07

-38.40

-223.86

-409.33
-409.33 -223.86 -38.40 147.07 332.54
Cuantiles de una Normal(0.0033333,36550)

Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
di 15 3.3E-03 191.18 0.84 0.0185

¿Cuál es su opinión con respecto a esta salida? ¿Cómo afectaría a la conclusión obtenida en
la prueba de hipótesis sobre la diferencia de medias?

3.3 Prueba para diferencia de proporciones

El Infostat para esta prueba plantea que a hipótesis nula establece la igualdad de dos
proporciones poblacionales, para dos grupos independientes. La prueba se basa en el test
exacto de Fisher9. Para hacer la prueba no es necesario tener un archivo de datos, solo hay
que ingresar la información solicitada.
Por eso vamos a trabajar con la Actividad N° 24 desarrollando los pasos para la docimasia de
hipótesis y luego comparamos con la salida de Infostat.

En base a la información de la Encuesta Permanente de Hogares de la ciudad de Córdoba


correspondiente a Octubre de 2001, se ha planteado la hipótesis de que la proporción de
hombres que nunca asistió a la escuela es mayor que a la de las mujeres, Proporcionan los
9
NO estudiamos este test en el curso de Estadística II pero vamos a mostrar e interpretar el reporte que se
obtiene con el programa, notando que no hay grandes diferencias y se arriban a similares conclusiones.

23
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

siguientes datos del relevamiento muestral evidencia suficiente para sostener esta hipótesis
trabajando con un nivel de significación del 1 %?

Sexo
Modalidad Varón Mujer Total

Asiste 515 557 1072

Asistió 854 1024 1878

Nunca Asistió 170 155 325

Total 1539 1736 3275

Debemos probar si las proporciones de varones y mujeres que nunca asistieron a la escuela
son iguales con un nivel de significación del 1 %

1) Hipótesis

H 0 : Pvar ones − Pmujeres = 0


H1 : Pvar ones − Pmujeres > 0
Se cree que la proporción de Varones es mayor que la de mujeres por eso se plantea una
prueba Lateral Derecha.

2) Dedinir el estimador. El parámetro establecido en las hipótesis es una diferencia de


proporciones poblacionales y, por lo tanto, su mejor estimador puntual será la diferencia

de proporciones muestrales: Pˆvar ones − Pˆmujeres

3) Estadístico de prueba y su distribución. Si nP y nQ , ambos casos >5 entonces:

En principio sería:
( pv − pm ) − ( Pv − Pm ) H
Z= 0
∼ N (0,1)
PvQv PmQm
+
nv nm
Pero como Z está definido bajo H0 cierta, Pv-Pm=0, es decir que ambas proporciones poblacionales son
iguales, entonces podemos calcula una estimación de la proporción muestral “común” o p
amalgamado:

24
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

nv pˆ v + nm pˆ m
p=
nv + nm
EL p amalgamado resuelve de alguna manera el hecho de que en el denominador del estadístico
aparece el parámetro testeado.
En definitiva el estadístico que usaremos es:

( pˆ v − pˆ m ) − ( Pv − Pm ) H
Z= 0
∼ N (0,1)
pv (1 − pv ) pm (1 − pm )
+
nv nm

4) Con un nivel de significación igual a 1%, buscamos el punto crítico:

Z0,99= 2,326

ZNR = {Z / Z ≤ 2,326}

ZR = {Z / Z > 2,326}

5) El valor del estadístico observado, para poder decidir es:


170
pˆ v = = 0,1104
1539
155
pˆ m = = 0,0893
1736
(1539. 0,1104) + (1736.0,0893)
p=
1539 + 1736
p = 0,0992
q = 0,9008

Ahora el Zobs

Z Obs =
( 0,1104 − 0,0893)
0,0992.0,9008 0,0992.0,9008
+
1539 1736
Z Obs = 2,023

CONCLUSION: El ZObs pertenece a la Zona de NO Rechazo, es decir que


con una significación del 1% concluimos que la diferencia de proporción
de varones que nunca asistieron a la escuela no es mayor que la
proporción de mujeres e esa situación.
25
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013

Veamos ahora cómo realizar la prueba con Infostat: Seleccione menú ESTADÍSTICAS → INFERENCIA
BASADA EN DOS MUESTRAS → DIFERENCIA DE PROPORCIONES y en la ventana que aparece complete
las solapas con los tamaños de cada muestra y la cantidad de éxitos observados en ellas y calcular:

Como el valor p= 0,0464 es mayor que el nivel de significación seleccionado para la prueba (0,046452 >
0,01) la prueba sugiere el NO rechazo de la hipótesis nula.

26

Вам также может понравиться