Академический Документы
Профессиональный Документы
Культура Документы
ENSEÑANZA DE ESTADÍSTICA
BASICA CON “INFOSTAT”
ESTADÍSTICA INFERENCIAL:
ESTIMACIÓN POR INTERVALOS Y PRUEBA DE HIPÓTESIS
PARA UNA y DOS POBLACIONES
No hay que empezar siempre por la noción primera de las cosas que se estudian,
Aristóteles
1
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
INTRODUCCIÓN
La inferencia estadística comprende un conjunto de métodos mediante los cuales podemos hacer
afirmaciones respecto a una población completa a partir de la observación de una parte de ella, una
muestra.
Dos formas básicas para realizar inferencia estadística son la estimación de parámetros y las pruebas
de hipótesis.
OBJETIVOS
1
La versión estudiantil es libre y está disponible en la página: http://www.infostat.com.ar/, solicitar una clave
gratuita ingresando por la solapa “Versión Estudiantil”.
2
Balzarini M.G., González L., Tablada M., Casanoves F., Di Rienzo J.A., Robledo C.W. (2008). Manual del Usuario,
Editorial Brujas, Córdoba, Argentina.
2
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
1. ESTIMACIÓN DE PARÁMETROS
Existen dos tipos de estimación, la puntual que es de cálculo sencillo, pero es difícil que esta
estimación coincida con el verdadero valor del parámetro poblacional, aparte de no informar sobre el
error que cometemos. Otra forma es la estimación por intervalos que consiste en calcular a partir de
la muestra, un intervalo con una probabilidad dada (nivel de confianza) de contener el valor del
parámetro poblacional, informándonos del error.
InfoStat permite realizar estos dos tipos de estimaciones para los parámetros que sean de interés.
GRÁFICOS Q-Q plot variable: Vida Útil (en hs.) Distribución: Normal (tildar “Mostrar recta y=x).
GRÁFICOS Histograma variable: Vida Útil (en hs.) En la ventana “Herramientas gráficas”
Ajuste: Normal.
A partir del análisis gráfico podemos considerar los datos provienen de una población con distribución
normal, luego estamos en condiciones de construir el intervalo de confianza para el parámetro de
interés, en este caso, el promedio de horas de duración de los focos de la nueva marca. Para ello,
3
Se hace referencia a la Actividad 9 (pág. 27) del apunte de Estadística II del Ciclo Básico a Distancia.
3
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
En esta ventana, deberemos seleccionar la variable de interés, en nuestro caso “Vida Útil (en hs.)”. Al
presionar el botón Aceptar InfoStat activa el cuadro donde tildaremos el parámetro a estimar (media)
y el nivel de confianza elegido (95% en nuestro caso). Por defecto, trabajaremos con las opciones
estimación paramétrica y bilateral4.
4
A pesar de que en el curso no demostramos la conveniencia de construir intervalos simétricos cualquiera sea su
distribución, mencionamos que ello es conveniente a fin de minimizar la amplitud de los intervalos de estimación. Esa
simetría se entiende en el sentido de dejar fuera del intervalo que se construye igual probabilidad en cada cola. Por eso
siempre seleccionaremos “Bilateral” cuando estimemos intervalos de confianza para cualquier parámetro.
4
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
El software provee la estimación puntual de la media poblacional (en este caso la media muestral
4.010,80) y la estimación por intervalos. Los límites de confianza son obtenidos utilizando los cuantiles
de la distribución T de Student (como la varianza poblacional es desconocida el software la estima
desde la muestra). Dichos límites son calculados como 4010,80 +/- 2,262 x 70,18. Podemos concluir
con un 95% de confianza que el intervalo (3852,03; 4169,57) contiene el verdadero valor de la vida útil
promedio (en hs.) de los focos de la nueva marca en la población de la cual se extrajo la muestra.
Dado que nosotros utilizamos para construir intervalos de confianza para este parámetro poblacional P
(proporción de éxitos) la distribución asintótica normal de la proporción muestral.
Considerando esta aclaración, podremos realizar una lectura de una salida de intervalos de confianza
para la proporción, proporcionada por Infostat. Trabajamos con el archivo y la variable “Doncencia”
(debe estar definida cómo numérica). Mantenemos la opción Bilateral y en Éxitos se puede dejar
indicado >0 o indistindamente =1, para identificar el éxito que en este caso son los que elegirían ser
docentes.
Cuando se desea un intervalo para P (proporción de éxitos) y no se dispone de una variable de tipo
binaria, InfoStat permite definir el criterio para que el software pueda hacer dicotómica con el objetivo
obtener el intervalo de confianza para P. En “Éxito: valores…” Considera éxito valores: >, >=, <, <= o =
5
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
que un valor especificado por el usuario en el campo reservado para ingresar dicho valor. En nuestro
caso, consideraremos éxito a los valores de la variable “Docencia” > 0 (ó =1).
También es posible definir diferentes Niveles de confianza para la estimación, por ejemplo 99%:
En base a estas salidas podemos concluir con un 95% de confianza que el intervalo [0,29; 0,49]
contiene el verdadero valor de la proporción poblacional de estudiantes que se dedicarían a la
docencia luego de egresados. Por su parte, con un 99% de confianza el intervalo [0,26; 0,52] contiene
la verdadera proporción poblacional de estudiantes que se dedicarían a la docencia luego de
egresados. La precisión de la estimación se reduce al aumentar el nivel de confianza.
Para realizar una estimación por intervalos para la varianza poblacional usaremos los datos de la
Actividad 19 (pág. 33) del apunte de Estadística II del Ciclo Básico a Distancia. En esta actividad se
solicita un asesoramiento sobre el precio de las acciones de un banco, no sólo en su promedio de
cotización sino también respecto a su variabilidad. Se fija un nivel de confianza del 95%.
Para el Cálculo del intervalo del parámetro “media poblacional”, al desconocer la varianza poblacional,
el software la estima esta última con los datos de la muestra, y los límites de confianza son obtenidos
utilizando los cuantiles de la distribución T de Student.
Por su parte, en el caso de la estimación por intervalos para la varianza los límites de confianza son
obtenidos utilizando los cuantiles de la distribución Chi cuadrado.
En ambos casos deberemos probar previamente la normalidad de la variable en la población para
justificar el uso de los respectivos estadísticos a considerar en ambas estimaciones por intervalo.
Para ello realizamos análisis gráfico (Q-Q plot) y pruebas de normalidad (Shapiro Wilks5).
GRÁFICOS Q-Q plot variable: Cotización Distribución: Normal (tildar “Mostrar recta y=x).
5
Este test prueba la hipótesis nula de que la variable tiene distribución normal; se recomienda para muestras
pequeñas (n ≤ 50), mientras que el test de Kolmogorov-Smirnov se utiliza para muestras grandes.
6
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
Por ambos métodos concluimos que la variable tiene distribución normal en la población (No se
rechaza la hipótesis nula en el caso del test p-value > alpha.
Las medidas resumen de la variable mostrarán las estimaciones puntuales de los parámetro de interés,
entre otras medidas de utilidad.
ESTADÍSTICAS Medidas resumen variable: Cotización indicamos las medidas de interés.
7
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
Con un nivel de confianza del 95% el intervalo [$129,86; $136,65] contendrá el verdadero valor de
cotización media de las acciones del banco.
Por su parte, si queremos obtener un intervalo de confianza del 95% para la varianza poblacional de la
variable “cotización” seguiremos los mismos pasos seleccionando la varianza como parámetro de
interés, obteniendo el siguiente resultado:
ESTADÍSTICAS Inferencia basada en una muestra Intervalos de confianza variable: Cotización
Parámetro: Varianza.
Como se dijo previamente, en este caso los límites de confianza son obtenidos utilizando los cuantiles
de la distribución Chi cuadrado. Dichos límites son calculados como LI=64,74 x 23/38,08 y LS= 64,74 x
23/11,69. Podemos concluir con un 95% de confianza que el intervalo (39,11; 127,40) pesos2 contiene
el verdadero valor de la varianza de la cotización de las acciones en la población de la cual se extrajo la
muestra.
8
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
Cabe aclarar que InfoStat, a efectos de decidir si se rechaza o no la hipótesis nula, provee el valor p
para una prueba bilateral, p(Bilateral), o el valor p para pruebas unilaterales derecha, p(Unilateral D), o
izquierda, p(Unilateral I), según se especifique. Cuando el valor p es menor o igual que el nivel de
significación seleccionado para la prueba (p ≤ α), el estadístico pertenece a la región de rechazo, es
decir la prueba sugiere el rechazo de la hipótesis nula.
Para la media poblacional, Infostat sólo cuenta con la “Prueba T para una media”. Permite probar
hipótesis unilaterales o bilaterales, sobre el valor de la esperanza de una variable aleatoria. La prueba
utiliza una estimación de la varianza de la variable respuesta.
El estadístico de la prueba, bajo la hipótesis nula, sigue una distribución t de Student con n-1 grados
x − µ0
de libertad. Es decir que el estadístico que subyace en el test es: t = ∼ t( n−1)
s/ n
¿Bajo qué condiciones simultáneas utilizamos este estadístico?
• Población normal. Por lo tanto habrá que verificar si podemos suponer normalidad.
Analizamos gráficamente y realizamos uno prueba de hipótesis por ejemplo (Shapiro-Wilks o
Kolmogorov)
• Varianza Poblacional es desconocida.
• Aplicable para cualquier tamaño de muestra
Para resolver la Actividad N° 6 de la Guía a Distancia podemos trabajar con esta prueba, para inferir
sobre la efectividad de la oferta de cortadoras de césped implementada. Se supone que tras la
aplicación de la oferta el promedio de cortadoras vendidas por sucursal haya aumentado y esto es lo
que pretendemos probar. Hasta ahora el promedio era de 5 máquinas y no se informa nada sobre el
desvío estándar poblacional. Vamos a trabajar un nivel de significación del 5 %.
Previamente obtengamos un Resumen con las principales medidas descriptivas, con el menú
ESTADISTICAS → Medidas de resumen… y seleccionar la variable “cortadoras”:
Medidas resumen
Variable n Media D.E. Var(n-1) Mín Máx Asimetría Kurtosis
cortadoras 10 7,00 2,00 4,00 3,00 10,00 -0,63 -0,13
9
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
1) Las hipótesis deben plantearse considerando una prueba lateral derecha debido a que se
sospecha (se espera) que la cantidad promedio por sucursal haya aumentado. Esta situación
debe reflejarse en la Hipótesis alternativa, es decir que H1 es la que indica el sentido de la
prueba:
H0: μ = 5 máquinas
H1: μ > 5 máquinas
n
∑x
i =1
i
2) El estimador de μ es: x =
n
• ¿Población normal? No sabemos, por lo tanto habrá que verificar si podemos suponer
normalidad. Analizamos gráficamente y realizamos uno prueba de hipótesis para verificar:
Análisis gráfico para verificar normalidad de los datos:
Q-Q Plot : cortadoras
8,32
6,55
4,77
3,00
3,00 4,77 6,55 8,32 10,09
Cuantiles de una Normal(7,4)
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
cortadoras 10 7,00 2,00 0,96 0,8850
10
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
Entonces están dadas las condiciones para seleccionar el estadístico para la prueba de hipótesis sobre
x − µ0
la media: t= ∼ t( n−1)
s/ n
4) Con un nivel de significación del 5%, determinamos el punto crítico y delimitamos zonas de
rechazo y no rechazo de la Hipótesis Nula:
t( n−1);(1−α ) = t9;(0,95)
t * = 1,83
Este valor se puede obtener mediante el Calculador de probabilidades y cuantiles, en el menú
ESTADISTICAS → Probabilidades y Cuantiles… Allí elegir la distribución T Student, grados de libertad
v=(n-1)=9, y como la prueba es lateral derecha habrá un solo punto crítico que deja el nivel de
significación en la cola derecha de la distribución (5%):
11
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
Función de densidad
T Student(9): p(evento)=0,0500
0,39
0,29
Densidad
0,19
ZNR ZR
0,10
0,00
-5,67 -2,83 0,00 2,83 5,67
Variable
Ahora con los datos de la muestra calculemos el valor observado del Estadístico:
x − µ0 7−5
tObs = = = 3,16
s / n 2 / 10
Decisión: El estadístico observado resultó mayor que el valor crítico, por lo tanto
se rechaza H0. Es decir que el promedio de máquinas vendidas por sucursal es
mayor que 5, con un nivel de significación del 5%. Se pude afirmar que la oferta
resultó efectiva.
Ahora vamos a presentar una manera alternativa, y por supuesto más sencilla de obtener con el
Infostat el criterio para decidir si rechazamos o no H0. Seleccione menú ESTADÍSTICAS → INFERENCIA
BASADA EN UNA MUESTRA → PRUEBA T PARA UNA MEDIA y en la ventana que aparece elija la
variable Cortadoras. Marcando Aceptar se abre la siguiente ventana:
En dicha ventana deberemos elegir el tipo de prueba (en nuestro caso lateral derecha), especificar el
valor de parámetro según la hipótesis nula. Destildamos la opción Intervalo de Confianza6.
6
En este curso sólo vamos a trabajar con Intervalos de Confianza centrados, por lo tanto recomendamos no tildar la opción
cuando se soliciten pruebas laterales.
12
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
Aquí podemos concluir a partir del estadístico observado T=3,16 buscando el valor crítico o
directamente con el valor de probabilidad.
Antes de concluir analicemos gráficamente qué implica rechazar o no la H0 a partir del p-valor:
¡La Oferta fue efectiva! Pero ¿Cuántas máquinas cortadoras en promedio se vende ahora?
El rechazo de la Hipótesis nula nos está informado que ahora el promedio es mayor que 5, pero no la
magnitud de la nueva media poblacional. Por eso resulta útil obtener una estimación por intervalo
para µ.
Bilateral
Estimación paramétrica
Variable Parámetro Estimación E.E. n LI(95%)) LS(95%))
cortadoras Media 7,00 0,63 10 5,57 8,43
Conclusión: Con un nivel de confianza del 95%, el intervalo [5,57; 8,43] contiene
al verdadero promedio de máquinas vendidas por sucursal.
13
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
En esta sección, vamos a comparar parámetros de dos poblaciones, medias, varianzas y proporciones.
Tomaremos como ejemplos para explicar los pasos a seguir en el Infostat ejercicios de la Guía a
Distancia de Estadística II.
El programa dispone de una Prueba la hipótesis sobre la esperanza de la variable aleatoria definida
como la diferencia de las medias. Se suponen muestras aleatorias independientes de distribuciones
normales con varianza común. Por otra parte se puede solicitar el cálculo del estadístico que
contemple el caso de varianzas heterogéneas y seleccionar el nivel de significación para la prueba de
varianzas. Además puede obtenerse el intervalo de confianza para la diferencia de las medias
poblacionales seleccionando el nivel de confianza.
Comenzamos, comparando dos medias poblacionales, tomando muestras independientes. En primer
lugar planteamos la prueba de hipótesis para la diferencia de medias con muestras independientes y
luego estimamos la verdadera diferencia poblacional. Trabajaremos paso a paso, y luego mostramos la
salida completa.
Previamente debemos comprobar que las variables tengan distribución normal. Además verificar si las
varianzas poblacionales son conocidas o desconocidas. En este último caso habrá que inferir si
podemos suponer que son iguales o distintas7. Es importante verificar que se cumplan los supuestos
para validar las conclusiones finales.
Supongamos ahora que queremos probar si el nivel de ausentismo de docentes de Nivel inicial es
diferente con respecto a docentes de nivel primario (Actividad 19). Planteamos un nivel de
significación del 10%.
Primero obtenemos la estadística descriptiva de ambas muestras:
Seleccione menú ESTADÍSTICAS → MEDIDAS RESUMEN. En variables considere “faltas” y particionar
por “nivel”.
Medidas resumen
nivel Variable n Media D.E. E.E. Mín Máx
1,00 faltas anuales 25 8,96 2,82 0,56 3,00 15,00
2,00 faltas anuales 25 8,64 3,82 0,76 0,00 14,00
1) Hipótesis:
H 0 : µ1 − µ2 = 0
H1 : µ1 − µ 2 ≠ 0
O también:
7
Si se rechaza la igualdad de varianzas igualmente podremos realizar la prueba pero en el estadístico intervienen
las dos varianzas muestrales y cambian los grados de libertad. Ver punto 9 del Cap I
14
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
H 0 : µ1 = µ 2
H1 : µ1 ≠ µ 2
( X 1 − X 2 ) − ( µ1 − µ 2 ) H 0 ( n1 − 1) s12 + ( n2 − 1) s22
t= ∼ t( n1+ n2 −2 ) donde s2 =
1 1 2 ( n1 − 1) + ( n2 − 1)
( + )s
n1 n2
Shapiro-Wilks (modificado)
nivel Variable n Media D.E. W* p(Unilateral D)
1,00 faltas 25 8,96 2,82 0,97 0,9065
2,00 faltas 25 8,64 3,82 0,92 0,1932
8
Es posible calcular varianza común siempre que se verifique igualdad de varizanzas.
15
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
σ 12 s2 2
F = 2 2
∼ F( n1−1),( n2 −1)
σ 2 H 0 s1
σ 12
Como bajo la hipótesis nula = 1 entonces:
σ 22
s2 2
F Obs =
s12
Luego para buscar los puntos críticos:
1 1
F1* = F(24,24);(0,05) = = = 0,504
F(24, 24);(0,95) 1,984
F2* = F(24,24) ; (0,995) = 1,984 Función de densidad
F-Snedecor(24,24,0): p(evento)=0,1000
1,1
0,5
0,3
ZNR: 0,90
0,0
0,00 0,87 1,74 2,61 3,48
Variable
16
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
Decisión: con un nivel de significación del 10% no se rechaza la hipótesis nula y se concluye
que las varianzas poblaciones son iguales u homogéneas.
t48;(0,95) = 1,677
Es decir que los puntos críticos son: t1* = −1,677 y t2* =1,677
Función de densidad
T Student(48): p(evento)=0,1000
0,40
0,30
Densidad
0,20
0,10
0,00
-5,11 -2,55 0,00 2,55 5,11
Variable
5) Calculamos el valor estadístico a partir de los datos muestrales (bajo hipótesis nula cierta
∆µ = 0
Luego, TObs:
17
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
Veamos ahora cómo obtener la salida correspondiente a esta prueba, con Infostat:
Los datos deben estar ubicados en dos columnas, una que contengan los valores de la variable “faltas”
y otra para “nivel”. Seleccione menú ESTADÍSTICAS → INFERENCIA BASADA EN DOS MUESTRAS →
PRUEBA T y en la ventana que aparece, en la solapa de Variables elegir la variable “faltas” y como
Criterio de clasificación, la variable “nivel”.
También se puede solicitar que muestre N obs, (Número de observaciones), Medias (medias
muestrales), Varianzas (varianzas muestrales), Diferencia (diferencia de medias muestrales), gl (grados
de libertad de la distribución del estadístico), p (valor p) y T (valor del estadístico T), En el caso que sea
de interés construir un intervalo de confianza para la diferencia de medias poblacionales hay que
elegir el nivel de confianza.
18
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
La Prueba que ofrece Infostat es “Prueba para muestras apareadas” (es decir muestras dependientes)
y permite testear la hipótesis de igualdad de medias cuando se toman observaciones de a pares.
La prueba se basa en la distribución de la variable diferencia ( di ) entre los pares de observaciones. Se
puede realizar un contraste bilateral, unilateral derecho o unilateral izquierdo.
Bajo la hipótesis nula el estadístico sigue una distribución t de Student con n-1 grados de libertad,
donde “n” en este caso es la cantidad de pares de observaciones.
Primero a partir de los pares de valores observados de cada egresado, generamos la variable,
luego las columnas auxiliares para calcular los cuadrados de los desvíos con respecto a la media
de la variable di :
19
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
Σ -2860 0 511.693,33
Promedio -190,6667 0
Observación: para poder realizar esta prueba InfoStat requiere de un archivo con dos columnas: una
para las observaciones provenientes de la distribución 1 y otra para las de la distribución 2.
1) Hipótesis:
H 0 : µantes − µdespues = 0
H1 : µantes − µdespues < 0
O también:
H0 : D = 0
H1 : D < 0
Planteamos una prueba lateral izquierda porque la variable di fue definida cómo $antes-
$después y como se sospecha que luego de recibirse ganan más dinero. Se puede trabajar
definiendo la diferencia en forma inversa, pero la prueba se plantea como Lateral Derecha.
20
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
d − DH0
T= ∼ t( n ' −1)
Sd
n
donde :
n´ es la cantidad de pares observados
Sd
Sd = es el error estadar del estimador
n
3) Criterio de test:
Función de densidad
T Student(14): p(evento)=0,1000
0,39
0,29
Densidad
0,20
0,10
0,00
-5,00 -3,70 -2,40 -1,10 0,20 1,50 2,80 4,10 5,40
Variable
ZNR = {T / T ≥ -1,345}
ZR = {T / T > -1,345}
Para poder decidir, a partir de los datos de la muestra calculemos el Estadístico observado:
d − D0 190,667
TObs = = = 3,8626
Sd 191,20
n 15
21
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
En dicha ventana deberemos elegir el tipo de prueba (en nuestro caso unilateral izquierda),
También se puede solicitar que muestre N (número de casos o pares de observaciones), Medias
(medias muestrales), media (dif) (media muestral de la diferencia), DE(dif) (varianza muestral de
la diferencia), p (valor p) y T (valor del estadístico T), En el caso que sea de interés se puede
solicitar un intervalo de confianza, pero recordar que si la Prueba es LATERAL, el intervalo que se
calcula NO será un intervalo centrado.
Como el valor p=0,0009 es menor que el nivel de significación seleccionado para la prueba (α
=0,10) la prueba sugiere el rechazo de la hipótesis nula, es decir podemos concluir que los
ingresos antes y después de graduarse NO son los mismos.
Por otra parte para obtener una estimación por intervalos para la diferencia podemos correr
nuevamente la prueba pero indicando Prueba=Bilateral y Tildamos Intervalo de Confianza de
90%, por ejemplo:
22
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
INTERPRETACIÓN: Con una confianza del 90% la verdadera diferencia entre los ingresos de los
egresados (antes y después de graduarse) está contenida en el Intervalo (-103,73; -277,60)
SUPUESTOS para validar la prueba:
Q-Q Plot di
147.07
-38.40
-223.86
-409.33
-409.33 -223.86 -38.40 147.07 332.54
Cuantiles de una Normal(0.0033333,36550)
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
di 15 3.3E-03 191.18 0.84 0.0185
¿Cuál es su opinión con respecto a esta salida? ¿Cómo afectaría a la conclusión obtenida en
la prueba de hipótesis sobre la diferencia de medias?
El Infostat para esta prueba plantea que a hipótesis nula establece la igualdad de dos
proporciones poblacionales, para dos grupos independientes. La prueba se basa en el test
exacto de Fisher9. Para hacer la prueba no es necesario tener un archivo de datos, solo hay
que ingresar la información solicitada.
Por eso vamos a trabajar con la Actividad N° 24 desarrollando los pasos para la docimasia de
hipótesis y luego comparamos con la salida de Infostat.
23
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
siguientes datos del relevamiento muestral evidencia suficiente para sostener esta hipótesis
trabajando con un nivel de significación del 1 %?
Sexo
Modalidad Varón Mujer Total
Debemos probar si las proporciones de varones y mujeres que nunca asistieron a la escuela
son iguales con un nivel de significación del 1 %
1) Hipótesis
En principio sería:
( pv − pm ) − ( Pv − Pm ) H
Z= 0
∼ N (0,1)
PvQv PmQm
+
nv nm
Pero como Z está definido bajo H0 cierta, Pv-Pm=0, es decir que ambas proporciones poblacionales son
iguales, entonces podemos calcula una estimación de la proporción muestral “común” o p
amalgamado:
24
Enseñando Estadística con Infostat
Facultad de Ciencias Económicas - UNC - 2013
nv pˆ v + nm pˆ m
p=
nv + nm
EL p amalgamado resuelve de alguna manera el hecho de que en el denominador del estadístico
aparece el parámetro testeado.
En definitiva el estadístico que usaremos es:
( pˆ v − pˆ m ) − ( Pv − Pm ) H
Z= 0
∼ N (0,1)
pv (1 − pv ) pm (1 − pm )
+
nv nm
Z0,99= 2,326
ZNR = {Z / Z ≤ 2,326}
ZR = {Z / Z > 2,326}
Ahora el Zobs
Z Obs =
( 0,1104 − 0,0893)
0,0992.0,9008 0,0992.0,9008
+
1539 1736
Z Obs = 2,023
Veamos ahora cómo realizar la prueba con Infostat: Seleccione menú ESTADÍSTICAS → INFERENCIA
BASADA EN DOS MUESTRAS → DIFERENCIA DE PROPORCIONES y en la ventana que aparece complete
las solapas con los tamaños de cada muestra y la cantidad de éxitos observados en ellas y calcular:
Como el valor p= 0,0464 es mayor que el nivel de significación seleccionado para la prueba (0,046452 >
0,01) la prueba sugiere el NO rechazo de la hipótesis nula.
26