Академический Документы
Профессиональный Документы
Культура Документы
Normalmente, en estadística, se trabaja con muestras debido a la gran cantidad de datos que
tiene una población. Por ejemplo, si queremos sacar conclusiones, esto es, inferir, los
resultados de las elecciones generales, es imposible preguntar a toda la población del país.
Para solventar ese problema se escoge una muestra variada y representativa. Gracias a la
cual se puedan extraer una estimación del resultado final. Escoger una muestra adecuada
corre a cargo de las distintas técnicas de muestreo.
Métodos de la inferencia estadística
Mejorar la estimación de los parámetros del modelo, utilizando métodos estadísticos más
eficaces.
Este texto se estudian los modelos estadísticos que estudian una variable utilizando su
relación con otras variables y/o factores. En particular se estudiarán los dos modelos
estadísticos más importantes y utilizados en la práctica,
Para que un método de inferencia estadística proporcione buenos resultados debe de:
Basarse en una técnica estadístico-matemática adecuada al problema y suficientemente
validada.
Población: es un conjunto homogéneo de individuos sobre los que se estudia una o varias
características que son, de alguna forma, observables.
Muestreo aleatorio simple: es aquel en el que todos los individuos de la población tienen
la misma probabilidad de ser elegidos.
por tanto
Si el estimador es insesgado
6. Estimador de la media poblacional, se utiliza la media muestral definida por
(1.
1)
(1.
2)
(1.
3)
(1.
4)
11.
Al realizar cualquier contraste de hipótesis estadístico se deben seguir las siguientes etapas:
(1.6)
una discrepancia grande, la que tiene una probabilidad muy pequeña de ocurrir
cuando H0 es cierto.
una discrepancia pequeña, la que tiene una probabilidad grande de ocurrir cuando H0 es
cierta.
4. Decidir que valores de d se consideran muy grandes, cuando H0 es cierto, para que
sean atribuibles al azar. Ésto es, decidir que discrepancias se consideran
inadmisibles cuando H0 es correcto, lo que equivale a indicar el valor del nivel de
significación, que se denota por .
5. Tomar la muestra ( ), calcular el valor del estadistico asociado a la muestra
(valor crítico del contraste) y analizar:
Situación real:
H0 es cierta H0 es falsa
Debe tenerse en cuenta que sólo se puede cometer uno de los dos tipos de error y, en la
mayoría de las situaciones, se desea controlar controlar la probabilidad de cometer un error
de tipo I.
(1.7)
0,4
D/H_0
f. densidad de D
0,3 D/H_1
0,2
0,1 E_ii
E_i
0
-4 -2 0 2 4 6
R. Aceptación 1.65 R.Rechazo
(1.8)
“La distribución del tamaño en Kb de los ficheros que resultan al digitalizar imágenes
con un determinado programa puede suponerse normal. El programa ha sido mejorado en
su última versión (versión B) hasta el punto de que quienes lo comercializan garantizan una
disminución en el tamaño medio de los ficheros resultantes superior a 6 Kb con respecto a
la versión anterior (versión A).
Estos resultados hicieron cambiar de idea a los responsables del centro y adquirieron la
nueva versión B.
¿Cómo es posible que con tan sólo 25 datos se haya cambiado de opinión si la
experiencia primera se realizó en base a un tamaño de muestra 22 veces superior?”
Solución:
(1.9)
Por tanto se acepta la hipótesis de igualdad de las varianzas de las dos muestras.
4
F_549,549
2 0'95
1
0'025 0'025
0
0,6 0,7
R. Rechazo 0,8
0'83 0,9 1
1'09 1,1 1,2 1,3
1'17 R. Rechazo
R. Aceptación
(1.11)
Si H0 es cierto, entonces
(1.12)
2 2 2 2
T es un estimador del parámetro A = B = , que viene dado por
(1.13)
(1.14)
0,4
0,3
t_1098
0,2 0'95
0,1
0'05
0
-4 -3 -2 -1 0 1 2 3 4
R. Aceptación 1'48 R. Rechazo
1'64
'
Como 1 = 1 488 no pertenece a la región de rechazo dada en se acepta la
hipótesis nula. Por consiguiente los datos muestrales no avalan que el tamaño medio
de los ficheros disminuye en más de 6 Kb como afirman los vendedores del nuevo
programa.
Tal y como se resolvió el problema hay un parámetro que no se controla, el error de tipo II,
ya que se desconoce la probabilidad de aceptar la hipótesis nula cuando es falsa.
Obviamente existe una relación entre los tres parámetros (n, y ( )), conocidos dos
de ellos se puede obtener el tercero:
n, tamaño muestral,
En este ejemplo puede suponerse que existe independencia entre las observaciones
muestrales y que no hay relación entre los dos grupos de 550 imágenes digitalizadas por
cada una de las dos versiones del programa. Por tanto se trata de dos muestras
independientes.
En la segunda experiencia que se propone los datos se han tomado apareados ya que se
han ejecutado las dos versiones del programa sobre las mismas imágenes, primero la
versión A y después la B. Por tanto hay independencia entre las observaciones de cada
muestra pero no entre las observaciones de una muestra respecto a la otra. Para resolver el
problema en este segundo contexto y evitar el problema de dependencia, se trabaja con la
variable diferencia del tamaño del fichero al digitalizar la imagen con la versión A del
programa y el tamaño del fichero al utilizar la versión B . Se calculan las
25 diferencias entre los tamaños de los ficheros resultantes y se obtiene una muestra única.
De la que se obtiene
El contraste es ahora
(1.15)
(1.16)
Bajo las hipótesis supuestas se verifica que la distribución de d3, cuando H0 es cierta, es una
distribución t
(1.17)
Obsérvese que también se rechazaría H0 con = 0'01 (de hecho el nivel crítico
es 0'003). La decisión de rechazo parece clara y con garantías, en contradicción con la
decisión de la primera experiencia.
0,4
Figura 1.6. Contraste sobre la media. Datos apareados.
(1.9)
La región crítica es el conjunto de valores para los cuales d es mayor o igual que el
valor crítico d .
Por tanto,
Comentarios:
1. El nivel crítico sólo puede calcularse una vez tomada la muestra, obteniéndose
niveles críticos distintos para cada muestra.
2. El nivel crítico p puede interpretarse como un nivel mínimo de significación en el
sentido de que niveles de significación iguales o superiores al p - valor llevarán
a rechazar la hipótesis nula.
Figura 1.7. Nivel crítico. Contraste unilateral sobre la media con = 0'84.
0,4
Figura 1.8. Nivel crítico. Contraste bilateral sobre la media con = 0'84.
Esto es,
donde
(1.10)
Comentarios:
(1.12)
El estadístico de contraste es
(1.13)
El estadístico de contraste es
(1.14)
Si H0 es cierto
N yN .
Se desea contrastar
El estadístico de contraste es
(1.15)
Si H0 es cierto
El estadístico de contraste es
(1.16)
siendo
(1.17)
(1.18)
Si H0 es cierto