Академический Документы
Профессиональный Документы
Культура Документы
IBAGUÉ
FEBRERO 2014
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA 2
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
COMITE DIRECTIVO
Gloria Herrera
Vicerrector de Medios y mediaciones Pedagógicos
Inferencia Estadística
Tercera Versión
Actualización por Jeammy Julieth Sierra Hernández
Copyright
Universidad Nacional Abierta y a Distancia
ISBN
2012
OBJETIVOS ESPECÍFICOS:
Que el estudiante identifique las técnicas y procedimientos que se
deben emplear para que las muestras sean representativas de la población
que se pretende estudiar, de forma que los errores en la determinación de
los parámetros de la población objeto de estudio sean mínimos.
Conocer los criterios técnicos que hay que tener en cuenta antes
de seleccionar un tamaño de muestra.
UNIDADES DIDÁCTICAS
UNIDAD DOS:
Introducción
Objetivo general.
Objetivos específicos.
Conceptos Básicos
16.1. Hipótesis
Este es uno de los aspectos más útiles de la inferencia estadística, puesto que
muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el
mundo de la ingeniería, pueden formularse como problemas de prueba de
hipótesis. Consultado en la Web de ITC (s.f).
Otras definiciones
Otras definiciones
Pasos en una prueba de hipótesis
PRUEBAS DE
HIPÓTESIS
Cuando se tiene una hipótesis esta puede ser verdadera o falsa y la decisión que
se toma en la prueba es aceptar o rechazar la hipótesis. Si la decisión que se
toma está de acuerdo con la realidad no se cometen errores, en este caso las
dos buenas decisiones son: aceptar la hipótesis nula cuando es cierta o rechazar
la hipótesis nula cuando es falsa.
El p-valor
Pruebas bilaterales.
Pruebas unilaterales
Prueba de hipótesis:
𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑥
𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑥
Prueba de hipótesis:
𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 ≤ 𝑥
𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑥
Prueba de hipótesis:
𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 ≥ 𝑥
𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 < 𝑥
Ho
Verdadera)
Probabilidad
1
/2 /2
valor crítico Valor crítico
Región de rechazo Región de aceptación Región de rechazo
Ho
Probabilidad
(Verdadera)
1
Valor crítico
Región de rechazo Región de aceptación
Ho
Probabilidad
(verdadera)
1
Valor crítico
Región de aceptación Región de rechazo
Muestra grande ( ≥ )
Planteamiento de hipótesis:
H 0 : 0
H1 : 0
̅−
√
Ecuación No.1
Ejemplo
En los intervalos de confianza el alfa siempre se divide en
dos, para distribuirlo en las dos colas, en las pruebas de
hipótesis el alfa sólo se divide, si la prueba es a dos colas
Prueba de
hipótesis para la
media (Bilateral)
Se concluye que el llenado de los envases cumple con las políticas generales de
la empresa, y la diferencia de promedios se atribuye a variaciones aleatorias.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
18
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Con anterioridad de dijo que la hipótesis alternativa indica una dirección ya sea
“mayor que” o “menor que”, la prueba es de una cola. El procedimiento para
demostrar la hipótesis es por lo general igual a la prueba de dos colas, excepto
que el valor crítico es diferente. Ahora se modificará la hipótesis alternativa del
problema anterior, sobre el llenado de los envases de una factoría de coca cola,
pues se sospecha que el promedio de llenado está por encima de lo que la
empresa determina (por eso en la hipótesis alterna se plantea una relación mayor
que).
H 0 : 200
H1 : 200
Prueba de
hipótesis para la
media (unilateral)
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
19
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
̅−
√
Ecuación No.2
Ejemplo
Una cadena grande de almacenes expide su propia tarjeta de crédito y Ud. desea
saber si los saldos promedios por créditos de los clientes son mayores que 400
unidades monetarias. El nivel de significancia se fija en 0.05. Una revisión
aleatoria de 172 clientes, reveló que el promedio por crédito de los clientes es de
407 unidades monetarias y la desviación estándar de la muestra es de 38
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
20
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
unidades monetarias. ¿Concluye UD. que la media poblacional es mayor que 400
unidades monetarias?
H 0 : 400
H1 : 400
Dado que la hipótesis alternativa se enuncia “mayor que”, se aplica una cola a la
derecha, y como la muestra es grande (n >= 30), se aplica la distribución normal
estandarizada en Z.
X 407 400
Z 2.42
S 38
n 172
Ho (verdadera)
1- =0,95 = 0,05
Unidades
monetarias de
200
crédito
|1,645 |2.42 Escala Z
La decisión a tomar por Ud. es que el promedio de los créditos es mayor que 400
unidades monetarias con un grado de confianza del 95%.
Ecuación No.3
Ejemplo
Se plantea la hipótesis nula (Ho) que no existe diferencia entre las resistencias
medias a la compresión de los bloques de concreto. La hipótesis alternativa se
plantea en términos que hay alguna diferencia significativa entre las dos
resistencias medias a la compresión. Simbólicamente se expresa así:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
22
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
H0 : A B
H1 : A B
Dado que la hipótesis alternativa no indica una dirección específica, la prueba es
de dos colas
Suponga que Ud. Seleccionó una muestra de cada una de las empresas licitantes
y determinó la resistencia a la compresión, con los siguientes resultados:
Licitante A Licitante B
X = 1.070 X = 1.020
n = 81 n = 64
S = 63 S = 57
X1 X 2 1.070 1.020 50
Z 5.01
S
1
2
S 2
2 63 2
57 2
9.98827
n1 n2 81 64
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
23
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Ho (Verdadera)
Probabilidad
0.01/2= 0.005
0.01/2=0.005
Resistencia ladrillos
( ̅1 −̅2 )−( 1 − 2 )
̅̅̅̅ ̅̅̅̅
2 2
√ 1 2
1 2
Ecuación No.5
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
24
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Ejemplo
Si − <
Recuerde que
< entonces No se rechaza
es el estadístico de prueba (o calculado)
− ≥1
− <1
Comunidad 1 Comunidad 2
̅̅̅̅ ̅̅̅
2
̅ − ̅ ( − )−1
−1 19
2 2 2 2
√ 1 2 √1 2
1 2
Ho
Probabilidad
(Verdadera)
= 0.05
Por lo tanto, con una confiabilidad del 95 por ciento, la diferencia entre el ingreso
promedio por hogar en las dos comunidades es mayor a $1.500 diarios.
Para demostrar una proporción muestral se requiere cumplir con ciertos principios
binomiales, tales como:
PP
Z
P(1 P)
n
Ecuación No.6
Dónde:
P es la proporción muestral.
P es la proporción poblacional.
n es el tamaño de la muestra.
X n p
Z
n p q
Ecuación No.7
Dónde:
Suponga que para que lo elijan a Ud. como alcalde, es necesario que logre al
menos el 80% de los votos del barrio donde vive. Dado su interés decide hacer
una encuesta en el barrio con una muestra de 2.000 personas, para ver la
posibilidad y 1.550 dieron respuesta favorable por sus aspiraciones. Pruebe la
hipótesis de favorabilidad, con un nivel de significancia del 0.05.
Ho : P 0.80
H1 : P 0.80
PP
Z
P(1 P)
n
Dónde:
P es la proporción muestral.
P es la proporción poblacional.
n es el tamaño de la muestra.
P(1 P)
P Es el error estándar de la proporción poblacional.
n
1.550
0.80
PP 2.000 0.775 0.80 0.025
Z 2.80
P(1 P) 0.80(1 0.80) 0.00008 0.0089443
n 2.000
Ejemplo
Probar al nivel de significancia del 0.01 la aseveración que el 55% de las familias
que planean adquirir una residencia en Melgar desea su ubicación en un
condominio. Para su estudio Ud. toma una muestra aleatoria de 400 familias que
planean comprar una residencia en Melgar, de las cuales 228 familias desean en
un condominio.
La hipótesis nula se plantea diciendo que el 55% de las familias desean adquirir
residencia en un condominio en Melgar.
Ho : P 0.55
H1 : P 0.55
PP
280 0.55 0.02
Z 400 0.80
P(1 P) 0.55(1 0.55) 0.0248747
n 400
( P1 P2 ) P1 P2
Z
PC (1 PC ) PC (1 PC )
n1 n2
Ecuación No.8
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
31
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Dónde:
Ejemplo
Ho : P1 P2
H1 : P1 P2
Los planes son tomar una muestra al azar de 100 mujeres jóvenes designada por
n subuno y una muestra de 200 mujeres mayores designada como n subdos. Los
resultados una vez hecha el experimento dio los siguientes resultados: de las 100
mujeres jóvenes 20 eligieron el nuevo perfume, designando este valor como X
subuno; y de las 200 mujeres maduras 100 prefirieron el nuevo perfume,
designando este valor como X subdos.
X1 X 2 20 100 120
PC 0.40
n1 n2 100 200 300
P1 P2
20 100 0.30
Z 100 200 5.0
PC (1 PC ) PC (1 PC ) 0.40(1 0.40) 0.40(1 0.40) 0.06
n1 n2 100 200
Ejemplo
Dos lotes de frutas conformados cada uno por 250 unidades son tratados y
almacenados en iguales condiciones salvo que el lote No 1 está a temperatura
ligeramente inferior que el lote No 2. Pasado un tiempo se encuentra que el lote
No 1 hay 225 frutas sanas y en el lote No 2 hay 200 sanas. Probar la hipótesis que
la temperatura más baja favorece la conservación de las frutas al nivel de
significación de 0.05.
Ho : P1 P2
H1 : P1 P2
X 1 X 2 225 200
PC 0.85
n1 n2 250 250
Ahora veamos el caso en que las muestras son pequeñas, n 30 , pero donde la
distribución muestral del estadístico de prueba se puede aproximar a una
distribución t student. Dicha aproximación es posible cuando los valores
subyacentes de la población son casi normalmente distribuidos, y cuando
intervienen poblaciones donde las desviaciones estándar, aunque desconocidas,
se sabe que son iguales. Habiendo estudiado pruebas para muestras grandes con
todo detalle, podemos restringirnos a ejemplos en donde se aplique este tipo de
distribución.
Ejemplo
un nivel del 1% de significancia, se concluye que los costos para los tramites de
seguros de accidente no se han disminuido y se mantiene a un nivel promedio de
costo de 60 unidades monetarias.
Ejemplo
Elemento 1 2 3 4 5 6 7 8 9 10 11 12
Medida 42 39 42 45 43 40 39 41 40 42 43 42
X
t
S
n
X X X
2
498 35
X 41.5 S 1.78
n 12 n 1 11
X 41.5 43.0
t 2.92
S 1.78
n 12
Una prueba que utiliza la distribución t también puede aplicarse para comparar dos
medias muestrales que tienen las siguientes características:
( X 1 X 2 ) 1 2
t
S12 n1 1 S 22 n2 1 1 1
n1 n2 2 n1 n2
Ecuación No.9
Dónde:
Ejemplo
4 7
9 5
3 8
2 4
Para el cálculo del estadístico de prueba se requiere estimar las medias de los
grupos y sus varianzas, los cuales se presentan en el siguiente cuadro:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
40
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Tabla No.6. Resultados para los grupos de estudiantes
Grupo estudiantes a distancia Grupo presencial
Media = 4 Media = 5
Muestra = 5 Muestra = 6
X1 X 2 45
t 0.6620
S 2
n1 1 S n2
2
1 1 1 8.55 1 4.46 1 1 1
5 6
1 2
562
n1 n2 2 n1 n2
Gráfico No. 15. Prueba Bilateral (a dos colas). Diferencia de dos medias
La característica principal para aplicar este tipo de prueba, es que las muestras
sean dependientes y el tamaño de cada muestra sea inferior a 30 elementos
seleccionados.
Ejemplo
Antes 128 105 119 140 98 123 127 115 122 145
Después 135 110 131 142 105 130 131 110 125 149
En estas condiciones hay un par de índices de eficiencia para cada miembro del
grupo, antes y después del curso,; éste conjunto de pares es lo que se denomina
muestra por pares. La prueba de hipótesis que se realiza para determinar si hay
diferencia entre los índices antes y después del curso de nivelación, es lo que
denomina prueba de diferencia por pares. Obsérvese que las dos muestras, una
antes y una después, dependen entre sí, debido a que los mismos alumnos están
en ambas pruebas, por tanto son dependientes.
Ho : d 0
H1 : d 0
La hipótesis nula plantea que no hay diferencia de eficiencia después del curso. La
hipótesis alternativa plantea que el programa de nivelación mejoró el nivel de los
estudiantes.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
42
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
d
t
Sd
n
Ecuación No.10
Dónde:
d
d 46 4.60
n 10
d
d n
462
2
2
386
Sd 10 4.40
n 1 10 1
El valor crítico de t para esta prueba de una cola a la derecha, es 1.833 que se
obtiene en la tabla de la distribución “t” (anexo D), ubicando en la columna de la
izquierda 9 grados de libertad y recorriendo a la derecha hasta la columna de una
cola con 0.05 nivel de significancia. En la siguiente gráfica se indica lo expuesto:
Gráfico No. 16. Prueba unilateral superior (cola derecha). Prueba de hipótesis por pares
Su utilidad radica en determinar si una población normal tiene más variación que
otra población que se considera también normal. Como ejemplo se pueden
mencionar, si dos máquinas dedicadas a producir cierto artículo de precisión
pueden ser confiables en el control de calidad, es decir, el producto tiene el mismo
largor, el mismo diámetro y las variaciones presentadas son similares.
Ejemplo
Tipo A 56 12 7
Tipo B 58 5 8
Ho : 12 22
H1 : 12 22
hipótesis alternativa.
0.10 0.05
2 2 .
Ejercicios propuestos
A continuación se proponen dos ejercicios para que los desarrolle aplicando las
sugerencias propuestas:
a. Que es mayor de ½.
b. Que es menor de ½.
c. Que es diferente de ½.
Sugerencia:
X
Utilizar el siguiente estadístico de prueba: t S
n
Un ensayo unilateral con cola a la izquierda con un nivel significativo de 0.01 el
valor crítico con 7 grados de libertad es igual a –3.0
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
47
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Introducción.
Cuando se desea conocer la homogeneidad que existe entre tres o más medias
muestrales, se procede a determinar la variabilidad entre esas medias, técnica que
se conoce como “análisis de varianza”. Es decir, cuando productos o individuos
son sometidos a tratamientos determinados para ver cómo éstos influyen en
resultados o comportamientos, lo más aconsejable es utilizar la técnica de análisis
de varianza.
El objetivo del análisis de varianza es determinar cuáles son las variables
independientes de importancia en un estudio, y en qué forma interactúan y afectan
la respuesta.
ANALISIS DE
VARANIZA
Con interacción
Objetivo general.
Objetivos específicos.
Generalidades
Del análisis de varianza, podemos decir que esta técnica estadística normalmente
es utilizada para analizar resultados en la investigación con diseños
experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos
o más distribuciones que corresponden a variaciones de una misma variable
dependiente, afectada por una o más variables independientes.
Ejemplo
Ejemplo
X iJ i ij
Ecuación No.11
Dónde:
Es la i-ésima observación del j-ésimo nivel experimental.
La media de todas las observaciones de todas las poblaciones j del tratamiento. Es
una constante.
Efecto del tratamiento en la población j. Son variables aleatorias independientes.
Error aleatorio asociado a la i-ésima observación del factor de la población j
i J .
Ecuación No.12
i J J J 0
J 1 J 1 J 1
Ecuación No.13
Ecuación No.14
Media General:
K nj
X
j 1 i 1
ij
X
nt
Ecuación No.15
Dónde: nt n1 n2 ... nK
X
nt K K
Ecuación No.16
En otras palabras, cuando los tamaños de muestra son iguales, la media general
muestral es justamente el promedio de las medias de las K muestras.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
54
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Ejemplo 1
Suponga que una empresa tiene tres dependencias diferentes en donde produce
tubos de iluminación, y desea verificar el control de calidad en cuanto a duración
se refiere de las bombillas, y para ello toma una muestra de 6 unidades de cada
factoría y las somete a desgaste hasta que dejan de iluminar con los siguientes
resultados en horas:
S 2 34 20 32
J
X J
79 74 66 219
X J 1
73
nJ 18 3
Se observa que se obtienen las medias para cada tratamiento (79, 74 y 66) y una
media general (73). Para llevar a cabo la prueba de la igualdad de las medias de
la población, se subdivide la variación total en dos mediciones:
k n 2
VT X ij X
j 1 i 1
Ecuación No.17
VT
3
X
6
ij X 85 73 75 73 ... 71 73 75 73 ...
2
2 2 2 2
k n
VDG X ij X j
2
j 1 i 1
Ecuación No.18
3 85 79 75 79 ... 71 742 75 742 ...
6 2 2
VDG
j 1 I 1 59 66 64 66 .... 430
2 2
K
VEG n j X j X
j 1
2
Ecuación No.19
3
VEG n6 X X
J 1
679 73 674 73 666 73 516
2
2 2 2
siguiente cuadro:
Tabla No. 12. Componentes del análisis de varianza
n
j 1
j X j X
2 (K-1) VET
K 1
A
A
B
X
Dentro o error k n
2 (n-K) VDT
X j B
j 1 i 1
ij
n k
Total
X (n-1)
2
k n VT
X
j 1 i 1
ij n 1
A
Rechaza H0 si Valor crítico
B
Para el caso la relación es igual a 8.99 mayor que el valor crítico 3.68, entonces se
tienen pruebas suficientes para rechazar la hipótesis nula consistente en que las
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
58
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Gran media =
5 nj
X
j 1 i 1
ij
8.52 7.15 ... 6.45 8.76 ... 7.41 8.65 ... .... 236.48
X 7.882666
nt 30 30
X 8.52 7.88 ... 6.12 7.88 ... 7.07 7.88 7.17 7.88
k n 2
X 24.0741867
2 2 2 2
ij
j 1 i 1
X
k n
8.52 7.09 ... 6.45 8.406 ... 7.41 8.523 .... 7.17 6.926
2
X j
2 2 2 2
ij
j 1 i 1
11.9584533
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
60
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
n
j 1
j X j X 7.093 7.88 8.406 7.88 .... 6.926 7.88
2
2 2 2
12.1157333
Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las
posibles medias que podría ser diferente al rechazar la hipótesis.
Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el
rango (diferencia entre medias) de todos los pares de muestras como estadístico y
dicho rango debe superar un cierto valor llamado mínimo rango significativo para
considerar la diferencia significativa.
La principal diferencia con respecto a la t-student radica en que usan MSE como
estimador de la varianza, es decir un estimador basado en todas las muestras.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
61
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
X ijK i j ijk
Ecuación No.20
Dónde:
Error de c r
VE X ij X . j X i. X
2
r 1c 1 MCE
VE
muestreo, E j 1 i 1 r 1c 1
c r 2 rc 1
VT X ij X
Total, T j 1 i 1
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
62
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
X
j 1 i 1
ij X La sumatoria de los valores de todos los bloques y de todos los grupos,
Ejemplo
Suponga que existen cuatro parcelas diferentes las cuales son sometidas
sucesivamente a seis tipos de insumos y se piensa que la producción es afectada
por el tipo de insumo y mantenimiento a que es sometida. Se desea probar los
diferentes tratamientos afectan la producción por parcela, y la producción es la
siguiente:
Los totales por grupo (parcelas) y sus correspondientes promedios, los totales y
los promedios por tratamientos o bloques (insumo y manteniendo), así como la
gran media se indican en el cuadro.
r 6; c 4; n rc 24
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
63
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
c r
X
j 1 i 1
ij
1.887
X 78,625
rc 24
c
VT X ij X
j 1 i 1
r
2
VEC r X . j X
C
j 1
2
Ecuación No.21
6 77.5 78,625 66.67 78,625 ... 79.33 78,625 1.787,46
2 2 2
VEF c X i. X
i 11
r
2
Ecuación No.22
VEF 4 71.75 78,625 79 78,625 ... 82.5 78,625 238,38
2 2 2
c r
VE X ij X . j X i. X
j 1 i 1
2
Ecuación No.23
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
64
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
244.79
VEC 1.787,46
MCA 595,82
c 1 4 1
VEF 283.38
MCB 56,676
r 1 6 1
VE 224.79 224.79
MCE 14,986
r 1c 1 6 14 1 15
Tabla No. 20. Resultados del análisis de varianza para dos factores
Fuente Suma de Grados Cuadrado medio F
cuadrados libertad (varianza)
Entre grupos 1.787.46 595.82
1.787.46 4-1=3 VEC F
3 14,986
595,820 39,758
Entre 283.38 56,676
VEF F
Bloques 283.38 6-1=5 5 14,986
56,676 3,782
Error 224.79
224.79 (6-1)(4-1)=15 VE
15
14,986
Total 2.295.63 (6)(4)-1=23
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
65
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Si se desea probar las diferencias entre los rendimientos de las parcelas con un
nivel de significancia del 5%, la regla de decisión consiste en rechazar la hipótesis
nula H o : 1 2 3 4 si el valor F calculado es mayor que 3.29 (Ver tabla F
con 3 grados de libertad en el numerador y 15 grados en el denominador). Para el
caso F = 39,758 es mayor que el valor crítico 3.29, entonces se rechaza la
hipótesis nula y se llega a la conclusión que existe evidencia de una diferencia
entre la producción promedio de las diferentes parcelas, como se puede apreciar
en el siguiente gráfico:
X ijk Valor de la k - ésima observació n del nivel i del factor A t del nivel j del factor B.
X ij Suma de los valores de la celda ij (las observacio nes del nivel i del factor A y del nivel j del factor B.
X i.. Suma de los valores de la hilera i del factor A.
X.j. Suma de los valores de la columna j del factor B.
GT Gran total de todos los valores en todas las hileras y columnas.
r Número de niveles del factor A.
c Número de niveles del factor B.
n ' Número de valores(replicas) para cada celda.
n Número total de observacio nes del experiment o (con n r.c.n '
más adelante.
Tabla resumen para el análisis de varianzas de dos vías con más de una
observación por célula se resume en el siguiente cuadro:
Total, T r
VT X ijk2
c n'
GT 2 rcn' 1
i 1 J 1 K 1 rcn'
Ejemplo
Para ilustrar el modelo factorial de dos factores, suponga que UD como dueño y
propietario de una cadena de supermercados está interesado en saber el efecto
de la colocación de los estantes en la venta de un producto. Para ello estudia 4
posibles lugares distintos donde colocar los estantes: Colocación normal entre el
pasillo(A), colocación ingreso del pasillo (B), colocación a la entrada del pasillo con
impulsadora (C) y colocación normal con propaganda (D). Se toman ventas
aleatorias en las jornadas de la mañana, tarde y noche y los resultados de las
ventas semanales se resumen en la siguiente tabla:
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
68
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Tabla No. 22. Colocación de productos en un estantes durante jornadas
GT 1.612
r c n'
X
i 1 j 1 k 1
2
ijk 452 502 ... 752 111.550
r
X i2.. 4512 5392 6222
i 1 cn
'
42
110.100,75
GT 2
1.6122
108.272.66
rcn' 342
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
69
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
r c
VT X ijk2
n'
GT 2 111.550 108.272.66 3.277.34
i 1 J 1 K 1 rcn'
X i2.. GT
r 2
VEGA ' 110.100.75 108.272.66 1.828.09
i 1 cn rcn'
VEGB
c X .2j .
GT 2 109.375 108.272.66 1.102.34
j 1 rn' rcn'
r c
VT X ijk2
n'
GT 2 111.550 111.292 258
i 1 J 1 K 1 rcn'
VEGA 1.828.09
MCA 914.045
r 1 3 1
BEGB 1.102.34
MCB 367.447
c 1 4 1
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
70
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
VEABI 88.91
MCC 14,818
r 1c 1 3 14 1
VE 258
MCE 21.5
rc n 1 342 1
'
Así mismo si utiliza un nivel de significancia de 0.05 para probar si existe alguna
diferencia entre la ubicación de los estantes, la regla de decisión es rechazar la
hipótesis nula ( H 0 : 1 2 ... c ), si el valor calculado F (17.09) es mayor que
3.49 (observar tabla F para 3 grados de libertad en el numerador y 12 grados de
libertad en el denominador); se rechaza la hipótesis nula y se concluye que existe
una diferencia entre los promedios de ventas para la colocación de los diferentes
estantes en el almacén.
Se ha realizado hasta ahora las pruebas para la significación del factor A, del
factor B y de la interacción, corresponde entender en mejor forma el concepto de
interacción, si se grafica las medias, empleando la siguiente fórmula:
X ij
X ij
n'
95 122 148
X 11. 47.5 X 21. 61.0 X 31. 74.0
2 2 2
119 147 157
X 12. X 22. 73.5 X 32. 78.5
2 2 2
136 153 171
X 13. X 23. 76.5 X 33. 85.5
2 2 2
101 117 146
X 14. 50.5 X 24. 58.5 X 34. 73.0
2 2 2
EJERCICIOS COMPLEMENTARIOS
Edad
18-24 25-29 30-39 40-59 60 y más
6.31 7.64 8.37 11.23 6.74
4.27 5.36 9.26 10.64 7.36
5.75 3.85 10.16 8.32 5.12
6.24 6.48 9.00
7.86 7.53
68 65
65
Calificaciones
Instrucción Lecturas Televisión Grupos de
programada discussion
6 8 7 8
7 5 9 5
6 8 6 6
5 6 8 6
6 8 5 5
Consumo de alcohol
1 onza 2 onzas 3 onzas
Tequila Brandy Ron Tequila Brandy Ron Tequila Brandy Ron
2 3 4 7 5 9 10 8 12
5 4 4 5 6 4 6 7 5
3 4 4 6 4 8 10 8 12
6 5 4 3 4 2 12 13 11
4 5 4 9 7 11 12 10 12
Camada Ambiente
Libre Restringido
Brillante 28 22 25 36 72 25 32 93
12 23 10 86 48 91 31 19
Mezclada 36 33 41 22 60 35 83 99
83 14 76 58 89 126 110 118
Lenta 101 33 122 35 136 38 64 87
94 56 83 23 120 153 128 140
Marca Temperatura
Caliente Caliente
X 85 88 80 82 83 85
78 75 72 75 75 73
Y 90 78 76 86 88 76
92 92 76 88 76 77
Z 85 60 70 76 74 78
87 88 68 55 57 54
13. Los puntajes obtenidos en una prueba de rendimiento motor hecha a dos
grupos de estudiantes que participan en deportes universitarios, el primer grupo
está formado por estudiantes que practicaron deporte en la preparatoria, mientras
que el segundo está formado por estudiantes que no practicaron deporte en la
preparatoria. Los puntajes obtenidos por ambos grupos son los siguientes:
GRUPO 1 GRUPO 2
GIMNASIA FUTBOL GIMNASIA FUTBOL
55 56 59 40 58 86 48 55
63 59 58 70 58 65 54 56
50 52 52 43 51 55 42 32
69 28 77 37 79 45
60 51 45 32
Introducción
Las pruebas que se mencionarán son las que se podrían necesitar con mayor
frecuencia, se mencionarán sus principales características y aplicaciones.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
81
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Objetivo general.
Objetivos específicos.
Generalidades
Las pruebas de hipótesis hacen inferencias respecto a los parámetros de la
población, como la media. Estas pruebas paramétricas utilizan la estadística
paramétrica de muestras que provinieron de la población que se está probando.
Para formular estas pruebas, se hace suposiciones restrictivas sobre las
poblaciones de las que se extraen las muestras. Por ejemplo: se suponía que las
muestras eran grandes o que provenían de poblaciones normalmente distribuidas.
Pero las poblaciones no siempre son normales.
Los estadísticos han desarrollado técnicas útiles que no hacen suposiciones
restrictivas respecto a la forma de las distribuciones de las poblaciones. Éstas se
conocen como pruebas sin distribución, o pruebas no paramétricas. Las hipótesis
de una probabilidad no paramétrica se refieren a algo distinto del valor de un
parámetro de población
Una medida de las diferencias entre las frecuencias observadas y las esperadas
está dada por el estadístico 2 definido por:
( − )
∑
Ecuación No.24
= Frecuencias Observadas
= Frecuencias Esperadas
K= Número de observaciones
( − )
∑ ∑ −
Ecuación No.25
Con k – r grados de libertad.
Tabla No. 23. Número de urgencias que llegan por día al hospital.
Número de Número de días
urgencias
por día
0 5
1 14
2 15
3 23
4 16
5 9
6 3
7 3
8 1
9 1
10 o mas 0
90
Podemos ver que < en las tres últimas categorías, por lo tanto debemos
unirlas quedando 9 categorías, así k=10; r=1 ya que el valor de , fue dado.
∑ −9 9 −9
( )
0 5 0,050 4,481
1 14 0,149 13,443
2 15 0,224 20,164
3 23 0,224 20,164
4 16 0,168 15,123
5 9 0,101 9,074
6 3 0,050 4,537
7 3 0,022 1,944
8 1 0,008 0,729
9 1 0,003 0,243
10 o mas 0 0,001 0,099
90 1,000 90
Prueba de Kolmogorov-Smirnov
Características de la prueba
La prueba de K-S de una muestra es una hipótesis de bondad de ajuste. Esto es,
se interesa en el grado de acuerdo entre la distribución de un conjunto de valores
de la muestra y alguna distribución teórica específica. Determina si
razonablemente puede pensarse que las mediciones muéstrales provengan de
una población que tenga esa distribución teórica. En la prueba se compara la
distribución de frecuencia acumulativa de la distribución teórica con la distribución
de frecuencia acumulativa observada. Se determina el punto en el que estas dos
distribuciones muestran la mayor divergencia.
Se trata de un método no paramétrico sencillo para probar si existe una diferencia
significativa entre una distribución de frecuencia observada y otra frecuencia teórica. Es
otra medida de la bondad de ajuste de una distribución de frecuencia teórica.
Se basa en la comparación de distribuciones acumuladas: la distribución acumulada de
los datos observados y la distribución acumulada teórica correspondiente al modelo
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
88
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
elegido.
Hipótesis
Ho: La distribución observada se ajusta a la distribución teórica.
F(x) = Ft(x) para todo x.
H1: La distribución observada no se ajusta a la distribución teórica.
Ft(x): es la función teórica. Esta puede ser por ejemplo la función normal con cierta
media y varianzas conocidas.
Estadístico de prueba
D = máxima
Sn(x): es la función de distribución empírica.
Tiene varias ventajas: es una prueba poderosa y fácil de utilizar, puesto que no
requiere que los datos se agrupen de determinada manera.
Es particularmente útil para juzgar qué tan cerca está la distribución de
frecuencias observada de la distribución de frecuencias esperada, porque la
distribución de probabilidad Dn depende del tamaño de muestra n, pero es
independiente de la distribución de frecuencia esperada (Dn es una estadística de
distribución libre).
Para calcular la estadística K-S, simplemente se elige Dn (la desviación absoluta
máxima entre las frecuencias observadas y teóricas).
Una prueba K-S siempre debe ser una prueba de un extremo.
Luego se busca el valor crítico en la tabla, para las n observaciones, considerando
el nivel de significancia adoptado.
Si el valor de la tabla es mayor que el valor de Dn, entonces aceptaremos la
hipótesis nula.
SUGERENCIAS:
La prueba de Kolmogorov puede usarse con muestras muy pequeñas, en
donde no se pueden aplicar otras pruebas paramétricas.
Podemos usar la prueba de Kolmogorov para verificar la suposición de
normalidad subyacente en todo análisis de inferencia.
Si bien constituye una prueba de implementación sencilla, tenga en cuenta que
carga con las desventajas de los métodos no paramétricos en general, en el
sentido de producir resultados menos precisos que los procedimientos
convencionales.
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
89
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Prueba de Wilcoxon
Esta prueba nos permite comparar nuestros datos con una mediana teórica.
Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros datos, y
sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M0, X2-M0,
..., Xn-M0. Si la hipótesis nula fuera cierta estas diferencias se distribuirían de
forma simétrica en torno a cero.
Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se
ordenan de menor a mayor, asignándoles su rango (número de orden). Si hubiera
dos o más diferencias con igual valor (empates), se les asigna el rango medio (es
decir que si tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a
ambas). Ahora calculamos R+ la suma de todos los rangos de las diferencias
positivas, aquellas en las que Xi es mayor que M0 y R- la suma de todos los
rangos correspondientes a las diferencias negativas. Si la hipótesis nula es cierta,
ambos estadísticos deberán ser parecidos, mientras que si nuestros datos tienen a
ser más altos que la mediana M0, se reflejará en un valor mayor de R+, y al
contrario si son más bajos. Se trata de contrastar si la menor de las sumas de
rangos es excesivamente pequeña para ser atribuida al azar, o, lo que es
equivalente, si la mayor de las dos sumas de rangos es excesivamente grande.
Las varias muestras son vistas primeramente como un conjunto de valores, y cada
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
91
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Ejercicios propuestos
Ala A 13 4 2 10 6
Ala B 10 9 7 8
R/ta: 9 días
Muestra A: 1 3 9
Muestra B: 5 1 8
Muestra C: 9 4 2
R/ta: 16
Edad
Partido 18 – 35 35 – 50 50 o más
A 10 40 60
B 15 70 90
C 45 60 35
D 30 30 15
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA
93
CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA
Autoevaluación
A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos
producen resultados equivalentes? O por el contrario ¿Hay algún método
superior a los demás?
Solución:
E estadístico de contraste vale: F = 13,4/ 1,43 = 9,37
Test No Parámetro
Solución:
Paso 1: La hipótesis nula será que el dado es homogéneo, esto implica que la
distribución de los números es uniforme, es decir que los cuatro números
tienen una probabilidad de aparecer de 0,25.
Partido 18 - 35 35 - 50 50 o más
A 10 40 60
B 15 70 90
C 45 60 35
D 30 30 15
Solución:
Edad
Partido 18 – 35 35 – 50 50 o más
A B C 10 40 60 110
D 15 70 90 175
45 60 35 140
30 30 15 75
100 200 200 500
Edad
Partido 18 – 35 35 – 50 50 o más
A 22 44 44
B 35 70 70
C 28 56 56
D 15 30 30
Edad
Partido 18 – 35 35 – 50 50 o más
A 144 16 256
B 400 0 400
C 289 16 441
D 225 0 225
Edad
Partido 18 – 35 35 – 50 50 o más
A 6,55 0,36 5,82
B C 11,43 0 5,71
D 10,32 0,29 7,88
15 0 7,5
43,30 0,65 26,91 70,86
Solución:
1º La hipótesis nula es que los datos proceden de una Normal (110, 10).
6º Como el valor del estadístico 0,1071 es menor que el valor crítico se acepta
la
hipótesis nula.
REFERENTES
Web del Instituto Tecnológica De Chihuahua curso Estadística 1 ITC (s. f).
Extraído el 18 de octubre de 2012 de:
http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html.