Академический Документы
Профессиональный Документы
Культура Документы
Estadı́stica Inferencial
2019
Conceptos metodológicos
Es requisito fundamental de una buena muestra que las caracterı́sticas de
interés que existen en la población se reflejen en la muestra de la manera
más cercana posible, para esto se necesitan definir los siguientes conceptos.
Población objetivo: es la colección completa de todas las unidades
que se quieren estudiar.
Muestra: es un subconjunto de la población.
Unidad de muestreo: es el objeto a ser seleccionado en la muestra
que permitirá el acceso a la unidad de observación.
Unidad de observación: es el objeto sobre el que finalmente se
realiza la medición.
Variable de interés: es la caracterı́stica propia de los individuos
sobre la que se realiza la inferencia para resolver los objetivos de la
investigación.
Marco de muestreo
Todo procedimiento de muestreo probabilı́stico requiere de un dispositivo que
permita identificar, seleccionar y ubicar a todos y cada uno de los objetos
pertenecientes a la población objetivo y que participarán en la selección alea-
toria. Este dispositivo se conoce con el nombre de marco de muestreo. En
investigaciones por muestreo se consideran dos tipos de objetos:
Elementos: las unidades básicas e individuales sobre las que se realiza
la medición.
Conglomerado: agrupación de elementos cuya caracterı́stica principal
es que son homogéneos dentro de sı́, y heterogéneos entre sı́.
Cuando no existe un marco de muestreo disponible es necesario construirlo.
Existen dos tipos de marcos de muestreo, a saber:
De Lista: listados fı́sicos o magnéticos, ficheros, archivos de
expedientes, historias clı́nicas que permiten identificar y ubicar a los
objetos que participarán en el sorteo aleatorio.
De Área: mapas de ciudades y regiones en formato fı́sico o magnético,
fotografı́as áereas, imágenes de satélite o similares que permiten
delimitar regiones
MSc. Rafael o unidades
Roberto geográficas
Ruiz Escorcia Cecar en forma tal que su
Pruebas de Hipótesis
Regresión lineal simple
Regresión Parabólica Simple
Análisis de Correlación
Pruebas de Bondad de Ajuste
Ejemplo
Suponga que una entidad oficial del gobierno de su paı́s está interesada en
la realización de una encuesta de desempleo con el fin de determinar a)
cuántas personas actualmente pertenecen a la fuerza laboral, tanto en el
paı́s en cuestión como en sus regiones o subdivisiones geográficas y b)
qué proporción de éstas están desempleadas. Con base en lo anterior se
tienen los siguientes aspectos para la realización de dicho estudio:
Población objetivo: Todas las personas de Colombia.
Dominios o subgrupos de interés: Grupos de edad, género, grupos
ocupacionales y regiones del paı́s.
Caracterı́sticas de interés: Pertenencia a la fuerza laboral y estado
de empleo. Éstas toman valor uno o cero.
Parámetros de interés: Número total de personas pertenecientes a la
fuerza laboral, número total de desempleados, proporción de desempleo.
Muestra: Se selecciona una muestra de la población con la ayuda de
mecanismos de identificación y ubicación de las personas en el paı́s.
Observaciones: Cada persona incluida en la muestra es visitada por
un encuestador entrenado,
MSc. Rafael Roberto quien hará
Ruiz Escorcia preguntas siguiendo un
Cecar
Pruebas de Hipótesis
Regresión lineal simple
Regresión Parabólica Simple
Análisis de Correlación
Pruebas de Bondad de Ajuste
Sesgo
En el diseño y puesta en marcha de una encuesta puede ocurrir cierto tipo
de situaciones que pueden sesgar las estimaciones finales. Este tipo de sesgos
puede ocurrir antes, durante y después de la recolección de los datos. Es tarea
del estadı́stico advertir ante todas las posibles instancias de los problemas
que causan los sesgos y procurar que, en todas las etapas de la encuesta, se
minimice el error humano y el error estadı́stico para que al final los resultados
del estudio sean tan confiables como sea posible.
Sesgo de selección
Este tipo de sesgo ocurre cuando parte de la población objetivo no está en el
marco de muestreo. Una muestra a conveniencia es sesgada pues las unidades
más fáciles de elegir o las que más probablemente respondan a la encuesta
no son representativas de las unidades más difı́ciles de elegir. Por ejemplo, si
el parámetro de interés es la cantidad promedio de gastos en compras en un
centro comercial y el encuestador elige a las personas que salen con muchos
paquetes, entonces la información estarı́a sesgada puesto que no está refle-
jando el comportamiento promedio de las compras.
Sesgo de medición
Este tipo de sesgo ocurre cuando el instrumento con el que se realiza la
medición tiene una tendencia a diferir del valor verdadero que se desea averi-
guar. Éste sesgo debe ser considerado y minimizado en la etapa de diseñó de
la encuesta. Por ejemplo Cuando el respondiente miente. Esta situación se
presenta a menudo en encuestas que pregunta acerca del ingreso salarial,
alcoholismo y drogadicción, nivel socioeconómico e incluso edad.
Distribución Conjunta
Se define como la distribución de probabilidad definida sobre el conjunto de
todas las posibles muestras. Si se denota M Aj = {a1 , a2 , · · · , an } la muestra
j-ésima, la probabilidad conjunta en el muestreo se define como el conjunto
de valores P (M Aj ) = pj que asigna a cada muestra, de tamaño n, la pro-
Pj(n)
babilidad de ser seleccionada. Entonces, pj ≥ 0 y i=1 pj = 1 donde j(n)
es el número de muestras posibles de tamaño n que se pueden extraer de la
población de tamaño N .
Se distinguen cuatros tipos: sin reemplazamiento y sin distinción del orden,
con reemplazamiento y sin distinción del orden, sin reemplazamiento distin-
guiendo el orden, y con reemplazamiento distinguiendo el orden.
Distribuciones Conjuntas
1 Sin reemplazamiento y sin distinción del orden. En una
población de tamaño N se encuentran N n
posibles muestras distintas,
siendo la probabilidad de selección de cada una de ellas: pj = n!(NN−n)!
!
2 Con reemplazamiento y sin distinción del orden. En una
población de tamaño N se encuentran N +n−1 n
posibles muestras
distintas, siendo la probabilidad de selección de cada una de ellas:
n!(N −1)!
pj = (N +n−1)!
3 Sin reemplazamiento distinguiendo el orden. En una población
de tamaño N se encuentran (NN !
−n)!
posibles muestras distintas, siendo
(N −n)!
la probabilidad de selección de cada una de ellas: pj = N!
4 Con reemplazamiento y con distinción del orden. En una
población de tamaño N se encuentran N n posibles muestras distintas,
siendo la probabilidad deselección de cada una de ellas: pj = N1n .
Ejemplo
Sea X = {x1 , x2 , x3 , x4 } una población formada por N = 4 elementos. Se
extrae una muestra de tamaño n = 2. Determine la distribución conjunta en
los 4 casos posibles de selección.
Estimación
Los procedimientos de estimación se centran en los parámetros como la
media, la varianza y el total en el caso cuantitativo o como la proporción y
el total de clase en el caso cualitativo.
Definición
Dado un tipo de muestreo probabilı́stico, a partir del cual se obtiene una
muestra se denomina estimador a una función de la muestra
θ̂(x1 , x2 , · · · , xn ) = θ̂ que se usa para inferir el valor de la caracterı́stica
poblacional θ
Definición
La esperanza de un estimador se define como la media de todas las
muestras, es decir,
X
E(θ̂) = θ̂(x1 , x2 , · · · , xn ) ∗ Pj
M Aj
Ejemplo
Sea la población X =Número de hermanos {1, 1, 2, 2, 3}.
a) Determine los parámetros µx , σ 2 , S 2
b) Selecciona una muestra de tamaño n = 2. Calcula la esperanza (E(θ̂)) y
la varianza (V (θ̂)) del estimador de la media.
Estimador Insesgado
Los estimadores insesgados son aquellos que su media o esperanza
matemática coincide con el valor verdadero del parámetro. Es decir
E(θ̂) = θ. Cualquier estimador insesgado minimiza el error cuadrático
medio; en cuyo caso, ECM (θ̂) = V (θ̂). El mejor estimador insesgado es
aquel que tiene varianza mı́nima, proporcionando el menor ECM.
Ejemplo
Dada la población {5, 10, 15, 20, 25, 30}. Se toma muestreo de tamaño n = 2,
con reemplazo y con orden, y se estima la media.
5X1 + 3X2 3X1 + 4X2 8X1 + 10X2
µˆ1 = ; µˆ2 = ; µˆ3 =
14 9 17
Ejemplo
Dada la población {5, 10, 15, 20, 25, 30}. Se toma muestreo de tamaño n = 5,
con reemplazo y con orden, y se estima la media.
4X1 + X2 + 4X3 + 2X4 + X5 8X1 + 4X2 − 3X3 − 2X4 − 4X5
µˆ1 = ; µˆ2 =
15 3
MAS
El muestreo aleatorio simple puede ser visto como la forma más básica de
selección de muestras. Supone la existencia de homogeneidad en los valores
poblacionales de la caracterı́stica de interés. Partiendo de esta asunción, este
diseño provee probabilidades de selección idénticas para cada una de las po-
sibles muestras pertenecientes al soporte Q. Lohr (2000) cita un ejemplo al
respecto del uso del diseño de muestreo aleatorio simple diciendo que, cuan-
do la población es homogénea, el investigador no necesita examinar todos
los elementos de la población ası́ como el encargado del análisis médico no
necesita obtener toda la sangre para medir la cantidad de glóbulos rojos.
Algoritmos de selección
Durante muchos años, la teorı́a de muestreo se centró en la parte de la
extracción de muestras aleatorias, más que en la construcción de los
estimadores. Con la gran ventaja de los nuevos procesadores, lo anterior
pasa a un segundo plano. A continuación se presentan dos métodos de
selección de una muestra aleatoria simple de tamaño n de una población de
tamaño N . Existen bastantes métodos de selección de una muestra
aleatoria sin reemplazo, en esta sección se abordan dos algoritmos de
selección. El primero da una asunción más simple, y puede ser comparado
con el conocido método de la extracción de una balota; sin embargo,
Tillé (2006) afirma que este método es inećiente computacionalmente. El
segundo método basado en un algoritmo secuencial, permite la selección de
la muestra con una sola revisión del marco de muestreo.
Ejemplo
Suponga que estamos investigando sobre el porcentaje de estudiantes que
trabajan de una población de 20 alumnos de CECAR
E[µ̂x̄ ] = µx
S2 n
V [µ̂x̄ ] = 1−
n N
N 2S2 n
V [τ̂x ] = 1−
n N
Estimación de la proporción
El estimador más utilizado de la proporción muestral es:
Pn
i=1 xi a
x̄ = = = p̂
n n
La proporción muestral es un estimador insesgado de la proporción
poblacional:
E[p̂] = p
La varianza del estimador, en muestreo sin reemplazo, es:
N − n pq
V [p̂] = ·
N −1 n
Tamaño de la Muestra
Un aspecto fundamental al realizar un estudio es el tamaño de muestra que
se debe emplear para cumplir con los requisitos del investigador, como son
el error que se desea cometer, la variabilidad presente en los datos y el nivel
de confianza que se quiere tener con las estimaciones. Al controlar el error
el investigador tiene la certeza de hacer un estudio de mayor rigor cientı́fico
dejando un lı́mite muy pequeño de desviación con respecto al parámetro
que se está estimando. Sin embargo, como se discutirá en esta sección, al
minimizar el error se requiere aumentar notablemente el tamaño de la
muestra, y esto redundarı́a en mayores exigencias de tiempo y costos para
realizar el estudio.
S2
n0 =
ε2e
Ejemplo
Considere los siguientes datos (adjuntos) como una población de N=125
correspondiente a los lotes en venta en la ciudad de Cúcuta inscritos en una
página de publicidad.
a) Obtenga una muestra aleatoria de 20 lotes, Utlizando el método de
selección y rechazo.
b) Estime a partir de la muestra la media poblacional (µx̄ ) y la
cuasivarianza (S 2 ) de los precios de los lotes.
c) Estime a partir de la muestra el total poblacional (τ̂ )
d) Obtenga a partir de la muestra de 20 lotes los tamaños para estimar la
media con un error absoluto del 2 % de la media.
Muestreo Estratificado
Muestreo Estratificado
El muestreo por estratos tiene la finalidad de estimar el promedio en toda
la ciudad considerando todos los estratos; y tales estimaciones se realizan
aplicando el muestreo aleatorio simple en cada estrato, estimando para cada
estrato y luego la estimación global mediante la ponderación apropiada. En
esta situación se puede dividir la población en L subpoblaciones, de tal modo
que la variabilidad dentro de cada subpoblación sea lo más pequeña posible,
y grande entre las diferentes subpoblaciones.
El muestreo estratificado tiene las siguientes ventajas:
1 Permite datos y estimaciones para cada estrato con una buena
precisión.
2 Permite considerar de manera individualizada los problemas que se
presentan en cada estrato.
Muestreo Estratificado
Estimaciones puntuales
Si Ni es el tamaño i-ésimo estrato, i = 1, 2, · · · , L; se tiene la ponderación
por estrato
L
Ni X
Wi = y Wi = 1.
N i=1
Muestreo Estratificado
Muestreo Estratificado
Muestreo Estratificado
Ejemplo
Una población de 6000 familias se divide en tres estratos con el fin de
estimar el ingreso medio mensual en miles de pesos. Se estudia una muestra
de 150 familias que proporciona los siguientes valores del ingreso familiar
medio y la cuasivarianza.
Estratos Ni ni ȳi Si2
I 1500 70 780 80.42
II 2500 45 1500 121.23
III 2000 35 4000 154.32
Muestreo Estratificado
Ejemplo
Las granjas de una cierta región se dividen en cuatro categorı́as según su
superficie. El número de granjas en cada categorı́a es 72, 37, 50 y 11. Un
estudio para estimar el total de vacas productoras de leche en la región
produce una muestra estratif́icada de 28 granjas. El total de vacas
productoras de leche en estas 28 granjas viene dado en la siguiente tabla.
Estimar el total de vacas productoras de leche ası́ como el error estándar del
estimador.
Muestreo Estratificado
Estimador de la proporción
Se codifica la variable cualitativa de la siguiente manera:
1 si el individuo Ai ∈ C
Xi =
0 si el individuo Ai 6∈ C
Muestreo Estratificado
Muestreo Estratificado
Ejemplo
Al planear una encuesta para estimar el porcentaje de personas económica-
mente activas con auto propio en una población de 150000 habitantes se di-
vidió la población en tres estratos y se obtuvo una muestra de 5000 utilizando
el criterio de afijación proporcional.
Estrato Ni Wi p̂i ni
I 80000 0.53 0.12 2667
II 40000 0.27 0.54 1333
III 30000 0.20 0.87 1000
Muestreo Estratificado
Afijación de la muestra
Se llama afijación de la muestra al reparto o distribución del tamaño
muestral n entre los diferentes estratos. Esto es, a la determinación de los
valores ni donde i = 1, 2, 3, · · · , L que verifiquen
n1 + n2 + · · · + nL = n
Muestreo Estratificado
Afijación Uniforme
Este tipo de reparto consiste en asignar el mismo numero de unidades
muestrales a cada estrato con lo que se tomaran todos los ni iguales a
k = n/L. Para este tipo de afijación, las varianzas de los estimadores
vendrán dadas por
L
Si2
X k
V (ȳst ) = Wi2 1− ⇒ Varianza de la media
i=1
k Ni
L
S2
X k
V (τ̂st ) = Ni2 i 1 − ⇒ Varianza del total
i=1
k Ni
L
X Ni p̂i q̂i k
V (Ast ) = Ni2 1− ⇒ Varianza del total de clase
i=1
Ni − 1 k Ni
L
X Ni p̂i q̂i k
V (pst ) = Wi2 1− ⇒ Varianza de la proporción
i=1
Ni − 1 k Ni
Muestreo Estratificado
Afijación Proporcional
Consiste en asignar a cada estrato un número de unidades muestrales
proporcional a su tamaño. Las n unidades de la muestra se distribuyen
proporcionalmente a los tamaños de los estratos expresados en número de
unidades. Si el tamaño muestral es proporcional al tamaño del estrato,
entonces existe una constante k positiva tal que
ni = kNi , donde i = 1, 2, 3, · · · , L
Muestreo Estratificado
Afijación Proporcional
Para este tipo de afijación, las varianzas de los estimadores serán:
L
1−k X
V (ȳst ) = Wi Si2 ⇒ Varianza de la media
n i=1
L
1−k X
V (τ̂st ) = Ni Si2 ⇒ Varianza del total
k i=1
L
1 − k X Ni2
V (Ast ) = p̂i q̂i ⇒ Varianza del total de clase
k i=1 Ni − 1
L
1 − k X Ni2 /N
V (p̂st ) = p̂i q̂i ⇒ Varianza de la proporción
k i=1 Ni − 1
Estimación de Razón
Ejemplo
A continuación aparece una muestra del número de bovinos macho (M) y
hembra (H) en los municipios del departamento del Atlántico; dividido en
tres estratos: cero a 12 meses, 13 a 24 meses y más de 24 meses. La población
cuenta con 23 municipios en cada estrato. Los totales de hembras en cada
estrato son X1 = 27643, X2 = 29401, X3 = 114946; y se desea estimar el
número total de machos.
Estrato I Estrato II Estrato III
M H M H M H
2767 2771 315 357 57 324
1730 1722 1180 1164 720 4255
733 736 830 813 335 1977
828 825 235 229 350 2102
1387 1392 1220 1208
5114 5110
Estimación de Razón
Ejemplo
Se midió el ingreso familiar en salarios mı́nimos (y) y los gastos mensuales (x)
en una población constituida por 3 estratos. Los datos cumplen una relación
lineal a través del origen. Estime el ingreso total por medio de la estimación
de razón separada y la estimación de razón combinada. Los datos adicionales
son: n1 = 40, n2 = 45, n3 = 32, N1 = 800, N2 = 900, N3 = 600, X1 =
1320, X2 = 2115, X3 = 1865
Estrato I Estrato II Estrato III
y x y x y x
2,5 1,2 4,1 2,0 5,6 2,8
3,5 1,7 4,5 2,2 5,8 2,9
4 1,8 4,6 2,3 5,9 2,9
3,3 1,6 4,8 2,4 6,5 3,2
4,2 2,0 4,3 2,1 6,4 3,1
2,6 1,3 4,9 2,4 6,3 3,1
3,7 1,8 4,2 2,1 6,4 3,1
3,1 1,5 4,7 2,4 6,9 3,4
3,3 1,4 4,2 2,0 5,7 2,8
3,7 1,9 4,6 2,2
4,7 2,3
MSc.
4,5
Rafael Roberto Ruiz Escorcia
2,2
Cecar
Pruebas de Hipótesis
Prueba de Hipótesis para la media
Regresión lineal simple
Pruebas de hipótesis para la diferencia de medias (Muestras
Regresión Parabólica Simple
Prueba de Hipótesis para la Proporción
Análisis de Correlación
Prueba de Hipótesis para la Diferencia de dos Proporciones
Pruebas de Bondad de Ajuste
Pruebas de Hipótesis
Hipótesis Estadı́stica
Una Hipótesis estadı́stica es una afirmación cuantitativa acerca de una o
más poblaciones o, lo que es más frecuente, un conjunto de afirmaciones
sobre uno o más parámetros de una o más poblaciones.
Pruebas de Hipótesis
Pruebas de Hipótesis
Pruebas de Hipótesis
Tipo de
Regla de Decisión
Hipótesis
H0 : µ ≥ µ0
H1 : µ < µ0
Cola a la Si Z ≤ −Zα , entonces se rechaza
izquierda H0 ; en caso contrario, se acepta H0
H0 : µ ≤ µ0
H1 : µ > µ0
Cola a la Si Z ≥ Zα , entonces se rechaza H0 ;
derecha en caso contrario, se acepta H0
H0 : µ = µ0
H1 : µ > µ0
Si Z ≤ −Zα/2 o Z ≥ Zα/2 , entonces
Dos colas se rechaza H0 ; en caso contrario, se
acepta H0
Ejemplo
Como parte de un proceso de ensamblaje, se usa un taladro para hacer agu-
jeros en una lámina de matal. Cuando el taladro funciona adecuadamente,
los diámetros de estos agujeros tienes una distribución normal con media de
dos centı́metros y una desvición tı́pica de 0, 06 centı́metros. Periódicamente,
se miden los diametros de una muestra aleatoria de agujeros para controlar
que el taladro funciones según los parámetros. Asumamos que la desvición
tı́pica no varı́a y que una muestra aleatoria de 60 medidas da un diámetro
medio de 1, 95 centı́metros. Pruebe la hipótesis de que la media poblacional
es 2 centı́metro frente a una alternativa de otro valor.
Ejemplo
Una muestra aleatoria de 100 muertes registradas en cierto paı́s durante el año
pasado mostró una vida promedio de 71,8 años. Suponiendo una desviación
estándar poblacional de 8,9 años , ¿podrá esto indicar que la vida promedio
hoy en dı́a es mayor que 70 años? utilice un nivel de significancia de 5 %
Tipo de
Regla de Decisión
Hipótesis
H0 : µ ≥ µ0
H1 : µ < µ0
Cola a la Si t ≤ −tα , entonces se rechaza H0 ;
izquierda en caso contrario, se acepta H0
H0 : µ ≤ µ0
H1 : µ > µ0
Cola a la Si t ≥ tα , entonces se rechaza H0 ;
derecha en caso contrario, se acepta H0
H0 : µ = µ0
H1 : µ > µ0
Si t ≤ −tα/2 o t ≥ tα/2 , entonces
Dos colas se rechaza H0 ; en caso contrario, se
acepta H0
Ejemplo
Un fabricante de drogas dice que el tiempo promedio para que se disuelva el
contenido de cierta droga es de 50 segundos. El gerente de la empresa
competitiva no cree en esto. Por eso, hace una prueba al azar de 20 drogas,
calculando una media muestral de 54 segundos y desviación tı́pica de 15
segundos. En concreto, el gerente desea saber si puede concluir que el
tiempo promedio necesario que se requiere para que el contenido se disuelva
es mayor que 50 segundos. Ayúdelo, utilizando un nivel de significancia de
0,05.
Ejemplo
Pruebe la hipótesis de que el contenido promedio de las bolsas de cierto
tipo de tedergente es de 10 kilogramos si los contenidos de una muestra
aleatoria de 10 bolsas son 10,2; 9,7; 10,1; 10,3; 10,1; 9,8; 9,9; 10,4; 10,3 y 9,8
kilogramos. Utilice un nivel de significancia de 0,01 y suponga que la
distribución del contenido es normal.
Ejemplo
Los incrementos porcentuales de las utilidades de una empresa aleatoria de
8 empresas licoreras durante el año pasado fueron:16,1; 14,4; 12,9; 13,7;
14,9; 14,6; 12,5 y 15,3. Haga una prueba con nivel de 5 % significancia para
determinar si el incremento porcentual promedio de las utilidades de todas
las empresas licoreras fue diferente a 14. Suponga que los valores se
distribuyen normalmente.
H0 : µ1 − µ2 = d0 , H0 : µ1 − µ2 ≥ d0 , H0 : µ1 − µ2 ≤ d0 ,
(x̄1 − x̄2 ) − d0
Z= q 2
σ1 σ2
n1
+ n22
La región crı́tica dependerá de cada uno de los tres casos antes propuestos.
Ejemplo
Se llevó a cabo un estudio entre expertos matemáticos para conocer su
opinión sobre las mujeres matemáticas. Se le pidió que evaluaran en una
escala de uno (totalmente en desacuerdo) a cinco (totalmente de acuerdo)
la afirmación: “Las mujeres matemáticas tienen la misma ofertas de trabajo
que los hombres”. Para una muestra aleatoria de 186 hombres de esta
profesión, la respuesta media fue de 4,059 con una desviación tı́pica de
0,839. Para una muestra aleatoria independiente de 172 mujeres
matemáticas, la respuesta media fue 3,680 con una desviación tı́pica de
0,966. Utilice un nivel de significancia del 5 % para contrastar la hipótesis
nula de que las dos medias poblacionales son iguales frente a la alternativa
de que ambas son diferentes.
Ejemplo
En un establecimiento escolar suburbano, se seleccionó al azar una muestra
aleatroria de 35 estudiantes de quinto grado (grupo 1) de una población de
estudiantes pertenecientes a familias en que ambos trabajan. Se
seleccionó también una muestra aleatoria de 25 estudiantes (grupo 2) del
mismo grado y establecimiento escolar entre aquellos estudiantes que
pertenecen a familias en que solomente el padre trabaja. El análisis de los
puntajes de rendimiento escolar (en escala de 1 a 100) de los dos grupos dio
los siguientes resultados: un puntaje promedio de 78 para el grupo 1 y de 85
para el grupo 2. La experiencia muestra que las poblaciones de puntajes
para ambos grupos están distribuidas en forma aproximadamente normal,
con varianzas de σ12 = 81 y σ22 = 25. Utilizando un nivel de significancia del
5 % y en base a estos datos, determı́nese si es posible concluir que la media
de la población del grupo 1 es inferior a la media de la población del grupo
2.
H0 : µ1 − µ2 = d0 , H0 : µ1 − µ2 ≥ d0 , H0 : µ1 − µ2 ≤ d0 ,
(x̄1 − x̄2 ) − d0
t= q
s2 2
n1
+ ns 2
Y corresponde al valor de una variable aleatoria que tiene distribución t de
student con v = n1 + n2 − 2 grados de libertad. De modo que en la
expresión anterior,
(n1 − 1)s21 + (n2 − 1)s22
s2 =
n1 + n2 − 2
Es la llamada muestral varianza combinada y corresponde a un estimador
insesgado de la varianza poblacional común. La región crı́tica dependerá de
cada uno MSc.
de los tresRoberto
Rafael casosRuiz
vistos anteriormente.
Escorcia Cecar
Pruebas de Hipótesis
Prueba de Hipótesis para la media
Regresión lineal simple
Pruebas de hipótesis para la diferencia de medias (Muestras
Regresión Parabólica Simple
Prueba de Hipótesis para la Proporción
Análisis de Correlación
Prueba de Hipótesis para la Diferencia de dos Proporciones
Pruebas de Bondad de Ajuste
Ejemplo
Se llevó a cabo un estudio que pretendı́a valorar el efecto de la presencia de
un moderador sobre el número de ideas generadas por un grupo. Se
observaron cuatro miembros, con y sin moderadores. Para una muestra
aleatoria de cuatros grupos con moderador, el número medio de ideas
generadas por grupo fue de 78, con una desviación tı́pica de 24,4. Al mismo
tiempo, que para una muestra aleatoria independiente de cuatro grupos sin
moderador, el número medio de ideas generadas por grupo fue de 63,5, con
dsviación tı́pica de 20,2. Asumiendo que las distribuciones poblaconales son
normales con igual varianza, Contrástese la hipótesis nula de que las medias
poblacionales son iguales frente a la aternativa de que la verdadera media es
mayor para los grupos con moderador. Use un nivel de significancia del 10 %
Ejemplo
Se llevó a cabo un experimento para comparar el deterioro abrasivo de dos
materiales laminados diferente. Para este menester, se probaron doce piezas
del material 1, exponiendo cada una a una maquina para medir el deterioro.
De la misma manera, se probaron diez piezas del material 2. En cada caso,
se observó la profundidad del deterioro. Las muestras del material 1 dieron
un deterioro promedio de 85 unidades con una desviación estándar muestral
de 4, mientras que las del material 2 dieron un promedio de 81 y una
desviación est”andar muestral de 5. ¿Puede concluirse en el nivel de
significancia del 5 % que el deterioro abrasivo del material 1 excede al del
material 2 por más de 2 unidades? Asúmase que las poblaciones son
aproximadamente normales con varianzas iguales.
H0 : µ1 − µ2 = d0 , H0 : µ1 − µ2 ≥ d0 , H0 : µ1 − µ2 ≤ d0 ,
(x̄1 − x̄2 ) − d0
t= q 2
s1 s2
n1
+ n22
Lo cual corresponde al valor de una variable aleatoria que tiene distribución
t de Student con
2 2
s1 s2
n1
− n22
v = (s2 /n )2 (s2 /n2 )2
(1)
1 1
n1 −1
+ n2 2 −1
MSc. Rafael Roberto Ruiz Escorcia Cecar
Pruebas de Hipótesis
Prueba de Hipótesis para la media
Regresión lineal simple
Pruebas de hipótesis para la diferencia de medias (Muestras
Regresión Parabólica Simple
Prueba de Hipótesis para la Proporción
Análisis de Correlación
Prueba de Hipótesis para la Diferencia de dos Proporciones
Pruebas de Bondad de Ajuste
Ejemplo
El departamento de zoologı́a de cierto instituto llevó a cabo un estudio para
estimar la diferencias en la cantidad de cierta sustancia quı́mica en dos
estaciones diferentes de un rı́o. La sustancia se mide en miligramos por
litros y se reunieron 15 muestras de la estación 1 y 12 de la estación 2. Las
muestras de la estación uno tuvieron un contenido promedio de sustancias
quı́mica de 3,84 miligramos por litros y una desviación estándar de 3,07
miligramos por litros, mientras las 12 muestras de la estación 2 tuvieron un
contenido promedio de 1,49 miligramos por litro y una desviación estándar
de 0,80 miligramos por litro. Al nivel del 5 %, determı́nese si los contenidos
reales de sustancia en estas dos estaciones son diferentes, suponiendo que
las observaciones vienen de poblaciones normales distribuidas con varianzas
diferentes.
Ejemplo
Un equipo médico midió el nivel de cierto producto quı́mico en la sangre de
15 pacientes antes y después afrontar una situación que producı́a anciedad.
La siguiente tabla muestra los resultados. Con base en estos datos y al nivel
de 0,05, verı́fiquese si las situaciones que producen ansiedad aumentan el
nivel de este producto quı́mico en la sangre. Suponga que las poblaciones en
cuestión están normalmente distribuidas.
Par 1 2 3 4 5 6 7
Antes (yi ) 8 15 20 18 12 10 22
Después (xi ) 28 10 15 14 12 21 25
Par 8 9 10 11 12 13 14 15
Antes (yi ) 18 7 14 7 20 9 17 14
Después (xi ) 22 11 16 10 27 10 22 24
Theorem
Sea p̄ la proporción de éxitos en una muestra aleatoria de tamaño n,
procedente de una población con proporción p éxitos. Supongamos que se
cumple alguna de las dos siguientes condiciones:
(a) n ≥ 30
(b) np ≥ 5 y n(1 − p) ≥ 5
Entonces, una prueba de hipótesis con nivel de significancia α para la
proporción p su estadı́stico de prueba viene dado por Z = q pp̄−p 0
(1−p )
.
0 0
n
Ejemplo 1
De una muestra aleatoria de 802 clientes de supermecados, 378 pagaron sus
artı́culos con tarjetas de crédito. Contrástese, al nivel de 10 %, la hipótesis
nula de que al menos la mitad de los compradores pagan sus artı́culos con
tarjeta de crédito frente a la alternativa de que la proporción poblacional es
menor a la mitad.
Ejemplo 2
Un doctor afirma que el 12 % de todas las citas son canceladas y, en
concreto, durante un periodo de seis meses, fueron canceladas 21 de las 200
citas del doctor. Hágase una prueba, con un nivel de significancia del 5 %,
para determinar si la verdadera proporción de todas la citas que son
canceladas es diferente de 12 %.
Theorem
Sea p̄1 la proporción de éxitos observada en una muestra aleatoria de
tamaño n1 , procedente de una población con proporción p1 de éxitos, y sea
p2 la proporción de éxitos observada en una muestra aleatoria independiente
de tamaño n2 , procedente de una población con proporción de éxitos p1 .
Supongamos que se cumple alguna de las siguientes dos condiciones:
(a) n ≥ 30
(b) n1 p1 ≥ 5, n2 p2 ≥ 5, n1 (1 − p1 ) ≥ 5 y n2 p2 ≥ 5
Entonces, una prueba de hipótesis con nivel de significancia α para la
diferencia de proporciones p1 − p2 , tiene la misma forma como se ha
trabajado anteriormente, siendo ası́,
(p̄1 − p̄2 )
Z= q
p̄0 (1−p̄0 ) p̄0 (1−p̄0 )
n1
+ n2
Ejemplo 1
Un rector de cierta universidad afirma que la proporción de hombres con
auto en el campus es mayor a la proporción de mujeres. Un profesor de
estadı́stica se interesa en la afirmación y entrevista aleatoriamente a 100
hombres y a 100 mujeres, encontrando que 34 hombres y 27 mujeres tienen
autos en el campus. ¿Puede concluirse con un nivel de 5 % que la afirmación
del rector es falsa?
Ejemplo 2
De una muestra aleatoria de 203 anuncios publicados en revistas
colombianas, 32 eran de deportes. Mientras que, otra muestra aleatoria
independiente de 270 anuncios publicados en revistas brasileras, 56 eran de
deportes. Usando un nivel del 5 % contrástese frente a una alternativa
bilateral, la hipótesis nula de que las proporciones de anuncios deportivos
de las revistas colombianas y brasileras son iguales.
y = β0 + β1 x
y: Observación
β0 : Valor de la media de y cuando x es 0
β1 : Cantidad en la que cambia y cuando x cambia en una unidad
y = β0 + βi xi + εi donde i = {1, 2, · · · , n}
Los valores de las estimaciones de los parámetros β̂1 y β̂0 estarán dado por
la covarianza de xy (cov(xy)) y la varianza de x (var(x))
Pn
i=1 (y − ȳ)(x − x̄) cov(xy)
β̂1 = Pn =
i=1 (x − x̄)
2 var(x)
β̂0 = ȳ − β̂1 x̄
Coeficiente de determinación
Ejemplo
Ejemplo
Estimación de σ 2
El parámetro σ 2 determina la cantidad de variabilidad inherente en el
modelo de regresión. En este sentido, un valor grande de σ 2 ocasionará que
las (xi , yi ) observadas estén muy dispersas alrededor de la verdadera recta
de regresón, mientras que cuando σ 2 es pequeña, los puntos observados
tenderán a caer muy cerca de la verdadera recta de regresión.
Theorem
Supongamos que la recta de regresión poblacional es Y = β0 + β1 xi + i y
que se verifican los supuestos. Sea ası́, β̂ la estimación de mı́nimos
cuadrados de β. Denotamos por σ 2 la varianza común de los términos de
error i . Entonces, un estimador insesgado de σ 2 se optiene mediante:
Theorem
Denotemos por βˆ0 y βˆ1 la estimación de mı́nimos cuadrados del intercepto y
de la pendiente de la recta de regresión poblacional, respectivamente.
Supongamos, otra vez, que se verifican los supuestos. Entonces:
(a) El estimador βˆ0 es insesgado para β0 y tiene varianza σ 2ˆ . Un β0
estimador insesgado de σβ2ˆ se obtienen mediante
0
Pn
S2 x2i
Sβ2ˆ0 = i=1
nSxx
S2
Sβ2ˆ1 =
Sxx
Theorem
Denotemos por βˆ0 y βˆ1 la estimación de mı́nimos cuadrados del intercepto y
de la pendiente de la recta de regresión poblacional, respectivamente.
Supongamos, otra vez, que se verifican los supuestos, y si además, puede
asumirse los errores i tienen distribución normal, entonces, las variables
aleatorias correspondientes a:
βˆ0 − β0 βˆ1 − β1
t1 = y t2 =
Sβˆ0 Sβˆ1
Theorem
Denotemos por βˆ0 y βˆ1 la estimación de mı́nimos cuadrados del intercepto y
de la pendiente de la recta de regresión poblacional, respectivamente.
Supongamos, otra vez, que se verifican los supuestos, y si además, puede
asumirse los errores i tienen distribución normal, entonces, las variables
aleatorias correspondientes a:
(a) Un intervalo de confianza del (1 − α)100 % para β0 se obtiene mediante:
H0 : β1 = θ; H0 : β1 ≤ θ; H0 : β1 ≥ θ
β̂1 − θ
t=
Sβ̂1
H0 : β0 = θ; H0 : β0 ≤ θ; H0 : β0 ≥ θ
β̂0 − θ
t=
Sβ̂0
Ejemplo
En la siguiente tabla se muestran las puntuaciones de una prueba de
aprovechamiento de estadı́sticas y las calificaciones finales del curso de
Estadı́stica inferencial para estudiantes universitarios.
Puntuación de aprovechamiento Calificación final de Estadı́stica
39 3,25
43 3,9
21 2,6
64 4,1
57 4,6
47 4,45
28 3,65
75 4,9
34 2,8
52 3,75
Ŷ = ax2 + bx + c
donde a, b y c son los parámetros.Las ecuaciones que serán consideradas
para hallar dichos parámetros son:
X X 2 X
yi = a xi + b xi + nc
X X 3 X 2 X
xi yi = a xi + b xi + c xi
X 2 X 4 X 3 X 2
xi yi = a xi + b xi + c xi
donde
Pn
2 i=1 (yi − Ŷ )2
Sxy = (2)
n
yi2 − nȳ 2
P
Sy2 = (3)
n
Ejemplo
Un fabricante quiere establecer si hay una relación parabólica entre las
ausencias al trabajo(X)(número de permiso al mes) y la edad del
trabajador(Y). Para ello selecciona una muestra de 10 trabajadores, con la
siguiente información:
yi 28 32 46 24 28 36 42 37 51 42
xi 5 8 4 7 10 4 3 4 3 4
Análisis de Correlación
Análisis de Correlación
Para hacer inferencias acerca de ρ con base en r, debemos hacer varias
suposiciones acerca de la distribuciones de las variables aleatorias cuyos
valores observamos. En el anáisis de correlación normal, hacemos las
mismas suposiciones que en análisis de regresión normal, excepto que las x’s
no son constantes, sino valores de una variable aleatoria que tiene una
distribución normal.
Ya que la distribución del muestreo de r es más bien complicada de acuerdo
con estas supocisiones, en la práctica es común hacer inferencias acerca de ρ
con base en la transformación de Z de Fischer, un cambio de escala de r a
Z que se optiene por medio de :
1 1+r
Z= · ln
2 1−r
Análisis de Correlación
Análisis de Correlación
Para cualquier valor de ρ, la distribución de Z es aproximadamente normal
con:
1 1+ρ
µz = · ln (4)
2 1−ρ
1
σz = √ (5)
n−3
Por tanto,
Z − µz √
z= = (Z − µz ) n − 3
σz
Análisis de Correlación
p1 + p2 + · · · + pk = 1
MSc. Rafael Roberto Ruiz Escorcia Cecar
Pruebas de Hipótesis
Bondad de ajuste cuando la distribución fundamental es con
Regresión lineal simple
Pruebas de Kolmogorov-Smirnov de la bondad de ajuste
Regresión Parabólica Simple
Prueba de Homogeneidad
Análisis de Correlación
Prueba de Independencia
Pruebas de Bondad de Ajuste
Ei = npi
Teorema
Supongamos que tenemos una muestra aleatoria con n observaciones, cada
una de las cuales podrá ser clasificada en una y sólo una de las k
categorı́as. Representaremos los valores observados en cada categorı́a por
O1 , O2 , · · · , Ok y, en consecuencia, si una hipótesis nula H0 especifica que
las probabilidades de que una observación se encuentre en cada una de las
categorı́as son p1 , p2 , · · · , pk , entonces, bajo H0 , los valores esperados en las
categorı́as serán:
Ei = npi donde i = 1, 2, · · · , k
Luego, si todos los Ei son mayores o iguales que 5, entonces, un constraste
al nivel de significancia α de H0 frente a la alternativa de quelas
probabilidades especificas no son correctas, estará en la siguiente regla de
decisión:
Rechazar H0 si χ2 > χ2α (k − 1)
Aquı́, χ2 es el estidistico de prueba, χ2α (k − 1) es el valor de una variable
aleatoria que deja un área α a la derecha de la distribución chi-cuadrada
con k − 1 grados de libertad
MSc. Rafael Roberto Ruiz Escorcia Cecar
Pruebas de Hipótesis
Bondad de ajuste cuando la distribución fundamental es con
Regresión lineal simple
Pruebas de Kolmogorov-Smirnov de la bondad de ajuste
Regresión Parabólica Simple
Prueba de Homogeneidad
Análisis de Correlación
Prueba de Independencia
Pruebas de Bondad de Ajuste
Ejemplo
Hace 15 años, una determinada empresa echó a su lago barbules, mojarras,
bochachico y arenques en porcentajes de 20, 15 40 y 25, respectivamente.
¿Ha cambiado la distribución original de peces a lo largo de estos 15 años,
si una muestra aleatoria reciente proporcionó las cantidades que se
muestran en la siguinete tabla? Use un nivel de significancia del 5 %.
Ejemplo
En su experimento con guisantes, Gregor Mendel observó que 315 eran lisos
y amarillos; 108, lisos y verdes; 101, rugosos y amarillos y 32, rugosos y
verdes. De acuerdo con su teorı́a de la herencia, esos números debı́an estar
en la proporción 9:3:3:1. ¿Hay alguna evidencia para dudar de su teorı́a al
nivel de significancia 0,01?
Ejemplo
En 360 lanzamientos de un par de dados han salido 74 sietes y 24 onces.
Con un nivel de significancia de 0,05, contrástese la hipótesis de que los
dados no están “cargados”.
Ejemplo
Tres monedas fueron lanzadas 80 veces y se registró el número de caras
obtenido, como se muestra en la siguinete tabla:
Número de caras de i 0 1 2 3
Frecuencias 20 38 18 4
Ejemplo
Los siguientes datos representan las edades de 40 niños matriculados en una
escuela preescolar privada:
2.2 4.1 3.5 4.5 3.2 3.7 3.0 2.6 3.4 1.6 3.1
4.7 3.7 2.5 4.3 3.4 3.6 2.9 3.3 3.9 3.1 3.3
3.7 3.2 4.4 2.6 3.2 3.9 4.1 3.0 1.9 4.2 3.4
3.8 3.1 3.8 3.3 4.7 3.5
Con un nivel de significancia de 0.05, determı́nese si la distribución de
frecuencia de estos datos se puede aproximar mediante una distribución
normal con media µ = 3,5 y desviación estándar σ = 0,7
c
P Dn ≤ √ =α
n
La región crı́tica de la prueba será
c
Dn ≤ √
n
Ejemplo
Las edades de una muestra aleatoria de 8 personas en una sala de cine son
como se muestran abajo. Aplı́quese la prueba de Kolmogorov-Smirnov para
determinar, con un nivel de significancia de 5 %, si las edades se
distribuyen normalmente.
Ejemplo
Las puntuaciones obtenidas por una muestra de sujetos en una prueba de
habilidad han sido las siguientes:
48.1 47.8 45.1 46.3 45.4 47.2 46.6 42.2 46 43.6
Sabiendo que la media en dicha prueba es 40 y su desviación tı́pica es 3,
¿podemos afirmar que la distribución de las puntuaciones sigue una normal,
con un α = 0.01?
Prueba de Homogeneidad
Theorem
Supongamos que cada individuo de I poblaciones pertenece a exactamente
una de la J categorı́as y que se toma una muestra aleatoria de tamaño n
cuyas observaciones se organizan a través de una tabulación cruzada en una
tabla de contingencia de I × J. Sea, entonces,
pij =la proporción de los individuos de la población i que cae en la categorı́a
j.
Si la hipótesis nula es:
Ri Ci
Êij =
n
Prueba de Homogeneidad
Theorem
donde Ri y Ci son totales correspondientes, respectivamente, a las filas y a
las columnas. Si todos los Eij son mayores o iguales que cinco, entonces, un
contraste al nivel se significancia α de H0 frente a la alternativa de que las
probabilidades especificas no son correctas, estará basado en la siguiente
regla de decisión:
donde;
I X J
X (Oij − Êij )2
χ2 =
i=1 j=1 Êij
Prueba de Homogeneidad
Ejemplo
Supóngase que se selecciona a 200 Barranquilleros, a 150 Samarios y a 150
Cartageneros y se les clasifica según estén a favor, encontra o no hayan
decidido respecto a una nueva Ley. Las respuestas observadas aparecen en
la siguiente tabla de contingencia.
Opinión Barranquilleros Samarios Cartageneros Total
A favor 82 70 62 214
En contra 93 62 67 222
Sin decisión 25 18 21 64
Totales 200 150 150 500
Al nivel del 5 % determı́nese si, para cada opinión, las proporciones de
Barranquilleros, Samarios y Cartageneros son las mismas.
Prueba de Homogeneidad
Ejemplo
Estamos interesados en estudiar la fiabilidad de cierto componente
informático con relación al distribuidor que nos lo suministra. Para realizar
esto, tomamos una muestra de 100 componentes de cada uno de los 3
distribuidores que nos sirven el producto comprobando el número de
defectuosos en cada lote. La siguiente tabla muestra el número de
defectuosos en para cada uno de los distribuidores.
Defectuosos Correctos Totales
Distribuidor 1 16 94 100
Distribuidor 2 24 76 100
Distribuidor 3 9 91 100
Totales 49 251 300
Prueba de Independencia
Prueba de Independencia
Estamos interesados en determinar si dos cualidades o variables referidas a
individuos de una población están relacionadas. Se diferencia de los
contrastes anteriores en que en este caso estamos interesados en ver la
relación existente entre dos variables de una misma población, no queremos
contrastar la distribución teórica de una variable (prueba de bondad de
ajuste) ni en comparar la distribución de una única variable en dos
poblaciones (prueba de homogeneidad).
Prueba de Independencia
Prueba de Independencia
Al igual que para el Test de homogeneidad, el estadı́stico del contraste será:
I X J
X (Oij − Êij )2
χ2 =
i=1 j=1 Êij
Prueba de Independencia
Ejemplo
Para estudiar la dependencia entre la práctica de algún deporte y la
depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con
los siguientes resultados:
Prueba de Independencia
Ejemplo
Un estudio que se realizó con 81 personas referente a la relación entre la
cantidad de violencia vista en la televisión y la edad del televidente produjo
los siguientes resultados.
¿Indican los datos que ver violencia en la televisión depende de la edad del
televidente, a un nivel de significación del 5 %?