Pruebas de Hipótesis, Regresión, Correlación y Ajuste

Pruebas de Hipótesis
Regresión lineal simple

Regresión Parabólica Simple
Análisis de Correlación
Pruebas de Bondad de Ajuste
Estadı́stica Inferencial
MSc. Rafael Roberto Ruiz Escorcia
Corporación Universitaria del Caribe

CECAR
2019
MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones fundamentales de muestreo
Conceptos metodológicos
Es requisito fundamental de una buena muestra que las caracterı́sticas de
interés que existen en la población se reflejen en la muestra de la manera
más cercana posible, para esto se necesitan definir los siguientes conceptos.
Población objetivo: es la colección completa de todas las unidades
que se quieren estudiar.
Muestra: es un subconjunto de la población.
Unidad de muestreo: es el objeto a ser seleccionado en la muestra
que permitirá el acceso a la unidad de observación.
Unidad de observación: es el objeto sobre el que finalmente se
realiza la medición.
Variable de interés: es la caracterı́stica propia de los individuos
sobre la que se realiza la inferencia para resolver los objetivos de la
investigación.

Marco de muestreo
Todo procedimiento de muestreo probabilı́stico requiere de un dispositivo que
permita identificar, seleccionar y ubicar a todos y cada uno de los objetos
pertenecientes a la población objetivo y que participarán en la selección alea-
toria. Este dispositivo se conoce con el nombre de marco de muestreo. En
investigaciones por muestreo se consideran dos tipos de objetos:
Elementos: las unidades básicas e individuales sobre las que se realiza
la medición.
Conglomerado: agrupación de elementos cuya caracterı́stica principal
es que son homogéneos dentro de sı́, y heterogéneos entre sı́.
Cuando no existe un marco de muestreo disponible es necesario construirlo.
Existen dos tipos de marcos de muestreo, a saber:
De Lista: listados fı́sicos o magnéticos, ficheros, archivos de
expedientes, historias clı́nicas que permiten identificar y ubicar a los
objetos que participarán en el sorteo aleatorio.
De Área: mapas de ciudades y regiones en formato fı́sico o magnético,
fotografı́as áereas, imágenes de satélite o similares que permiten
delimitar regiones
MSc. Rafael o unidades
Roberto geográficas
Ruiz Escorcia Cecar en forma tal que su
Ejemplo
Suponga que una entidad oficial del gobierno de su paı́s está interesada en
la realización de una encuesta de desempleo con el fin de determinar a)
cuántas personas actualmente pertenecen a la fuerza laboral, tanto en el
paı́s en cuestión como en sus regiones o subdivisiones geográficas y b)
qué proporción de éstas están desempleadas. Con base en lo anterior se
tienen los siguientes aspectos para la realización de dicho estudio:
Población objetivo: Todas las personas de Colombia.
Dominios o subgrupos de interés: Grupos de edad, género, grupos
ocupacionales y regiones del paı́s.
Caracterı́sticas de interés: Pertenencia a la fuerza laboral y estado
de empleo. Éstas toman valor uno o cero.
Parámetros de interés: Número total de personas pertenecientes a la
fuerza laboral, número total de desempleados, proporción de desempleo.
Muestra: Se selecciona una muestra de la población con la ayuda de
mecanismos de identificación y ubicación de las personas en el paı́s.
Observaciones: Cada persona incluida en la muestra es visitada por
un encuestador entrenado,
MSc. Rafael Roberto quien hará
Ruiz Escorcia preguntas siguiendo un
Cecar
Sesgo
En el diseño y puesta en marcha de una encuesta puede ocurrir cierto tipo
de situaciones que pueden sesgar las estimaciones finales. Este tipo de sesgos
puede ocurrir antes, durante y después de la recolección de los datos. Es tarea
del estadı́stico advertir ante todas las posibles instancias de los problemas
que causan los sesgos y procurar que, en todas las etapas de la encuesta, se
minimice el error humano y el error estadı́stico para que al final los resultados
del estudio sean tan confiables como sea posible.

Sesgo de selección
Este tipo de sesgo ocurre cuando parte de la población objetivo no está en el
marco de muestreo. Una muestra a conveniencia es sesgada pues las unidades
más fáciles de elegir o las que más probablemente respondan a la encuesta
no son representativas de las unidades más difı́ciles de elegir. Por ejemplo, si
el parámetro de interés es la cantidad promedio de gastos en compras en un
centro comercial y el encuestador elige a las personas que salen con muchos
paquetes, entonces la información estarı́a sesgada puesto que no está refle-
jando el comportamiento promedio de las compras.

Sesgo de medición
Este tipo de sesgo ocurre cuando el instrumento con el que se realiza la
medición tiene una tendencia a diferir del valor verdadero que se desea averi-
guar. Éste sesgo debe ser considerado y minimizado en la etapa de diseñó de
la encuesta. Por ejemplo Cuando el respondiente miente. Esta situación se
presenta a menudo en encuestas que pregunta acerca del ingreso salarial,
alcoholismo y drogadicción, nivel socioeconómico e incluso edad.

Distribución Conjunta
Se define como la distribución de probabilidad definida sobre el conjunto de
todas las posibles muestras. Si se denota M Aj = {a1 , a2 , · · · , an } la muestra
j-ésima, la probabilidad conjunta en el muestreo se define como el conjunto
de valores P (M Aj ) = pj que asigna a cada muestra, de tamaño n, la pro-
Pj(n)
babilidad de ser seleccionada. Entonces, pj ≥ 0 y i=1 pj = 1 donde j(n)
es el número de muestras posibles de tamaño n que se pueden extraer de la
población de tamaño N .
Se distinguen cuatros tipos: sin reemplazamiento y sin distinción del orden,
con reemplazamiento y sin distinción del orden, sin reemplazamiento distin-
guiendo el orden, y con reemplazamiento distinguiendo el orden.

Distribuciones Fundamentales de muestreo
Distribuciones Conjuntas
1 Sin reemplazamiento y sin distinción del orden. En una
población de tamaño N se encuentran N n
posibles muestras distintas,
siendo la probabilidad de selección de cada una de ellas: pj = n!(NN−n)!
!
2 Con reemplazamiento y sin distinción del orden. En una
población de tamaño N se encuentran N +n−1 n
posibles muestras
distintas, siendo la probabilidad de selección de cada una de ellas:
n!(N −1)!
pj = (N +n−1)!
3 Sin reemplazamiento distinguiendo el orden. En una población
de tamaño N se encuentran (NN !
−n)!
posibles muestras distintas, siendo
(N −n)!
la probabilidad de selección de cada una de ellas: pj = N!
4 Con reemplazamiento y con distinción del orden. En una
población de tamaño N se encuentran N n posibles muestras distintas,
siendo la probabilidad deselección de cada una de ellas: pj = N1n .

Ejemplo
Sea X = {x1 , x2 , x3 , x4 } una población formada por N = 4 elementos. Se
extrae una muestra de tamaño n = 2. Determine la distribución conjunta en
los 4 casos posibles de selección.

Estimación
Los procedimientos de estimación se centran en los parámetros como la
media, la varianza y el total en el caso cuantitativo o como la proporción y
el total de clase en el caso cualitativo.

Definición
Dado un tipo de muestreo probabilı́stico, a partir del cual se obtiene una
muestra se denomina estimador a una función de la muestra
θ̂(x1 , x2 , · · · , xn ) = θ̂ que se usa para inferir el valor de la caracterı́stica
poblacional θ
Definición
La esperanza de un estimador se define como la media de todas las
muestras, es decir,
X
E(θ̂) = θ̂(x1 , x2 , · · · , xn ) ∗ Pj
M Aj
La varianza de un estimador se define como la dispersión respecto de la

media del estimador, es decir,
X
V (θ̂) = E[(θ̂ − µθ̂ )2 ] = (θ̂ − µθ̂ )2 ∗ Pj
M Aj

Ejemplo
Sea la población X =Número de hermanos {1, 1, 2, 2, 3}.
a) Determine los parámetros µx , σ 2 , S 2
b) Selecciona una muestra de tamaño n = 2. Calcula la esperanza (E(θ̂)) y
la varianza (V (θ̂)) del estimador de la media.

Error cuadrático medio

Se denomina error cuadrático medio ECM a
h i2
ECM (θ̂) = V (θ̂) + E(θ̂) − θ
Un criterio para comparar estimadores es el error cuadrático medio. Se elige

el estimador que tenga el menor valor para ECM. Se ha descompuesto el
ECM en dos sumandos positivos: la varianza del estimador y el sesgo al
cuadrado del estimador.

Estimador Insesgado
Los estimadores insesgados son aquellos que su media o esperanza
matemática coincide con el valor verdadero del parámetro. Es decir
E(θ̂) = θ. Cualquier estimador insesgado minimiza el error cuadrático
medio; en cuyo caso, ECM (θ̂) = V (θ̂). El mejor estimador insesgado es
aquel que tiene varianza mı́nima, proporcionando el menor ECM.

Ejemplo
Dada la población {5, 10, 15, 20, 25, 30}. Se toma muestreo de tamaño n = 2,
con reemplazo y con orden, y se estima la media.
5X1 + 3X2 3X1 + 4X2 8X1 + 10X2
µˆ1 = ; µˆ2 = ; µˆ3 =
14 9 17
a) Determine los parámetros µ, σ 2 y S 2 .

b) Calcule la esperanza y la varianza de cada estimador.
c) Halle el sesgo de cada estimador.
d) Halle el ECM y decidir cual estimador es mejor.

Ejemplo
Dada la población {5, 10, 15, 20, 25, 30}. Se toma muestreo de tamaño n = 5,
con reemplazo y con orden, y se estima la media.
4X1 + X2 + 4X3 + 2X4 + X5 8X1 + 4X2 − 3X3 − 2X4 − 4X5
µˆ1 = ; µˆ2 =
15 3
a) Calcule la esperanza y la varianza de cada estimador.

b) Halle el sesgo de cada estimador.
c) Halle el ECM y decidir cual estimador es mejor.

Muestreo Aleatorio Simple (MAS)
MAS
El muestreo aleatorio simple puede ser visto como la forma más básica de
selección de muestras. Supone la existencia de homogeneidad en los valores
poblacionales de la caracterı́stica de interés. Partiendo de esta asunción, este
diseño provee probabilidades de selección idénticas para cada una de las po-
sibles muestras pertenecientes al soporte Q. Lohr (2000) cita un ejemplo al
respecto del uso del diseño de muestreo aleatorio simple diciendo que, cuan-
do la población es homogénea, el investigador no necesita examinar todos
los elementos de la población ası́ como el encargado del análisis médico no
necesita obtener toda la sangre para medir la cantidad de glóbulos rojos.

Muestreo Aleatorio Simple
Algoritmos de selección
Durante muchos años, la teorı́a de muestreo se centró en la parte de la
extracción de muestras aleatorias, más que en la construcción de los
estimadores. Con la gran ventaja de los nuevos procesadores, lo anterior
pasa a un segundo plano. A continuación se presentan dos métodos de
selección de una muestra aleatoria simple de tamaño n de una población de
tamaño N . Existen bastantes métodos de selección de una muestra
aleatoria sin reemplazo, en esta sección se abordan dos algoritmos de
selección. El primero da una asunción más simple, y puede ser comparado
con el conocido método de la extracción de una balota; sin embargo,
Tillé (2006) afirma que este método es inećiente computacionalmente. El
segundo método basado en un algoritmo secuencial, permite la selección de
la muestra con una sola revisión del marco de muestreo.

Método coordinado negativo

Sunter (1977) ha probado que el siguiente método de ordenamiento
aleatorio arroja como resultado una muestra aleatoria simple. Para extraer
la muestra de tamaño n de un universo de N objetos,
1 Generar N realizaciones de una variable aleatoria ξk (k ∈ U ) con
distribución uniforme (0,1).
2 Asignar ξk al elemento k-ésimo de la población.
3 Ordenar la lista de elementos descendente (o ascendentemente) con
respecto a este número aleatorio ξk .
4 A continuación, seleccionar los n primeros (o los n últimos) elementos.
Esta selección corresponde a la muestra realizada.
Es necesario tener la seguridad de que exista un número grande de décimas
en cada ξk para evitar problemas de empates (números aleatorios
repetidos).

Ejemplo
Suponga que estamos investigando sobre el porcentaje de estudiantes que
trabajan de una población de 20 alumnos de CECAR
Cuadro: Base de datos de la población
Nombre Trabaja Nombre Trabaja

Juan NO José SI
Marı́a SI Ana NO
Alicia NO Jorge NO
Fernanda NO Fabián NO
Pedro NO Alberto NO
Julio NO Rosa NO
Marcos SI Victoria SI
Carlos SI Carmen SI
Laura NO Miguel NO
Marcelo SI Enrique NO
Elija una MSc.

muestra
Rafaelaleatoria simple
Roberto Ruiz de tamaño
Escorcia Cecar n = 4 de esta población
Método de selección y rechazo

Fan, Muller & Rezucha (1962) implementaron el siguiente algoritmo de
muestreo secuencial (porque se recorre el marco de muestreo, elemento por
elemento, y se decide la pertenencia o el rechazo del objeto en la muestra).
En general se supone que el marco de muestreo tiene N individuos, y se
quiere seleccionar una muestra aleatoria de n individuos. Ası́, para el
individuo k(k = 1, 2, · · · , N ), se tiene que:
1 Realizar ξk ∼ U (0; 1)
2 Calcular;
n − nk
ck = .
N −k+1
Donde nk es la cantidad de objetos seleccionados en los k − 1 ensayos
anteriores.
3 Si ξk < ck, entonces el elemento k pertenece a la muestra.
4 Detener el proceso cuando n = nk .

Estimación de la media poblacional

El estimador más utilizado de la media poblacional es la media nuestral:
n
1X
µ̂x̄ = xi
n i=1
La media muestral es un estimador insesgado de la media poblacional:
E[µ̂x̄ ] = µx
La varianza del estimador, en el muestreo sin reemplazo, es:
S2 n
V [µ̂x̄ ] = 1−
n N

Estimación del total

El estimador más utilizado del total poblacional es:
n
N X
τ̂x = xi
n i=1
N µ̂x̄ es un estimador insesgado del total poblacional
E[τ̂x ] = E[N µ̂x̄ ] = τx
La varianza del estimador del total, en muestreo sin reemplazo, es:
N 2S2 n
V [τ̂x ] = 1−
n N

Estimación de la proporción y del total de clase

En muchos estudios de muestreo el interés se centra, principalmente, en la
proporción de indiviuos, p, o el número total de ellos, A, que presentan una
determinada cualidad, perteneciendo estos a una clase que se denomina C.
Si se extrae una muestra aleatoria simple, de n individuos, el número de
ellos que pertenence a la clase C se denota mediante a y la proporción de
unidades de C sobre el total de la muestra por p̂ = na Se puede transformar
la variable cualitativa en otra cuantitativa de la siguiente forma:

 1 si Ai ∈ C
Xi =
0 si Ai 6∈ C


Estimación de la proporción
El estimador más utilizado de la proporción muestral es:
Pn
i=1 xi a
x̄ = = = p̂
n n
La proporción muestral es un estimador insesgado de la proporción
poblacional:
E[p̂] = p
La varianza del estimador, en muestreo sin reemplazo, es:
N − n pq
V [p̂] = ·
N −1 n

Estimación del total de clase

N p̂ es un estimador insesgado del total de clase, siendo su varianza:
N − n pq
V [Â] = N 2 · ·
N −1 n

Tamaño de la Muestra
Un aspecto fundamental al realizar un estudio es el tamaño de muestra que
se debe emplear para cumplir con los requisitos del investigador, como son
el error que se desea cometer, la variabilidad presente en los datos y el nivel
de confianza que se quiere tener con las estimaciones. Al controlar el error
el investigador tiene la certeza de hacer un estudio de mayor rigor cientı́fico
dejando un lı́mite muy pequeño de desviación con respecto al parámetro
que se está estimando. Sin embargo, como se discutirá en esta sección, al
minimizar el error se requiere aumentar notablemente el tamaño de la
muestra, y esto redundarı́a en mayores exigencias de tiempo y costos para
realizar el estudio.

Tamaño de la muestra para estimar la media

El tamaño muestral para estimar la media en muestreo sin reemplazamiento,
fijado el error estándar, εe , es:
no
n̂ =
1 + nN0
S2
n0 =
ε2e

Tamaño para estimar la proporción

Fijado el error estándar εe , el tamaño muestral para estimar la proporción
en muestreo:
n0
n̂ =
1 − nN0
S2 npq
n0 = =
ε2e (n − 1)ε2e

Ejemplo
Considere los siguientes datos (adjuntos) como una población de N=125
correspondiente a los lotes en venta en la ciudad de Cúcuta inscritos en una
página de publicidad.
a) Obtenga una muestra aleatoria de 20 lotes, Utlizando el método de
selección y rechazo.
b) Estime a partir de la muestra la media poblacional (µx̄ ) y la
cuasivarianza (S 2 ) de los precios de los lotes.
c) Estime a partir de la muestra el total poblacional (τ̂ )
d) Obtenga a partir de la muestra de 20 lotes los tamaños para estimar la
media con un error absoluto del 2 % de la media.

Muestreo Estratificado
El muestreo por estratos tiene la finalidad de estimar el promedio en toda
la ciudad considerando todos los estratos; y tales estimaciones se realizan
aplicando el muestreo aleatorio simple en cada estrato, estimando para cada
estrato y luego la estimación global mediante la ponderación apropiada. En
esta situación se puede dividir la población en L subpoblaciones, de tal modo
que la variabilidad dentro de cada subpoblación sea lo más pequeña posible,
y grande entre las diferentes subpoblaciones.
El muestreo estratificado tiene las siguientes ventajas:
1 Permite datos y estimaciones para cada estrato con una buena
precisión.
2 Permite considerar de manera individualizada los problemas que se
presentan en cada estrato.

Estimaciones puntuales
Si Ni es el tamaño i-ésimo estrato, i = 1, 2, · · · , L; se tiene la ponderación
por estrato
L
Ni X
Wi = y Wi = 1.
N i=1
Si ni es el tamaño de muestra en el i-ésimo estrato se verifica que

L
X
ni = n
i=1
El primer paso en la selección de la muestra aleatoria estratificada es

especificar claramente los estratos ası́ como cada unidad muestral se ubica
en el estrato apropiado.

Estimador de la media poblacional

El estimador de la media poblacional µy utilizado en el muestreo
estratificado es la media estratificada:
L
X
ȳst = Wi ȳi
i=1
donde yi es la media, según el muestreo aleatorio simple. La media

estratificada yst es un estimador insesgado de la media poblacional.
La varianza de este estimador en muestreo aleatorio simple sin reemplazo
aplicado a cada estrato es:
L
X Si2
V (ȳst ) = Wi2 (1 − fi )
i=1
ni

Estimador del total

El estimador del total poblacional se obtiene de la forma habitual:
L
X
τ̂st = N ȳst = N Wi ȳi
i=1
Este es un estimador insesgado del total poblacional. La varianza de este

estimador, aplicando muestreo aleatorio simple sin reemplazo en cada
estrato, es:
L
X S2
V (τ̂st ) = N 2 Wi2 i (1 − fi )
i=1
ni
En las fórmulas de varianza se pueden utilizar las cuasivarianzas muestrales
por estrato para estimar el valor poblacional.

Ejemplo
Una población de 6000 familias se divide en tres estratos con el fin de
estimar el ingreso medio mensual en miles de pesos. Se estudia una muestra
de 150 familias que proporciona los siguientes valores del ingreso familiar
medio y la cuasivarianza.
Estratos Ni ni ȳi Si2
I 1500 70 780 80.42
II 2500 45 1500 121.23
III 2000 35 4000 154.32

Ejemplo
Las granjas de una cierta región se dividen en cuatro categorı́as según su
superficie. El número de granjas en cada categorı́a es 72, 37, 50 y 11. Un
estudio para estimar el total de vacas productoras de leche en la región
produce una muestra estratif́icada de 28 granjas. El total de vacas
productoras de leche en estas 28 granjas viene dado en la siguiente tabla.
Categorı́as Total de Vacas

Categorı́a I 61, 47, 44, 70, 28, 39, 51, 52, 101, 49, 54, 71
Categorı́a II 160, 148, 89, 139, 142, 93
Categorı́a III 26, 19, 21, 34, 28, 15, 20, 24
Categorı́a IV 17, 11
Estimar el total de vacas productoras de leche ası́ como el error estándar del
estimador.

Estimador de la proporción
Se codifica la variable cualitativa de la siguiente manera:

 1 si el individuo Ai ∈ C
Xi =
0 si el individuo Ai 6∈ C

Entonces, p̂i = X̄i es la proporción muestral en cada estrato; la proporción

estratificada
L
X
pst = Wi p̂i
i=1
La varianza de este estimador con muestreo aleatorio simple, sin reemplazo,

en cada estrato es:
L
X p̂i q̂i
V̂ (pst ) = Wi2 (1 − fi )
i=1
ni − 1

Estimador del total de clases

Para el total de clase de la población se tiene el siguiente estimador:
L
X
Ast = N ∗ pst = N Wi p̂i
i=1
La varianza estimada del total de clase es:

L
X p̂i q̂i
V̂ (Ast ) = N 2 ∗ V̂ (pst ) = N 2 Wi2 (1 − fi )
i=1
ni − 1

Ejemplo
Al planear una encuesta para estimar el porcentaje de personas económica-
mente activas con auto propio en una población de 150000 habitantes se di-
vidió la población en tres estratos y se obtuvo una muestra de 5000 utilizando
el criterio de afijación proporcional.
Estrato Ni Wi p̂i ni
I 80000 0.53 0.12 2667
II 40000 0.27 0.54 1333
III 30000 0.20 0.87 1000

Afijación de la muestra
Se llama afijación de la muestra al reparto o distribución del tamaño
muestral n entre los diferentes estratos. Esto es, a la determinación de los
valores ni donde i = 1, 2, 3, · · · , L que verifiquen
n1 + n2 + · · · + nL = n
Pueden establecerse muchas afijaciones o “maneras” de repartir la muestra

entre los estratos, pero las más importantes son: la afijación uniforme, la
afijación proporcional, la afijación de varianza minima y la afijación optima.

Afijación Uniforme
Este tipo de reparto consiste en asignar el mismo numero de unidades
muestrales a cada estrato con lo que se tomaran todos los ni iguales a
k = n/L. Para este tipo de afijación, las varianzas de los estimadores
vendrán dadas por
L
Si2

X k
V (ȳst ) = Wi2 1− ⇒ Varianza de la media
i=1
k Ni
L
S2

X k
V (τ̂st ) = Ni2 i 1 − ⇒ Varianza del total
i=1
k Ni
L
X Ni p̂i q̂i k
V (Ast ) = Ni2 1− ⇒ Varianza del total de clase
i=1
Ni − 1 k Ni
L
X Ni p̂i q̂i k
V (pst ) = Wi2 1− ⇒ Varianza de la proporción
i=1
Ni − 1 k Ni

Afijación Proporcional
Consiste en asignar a cada estrato un número de unidades muestrales
proporcional a su tamaño. Las n unidades de la muestra se distribuyen
proporcionalmente a los tamaños de los estratos expresados en número de
unidades. Si el tamaño muestral es proporcional al tamaño del estrato,
entonces existe una constante k positiva tal que
ni = kNi , donde i = 1, 2, 3, · · · , L
y para conocer el tamaño muestral es necesario conocer esa constante k.

Tenemos que:
n
k=
N
Por lo tanto, la constante k es igual a la fracción de muestreo fi .

Afijación Proporcional
Para este tipo de afijación, las varianzas de los estimadores serán:
L
1−k X
V (ȳst ) = Wi Si2 ⇒ Varianza de la media
n i=1
L
1−k X
V (τ̂st ) = Ni Si2 ⇒ Varianza del total
k i=1
L
1 − k X Ni2
V (Ast ) = p̂i q̂i ⇒ Varianza del total de clase
k i=1 Ni − 1
L
1 − k X Ni2 /N
V (p̂st ) = p̂i q̂i ⇒ Varianza de la proporción
k i=1 Ni − 1

Estimación de Razón
Estimación de razón separada

Hay dos maneras de hacer una estimación de razón del total de población
Y . Una de ellas es una estimación de razón separada del total de cada
estrato y la suma de estos totales. Si yij , xij son los valores de la muestra
en el estrato i-ésimo y Xi es el total del estrato, la estimación Ŷrs (s por
separada) es:
L Pni
X yij
Ŷrs = Pnj=1
i
Xi
i=1 j=1 xij
No se supone que la verdadera razón permanece constante al pasar de un

estrato al otro. La estimación requiere del conocimiento de los totales
separados Xi . La varianza de este estimador, en muestreo aleatorio simple,
para muestras grandes en cada estrato es:
ni
L
!
X Ni2 (1 − fi ) X (yri − R̂i xri )2
V (Ŷrs ) =
i=1
ni r=1
ni − 1
El sesgo de este estimador en cada estrato es menor o igual que el

Estimación de razón separada
Ejemplo
A continuación aparece una muestra del número de bovinos macho (M) y
hembra (H) en los municipios del departamento del Atlántico; dividido en
tres estratos: cero a 12 meses, 13 a 24 meses y más de 24 meses. La población
cuenta con 23 municipios en cada estrato. Los totales de hembras en cada
estrato son X1 = 27643, X2 = 29401, X3 = 114946; y se desea estimar el
número total de machos.
Estrato I Estrato II Estrato III
M H M H M H
2767 2771 315 357 57 324
1730 1722 1180 1164 720 4255
733 736 830 813 335 1977
828 825 235 229 350 2102
1387 1392 1220 1208
5114 5110

Estimación de Razón
Estimación de razón combinada

La estimación de razón combinada utiliza los totales combinados, que se
definen como:
L L
X X Ŷst
Ŷst = Ni ȳi ; X̂st = Ni x̄i ; Ŷrc = X
i=1 i=1 X̂st
La estimación de Ŷrc no requiere un conocimiento de las Xi sino solamente

de X. La estimación combinada está menos sujeta al riesgo que la
estimación separada. La varianza de este estimador para muestras grandes,
por medio de muestreo aleatorio simple, es:
ni
L
!
X Ni2 (1 − fi ) X (yri − R̂c xri )2
V (Ŷrs ) =
i=1
ni r=1
ni − 1

Estmación de razón combinada
Ejemplo
Se midió el ingreso familiar en salarios mı́nimos (y) y los gastos mensuales (x)
en una población constituida por 3 estratos. Los datos cumplen una relación
lineal a través del origen. Estime el ingreso total por medio de la estimación
de razón separada y la estimación de razón combinada. Los datos adicionales
son: n1 = 40, n2 = 45, n3 = 32, N1 = 800, N2 = 900, N3 = 600, X1 =
1320, X2 = 2115, X3 = 1865
Estrato I Estrato II Estrato III
y x y x y x
2,5 1,2 4,1 2,0 5,6 2,8
3,5 1,7 4,5 2,2 5,8 2,9
4 1,8 4,6 2,3 5,9 2,9
3,3 1,6 4,8 2,4 6,5 3,2
4,2 2,0 4,3 2,1 6,4 3,1
2,6 1,3 4,9 2,4 6,3 3,1
3,7 1,8 4,2 2,1 6,4 3,1
3,1 1,5 4,7 2,4 6,9 3,4
3,3 1,4 4,2 2,0 5,7 2,8
3,7 1,9 4,6 2,2
4,7 2,3
MSc.
4,5
Rafael Roberto Ruiz Escorcia
2,2
Cecar
Prueba de Hipótesis para la media
Pruebas de hipótesis para la diferencia de medias (Muestras
Prueba de Hipótesis para la Proporción
Prueba de Hipótesis para la Diferencia de dos Proporciones
Hipótesis Estadı́stica
Una Hipótesis estadı́stica es una afirmación cuantitativa acerca de una o
más poblaciones o, lo que es más frecuente, un conjunto de afirmaciones
sobre uno o más parámetros de una o más poblaciones.
Hipótesis nula y alternativa

La hipótesis nula, que se simboliza por H0 y es la hipótesis que se debe
comprobar, es una afirmación que consiste en negar toda diferencia
entre dos poblaciones, entre dos parámetros poblacionales o entre el
valor verdadero de algún parámetro y su valor hipotético.
La hipótesis alternativa, se simboliza por H1 , se establece como el
“complemeto” de la hipótesis nula y representa la conclusión cuando
Ho se rechaza.

Siempre que vayamos a proponer una hipótesis estadı́stica, en términos de

la hipótesis nula H0 o la alternativa H1 , debemos tener en cuenta las
siguientes advertencias:
La hipóteis nula H0 siempre se refiere a un valor especı́fico del
parámetro de la población (como por ejemplo, µ), no al estadı́stico
muestral (como x̄)
La expresión de la hipótesis nula siempre contiene un signo igual
respecto al valor especificado del parámetro poblacional.
La expresión de la hipótesis alternativa nunca contiene un signo igual
respecto al valor especificado del parámetro de la población.

La decisión entre la HIPÓTESIS NULA y la HIPÓTESIS ALTERNATIVA,

se hace en base a un estadı́stico, llamado ESTADÍSTICO DE PRUEBA,
que vincula el estimador con el parámetro. Suponiendo que la hipótesis nula
es verdadera el ESTADÍSTICO DE PRUEBA tiene una distribución
conocida que permite calcular la probabilidad de cometer error.

Errores tipo I de tipo II

Generalmente se acostumbra discutir las decisiones con respecto a la
hipótesis nula, presentándose dos posibles decisiones:
1 Aceptar la hipótesis nula (o rechazar la alternativa)
2 Rechazar la hipótesis nula (o aceptar la alternativa)
Con el fin de llegar a una de estas conclusiones, se adopta una regla de
decisión basada en la información muestral.
Decisión sobre H0 H0 es verdadera H0 es falsa
Aceptar H0 Decisión correcta Error tipo II
Rechazar H0 Error tipo I Decisión correcta

El caso de muestras grandes

Cuando estamos considerando una población normal (con cualquier tamaño
de muestra) o, bien una población de forma desconocida con muestras
grandes (n ≥ 30) y bajo el supuesto de que la varianza poblacional es
conocida o desconocida, los resultados son los mismos aunque sea por
razones distintas. En estos casos, la distribución muestral es la distribución
normal. Ası́, en cualquiera de los tres casos siguiente que podemos
considerar para la hipótesis nula. H0 : µ = µ0 , H0 : µ ≥ µ0 , H0 : µ ≤ µ0
x̄−µ
√ 0 y la región crı́tica
El estadı́stico de prueba tiene la forma de Z = σ/ n
dependerá de cada uno de estos tres casos.

Tipo de
Regla de Decisión
Hipótesis
H0 : µ ≥ µ0
H1 : µ < µ0
Cola a la Si Z ≤ −Zα , entonces se rechaza
izquierda H0 ; en caso contrario, se acepta H0
H0 : µ ≤ µ0
H1 : µ > µ0
Cola a la Si Z ≥ Zα , entonces se rechaza H0 ;
derecha en caso contrario, se acepta H0
H0 : µ = µ0
H1 : µ > µ0
Si Z ≤ −Zα/2 o Z ≥ Zα/2 , entonces
Dos colas se rechaza H0 ; en caso contrario, se
acepta H0

Prueba para la media
Ejemplo
Como parte de un proceso de ensamblaje, se usa un taladro para hacer agu-
jeros en una lámina de matal. Cuando el taladro funciona adecuadamente,
los diámetros de estos agujeros tienes una distribución normal con media de
dos centı́metros y una desvición tı́pica de 0, 06 centı́metros. Periódicamente,
se miden los diametros de una muestra aleatoria de agujeros para controlar
que el taladro funciones según los parámetros. Asumamos que la desvición
tı́pica no varı́a y que una muestra aleatoria de 60 medidas da un diámetro
medio de 1, 95 centı́metros. Pruebe la hipótesis de que la media poblacional
es 2 centı́metro frente a una alternativa de otro valor.

Prueba para la media
Ejemplo
Una muestra aleatoria de 100 muertes registradas en cierto paı́s durante el año
pasado mostró una vida promedio de 71,8 años. Suponiendo una desviación
estándar poblacional de 8,9 años , ¿podrá esto indicar que la vida promedio
hoy en dı́a es mayor que 70 años? utilice un nivel de significancia de 5 %

El caso de muestras pequeñas

Cuando estamos considerando una población normal (con cualquier tamaño
de muestra) o, bien una población de forma desconocida con muestras
pequeñas (n ≤ 30) y bajo el supuesto de que la varianza poblacional es
conocida o desconocida, los resultados son los mismos aunque sea por
razones distintas. En estos casos, la distribución muestral es la distribución
t-student. Ası́, en cualquiera de los tres casos siguiente que podemos
considerar para la hipótesis nula. H0 : µ = µ0 , H0 : µ ≥ µ0 , H0 : µ ≤ µ0
El estadı́stico de prueba tiene la forma de t = x̄−µ√ 0 y la región crı́tica
s/ n
dependerá de cada uno de estos tres casos.

Tipo de
Regla de Decisión
Hipótesis
H0 : µ ≥ µ0
H1 : µ < µ0
Cola a la Si t ≤ −tα , entonces se rechaza H0 ;
izquierda en caso contrario, se acepta H0
H0 : µ ≤ µ0
H1 : µ > µ0
Cola a la Si t ≥ tα , entonces se rechaza H0 ;
derecha en caso contrario, se acepta H0
H0 : µ = µ0
H1 : µ > µ0
Si t ≤ −tα/2 o t ≥ tα/2 , entonces
Dos colas se rechaza H0 ; en caso contrario, se
acepta H0

Para muestras pequeñas
Ejemplo
Un fabricante de drogas dice que el tiempo promedio para que se disuelva el
contenido de cierta droga es de 50 segundos. El gerente de la empresa
competitiva no cree en esto. Por eso, hace una prueba al azar de 20 drogas,
calculando una media muestral de 54 segundos y desviación tı́pica de 15
segundos. En concreto, el gerente desea saber si puede concluir que el
tiempo promedio necesario que se requiere para que el contenido se disuelva
es mayor que 50 segundos. Ayúdelo, utilizando un nivel de significancia de
0,05.

Para muestras pequeñas
Ejemplo
Pruebe la hipótesis de que el contenido promedio de las bolsas de cierto
tipo de tedergente es de 10 kilogramos si los contenidos de una muestra
aleatoria de 10 bolsas son 10,2; 9,7; 10,1; 10,3; 10,1; 9,8; 9,9; 10,4; 10,3 y 9,8
kilogramos. Utilice un nivel de significancia de 0,01 y suponga que la
distribución del contenido es normal.
Ejemplo
Los incrementos porcentuales de las utilidades de una empresa aleatoria de
8 empresas licoreras durante el año pasado fueron:16,1; 14,4; 12,9; 13,7;
14,9; 14,6; 12,5 y 15,3. Haga una prueba con nivel de 5 % significancia para
determinar si el incremento porcentual promedio de las utilidades de todas
las empresas licoreras fue diferente a 14. Suponga que los valores se
distribuyen normalmente.


independientes)
Primer caso: Varianzas poblacionales conocidas o desconocidas y n ≥ 30

Las hipótesis que podemos probar parala diferencia de dos medias
poblacionales µ1 y µ2 son las siguientes:
H0 : µ1 − µ2 = d0 , H0 : µ1 − µ2 ≥ d0 , H0 : µ1 − µ2 ≤ d0 ,
El estadı́stico de prueba tiene, entonces, la forma:
(x̄1 − x̄2 ) − d0
Z= q 2
σ1 σ2
n1
+ n22
La región crı́tica dependerá de cada uno de los tres casos antes propuestos.


independientes)
Ejemplo
Se llevó a cabo un estudio entre expertos matemáticos para conocer su
opinión sobre las mujeres matemáticas. Se le pidió que evaluaran en una
escala de uno (totalmente en desacuerdo) a cinco (totalmente de acuerdo)
la afirmación: “Las mujeres matemáticas tienen la misma ofertas de trabajo
que los hombres”. Para una muestra aleatoria de 186 hombres de esta
profesión, la respuesta media fue de 4,059 con una desviación tı́pica de
0,839. Para una muestra aleatoria independiente de 172 mujeres
matemáticas, la respuesta media fue 3,680 con una desviación tı́pica de
0,966. Utilice un nivel de significancia del 5 % para contrastar la hipótesis
nula de que las dos medias poblacionales son iguales frente a la alternativa
de que ambas son diferentes.


independientes)
Ejemplo
En un establecimiento escolar suburbano, se seleccionó al azar una muestra
aleatroria de 35 estudiantes de quinto grado (grupo 1) de una población de
estudiantes pertenecientes a familias en que ambos trabajan. Se
seleccionó también una muestra aleatoria de 25 estudiantes (grupo 2) del
mismo grado y establecimiento escolar entre aquellos estudiantes que
pertenecen a familias en que solomente el padre trabaja. El análisis de los
puntajes de rendimiento escolar (en escala de 1 a 100) de los dos grupos dio
los siguientes resultados: un puntaje promedio de 78 para el grupo 1 y de 85
para el grupo 2. La experiencia muestra que las poblaciones de puntajes
para ambos grupos están distribuidas en forma aproximadamente normal,
con varianzas de σ12 = 81 y σ22 = 25. Utilizando un nivel de significancia del
5 % y en base a estos datos, determı́nese si es posible concluir que la media
de la población del grupo 1 es inferior a la media de la población del grupo
2.


independientes)
Segundo caso: Varianzas poblacionales iguales, desconocidas y n ≤ 30

H0 : µ1 − µ2 = d0 , H0 : µ1 − µ2 ≥ d0 , H0 : µ1 − µ2 ≤ d0 ,
(x̄1 − x̄2 ) − d0
t= q
s2 2
n1
+ ns 2
Y corresponde al valor de una variable aleatoria que tiene distribución t de
student con v = n1 + n2 − 2 grados de libertad. De modo que en la
expresión anterior,
(n1 − 1)s21 + (n2 − 1)s22
s2 =
n1 + n2 − 2
Es la llamada muestral varianza combinada y corresponde a un estimador
insesgado de la varianza poblacional común. La región crı́tica dependerá de
cada uno MSc.
de los tresRoberto
Rafael casosRuiz
vistos anteriormente.
Escorcia Cecar

independientes)
Ejemplo
Se llevó a cabo un estudio que pretendı́a valorar el efecto de la presencia de
un moderador sobre el número de ideas generadas por un grupo. Se
observaron cuatro miembros, con y sin moderadores. Para una muestra
aleatoria de cuatros grupos con moderador, el número medio de ideas
generadas por grupo fue de 78, con una desviación tı́pica de 24,4. Al mismo
tiempo, que para una muestra aleatoria independiente de cuatro grupos sin
moderador, el número medio de ideas generadas por grupo fue de 63,5, con
dsviación tı́pica de 20,2. Asumiendo que las distribuciones poblaconales son
normales con igual varianza, Contrástese la hipótesis nula de que las medias
poblacionales son iguales frente a la aternativa de que la verdadera media es
mayor para los grupos con moderador. Use un nivel de significancia del 10 %


independientes)
Ejemplo
Se llevó a cabo un experimento para comparar el deterioro abrasivo de dos
materiales laminados diferente. Para este menester, se probaron doce piezas
del material 1, exponiendo cada una a una maquina para medir el deterioro.
De la misma manera, se probaron diez piezas del material 2. En cada caso,
se observó la profundidad del deterioro. Las muestras del material 1 dieron
un deterioro promedio de 85 unidades con una desviación estándar muestral
de 4, mientras que las del material 2 dieron un promedio de 81 y una
desviación est”andar muestral de 5. ¿Puede concluirse en el nivel de
significancia del 5 % que el deterioro abrasivo del material 1 excede al del
material 2 por más de 2 unidades? Asúmase que las poblaciones son
aproximadamente normales con varianzas iguales.


independientes)
Tercer caso: Varianzas poblacionales diferentes, desconocidas y muestras

pequeñas
H0 : µ1 − µ2 = d0 , H0 : µ1 − µ2 ≥ d0 , H0 : µ1 − µ2 ≤ d0 ,
(x̄1 − x̄2 ) − d0
t= q 2
s1 s2
n1
+ n22
Lo cual corresponde al valor de una variable aleatoria que tiene distribución
t de Student con
2 2
s1 s2
n1
− n22
v = (s2 /n )2 (s2 /n2 )2
(1)
1 1
n1 −1
+ n2 2 −1

independientes)
Ejemplo
El departamento de zoologı́a de cierto instituto llevó a cabo un estudio para
estimar la diferencias en la cantidad de cierta sustancia quı́mica en dos
estaciones diferentes de un rı́o. La sustancia se mide en miligramos por
litros y se reunieron 15 muestras de la estación 1 y 12 de la estación 2. Las
muestras de la estación uno tuvieron un contenido promedio de sustancias
quı́mica de 3,84 miligramos por litros y una desviación estándar de 3,07
miligramos por litros, mientras las 12 muestras de la estación 2 tuvieron un
contenido promedio de 1,49 miligramos por litro y una desviación estándar
de 0,80 miligramos por litro. Al nivel del 5 %, determı́nese si los contenidos
reales de sustancia en estas dos estaciones son diferentes, suponiendo que
las observaciones vienen de poblaciones normales distribuidas con varianzas
diferentes.


dependientes)
Ejemplo
Un equipo médico midió el nivel de cierto producto quı́mico en la sangre de
15 pacientes antes y después afrontar una situación que producı́a anciedad.
La siguiente tabla muestra los resultados. Con base en estos datos y al nivel
de 0,05, verı́fiquese si las situaciones que producen ansiedad aumentan el
nivel de este producto quı́mico en la sangre. Suponga que las poblaciones en
cuestión están normalmente distribuidas.
Par 1 2 3 4 5 6 7
Antes (yi ) 8 15 20 18 12 10 22
Después (xi ) 28 10 15 14 12 21 25
Par 8 9 10 11 12 13 14 15
Antes (yi ) 18 7 14 7 20 9 17 14
Después (xi ) 22 11 16 10 27 10 22 24

Theorem
Sea p̄ la proporción de éxitos en una muestra aleatoria de tamaño n,
procedente de una población con proporción p éxitos. Supongamos que se
cumple alguna de las dos siguientes condiciones:
(a) n ≥ 30
(b) np ≥ 5 y n(1 − p) ≥ 5
Entonces, una prueba de hipótesis con nivel de significancia α para la
proporción p su estadı́stico de prueba viene dado por Z = q pp̄−p 0
(1−p )
.
0 0
n

Ejemplo 1
De una muestra aleatoria de 802 clientes de supermecados, 378 pagaron sus
artı́culos con tarjetas de crédito. Contrástese, al nivel de 10 %, la hipótesis
nula de que al menos la mitad de los compradores pagan sus artı́culos con
tarjeta de crédito frente a la alternativa de que la proporción poblacional es
menor a la mitad.
Ejemplo 2
Un doctor afirma que el 12 % de todas las citas son canceladas y, en
concreto, durante un periodo de seis meses, fueron canceladas 21 de las 200
citas del doctor. Hágase una prueba, con un nivel de significancia del 5 %,
para determinar si la verdadera proporción de todas la citas que son
canceladas es diferente de 12 %.

Theorem
Sea p̄1 la proporción de éxitos observada en una muestra aleatoria de
tamaño n1 , procedente de una población con proporción p1 de éxitos, y sea
p2 la proporción de éxitos observada en una muestra aleatoria independiente
de tamaño n2 , procedente de una población con proporción de éxitos p1 .
Supongamos que se cumple alguna de las siguientes dos condiciones:
(a) n ≥ 30
(b) n1 p1 ≥ 5, n2 p2 ≥ 5, n1 (1 − p1 ) ≥ 5 y n2 p2 ≥ 5
Entonces, una prueba de hipótesis con nivel de significancia α para la
diferencia de proporciones p1 − p2 , tiene la misma forma como se ha
trabajado anteriormente, siendo ası́,
(p̄1 − p̄2 )
Z= q
p̄0 (1−p̄0 ) p̄0 (1−p̄0 )
n1
+ n2
el estadı́stico de prueba correspondiente con

n1 p̄1 + n2 p̄2
p̄0 =
MSc. Rafael Roberto Ruiz Escorcia n1 + n2
Cecar
Ejemplo 1
Un rector de cierta universidad afirma que la proporción de hombres con
auto en el campus es mayor a la proporción de mujeres. Un profesor de
estadı́stica se interesa en la afirmación y entrevista aleatoriamente a 100
hombres y a 100 mujeres, encontrando que 34 hombres y 27 mujeres tienen
autos en el campus. ¿Puede concluirse con un nivel de 5 % que la afirmación
del rector es falsa?
Ejemplo 2
De una muestra aleatoria de 203 anuncios publicados en revistas
colombianas, 32 eran de deportes. Mientras que, otra muestra aleatoria
independiente de 270 anuncios publicados en revistas brasileras, 56 eran de
deportes. Usando un nivel del 5 % contrástese frente a una alternativa
bilateral, la hipótesis nula de que las proporciones de anuncios deportivos
de las revistas colombianas y brasileras son iguales.

El objetivo del análisis de regresión es establecer en qué medida se

relacionan el cambio de una variable sobre el cambio en otra controlando
algunos factores, dicho de otro modo, estudia la relación no determinı́stica
de las varı́ables.


El modelo de regresión simple supone que la variable dependiente y es una
combinación lineal de los parámetros (β0 , β1 ), pero no necesariamente de
las variables independientes x, esto puede ser cierto o no, la relación de
dependencia se expresa como sigue:
y = β0 + β1 x
y: Observación
β0 : Valor de la media de y cuando x es 0
β1 : Cantidad en la que cambia y cuando x cambia en una unidad



Dado que cada observación no se ajusta estrictamente a la modelación
y = β0 + β1 x se hace necesario considerar el error, la distorsión o el residuo,
esto es admitir que la relación entre las variables no es determinı́stica sino
estocástica donde ε representará la variable aleatoria (error, distorsión o
residuo). Esta relación es estocástica porque se omiten factores, existen
errores de medición y especialmente por la complejidad de las relaciones y
fenómenos sociales. El modelo probabilı́stico lineal es representado por la
función genérica
y = β0 + βi xi + εi donde i = {1, 2, · · · , n}


En su representación gráfica obtendremos un diagrama de dispersión donde
cada punto representa una observación, la relación es aproximadamente
lineal, las desviaciones de los puntos representa el término estocástico

Este modelo no solo considera la variable aleatoria ε, sino que

adicionalmente establece ciertos supuestos sobre su comportamiento tales
como: su distribución normal N (0, σ 2 ), esto es E(ε) = 0 con varianza
conocida V ar(ε) = σ 2 . Para aquellos puntos que quedan por encima de la
recta se considera que ε > 0 ; si quedan por debajo ε < 0.

Los valores de las estimaciones de los parámetros β̂1 y β̂0 estarán dado por
la covarianza de xy (cov(xy)) y la varianza de x (var(x))
Pn
i=1 (y − ȳ)(x − x̄) cov(xy)
β̂1 = Pn =
i=1 (x − x̄)
2 var(x)
β̂0 = ȳ − β̂1 x̄

Coeficiente de determinación
se interpreta como la proporción, o al ser multiplicada por 100, el

porcentaje de la variación observada en y que puede ser explicada por la
recta de regresión o modelo. El Coeficiente de determinación r2 siempre
será positivo por ser un valor elevado al cuadrado y el valor máximo que
puede tomar es 1 por ser una proporción (0 ≤ r2 ≤ 1). El análisis del ajuste
de la lı́nea de regresión se conoce con el nombre de bondad de ajuste.
Pn 2
i=1 (ŷi − ȳ)
r 2 = Pn
i=1 (yi − ȳ)
2

Ejemplo
Observamos dos variables en una muestra de paı́ses desarrollados

X: Consumo anual de vino (en litros por habitante)
Y : No de muertes por enfermedad cardı́aca, por cada 100.000 hab.
¿Qué podemos decir sobre la relación entre las dos variables?

¿Podemos afirmar que a mayor consumo de vino menor número de
muertes por enfermedad cardı́aca?
¿Podemos predecir aproximadamente el valor de la variable Y si
sabemos el valor de X?

Ejemplo
En la tabla se muestran las puntuaciones recogidas a partir de una muestra

de 27 sujetos en una escala observacional de estrés y en un test orientado a
evaluar la utilización de mecanismos de afrontamiento. El rango de puntua-
ciones en ambas variables puede oscilar entre 0 a 100, significando puntuacio-
nes más altas mayor estrés y mayor capacidad de utilización de mecanismos
de afrontamiento, respectivamente.

Bases para las inferencias
Estimación de σ 2
El parámetro σ 2 determina la cantidad de variabilidad inherente en el
modelo de regresión. En este sentido, un valor grande de σ 2 ocasionará que
las (xi , yi ) observadas estén muy dispersas alrededor de la verdadera recta
de regresón, mientras que cuando σ 2 es pequeña, los puntos observados
tenderán a caer muy cerca de la verdadera recta de regresión.
Theorem
Supongamos que la recta de regresión poblacional es Y = β0 + β1 xi + i y
que se verifican los supuestos. Sea ası́, β̂ la estimación de mı́nimos
cuadrados de β. Denotamos por σ 2 la varianza común de los términos de
error i . Entonces, un estimador insesgado de σ 2 se optiene mediante:
Syy − βˆ1 Sxy

S2 =
n−2
Pn
donde: Syy = i=1 (yi − ȳ)2 y Sxy = (xi − x̄)(yi − ȳ)

Distribución Muestral de los estimadores de mı́nimos cuadrados
Theorem
Denotemos por βˆ0 y βˆ1 la estimación de mı́nimos cuadrados del intercepto y
de la pendiente de la recta de regresión poblacional, respectivamente.
Supongamos, otra vez, que se verifican los supuestos. Entonces:
(a) El estimador βˆ0 es insesgado para β0 y tiene varianza σ 2ˆ . Un β0
estimador insesgado de σβ2ˆ se obtienen mediante
0
Pn
S2 x2i
Sβ2ˆ0 = i=1
nSxx
(b) El estimador βˆ1 es insesgado para β1 y tiene varianza σβ2ˆ . Un

1
estimador insesgado de σβ2ˆ se obtienen mediante
1
S2
Sβ2ˆ1 =
Sxx

Bases para la inferencia sobre los estimadores de mı́nimos cuadrados
Theorem
Supongamos, otra vez, que se verifican los supuestos, y si además, puede
asumirse los errores i tienen distribución normal, entonces, las variables
aleatorias correspondientes a:
βˆ0 − β0 βˆ1 − β1
t1 = y t2 =
Sβˆ0 Sβˆ1
se distribuyen como un t de Student con n-2 grados de libertad.

Intervalos de confianza para la pendiente y el intercepto
Theorem
Supongamos, otra vez, que se verifican los supuestos, y si además, puede
asumirse los errores i tienen distribución normal, entonces, las variables
aleatorias correspondientes a:
(a) Un intervalo de confianza del (1 − α)100 % para β0 se obtiene mediante:
β̂0 − t α2 Sβ̂0 < β0 < β̂0 + t α2 Sβ̂0
(b) Un intervalo de confianza del (1 − α)100 % para β1 se obtiene mediante:
β̂1 − t α2 Sβ̂1 < β1 < β̂1 + t α2 Sβ̂1
Aquı́, α2 es el valor de una variable aleatoria que deja un área de α/2 a la

derecha de la distribución t de Student con n-2 grados de libertad.

Pruebas de Hipótesis para la pendiente y el intercepto
Cantraste para la pendiente de la regresión poblacional usando prueba t

Bajo ciertas condiciones, las hipótesis que probaremos para la pendiente de
la regresión poblacional β1 son las siguientes:
H0 : β1 = θ; H0 : β1 ≤ θ; H0 : β1 ≥ θ
donde θ es cualquier número real. El estadı́stico de prueba tiene la forma de
β̂1 − θ
t=
Sβ̂1
La distribución a considerar es la t-Student con n-2 grados de libertad

Pruebas de Hipótesis para la pendiente y el intercepto
Cantraste para el intercepto de la regresión poblacional usando prueba t

Bajo ciertas condiciones, las hipótesis que probaremos para el intercepto de
la regresión poblacional β0 son las siguientes:
H0 : β0 = θ; H0 : β0 ≤ θ; H0 : β0 ≥ θ
donde θ es cualquier número real. El estadı́stico de prueba tiene la forma de
β̂0 − θ
t=
Sβ̂0
La distribución a considerar es la t-Student con n-2 grados de libertad

Ejemplo
En la siguiente tabla se muestran las puntuaciones de una prueba de
aprovechamiento de estadı́sticas y las calificaciones finales del curso de
Estadı́stica inferencial para estudiantes universitarios.
Puntuación de aprovechamiento Calificación final de Estadı́stica
39 3,25
43 3,9
21 2,6
64 4,1
57 4,6
47 4,45
28 3,65
75 4,9
34 2,8
52 3,75


No siempre la relación de las variables xey es lineal. Cuando aquellos
fenómenos que se observan en un diagrama de dispersión, presentan una
concentración de puntos inicialmente ascendentes y enseguida descendente
(o lo contrario) se debe utilizar una regresión de tipo parabólico. la
ecuación general de la parábolica es:
Ŷ = ax2 + bx + c
donde a, b y c son los parámetros.Las ecuaciones que serán consideradas
para hallar dichos parámetros son:
X X 2 X
yi = a xi + b xi + nc
X X 3 X 2 X
xi yi = a xi + b xi + c xi
X 2 X 4 X 3 X 2
xi yi = a xi + b xi + c xi

Coeficiente de correlación parábolico

El proceso para determinar el coeficiente de correlación parábolico será:
2
Sxy
r2 = 1 −
Sy2
donde
Pn
2 i=1 (yi − Ŷ )2
Sxy = (2)
n
yi2 − nȳ 2
P
Sy2 = (3)
n

Lı́mites de confianza para Ŷ

Cuando el estimador se calcula con base en un valor para x, es decir, la
variable independiente, se tendrá que:
s
1 (x − x̄)2
Ŷ ± tn−2 Syx 1 + + P P 2
n x2 − ( xi ) n

Ejemplo
Un fabricante quiere establecer si hay una relación parabólica entre las
ausencias al trabajo(X)(número de permiso al mes) y la edad del
trabajador(Y). Para ello selecciona una muestra de 10 trabajadores, con la
siguiente información:
yi 28 32 46 24 28 36 42 37 51 42
xi 5 8 4 7 10 4 3 4 3 4
a) Estimar la edad para una persona que solicita 6 permiso en el mes.

b) Calcular el coeficiente de correlación parabólica.
c) Fije los limites de confianza del 5 %

Para hacer inferencias acerca de ρ con base en r, debemos hacer varias
suposiciones acerca de la distribuciones de las variables aleatorias cuyos
valores observamos. En el anáisis de correlación normal, hacemos las
mismas suposiciones que en análisis de regresión normal, excepto que las x’s
no son constantes, sino valores de una variable aleatoria que tiene una
distribución normal.
Ya que la distribución del muestreo de r es más bien complicada de acuerdo
con estas supocisiones, en la práctica es común hacer inferencias acerca de ρ
con base en la transformación de Z de Fischer, un cambio de escala de r a
Z que se optiene por medio de :
1 1+r
Z= · ln
2 1−r

Para cualquier valor de ρ, la distribución de Z es aproximadamente normal
con:
1 1+ρ
µz = · ln (4)
2 1−ρ
1
σz = √ (5)
n−3
Por tanto,
Z − µz √
z= = (Z − µz ) n − 3
σz

Intervalos de confianza para ρ

Para elaborar intervalos de confianza para ρ, primero estructuramos
intervalos de confianza para µz y luego despejamos a r en la ecuación de Z.
Por tanto el IC para µz es:
zα/2 zα/2
Z−√ < µz < Z + √
n−3 n−3

Bondad de ajuste cuando la distribución fundamental es con
Pruebas de Kolmogorov-Smirnov de la bondad de ajuste
Prueba de Homogeneidad
Prueba de Independencia
Pruebas de bondad de ajuste cuando las probabilidades de cada categorı́a

están completamente especificadas
Las pruebas de bondad de ajustes comparan los resultados de una muestra
con los que espera obtener cuando la hipótesis nula es verdadera. La
conclusión de esta prueba de hipótesis se basa en lo “cercano” que están los
resultados de la muestra con respecto a los resultados esperados.
Comenzamos a ilustrar la prueba con un ejemplo generalizado.


Podemos disponer de una muestra aletoria de tamaño n que podrá ser
clasificada en k categorı́as distintas. De manera que, si el numéro de
observaciones en cada categorı́a es O1 , O2 , . . . , Ok , la organización de esta
información será la mostrada en la siguiente tabla.
Categorı́as 1 2 ··· k Total

Número de observaciones O1 O2 ··· Ok n
Ahora, cuando hay k categorı́as, supondremos que la hipótesis nula

especifica las probabilidades p1 , p2 , . . . , pk de que una observación se
encuentre en cada categorı́a. Supondremos también, que las probabilidades
de contrastes en las diferentes categorı́as son mutuamentes excluyentes y
colectivamente exhaustivas, es decir cada observación muestral debe
pertenecer a una de las categorı́as y solo a una. en tal caso, las
probabilidades que aparecen en la hipótesis nula deben sumar 1, es decir,
p1 + p2 + · · · + pk = 1

Por tanto, si hay n observaciones muestrales, el número de datos esperados
en cada categorı́a, bajo la hipótesis nula, será:
Ei = npi
Considerando lo anterior tenemos,
Categorı́as 1 2 ··· k Total

# de observaciones O1 O2 ··· Ok n
Probabilidad p1 p2 ··· pk 1
Número esperado E1 = np1 E2 = np2 ··· Ek = npk n


Ahora bien, para contrastar la hipótesis nula, lo natural será examinar el
tamaño de lass diferencias entre lo que es observado y lo que es esperado.
Cuanto mayor sea esta diferencia en valor absoluto más sospecharemos de
la hipótesis nula, pues se puede demostrar que, cuando la hipótesis nula es
cierta y el tamaño muestral es considerada grande, la variable aleatoria
asociada con:
2
X (O1 − Ei )2
χ2 =
i=1
Ei
Sigue una distribución chi-cuadrada con k − 1 grados de libertad

Teorema
Supongamos que tenemos una muestra aleatoria con n observaciones, cada
una de las cuales podrá ser clasificada en una y sólo una de las k
categorı́as. Representaremos los valores observados en cada categorı́a por
O1 , O2 , · · · , Ok y, en consecuencia, si una hipótesis nula H0 especifica que
las probabilidades de que una observación se encuentre en cada una de las
categorı́as son p1 , p2 , · · · , pk , entonces, bajo H0 , los valores esperados en las
categorı́as serán:
Ei = npi donde i = 1, 2, · · · , k
Luego, si todos los Ei son mayores o iguales que 5, entonces, un constraste
al nivel de significancia α de H0 frente a la alternativa de quelas
probabilidades especificas no son correctas, estará en la siguiente regla de
decisión:
Rechazar H0 si χ2 > χ2α (k − 1)
Aquı́, χ2 es el estidistico de prueba, χ2α (k − 1) es el valor de una variable
aleatoria que deja un área α a la derecha de la distribución chi-cuadrada
con k − 1 grados de libertad
Ejemplo
Hace 15 años, una determinada empresa echó a su lago barbules, mojarras,
bochachico y arenques en porcentajes de 20, 15 40 y 25, respectivamente.
¿Ha cambiado la distribución original de peces a lo largo de estos 15 años,
si una muestra aleatoria reciente proporcionó las cantidades que se
muestran en la siguinete tabla? Use un nivel de significancia del 5 %.
Tipo de pez en el lago Barbul Mojarra Bocachico Arenque

Número de peces 132 100 200 168

Ejemplo
En su experimento con guisantes, Gregor Mendel observó que 315 eran lisos
y amarillos; 108, lisos y verdes; 101, rugosos y amarillos y 32, rugosos y
verdes. De acuerdo con su teorı́a de la herencia, esos números debı́an estar
en la proporción 9:3:3:1. ¿Hay alguna evidencia para dudar de su teorı́a al
nivel de significancia 0,01?
Ejemplo
En 360 lanzamientos de un par de dados han salido 74 sietes y 24 onces.
Con un nivel de significancia de 0,05, contrástese la hipótesis de que los
dados no están “cargados”.

Pruebas de bondad de ajuste cuando las probabilidades son funciones de

otros parámetros
Es frecuente plantear la hipótesis de que las probabilidades pi ,
i = 1, 2, · · · , k, depende de un número pequeño de parámetros
θ1 , · · · , θs (s < k). Este caso se ilustra a través del siguiente ejemplo:
Ejemplo
Tres monedas fueron lanzadas 80 veces y se registró el número de caras
obtenido, como se muestra en la siguinete tabla:
Número de caras de i 0 1 2 3
Frecuencias 20 38 18 4
Sea X una variable aleatoria que representa al número de caras al lanzar

las tres monedas. Usando un nivel de significancia del 5 %, determı́nese si
X tiene distribución binomial con parámetros m = 3 y p = 0, 5

Bondad de ajuste cuando la distribución fundamental es continua

La pruebaa chi-cuadrada también se puede emplear para probar si una
muestra de tamaño n proviene de una distribución continua especı́fica
fundamental.
Para usar este método, las fronteras de clase a0 , a1 , · · · , ak de los k
intervalos de clases se eligirán de tal modo que todas las probabilidades se
hallen ası́:
Zai
pi = P (ai−1 ≤ X ≤ ai ) = f (x)dx
ai−1
y con ello se calculan laas frecuencias esperadas mediante Ei = npi

Ejemplo
Los siguientes datos representan las edades de 40 niños matriculados en una
escuela preescolar privada:
2.2 4.1 3.5 4.5 3.2 3.7 3.0 2.6 3.4 1.6 3.1
4.7 3.7 2.5 4.3 3.4 3.6 2.9 3.3 3.9 3.1 3.3
3.7 3.2 4.4 2.6 3.2 3.9 4.1 3.0 1.9 4.2 3.4
3.8 3.1 3.8 3.3 4.7 3.5
Con un nivel de significancia de 0.05, determı́nese si la distribución de
frecuencia de estos datos se puede aproximar mediante una distribución
normal con media µ = 3,5 y desviación estándar σ = 0,7


La prueba de Kolmogorov-Smirnov es una prueba para bondad de ajuste
alternativo al de chicuadrado. Es únicamente apropiada para distribuciones
continuas y, con ella, la hipótesis a probar es que cierta función F es la
distribución acumulada en una población de la que se ha tomado una
determinada muestra aleatoria.
Denótese por x(1) , · · · , x(n) a las observaciones ordenadas de una muestra
aleatoria de tamaño n y defı́nase la función de distribución acumulada
muestral Fn (x) como la proporción del número de valores en la muestra que
son menores o iguales a x, es decir,
N umero de observaciones de la muestra ≤ x

Fn (x) =
n


Sea, ası́, Fn (x) la distribució teórica, completamente especificada, propuesta
bajo la hipótesis nula. Entonces, la estaı́stica de kolmogorov-Smirnov se
define como:
Dn − 0 = máx | Fn (x) − F (x) |

n
Dn tenderá a ser pequeño cuando la hipótesis nula H0 es cierta, pero

tenderá a ser grande si la verdadera función de distribución acumulada es
distinta de F (x). Para n y α dados, se halla c talque:

c
P Dn ≤ √ =α
n
La región crı́tica de la prueba será
c
Dn ≤ √
n

Ejemplo
Las edades de una muestra aleatoria de 8 personas en una sala de cine son
como se muestran abajo. Aplı́quese la prueba de Kolmogorov-Smirnov para
determinar, con un nivel de significancia de 5 %, si las edades se
distribuyen normalmente.
16.1 14.4 12.9 13.7 14.9 14.6 12.5 15.3

Ejemplo
Las puntuaciones obtenidas por una muestra de sujetos en una prueba de
habilidad han sido las siguientes:
48.1 47.8 45.1 46.3 45.4 47.2 46.6 42.2 46 43.6
Sabiendo que la media en dicha prueba es 40 y su desviación tı́pica es 3,
¿podemos afirmar que la distribución de las puntuaciones sigue una normal,
con un α = 0.01?

Theorem
Supongamos que cada individuo de I poblaciones pertenece a exactamente
una de la J categorı́as y que se toma una muestra aleatoria de tamaño n
cuyas observaciones se organizan a través de una tabulación cruzada en una
tabla de contingencia de I × J. Sea, entonces,
pij =la proporción de los individuos de la población i que cae en la categorı́a
j.
Si la hipótesis nula es:
H0 : p1j = p2j = · · · = pij , ∀j = 1, · · · , J.
entonces, bajo H0 , el número esperado de observaciones en cada celda de la

tabla es:
Ri Ci
Êij =
n

Theorem
donde Ri y Ci son totales correspondientes, respectivamente, a las filas y a
las columnas. Si todos los Eij son mayores o iguales que cinco, entonces, un
contraste al nivel se significancia α de H0 frente a la alternativa de que las
probabilidades especificas no son correctas, estará basado en la siguiente
regla de decisión:
Rechazar si H0 si χ2 > χ2α
donde;
I X J
X (Oij − Êij )2
χ2 =
i=1 j=1 Êij
y χ2α es el valor de una variable aleatoria, que deja un área de α a la

derecha de la distribución chi-cuadrada con (I − 1)(J − 1) grados de libertad.

Ejemplo
Supóngase que se selecciona a 200 Barranquilleros, a 150 Samarios y a 150
Cartageneros y se les clasifica según estén a favor, encontra o no hayan
decidido respecto a una nueva Ley. Las respuestas observadas aparecen en
la siguiente tabla de contingencia.
Opinión Barranquilleros Samarios Cartageneros Total
A favor 82 70 62 214
En contra 93 62 67 222
Sin decisión 25 18 21 64
Totales 200 150 150 500
Al nivel del 5 % determı́nese si, para cada opinión, las proporciones de
Barranquilleros, Samarios y Cartageneros son las mismas.

Ejemplo
Estamos interesados en estudiar la fiabilidad de cierto componente
informático con relación al distribuidor que nos lo suministra. Para realizar
esto, tomamos una muestra de 100 componentes de cada uno de los 3
distribuidores que nos sirven el producto comprobando el número de
defectuosos en cada lote. La siguiente tabla muestra el número de
defectuosos en para cada uno de los distribuidores.
Defectuosos Correctos Totales
Distribuidor 1 16 94 100
Totales 49 251 300

Estamos interesados en determinar si dos cualidades o variables referidas a
individuos de una población están relacionadas. Se diferencia de los
contrastes anteriores en que en este caso estamos interesados en ver la
relación existente entre dos variables de una misma población, no queremos
contrastar la distribución teórica de una variable (prueba de bondad de
ajuste) ni en comparar la distribución de una única variable en dos
poblaciones (prueba de homogeneidad).

Al igual que para el Test de homogeneidad, el estadı́stico del contraste será:
I X J
X (Oij − Êij )2
χ2 =
i=1 j=1 Êij
y χ2α es el valor de una variable aleatoria, que deja un área de α a la derecha

de la distribución chi-cuadrada con (I − 1)(J − 1) grados de libertad.

Ejemplo
Para estudiar la dependencia entre la práctica de algún deporte y la
depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con
los siguientes resultados:
Sin depresión Con depresión

Deportista 38 9
No Deportista 31 22
Determinar si existe independencia entre la actividad del sujeto y su estado

de ánimo. Nivel de significación (5 %)

Ejemplo
Un estudio que se realizó con 81 personas referente a la relación entre la
cantidad de violencia vista en la televisión y la edad del televidente produjo
los siguientes resultados.
16-34 34-55 55 o más

Poca Vialencia 8 12 21
Mucha Violencia 18 15 7
¿Indican los datos que ver violencia en la televisión depende de la edad del
televidente, a un nivel de significación del 5 %?

Pruebas de Hipótesis, Regresión, Correlación y Ajuste

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Pruebas de Hipótesis, Regresión, Correlación y Ajuste

Загружено:

Авторское право:

Доступные форматы

Pruebas de Hipótesis

Regresión lineal simple

MSc. Rafael Roberto Ruiz Escorcia

Corporación Universitaria del Caribe

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones fundamentales de muestreo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones fundamentales de muestreo

Distribuciones fundamentales de muestreo

Distribuciones fundamentales de muestreo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones fundamentales de muestreo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones fundamentales de muestreo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones fundamentales de muestreo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones Fundamentales de muestreo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones Fundamentales de muestreo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones Fundamentales de muestreo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones Fundamentales de muestreo

La varianza de un estimador se define como la dispersión respecto de la

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones Fundamentales de muestreo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones Fundamentales de muestreo

Error cuadrático medio

Un criterio para comparar estimadores es el error cuadrático medio. Se elige

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones Fundamentales de muestreo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones Fundamentales de muestreo

a) Determine los parámetros µ, σ 2 y S 2 .

MSc. Rafael Roberto Ruiz Escorcia Cecar

Distribuciones Fundamentales de muestreo

a) Calcule la esperanza y la varianza de cada estimador.

MSc. Rafael Roberto Ruiz Escorcia Cecar

Muestreo Aleatorio Simple (MAS)

MSc. Rafael Roberto Ruiz Escorcia Cecar

Muestreo Aleatorio Simple

MSc. Rafael Roberto Ruiz Escorcia Cecar

Muestreo Aleatorio Simple

Método coordinado negativo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Muestreo Aleatorio Simple

Cuadro: Base de datos de la población

Nombre Trabaja Nombre Trabaja

Elija una MSc.

Muestreo Aleatorio Simple

Método de selección y rechazo

MSc. Rafael Roberto Ruiz Escorcia Cecar

Muestreo Aleatorio Simple

Estimación de la media poblacional

La media muestral es un estimador insesgado de la media poblacional:

La varianza del estimador, en el muestreo sin reemplazo, es:

MSc. Rafael Roberto Ruiz Escorcia Cecar

Muestreo Aleatorio Simple

Estimación del total

N µ̂x̄ es un estimador insesgado del total poblacional