Академический Документы
Профессиональный Документы
Культура Документы
μ
x i Ver Tema 3 x
x i
N n
La media La media muestral
poblacional Donde: puede VARIAR
NO varía cuando diferentes
μ = Media poblacional muestras son
tomadas de la
x = Media muestral población
xi = Valores en la población o muestra
N = Tamaño de la población
n = Tamaño de la muestra
Ejemplo
Muestra n
͞xn Describir ͞x
A través de
una
distribución
muestral
Desarrollo de una Distribución
Muestral
• Supongamos una población…
• Tamaño de población N=4 A B C D
• Variable aleatoria, x, es la
edad de los individuos
• Valores de x: 18, 20,
22, 24 (años)
7-9
Desarrollo de una Distribución
Muestral
(continuación)
μ
x i
P(x)
N 0.3
18 20 22 24
21 0.2
4 0.1
(x
0
μ) 2
x
σ i
2.236 18 20 22 24
N A B C D
Distribución Uniforme
Desarrollo de una
Distribución Muestral
(continuación)
Considerar todas las muestras posibles de tamaño n=2
16 Medias
Muestrales
18 18 19 20 21 .3
20 19 20 21 22 .2
22 20 21 22 23 .1
24 21 22 23 24 0
18 19 20 21 22 23 24
_
x
(No es distribución uniforme)
Desarrollo de una
Distribución Muestral
(continuación)
Medidas de resumen de esta distribución muestral:
Promedio de
x 18 19 21 24 las medias
μx i
21 muestrales
N 16
σx
i x
(x μ ) 2
.2 .2
.1 .1
x
0 0
18 19 20 21 22 23 24
_
18 20 22 24 x
A B C D
Propiedades de una Distribución
Muestral
• Para cualquier población,
– El valor promedio de todas las posibles medias muestrales calculadas
de todas las posibles muestras aleatorias de un tamaño dado de la
población es igual a la media poblacional.
Es considerado un μx μ Teorema 1
estimador “insesgado”
σ
Llamado también σx Teorema 2
error estándar n
Si una Población es Normal
σ
y μx μ σx
n
Teorema 3
μx μ
Distribución
Muestral Normal
(tiene la misma media)
μx
Propiedades de la Distribución
Muestral (continuación)
• La media muestral es un estimador consistente
(el valor de x se acerca a μ a medida que n crece):
Población
x
Tamaño de
muestra
pequeño
Si n crece,
σ x σ/ n decrece Tamaño de
muestra
grande
μ
Valor Z para la Distribución Muestral
de x
• El valor z para la distribución muestral de x:
(x μ)
z
σ
n
Donde: x = Media muestral
μ = Media poblacional
σ = Desviación estándar poblacional
n = Tamaño de muestra
Corrección por Población Finita
• Aplicar la Corrección por Población Finita si:
– La muestra es grande relativa a la población
(n es mayor al 5% de N)
y…
– El muestreo es sin remplazo
(x μ)
z
Entonces σ Nn
n N 1
Nn
Donde: El factor de corrección por población finita es: N 1
Si la Población no es Normal
• Se puede aplicar el Teorema del Límite Central:
– Incluso si la población no es normal,
– …las medias muestrales de la población se
distribuirán aproximadamente como una normal
mientras el tamaño de muestra sea suficientemente
grande
– …y la distribución muestral tendrá:
σ
μx μ σx
y
n Teorema 4
Teorema del Límite Central
Mientras el n↑ La distribución
tamaño de muestral se
muestra sea hará casi
suficiente- normal sin
mente considerar la
grande… forma de la
población
¿Qué es suficientemente grande?
7.8 - 8 x -μ 8.2 - 8
P(7.8 x 8.2) P
3 σ 3
36 n 36
P(-0.4 z 0.4) 0.3108
• Estimador Consistente
Un estimador insesgado es un estimador consistente si la diferencia entre el
estimador y el parámetro tiende a cero conforme el tamaño de muestra se
agranda.
Ejemplo: la media muestral es un estimador consistente de la media poblacional.
Distribución Muestral de una Proporción
El objeto del muestreo es la estimación de la proporción de una población que
satisface un determinado atributo.
Ejemplos:
• Un contador puede estar interesado en determinar la proporción de saldos de cuentas
por cobrar que están correctas.
• Un supervisor de producción puede desear determinar el porcentaje de productos libre
de defectos.
• El departamento de investigación de mercados podría desear conocer la proporción de
compradores potenciales que efectivamente compraran el producto.
• En todos estos casos se puede seleccionar una muestra, calcular la
proporción muestral y tomar una decisión basada en los resultados de la
muestra.
n(1 π) 5
0
0 .2 .4 .6 8 1
p
Donde π(1 π)
μp π σp Teorema 5
y n
(Donde π = Proporción poblacional)
Valores Z para Proporciones
Estandarizar p a un valor z con la fórmula:
pπ pπ
z
σp π(1 π)
n
• Si el muestreo es sin remplazo y n es
mayor al 5% del tamaño poblacional,
π (1 π ) N n
entonces debe usar elσfactor
p de σp
corrección por población finita: n N 1
Usando la Distribución Muestral para
Proporciones
1. Determinar la proporción poblacional, p.
2. Calcular la proporción muestral, p.
3. Determinar la media y desviación estándar
de la distribución muestral.
4. Definir el evento de interés.
5. Si np y n(1-p) son ambos mayores que 5,
entonces convertir p a valor z.
6. Usar la tabla de la distribución normal
estándar para determinar la probabilidad.
Ejemplo
0.4251
Estandarizar
• Ejemplo:
Para determinar el costo de un producto se selecciona una muestra y cada
producto de la muestra es seguido a través de todo el proceso productivo,
registrándose los costos en que se incurre. Se indentifica el costo total de
cada producto y luego el costo promedio de la muestra. Este costo
promedio es un estimado puntual, o punto estimado, del verdadero costo
promedio de producción, el cual es un parámetro de la producción.
Puntos Estimados
Media μ x
Proporción π p
Punto Estimado o Estimado Puntual
Límite de Límite de
Confianza Confianza
Inferior Punto Estimado Superior
Ancho del intervalo de
confianza
Intervalos de Confianza
Muestra
Fórmula General
Valor z ( ó t) basado
en el nivel de
confianza deseado
Nivel de Confianza
• Nivel de Confianza
– Confianza en que el intervalo
contendrá al parámetro desconocido
• Un porcentaje (menor al 100%)
– Los más comunes: 90%, 95%, 99%.
Nivel de Confianza, (1-)
(continuación)
Intervalos de
Confianza
Media Proporción
Poblacional Poblacional
σ σ
conocida desconocida
Intervalo de Confianza para μ
(σ Conocida)
• Supuestos
– Desviación estándar poblacional σ es conocida.
– Población tiene distribución normal.
– Si la población no es normal, usar una muestra
grande n > 30.
• Intervalo de confianza:
Error estándar
σ
Estimado
xz
Punto
Valor
crítico n
Intervalo de Confianza para μ
(σ Conocida)
Media muestral ~ N(μ, σ/√n)
(Media muestral – μ)/ σ/√n ~ N(0, 1)
z ~N(0,1) Prob(z > zα/2) = α/2 zα/2
z ~N(0,1) Prob(z < -zα/2) = α/2 -
zα/2
(x – μ)/ σ/√n > zα/2 (x – μ)/ σ/√n < -zα/2
Error estándar
σ
Estimado
xz
Punto
Valor
crítico n
Hallando el Valor Crítico
• Considerar un intervalo de z 1.96
confianza al 95%:
1 .95 0.95/2 = 0.475
buscar en la
tabla Z
α α
.025 .025
2 2
Solución:
σ
xz
n
2.20 1.96 (0.35/ 11)
2.20 .2068
1.9932 2.4068
8-57
Margen de Error
Margen de Error
• Margen de Error (e): Es la cantidad agregada y sustraída al
punto estimado para formar el intervalo de confianza
• Define la relación entre el parámetro (población) y su estadístico (muestra).
• Medida de la cercanía que se espera que el estimado puntual esté del
parámetro poblacional, según el nivel de confianza especificado.
σ σ
xz ez
n n
Factores que Afectan el Margen
de Error
σ
ez
n
• Dispersión de datos, σ : e cuando σ
• Nivel de confianza, 1 - : e si 1 -
Intervalo de Confianza para μ
(σ Desconocida)
Intervalo de Confianza para μ
(σ Desconocida)
• Supuestos
– Desviación estándar poblacional es desconocida.
– Población tiene distribución normal.
– Si la población no es normal, usar una muestra
grande n > 30.
Sea x1 = 7
Si la media de estos tres
Sea x2 = 8 valores es 8.0,
¿x3 es? entonces x3 debe ser 9
(x3 no es libre de variar)
Aquí, n = 3, entonces los grados de libertad = n -1 = 3 – 1 = 2
(2 observaciones pueden tomar cualquier número, pero el
tercero no es libre de variar para una media dada)
Distribución t (de Student)
Comparación de distribuciones t con Z cuando
n crece
Cuando n , el estimado de s se
Normal hace mejor y t converge a Z
Estándar
(t con gl = )
t (gl = 13)
Las distribuciones t son
simétricas y tienen forma
de campana, pero tienen t (gl = 5)
colas más gruesas que la
normal
0 t
Tabla t (de Student)
Nivel de Confianza
Sea: n = 3, gl = n - 1 = 2,
gl 0.50 0.80 0.90 nivel de confianza = 90%
El cuerpo de la tabla
contiene valores t, 0 2.920 t
no probabilidades
Distribución t: Valores
Comparación con el valor z
Nivel de t t t z
Confianza (10 gl) (20 gl) (30 gl) ____
s s
xt xz
n n
Tamaño de la Muestra
s z σ
2
zσ 2 2
ez n 2
n e e
Tamaño de Muestra Requerido:
Ejemplo
Si s = 45. ¿Cuál es el tamaño de muestra
necesario al 90% de confianza para estar
dentro del ± 5?
zσ 2 2
1.645 (45) 2 2
n 2 2
219.19
e 5
(Siempre redondear
hacia arriba)
¿Qué si no se conoce la desviación estándar de
la población?
Tres alternativas:
• Considerar un valor d para la DS, tal que se tenga la
seguridad que la DS de la población será menor a ese valor
d.
• Tomar una muestra piloto y en base a ella estimar la DS de la
población. Los datos de la muestra piloto podrán ser usados
más adelante como unidades de la muestra que se recolecte.
• Emplear el rango de los valores que puede tomar la
población, para estimar su DS.
Continúa….
Rango de Valores Poblacionales
• La regla empírica y la distribución normal indican que virtualmente todos
los valores de la población están contenidos en el intervalo:
μ ± 3σ
De μ - 3σ a μ + 3σ
R = ( μ + 3σ ) - ( μ - 3σ ) = 6σ
p = x/n
Donde:
p: Proporción muestral
x: Número de objetos que satisfacen el atributo
n: Tamaño de la muestra
Intervalos de Confianza para la
Proporción Poblacional, π
p(1 p)
sp
n
Límites de un Intervalo de
Confianza
• Los límites de confianza, inferior y superior, para la
proporción poblacional son calculados con la fórmula
p(1 p)
pz
• Donde n
– z es el valor normal estándar para el nivel de confianza deseado
– p es la proporción muestral
– n es el tamaño de muestra
Ejemplo
Definir el π(1 π)
margen de error: ez
n
z π (1 π)
2
Calcular n: n 2
e
π puede ser estimado con una muestra
piloto. Si es necesario ser conservador usar
π = 0.50 (máxima variación posible, por lo
tanto, máximo tamaño de muestra)
¿Qué Tamaño de Muestra?
Solución:
Para el 95% de confianza, usar z = 1.96
e = 0.03
p = 0.12, usar esto para estimar π
Usar n = 451
Introducción a Pruebas de Hipótesis
Inferencia Estadística
Estimación
Estimación de un parámetro Puntual
poblacional a través de un
estadístico muestral Intervalos
Inferencia de
Estadística confianza
Prueba de Hipótesis
Rechazo o no rechazo de una afirmación
respecto de un parámetro poblacional, a través
de una muestra
Prueba de Hipótesis - Ejemplos
• El gerente de operaciones toma muestras cada dos horas de botellas de
jugos que están siendo llenadas para comprobar si el contenido
promedio de las mismas es de 32 onzas. Formula una hipótesis en la
dirección del status quo:
– Media poblacional
Ejemplo: La media de las cuentas mensua-
les de celulares en una ciudad es µ = $42
– Proporción poblacional
Ejemplo: La proporción de adultos con
celulares en esa ciudad es π = 0.68
• En la prueba de hipótesis se formulan dos hipótesis:
– La Hipótesis Nula: H0
– La Hipótesis Alternativa: HA
• Ejemplo. Goodyear ha desarrollado un nuevo neumático que aduce tiene una mayor
durabilidad que el de la competencia que, en promedio, se sabe que dura 60,000 millas
de uso. El peso de la prueba pasa a ser que el nuevo neumático dura más de 60,000
millas, por lo tanto las hipótesis se plantean así:
Solo si la data muestral produce una media muy superior a las 60,000 millas se
aceptará la hipótesis de investigación.
Errores en la Toma de
Decisiones
2. Error tipo I.
• Error Tipo I
– Rechazar la hipótesis nula cuando es verdadera.
– Considerado como un error grave.
• Error Tipo II
– No rechazar (aceptar) la hipótesis nula
cuando es falsa.
Muestra
Supongamos que la
¿Es x = 20 Si no es probable,
edad media muestral probable RECHAZAR
es 20: x = 20 si µ = 50? Hipótesis Nula
Razón para Rechazar la H0
Distribución Muestral de x
x
20 μ = 50
Si H0 es
Sería poco verdadera
... entonces
probable obtener rechazamos la
una media hipótesis nula
... si en realidad este valor
muestral de este fuera la media poblacional…
(μ = 50)
valor...
Resultados y Probabilidades
Resultados Posibles de Prueba de
Hipótesis
Escenario
Decisión H0 Verdadera H0 Falsa
No
No error Error Tipo II
Rechazar
Leyenda: (1 - ) (β)
Resultado H0
(Probabilidad) Rechazar Error Tipo I No Error
H0 ( ) (1-β)
Grave
Potencia de la prueba
Decisiones
También se tiene:
La fórmula usada para
– β cuando σ calcular el valor de β
será discutida
– β cuando n posteriormente
Nivel de Significancia α y Valor Crítico
H0: μ ≤ 25 días
HA : μ > 25 días
Pero se sabe que se tiene error muestral, entonces a partir de que valor de ͞x se está dispuesto
a no rechazar H0 y a partir de qué valor se estará dispuesto a rechazar H0.
Se requiere un punto de corte, que defina dos regiones excluyentes y exhaustivas de rechazo
y de no rechazo.
Este punto de corte, denominado Valor Crítico, se define en base a la definición de una
probabilidad máxima que se está dispuesto aceptar para cometer el Error tipo I. Esta
probabilidad recibe el nombre de Nivel de Significancia de la prueba α.
Nivel de Significancia α y Valor Crítico
Distribución Muestral de x
x
μ = 25
Punto de Corte:
Valor Crítico
Nivel de Significancia,
• Define valores poco probables para el
estadístico si la hipótesis nula es verdadera
– Define la región de rechazo de la distribución
muestral.
• Es identificado por , (nivel de significancia)
– Los valores típicos son 0.01, 0.05, ó 0.10.
• Es establecido por el investigador al inicio.
• Proporciona valor(es) crítico(s) para la prueba.
Hipótesis Nula de Igualdad
H0: μ = 3
Si ͞x resulta extremo, superior a ͞xmax HA: μ 3
o inferior a ͞xmin, entonces rechazar
H0 y considerar HA como cierta
-zmin 0 zmax
Hipótesis Nula de Desigualdad
H0: μ ≥ 3
Construcción de la prueba
HA: μ < 3
Prob deseada de rechazar
H0
Rechazar H0 No rechazar H0
Rechazar H0 No rechazar H0
͞xmin µ=3.5
Pruebas de Hipótesis para la Media
Pruebas de
Hipótesis para
σ conocida σ desconocida
• Caso de σ conocida
• Distribución normal de la media muestral
– Población con distribución normal
– Tamaño de muestra que permite la aplicación del
Teorema de Límite Central ( n ≥ 30 )
Procedimiento General
Se formulan las hipótesis nula y alternativa:
/2 /2
Basado en
Rechazar H0 No rechazar H0
-zα 0
xα µ=3
σ
x μ z
n
Valor Crítico para Prueba
Unilateral Derecha
El valor de corte, zα o xα , H0: μ ≤ 3
HA: μ > 3
es llamado valor crítico
No rechazar H0 Rechazar H0
0 zα
µ=3 xα
σ
x μ z
n
Valores Críticos para Prueba
Bilateral
Hay dos valores de H0: μ = 3
corte (valores críticos): HA: μ 3
± zα/2
o /2 /2
xα/2
Inferior
Rechazar H0 No rechazar H0 Rechazar H0
xα/2 -zα/2 0 zα/2
Superior
xα/2 µ=3 xα/2
Inferior Superior
σ
x/2 μ z/2
n
Dos Técnicas Equivalentes para
Probar Hipótesis
• Considerando Z:
– Dado , calcular el(los) valor(es) crítico(s) z:
• -zα o zα ,o ±zα/2
– Convertir la media x a z (estadístico de prueba): x μ
z
– Rechazar H0 si z está en la región de rechazo,
σ
en otro caso no rechazar H0 n
• Considerando x:
– Dado , calcular el(los) valor(es) crítico(s):
• xα o xα/2(Inf.) y xα/2(Sup.)
– La media muestral es el estadístico de prueba. Rechazar H0 si x está en
la región de rechazo, en otro caso no rechazar H0
Proceso de Prueba de Hipótesis
de US.
2. Formular la hipótesis nula y alternativa
H0: μ 3 HA: μ < 3 (Prueba Unilateral Izquierda)
3. Especificar el nivel de significancia deseado
Suponer que se elige = 0.05
Prueba de Hipótesis: Ejemplo
(continuación)
• 4. Determinar la región de rechazo
= .05
Rechazar H0 No rechazar H0
-zα= -1.645 0
x μ 2.84 3 .16
z 2.0
σ 0.8 0.08
n 100
Prueba de Hipótesis: Ejemplo
(continuación)
• 6. Tomar una decisión e interpretar el resultado
= .05
z
Rechazar H0 No rechazar H0
-1.645 0
-2.0
x
Rechazar H0 No rechazar H0
2.8684 3
2.84
σ 0.8
x α μ zα 3 1.645 2.8684
Como x = 2.84 < 2.8684, n 100
rechazamos la hipótesis
nula
Prueba de Hipótesis
a través del valor p
Valor p: Ejemplo
• Ejemplo: ¿Cuán probable es obtener
una media muestral de 2.84 (o menor a
esta) si la media poblacional es 3?
= 0.05
P(x 2.84)
valor p =0.0228
2.84 3.0
P z
0.8
100
P(z 2.0) 0.0228 2.8684 3 x
2.84
-1.645 0 Z
-2.00
Valor p: Ejemplo
(continuación)
= 0.10
No rechazar H0 Rechazar H0
0 zα
Rechazar H0 si z > zα
Prueba Unilateral Derecha para la
Media (s conocida): Ejemplo
(continuación)
Hallando el valor crítico:
Dado = 0.10. ¿Cuál es el valor z crítico?
x μ 53.1 52
z 0.88
σ 10
n 64
Prueba Unilateral Derecha para la
Media (s conocida): Ejemplo
(continuación)
Tomando una decisión e interpretando el resultado:
Rechazar H0
= 0.10
No rechazar H0 Rechazar H0
1.28
0
z = 0.88
No rechazar H0 dado que z = 0.88 ≤ 1.28 = zα
No hay suficiente evidencia para concluir que la cuenta
promedio mensual de celulares sea mayor a $52
Prueba Unilateral Derecha para la
Media (s conocida): Ejemplo
(continuación)
Probando a través del valor p:
Calcular el valor p y compararlo con
valor p = 0.1894
• Caso de σ desconocida
• Distribución normal de los valores de la
población
Pruebas de Hipótesis para μ, s
desconocida
• Cuando σ es desconocida, convertir el
estadístico (x) al estadístico de prueba t
Pruebas de
Hipótesis para
s conocida s desconocida
El estadístico de prueba es:
x μ
t n 1
(La población debe ser s
aproximadamente normal)
n
Proceso de Prueba de Hipótesis para
μ, s desconocida
1. Especificar el valor del parámetro de interés.
2. Formular la hipótesis nula y alternativa.
3. Especificar el nivel de significancia deseado.
4. Determinar la región de rechazo (los valores
críticos corresponden a la distribution t con n-1
grados de libertad).
5. Obtener una muestra aleatoria y calcular el
estadístico de prueba.
6. Tomar una decisión e interpretar el resultado.
Prueba Bilateral para μ, s
desconocida: Ejemplo
El costo promedio de una
habitación (hotel) en Nueva
York es $168 por noche.
Una muestra aleatoria de
25 hoteles da x = $172.5 y s
= $15.4. Probar para = H0: μ = 168
0.05. HA: μ 168
(Asumir que la población tiene distribución normal)
Prueba Bilateral para μ, s
desconocida: Ejemplo
(continuación)
Solución:
H0: μ = 168 HA: μ 168
s es desconocida, usar la distribución t
/2=0.025 /2=0.025
x μ 172.50 168
t n 1 1.46
s 15.40
n 25
No rechazar H0: No hay suficiente evidencia para concluir que el costo promedio
de una habitación (hotel) por noche en Nueva York sea diferente de $168
Prueba de Hipótesis: Proporciones
• Se ha visto el tema de prueba de hipótesis respecto de la media de una
población, se dan casos en que lo que interesa analizar son hipótesis
respecto de la proporción de objetos de una población que satisfacen un
atributo.
• Ejemplos:
– Proporción de artículos defectuosos por hora, en una línea de
ensamblaje, para decidir o no el ajuste de la misma.
– Evaluación del desempeño de los ejecutivos de ventas de seguros de
vida según la proporción de pólizas renovadas en un año.
Prueba de Hipótesis para
Proporciones
• La distribución
muestral de p es Pruebas de
normal, entonces el Hipótesis para π
estadístico de
prueba es z:
nπ 5 nπ < 5
pπ y o
z n(1-π) 5 n(1-π) < 5
π(1 π)
No será
n discutido
Prueba de Hipótesis para π: Ejemplo
Rechazar Rechazar
0.025 0.025
0.0068 0.0068
-1.96 0 1.96
z = -2.47 z = 2.47
Obtención del valor p:
P(Z 2.47) P(Z 2.47) 2(0.5 0.4932) 2(0.0068) 0.0136
50 52
Rechazar No rechazar
H0: μ 52 H0 : μ 52
Error Tipo II
(continuación)
50 52
Rechazar No rechazar
H0: 52 H0 : 52
Error Tipo II
(continuación)
Aquí,
β = P( x “valor crítico”) si μ = 50
β
50 52
Rechazar No rechazar
H0: μ 52 H0 : μ 52
Pasos para Calcular b
1. Especificar el parámetro de interés.
2. Formular las hipótesis.
3. Especificar el nivel de significancia.
4. Determinar el(los) valor(es) crítico(s), prueba unilateral o
bilateral.
5. Especificar el valor estipulado del parámetro de interés.
6. Calcular el valor z considerando el valor estipulado del
parámetro.
7. Usar la tabla Z para hallar b
Calculando β
• Suponer n = 64 , σ = 6 y = 0.05
σ 6
Valor crítico x μ z 52 1.645 50.766
(para H0 : μ 52) n 64
50 50.766 52
Rechazar No rechazar
H0: μ 52 H0 : μ 52
Calculando β
(continuación)
Probabilidad
del error tipo II:
β = 0.1539
50 52
Rechazar No rechazar
H0: μ 52 H0 : μ 52
Potencia de una Prueba de Hipótesis
La estimación puntual
σ1 y σ2 desconocidas, para la diferencia es
iguales
x1 – x2
σ1 y σ2 desconocidas,
no iguales
Muestras Independientes
• Diferentes fuentes de datos.
– No relacionados.
– Independientes.
• La muestra seleccionada de una población
no tiene efecto sobre la muestra
seleccionada de la otra población.
2 2
σ1 σ 2
σ x1 - x 2
n1 n 2
Intervalo de Confianza (σ1 y σ2 conocidas)
El intervalo de confianza
para μ1 – μ2 es:
σ2
σ 2
x1 - x 2 z/2 1
2
n1 n 2
Procedimiento para formar un
intervalo de confianza
1. Definir el parámetro de interés y seleccionar una muestra
independiente de cada población.
sp
n1 1s12 n 2 1s 22
n1 n 2 2
x 1
x 2 t /2 sp
1 1
n1 n2
σ1 y σ2 desconocidas y σ1 ≠ σ2
s12 s 22
x1 x 2 t α/2
n1 n 2
(s12 /n 1 s 22 /n 2 ) 2
gl
s 2 /n 2 s 2 /n 2
1 1 2 2
n1 1 n 1
2
Prueba de Hipótesis
z
x 1 x 2 μ1 μ 2
2 2
σ1 σ 2
n1 n 2
Prueba de Hipótesis para dos Medias
Poblacionales: Pasos
Ejemplo: σ1 y σ2 conocidas:
/2 /2
t
x1 x 2 μ1 μ 2
1 1
sp
n1 n 2
Donde t tiene n1+n2–2 grados de libertad,
y
sp
n1 1s12 n2 1s2 2
n1 n2 2
Ejemplo
σ1 y σ2 desconocidas, iguales (supuesto)
Imaginemos que ud. es un analista financiero de una compa-ñía de
corretaje. ¿Hay diferencia en el rendimiento de divi-dendos entre
las acciones de NYSE y NASDAQ? Ud. ha recolectado la siguiente
información:
NYSE NASDAQ
Tamaño muestral 21 25
Media muestral 3.27 2.53
Desv. Std. (s) 1.30 1.16
t
x1 x 2 μ1 μ 2 3.27 2.53 0
2.040
1 1 1 1
sp 1.2256
n1 n 2 21 25
Donde:
sp
n1 1s12 n2 1s2 2
21 11.30 2 25 11.16 2 1.2256
n1 n2 2 21 25 2
Solución
H0: μ1 - μ2 = 0, es decir, (μ1 = μ2)
HA: μ1 - μ2 ≠ 0, es decir, (μ1 ≠ μ2)
= 0.05
gl = 21 + 25 - 2 = 44
Rechazar H0 Rechazar H0
0.025 0.025
t
x 1 - x 2 μ1 μ 2
2 2
s1 s 2
n1 n 2
Donde t tiene grados de libertad:
(s12 /n 1 s 22 /n 2 ) 2
gl
s 2 /n 2 s 2 /n 2
1 1 2 2
n1 1 n 2 1
Muestras Pareadas
Muestras Independientes
Muestras Pareadas
o Dependientes
Muestras Pareadas
• Muestra Pareada:
Muestras seleccionadas de tal manera que cada valor de una de
las muestras está vinculada con un valor de la otra muestra.
• Propósito:
Control de factores externos, no pertinentes.
• Ejemplo:
Comparar el área por galón que un nuevo tipo de pintura
puede cubrir, en relación al tipo en actual uso.
Continúa
Muestras Pareadas
• Alternativa 1:
Muestras Pareadas
Muestras Pareadas
• Alternativa 2:
d = x1 - x 2
i
La desviación estándar
muestral de diferencias
(d d ) 2
pareadas es sd i 1
n 1
n es el número de pares en la muestra pareada
Diferencias Pareadas
(continuación)
de libertad y sd es: i
(d d ) 2
sd i 1
n 1
n es el número de pares en la muestra pareada
Prueba de Hipótesis para
Muestras Pareadas
El estadístico de prueba es
d μd
t
sd
n
n es el
número n
de pares
en la Donde t tiene n – 1 grados i
(d d ) 2
muestra
de libertad y sd es: sd i 1
pareada n 1
Prueba de Hipótesis para
Muestras Pareadas
(continuación)
Muestras Pareadas
/2 /2
Número de reclamos: di
Vendedor Antes (1) Después (2) (2) – (1) d = n
C.B. 6 4 - 2
= -4.2
T.F. 20 6 -14
M.H. 3 2 - 1
R.K.
M.O.
0
4
0
0
0
- 4 sd
i
(d d ) 2
-21 n 1
5.67
Muestra Pareada: Solución
¿Hay diferencia en los números de reclamos antes y después de la
capacitación (=0.05)?
H0: μd = 0; HA: μd 0
Rechazar H0 Rechazar H0
gl=n-1
d = - 4.2
/2 /2
Valores críticos = ± 2.7765 - 2.7765 2.7765
Estadístico de prueba:
d μd 4 .2 0
t 1 .6 6
s d / n 5 .6 7 / 5
Supuestos:
n1π1 5 , n1(1-π1) 5
n2π2 5 , n2(1-π2) 5
La estimación puntual
para la diferencia es: p1 – p2
Intervalo de Confianza para la Diferencia de
dos Proporciones Poblacionales
p1(1 p1 ) p2 (1 p2 )
p1 p2 z
n1 n2
Prueba de Hipótesis para la Diferencia de
dos Proporciones Poblacionales
Proporciones poblacionales
/2 /2
z
p1 p2 π1 π 2
1 1
p (1 p )
n1 n2
Prueba de Hipótesis para la Diferencia de
dos Proporciones Poblacionales: Ejemplo
(continuación)
• Formulación de hipótesis:
0.025 0.025
Decisión: No rechazar H0
Conclusión: La evidencia no es suficiente para concluir que hay
diferencia significativa entre las proporciones de hombres y mujeres que
votan a favor de una propuesta
Pruebas para dos muestras en
EXCEL
Para muestras independientes:
• Muestras independientes (varianzas conocidas):
– Datos | Análisis de datos | Prueba Z para medias de dos muestras
• Muestras independientes (varianzas desconocidas):
– Datos | Análisis de datos | Prueba t para dos muestras suponiendo
varianzas iguales
– Datos | Análisis de datos | Prueba t para dos muestras suponiendo
varianzas desiguales
Para muestras pareadas (distribución t):
– Datos | Análisis de datos | Prueba t para medias de dos muestras
emparejadas
Estimación de Intervalos y Prueba de
Hipótesis para Varianzas Poblaciones
Prueba de Hipótesis para Varianzas
Prueba de Hipótesis
para Varianzas
Estadístico de prueba
Estadístico de prueba F
Chi-cuadrado
Caso de una Varianza Poblacional
• Los casos que involucran una varianza poblacional emplean uno de dos
procedimientos estadísticos:
– Prueba de hipótesis
– Estimados de intervalos de confianza
• Un gerente requiere tomar una muestra de los clientes del restaurante para
determinar el número de veces al mes que cenan fuera de casa. Para esto
requiere determinar el tamaño de la muestra, lo cual depende de la varianza
poblacional. Puede tomar una muestra piloto y construir un intervalo de
confianza para la estimación de la varianza poblacional.
• Lo ideal serían pruebas sobre la desviación estándar, sin embargo no se
disponen de las mismas, se debe recurrir a pruebas sobre la varianza para
a partir de las mismas inferir sobre la desviación estándar.
(n 1)s 2
2
σ 2
Donde
2 = Variable chi-cuadrada estandarizada
n = Tamaño de muestra
s2 = Varianza muestral
El estadístico de prueba estandariza
σ2 = Varianza (supuesto) la varianza muestral (similar a los
estadísticos z y t de los capítulos
anteriores)
Distribución Chi-cuadrado
• La distribución chi-cuadrado es una familia de
distribuciones, que depende de los grados de
libertad:
• g.l. = n – 1
• Supuesto: La población es normal
0 4 8 12 16 20 24 28 2 0 4 8 12 16 20 24 28 2 0 4 8 12 16 20 24 28 2
0 2
No rechazar H0 Rechazar H0
2
Prueba de Hipótesis de Una
Varianza, Chi-cuadrado
2 = 24.9958
= 0.05
0 2
No rechazar H0 Rechazar H0
Estadístico de prueba:
(n 1)s 2 (16 1)24
2
22.5
σ 2
16
Decisión: Como 2 = 22.5 < 24.9958 = , no rechazamos H0
2
/2
/2
0 2 0 2
Rechazar No rechazar H0 Rechazar No rechazar Rechazar H0
H0 H0 H0
21- 1-/2
2 2/2
(2L) (2U)
Estimación del Intervalo de Confianza para una
Varianza Poblacional
Intervalo de Confianza para σ2
/2
/2
21-/2 2/2 2
(2L) (2U)
(n 1)s 2 (n 1)s 2
Donde 2L y 2U pertenecen a la σ 2
distribución 2 con n -1 grados de
libertad
χU
2
χL2
Intervalo de Confianza: Ejemplo
• Una muestra de 16 datos de una
congeladora da una varianza muestral de
s2 = 24.
• Formar un intervalo de confianza al 95%
para la varianza poblacional.
Intervalo de Confianza: Ejemplo
(Solución)
• Usar la tabla chi-cuadrado para hallar 2L y 2U:
( = 0.05 y 16 – 1 = 15 g.l.)
/2=0.025 /2=0.025
20.975 20.025
(2L) 6.2621 27.4884 (2U)
(n 1)s 2 (n 1)s 2 (16 1)24 (16 1)24
σ
2
σ2 13.096 σ 2 57.489
χ U2 χ L2 27.4884 6.2621
• En la tabla F,
– La fila (tabla F) está determinada por los grados de libertad del numerador.
– La columna (tabla F) está determinada por los grados de libertad del
denominador.
Formulando el estadístico F
s12
F 2 Donde D1 = n1 – 1 ; D2 = n2 – 1
s2
NYSE NASDAQ
Tamaño muestral 21 25
Media 3.27 2.53
Desv. Std. (s) 1.30 1.16
• Formular hipótesis:
H0: σ21 = σ22 (No hay diferencia entre las varianzas)
HA: σ21 ≠ σ22 (Hay diferencia entre las varianzas)
Si H0 es válida cabe
contemplar varianzas
Hallar el valor crítico F para = 0.05:
muestrales similares , por lo
Numerador: tanto el ratio de las dos
varianzas será cercano a 1. Se
D1 = n1 – 1 = 21 – 1 = 20 rechazará H0 si el ratio es
significativamente superior a 1
Denominador:
D2 = n2 – 1 = 25 – 1 = 24
NOTA: Asegurarse
F0.05/2, 20, 24 = 2.327 que n1 correspon-
de a la muestra con
la varianza más
grande
Prueba de Hipótesis para la Diferencia entre
Dos Varianzas, F: Ejemplo (Solución)
(continuación)
0
Decisión: F = 1.256 no es mayor No rechazar H0 Rechazar H0
F/2
que el valor crítico F de 2.327,
=2.327
entonces no rechazar H0
• Diseño experimental:
Efectuar 5 lanzamientos con cada club.
• Supuestos
– Las poblaciones tienen distribución normal
– Las poblaciones tienen igual varianza
– Las muestras son aleatorias e independientes
– La medida de los datos es de intervalo o razón
One-Way ANOVA: Hipótesis
• H0 : μ1 μ2 μ3 μk
– Todas las medias poblacionales son iguales
– Es decir, no hay efecto de tratamiento (no hay variación
entre las medias de los grupos)
H0 : μ1 μ 2 μ 3 μ k
HA : No todas las μi son iguales
μ1 μ2 μ3
ANOVA de Un Factor
(continuación)
H0 : μ1 μ 2 μ 3 μ k
HA : No todas las μi son iguales
Al menos dos medias son diferentes:
La hipótesis nula no es verdadera
(Hay efecto de tratamiento)
μ1 μ2 μ3 μ1 μ2 μ3
ANOVA de Un Factor
• Supuestos
– Las poblaciones tienen distribución normal
– Las poblaciones tienen igual varianza
– Las muestras son aleatorias e independientes
– La medida de los datos es de intervalo o razón
ANOVA de Un Factor
Supuestos:
1 2 3
Club
ANOVA de Un Factor: Ejemplo
SST = 5,836.0
ANOVA de Un Factor: Ejemplo
(Desarrollo)
Club 1 Club 2 Club 3 x1 = 249.2 n1 = 5
254 234 200 x2 = 226.0 n2 = 5
263 218 222 x3 = 205.8 n3 = 5
241 235 197
nT = 15
237 227 206 x = 227.0
251 216 204 k=3
i1
Donde:
SSB = Suma de cuadrados entre tratamientos
k = Número de poblaciones (niveles)
k
SSB ni ( x i x ) 2
i1
SSB
Variación Debido a Diferencias
MSB
entre las Poblaciones
k 1
Media Cua-
SSB
drática entre =
Grados de libertad
Tratamientos
i j
Variación entre Niveles del Factor
(SSB) (continuación)
k nj
SSW ( x ij x i ) 2
i1 j1
SSW
Calculando la variación
MSW
dentro de cada grupo y
luego sumando todas nT k
estas Media
SSW
Cuadrática = Grados de libertad
del Error
i
Variación dentro de los Niveles del
Factor (SSW) (continuación)
0 No rechazar H0 Rechazar H0
Estadístico de prueba:
MSB 2358.2
F 25.275
MSW 93.3
Decisión:
Rechazar H0 para = 0.05
Conclusión:
¿Pero cuáles?
• El problema se puede abordar estimando intervalos de
confianza para todos los posibles pares de medias
poblacionales:
x 1
x 2 t /2 sp
1 1
n1 n2
En estos intervalos de confianza se considera la desviación estándar del pool de las
muestras involucradas:
sp
n1 1s12 n 2 1s 22
n1 n 2 2
Sin embargo, en este pool solo interviene información de dos muestras, se pierde la
información de las muestras no consideradas, las cuales se asume tienen igual
varianza.
μ1= μ2 μ3 x
Proceso de Tukey-Kramer: Rango
Crítico
MSW 1 1
Rango Crítico q
2 n i n j
Donde:
q = Valor perteneciente a “studentized range table”
con k y nT - k grados de libertad para el nivel
de significancia deseado .
MSW = Media cuadrática del error
ni y nj = Tamaños de muestras de las poblaciones
(niveles) i y j
Proceso de Tukey-Kramer: Ejemplo
1. Calcular diferencias absolutas
Club 1 Club 2 Club 3 entre cada par de medias:
254 234 200
263 218 222 x1 x 2 249.2 226.0 23.2
241 235 197 x1 x 3 249.2 205.8 43.4
237 227 206
251 216 204 x 2 x 3 226.0 205.8 20.2
• Para el otorgamiento de sus créditos el Citizen’s State Bank (CSB) usa regularmente los
servicios de tres compañías valorizadoras de bienes inmuebles. El banco está interesado en
averiguar si en promedio alguna de estas compañías tiende a sobre valorar o subvaluar los
inmuebles.
• Una posiblidad es aplicar One-way ANOVA con la hipótesis nula de que la valorización
promedio de las tres compañías son iguales. Basta con asignar muestras aleatorias a cada
una de las compañias y testear la hipótesis a través del procedimiento referido.
• Sin embargo, puede ocurrir que, por eventos del azar, una compañía reciba una muestra
diferente a las otras en términos de casas más lujosas, grandes, de mejor vecindario, etc.
• Se requiere controlar por esta variabilidad en el tipo de casas. Para esto CSB selecciona
aleatoriamente una muestra de propiedades y solicita la valorización de la misma muestra a
las tres compañías. Cada propiedad constituye un bloque.
• Supuestos
– Las poblaciones son normalmente distribuidas.
– Las poblaciones tienen varianzas iguales.
– Las observaciones dentro de las muestras son independientes.
– La medida de los datos debe ser de intervalo o razón.
• Ejemplos
– Evaluar 5 rutas a un mismo destino a través de 3 diferentes
compañías de taxi para saber si existe diferencia.
– Determinar el mejor programa de capacitación (de 4 opciones)
para varios departamentos dentro de una compañía.
Ejemplo
• Se diseña un experimento:
– Se seleccionan en forma aleatoria una muestra de 14 individuos que han
recibido el entrenamiento.
– Se hace rendir a cada individuo las tres pruebas y, para controlar un posible
sesgo por experiencia adquirida, el orden en que se rinden las tres pruebas
es aleatoriamente asignado a cada individuo.
– Se aplica una prueba ANOVA de bloque completamente aleatorizado.
Ejemplo
Individuo Exam 1 Exam 2 Exam 3 Media de Bloque
b
SSBL k( x j x )2
j1
Donde:
k = Número de niveles del factor de interés: 3
b = Número de bloques: 14
xj = Media muestral del jmo bloque: Ver Tabla
x = Gran media (media de todos los datos): 770.36
Ejemplo
Individuo Exam 1 Exam 2 Exam 3 Media de Bloque
SSBL
MSBL Media Cuadrática entre Bloques
b 1
SSB
MSB Media Cuadrática entre Niveles (F.P)
k 1
SSW
MSW Media Cuadrática del Error
(k 1)(b 1)
Medias Cuadráticas
SSBL 116,605
MSBL M. C. entre Bloques 8,969.6
b 1 14 1
SSB 241,912.7
MSB M.C.entre Niveles (F.P) 120,956
k 1 3 1
SSW 256,124
MSW M.C. del Error 9,851
(k 1)(b 1) (3 1)(14 1)
ANOVA de Bloques Completa-
mente Aleatorizados: Tabla
Fuente de SS gl MS Estadístico
Variación F
Entre MSBL
SSBL b-1 MSBL
Bloques MSW
Entre Ni- MSB
SSB k-1 MSB
veles (F.P) MSW
Total SST nT - 1
12-300
ANOVA de Bloques Completa-
mente Aleatorizados: Tabla
Fuente de SS gl MS Estadístico
Variación F
SSBL b-1 MSBL MSBL / MSW
Entre 8,970 / 9,851 = 0.91
14 – 1 = 13 8,969.6
Bloques 116,605
12-301
Evaluación de Bloques
H 0 : μ b1 μ b2 μ b3 ...
HA : No todas las medias de los bloques son iguales
Rechazar H0 si F > F
Rechazar H0 si F = 0.9105 > F=0.05 = 2.15
En base a la información, no se puede rechazar Ho. Por lo tanto, no se
puede afirmar que la consideración de bloques era necesaria
Evaluación del Factor Principal
H 0 : μ1 μ 2 μ 3 ... μ k
HA : Al menos dos medias poblaciona les difieren
Rechazar H0 si F > F
Rechazar H0 si F = 12.28 > F=0.05 = 3.40
A pesar que el bloqueo no fue efectivo, la data permite rechazar la hipótesis nula y
concluir que los tres exámenes no todos producen la misma nota promedio
ANOVA de Bloques Completamente Aleatorizados
1= 2 3 x
Prueba Fisher de Mínima Diferencia
Significativa (LSD)
2 2
LSD t/2 MSW 2.06 9,851 77.11
b 14
Donde:
t/2 = Valor de la cola derecha de la distribución t para /2 y
(k - 1)(b - 1) grados de libertad = 26
MSW = Media cuadrática del error = 9,851
b = Número de bloques = 14
k = Número de niveles del factor principal = 3
2
LSD t/2 MSW 77.11
b
y y
x x
y y
x x
Gráficos de Dispersión: Ejemplo
(continuación)
Relaciones fuertes Relaciones débiles
y y
x x
y y
x x
Gráficos de Dispersión: Ejemplo
(continuación)
No hay relación
x
Coeficiente de Correlación
• Se tiene una correlación espuria cuando existe una asociación lineal entre
variables aparentemente no relacionadas.
– Ejemplo, la correlación entre las ventas de las compañías y el número
de hijos que tienen los empleados.
Características de r
• No tiene unidad de medida.
• Varía entre -1 y 1.
• La cercanía a -1 indica fuerte relación lineal
negativa.
• La cercanía a 1 indica fuerte relación lineal
positiva.
• La cercanía a 0 indica débil relación lineal.
• +1 ó -1 son correlaciones perfectas donde
todos los datos (puntos) caen sobre una
línea recta.
Ejemplos de Valores
Aproximados de r
y y y
x x x
r = -1 r = -.6 r=0
y y
x x
r = +.3 r = +1
Calculando el Coeficiente de
Correlación
Coeficiente de correlación muestral:
r
( x x)( y y)
[ ( x x ) ][ ( y y ) ]
2 2
O el equivalente algebraico:
n xy x y
r
[n( x 2 ) ( x )2 ][n( y 2 ) ( y )2 ]
Donde:
r = Coeficiente de correlación muestral
n = Tamaño muestral
x = Valor de una variable (eje horizontal)
y = Valor de la otra variable (eje vertical)
Correlación: Ejemplo
Altura Diámetro
del árbol del tronco
y x xy y2 x2
35 8 280 1225 64
49 9 441 2401 81
27 7 189 729 49
33 6 198 1089 36
60 13 780 3600 169
21 7 147 441 49
45 11 495 2025 121
51 12 612 2601 144
=321 =73 =3142 =14111 =713
Correlación: Ejemplo
(continuación)
Gráfico de dispersión n xy x y
Altura del r
árbol, y
70
[n( x 2 ) ( x) 2 ][n( y 2 ) ( y) 2 ]
60
8(3142) (73)(321)
50
40
[8(713) (73)2 ][8(14111) (321)2 ]
0.886
30
20
10
0
r = 0.886 → Asociación lineal positiva
0 2 4 6 8 10 12 14
relativamente fuerte entre x e y
Diámetro del tronco, x
Correlación: Usando Excel
• Estadístico de prueba
r (con n – 2 grados de libertad)
t
1 r 2
n2
Se pierde 1 grado de libertad por
cada media muestral
Prueba de Significancia para la
Correlación (continuación)
¿Es significativa la relación lineal entre las
alturas de los árboles y los diámetros de sus
troncos al nivel de significancia de 0.05?
r 0.886
t 4.68
1 r2 1 0.8862
n2 82
Prueba de Significancia para la
Correlación (continuación)
Región de rechazo:
g.l. = 8-2 = 6
/2=0.025 /2=0.025
Conclusión: Hay suficiente evidencia para concluir que existe relación lineal
significativa entre las alturas de los árboles y los diámetros de sus troncos al
nivel de significancia de 0.05.
Prueba de Significancia para la Correlación
X, Y Análisis
X, Y
Correlacionadas
Regresión Lineal
y = β0 + β1x + ε
Introducción al Análisis de Regresión
Pendiente
Intercepto y de regresión Variable
poblacional independiente Error
poblacional
aleatorio,
Variable
y β0 β1x ε
o residual
dependiente
y
y β0 β1x ε y/ x
β 0 β1x
Valor observado
de y para xi
εi Pendiente = β1
Valor estimado Error aleatorio pa-
de y para xi ra este valor de x
Intercepto = β0
0 xi x
Coeficientes del Modelo Poblacional
• Pendiente β1
Cambio promedio en la variable dependiente (y) ante
una variación unitaria de la variable independiente (x).
Cambio en μy/x ante una variación unitaria de x.
• Intercepto β0
Valor promedio de la variable dependiente (y) cuando la
variable independiente (x) es cero. Interpretación válida
si x puede asumir el valor 0, caso contrario, no se tiene
una interpretación válida.
Regresión Lineal Estimada
La línea de regresión muestral proporciona un
estimado de la línea de regresión poblacional
ŷ b0 b1x
Variable
independiente
e 2
(y ŷ) 2
(y (b 0 b1x)) 2
Ecuación de Mínimos
Cuadrados
• Las ecuaciones para b1 y b0 son:
El equivalente algebraico
(x x)(y y) para b1 es:
b1
(x x) 2
xy x y
b1 n
y (
x n
2 x ) 2
b0 y b1x
Regresión de Mínimos Cuadrados:
Propiedades
Pendiente
= 0.10977
Intercepto
= 98.248
Xi x
Coeficiente de Determinación, R2
• El coeficiente de determinación es la porción de la
variación total de la variable dependiente que es
explicada por su relación lineal con la variable
independiente
SSR
R 2 donde 0 R2 1
SST
Coeficiente de Determinación, R2
(continuación)
Coeficiente de determinación
SSR Suma de cuadrados explicada por la regresión
R
2
SST Suma total de cuadrados
Donde:
R r2 2
R2 = Coeficiente de determinación
r = Coeficiente de correlación muestral
Ejemplos de Valores R2
y
R2 = 1
x
R2 =1
Ejemplos de Valores R2
(continuación)
y
0 < R2 < 1
x
Ejemplos de Valores R2
(continuación)
y
R2 = 0
Estadístico de prueba
SSR/1
F
SSE/(n 2) (con glnumerador = 1 y gldenominador = n – 2)
Significancia Estadística
de la
Pendiente
Distribución muestral de b1
σb1
͞b1= β1
Desviación Estándar de la Pendiente de
Regresión
sε
sb
2
1
(x x)
Donde, s b1 : Desviación estándar de la estimación de la pendiente de
regresión
s ε : Error estándar de la estimación
• s b1 es estimado por: sb1
sε
sε
(x x) 2
x 2
( x) 2
n
Donde: s b1 = Estimador de la desviación estándar de la pendiente
de regresión de mínimos cuadrados
SSE
sε = Error (desviación) estándar muestral de la estimación
n2
Error Estándar de la Estimación
• Es la desviación estándar de la variación de
observaciones alrededor de la línea de
regresión simple estimada por:
SSE
sε
n2
Donde:
SSE = Suma de cuadrados del error
n = Tamaño de la muestra
Comparando los Errores
Estándar
Variación de los valores obser- Variación en la pendiente de las
vados y respecto a la línea de líneas de regresión de diferentes
y regresión
y muestras posibles
se ( pequeño) x s b1 ( pequeño) x
y y
se ( grande) x s b1 ( grande) x
Evaluación de la Pendiente de
Regresión: Prueba t
• Prueba t para una pendiente poblacional
– ¿Hay relación lineal entre x e y?
• Hipótesis nula y alternativa
H0: β1 = 0 (No hay relación lineal)
HA: β1 0 (Existe relación lineal)
• Estadístico de prueba
b1 β1
Donde: b1 = Coeficiente de la pen-
t diente de regresión
muestral
sb1 β1 = Pendiente (hipótesis)
sb1 = Estimador del error es-
tandar de la pendiente
g.l. n 2
Evaluación de la Pendiente de
Regresión: Prueba t
(continuación)
Ejemplo:
Ecuación de regresión estimada:
Precio de Área, pies
casa, $1000s cuadrados
(y) (x) Precio de casa 98.25 0.1098 (Área)
245 1400
312 1600
279 1700
308 1875
La pendiente de este modelo es
199 1100
0.1098
219 1550 ¿Los precios de las casas son
405 2350 afectados por sus áreas?
324 2450
319 1425
255 1700
Evaluación de la Pendiente de
Regresión: Prueba t
(continuación)
Ejemplo: H0: β1 = 0 HA: β1 0
Excel, resultado: b1 s b1
Coeficiente Error Estándar t Valor p
Intercepto 98.24833 58.03348 1.69296 0.12892
Área 0.10977 0.03297 3.32938 0.01039
g.l. = 10-2 = 8
Estadístico de prueba:
t = 3.329
/2=0.025
/2=0.025
-2.3060
0 2.3060
Decision: Rechazar H0
Conclusion: Hay suficiente evidencia para concluir que la pendiente no es cero
Usos del Análisis de Regresión
• Para descripción
• Para predicción
Intervalo de Confianza
para la
Pendiente
Análisis de Regresión para la
Descripción
Intervalo de confianza para la pendiente:
b1 t /2sb1 g.l. = n - 2
Excel, resultados:
Intervalo de Confianza
para
ŷ
Intervalos para Diferentes
Valores de x
Intervalo de
confianza
para la
media de y,
dado xp
x
x xp
Intervalo de Confianza para el
Promedio de y, Dado x
Intervalo de confianza para la media de y
dado un valor particular xp
1 (x p x)
2
ŷ t /2sε
n (x x) 2
Intervalo de Confianza para el Promedio de y, Dado x
ŷ t /2sε
n (x x) 2
Intervalos para Diferentes
Valores de x
Intervalo de
confianza
para la
media de y,
dado xp
x
x xp
Intervalo de Predicción
para un “y” dado un “x”
Intervalo de Predicción para un y
particular, Dado x
Intervalo de predicción para un valor
individual de y dado un xp particular
1 (x p x)
2
y t/2s ε 1
n (x x) 2
Intervalo de predic-
ción para un y indi-
y vidual, dado xp
Intervalo de
confianza
para la
media de y,
dado xp
x
x xp
Análisis de Regresión para Predicción,
Ejemplo: Precios de Casas
1 (x p x)2
ŷ t α/2sε 317.85 37.12
n (x x) 2
1 (x p x) 2
y t α/2s ε 1 317.85 102.28
n (x x) 2
y β0 β1x1 β2 x 2 βk xk ε
Modelo de regresión múltiple muestral:
yi b0 b1x1i b 2 x 2i b k x ki ei
Modelo de Regresión Múltiple
Objetivo: Examinar la relación lineal entre
una variable dependiente (y) y
dos o más variables independientes (xi)
Modelo poblacional:
Y-intercepto Pendientes Error aleatorio
y β0 β1x1 β2 x 2 βk xk ε
Modelo de regresión múltiple estimado:
ŷ b0 b1x1 b2 x 2 bk xk
Modelo de Regresión Múltiple
Modelo de dos variables:
y
ŷ b0 b1x1 b2 x 2
x2
x1
Modelo de Regresión Múltiple
(continuación)
Modelo de dos variables:
y Observación
yi
<
muestral ŷ b0 b1x1 b2 x 2
yi
<
e = (y – y)
x2i
x2
• y-intercepto (b0)
– Estima el valor promedio de y cuando todas las variables xi son
iguales a cero (suponiendo que el valor cero está dentro de los
rangos de valores que pueden tomar los xi).
Formulación del Modelo
• Excel:
– Datos / Análisis de datos / Regresión
Regresión Múltiple: Excel
(Resultado) (continuación)
Ecuación estimada de regresión múltiple:
Nota: La publicidad
La venta pre- está en $100’s,
decida es entonces x2 = 3.5
significa $350
428.62 pies
Coeficiente de Determinación
Múltiple (R2)
• Reporta la proporción de la variación total en y que es
explicada por todas las variables (juntas) x
consideradas en el modelo
n 1
R 1 (1 R )
2 2
n k 1
A
0 No rechazar H0 Rechazar H0 F
Estadístico de prueba:
MSR
F 6.5386
MSE
Decisión: Como F = 6.53 > 3.89 = F0.05 , entonces se rechaza H0
Estadístico de prueba:
bi 0 (gl = n – k – 1)
t
sb i
Diagnóstico del Modelo:
¿Las Variables Individuales son Significativas?
(continuación)
H0: βi = 0; HA: βi 0
/2=0.025 /2=0.025
g.l. = 15-2-1 = 12
= 0.05
t/2 = 2.1788 Rechazar H0 No rechazar H0 Rechazar H0
-tα/2 tα/2
0
-2.1788 2.1788
Excel (Resultado):
Coeficientes Error típico Estadístico t Valor p
Precio -24.97509 10.83213 -2.30565 0.03979
Publicidad 74.13096 25.96732 2.85478 0.01449
SSE
se MSE
n k 1
¿Este valor es grande o pequeño? Para evaluarlo
se debe comparar con el promedio de y
Desviación Estándar del Modelo de
Regresión
(continuación)
1
VIFj
1 Rj
2
Variables Dummy
Variables Dummies
Sea:
ŷ = Ventas de pies ŷ b0 b1x1 b2 x 2
x1 = Precio
x2 = Feriado (X2 = 1 si hay feriado en una semana)
(X2 = 0 si no hay feriado en una semana)
Variable Dummy (Dos Niveles) en un
Modelo de Regresión: Ejemplo
(continuación)
Interceptos Misma
diferentes pendiente
y (Ventas)
Si H0: β2 = 0 es
b0 + b2 rechazada, entonces
b0 Feriado tiene un
efecto significativo
sobre las ventas
x1 (Precio)
Regresión, Variable Dummy (Dos Niveles):
Interpretación de Coeficientes
ŷ b0 b1x1 b2 x 2 b3 x 3
b2 muestra el impacto sobre el precio si el estilo de
la casa es rancho, comparado a un condominio
b3 muestra el impacto sobre el precio si el estilo de
la casa es dos niveles, comparado a un condominio
Regresión, Variables Dummies (Más de Dos
Niveles): Interpretación de Coeficientes
Para un condominio: x2 = x3 = 0
Con la misma área, se estima
ŷ 20.43 0.045x1 que un rancho tendrá un
precio promedio de $23.53
Para un rancho: x3 = 0 (miles) más que un
condominio.
ŷ 20.43 0.045x1 23.53
Con la misma área, se estima
Para un dos niveles: x2 = 0 que un dos niveles tendrá un
precio promedio de $18.84
ŷ 20.43 0.045x1 18.84 (miles) más que un
condominio.