Вы находитесь на странице: 1из 13

24. El Times-Observer es un periódico de la ciudad Metro.

Al igual que muchos periódicos, el


TimesObserver pasa por dificultades financieras. La gerente de circulación estudia otros
periódicos en ciudades similares en Estados Unidos y Canadá, con interés particular en las
variables que se relacionan con el número de suscriptores. Ella reúne la siguiente información
muestral de 25 periódicos de ciudades similares. Se emplea la siguiente notación:

Sus= Número de suscriptores (en miles).


Pob= Población metropolitana (en miles).
Pub= Presupuesto en publicidad del periódico (miles de dólares).
Ingreso= Ingreso familiar medio en el área metropolitana (miles de dólares).

Periódico Sus Pob Pub Ingreso

1 37.95 588.9 13.2 35.1

2 37.66 585.3 13.2 34.7

3 37.55 566.3 19.8 34.8

4 38.83 629.6 22.0 35.3

5 38.33 680.0 24.2 34.7

6 40.24 651.2 33.0 35.8

Estadísticas de la regresión

Coeficiente de
correlación
múltiple 0.99050712

Coeficiente de
determinación
R^2 0.98110436

R^2 ajustado 0.9527609


Error típico 0.21829402
Observaciones 6
ANÁLISIS DE VARIANZA
Promedi
Suma de o de los Valor
Grados de cuadrad cuadrado crítico
libertad os s F de F
Regresión 3 4.9484 1.6495 34.6148 0.0282
Residuos 2 0.0953 0.0477
Total 5 5.0437

Inferio
Coeficient Error Estadístic Probabilid Inferio Superi Superio
r
es típico ot ad r 95% or 95% r 95.0%
95.0%
Intercepci
ón -20.45129 11.604 -1.7624 0.22006 -70.37 29.477 -70.37 29.477
Pob 0.006568 0.0033 2.0026 0.18315 -0.007 0.0206 -0.007 0.0206
Pub 0.030104 0.0247 1.2167 0.34783 -0.076 0.1365 -0.076 0.1365
Ingreso 1.545544 0.3195 4.8371 0.04018 0.1707 2.9203 0.170 2.9203

a) Determine la ecuación de regresión.

Siendo: Pob= X1, Pub= X2, Ingreso= X3

Y’= -20.4513 + 0.0066(X1) + 0.0301(X2) + 1.5455(X3)

b) Realice una prueba global de hipótesis para determinar si algunos de los coeficientes de
regresión no son iguales a cero.

Hipótesis nula:

H0: β1= β2= β3=0

Hipótesis alternativa:

H1: No todas las βi son 0

Nivel de significancia: ∝= 5%, prueba de 1 cola / F(k, n-(k+1))

F crítico:
F(3, 6-(3+1))= F(3,2)=19.2
F calculado:
𝑆𝑆𝑅/𝑘 𝑀𝑆𝑅
F= 𝑆𝑆𝐸/[𝑛−(𝑘+1)] = 𝑀𝑆𝐸 = 34.61

El F0 es mayor que el valor crítico Fc, por lo tanto, se encuentra en la región de rechazo. Se
descarta la hipótesis nula de que todos los coeficientes de regresión múltiples son cero.
Esto significa que algunas variables independientes (Población metropolitana, Presupuesto
en publicidad, Ingreso familiar medio) tienen la capacidad de explicar la variación de la variable
dependiente (Número de suscriptores).
c) Realice la prueba de los coeficientes individuales. ¿Consideraría eliminar algunos de ellos?

Nivel de significancia: ∝= 5%, prueba de 2 colas / t(n-(k+1))= t(6-(3+1))= t(2)= ±4.303

Población metropolitana Presupuesto en publicidad Ingreso familiar medio

Ho: β1=0 Ho: β2=0 Ho: β3=0

H1: β1≠0 H1: β2≠0 H1: β3≠0

Coef Tc To Ho
±
β1 (Pob) 4.303 2.00 Se acepta
±
β2(Pub) 4.303 1.22 Se acepta
±
β3(Ing) 4.303 4.84 Se rechaza

En las dos primeras pruebas se acepta H0 y se rechaza H1. Se concluye que esos 2 coeficientes
son iguales a 0. Por lo tanto, se debería eliminar las variables independientes población
metropolitana y presupuesto en publicidad.

d) Determine los residuos y trácelos contra los valores ajustados. ¿Hay problemas?

Sus (Y) Y' Y-Y'


37.95 38.06 -0.11
37.66 37.42 0.24
37.55 37.65 -0.10
38.83 38.90 -0.07
38.33 38.37 -0.04
40.24 40.15 0.09
• Los residuos se trazan en el eje vertical y están centrados respecto de cero. Hay residuos
positivos y negativos.

• Los trazos de los residuos muestran una distribución aleatoria de valores positivos y
negativos a lo largo de todo el rango de la variable trazada en el eje horizontal.

• Los puntos están dispersos y no hay un patrón obvio, por lo que no hay razón para dudar de
la suposición de linealidad.

e) Elabore un histograma de las varianzas residuales. ¿Hay problemas con la suposición de


normalidad?

Residuos Frecuencia
0.25 1
0.1 1
0 0
-0.05 1
-0.1 1

HISTOGRAMA DE LOS RESIDUOS


1.2

0.8
Frecuencia

0.6

0.4

0.2

0
0.25 0.1 0 -0.05 -0.1
Residuos

La distribución de los residuos sí siguen una distribución normal. La suposición de normalidad


es razonable.
25. Fred G. Hire es el gerente de recursos humanos en Crescent Tool and Die, Inc. Como parte
de su reporte anual para el presidente, se requiere que presente un análisis de los empleados
asalariados. Como hay más de 1 000 empleados y no tiene personal para reunir información
sobre cada uno de ellos, decide seleccionar una muestra aleatoria de 30. Por cada empleado
registra su salario mensual, los años de servicio en la compañía, en meses, el género
(1=masculino, 0=femenino), y si ocupa un puesto técnico o administrativo. Los puestos
técnicos se codifican 1, y los administrativos, 0.

Empleado Salario Antigüedad en la


Edad Género Puesto
muestreado mensual compañía

1 1769 93 42 1 0

2 1740 104 33 1 0

3 1941 104 42 1 1

4 1791 131 56 0 1

5 2001 95 30 1 1

6 1874 98 47 1 0

Resumen

Estadísticas de la regresión
Coeficiente de
correlación
múltiple 0.92345584

Coeficiente de
determinación
R^2 0.85277069
R^2 ajustado 0.26385347
Error típico 88.964346
Observaciones 6
ANÁLISIS DE VARIANZA

Promedio Valor
Grados de Suma de
de los F crítico de
libertad cuadrados
cuadrados F
Regresión 4 45842.6785 11460.6696 1.4480 0.5473
Residuos 1 7914.6549 7914.6549
Total 5 53757.3333

Probabil Inferior Superior Inferior Superior


Coeficientes Error típico Estadístico t
idad 95% 95% 95.0% 95.0%
Intercepción 2034.4734 1221.7245 1.6652 0.3443 -13489.01 17557.96 -13489.01 17557.96
Antigüedad -4.6799 8.8454 -0.5291 0.6902 -117.07 107.71 -117.07 107.71
Edad 3.0902 6.7707 0.4564 0.7274 -82.94 89.12 -82.94 89.12
Género 94.3858 327.2355 0.2884 0.8212 -4063.54 4252.31 -4063.54 4252.31
Puesto 196.5475 87.7893 2.2389 0.2674 -918.92 1312.02 -918.92 1312.02

a) Determine la ecuación de regresión; use el salario como variable dependiente y las otras
cuatro variables como independientes.

Siendo: Antiguedad= X1, Edad= X2, Género= X3, Puesto= X4

Y’= 2034.47- 4.6799 (X1) + 3.0902 (X2) + 94.3858 (X3) + 196.5475(X4)

b) ¿Cuál es el valor de R2? Haga un comentario sobre este valor.

R^2= 0.85277069. Lo que nos indica es que la variación del salario mensual es
explicado en un 85.28% por la antigüedad, edad, género y puesto.

c) Realice una prueba global de hipótesis para determinar si algunas de las variables
independientes son diferentes de 0.

Hipótesis nula:

H0: β1= β2= β3= β4= 0

Hipótesis alternativa:

H1: No todas las βi son 0

Nivel de significancia: ∝= 5%, prueba de 1 cola / F(k, n-(k+1))

F crítico:
F(4, 6-(4+1))= F(4,1)=225
F calculado:
𝑆𝑆𝑅/𝑘 𝑀𝑆𝑅
F= 𝑆𝑆𝐸/[𝑛−(𝑘+1)] = 𝑀𝑆𝐸 = 1.4480

El F0 es menor que el valor crítico Fc, por lo tanto, se encuentra en la región de aceptación.
Se afirma la hipótesis nula de que todos los coeficientes de regresión múltiples son cero.
Esto significa que algunas variables independientes (antigüedad, edad, género y puesto) no
tienen la capacidad de explicar la variación de la variable dependiente (Salario mensual).

d) Realice una prueba individual de hipótesis para determinar si se pueden omitir algunas
variables independientes.

Nivel de significancia: ∝= 5%, prueba de 2 colas / t(n-(k+1))= t(6-(4+1))= t(1)= ±12.706

Antigüedad Edad Género Puesto

Ho: β1=0 Ho: β2=0 Ho: β3=0 Ho: β4=0

H1: β1≠0 H1: β2≠0 H1: β3≠0 H1: β4≠0

Coef Tc To Ho
Se
β1 (Ant) ±12.706 -0.5291 acepta
Se
β2(Edad) ±12.706 0.4564 acepta
Se
β3(Gén) ±12.706 0.2884 acepta
Se
β4(Puesto) ±12.706 2.2389 acepta

En todas las pruebas se acepta H0 y se rechaza H1. Se concluye que esos coeficientes
son iguales a 0. Por lo tanto, se debería omitir las variables independientes antigüedad,
edad, género y puesto.

e) Determine de nuevo la ecuación de regresión; use sólo las variables independientes que
sean significativas. ¿Cuánto más gana al mes un hombre que una mujer? ¿Hay alguna
diferencia si el empleado ocupa un puesto técnico o uno administrativo?

Y’= 2034.47

Como se concluyó que los coeficientes eran iguales a 0, se determina que no son
significativos para la predicción. Es decir, no hay diferencia de los salarios por
antigüedad, edad, género o puesto.
26. Muchas regiones a lo largo de la costa de Carolina del Norte, de Carolina del Sur y Georgia
experimentaron un rápido crecimiento poblacional durante los últimos 10 años. Se espera que
el desarrollo continúe durante los próximos 10 años. Esto ha motivado a muchas de las
cadenas importantes de abarrotes a construir nuevas tiendas en la región. La cadena Kelly’s
Super Grocery Stores, Inc., no es la excepción, y su director de planeación desea estudiar si es
conveniente agregar más tiendas en esta región. El director considera que hay dos factores
principales que indican la cantidad monetaria que las familias gastan en abarrotes. El primero
es su ingreso y el otro es el número de personas que las integran. El director reunió la
siguiente información muestral.

Familia Alimentos Ingreso Tamaño


1 5.04 73.98 4
2 4.08 54.9 2
3 5.76 94.14 4
4 4.56 38.16 3
5 5.4 43.74 7
6 4.8 48.42 5

Estadísticas de la regresión

Coeficiente de
correlación múltiple 0.9331393

Coeficiente de
determinación R^2 0.87074895
R^2 ajustado 0.78458158
Error típico 0.27829342
Observaciones 6
ANÁLISIS DE VARIANZA
Promedio Valor
Grados de Suma de de los crítico
libertad cuadrados cuadrados F de F
Regresión 2 1.5653 0.78263 10.1053 0.0465
Residuos 3 0.2323 0.07745
Total 5 1.7976

Error Estadístico Inferior Superior Inferior Superior


Coeficientes típico t Probabilidad 95% 95% 95.0% 95.0%
Intercepción 2.7241 0.5089 5.3525 0.01 1.10 4.34 1.10 4.34
Ingreso 0.0192 0.0059 3.2404 0.05 0.00 0.04 0.00 0.04
Tamaño 0.2604 0.0731 3.5636 0.04 0.03 0.49 0.03 0.49

Los alimentos y el ingreso se reportan en miles de dólares por año, y la variable tamaño se
refiere al número de personas en el hogar.

a) Elabore una matriz de correlación. ¿Detecta algunos problemas con la multicolinealidad?

 Variable dependiente ingreso, variable independiente tamaño (X1)

Coeficientes Error típico Estadístico t Probabilidad


Intercepción 66.5332584 27.1498786 2.45059138 0.07040044
Tamaño -1.83438202 6.09635201 -0.30089831 0.77848425

Ingreso= 66.5333 – 1.8344(X1)

ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de de los Valor
libertad cuadrados cuadrados F crítico de F
Regresión 1 49.9135348 49.9135348 0.09053979 0.77848425
Residuos 4 2205.15347 551.288366
Total 5 2255.067

Coeficiente de
determinación R^2 0.02213395

R^2= SSR/SSTotal= 0.0221


Ahora calculamos el factor de inflación de la varianza VIF:
1
𝑉𝐼𝐹 =
1 − 𝑅𝑗 2

1
𝑉𝐼𝐹 =
1 − (0.02213395)2

𝑉𝐼𝐹 = 1.000490152
Como el VIF es menor que 10, nos indica que la variable independiente ingreso no está muy
correlacionada con la otra variable independiente tamaño.

 Variable dependiente tamaño, variable independiente ingreso(X1)

Coeficientes Error típico Estadístico t Probabilidad


Intercepción 4.87724285 2.48618854 1.96173491 0.12131309
Ingreso -0.01206616 0.04010046 -0.30089831 0.77848425

Tamaño= 4.8772 – 0.0121(X1)

ANÁLISIS DE VARIANZA
Promedio
Grados de Suma de de los Valor
libertad cuadrados cuadrados F crítico de F
Regresión 1 0.32832022 0.32832022 0.09053979 0.77848425
Residuos 4 14.5050131 3.62625328
Total 5 14.8333333

Coeficiente de
determinación R^2 0.02213395
Ahora calculamos el factor de inflación de la varianza VIF:
1
𝑉𝐼𝐹 =
1 − 𝑅𝑗 2

1
𝑉𝐼𝐹 =
1 − (0.02213395)2

𝑉𝐼𝐹 = 1.000490152
Como el VIF es menor que 10, nos indica que la variable independiente tamaño no está muy
correlacionada con la otra variable independiente ingreso.
b) Determine la ecuación de regresión. Haga un comentario sobre la ecuación de regresión.
¿Cuánto dinero agrega un miembro familiar adicional a la cantidad que se gasta en alimentos?

Siendo: Ingreso= X1, Tamaño= X2

Y’= 2.7241+ 0.0192(X1) + 0.2604 (X2)

Por cada miembro familiar adicional, el gasto en alimentos aumenta en 0.2604 soles.

c) ¿Cuál es el valor de R2? ¿Se puede concluir que este valor es mayor que 0?

R^2 0.87075, lo cual significa que la variación de los gastos en alimentos es explicado por el
ingreso y tamaño de familiares en un 87.08%

d) ¿Consideraría eliminar algunas de las variables independientes?

I. PRUEBA GLOBAL DE HIPÓTESIS

Hipótesis nula:

H0: β1= β2=0

Hipótesis alternativa:

H1: No todas las βi son 0

Nivel de significancia: ∝= 5%, prueba de 1 cola / F(k, n-(k+1))

F crítico:
F(2, 6-(2+1))= F(2,3)= 9.55
F calculado:
𝑆𝑆𝑅/𝑘 𝑀𝑆𝑅
F= = = 10.1053
𝑆𝑆𝐸/[𝑛−(𝑘+1)] 𝑀𝑆𝐸

El F0 es mayor que el valor crítico Fc, por lo tanto, se encuentra en la región de rechazo. Se
descarta la hipótesis nula de que todos los coeficientes de regresión múltiples son cero.
Esto significa que algunas variables independientes (ingreso, tamaño) tienen la capacidad
de explicar la variación de la variable dependiente (gasto en alimentos).

II. PRUEBA INDIVIDUAL DE HIPÓTESIS

Nivel de significancia: ∝= 5%, prueba de 2 colas / t(n-(k+1))= t(6-(2+1))= t(3)= ±3.182

Ingreso Tamaño

Ho: β1=0 Ho: β2=0


H1: β1≠0 H1: β2≠0
Coef Tc To Ho
β1 (Ingreso) ±3.182 3.2404 Se rechaza
β2(Tamaño) ±3.182 3.5636 Se rechaza

En todas las pruebas se rechaza H0 y se acepta H1. Se concluye que esos coeficientes
son diferentes a 0. Por lo tanto, las variables independientes ingreso y tamaño son
significativas para la predicción.

e) Trace los residuos en un histograma. ¿Hay algún problema con la suposición de normalidad?

Residuos Frecuencia
0.3 0
0.2 1
0 1
-0.2 1
-0.3 0

HISTOGRAMA DE LOS RESIDUOS


1.2

0.8
Axis Title

0.6

0.4

0.2

0
0.3 0.2 0 -0.2 -0.3
Axis Title

La distribución de los residuos sí siguen una distribución normal. La suposición de normalidad


es razonable.
f) Trace los valores ajustados contra los valores de los residuos. ¿Revela esta gráfica problemas
con la homoscedasticidad?

Alimentos Y Y' Y-Y'


5.04 5.1863801 -0.1463801
4.08 4.29918949 -0.219189489
5.76 5.57352057 0.18647943
4.56 4.23811954 0.321880461
5.4 5.38685411 0.013145892
4.8 4.95593619 -0.155936194

Residuos vs. Valores ajustados


0.4

0.3

0.2

0.1

0
0 1 2 3 4 5 6
-0.1

-0.2

-0.3

La gráfica no revela problemas de homoscedasticidad, ya que los trazos de los residuos


muestran una distribución aleatoria de valores positivos y negativos a lo largo de todo el rango
de la variable trazada en el eje horizontal. Además, los puntos están dispersos y no hay un
patrón obvio, por lo que no hay razón para dudar de la suposición de linealidad.

Вам также может понравиться