Вы находитесь на странице: 1из 50

REGRESIÓN SIMPLE

RENZO GARCIA LICAS


15170223
Introducción
• En la administración, las decisiones suelen basarse en la relación entre
dos o más variables. Por ejemplo, observar la relación entre el gasto
en publicidad y las ventas puede permitir a un gerente de
mercadotecnia tratar de predecir las ventas correspondientes a un
determinado gasto en publicidad Algunas veces los directivos se
apoyan en la intuición para juzgar la relación entre dos variables. Sin
embargo, cuando es posible tener datos, puede emplearse un
procedimiento estadístico llamado análisis de regresión para obtener
una ecuación que indique cuál es la relación entre las variables.
• En este capítulo se estudia el tipo más sencillo de análisis de regresión
en el que interviene una variable independiente y una variable
dependiente y en el que la relación entre estas variables es
aproximada mediante una línea recta. A este tipo de análisis de
regresión se le conoce como regresión lineal simple
Objetivos
• Diagnosticaremos si es significativo el efecto que causa la
variable independiente (x) en la variable (y) .
• Aprenderemos a utilizar el modelo de regresión lineal simple
para explicar y predecir la variable dependiente (Y) a partir de
valores observados en la independiente (X).
El modelo de regresión lineal
A la ecuación con que se describe cómo se relaciona y con x y
en la que se da un término para el error, se le llama modelo de
regresión.

A la ecuación que describe la relación entre el valor esperado de


y, que se denota E(x), y x se le llama ecuación de regresión.
COEFICIENTE DE DETERMINACION

Si se expresa el coeficiente de determinación en forma de


porcentaje, r 2 se puede interpretar como el porcentaje de la
suma total de cuadrados que se explica mediante el uso de la
ecuación de regresión estimada
COEFICIENTE DE CORRELACIÓN

• Los valores del coeficiente de correlación son valores que van


desde -1 hasta +1. El valor +1 indica que las dos variables x y y
están perfectamente relacionadas en una relación lineal
positiva. Es decir, los puntos de todos los datos se encuentran en
una línea recta que tiene pendiente positiva. El valor 1 indica
que x y y están perfectamente relacionadas, en una relación
lineal negativa, todos los datos se encuentran en una línea
recta que tiene pendiente negativa. Los valores del coeficiente
de correlación cercanos a cero indican que x y y no están
relacionadas linealmente.
ERROR ESTANDAR DE ESTIMACIÓN

El error estándar de estimación se emplea en la discusión siguiente


acerca de las pruebas de significancia de la relación entre x y y.
Prueba t para la relación entre las
variables
NO existe relación
SI existe una relación
estadísticamente
significante
Forma general de la tabla ANOVA
para la regresión lineal simple
Intervalo de confianza:
Para cuando nosotros
queremos utilizar la
ecuación de la
regresión lineal para
predecir nuevos
Intervalo de predicción: valores ,estos se
encuentran dentro de
los intervalo de
confianza y de
predicción .
Análisis de influencia:
• Método de la matriz sombrero HI:

• Método de los residuales eliminados de student :


• Estadístico de la distancia de Cook:
PROBLEMA 1
• El gerente de una empresa estudia la Beneficios Gastos en publicidad
posible relación entre beneficios 1.3 0.3
anuales con los gastos de publicidad
anuales. Se brindan datos de algunas 3.5 1.5
empresas del sector.
2.8 0.7
3.0 1.1
3.3 1.2
4.0 2.0
3.7 2.0
Grafica de línea ajustada (Minitab)
Gráfica de línea ajustada Como vemos en la
Beneficios = 1.470 + 1.285 Gastos en publicidad grafica de beneficios
4.0
S 0.378981 vs gastos en publicidad
R-cuad. 84.7%
R-cuad.(ajustado) 81.7% notamos que existe
3.5
una función lineal que
3.0
se ajusta a los valores
de la tabla .
Beneficios

2.5

2.0

1.5

1.0
0.5 1.0 1.5 2.0
Gastos en publicidad
a) Ecuación de regresión

b1 = 1.285

b0=1.470

Beneficios (Millones) = 1.470 + 1.285 Gastos de Publicidad (Millones)


El coeficiente b1 indica que para cada unidad en publicidad adicional en
millones se puede esperar que el beneficio aumente en una media de
1.285 millones y en caso no exista publicidad se tendrá un beneficio de
b0= 1.470 millones.
b) Coeficiente de correlación
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Regresión 1 3.99044 3.99044 27.78 0.003
Error 5 0.71813 0.14363
Total 6 4.70857

R-cuad.: 84.75%
Entonces:
r= 0.8475 = 0.9206 = 92.06%
Existe una correlación positiva y fuerte entre los beneficios y los
gastos en publicidad.
c) Coeficiente de determinación
R-cuad.: 84.75%
Entonces el 84.75% de los beneficios serán explicados por los gastos en
publicidad.

d) Coeficiente de no determinación
R-cuad.: 84.75%
Entonces: 1-(R-cuad.): 1 - 84.75% = 15.25%
El 15.25% de los beneficios no serán explicados por los gastos en
publicidad.
e) Error estándar de estimación
Sxy= 0.378981
Entonces: Existe una variabilidad de 0.378981 millones en beneficio
respecto a la ecuación de regresión.
f) Inferencia sobre los coeficientes de
regresión de población.
1) Ho: ß0 = 0 (No hay relación);
Ha: ß0 ≠ 0 (Si hay relación);

2) α = 0.05; Gráfica de distribución


T, df=5
0.4

3) t-Student
0.3

4) Grados de libertad: n-2= 5

Densidad
0.2

0.1

0.025 0.025
0.0
-2.571 0 2.571
X
5) De la tabla:
EE del
Término Coef coef. Valor T Valor P VIF
Constante 1.470 0.338 4.35 0.007
Gastos de Publicidad (Millones) 1.285 0.244 5.27 0.003 1.00

Como P=0.003 < 0.05, entonces podemos aceptar la hipótesis alternativa.


Existe relación estadísticamente significativa entre los beneficios y el gasto en
publicidad.
Podemos concluir que existe una relación significativa entre los gastos de publicidad y
los beneficios.
g) Prueba de hipótesis para el
coeficiente de correlación:
1) Ho: p = 0 (La correlación en la población es nula);
Ha: p ≠ 0 (La correlación en la población no es nula);

Gráfica de distribución
2) α = 0.05; 0.4
T, df=5

3) t-Student 0.3

4) Grados de libertad: n-2= 5

Densidad
0.2

0.1

0.025 0.025
0.0
-2.571 0 2.571
X
Gráfica de distribución
T, df=5
0.4

0.3

Densidad
0.2

0.1

0.025 0.025
0.0
-2.571 0 2.571
X

5) t = 𝑟 𝑛 − 2/( 1 − 𝑟 2 )
t = 5.271340266
t pertenece a la región de contingencia, entonces podemos aceptar la
hipótesis nula, por lo tanto ahora afirmamos que la correlación en la población
no es nula.
f) Inferencia sobre los coeficientes de
regresión de población.
1) Ho: ß0 = 0 (No hay relación);
Ha: ß0 ≠ 0 (Si hay relación);

2) α = 0.05; Gráfica de distribución


T, df=5
0.4

3) t-Student
0.3

4) Grados de libertad: n-2= 5

Densidad
0.2

0.1

0.025 0.025
0.0
-2.571 0 2.571
X
h) Estimado del intervalo de
confianza de B1:
b1 – T (α, n-2) Sb1 < β1 < b1 +T (α, n-2) Sb1
para un 95%:
b1 = 1.285
T(0.05, 5) = 2.571

𝑆𝑦𝑥
Sb1 = = 0.0765
(σ 𝑥)2
σ 𝑥2 +
𝑛

El intervalo de confianza para el coeficiente de regresión sería:


1.0883185 < β1 < 1.4816815
i) Intervalo de confianza e intervalo de
predicción para cuando el gasto en
publicidad es de 1 millón de dólares:
Gráfica de línea ajustada
beneficios = 1.470 + 1.285 gastos en publicidad
Regresión
5 IC de 95%
IP de 95%

S 0.378981
4 R-cuad. 84.7%
R-cuad.(ajustado) 81.7%
beneficios

0
0.5 1.0 1.5 2.0
gastos en publicidad
Valores de predictores para nuevas observaciones

gastos en
Nueva obs publicidad
1 1.00

Valores pronosticados para nuevas observaciones

EE de
Nueva obs Ajuste ajuste IC de 95% IP de 95%
1 2.755 0.156 (2.353, 3.157) (1.701, 3.809)

Entonces el intervalo de confianza del valor del beneficio


pronosticado para cuando el valor de gastos en publicidad
es de un millón de dólares es (2.353, 3.157) y el intervalo
de predicción sería:(1.701, 3.809)
PROBLEMA 2
Tamaño Gastos en
• ¿Cuál es el gasto entre la
cantidad gastada por semana De la familia comida
en comida y el tamaño de la 3 99
familia? Una muestra de 10 6 104
familias en el área de Chicago
5 151
reveló el tamaño de la familia y
sus gastos en comida a la 6 129
semana. 6 142
3 111
4 74
4 91
5 119
3 91
Análisis de regresión: gastos en comida
( $ ) vs. Tamaño de la familia
La ecuación de regresión es
Gastos en comida ( $ ) = 60.4 + 11.3 Tamaño de la
familia

ANALISIS DE VARIANZA:
Fuente GL SC CM F P
Regresión 1 1843.6 1843.6 4.25 0.073
Error residual 8 3467.3 433.4
Total 9 5310.9
SSR
a) Coeficiente de correlación y
coeficiente de determinacion:
𝟐 𝑺𝑺𝑹 𝟏𝟖𝟒𝟑.𝟔
𝒓 = = = 𝟎. 𝟑𝟒𝟕𝟏 = 𝟑𝟒. 𝟕𝟏%
𝑺𝑺𝒕𝒐𝒕𝒂𝒍 𝟓𝟑𝟏𝟎.𝟗
𝒓 = 𝟓𝟖. 𝟗𝟏%

 Existe una correlación positiva pero débil entre el tamaño de la familia y


los gastos en comida.
 Solo el 34.71% de los valores de los gastos en comida son explicados por e
tamaño de las familias.
b) Error estándar de estimación:

𝑺𝑺𝑬
𝑺𝒚𝒙 = = 𝟐𝟎. 𝟖𝟏𝟖𝟔
𝑵−𝟐
 Existe una variabilidad de 20.8186 $ en LOS GASTOS EN COMIDA
respecto a la ecuación de regresión.
c). Ecuación de la regresión:
La ecuación de regresión es
Gastos en comida ( $ ) = 60.4 + 11.3 Tamaño de la
familia

 El coeficiente para el tamaño e la familia es b1 = 11.3 $ y la constante b0=


60.4 $
El coeficiente b1 indica que para cada unidad en el tamaño de la familia se
puede esperar que el beneficio aumente en una media de 11.3 $.
PROBLEMA 3
• Los datos siguientes muestran la estimación del valor justo de Morningstar y el
precio por acción de 28 empresas. El valor justo es una estimación del valor
de una empresa por acción que considera pronósticos de crecimiento,
rentabilidad, riesgo y otros factores de las compañías para los próximos cinco
años.(Morningstar Stocks 500 edición 2008).

Valor justo Precio de la acción


80 98.63
17 11.02
83 61.39
35 41.56
70 41.26
Valor justo Precio de la acción 83 66.04
68 40.37 80 66.70
53 29.44 98 103.05
75 69.76 23 18.33
58 44.29 39 34.18
52 27.71 29 24.18
87 88.63 25 33.10
42 36.36 15 13.02
38 39.00 48 39.35
48 46.30 87 84.20
57 50.39 60 33.17
33 37.02 42 27.60
ANALISIS DE INFLUENCIA
• Método residuales de t-student eliminados:
RESIDT2 Rsd t-Student
2.80108 1.708 NO
-0.12993 1.708 SI
-0.98221 1.708 SI
1.09144 1.708 SI
-1.73483 1.708 NO
-1.63917 1.708 SI
-1.36858 1.708 SI
0.37255 1.708 SI
-0.46602 1.708 SI
-1.44514 1.708 SI
1.09063 1.708 SI
0.08980 1.708 SI
0.62260 1.708 SI
0.46392 1.708 SI
0.11938 1.708 SI
0.85184 1.708 SI
-0.56938 1.708 SI
-0.27399 1.708 SI
1.56369 1.708 SI
0.03085 1.708 SI
0.13655 1.708 SI
0.06301 1.708 SI
1.17220 1.708 SI
0.20600 1.708 SI
-0.11696 1.708 SI
0.68939 1.708 SI
-1.62086 1.708 SI
-0.64809 1.708 SI

Por tanto los puntos a retirar serán los que no cumplen dicha prueba es decir
son mayores, por tanto tenemos:
Valor justo Precio de la acción
80 98.63
70 41.26
Los cuáles serán retirados por posible influencia en la media.
• Método de la matriz sombrero hi:

HI2 hi valoración hi
0.079010 0.16 SI
0.128907 0.16 SI
0.089780 0.16 SI
0.060869 0.16 SI
0.051740 0.16 SI
0.047879 0.16 SI
0.035857 0.16 SI
0.063715 0.16 SI
0.036544 0.16 SI
0.036117 0.16 SI
0.106000 0.16 SI
0.046030 0.16 SI
0.053713 0.16 SI
0.038489 0.16 SI
0.036141 0.16 SI
0.066304 0.16 SI Por tanto los puntos a retirar serán los que no
0.089780 0.16 SI cumplen dicha prueba es decir son mayores,
0.079010 0.16 SI por tanto tenemos:
0.161560 0.16 NO
0.101447 0.16 SI Valor justo Precio de la acción
0.051593 0.16 SI 98 103.05
0.078768 0.16 SI
0.093356 0.16 SI Los cuáles serán retirados por posible
0.139123 0.16 SI influencia en la media.
0.038489 0.16 SI
0.106000 0.16 SI
0.037749 0.16 SI
0.046030 0.16 SI
• Método del estadístico de distancia de Cook.

COOK2 cook valoracion cook


0.266402 0.713 NO
0.001298 0.713 SI
0.047643 0.713 SI
0.038323 0.713 SI
0.076216 0.713 SI
0.063441 0.713 SI
0.033697 0.713 SI
0.004884 0.713 SI
0.004247 0.713 SI
0.037555 0.713 SI
0.070007 0.713 SI
0.000202 0.713 SI
0.011267 0.713 SI Por tanto los puntos a retirar serán los que no
0.004442 0.713 SI cumplen dicha prueba es decir son mayores,
0.000278 0.713 SI
por tanto tenemos:
0.026040 0.713 SI
0.016415 0.713 SI
0.003339 0.713 SI Valor justo Precio de la acción
0.223172 0.713 NO 80 98.63
0.000056 0.713 SI 98 103.05
0.000527 0.713 SI
0.000176 0.713 SI Los cuáles serán retirados por posible influencia
0.069739 0.713 SI en la media.
0.003560 0.713 SI
0.000285 0.713 SI
0.028755 0.713 SI
0.048497 0.713 SI
0.010364 0.713 SI
Por tanto:

Analizando por tanto al retirar los valores supuestos posibles influyentes que son:
Valor justo Precio de la acción
80 98.63
70 41.26
98 103.05

Podemos concluir analizando el coeficiente de correlación al retirar uno a uno los


valores o en conjunto que los valores que se deben retirar son:
Valor justo Precio de la acción
80 98.63
70 41.26

Al observar ahora un r= 90.11%.


PROBLEMA 4
• La Nationaa Highway Associotion
estudia las relaciones entre el número
de licitaciones para un proyecto de
carretera, la propuesta ganadora (la
de más bajo costo) para el proyecto
de particular interés es si el número de
postores aumenta o disminuye el
importe de licitación ganadora.
a) Sea la forma de la ecuación de
regresión:
Y=a+b*X

𝑏 = 𝑛∑𝑥𝑦 − ∑𝑥∑𝑦 𝑛∑𝑥2 − (∑𝑥)2


𝑎 =∑𝑦 𝑛 − 𝑏∑𝑥 𝑛

Se obtiene:
𝑌 = 11.236 + 0.467 ∗ 𝑋 Esto quiere decir que por cada licitador más
que integre al proyecto, la oferta ganadora aumenta en 0.467
dólares.
b) Hallando el coeficiente de
correlación y de determinación
(𝑛∑𝑥𝑦 − ∑𝑥∑𝑦 )
𝑟=
√[𝑛∑𝑥2 − (∑𝑥)2][𝑛∑𝑦2 − (∑𝑦)2]

r = 0.706

r2 = 0.499 Esto quiere decir que el 49.9% de la variación observada


en cantidad ofertada puede ser explicada por la variación del
número de licitaciones.
b) Hallando el coeficiente de
correlación y de determinación
(𝑛∑𝑥𝑦 − ∑𝑥∑𝑦 )
𝑟=
√[𝑛∑𝑥2 − (∑𝑥)2][𝑛∑𝑦2 − (∑𝑦)2]

r = 0.706

r2 = 0.499 Esto quiere decir que el 49.9% de la variación observada


en cantidad ofertada puede ser explicada por la variación del
número de licitaciones.
Prueba de hipótesis para la relación
entre la variable X y Y
1. Ho: β1 = 0 (no hay relación)
Ha: β 1 ≠ 0 (existe relación)
2. α = 0.10
3. 3. t-Student
4.
5. Cálculo del estadístico
𝑡 =(𝑏1 − 𝛽1)/ 𝑆𝑏1
𝑡 = −0.467 / 0.13
= −3.60

tk Є R.C. → rechazo Ho y
acepto Ha
Prueba de hipótesis para la
correlación entre en la población
1. Ho: ρ = 0 (la correlación en la población es nula)
Ha: ρ ≠ 0 (la correlación en la población no es nula)
2. α = 0.10
3. 3. t-Student
4.
5. Cálculo del estadístico
𝑡 =𝑟√𝑛 − 2 /√1 − 𝑟2
𝑡 = 3.596

tk Є R.C. → rechazo Ho y
acepto Ha
Se concluye al 0.10 que la correlación en la población no es nula
g) Hallando el intervalo de confianza y
de predicción para 5 licitadores:
𝐼𝐶 = [12.696,14.44]
La cantidad ofertada ganadora
para 5 licitadores se encuentra
entre 12.696 y 14.44dólares.

𝐼P = [11.36,15.73]
La oferta ganadora por un
proyecto de 5 licitadores se
encuentra entre 11.36 y 15.73
dólares.
FIN

Вам также может понравиться