Вы находитесь на странице: 1из 33

Regresin Mltiple

Escuela de Economa y Negocios


Universidad Anhuac Cancn
Regresin Lineal Mltiple
Escuela de Economa y Negocios Universidad Anhuac Cancn
Ejemplo:
Un fabricante de pequeas
fotocopiadoras, le paga a sus
vendedores un pequeo salario base ms
una comisin igual a un porcentaje fijo
de las ventas. Uno de los vendedores
afirma que esta poltica es
discriminatoria para las mujeres. Los
salarios base actuales de los nueve
vendedores de la empresa son los
siguientes:
Regresin Lineal Mltiple
Escuela de Economa y Negocios Universidad Anhuac Cancn
Ejemplo:
Agentes de ventas hombres Agentes de ventas mujeres
Meses como
empleado
Salario base
(en miles)
Meses como
empleada
Salario base
(en miles)

6 7.5 5 6.2
10 8.6 13 8.7
12 9.1 15 9.4
18 10.3 21 9.8
30 13.0
Regresin Lineal Mltiple
Escuela de Economa y Negocios Universidad Anhuac Cancn
Ejemplo:
La directora de personal observa que el
salario base depende del tiempo de
servicio con la compaa, pero no sabe
cmo utilizar los datos obtenidos para
verificar si tambin depende del sexo, y
si existe discriminacin de gnero. Qu
metodologas existen para apoyar su
anlisis y obtener conclusiones vlidas?
Regresin Lineal Mltiple
Escuela de Economa y Negocios Universidad Anhuac Cancn
La regresin lineal mltiple es un
modelo estadstico que permite
relacionar ms de una variable
independiente (X
1
,X
2
,,X
K
) con una
variable dependiente (Y), para estimar
nuevos valores de sta.

Su principal ventaja es que permite
utilizar ms informacin disponible para
la estimacin de Y.
Regresin Lineal Mltiple
Escuela de Economa y Negocios Universidad Anhuac Cancn
De la misma manera que la Regresin
Lineal Simple:
1. Se describir la ecuacin de
regresin lineal mltiple.
2. Examinaremos el error estndar de
estimacin.
3. Se utilizar la RLM para determinar
qu tan bien describe la ecuacin a
los datos observados.
Regresin Lineal Mltiple (X
1
,X
2
)
Escuela de Economa y Negocios Universidad Anhuac Cancn
Ejemplo 1: El Servicio Interno de Reembolso (SIR)
est tratando de estimar la cantidad mensual de
impuestos no pagados descubiertos por su
departamento de auditoras.
Se sabe que un factor de prediccin son las horas
de trabajo de auditoras de campo, pero ha sido
errtico.
Del mismo departamento, existen registros del
nmero de horas que sus computadoras son
utilizadas para detectar impuestos no pagados.
Se ha decidido combinar ambos datos para estimar
de forma ms precisa los impuestos no pagados
cada mes. Qu modelo se debe aplicar?
Regresin Lineal Mltiple (X
1
,X
2
)
Escuela de Economa y Negocios Universidad Anhuac Cancn
Mes Hrs. Auditora de
Campo (cientos)
(X
1
)
Hrs. en Computadora
(cientos) (X
2
)
Impuestos reales no pagados
descubiertos (mdd) (Y)
Enero 45 16 29
Febrero 42 14 24
Marzo 44 15 27
Abril 45 13 25
Mayo 43 13 26
Junio 46 14 28
Julio 44 16 30
Agosto 45 16 28
Septiembre 44 15 28
Octubre 43 15 27
Tabla 1. Datos de la Auditora del SIR, ltimos 10 meses
Regresin Lineal Mltiple (X
1
,X
2
)
Escuela de Economa y Negocios Universidad Anhuac Cancn
Para considerar ambos datos
predictores (X
1
,X
2
), se propone el
modelo lineal
Y = a + b
1
X
1
+ b
2
X
2

Y = valor estimado
a = interseccin con el eje Y
X
1
, X
2
= valores de las variables ind.
b
1
, b
2
= pendientes asociadas de X
1
, X
2

Regresin Lineal Mltiple (X
1
,X
2
)
Escuela de Economa y Negocios Universidad Anhuac Cancn
De la misma forma que en la RMC, se
minimizar la Suma de los Cuadrados
de los Errores.
Aplicando Clculo Multivariado se
obtienen sistemas de ecuaciones
lineales cuyas soluciones son los
valores desconocidos a, b
1
y b
2
.
Escuela de Economa y Negocios Universidad Anhuac Cancn



+ + =
+ + =
+ + =
2
2 2 2 1 1 2 2
2 1 2
2
1 1 1 1
2 2 1 1
X b X X b X a Y X
X X b X b X a Y X
X b X b na Y
Regresin Lineal Mltiple (X
1
,X
2
)
Construyamos este sistema con los datos del ejemplo
y estimemos el valor estimado de impuestos evadidos
para el mes de Noviembre, donde trabajan 43 horas
en auditora de campo y 16 horas en la computadora.
Escuela de Economa y Negocios Universidad Anhuac Cancn
Regresin Lineal Mltiple (X
1
,X
2
)
Ejercitemos
lo aprendido!
Escuela de Economa y Negocios Universidad Anhuac Cancn
Regresin Lineal Mltiple (X
1
,X
2
, X
3
)
Ejemplo:
La empresa Salsberry Realty vende casas en la costa este de
EU. Una de las preguntas que los posibles compradores
hacen con ms frecuencia es: cunto de calefaccin
tendramos que pagar durante el invierno?
Para estimar este costo, el rea de investigacin de mercados
de la empresa consider que hay tres variables relacionadas:
(1) la temperatura exterior media diaria, (2) el nmero de
pulgadas de aislamiento trmico en el desvn, y (3) la
antigedad del calefactor. La siguiente es una muestra
aleatoria de 20 inmuebles vendidos recientemente, y los
datos corresponden al mes de enero.
Escuela de Economa y Negocios
Casa
Costo de
calefaccin
(USD)
Temperatura
exterior
media (F)
Aislamiento
en el desvn
(pulg.)
Antigedad
del calefactor
(aos)
1 250 35 3 6
2 360 29 4 10
3 165 36 7 3
4 43 60 6 9
5 92 65 5 6
6 200 30 5 5
7 355 10 6 7
8 290 7 10 10
9 230 21 9 11
10 120 55 2 5
11 73 54 12 4
12 205 48 5 1
13 400 20 5 15
14 320 39 4 7
15 72 60 8 6
16 272 20 5 8
17 94 58 7 3
18 190 40 8 11
19 235 27 9 8
20 139 30 7 5
Determina:
a. Qu variable o variables son
independientes, dependientes?
b. La ecuacin de regresin
mltiple
c. Analiza los coeficientes de
regresin y explica qu indican
con relacin a la variable
pronosticada.
d. Cul es el valor de la
intercepcin?
e. Cul es el costo calculado de
calefaccin si la temperatura
media es 30F, 5 de aislamiento
y el calefactor tiene 10 aos de
uso?
Escuela de Economa y Negocios Universidad Anhuac Cancn




+ + + =
+ + + =
+ + + =
+ + =
2
3 3 3 2 3 3 1 1 3 3
3 2 3
2
2 2 2 1 1 2 2
3 1 3 2 1 2
2
1 1 1 1
3 3 2 2 1 1
X b X X b X X b X a Y X
X X b X b X X b X a Y X
X X b X X b X b X a Y X
X b X b X b na Y
Regresin Lineal Mltiple (X
1
,X
2
, X
3
)
Las ecuaciones a resolver son:
Calculemos
con EXCEL!
Error Estndar Mltiple de Estimacin
Escuela de Economa y Negocios Universidad Anhuac Cancn
De forma similar a la RMC, se puede
obtener un valor llamado error
estndar mltiple de estimacin por
medio de la frmula:
( )
( ) 1
'
2
12
+

=

k n
Y Y
S
K Y
Y = Observacin
Y = Estimacin
n = total de observaciones
k = nmero de var.
independientes
Regresin y Correlacin Mltiples
Escuela de Economa y Negocios Universidad Anhuac Cancn
Al aplicar anlisis de regresin y
correlacin mltiples se deben
comprobar los siguientes puntos:
1. Las variables (ind. y dep.) tienen una
relacin lineal.
2. La variable dependiente es continua
y al menos con escalizacin de
intervalo.

Regresin y Correlacin Mltiples
Escuela de Economa y Negocios Universidad Anhuac Cancn
3. La variacin YY debe ser aprox. igual
para todos los valores de Y. Esta
propiedad se llama homoscedasticidad.
4. Los residuos, de Y-Y, estn
distribuidos de forma normal con
media igual a 0.
5. Las observaciones sucesivas de la
variable dependiente NO estn
correlacionadas. En otro caso, se dice
que tienen autocorrelacin.
Regresin y Correlacin Mltiples
Escuela de Economa y Negocios Universidad Anhuac Cancn
La tabla ANOVA nos proporciona
informacin til para la regresin. Veamos
la del ejemplo de costo de calefaccin.
ANLISIS DE VARIANZA
Grados de
libertad
Suma de
cuadrados
Promedio
de los
cuadrados F
Valor
crtico de F
Regresin 3 171220.473 57073.4909 21.901182 6.5618E-06
Residuos 16 41695.2772 2605.95482
Total 19 212915.75
Variacin Total
Error de variacin (NE)
Variacin de
Regresin
Variables ind.
Datos
Valor de prueba ?
Regresin y Correlacin Mltiples
Escuela de Economa y Negocios Universidad Anhuac Cancn
El coeficiente de determinacin mltiple, r
2
,
es la porcin de la variacin explicada por la
regresin.
El error estndar mltiple de estimacin,
S
Y123k
, se puede obtener a partir de la
ANOVA.
804 . 0
2
= =
SST
SSR
r
( ) ( )
05 . 51
1 3 20
2772 . 41695
1
123
=
+
=
+
=

k n
SSE
S
Y
Regresin y Correlacin Mltiples
Escuela de Economa y Negocios Universidad Anhuac Cancn
Ejercicio:
Considera la siguiente Tabla ANOVA:
a) Qu tan grande es la muestra?
b) Cuntas variables independientes hay?
c) Calcula el coeficiente de determinacin mltiple.
d) Determina el error estndar mltiple de
estimacin.
Fuente g.l. SC CM F
Regresin 3 21 7.0 2.33
Error 15 45 3.0
Total 18 66
Regresin y Correlacin Mltiples
Escuela de Economa y Negocios Universidad Anhuac Cancn
As como la ANOVA permite la prueba global de
hiptesis del modelo de regresin
H
0
:
1
=
2
=
3
=0 (NO es significativo el modelo)

H
1
: No todas las son iguales a 0
Tambin existe informacin para evaluar cada
coeficiente , a partir de Excel
Coeficientes Error tpico Estadstico t Probabilidad
Intercepcin 427.1938033 59.6014293 7.167509374 2.23764E-06
Variable X 1 -4.58266263 0.77231935 -5.933636915 2.10035E-05
Variable X 2 -14.8308627 4.75441228 -3.119389277 0.006605963
Variable X 3 6.101032061 4.01212017 1.520650381 0.147862484
Regresin y Correlacin Mltiples
Escuela de Economa y Negocios Universidad Anhuac Cancn
Cules son las hiptesis? Con nivel de = 0.05
para dos colas, el valor crtico es t
/2, n-(k+1)
=2.120.
Si alguno es mayor o menor se rechaza H
0
.

Coeficientes Error tpico Estadstico t Probabilidad
Intercepcin 427.1938033 59.6014293 7.167509374 2.23764E-06
Variable X 1 -4.58266263 0.77231935 -5.933636915 2.10035E-05
Variable X 2 -14.8308627 4.75441228 -3.119389277 0.006605963
Variable X 3 6.101032061 4.01212017 1.520650381 0.147862484
Para la temperatura Para el aislamiento Para la antigedad
del calefactor
H
0
:
1
=0; H
1
:
1
=0 H
0
:
2
=0; H
1
:
2
=0 H
0
:
3
=0; H
1
:
3
=0
Regresin y Correlacin Mltiples
Escuela de Economa y Negocios Universidad Anhuac Cancn
Ejercicio: A partir de la informacin, responda
a) Completa la tabla
ANOVA
b) Efecta una
prueba global de
hiptesis al nivel
0.05. Qu se
concluye de los
coeficientes?
c) Realiza una
prueba de
hiptesis para
cada coeficiente.
Eliminaras
alguna variable?
Prediccin Coef. Error (D.S.)
Constante 20.00 10.00
X1 -1.00 0.25
X2 12.00 8.00
X3 -15.00 5.00
Fuente g.l. SC CM F
Regresin 3 7500
Error 18
Total 21 10000
Regresin y Correlacin Mltiples
Escuela de Economa y Negocios Universidad Anhuac Cancn
Otra prueba que permite analizar la relacin
entre cada variable predictora con la variable
de respuesta es la llamada matriz de
correlacin.

Veamos la del ejemplo del costo de
calefaccin.
Costo Temperatura Aislamiento Antigedad
Costo 1
Temperatura -0.81150884 1
Aislamiento -0.25710133 -0.103016129 1
Antigedad 0.53672756 -0.485987697 0.063617402 1
Suposiciones para la Regresin Mltiple
Escuela de Economa y Negocios Universidad Anhuac Cancn
1. Existe una relacin lineal entre Y y X
k
.
2. La variacin en los residuos (Y ) es la misma
tanto para valores grandes como pequeos de .
3. Los residuos siguen una distribucin normal, con
media igual a 0.
4. Las variables independientes no debern estar
correlacionadas (multicolinealidad).
5. Los residuos son independientes, entre una y
otra observacin, esto es, su grfica debe
mostrar aleatoriedad, sin patrones.
Suposiciones para la Regresin Mltiple
Escuela de Economa y Negocios Universidad Anhuac Cancn
Interpretacin de la variacin de los residuos de

Homoscedasticidad: La variacin respecto de la
ecuacin de regresin es igual* para todos los
valores de las variables independientes.

*Esto puede observarse en el grfico de
probabilidad normal que se obtiene en el informe de
Excel o Minitab, al estar los puntos muy cerca de la
recta.
Suposiciones para la Regresin Mltiple
Escuela de Economa y Negocios Universidad Anhuac Cancn
Multicolinealidad

La multicolinealidad existe cuando las variables
independientes estn correlacionadas. Esto provoca
confusiones para emitir inferencias individuales y sus efectos
sobre la variable dependiente. Cmo detectarlo en cada
variable?

Una variable independiente tiene un coeficiente de
regresin no significativo
Un coeficiente de regresin que debiera ser positivo,
resulta ser negativo.
Al agregar o eliminar una variable independiente, hay un
cambio drstico en los dems coeficientes de regresin.
Suposiciones para la Regresin Mltiple
Escuela de Economa y Negocios Universidad Anhuac Cancn
Multicolinealidad
Cmo elegir las variables independientes? La regla
general es si la correlacin entre dos variables
independientes est entre 0.7 y 0.7, es probable
que no haya problema de incluir a ambas en la
regresin.
Otra prueba ms precisa es utilizar el factor de
inflacin de la varianza (VIF) con el coeficiente de
determinacin entre Y y Xj de la siguiente manera:
2
1
1
j
R
VIF

=
Si VIF > 10, es insatisfactorio, debe
eliminarse Xj de la regresin.
Variables ficticias o nominales en Regresin Mltiple
Escuela de Economa y Negocios Universidad Anhuac Cancn
Cuando se desea incluir variables nominales
(cualitativas: gnero, tiene o no piscina, equipo
local o visitante,etc.), la estrategia es
considerarla como una
Variable ficticia : Variable cualitativa con dos
posibles valores, a decir, 0 1.

Ejemplo: Supongamos que para el el caso del
costo de calefaccin, la variable X
3
no es
relevante, pero se considera relevante el que la
casa tenga o no cochera (X
4
). Los datos son

Escuela de Economa y Negocios
Ejercicio:
Determina:
a. Cul es el efecto de
la variable cochera?
b.Debe incluirse en el
anlisis de
regresin? Explique
Casa
Costo de
calefaccin
(USD) Y
Temperatur
a exterior
media (F)
X1
Aislamient
o en el
desvn
(pulg.) X2
Tiene
cochera X4
1 250 35 3 0
2 360 29 4 1
3 165 36 7 0
4 43 60 6 0
5 92 65 5 0
6 200 30 5 0
7 355 10 6 1
8 290 7 10 1
9 230 21 9 0
10 120 55 2 0
11 73 54 12 0
12 205 48 5 1
13 400 20 5 1
14 320 39 4 1
15 72 60 8 0
16 272 20 5 1
17 94 58 7 0
18 190 40 8 1
19 235 27 9 0
20 139 30 7 0
Escuela de Economa y Negocios Universidad Anhuac Cancn
Ejercicios (Tarea)
Resolver los ejercicios 9, 10 y 11 del libro
Lind, D. (2008). Estadstica aplicada a los negocios
y la economa (13 Edicin). Mxico: McGraw Hill.

Вам также может понравиться