Академический Документы
Профессиональный Документы
Культура Документы
!1
INGRESOS
EXPER
El modelo tiene tres dimensiones y el punto de partida para la determinar los ingresos es la
ordenada en el origen !1. Este punto surge de aquéllos que no tienen estudios ni
experiencia 2
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
efecto S
!1 + !2S
!1
INGRESOS
EXPER
!1 + !3EXPER
efecto EXPER
!1
INGRESOS
EXPER
!1 + !2S + !3EXPER
!1 + !3EXPER efecto conjunto S y
efecto EXPER EXPER
efecto S
!1 + !2S
!1
INGRESOS
EXPER
S
Distintas combinaciones de S y EXPER dan lugar al hiperplano definido por INGRESOS = !1
+ !2S + !3EXPER. Este sería el componente no aleatorio del modelo.
IMPORTANTE: En regresión múltiple, cuando se evalúa el efecto de una variable sobre la
5
variable dependiente, es necesario discriminar el efecto propio de los efectos de las otras
variables.
efecto S
!1 + !2S
!1
INGRESOS
EXPER
El elemento aleatorio del modelo, u, nace como consecuencia de que las observaciones no
coinciden con el hiperplano.
6
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
Los parámetros del modelo original son obtenidos por el método de mínimos cuadrados
ordinarios, de donde se obtienen los estimadores b1, b2, y b3.
SCR = ! e i2 = ! (Yi - b1 - b2 X 2 i - b3 X 3 i ) 2
8
REGRESIÓN MULTIPLE CON DOS VARIABLES EXPLICATIVAS
Obtenemos entonces tres ecuaciones para los tres parámetros. De estas ecuaciones
obtenemos los estimadores b1, b2, y b3.
9
------------------------------------------------------------------------------
INGRESOS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | .7390366 .1606216 4.601 0.000 .4235506 1.054523
EXPER | .1545341 .0429486 3.598 0.000 .0701764 .2388918
_cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095
------------------------------------------------------------------------------
ˆ
ingresos = - 4.62 + 0.74 S + 0.15 Exper
11
RELACIONES MULTIVARIANTES
------------------------------------------------------------------------------
ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | .7390366 .1606216 4.601 0.000 .4235506 1.054523
hábil | .1545341 .0429486 3.598 0.000 .0701764 .2388918
_cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095
------------------------------------------------------------------------------
Este resultado surge de hacer la regresión de ingresos, medido en pesetas por hora, frente
a años de educación, S, y el resultado de un test de habilidad o aptitud hábil.
Pero supongamos que lo que nos interesa es la relación entre ingresos y S: si observamos
únicamente este gráfico para extraer conclusiones, éstas podrían estar equivocadas dado
que sabemos que la habilidad afecta al ingreso, pero también a la educación. 12
Relaciones Multivariantes
. correlación S hábil
(obs=570)
| S hábil
--------+------------------
S| 1.0000
hábil | 0.5779 1.0000
Existe una relación positiva fuerte entre S y hábil, y también entre hábil e ingresos. Es por
ello que mirar únicamente la relación entre S e ingreso podría llevarnos a conclusiones
equivocadas. 13
Relaciones Multivariantes
------------------------------------------------------------------------------
ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
hábil | .2687432 .035666 7.535 0.000 .1986898 .3387966
_cons | -.359883 1.818571 -0.198 0.843 -3.931829 3.212063
------------------------------------------------------------------------------
Relaciones Multivariantes
. reg S hábil
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
hábil | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
15
Relaciones Multivariantes
Una vez que hemos hecho eso, graficamos los residuos de ambas regresiones. Esta gráfica
nos muestra la relación entre el ingreso y S, una vez depurado el efecto de la habilidad. La
recta oscura es la regresión entre los residuos y la más clara es la regresión original entre
16
ingresos y estudios.
Relaciones Multivariantes
. reg Res-ingresos res-estudios
Source | SS df MS Number of obs = 570
---------+------------------------------ F( 1, 568) = 21.21
Model | 1256.44239 1 1256.44239 Prob > F = 0.0000
Residual | 33651.2873 568 59.2452241 R-squared = 0.0360
---------+------------------------------ Adj R-squared = 0.0343
Total | 34907.7297 569 61.3492613 Root MSE = 7.6971
------------------------------------------------------------------------------
Resin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
RS | .7390366 .1604802 4.605 0.000 .4238296 1.054244
_cons | -5.99e-09 .3223957 0.000 1.000 -.6332333 .6332333
------------------------------------------------------------------------------
17
Relaciones Multivariantes
. reg Res-ing RS
Source | SS df MS Number of obs = 570
---------+------------------------------ F( 1, 568) = 21.21
Model | 1256.44239 1 1256.44239 Prob > F = 0.0000
Residual | 33651.2873 568 59.2452241 R-squared = 0.0360
---------+------------------------------ Adj R-squared = 0.0343
Total | 34907.7297 569 61.3492613 Root MSE = 7.6971
------------------------------------------------------------------------------
Resin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
RS | .7390366 .1604802 4.605 0.000 .4238296 1.054244
_cons | -5.99e-09 .3223957 0.000 1.000 -.6332333 .6332333
------------------------------------------------------------------------------
Regresión multiple:
------------------------------------------------------------------------------
ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | .7390366 .1606216 4.601 0.000 .4235506 1.054523
exper | .1545341 .0429486 3.598 0.000 .0701764 .2388918
_cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095
------------------------------------------------------------------------------
EJERCICIO
19
PRECISIÓN DE LOS ESTIMADORES
! u2 2 1
Varianza poblacional b2 = ! = b2
!
nVar ( X 2 ) 1 - rX22 , X 3
Cuanto mayor sea la correlación entre las dos variables explicativas, más
difícil será discriminar entre el efecto que dichas variables producen en la
Y y, por lo tanto, menos precisa será la estimación. 20
! u2 2 1
Varianza poblacional b2 = ! = b2
!
nVar ( X 2 ) 1 - rX22 , X 3
! u2 1
Desviación típica b2 = !
nVar ( X 2 ) 1 - rX22 , X 3
21
Veremos ahora un ejemplo utilizando dos muestras de salarios: una,
de trabajadores sindicalizados, cuyo salario ha sido fijado a través de
negociación colectiva y otra de trabajadores no sindicalizados.
22
------------------------------------------------------------------------------
SALARIOS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | .8891909 .1741617 5.106 0.000 .5470186 1.231363
HABIL | .1398727 .0461806 3.029 0.003 .0491425 .2306029
_cons | -6.100961 2.15968 -2.825 0.005 -10.34404 -1.857877
------------------------------------------------------------------------------
RESPONDER:
¿El signo del estimador del parámetro de HABIL es el esperable ?
¿Es significativo el efecto de HABIL en el salario?
¿Hay rendimientos constantes a escala en HABIL y S?¿qué
significa esto y cómo lo constrastaría?
¿El modelo ajusta bien?
23
Precisión de los estimadores
------------------------------------------------------------------------------
SALARIOS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | -.3872787 .3530145 -1.097 0.277 -1.093413 .3188555
HABIL | .2309133 .1019211 2.266 0.027 .0270407 .4347858
_cons | 8.291716 4.869209 1.703 0.094 -1.448152 18.03158
------------------------------------------------------------------------------
24
No-sindic 0.1742
Sindic 0.3530
Factor
No-sindic
Sindic
25
Precisión de los estimadores
------------------------------------------------------------------------------
SALARIOS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | .8891909 .1741617 5.106 0.000 .5470186 1.231363
HABIL | .1398727 .0461806 3.029 0.003 .0491425 .2306029
_cons | -6.100961 2.15968 -2.825 0.005 -10.34404 -1.857877
------------------------------------------------------------------------------
1
su2 = SCR
n- k
26
------------------------------------------------------------------------------
SALARIOS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | -.3872787 .3530145 -1.097 0.277 -1.093413 .3188555
HABIL | .2309133 .1019211 2.266 0.027 .0270407 .4347858
_cons | 8.291716 4.869209 1.703 0.094 -1.448152 18.03158
------------------------------------------------------------------------------
Factor
No-sindic
Sindic
La varianza de S se calcula a partir de los datos de la muestra para cada una de las
submuestras
28
| S HABIL
--------+------------------
S| 1.0000
HABIL | 0.5826 1.0000
| S HABIL
--------+------------------
S| 1.0000
HABIL | 0.5380 1.0000
29
Precisión de los estimadores
Factor product
30
! u2
2 1
Varianza poblacional b2 = ! = b2
!
nVar ( X 2 ) 1 - rX22 , X 3
31
CONTRASTE F DE BONDAD DEL AJUSTE
H 0 : ! 2 = ... = ! k = 0
H 1 : al menos un ! ! 0
Observar:
- hay k-1 variables explicativas
- la hipótesis nula se pregunta si estas variables explican la variabilidad
de la variable dependiente.
PREGUNTA ¿Cómo interpreta la hipótesis nula?
32
H 0 : ! 2 = ... = ! k = 0
H 1 : al menos un ! ! 0
SCE ( k - 1)
F ( k - 1, n - k ) =
SCR ( n - k )
SCE
( k - 1)
SCT R 2 ( k - 1)
= =
SCR - (1 - R 2 ) (n - k )
(n k )
SCT
33
CONTRASTE F DE BONDAD DEL AJUSTE
. reg S ASVABC SM SF
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527
SM | .069403 .0422974 1.641 0.101 -.013676 .152482
SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401
_cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214
------------------------------------------------------------------------------
34
SCR1
SCR2
35
CONTRASTE F DE BONDAD DEL AJUSTE
SCR1
SCR2
H0 : !3 = !4 = 0
H1 : ! 3 ! 0 o ! 4 ! 0 o !3 y !4 ! 0
36
SCR1
SCR2
H0 : !3 = !4 = 0
H1 : ! 3 ! 0 o ! 4 ! 0 o !3 y !4 ! 0
mejora coste
F(coste, gl ) =
remanente gl
no explicado
Mejora: es la reducción de la suma de los cuadrados residuales cuando agregamos las nuevas
variables explicativas.
Coste: es la disminución de grados de libertad por añadir nuevas variables. En este caso es
igual al número de variables explicativas añadidas, dado que éste es el número de parámetros
a estimar adicionales. Los grados de libertad pasarían de n-2 a n-4 cuando X3 y X4 se agregan
Remanente no explicado: la suma de los cuadrados residuales en la estimación después
de introducir las nuevas variables
gl: grados de libertad que quedan después de realizar los cambios 37
CONTRASTE F DE BONDAD DEL AJUSTE
. reg S ASVABC
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
38
. reg S ASVABC SM SF
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527
SM | .069403 .0422974 1.641 0.101 -.013676 .152482
SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401
_cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214
------------------------------------------------------------------------------
39
CONTRASTE F DE BONDAD DEL AJUSTE
SCR1
SCR2
H0 : !3 = !4 = 0
H1 : ! 3 ! 0 o ! 4 ! 0 o !3 y !4 ! 0
mejora coste
F(coste, gl ) =
remanente gl
no explicado
40
SCR1
SCR2
Para concluir este análisis del contraste de bondad de ajuste, haremos una
reinterpretación del contraste t: básicamente, este contraste t es equivalente
al contraste F cuando se agrega una sola variable al modelo.
Es decir, el contraste t mide la capacidad explicativa de una variable, dadas
todas las demás. Ahora lo veremos.
41
CONTRASTE F DE BONDAD DEL AJUSTE
SCR1
SCR2
mejora coste
F(coste, d.f. ) =
remanente gl
no explicado
. reg S ASVABC SM
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------
43
CONTRASTE F DE BONDAD DEL AJUSTE
. reg S ASVABC SM SF
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527
SM | .069403 .0422974 1.641 0.101 -.013676 .152482
SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401
_cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214
------------------------------------------------------------------------------
44
SCR1
SCR2
mejora coste
F(coste, d.f. ) =
remanente gl
no explicado
. reg S ASVABC SM SF
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527
SM | .069403 .0422974 1.641 0.101 -.013676 .152482
SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401
_cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214
------------------------------------------------------------------------------
Este resultado muestra que el contraste t es un test sobre la importancia marginal de una
variable, después de que todas las otras variables fueran incluidas en la ecuación. Si la
correlación de esta nueva variable con las otras ya incluidas fuera muy alta, entonces su 46
poder explicativo sería muy bajo y probablemente no rechazaríamos la hipótesis nula.
. reg S ASVABC SM SF
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527
SM | .069403 .0422974 1.641 0.101 -.013676 .152482
SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401
_cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214
------------------------------------------------------------------------------
Si la correlación entre todas las variables incluidas fuera alta, cada variable tendría un
efecto explicativo marginal muy pequeño, por lo que su t sería bajo. Sin embargo, es
posible que en conjunto, el modelo explique bien y por lo tanto, el valor del contraste F 47
fuera relevante.