Вы находитесь на странице: 1из 76

1

Tema 11. Regresin Lineal


1. Introduccin
2. Regresin lineal simple
1. Modelo
2. Contraste de hiptesis
3. Relaciones entre el coeficiente de correlacin y la recta de regresin lineal
4. Interpretacin del coeficiente de determinacin
3. Regresin lineal mltiple
1. Modelo
2. Contraste de hiptesis
3. Comprobacin de los supuestos
4. Correlacin mltiple, parcial y semiparcial
5. Muticolinealidad
6. Mtodos de seleccin de variables
7. Interpretacin de los pesos en la ecuacin







2
1. Introduccin a la regresin
Objetivo:
Someter a comprobacin estadstica la relacin entre una
variable dependiente cuantitativa y una o varias variables
independientes cuantitativas (o cualitativas con algn tipo de
codificacin adecuada) consideradas conjuntamente

Para ello es necesario tener medidas de todos los sujetos en
todas las variables

Si slo existe una variable independiente se habla de
regresin lineal simple, si hay ms de una variable
independiente se habla de regresin lineal mltiple







3
Diferencia entre regresin y correlacin lineal simple:
Correlacin:
El objetivo es conocer la relacin entre dos variables aleatorias X e Y,
es decir, si las modalidades de una variable estn asociadas con las de
otras
Regresin:
El objetivo es predecir una variable dependiente Y a partir de las
puntuaciones de los sujetos en otra variable X, es decir, estudiar si los
cambios en una variable se asocian a cambios en otra variable
La variable independiente es fijada por el experimentador y la variable
dependiente es aleatoria

Pero es una distincin que en la prctica no se aplica ya tambin se utiliza
la regresin aunque la variable independiente sea aleatoria.

El nfasis en un modelo u otro se hace en funcin del objetivo: si se quiere
estudiar la relacin entre variables o predecir una variable
1. Introduccin a la regresin
4
Modelo de Regresin Lineal Simple

Y
i
=o +|X
i
+c
i
Magnitud comn a todos los
sujetos (ordenada en el
origen)
Error para cada sujeto
Valor
observado
en la VD
Efectos debidos
a factores
constantes
= +
Efectos debidos a factores
tenidos en cuenta (VVII)
+
Efectos debidos a
factores no
controlados

Y
i

= |
0
X
i0

+|
1
X
i1
+|
2
X
i2
+...+|
k
X
ik

+c
i
4
2. Regresin lineal simple
2.1.Modelo
Peso de la variable X en la
ecuacin (pendiente)
5
y = 0.2429x + 2.8714
0
2
4
6
8
10
12
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
a
u
s
e
n
c
i
a
s
2. Regresin lineal simple
2.1.Modelo (cont.)
Para poder aplicar el modelo es necesario comprobar que los puntos en el diagrama de
dispersin se sitan en torno a una lnea recta
Ejemplo: Consumo diario de cigarrillos (X); Das de ausencia al trabajo al ao (Y)
6
y = 0.2429x + 2.8714
0
2
4
6
8
10
12
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
a
u
s
e
n
c
i
a
s
2. Regresin lineal simple
2.1.Modelo (cont.)
Para un mismo diagrama de dispersin pueden ajustarse muchas rectas (modelos)
diferentes
Ejemplo: Consumo diario de cigarrillos (X); Das de ausencia al trabajo al ao (Y)
7
y = 0.2429x + 2.8714
0
2
4
6
8
10
12
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
a
u
s
e
n
c
i
a
s
El mtodo de mnimos cuadrados tiene en cuenta el error que se comete al predecir
mediante la recta de regresin
Ejemplo: Consumo diario de cigarrillos (X); Das de ausencia al trabajo (Y)
2. Correlacin y regresin lineal simple
4,81

c
i
= (Y
i
E(Y
i
)) =
= 4 4,81= 0,81
Error al predecir
la ausencia del
sujeto a partir del
nmero de
cigarrillos que
fuma (8), falta 4
das y le
predecimos 4,81

E(Y
i
) =o +|X
i
2.1.Modelo (cont.)
8

Y
i
=o +|X
i
+c
i
Magnitud comn a
todos los sujetos, valor
que corresponde a Y
cuando X=0
Pendiente o tasa de
cambio: cambio en Y
por cada unidad de
cambio en X
Mtodo de mnimos cuadrados: selecciona los estimadores de y
que hacen mnimo el error cuadrtico medio


S
e
2
= S
y.x
2
=
y
i
y
i
'
( )
2

n
Error para cada sujeto
2. Regresin lineal simple
2.1.Modelo (cont.)

c
i
=Y
i
E(Y
i
)

e
i
=Y
i
Y
i
'
Puntuacin en Y
del sujeto i

Y
i
'
= a + bX
i

E(Y
i
) =o+|X
i

o =
y
|
x
X b Y a =
x
y
xy
o
o
| =

b = r
xy
S
y
S
x
9

Y
i
'
= Y
i

Y
VD, Variable criterio o Variable a predecir

X
VI o Variable predictora

Y
'
Variable predicha o pronstico
Valor que se obtiene al
utilizar la recta de
regresin para predecir
Y a partir de X
Valor que se obtiene al
medir directamente Y

e
i
= (Y
i
Y
i
'
)
2.1.Modelo (cont.)
2. Regresin lineal simple

E(Y
i
) =o+|X
i
Recta de regresin de Y sobre X
Recta de regresin estimada

Y
i
'
= a+bX
i
10

E(Y
i
) =o+|X
i
Recta de regresin estimada

Y
i
'
= a+bX
i
2.1.Modelo (cont.)
2. Regresin lineal simple
La recta de regresin se estima a partir de los datos de los sujetos en la
muestra, todos los sujetos tienen que ser medidos tanto en X como en Y

Una vez construida puede ser aplicada a todos los sujetos de la poblacin a
la que pertenece la muestra, en este caso es suficiente medir al sujeto en X y
utilizando la ecuacin de la recta de regresin podemos predecir su
puntuacin en Y
Propiedades:


Y
i
'
= Y
i
La media de los pronsticos es igual a la media de la variable Y

Y = a +bX
El valor pronosticado para los sujetos cuyo valor coincida con la
media de X es la media de Y
Recta de regresin de Y sobre X
11

Z
Y
i
= |Z
X
i
+c
i
Nmero de desviaciones
tpicas que cambia Y
cuando X cambia una
desviacin tpica X

| =
xy

beta = r
xy
Error para cada sujeto
2. Regresin lineal simple
2.1.Modelo (cont.)
Ecuacin de la recta regresin lineal en puntuaciones
tpicas
Puntuacin tpica
en Y del sujeto i

c
i
=(Z
Y
i
E(Z
Y
i
))

e
i
=(Z
Y
i
Z
Y
i
'
)

Z
Y
i
'
=betaZ
X
i

E(Z
Y
i
) = |Z
X
i
12

E(Y
i
) =o +|X
i

Y
i
'
= a + bX
i
Se pueden realizar 5 contrastes de hiptesis:


2. | b


5.
xy
r
xy
2. Regresin lineal simple
2.2.Contraste de hiptesis
Valor predicho en
Y para un sujeto
con un valor en
X=x
i

Existen tambin procedimientos para contrastar si dos coeficientes
de correlacin o dos pendientes son iguales

1. Modelo de la regresin
(se comprueba antes, aunque por motivos
didcticos lo expondremos al final)
13

2. o

1. H
0
: | = 0
H
1
: | = 0
2. Regresin lineal simple
3. SUPUESTOS:
3.1 Independencia: 1 m.a.s. medida en las variables X e Y


Y
i
N(
y x
i
, o
i
2
)

c
i
N(0, o
i
2
)
3.2 Normalidad:


o
y x
1
2
=o
y x
2
2
=...=o
y x
k
2
=o
2
3.3 Homocedasticidad
2.2.Contraste de hiptesis. Pendiente
14
Y
x
1
x
2
. x
k
X

2. Regresin lineal simple

N(
y x
1
, o
2
)

N(
y x
2
, o
2
)

N(
y x
k
, o
2
)
2.2.Contraste de hiptesis. Pendiente (cont.)
15
( )
2
2
2
~

n
i
e
t
x x
S
b
T



S
e
2
=
y
i
y
i
'
( )
2

n 2
2. Regresin lineal simple
4. E.C.
2.2.Contraste de hiptesis. Pendiente (cont.)

S
b
Error tpico de
estimacin de la
pendiente de la
recta de regresin
16
2. Regresin lineal simple
5. REGIN CRTICA Y CRITERIO DE DECISIN
- Rechazamos H
0
si el valor obtenido en la muestra para el E.C. cae en la regin crtica,
la variable X es un predictor estadsticamente significativo de la variable Y
- Mantenemos H
0
si el valor obtenido en la muestra para el E.C. cae en la regin de
aceptacin, la variable X no es predictor de la variable Y


Ts
o/ 2
t
n2
T>
1o/ 2
t
n2


o/2


o/2
Contraste
bilateral


0
6. NIVEL CRTICO
- Contraste bilateral
Valor del E.C.
obtenido en la
muestra


p = 2 P(t
n2
> t
k
)
| |
2.2.Contraste de hiptesis. Pendiente (cont.)
17
7. INTERVALO DE CONFIANZA

b


o/2


o/2
2. Regresin lineal simple
Error mximo

L
I
= b
o 2
t
n2
S
b
Error mximo

L
s
= b +
o 2
t
n2
S
b
2.2.Contraste de hiptesis. Pendiente (cont.)
18
y = 0.2429x + 2.8714
0
2
4
6
8
10
12
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
a
u
s
e
n
c
i
a
s
2. Regresin lineal simple
2.2.Contraste de hiptesis. Ejemplo
Ordenada
Pendiente
Pendiente
en puntuaciones tpicas
19
2. Regresin lineal simple
2.2.Contraste de hiptesis. Ejemplo
Como n.c. (0,032) <0,05, rechazamos la hiptesis nula y tomamos como estimacin de la
ordenada el valor 2,871


H
0
: o = 0
H
1
: o = 0
Como n.c. (0,005) <0,05, rechazamos la hiptesis nula y tomamos como estimacin de la
pendiente el valor 0,243


H
0
: | = 0
H
1
: | = 0


Y
i
'
= 2,871+0,243X
i


Y
i
'
= 2,871+0,243-30=10,16
Ecuacin de regresin de Y sobre X, predecir Y a partir de X.
Ejemplo: a una persona que fume 30 cigarrillos diarios se le
predecir una ausencia:
20
2. Regresin lineal simple
2.2.Contraste de hiptesis. Ejemplo
Como n.c. (0,005) <0,05, rechazamos la hiptesis nula y tomamos como estimacin de la
pendiente de la ecuacin en puntuaciones tpicas el valor 0,866


H
0
: | = 0
H
1
: | = 0


Z
Y
i
'
=0,866Z
X
i
Ecuacin de regresin de Y sobre X, en puntuaciones tpicas
21

2. o

1. H
0
:
xy
= 0
H
1
:
xy
= 0
2. Regresin lineal simple
3. SUPUESTOS:
3.1 Independencia: 1 m.a.s. medida en las variables X e Y
3.2 Normalidad bivariada
2.2.Contraste de hiptesis.
xy
(cont.)


22
2. Regresin lineal simple
4. E.C.

T =
r
xy
n 2
1 r
xy
2
t
n2
5. REGIN CRTICA Y CRITERIO DE DECISIN
- Rechazamos H
0
si el valor obtenido en la muestra para el E.C. cae en la regin crtica,
existe relacin lineal entre X e Y estadsticamente significativa
- Mantenemos H
0
si el valor obtenido en la muestra para el E.C. cae en la regin de
aceptacin, no existe relacin lineal entre X e Y estadsticamente significativa


Ts
o/ 2
t
n2
T>
1o/ 2
t
n2


o/2


o/2
Contraste
bilateral


0
2.2.Contraste de hiptesis.
xy
(cont.)


23
2. Regresin lineal simple
6. NIVEL CRTICO
- Contraste bilateral
Valor del E.C.
obtenido en la
muestra


p = 2 P(t
n2
> t
k
)
| |
7. INTERVALO DE CONFIANZA
- Mediante tablas o programa de ordenador
2.2.Contraste de hiptesis.
xy
(cont.)


24
2. Regresin lineal simple
2.2.Contraste de hiptesis.
xy
(cont.)


Como n.c. (0,005) <0,05, rechazamos la hiptesis nula de que no existe relacin lineal
entre el nmero de cigarrillos que se fuma al da y los das que se falta al trabajo en un
ao.


H
0
:
xy
= 0
H
1
:
xy
= 0


r
xy
=0,866
Igual al valor de la pendiente de la ecuacin de regresin en puntuaciones
tpicas
Hay un 75,1% de varianza asociada entre el nmero de cigarrillos que se
fuma al da y los das que se falta al trabajo en un ao

r
xy
2
= 0,751
25
2. Regresin lineal simple
2.2.Contraste de hiptesis. Comprobacin conjunta del modelo de
regresin mediante el anlisis de varianza (cont.)

En ausencia de ms informacin a cada sujeto le predeciramos con la
puntuacin media, en este caso, predecir que cualquier trabajador se
ausentar por trmino medio 7 das al ao


Y =7 das
Si conocemos que la ausencia al trabajo est relacionada con alguna
variable, en este caso el nmero de cigarrillos que se fuma al da,
podemos predicir de forma particular a todos aquellos sujetos que
fuman el mismo nmero de cigarrillos


E(Y
i
/ x =8) =0,2429+ 2,8714X
i
=0,2429+ 2,8714(8) =4,81
26
2. Regresin lineal simple
2.2.Contraste de hiptesis. Comprobacin conjunta del modelo de
regresin mediante el anlisis de varianza (cont.)



c
i
=(Y
i
E(Y
i
)) =4 4,81=0,81


c
i
=(Y
i
Y ) =4 7 =3
El error cometido al utilizar la media para pronosticar
El error cometido al utilizar la recta de regresin


(47) =(4,817) +(44,81)

(Y
i
Y ) =(Y
i
'
Y ) +(Y
i
Y
i
'
)
Error al predecir
mediante la media
Parte del error que seguimos
cometiendo al utilizar la recta de
regresin, al predecir las ausencias
teniendo en cuenta que fuma 8
cigarrillos al da
Parte del error que dejamos de
cometer al utilizar la recta de
regresin, al predecir las
ausencias teniendo en cuenta
que fuma 8 cigarrillos al da


(3) =(2,19) + (0,81)
27


(Y Y )
2
= (Y' Y

)
2
+ (Y Y')
2


SC
TOTAL
= SC
REGRESION
+ SC
ERROR

n 1 = k 1 n k 1
2. Regresin lineal simple
2.2.Contraste de hiptesis. Comprobacin conjunta del modelo de
regresin mediante el anlisis de varianza

28
Fuentes
de
variacin
S.C. g.l. M.C. E.C.

Regresin

SC
REGRESIN


1

Error

SC
ERROR

(n-2)

Total

SC
TOTAL

n-1


MC
REG
=
SC
REG
1


MC
ERROR
=
SC
ERROR
(n 2)

F =
MC
REG
MC
ERROR


P(F<
1o
F
1,(n2)
)
2. Regresin lineal simple
2.2.Contraste de hiptesis. Comprobacin conjunta del modelo de
regresin mediante el anlisis de varianza (cont.)



F>
1o
F
1,(n2)
- Rechazamos H
0
si el valor obtenido en la muestra para
el E.C. cae en la regin crtica, conclusin: el modelo de
regresin en conjunto es predictivo
- Mantenemos H
0
de que el modelo de regresin en
conjunto no es predictivo si el valor obtenido en la
muestra para el E.C. cae en la regin de aceptacin
29


r
xy
2
=
S
y'
2
S
y
2
=
SC
REGRESION
SC
TOTAL
=1
SC
ERROR
SC
TOTAL
2. Regresin lineal simple


r
AJ.
2
=1
SC
ERROR
(n 2)
SC
TOTAL
(n 1)
=1
(1 r
xy
2
)(n 1)
(n 2)
2.2.Contraste de hiptesis. Comprobacin conjunta del modelo de
regresin mediante el anlisis de varianza (cont.)

Estimador sesgado, sobre
todo si el tamao de la
muestra es pequeo
Coeficiente de
determinacin ajustado o
corregido: estimador
insesgado
30
2. Regresin lineal simple
2.2.Contraste de hiptesis. Comprobacin conjunta del modelo de
la regresin mediante un anlisis de varianza (cont.)

Como n.c. (0,005) <0,05, rechazamos la hiptesis nula y afirmamos que el modelo de
regresin es estadsticamente predictivo
Estimador insesgado del tamao del efecto: un 70,9% de la variabilidad de los das que se falta al
trabajo en un ao se puede predecir a partir del nmero de cigarrillos que se fuma al da.
31

E(Y
i
) =o+|X
i


Si
xy
>0 | >0


Si
xy
<0 | <0


Si
xy
= 1la correlacin lineal es perfecta, todos los puntos
del diagrama de dispersin estn en la recta de regresin
Y
i
= E(Y
i
) Para todo i
2. Regresin lineal simple
2.3. Relaciones entre el coeficiente de correlacin
lineal y la recta de regresin lineal simple

32


Si se rechaza la hiptesis nula del modelo de la regresin lineal simple
c
2. Regresin lineal simple
2.3. Relaciones entre el coeficiente de correlacin
lineal y la recta de regresin lineal simple (cont.)



Se rechaza la hiptesis nula de la pendiente de la regresin lineal simple
c


Se rechaza la hiptesis nula de la correlacin lineal
33
Varianza total de Y


o
y
2
=o
y'
2
+o
yx
2

(Y
i
E(Y))
2
i=1
n

n
=
(E(Y
i
) E(Y))
2
i=1
n

n
+
(Y
i
E(Y
i
))
2
i=1
n

n
Varianza de Y asociada al
pronstico, varianza de Y que
puede predecirse a partir de X
Varianza de Y no asociada al
pronstico, varianza de Y que
no puede predecirse a partir de
X
2. Regresin lineal simple

xy
2
=
o
y'
2
o
y
2
=1
o
yx
2
o
y
2
2.4. Interpretacin del coeficiente de determinacin
34

xy
2
=
o
y'
2
o
y
2
=1
o
yx
2
o
y
2
Coeficiente de
determinacin:
Proporcin de varianza de
Y asociada a la varianza de
X


1
xy
2
=1
o
y'
2
o
y
2
=
o
yx
2
o
y
2
Proporcin de varianza de
Y no asociada a la varianza
de X


o
y
2
=o
y'
2
+o
yx
2
2. Regresin lineal simple
2.4.Interpretacin del coeficiente de determinacin
(cont.)
35


S
y
2
= S
y'
2
+ S
yx
2
2,75 = 2,07+ 0,68
r
xy
2
=
S
y'
2
S
y
2
=
2,07
2, 75
= 0,75
2. Regresin lineal simple


S
y.x
2
= 0,68


S
y
2
= 2,75
Variabilidad total
de ausencias


S
y'
2
= 2,07
Parte de la
variabilidad de las
ausencias que
puede predecirse
(est asociada) a
partir del nmero
de cigarrillos
Parte de la
variabilidad de las
ausencias que no
puede predecirse
(no est asociada) a
partir del nmero
de cigarrillos
y = 0.2429x + 2.8714
0
2
4
6
8
10
12
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
a
u
s
e
n
c
i
a
s


S
y
2
= 2,75


S
y'
2
= 2,07


S
y.x
2
= 0,68
2.4. Interpretacin del coeficiente de determinacin. Ejemplo
36
2. Regresin lineal simple
Coeficiente de determinacin: ndice de ajuste de los puntos a la recta de regresin

xy
2
=1
o
yx
2
o
y
2
Cuanto ms prximos estn los puntos a la recta de
regresin menor error se comente por
trmino medio mayor ser el valor del
coeficiente de correlacin
y = 0.2429x + 2.8714
0
2
4
6
8
10
12
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
a
u
s
e
n
c
i
a
s

xy
2
= 0,75
y = 0.2429x + 2.8714
0
2
4
6
8
10
12
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
cigarrillos
a
u
s
e
n
c
i
a
s

xy
2
= 0,55
2.4. Interpretacin del coeficiente de determinacin
(cont.)
37

xy
2
=
o
y'
2
o
y
2
2. Regresin lineal simple
Si no se dispone de ms informacin, la forma habitual de predecir la puntuacin de
un sujeto en una variable es asignarle la media de la poblacin a la que pertenece. El
error de prediccin que se comete con cada sujeto ser:

e
i
= (Y
i
E(Y
i
))
Si se utiliza la recta de regresin, es decir se utiliza la puntuacin del sujeto en X
para predecir su valor en Y, cometeremos menos error:

e
i
= (Y
i
E(Y
i
)) E(Y
i
) =o +|X
i
Coeficiente de determinacin: Proporcin de error que
dejamos de cometer al pronosticar con la recta de regresin en
lugar de pronosticar con la media de Y

(Y
i
E(Y))
2
i=1
n

n
=
(E(Y
i
) E(Y))
2
i=1
n

n
+
(Y
i
E(Y
i
))
2
i=1
n

n


o
y
2
=o
y'
2
+o
yx
2
2.4. Interpretacin del coeficiente de determinacin
(cont.)
38
Modelo de Regresin Lineal Mltiple

Y
i
=|
0
+|
1
X
i1
+|
2
X
i2
+...+|
k
X
ik
+c
i
Magnitud comn a todos los
sujetos
Error para cada sujeto
Valor
observado
en la VD
Efectos debidos
a factores
constantes
= +
Efectos debidos a factores
tenidos en cuenta (VVII)
+
Efectos debidos a
factores no
controlados

Y
i

= |
0
X
i0

+|
1
X
i1
+|
2
X
i2
+...+|
k
X
ik

+c
i
3. Regresin lineal mltiple
3.1. Modelo
Peso de cada una de las k variables
independientes dentro de la ecuacin de
regresin
39

Y
'
=Y

Y
VD, Variable criterio o Variable a predecir

X
j
VI o Variable predictora

Y
'
Variable predicha
Valor que se obtiene al
utilizar la recta de regresin
para predecir Y a partir de
X
1
, X
2
, ,X
k

Valor que se obtiene al
medir directamente Y

e = (Y Y
'
)
3.1. Modelo (cont.)
3. Regresin lineal mltiple


E(Y
i
) =|
0
+|
1
X
i1
+|
2
X
i2
+...+|
k
X
ik
Recta de regresin de Y
sobre X
1
, X
2
, , X
k



Y
i
'
=b
0
+b
1
X
i1
+b
2
X
i 2
+...+b
k
X
ik
Recta de regresin
estimada
40
Recta de regresin
estimada
3.1. Modelo (cont.)


E(Y
i
) =|
0
+|
1
X
i1
+|
2
X
i2
+...+|
k
X
ik


Y
i
'
=b
0
+b
1
X
i1
+b
2
X
i 2
+...+b
k
X
ik
3. Regresin lineal mltiple
La recta de regresin se estima a partir de los datos de los sujetos en la
muestra, todos los sujetos tienen que ser medidos tanto en X como en Y

Una vez construida puede ser aplicada a todos los sujetos de la poblacin a
la que pertenece la muestra, en este caso es suficiente medir al sujeto en X
1
,
X
2
, , X
k
y utilizando la ecuacin de la recta de regresin podemos predecir
su puntuacin en Y
Recta de regresin de Y
sobre X
1
, X
2
, , X
k

41


Z
Y
i
=|
1
Z
X
i1
+|
2
Z
X
i 2
+...+|
k
Z
X
ik
+c
i
Error para cada sujeto
3.1. Modelo (cont.)
Ecuacin de regresin lineal en puntuaciones tpicas
Puntuacin tpica
en Y del sujeto i

c
i
= (Z
Y
i
E(Z
Y
i
))

e
i
=(Z
Y
i
Z
Y
i
'
)
3. Regresin lineal mltiple


Z
Y
i
'
=beta
1
Z
X
i1
+beta
2
Z
X
i 2
+...+beta
k
Z
X
ik


E(Z
Y
i
) =|
1
Z
X
i1
+|
2
Z
X
i2
+...+|
k
Z
X
ik

|
j

beta
j
42

E(Y
i
) = |
0
+|
1
X
i1
+|
2
X
i2
+... +|
k
X
ik

Y
i
'
=b
0
+b
1
X
i1
+b
2
X
i2
+...+b
k
X
ik
Se van a realizar varios contrastes de hiptesis:

3. |
0
b
0


2. |
1
,|
2
,...,|
k
b
1
,b
2
,...,b
k


4. E
Y
X
1
= x
i1
, X
2
= x
i 2
,. . . ,X
k
= x
ik
|
\

|
.
| =
=
y.x
i1
,x
i 2
,..., x
ik
m
y.x
i1
,x
i 2
,..., x
ik


5.
Y.1,2,..., k
2
R
Y.1,2,..., k
2

1. Modelo de la regresin
3. Regresin lineal mltiple
3.1.Modelo (cont.)
Valor predicho en Y
para un sujeto con
un valor en X
1
=x
i1
,
X
2
=x
i2
,, X
k
=x
ik


43

2. o

1. H
0
: |
1
=|
2
=... =|
k
=0


(Y, X
1
, X
2
,..., X
k
)


c
i
N(0, o
i
2
)
Normalidad multivariada
Homocedasticidad
Linealidad
3. Regresin lineal mltiple
3.2. Contraste de hiptesis. Modelo de la regresin


H
0
:
Y.1,2,..., k
2
=0
3. SUPUESTOS:
Independencia 1 m.a.s
44


(Y Y )
2
= (Y' Y

)
2
+ (Y Y')
2


SC
TOTAL
= SC
REGRESION
+ SC
ERROR


n1 = k nk 1
3. Regresin lineal mltiple
3.2. Contraste de hiptesis. Modelo de la regresin (cont.)
45
Fuentes
de
variacin
S.C. g.l. M.C. E.C.

Regresin

SC
REGRESIN


k

Error

SC
ERROR

(n-k-1)

Total

SC
TOTAL

n-1

MC
REG
=
SC
REG
k


MC
ERROR
=
SC
ERROR
(n k 1)

F =
MC
REG
MC
ERROR


P(F>
1o
F
k,(kn1)
)
3. Regresin lineal mltiple
- Rechazamos H
0
si el valor obtenido en la muestra para
el E.C. cae en la regin crtica, conclusin: el modelo de
regresin en conjunto es predictivo
- Mantenemos H
0
de que el modelo de regresin en
conjunto no es predictivo si el valor obtenido en la
muestra para el E.C. cae en la regin de aceptacin


F>
1o
F
k,(nk1)
3.2. Contraste de hiptesis. Modelo de la regresin (cont.)
46
3. Regresin lineal mltiple

1. H
0
: |
1
= |
2
= |
3
= |
4
= |
5
= |
6
= 0
Como n.c. (0,000) <0,05, rechazamos la hiptesis nula y afirmamos que el modelo de
regresin es estadsticamente predictivo
3.2.Contraste de hiptesis. Modelo de la regresin (cont.). Ejemplo
Predecir la nota media acadmica (Y) a partir de las variables capacidad de resolucin problemas (X
1
),
riqueza de vocabulario (X
2
), C.I. Total (X
3
), originalidad (X
4
), riqueza expresiva (X
5
) y creatividad global
(X
6
)

47


R
y.1,2,..., k
2
=
S
y'
2
S
y
2
=
SC
REGRESION
SC
TOTAL
=1
SC
ERROR
SC
TOTAL


R
AJ.
2
=1
SC
ERROR
(n k 1)
SC
TOTAL
(n 1)
=1
(1 R
y,1,2,..., k
2
)(n 1)
(n k 1)
3. Regresin lineal mltiple
3.2.Contraste de hiptesis. Modelo de la regresin (cont.)
Proporcin de varianza de la
variable Y asociada conjuntamente
a todas las variables
independientes
Proporcin de error cuadrtico
medio reducido al pronosticar
mediante la recta de regresin en
lugar de utilizar la media de Y
Es muy sensible al nmero de predictores, basta incluir un predictor ms en la ecuacin
de regresin, aunque sea irrelevante, para que el valor del coeficiente de correlacin
mltiple aumente
Se utiliza como estimador el coeficiente de correlacin ajustado o corregido:

48
3. Regresin lineal mltiple
Un 77,6% de la variabilidad de la nota media acadmica se puede predecir a partir de la
capacidad de resolucin problemas, riqueza de vocabulario, C.I. Total, originalidad, riqueza expresiva y
creatividad global consideradas conjuntamente.
3.2.Contraste de hiptesis. Modelo de la regresin (cont.). Ejemplo

H
0
:
Y.1,2,3,4,5,6
2
= 0
Predecir la nota media acadmica (Y) a partir de las variables capacidad de resolucin problemas (X
1
),
riqueza de vocabulario (X
2
), C.I. Total (X
3
), originalidad (X
4
), riqueza expresiva (X
5
) y creatividad global
(X
6
)

49
3. Regresin lineal mltiple
3.2.Contraste de hiptesis. Pesos o coeficientes


H
0
: |
j
= 0
H
1
: |
j
= 0
Si se rechaza la hiptesis nula en el contraste del modelo de regresin,
y por tanto se concluye que el modelo en su conjunto es
estadsticamente significativo, se tienen que comprobar las hiptesis
nulas referidas a cada uno de los pesos o coeficientes de las variables
predictoras y a la constante
50
3. Regresin lineal mltiple
3.2.Contraste de hiptesis. Modelo de la regresin (cont.). Ejemplo
Predecir la nota media acadmica (Y) a partir de las variables capacidad de resolucin problemas (X
1
), del
riqueza de vocabulario (X
2
), del C.I. Total (X
3
), de la originalidad (X
4
), de la riqueza expresiva (X
5
) y la
creatividad global (X
6
)



H
0
: |
0
= 0 Se rechaza


H
0
: |
1
= 0 Se rechaza


H
0
: |
2
= 0 Se rechaza


H
0
: |
3
= 0 Se mantiene


H
0
: |
4
= 0 Se mantiene


H
0
: |
5
= 0 Se mantiene


H
0
: |
6
= 0 Se mantiene


Y
i
'
= 2,088 +0,635X
i1
+0,02X
i2


Z
Y
i
'
= 0,826Z
X
i1
+ 0,096Z
X
i 2
51

Normalidad: histograma de residuos
3. Regresin lineal mltiple
3.3.Comprobacin de los supuestos del ejemplo
52

Normalidad: grfico P-P de residuos tipificados


Probabilidad acumulada observada
Probabilidad
acumulada
esperada si la
distribucin
es normal
3. Regresin lineal mltiple
3.3.Comprobacin de los supuestos del ejemplo
(cont.)
53
2. Linealidad y homocedasticidad: grfico de dispersin
3. Regresin lineal mltiple
3.3.Comprobacin de los supuestos del ejemplo
(cont.)
54
Pronstico
3. Regresin lineal mltiple
3.3.Comprobacin de los supuestos (cont.).
Se cumplen el supuesto de homocedasticidad y de linealidad
Residuos
55
3. Regresin lineal mltiple
3.3.Comprobacin de los supuestos (cont.)
Se cumple el supuesto de homocedasticidad y no el de linealidad
Pronstico
Residuos
56
3. Regresin lineal mltiple
3.3.Comprobacin de los supuestos (cont.)
No se cumple el supuesto de homocedasticidad y s el de linealidad
Pronstico
Residuos
57
3. Regresin lineal mltiple
3.3.Comprobacin de los supuestos (cont.)
No se cumple ni el supuesto de homocedasticidad y ni el de linealidad
Pronstico
Residuos
58
Existencia de atpicos
3. Regresin lineal mltiple
3.3.Comprobacin de los supuestos (cont.)
Pronstico
Residuos
59
3.3. Robustez de F frente al incumplimiento de los supuestos
Normalidad



Independencia de las observaciones




3. Regresin lineal mltiple
Multicolinealidad




Puntuaciones atpicas




Las distribuciones
muestrales no siguen
exactamente el modelo
propuesto

Los estadsticos de la
regresin son muy
robustos frente al
incumplimento del
supuesto de normalidad
60


0 s R
y.1,2,..., k
s1


R
y.1,2,..., k
= r
yy'
Modelo con dos predictores:


Correlacinparcial
r
y2.1
= r
(yy')(x
2
x
2
'
)
y' = a
1
+ b
2
x
1
x
2
' = a
2
+ b
2
x
1
La relacin entre la VD y una VI, eliminando de ambas la influencia de otra VI


r
y2.1
2
=
AR
2
1 R
y.1
2
3. Regresin lineal mltiple
3.4.Correlacin mltiple, parcial y semiparcial
Incremento porcentual (en lo que queda por explicar de VD) en R
2
al incluir X
2

61

Correlacin semiparcial
r
y(2.1)
= r
y(x
2
x
2
'
)
x
2
' = a + b x
1
La relacin entre la VD y una VI, eliminando de la VI la influencia de otra VI


r
y(2.1)
2
= AR
2

R
y.12
2
= r
y1
2
+ r
y(2.1)
2
3. Regresin lineal mltiple
3.4.Correlacin mltiple, parcial y semiparcial (cont.)
Incremento en R
2
al incluir X
2

62
3. Regresin lineal mltiple
3.5.Multicolinealidad
En un modelo de regresin lineal mltiple, al existir varias variables
independientes, es frecuente que tambin algunas de ellas estn
correlacionadas
Si la correlacin entre las variables independientes es alta, el error tpico
de estimacin de los pesos es alto, por tanto, puede haber mucha
variacin al estimar la ecuacin de regresin en muestras diferentes
Para medir la relacin entre las variables independientes se calcula el
ndice de tolerancia para cada una de ellas
Si una variable independiente tiene mucha colinealidad con el resto no
debe incluirse en el modelo



Tol( j) =1R
j.1,2,3,..., p
2
Coeficiente de correlacin mltiple entre la variable independiente que se est
considerando y el resto de variables independientes; cuanto mayor es la tolerancia
menor es la colinealidad de este predictor con el resto de predictores
63
3. Regresin lineal mltiple
3.6.Mtodos de seleccin de variables
El objetivo es conseguir una ecuacin que explique el mayor
porcentaje de variabilidad de la variable dependiente con el menor
nmero posible de predictores o variables independientes: principio
de parsimonia

Existen distintos procedimientos de seleccin de variables que
pueden estimar modelos de rectas de regresin diferentes a partir
del mismo conjunto de predictores y de la misma variable
dependiente

El modelo resultante depende tanto de las variables que han sido
consideradas para formar parte de la ecuacin como de las que no
han sido consideradas pero tienen relacin con la variable
dependiente







64


Introducir

Pasos sucesivos (Stepwise)

Hacia delante (Forward)

Hacia atrs (Backward)

Todos los posibles modelos
3. Regresin lineal mltiple
3.6.Mtodos de seleccin de variables (cont.)
65
3. Regresin lineal mltiple
Se escoge como primera variable predictora la que tiene mayor correlacin lineal simple con la
variable dependiente y se calcula si la ecuacin de regresin con esta variable es predictiva. Si no se
rechaza la hiptesis nula, se termina el proceso; si la ecuacin es predictiva se pasa al punto 2.
Se escoge de entre las restantes variables aquella que tiene mayor correlacin parcial con la
variable dependiente una vez que se elimina el efecto de la variable que ya est en la ecuacin. Se
comprueba si el incremento en el coeficiente de correlacin mltiple al introducir esta nueva
variable es estadsticamente significativo. Si no lo es, se termina el proceso; si lo es, se pasa al
punto 3.
Se evala si sacar de la ecuacin la variable que ya estaba en el paso anterior se produce una
disminucin estadsticamente significativa del coeficiente de correlacin mltiple. Si no se produce
una disminucin significativa del R
2
, entonces se elimina la variable que entr en el paso anterior,
si por el contrario sacar de la ecuacin dicha variable produce una disminucin significativa del R
2
,
entonces dicha variable no se elimina del modelo. En cualquiera de las dos circunstancias se pasa
al punto 4.
Se escoge de entre las restantes variables aquella que tiene mayor correccin parcial con la variable
dependiente una vez que se elimina el efecto de las variables que estn en la ecuacin. Se
comprueba si el incremento en el coeficiente de correlacin mltiple al introducir esta nueva
ecuacin es estadsticamente significativo. Si no lo es, se termina el proceso; si lo es se pasa al
punto 3.







3.6.2. Stepwise (regresin por pasos)
3.6.Mtodos de seleccin de variables (cont.)
66
3. Regresin lineal mltiple
3.6.2. Ejemplo mediante el mtodo stepwise
En un primer paso entra variable resolucin de problemas
Hay un 77,1% de la variablidad en las
nota media acadmica que se puede
predecir a partir de la capacidad de
resolucin de problemas
En los mtodos por pasos el modelo
seleccionado siempre es
estadsticamente significativo, cuando
no lo es se termina el proceso
Predecir la nota media acadmica (Y) a partir de las variables capacidad de resolucin problemas (X
1
),
riqueza de vocabulario (X
2
), C.I. Total (X
3
), originalidad (X
4
), riqueza expresiva (X
5
) y creatividad global
(X
6
)

67
3. Regresin lineal mltiple
3.6.2. Ejemplo mediante el mtodo stepwise
En un segundo paso entra variable riqueza de vocabulario
Hay un 77,9% de la variablidad en la
nota media acadmica que se puede
predecir a partir de la capacidad de
resolucin de problemas y la riqueza de
vocabulario conjuntamente. Introducir
la variable riqueza de vocabulario
incrementa en un 0,8% (0,779-0,771)
la proporcin de varianza que se
puede predecir.
Predecir las nota media acadmica (Y) a partir de las variables capacidad de resolucin problemas (X
1
),
riqueza de vocabulario (X
2
), C.I. Total (X
3
), originalidad (X
4
), riqueza expresiva (X
5
) y creatividad global
(X
6
)

68
3. Regresin lineal mltiple
3.6.2. Ejemplo mediante el mtodo stepwise

Y
i
'
= 2,008 +0,637X
i1
+0,022X
i2


Z
Y
i
'
= 0,829Z
X
i1
+ 0,106Z
X
i 2
Predecir las nota media acadmica (Y) a partir de las variables capacidad de resolucin problemas (X
1
),
riqueza de vocabulario (X
2
), C.I. Total (X
3
), originalidad (X
4
), riqueza expresiva (X
5
) y creatividad global
(X
6
)

69
3. Regresin lineal mltiple
3.6.2. Ejemplo mediante el mtodo stepwise
Correlacin entre la nota media
acadmica y cada uno de los
predictores, una vez eliminada
la influencia de la capacidad de
resolucin de problemas (el
predictor que ya est en la
ecuacin)
Uno menos la correlacin al
cuadrado entre capacidad de
resolucin de problemas (el
predictor que ya est en la
ecuacin) y cada uno de los
otros predictores
Predecir las nota media acadmica (Y) a partir de las variables capacidad de resolucin problemas (X
1
),
riqueza de vocabulario (X
2
), C.I. Total (X
3
), originalidad (X
4
), riqueza expresiva (X
5
) y creatividad global
(X
6
)

70
3. Regresin lineal mltiple
3.6.2. Ejemplo mediante el mtodo stepwise
Correlacin entre la nota media
acadmica y cada uno de los
predictores, una vez eliminada
la influencia de la capacidad de
resolucin de problemas y la riqueza
expresiva (los predictores que ya
estn en la ecuacin)
Uno menos la correlacin
mltiple al cuadrado entre
capacidad de resolucin de problema
y la riqueza expresiva (los
predictores que ya estn en la
ecuacin) y cada uno de los
otros predictores
Predecir las nota media acadmica (Y) a partir de las variables capacidad de resolucin problemas (X
1
),
riqueza de vocabulario (X
2
), C.I. Total (X
3
), originalidad (X
4
), riqueza expresiva (X
5
) y creatividad global
(X
6
)

71
3. Regresin lineal mltiple
3.6.2. Ejemplo mediante el mtodo stepwise (cont.)
72
3. Regresin lineal mltiple
3.7.Interpretacin de los pesos en la ecuacin de
regresin
No est del todo resuelto el problema de la importancia relativa de las
variables en la ecuacin, puesto que el peso depende tanto del resto
de variables que estn en la ecuacin como de variables que no estn
en la ecuacin y podran haber entrado

Hay que ser cautelosos a la hora de interpretar la importancia relativa,
slo podra interpretarse adecuadamente a partir del peso de los
coeficientes estandarizados si las variables independientes no tuvieran
ninguna relacin entre ellas, pero en la prctica este caso es muy raro

Antes de hacer un anlisis de regresin conviene mirar la matriz de
correlaciones.
73
3. Regresin lineal mltiple
3.7.Interpretacin de los pesos en la ecuacin de
regresin (cont.)
El hecho de que una variable haya quedado fuera de la ecuacin no
quiere decir necesariamente que no tenga relacin con la variable
dependiente, puede ser que lo que explica dicha variable ya est
explicado por otras variables

Variables supresoras: variables que tienen una correlacin positiva o
no tienen relacin con la variable dependiente y en el modelo de
regresin entran a formar parte con un peso negativo. Lo que hacen
es eliminar de alguna de las variables independientes que estn en la
ecuacin la parte que se relaciona con la variable supresora pero no
con la variable dependiente


74
Variabilidad de Y
Variabilidad
de X
3

Variabilidad
de X
1

Variabilidad
de X
2

3. Regresin lineal mltiple
3.7.Interpretacin de los pesos en la ecuacin de
regresin (cont.)
Tenemos 3 variables predictoras X
1
, X
2
y X
3
, estando muy
correlacionadas X
1
y X
2
.

En este caso, puede ser que una de ellas no
entre en la ecuacin porque aporta poco a lo que ya explica la otra


75
Variabilidad de Y
Variabilidad
de X
3

Variabilidad
de X
1

3. Regresin lineal mltiple
3.7.Interpretacin de los pesos en la ecuacin de
regresin (cont.)
Si slo estuvieran X
3
y X
1
, sta ltima entrara en la ecuacin


76
3. Regresin lineal mltiple
3.7.Interpretacin de los pesos en la ecuacin de
regresin (cont.)
Si slo estuvieran X
3
y X
2
, sta ltima entrara en la ecuacin


Variabilidad de Y
Variabilidad
de X
3

Variabilidad
de X
2