Вы находитесь на странице: 1из 25

1

UNIVERSIDAD DE LOS ANDES


Facultad de Ingeniera
Departamento de Ingeniera Industrial
Probabilidad y Estadstica I
Sesiones # 27 y # 28
Regresin Lineal Simple y sus Aplicaciones
Mario Castillo (Coordinador General Curso)
2
Objetivos de la Sesin
1. Presentar los conceptos bsicos de los modelos de Regresin Lineal Simple.
2. Presentar las ideas centrales de los modelos de Regresin Lineal, la
estimacin e interpretacin de sus parmetros, las hiptesis de mayor inters
y las pruebas estadsticas correspondientes.
3. Ilustrar con casos reales la utilizacin de dichos modelos y su relevancia en la
explicacin y pronstico de variables de inters.
3
Contenido
1. Motivacin
2. El modelo de Regresin Lineal Simple: definicin del modelo, sus
parmetros y dems propiedades.
3. Aplicacin de los modelos de Regresin Lineal a problemas reales
e interpretacin de los resultados.
4. Herramientas computacionales: SPSS.
4
El Modelo de Regresin Lineal Simple
Objetivo: Establecer si una VA Y puede ser explicada en forma lineal por una VA X
De dnde se parte?
De una muestra aleatoria (n observaciones seleccionadas al azar)
(X
1
, Y
1
), (X
2
, Y
2
), ..., (X
n
, Y
n
).
Motivacin
Los modelos de Regresin Lineal tienen, entre otros, dos importantes propsitos:
Exploratorio: Identificar a partir de un conjunto de variables X
1
, X
2
, ..., X
q
cules son las que mejor explican linealmente a una V.A. de inters Y.
Predictivo: A partir de un modelo lineal, predecir el comportamiento de una VA Y
con base en el comportamiento de un conjunto de variables X
1
, X
2
, ..., Xq.
5
Algunos Casos Ilustrativos
Caso 1
Y: Nmero promedio de das en mora por mes de los usuarios de una empresa de
financiamiento comercial.
X: Puntaje asignado al cliente, al aprobarle el crdito, con base en informacin financiera
y demogrfica entregada por ste.
Caso 2
Y: Valor en mora promedio anual de un cliente
X: Puntaje asignado al cliente
Caso 3
Y: Precio Accin
X: Utilidad por Accin o Retorno Accionistas
Caso 4
Y: Nmero de transacciones por mes de un cajero automtico
X: Puntaje sobre la ubicacin del cajero
6
Puntaje Propuesto Definitivo
100 80 60 40 20 0
D
I
A
S
_
M
O
R
50
40
30
20
10
0
-10
Ejemplo Credit Scoring
Das Punt. Puntaje
Mora Empr Prop
19.00 66.00 68.00
12.00 92.00 70.00
21.00 78.00 55.00
27.00 79.00 15.00
2.00 83.00 75.00
.00 95.00 90.00
2.00 90.00 80.00
6.00 75.00 80.00
6.00 82.00 85.00
32.00 51.00 30.00
.00 111.00 80.00
14.00 70.00 80.00
6.00 83.00 85.00
16.00 90.00 70.00
10.00 79.00 75.00
26.00 76.00 70.00
25.00 69.00 20.00
21.00 77.00 60.00
13.00 60.00 60.00
1.00 82.00 95.00
33.00 69.00 20.00
8.00 74.00 65.00
24.00 72.00 20.00
21.00 69.00 50.00
40.00 . 20.00
7
Pasos que daremos para el entendimiento del MRLS
1. Representacin de los datos.
2. Definicin del modelo y los supuestos.
3. Estimacin de los parmetros.
4. Propiedades de los estimadores.
5. Hiptesis de inters y pruebas asociadas.
6. Interpretacin de los parmetros y verificacin de los
supuestos (comportamiento de los residuos).
7. Utilizacin del SPSS en anlisis de un problema de RLS e
interpretacin de los resultados.
8
PASO 1
Se parte de n observaciones (y
1
, x
1
), (y
2
, x
2
), ..., (y
n
, x
n
) de las variables aleatorias X y Y.
En SPSS y en EXCEL cada una de las variables corresponde a una columna y cada
una de las observaciones a una fila.
PASO 2: Descripcin del modelo y los supuestos
La ecuacin del modelo est dada por:
y =
0
+
1
X + e ; o en trminos de las observaciones,
y
i
=
0
+
1
X
i
+ e
i
, para i = 1,...,n
Supuestos:
i) X es una VA controlada.
ii) E(e
i
) = 0 , Var(e
i
) =
2
iii) Cov (e
i
, e
j
) = 0 para i j
iv) Supuesto fuerte: e
i
=> N (0,
2
)
9
Consecuencias de los supuestos
E (Y/X) =
0
+
1
X
PASO 3: Estimacin de los de los parmetros
Se trata de estimar los parmetros
0
y
1
, con base en los valores de la muestra.
Supongamos que tenemos los estimadores y , entonces: (modelo
estimado).
Se define el error de la estimacin para la observacin i por:
La suma de los cuadrados de los errores est dada por:
0

i i
x y
1 0

i i i
y y e

n
i
i
e SCE
1
2

Das Punt. Puntaje


Mora Empr Prop
19.00 66.00 68.00
12.00 92.00 70.00
21.00 78.00 55.00
27.00 79.00 15.00
2.00 83.00 75.00
.00 95.00 90.00
2.00 90.00 80.00
6.00 75.00 80.00
6.00 82.00 85.00
32.00 51.00 30.00
Claramente, entre ms pequea
sea la SCE mejor ser el modelo
estimado.
Se trata, por tanto, de hallar los
estimadores de
0
y
1
que
minimizan la SCE.
10
Resultado: Se puede demostrar que los estimadores que minimizan la SCE resultan ser:
PASO 4: Propiedades de los estimadores
y x n y x SXY y x n x
x x
y y x x
SXX
SXY
x y
i i i
i
i i
2 2
2
1
1 0
) ( SXX
: por expresar pueden se tambin SXY y SXX ;
) (
) ( ) (


SXX SXX
x
n
centrados son y e i E y E
2
1
2
2
0
2 1 1 1 0 0
)

var( );
1
( )

var(
.

., . , )

( )

(
11
PASO 5: Hiptesis de inters y prueba asociada
Ecuacin de ANOVA para el MRLS
Hiptesis de inters:
H
o
: H
1
:
Prueba asociada:
1 1
= 0 0
SCE SCR SCT
y y y y y y
n
i
i i
n
i
n
i
i i
1
2
1 1
2 2
) ( ) ( ) (
) 2 , 1 (
2 /
n F
n SCE
SCR
Bajo Ho
12
Coeficiente de Determinacin: R
2
= SCR / SCT; 0 R
2
1
PASO 6: Interpretacin de los parmetros y verificacin de los supuestos.
= intercepto, i.e., punto en el que la recta del modelo corta el eje Y.
= cambio esperado en la variable Y por el incremento de una unidad en la variable X.
En la grfica de la variable contra los residuos, estos ltimos deben distribuirse de manera
uniforme alrededor de 0, sin tendencias que indiquen no linealidad o varianza desigual.
La distribucin de los residuos estandarizados debe ser N(0, 1) (supuestos fuertes).
0

i
y
13
Das Puntaje Puntaje
Mora Empresa Propuesto
19.00 66.00 68.00
12.00 92.00 70.00
21.00 78.00 55.00
27.00 79.00 15.00
2.00 83.00 75.00
.00 95.00 90.00
2.00 90.00 80.00
6.00 75.00 80.00
6.00 82.00 85.00
32.00 51.00 30.00
.00 111.00 80.00
14.00 70.00 80.00
6.00 83.00 85.00
16.00 90.00 70.00
10.00 79.00 75.00
26.00 76.00 70.00
25.00 69.00 20.00
21.00 77.00 60.00
13.00 60.00 60.00
1.00 82.00 95.00
33.00 69.00 20.00
8.00 74.00 65.00
24.00 72.00 20.00
21.00 69.00 50.00
40.00 . 20.00
Caso Credit Scoring
Archivo Datos
14
Caso Credit Scoring - Interpretacin de las Salidas de SPSS
Estadsticos descriptivos
15.4000 11.4018 25
60.7200 25.2083 25
DIAS_MOR
Puntaje Propuesto
Defi nitivo
Media
Desviacin
tp. N
Correlaciones
1.000 -.864
-.864 1.000
. .000
.000 .
25 25
25 25
DIAS_MOR
Puntaje Propuesto
Defi nitivo
DIAS_MOR
Puntaje Propuesto
Defi nitivo
DIAS_MOR
Puntaje Propuesto
Defi nitivo
Correlacin de Pearson
Sig. (unilateral)
N
DIAS_MOR
Puntaje
Propuesto
Defi nitivo
Resumen del modelo
b

Modelo R R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
1 .864
a
.747 .736 5.86336
a. Variables predictoras: (Constante), Puntaje Propuesto Definitivo
b. Variable dependiente: dias_mor


15
Caso Credit Scoring - Interpretacin de las Salidas de SPSS
ANOVA
b
2329.283 1 2329.283 67.753 .000
a
790. 717 23 34.379
3120.000 24
Regresin
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrtica F Sig.
Vari ables predictoras: (Constante), Puntaje Propuesto Definitivo
a.
Vari able dependiente: DIAS_MOR
b.
Coeficientes
a
39.130 3.112 12.573 .000
-.391 .047 -.864 -8.231 .000
(Constante)
Puntaje Propuesto
Defi nitivo
Modelo
1
B Error tp.
Coeficientes no
estandarizados
Beta
Coeficient
es
estandari
zados
t Sig.
Vari able dependiente: DIAS_MOR
a.
) 2 /(n SCE SCR F =
R
2
= (SCR/SCT) = 0.747
t = B
j
/d.e.(B
j
) => t(n-2)
Ntese que t
2
(n-2) = F(1, n-2)
16
Caso Credit Scoring - Interpretacin de las Salidas de SPSS
Regresin Residuo tipificado
2.50 2.00 1.50 1.00 .50 0.00 -.50 -1.00 -1.50
Histograma
Variable dependiente: DIAS_MOR
F
r
e
c
u
e
n
c
i
a
7
6
5
4
3
2
1
0
Desv. tp. = .98
Media = 0.00
N=25.00
Diagnsticos por caso
a
1.099 19.00 12.5549 6.4451
.039 12.00 11.7733 .2267
.574 21.00 17.6354 3.3646
-1.069 27.00 33.2677 -6.2677
-1.334 2.00 9.8193 -7.8193
-.675 .00 3.9572 -3.9572
-1.000 2.00 7.8653 -5.8653
-.318 6.00 7.8653 -1.8653
.015 6.00 5.9112 8.877E-02
.784 32.00 27.4056 4.5944
-1.341 .00 7.8653 -7.8653
1.046 14.00 7.8653 6.1347
.015 6.00 5.9112 8.877E-02
.721 16.00 11.7733 4.2267
.031 10.00 9.8193 .1807
2.426 26.00 11.7733 14.2267
-1.077 25.00 31.3136 -6.3136
.907 21.00 15.6814 5.3186
-.457 13.00 15.6814 -2.6814
-.171 1.00 2.0032 -1.0032
.288 33.00 31.3136 1.6864
-.977 8.00 13.7273 -5.7273
-1.247 24.00 31.3136 -7.3136
.241 21.00 19.5894 1.4106
1.481 40.00 31.3136 8.6864
Nmero de caso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Residuo tip. DIAS_MOR
Valor
pronosticado Residual
Vari able dependiente: DIAS_MOR
a.
Grfico P-P normal de regresin Residuo tipificado
Variable dependiente: DIAS_MOR
Prob acum observada
1.00 .75 .50 .25 0.00
P
r
o
b

a
c
u
m

e
s
p
e
r
a
d
a
1.00
.75
.50
.25
0.00
17
Caso Credit Scoring - Interpretacin de las Salidas de SPSS
Grfico de dispersin
Variable dependiente: DIAS_MOR
Regresin Valor pronosticado tipificado
2.0 1.5 1.0 .5 0.0 -.5 -1.0 -1.5
R
e
g
r
e
s
i

n

R
e
s
i
d
u
o

t
i
p
i
f
i
c
a
d
o
3
2
1
0
-1
-2
18
Precio Dividendo Ret. Accionis. UPA
39.9 0.17 9.1 3.61
41.25 0.16 3.4 5.4
14.5 0.1 5.9 2.4
34.5 0.17 3.9 3.62
31.38 0.13 3.2 2.11
46 0.18 2.7 3.6
39.5 0.21 3 5.55
17.68 0.227 6.8 2.77
37.75 0.34 4.8 7.15
38.9 0.35 4.5 7.7
33.88 0.159 2.6 2.17
37.5 0.31 4.1 5.37
11.7 0.09 4.3 2.25
30.5 0.34 4.7 2.8
38.9 0.2 2.3 3.1
23.5 0.21 3.2 1.58
29.75 0.19 2.4 2.8
19.88 0.61 11.6 3.3
45.75 0.65 5 6.35
27.13 0.45 5.3 5.7
12.38 0.12 3.5 1.75
45.75 0.26 1.9 3.19
20.1 0.45 7 2.13
56 0.8 4.2 5.69
51.75 0.86 4.5 7.4
16.5 0.451 7.3 4.96
26.5 1.02 11 4.22
29.5 0.36 2.7 2.84
39 0.22 1.7 3.29
19.88 0.38 4.8 3.03
26.38 0.55 4.6 3.12
25.25 0.89 8.6 3.4
12.5 0.45 7.3 2.2
22.9 0.88 7.8 2.76
43.25 0.99 4.27 4.78
35 observaciones
Caso Precio Acciones - Interpretacin de las Salidas de SPSS
19
Caso Precio Acciones - Interpretacin de las Salidas de SPSS
Resumen del modelo
b
,612
a
,375 ,356 9,45917
Modelo
1
R R cuadrado
R cuadrado
corregida
Error tp. de la
estimacin
Vari ables predictoras: (Constante), Utilidad por accin
a.
Vari able dependiente: pr_acc
b.
2

n
SCE
R
2
= SCR / SCT
Coef. de Correl Muestral
entre Y y X
20
Caso Precio Acciones - Interpretacin de las Salidas de SPSS
ANOVA
b
1769,751 1 1769,751 19,779 ,000
a
2952,708 33 89,476
4722,459 34
Regresin
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrtica F Sig.
Vari ables predictoras: (Constante), Utilidad por accin
a.
Vari able dependiente: pr_acc
b.
F = SCR/SCE/(n-2)
SCR =
SCE =
SCT =
R
2
= (SCR/SCT) = 1759,751/4722,459
= 0.375
21
Caso Precio Acciones
Interpretacin de las Salidas de SPSS
d.e.(B
j
)
Coeficientes
a
14,598 4,034 3,619 ,001 6,391 22,806
4,300 ,967 ,612 4,447 ,000 2,333 6,267
(Constante)
Utili dad por accin
Modelo
1
B Error tp.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig. Lmite inferior
Lmite
superior
Intervalo de confianza para
B al 95%
Vari able dependiente: pr_acc
a.
t = B
j
/d.e.(B
j
) => t(n-2)
22
Caso Precio Acciones - Interpretacin de las Salidas de SPSS
Regresin Residuo tipif icado
2,00
1,50
1,00
,50
0,00
-,50
-1,00
-1,50
-2,00
Histograma
Variable dependiente: pr_acc
F
r
e
c
u
e
n
c
i
a
10
8
6
4
2
0
Desv . tp. = ,99
Media = 0,00
N = 35,00
Grfico P-P normal de regresin Residuo tipificado
Variable dependiente: pr_acc
Prob acum observada
1,0 ,8 ,5 ,3 0,0
P
r
o
b

a
c
u
m

e
s
p
e
r
a
d
a
1,0
,8
,5
,3
0,0
23
Caso Precio Acciones Retorno Accionistas
Interpretacin de las Salidas de SPSS
F = SCR/SCE/(n-2)
R
2
= (SCR/SCT) = 783,564/4722,459
= 0.166
ANOVA
b
783, 564 1 783, 564 6,565 ,015
a
3938,895 33 119, 360
4722,459 34
Regresin
Residual
Total
Modelo
1
Suma de
cuadrados gl
Media
cuadrtica F Sig.
Vari ables predictoras: (Constante), Retorno de los accionistas
a.
Vari able dependiente: pr_acc
b.
SCR =
SCE =
SCT =
24
Caso Precio Acciones Retorno Accionistas
Interpretacin de las Salidas de SPSS
d.e.(Bj)
t = B
j
/d.e.(B
j
) => t(n-2)
Coeficientes
a
40,752 4,206 9,690 ,000 32,196 49,309
-1,948 ,760 -,407 -2,562 ,015 -3,494 -,401
(Constante)
Retorno de los
acci onistas
Modelo
1
B Error tp.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig. Lmi te inferi or
Lmi te
superior
Intervalo de confianza para
B al 95%
Vari able dependiente: pr_acc
a.
25
Caso Precio Acciones Retorno Accionistas
Interpretacin de las Salidas de SPSS
Regresin Residuo tipificado
2,00
1,50
1,00
,50
0,00
-,50
-1,00
-1,50
-2,00
Histograma
Variable dependiente: pr_acc
F
r
e
c
u
e
n
c
i
a
10
8
6
4
2
0
Desv. tp. = ,99
Medi a = 0,00
N = 35,00
Grfico P-P normal de regresin Residuo tipificado
Variable dependiente: pr_acc
Prob acum observada
1,0 ,8 ,5 ,3 0,0
P
r
o
b

a
c
u
m

e
s
p
e
r
a
d
a
1,0
,8
,5
,3
0,0

Вам также может понравиться