Вы находитесь на странице: 1из 58

Unidad 4.

Anlisis de Regresin.
Gustavo Ramrez Valverde
ITESM

Relaciones entre variables y regresin
El trmino regresin fue introducido por Galton en su
libro Natural inheritance (1889) refirindose a la ley de
la regresin universal:

Cada peculiaridad en un hombre es compartida por sus
descendientes, pero en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos
fsicos de los descendientes (una variable) a partir de los
de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de
1000 registros de grupos familiares observando una
relacin del tipo:

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Conclusin: los padres muy altos tienen tendencia a tener
hijos que heredan parte de esta altura, aunque tienen
tendencia a acercarse (regresar) a la media. Lo mismo puede
decirse de los padres muy bajos.


Hoy en da el sentido de regresin es el de prediccin
de una medida basndonos en el conocimiento de otra.
Francis Galton
Primo de Darwin
Estadstico y
aventurero
Fundador (con otros)
de la estadstica
moderna
para explicar las teoras
de Darwin.


Estudio conjunto de dos variables
A la derecha tenemos una posible manera de recoger
los datos obtenido observando dos variables en
varios individuos de una muestra.

En cada fila tenemos los datos de un individuo

Cada columna representa los valores que toma una
variable sobre los mismos.

Las individuos no se muestran en ningn orden
particular.

Dichas observaciones pueden ser representadas en
un diagrama de dispersin (scatterplot). En ellos,
cada individuos es un punto cuyas coordenadas son
los valores de las variables.

Nuestro objetivo ser intentar reconocer a partir del
mismo si hay relacin entre las variables, de qu
tipo, y si es posible predecir el valor de una de ellas
en funcin de la otra.
Altura
en cm.
Peso
en Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Diagramas de dispersin o nube de puntos
M
i
d
e

1
8
7

c
m
.

Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama
de dispersin.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Relacin entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama
de dispersin.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Prediccin de una variable en funcin de la otra.
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
10 cm.
10 kg.
El modelo de regresin
Cada valor de X conforma una poblacin
respecto a los valores de Y.

Poblacin con individuos con X = x
1




Sin perder generalidad,
podramos pensar Y
son los gastos de
consumo personales y
X son los ingresos.
El modelo de regresin
lineal consiste en
suponer que las medias
de las poblaciones para
cada valor de X forma
una lnea recta:
X X Y E
X Y 1 0 /
0
) / ( | | + = =
2.1.2 Estimacin e interpretacin de los parmetros
del Modelo de Regresin Lineal Simple
i i i X Y i
X y c | | c + + = + =
1 0 /
0
El modelo de
regresin lineal
es:
i i i X Y i
X y c | | c + + = + =
1 0 /
0
El modelo verdadero no se
conoce (no se conoce la
poblacin).
Solo se tiene una muestra
(los puntos rojos en la
grafica) y se requiere
estimar los parmetros
1 0
| | y
El modelo de regresin
Supuestos Bsicos al Modelo
Para hacer correctas inferencias con el
modelo, se requiera se cumplan los
Supuestos:
LA RELACION FUNCIONAL ES LINEAL

INDEPENDENCIA DE LAS OBSERVACIONES
(MUESTRA ALEATORIA).

HOMOGENEIDAD DE VARIANZAS.

NORMALIDAD.

LAS VARIABLES EXPLICATORIAS SON FIJAS
Estimacin de Mnimos
Cuadrados
Estimador de mnimos cuadrados
ordinarios (MCO)
Los estimadores de
mnimos cuadrados
ordinarios, son aquellos
valores de los
parmetros que
minimizan en promedio
los residuos al cuadrado
Y
i i
y y e

=
Resido = Y observada- Y estimada

= =
=
n
i
i
n
i
i i
x y y y
1
2
1 0
1
2
) ( min )

( min | |
Estimador de mnimos cuadrados
ordinarios (MCO)


Se deben encontrar los valores de |
1
y |
2
que hacen
mnima la suma de los cuadrados de los residuales
(SCE)
Para obtener el mnimo se toman las derivadas parciales
respecto de |
1
y |
2


= =
= =
n
i
i
n
i
i i
x y y y SCE
1
2
1 0
1
2
) ( )

( | |
1
1
2
1 0
1
) (
| o
| | o
| o
o

=

=
n
i
i
x y
SCE
0
1
2
1 0
0
) (
| o
| | o
| o
o

=

=
n
i
i
x y
SCE
Estimador de mnimos cuadrados
ordinarios (MCO)
Igualar a 0



Los valores de |
1
y |
2
que satisfacen el sistema de
ecuaciones son valores crticos.
Se obtiene la segunda derivada para verificar si es
mximo, mnimo o punto de silla
0
) (
1
1
2
1 0
1
=

=

=
| o
| | o
| o
o
n
i
i
x y
SCE
0
) (
0
1
2
1 0
0
=

=

=
| o
| | o
| o
o
n
i
i
x y
SCE
Los valores resultantes resultan ser
mnimos y estn dados por:






Estimador de mnimos cuadrados
ordinarios (MCO)


= =
= = =
|
.
|

\
|

=
n
i
n
i
i i
n
i
i
n
i
n
i
i i i
x x n
y x y x n
1
2
1
2
1 1 1
1

|
x y
1 0

| | =
Interpretacin de los Parmetros

0
es la ordenada al origen y representa
la media de y cuando X = 0


1
es la pendiente, y representa la
cantidsd que aumenta la media de y
cuando aumenta x en una unidad
Distribucin de los estimadores del
Modelo de regresin Lineal
Bajo los supuestos del modelo de
regresin
i i i
x y c | | + + =
1 0
) , 0 (
2
i i
NIID o c
~
|
|
|
|
.
|

\
|

=
n
i
x x
N
1
2
2
1 1
) (
,

o
| |
~
i i i
x y c | | + + =
1 0
) , 0 (
2
i i
NIID o c
~
|
|
|
|
.
|

\
|

=
n
i
x x
N
1
2
2
1 1
) (
,

o
| |
~
|
|
|
|
.
|

\
|

=
n
i
x x
x
n
N
1
2
2
2 2
0 0
) (
,

o o
| |
~
i i i
x y c | | + + =
1 0
INTERVALOS DE CONFIANZA
Entonces:

Son un intervalo de confianza del 1-o (100)% para |o y |1

Con
1 0
, 2 1 , 2 0

| o | o
| | S t y S t
k n k n

=

+ =
n
i
x x
x
n
S
1
2
2
2 2

) (

0
o o
|

=

=
n
i
i
x x
S
i
1
2
2

) (

1
o
|
( )
|
|
|
|
.
|

\
|

= o

=
k n
y

n
1 i
2
i
2
EJEMPLO:
Una cierta compaa
produce lotes mensuales
de tamao fluctuando con
la demanda .
Se desea relacionar el
tamao del lote y las horas
hombre necesarias para
procesarlo

X Y
30 73
20 50
60 128
80 170
40 87
50 108
60 135
30 69
70 148
60 132
INTERVALOS DE CONFIANZA
Prueba de Significancia del
modelo
Distribucin de los estimadores del
Modelo de regresin Lineal
Bajo los supuestos del modelo de
regresin
i i i
x y c | | + + =
1 0
) , 0 (
2
i i
NIID o c
~
|
|
|
|
.
|

\
|

=
n
i
x x
N
1
2
2
1 1
) (
,

o
| |
~
i i i
x y c | | + + =
1 0
) , 0 (
2
i i
NIID o c
~
|
|
|
|
.
|

\
|

=
n
i
x x
N
1
2
2
1 1
) (
,

o
| |
~
|
|
|
|
.
|

\
|

=
n
i
x x
x
n
N
1
2
2
2 2
0 0
) (
,

o o
| |
~
i i i
x y c | | + + =
1 0
PRUEBA DE HIPOTESIS
PARA PROBAR:
H
o
: |
i
= 0
H
a
: |
i
= 0.
Entonces calcular:

Rechazo H
o
con nivel de significancia o si :

supuestos los cumplen se si

Ho, Bajo

k n
i i
c
t
S
t
i

=
|
| |
i
S
t
i
c
|
|

=
k n c
t t

>
, 2 o
~
EJEMPLO:
Una cierta compaa
produce lotes mensuales
de tamao fluctuando con
la demanda .
Se desea relacionar el
tamao del lote y las horas
hombre necesarias para
procesarlo

X Y
30 73
20 50
60 128
80 170
40 87
50 108
60 135
30 69
70 148
60 132
EJEMPLO:
EJEMPLO:
PRUEBA DE HIPOTESIS
PARA PROBAR:
H
o
: |
0
= 0
H
a
: |
0
= 0.

995302 . 3
502939 . 2
10
S

t
0

0
c
= =
|
=
|
k n , 2 c
t t
o
>
entonces rechazo H
o
.
PRUEBA DE HIPOTESIS
PARA PROBAR:
H
o
: |
1
= 0
H
a
: |
1
= 0.

k n , 2 c
t t
o
>
entonces rechazo H
o
.
58352 . 42
046967 . 0
2
S

t
0

0
c
= =
|
=
|
ANLISIS DE VARIANZA
ANLISIS DE VARIANZA

Modelo del
cuadrados de Suma
1
2
Error del
Cuadrados de Suma
1
2
Totales
Cuadrados de Suma
1
2
)

( )

( ) (

= = =
+ =
n
i
i
n
i
i i
n
i
i
y y y y y y
( ) ( ) ( )

Modelo
i
Error
i i
Total
i
y y y y y y + =

Anlisis de Varianza (Prueba de F)
Esta prueba nos permite probar si todos los betas
asociados a una variable explicativa son simultneamente
cero contra la alternativa que al menos uno de ellos es
diferente de cero
H
0
: |
1

=
|
2

=.....=
|
k
vs.
H
1
: Al menos un |
j
= 0 para j=1, 2, , k
Para nuestro caso: solo tenemos una variable explicatoria X y
entonces se convierte en:

H
0
: |
1

=
0

vs.
H
1
: |
1
= 0 equivalente a la prueba de t
La Prueba se realiza basndose en la
tabla de Anlisis de Varianza

Tabla de Anlisis de varianza (ANOVA)
Fuente Grados de
libertad
Suma de
cuadrados
Cuadrados
medios
F
P
modelo k SCR CMR=
SCR/k
CMR/CME P-value
error N-k-1 SCE CME=
SCE/N-k-1
total N-1 SCT
Anlisis de Varianza (Prueba de F)
Bajo H
0
el cociente F
cal
~ F
k,n-k-1



Entonces, Rechazo Ho con nivel de significancia o si Ho si
F
cal
> F
tablas

Anlisis de Varianza (Prueba de F)
Error CM
Modelo CM
F
cal
=
EJEMPLO:
Una cierta compaa
produce lotes mensuales
de tamao fluctuando con
la demanda .
Se desea relacionar el
tamao del lote y las horas
hombre necesarias para
procesarlo

X Y
30 73
20 50
60 128
80 170
40 87
50 108
60 135
30 69
70 148
60 132
R
2
y ANOVA en InfoStat
Calcular e interpretar el
coeficiente de determinacin
EL COFICIENTE DE DETERMINACION COMO
MEDIDA DE AJUSTE DEL MODELO
EL COFICIENTE DE DETERMINACION COMO
MEDIDA DE AJUSTE DEL MODELO

Modelo del
cuadrados de Suma
1
2
Error del
Cuadrados de Suma
1
2
Totales
Cuadrados de Suma
1
2
)

( )

( ) (

= = =
+ =
n
i
i
n
i
i i
n
i
i
y y y y y y
( ) ( ) ( )

Modelo
i
Error
i i
Total
i
y y y y y y + =

EL COFICIENTE DE DETERMINACION COMO
MEDIDA DE AJUSTE DEL MODELO
Intervalo de prediccin para
la respuesta
Prediccin
Y
X
Se desea predecir el valor Y para un valor dado de X
PREDICCION:

De la media

De una observacin
Se desea predecir observaciones futuras de Yo
para un valor Xo
0 1 0 0

X Y | | + =
El intervalo de prediccin se calcula con:
( )
2
2
0
2
, 2
0

1
1

o
o
|
|
.
|

\
|

+ +

SXX
x x
n
t y
n
Prediccin de nuevas observaciones

=
=
n
i
i
X X SXX
1
2
) (
Intervalo de confianza para la
respuesta media
Intervalo
( )
2
2
0
2
, 2


1
0
o
o
|
|
.
|

\
|

+

SXX
x x
n
t
n
x
y
0 1 0

0
X
x
y
| | + =
Regressi on
95% confi d.
INCOME vs. DEMAND
DEMAND = 90.124 + 1.0603 * INCOME
Correl ati on: r = .67328
INCOME
D
E
M
A
N
D
86
90
94
98
102
106
110
114
0 4 8 12 16 20
I.C. Para la
respuesta
media
I.C. Para la prediccin
De una observacin
Los I.C. Para la prediccin son mas
anchos que para la respuesta media
Pruebas para la adecuacin
del modelo
Supuestos Bsicos al Modelo
Para hacer correctas inferencias con el
modelo, se requiera se cumplan los
Supuestos:
LA RELACION FUNCIONAL ES LINEAL

INDEPENDENCIA DE LAS OBSERVACIONES
(MUESTRA ALEATORIA).

HOMOGENEIDAD DE VARIANZAS.

NORMALIDAD.

LAS VARIABLES EXPLICATORIAS SON FIJAS
Diagnostico Grfico en el
Modelo de Regresin
Grficas esenciales para el diagnostico
de la correccin del modelo
Recta de regresin y los valores
observados
Residuales estudentizados vs Predichos
Distancia D de Cook
Grafica Q-Q de residuales

Grafica de Predichos vs
Residuales
Verificacin de supuestos, una grfica de
residuos donde se cumplen los supuestos
es la grfica de residuos vs valores
ajustados (valores predichos)
e
t
0
t
.
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
.
.
.
.
. .
.
.
.
.
.
cruza aleatoriamente
Este grafico sirve para detectar problemas
de :
Homogeneidad de varianzas
Valores aberrantes (anmalos)
Correcta relacin funcional
Autocorrelacin
Grafica de Predichos vs
Residuales
Ejemplito
Grfica de Predichos vs Residuales
estudentizados
44.00 77.00 110.00 143.00 176.00
Predichos
-1.33
-0.47
0.39
1.25
2.11
R
e
s
.

e
s
t
u
d
e
n
t
i
z
a
d
o
s
_
Y
77
Ttulo
Ejemplito
Mala especificacin del modelo o
autocorrelacin
4.75 6.13 7.50 8.88 10.25
Predichos
-2.01
-1.20
-0.39
0.42
1.22
R
e
s
.

e
s
t
u
d
e
n
t
i
z
a
d
o
s
_
Y
2
Ttulo
Varianzas heterogneas
0
X
Ejemplito
Grfica de Predichos vs Residuales
estudentizados
44.00 77.00 110.00 143.00 176.00
Predichos
-1.33
-0.47
0.39
1.25
2.11
R
e
s
.

e
s
t
u
d
e
n
t
i
z
a
d
o
s
_
Y
77
Ttulo
Valores arriba
de 2 o debajo
de -2 son
observaciones
aberrantes.
Son puntos
que discrepan
mucho del
modelo
propuesto
Ejemplito
Grfica de Recta estimada, ayuda a ver si
tenemos una correcta relacin funcional:
17.00 33.50 50.00 66.50 83.00
X
44.00
77.00
110.00
143.00
176.00
Y
Ttulo
Ejemplito
Grfica de distancia D de Cook
1 2 3 5 6 8 9 10
Caso
-0.01
0.06
0.14
0.22
0.30
D
C
o
o
k
_
Y
1
7
1
7
Ejemplito
Grfica Q-Q de residuales
-3.99 -1.75 0.50 2.75 5.00
Cuantiles de una Normal(-1.0658E-015,6.6667)
-3.99
-1.75
0.50
2.75
5.00
C
u
a
n
t
i
l
e
s

o
b
s
e
r
v
a
d
o
s
(
R
D
U
O
_
Y
)
n= 10 r= 0.955 (RDUO_Y)
Ttulo

Вам также может понравиться