Вы находитесь на странице: 1из 59

2. Anlisis de Regresin.

Gustavo Ramrez Valverde


ITESM
2.1 Regresin Lineal Simple

2.1.1 Definicin de: Anlisis de


Regresin, grfico de
dispersin y modelo de
regresin lineal simple
Relaciones entre variables y regresin
El trmino regresin fue introducido por Galton en su
libro Natural inheritance (1889) refirindose a la ley de
la regresin universal:

Cada peculiaridad en un hombre es compartida por sus


descendientes, pero en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos
fsicos de los descendientes (una variable) a partir de los
de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de
1000 registros de grupos familiares observando una
relacin del tipo:
Francis Galton
Altura del hijo = 85cm + 0,5 altura del padre (aprox.) Primo de Darwin
Estadstico y
aventurero
Conclusin: los padres muy altos tienen tendencia a tener Fundador (con otros)
hijos que heredan parte de esta altura, aunque tienen
tendencia a acercarse (regresar) a la media. Lo mismo puede de la estadstica
decirse de los padres muy bajos. moderna
para explicar las
teoras
de Darwin.
Hoy en da el sentido de regresin es el de prediccin
Estudio conjunto de dos variables
A la derecha tenemos una posible manera de recoger
los datos obtenido observando dos variables en
varios individuos de una muestra. Altura Peso
en cm. en Kg.
En cada fila tenemos los datos de un individuo
162 61
154 60
Cada columna representa los valores que toma una
180 78
variable sobre los mismos.
158 62
171 66
Las individuos no se muestran en ningn orden
particular. 169 60
166 54
Dichas observaciones pueden ser representadas en 176 84
un diagrama de dispersin (scatterplot). En ellos, 163 68
cada individuos es un punto cuyas coordenadas son
los valores de las variables. ... ...

Nuestro objetivo ser intentar reconocer a partir del


mismo si hay relacin entre las variables, de qu
tipo, y si es posible predecir el valor de una de ellas
en funcin de la otra.
Diagramas de dispersin o nube de puntos
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama
de dispersin.

Pesa 76 kg.

Mide 187 cm.


Pesa 50 kg.

Mide 161 cm.


Relacin entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama
de dispersin.

n la
t a co
e n
aum
es o
el p
que
e ce
r
Pa ra
altu
Prediccin de una variable en funcin de la otra.
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.

10 kg.

10 cm.
El modelo de regresin
Cada valor de X conforma una poblacin
respecto a los valores de Y.
Poblacin con individuos con X = x1

Sin perder generalidad,


podramos pensar Y
son los gastos de
consumo personales y
X son los ingresos.
2.1.2 Estimacin e interpretacin de los parmetros
del Modelo de Regresin Lineal Simple

El modelo de regresin
lineal consiste en
suponer que las medias
de las poblaciones para
cada valor de X forma
una lnea recta:

E (Y / X ) Y / X 0 0 1 X

yi Y / X 0 i 0 1 X i i
El modelo de regresin
El modelo de
regresin lineal
yi Y / X es:
0
i 0 1 X i i
El modelo verdadero no se
conoce (no se conoce la
poblacin).
Solo se tiene una muestra
(los puntos rojos en la
grafica) y se requiere
estimar los parmetros

0 y 1
Supuestos Bsicos al Modelo
Para hacer correctas inferencias con el
modelo, se requiera se cumplan los
Supuestos:
LA RELACION FUNCIONAL ES LINEAL
INDEPENDENCIA DE LAS OBSERVACIONES
(MUESTRA ALEATORIA).
HOMOGENEIDAD DE VARIANZAS.
NORMALIDAD.
LAS VARIABLES EXPLICATORIAS SON FIJAS
Estimacin de Mnimos
Cuadrados
Estimador de mnimos cuadrados
ordinarios (MCO)
Los estimadores de
Y mnimos cuadrados
ordinarios, son aquellos
valores de los
parmetros que
minimizan en promedio
los residuos al cuadrado

e yi y i
n n
min ( yi y i ) 2 min ( yi 0 1 x ) 2
i 1 i 1
Resido = Y observada- Y estimada
Estimador de mnimos cuadrados
ordinarios (MCO)
n n
SCE ( yi y i ) ( yi 0 1 x) 2
2

i 1 i 1

Se deben encontrar los valores de 1 y 2 que hacen


mnima la suma de los cuadrados de los residuales
(SCE)
Para obtener el mnimo se toman las derivadas parciales
respecto de 1 y 2
n n

( yi 0 1 x) 2 ( yi 0 1 x) 2
SCE SCE
i 1 i 1

1 1 0 0
Estimador de mnimos cuadrados
ordinarios (MCO)
Igualar a 0
n n
( yi 0 1 x) 2
( yi 0 1 x) 2
SCE SCE
i 1
0 i 1
0
1 1 0 0

Los valores de 1 y 2 que satisfacen el sistema de


ecuaciones son valores crticos.
Se obtiene la segunda derivada para verificar si es
mximo, mnimo o punto de silla
Estimador de mnimos cuadrados
ordinarios (MCO)
Los valores resultantes resultan ser
mnimos y estn dados por:

n n n
n xi yi xi yi
1 i 1
n

i 1
n
i 1


2 0 y 1 x
n x 2
i x i
i 1 i 1
Interpretacin de los Parmetros
0 es la ordenada al origen y representa
la media de y cuando X = 0

1 es la pendiente, y representa la
cantidsd que aumenta la media de y
cuando aumenta x en una unidad
Distribucin de los estimadores del
Modelo de regresin Lineal
Bajo los supuestos del modelo de
regresin

yii 00 11xii ii ii NIID


NIID((00,,i2i2))


2
2
x 2
0
N 0 ,
n
n
2




i 1
( x x)

INTERVALOS DE CONFIANZA

Entonces:

Son un intervalo de confianza del 1- (100)% para o y 1

Con
2
S i1 n

i
( x
i 1
x ) 2

2
2 2 x
S 0 n
n
(
i 1
x x ) 2
EJEMPLO:

Una cierta compaa X Y


30 73
produce lotes mensuales 20 50
de tamao fluctuando con 60 128
la demanda . 80 170
40 87
Se desea relacionar el 50 108
tamao del lote y las horas 60 135
hombre necesarias para 30 69
70 148
procesarlo 60 132
INTERVALOS DE CONFIANZA
2.1.3 Prueba de Significancia del
modelo
Distribucin de los estimadores del
Modelo de regresin Lineal
Bajo los supuestos del modelo de
regresin

yii 00 11xii ii ii NIID


NIID((00,,i2i2))


2
2
x 2
0
N 0 ,
n
n
2




i 1
( x x)

PRUEBA DE HIPOTESIS
i i
Bajo Ho, tc
S i t nk si se cumplen los supuestos

PARA PROBAR:
Ho: i = 0
Ha: i 0. i
tc
Entonces calcular: S i

Rechazo Ho con nivel de significancia si :


tc t 2, n k
EJEMPLO:

Una cierta compaa X Y


30 73
produce lotes mensuales 20 50
de tamao fluctuando con 60 128
la demanda . 80 170
40 87
Se desea relacionar el 50 108
tamao del lote y las horas 60 135
hombre necesarias para 30 69
70 148
procesarlo 60 132
EJEMPLO:
EJEMPLO:
PRUEBA DE HIPOTESIS
PARA PROBAR:
Ho: 0 = 0
Ha: 0 0.

entonces rechazo Ho.


PRUEBA DE HIPOTESIS
PARA PROBAR:
Ho: 1 = 0
Ha: 1 0.

entonces rechazo Ho.


ANLISIS DE VARIANZA
ANLISIS DE VARIANZA

yiy yi y i y iy
Total Error Modelo

n n n

(y i y ) ( yi y i ) ( y i y )
2 2 2

i 1 i 1 i 1
Suma de Cuadrados Suma de Cuadrados Suma de cuadrados
Totales del Error del Modelo
Anlisis de Varianza (Prueba de F)
Esta prueba nos permite probar si todos los betas
asociados a una variable explicativa son simultneamente
cero contra la alternativa que al menos uno de ellos es
diferente de cero
H0: 1 = 2 =.....= k
vs.
H1: Al menos un j 0 para j=1, 2, , k

Para nuestro caso: solo tenemos una variable explicatoria X y


entonces se convierte en:

H0: 1 =
vs.
H1: 1 0 equivalente a la prueba de t
Anlisis de Varianza (Prueba de F)
La Prueba se realiza basndose en la
tabla de Anlisis de Varianza
Tabla de Anlisis de varianza (ANOVA)
Fuente Grados Suma de Cuadrado F P
de cuadrado s medios
libertad s
model k SCR CMR= CMR/CM P-
o SCR/k E value
error N-k-1 SCE CME=
SCE/N-k-
1
total N-1 SCT
Anlisis de Varianza (Prueba de F)

CM Modelo
Fcal
CM Error
Bajo H0 el cociente Fcal F k,n-k-1

Entonces, Rechazo Ho con nivel de significancia si Ho si


Fcal > Ftablas
EJEMPLO:

Una cierta compaa X Y


30 73
produce lotes mensuales 20 50
de tamao fluctuando con 60 128
la demanda . 80 170
40 87
Se desea relacionar el 50 108
tamao del lote y las horas 60 135
hombre necesarias para 30 69
70 148
procesarlo 60 132
R2 y ANOVA en InfoStat
2.1.4 Calcular e interpretar el
coeficiente de determinacin
EL COFICIENTE DE DETERMINACION COMO
MEDIDA DE AJUSTE DEL MODELO
EL COFICIENTE DE DETERMINACION COMO
MEDIDA DE AJUSTE DEL MODELO

yiy yi y i y iy
Total Error Modelo

n n n

(y i y ) ( yi y i ) ( y i y )
2 2 2

i 1 i 1 i 1
Suma de Cuadrados Suma de Cuadrados Suma de cuadrados
Totales del Error del Modelo
EL COFICIENTE DE DETERMINACION COMO
MEDIDA DE AJUSTE DEL MODELO
2.1.5 Intervalo de prediccin
para la respuesta
Prediccin

PREDICCION:
Y
De la media

De una
observacin
X

Se desea predecir el valor Y para un valor dado de X


Prediccin de nuevas observaciones
Se desea predecir observaciones futuras de Yo
para un valor Xo

Y0 0 1 X 0
El intervalo de prediccin se calcula con:

1 x0 x 2 2
y 0 t 1
n 2,

n SXX
2

n
SXX ( X i X ) 2

i 1
Intervalo de confianza para la
respuesta media

y 0 1 X 0
x0

Intervalo

1 x0 x 2
2
y t
SXX

x0
n 2,
2 n
I.C. Para la prediccin
De una observacin
INCOME vs. DEMAND
DEMAND = 90.124 + 1.0603 * INCOME

114
Correlation: r = .67328
I.C. Para la
110
respuesta
106 media
102
DEMAND

98

94

90

86 Regression
0 4 8 12 16 20 95% confid.

INCOME

Los I.C. Para la prediccin son mas


anchos que para la respuesta media
2.1.6 Pruebas para la
adecuacin del modelo
Supuestos Bsicos al Modelo
Para hacer correctas inferencias con el
modelo, se requiera se cumplan los
Supuestos:
LA RELACION FUNCIONAL ES LINEAL
INDEPENDENCIA DE LAS OBSERVACIONES
(MUESTRA ALEATORIA).
HOMOGENEIDAD DE VARIANZAS.
NORMALIDAD.
LAS VARIABLES EXPLICATORIAS SON FIJAS
Diagnostico Grfico en el
Modelo de Regresin
Grficas esenciales para el diagnostico
de la correccin del modelo

Recta de regresin y los valores


observados
Residuales estudentizados vs Predichos
Distancia D de Cook
Grafica Q-Q de residuales
Grafica de Predichos vs
Residuales
Verificacin de supuestos, una grfica de
residuos donde se cumplen los supuestos
es la grfica de residuos vs valores
ajustados (valores predichos)
cruza aleatoriamente
et
. . .. . . . . . . . .
0
. . .. . . . . .. .
. . . . .t
Grafica de Predichos vs
Residuales
Este grafico sirve para detectar problemas
de :
Homogeneidad de varianzas
Valores aberrantes (anmalos)
Correcta relacin funcional
Autocorrelacin
Ejemplito
Grfica de Predichos vs Residuales
estudentizados
Ttulo

2.11 7

1.25
R e s. e stu d e n tiza d o s_ Y

0.39

-0.47

-1.33
44.00 77.00 110.00 143.00 176.00
Predichos
Ejemplito
Mala especificacin del modelo o
autocorrelacin
Ttulo

1.22

0.42
Res. estudentizados_Y2

-0.39

-1.20

-2.01
4.75 6.13 7.50 8.88 10.25
Predichos
Varianzas heterogneas

.
. .
.
. . . . . . . .
. . . . . . . . .
0 . . . . . . . . . . .
. . . . . .
. .
. . . .
. .
X
Ejemplito
Grfica de Predichos vs Residuales
estudentizados
2.11
Ttulo
Valores arriba
de 2 o debajo
7

1.25
de -2 son
observaciones
R e s. e stu d e n tiza d o s_ Y

0.39
aberrantes.
Son puntos
-0.47
que discrepan
mucho del
-1.33
modelo
44.00 77.00 110.00
Predichos
143.00 176.00
propuesto
Ejemplito
Grfica de Recta estimada, ayuda a ver si
tenemos una correcta relacin funcional:
Ttulo

176.00

143.00

110.00
Y

77.00

44.00
17.00 33.50 50.00 66.50 83.00
X
Ejemplito
Grfica de distancia D de Cook

0.30 7

1
0.22
D C o o k_ Y

0.14

0.06

-0.01
1 2 3 5 6 8 9 10
Caso
Ejemplito
Grfica Q-Q de residuales
Ttulo

5.00 n= 10 r= 0.955 (RDUO_Y)


C u a n tile s o b se rva d o s(R D U O _ Y )

2.75

0.50

-1.75

-3.99
-3.99 -1.75 0.50 2.75 5.00
Cuantiles de una Normal(-1.0658E-015,6.6667)

Вам также может понравиться