Вы находитесь на странице: 1из 37

Tema 7: Regresin Simple

y Mltiple
EJEMPLO:
Aproxima bien el nmero de prstamos que efecta una biblioteca a
lo largo de su primer ao de vida.
Nos dicen que la frmula
Si damos valores a la variable Das (n das transcurridos desde
la apertura de la biblioteca
Das prestamos N 3 ' 0 25
0 100 200 300 400
Das
0
20
40
60
80
100
120
N

p
r
e
s
t
a
m
o
s
Das prestamos N 3 ' 0 25
Si dos variables X e Y est relacionadas mediante una expresin
del tipo Y=a+bX, la grfica que relaciona los valores de X e Y es
una lnea recta, y se dice que Y=a+bX es la ecuacin de dicha
recta; el recproco es cierto, es decir, si la grfica que
relaciona X e Y es una recta, entre ambas existe una relacin del
tipo Y=a+bX. En ese caso, decimos que entre X e Y hay una
relacin de tipo lineal.
En la realidad, no nos encontramos frmulas tan redondas, pero
s nos encontramos fenmenos que pueden aproximarse por ellas.
Das
N
prestamos
5 25
20 32
35 40
50 39
65 47
80 51
95 56
110 54
135 69
150 72
165 76
180 77
195 86
210 90
235 98
250 102
265 105
280 110
295 113
310 120
EJEMPLO: Supongamos que una biblioteca
proporcion los siguientes datos, a lo largo
de su primer ao de vida
Das
N


p
r
e
s
t
a
m
o
s
0 100 200 300 400
0
20
40
60
80
100
120
APROXIMADAMENTE,
N prestamos = 24,5529 + 0,301579*Das
En este caso, diramos que las variables N prstamos y Das estn
linealmente correlacionadas, y que lo de arriba es la ecuacin de
la recta de regresin de N prstamos sobre Das.
Para qu nos sirve? (1) para conocer leyes
empricas; (2) para predecir el valor de una cierta
variable
PROBLEMAS: Dadas dos variables X e Y, continuas

1.- [Correlacin] Existe una cierta relacin entre ellas, o por el contrario son
independientes? En el primer caso, hablamos de que entre X e Y
hay correlacin; en el segundo, decimos que son incorreladas

2.- [Correlacin lineal] Suponiendo que entre X e Y hay correlacin, estn
linealmente correlacionadas, es decir, funciona suficientemente bien un
modelo del tipo Y = a+bX para predecir Y a partir de X? Cules son los
ptimos valores para a y b, es decir, los que producen mejores esti-
maciones?

3.- [Otros tipos de correlacin] Hay algn modelo mejor que el lineal
que permita estimar Y a partir de X? Por ejemplo,
Cuadrtico: Y=a+bX+bX
2
Exponencial: Y=a b
x


Otro ejemplo (Leyes bibliomtricas)
Curva logstica del crecimiento
de la informacin
1. Distribuciones bidimensionales. Correlacin.
Cuando en una poblacin registramos simultneamente los valores
de dos variables X e Y, decimos que estamos ante una distribucin
BIDIMENSIONAL (PIZARRA: distribuciones marginales)

Los datos relativos a una distribucin bidimensional se pueden
representar grficamente mediante una NUBE DE PUNTOS, o
DIAGRAMA DE DISPERSION (PIZARRA)
Si la nube de puntos se ajusta aproximadamente a una curva, diremos
que las variables estn correlacionadas, es decir, que existe una cierta
relacin entre ellas (y buscaremos cul es la expresin, la frmula que
mejor aproxima una de ellas partir de la otra); en caso contrario, decimos
que las variables son incorreladas, es decir, que no tienen relacin.
0 100 200 300 400
0
20
40
60
80
100
120
0 100 200 300 400
0
3
6
9
12
15
Hay correlacin
Incorreladas
Adems de la inspeccin de la nube de puntos,
hay mtodos ms exactos para evaluar la existencia
o no de correlacin.
Si la nube de puntos parece ajustarse en torno a alguna curva (es
decir, si hay correlacin), la forma de dicha curva nos indica el tipo
de correlacin. Si la nube de puntos parece agruparse en torno a
una recta, diremos que hay correlacin lineal, o que las variables
estn linealmente correlacionadas.
0 100 200 300 400
0
20
40
60
80
100
120
Si las variables estn linealmente correlacionadas, entonces tiene
sentido buscar la recta que mejor se ajusta a la nube de puntos,
es decir, la recta que globalmente est ms cerca del conjunto de
puntos. Si nuestra intencin al hacer eso es la de estimar Y a partir
de X, entonces encontrar dicha recta es equivalente a encontrar la
mejor aproximacin
Y=a+bX
(RECTA DE REGRESION DE Y SOBRE X)
Cmo tomar a, b para que la aproximacin sea
ptima?
2. Regresin lineal sobre un conjunto de puntos.
PROBLEMA 1: Dada una distribucin bidimensional (X,Y), determinar
si las variables X e Y estn o no linealmente correlacionadas, y la
fuerza de dicha correlacin lineal.
PROBLEMA 2: Suponiendo que X e Y estn linealmente correlacionadas,
determinar la recta de regresin de Y sobre X, es decir, a y b de modo
que, aproximadamente, Y=a + bX.
PROBLEMA 1: Dada una distribucin bidimensional (X,Y), determinar
si las variables X e Y estn o no linealmente correlacionadas, y la
fuerza de dicha correlacin lineal.
- Nube de puntos.
- Coeficiente de correlacin lineal de Pearson. (PIZARRA)
- Coeficiente de correlacin lineal de Spearman.
- Coeficiente de determinacin R-cuadrado % de variabilidad
explicada.
PROBLEMA 2: Suponiendo que X e Y estn linealmente correlacionadas,
determinar la recta de regresin de Y sobre X, es decir, a y b de modo
que, aproximadamente, Y=a + bX.
bX a Y
(Ecuacin recta de regresin de Y sobre X)
Conocida la recta de regresin, podemos estimar los valores de Y
correspondientes a distintos valores de X.
i i
bx a y

Valor predicho, o estimado


0 100 200 300 400
0
20
40
60
80
100
120
i
y
:valor real
0 100 200 300 400
0
20
40
60
80
100
120
i
y
Valor predicho:
i i
bx a y

0 100 200 300 400


0
20
40
60
80
100
120
i
y
Valor predicho:
i i
bx a y

Residuo: diferencia
entre el valor real
y el valor predicho
Statgraphics
R-cuadrado Coeficiente de Determinacin % de variabilidad
explicada (PIZARRA)
3. El modelo de regresin lineal.
Sabemos decidir si, aproximadamente, un conjunto (x
i
,y
i
) de puntos
(datos) se ajusta o no a Y=a+bX. Pero, teniendo en cuenta que esos
datos son una MUESTRA de una poblacin
SIGUE SIENDO APROXIMADAMENTE
VALIDO Y=a+bX cuando tomamos
NO una muestra (x
i
,y
i
), sino cuando consideramos
TODA LA POBLACION? Qu queremos
decir por aproximadamente?
Modelo de regresin lineal:
i i i
bx a y
Y: variable explicada
X: regresor
residuo
Decimos que dos variables (poblacionales!)
estn linealmente correlacionadas, si:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de x
i
(homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
2+ 4+ 5= Residuos siguen una normal N(0,)
Grfico del Modelo Ajustado
Semanas
P
r
e
s
t
a
m
o
s
8 12 16 20 24 28 32
26
31
36
41
46
51
56
La varianza de los residuos no depende de xi (homocedasticidad)
Modelo de regresin lineal:
i i i
bx a y
Y: variable explicada
X: regresor
residuo
Hiptesis bsicas:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de x
i
(homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
2, 4 y 5 pueden contrastarte guardando los residuos, y procediendo
como en otras ocasiones.
Modelo de regresin lineal:
i i i
bx a y
Y: variable explicada
X: regresor
residuo
Hiptesis bsicas:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de x
i
(homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
3 lo contrastaremos con los grficos de residuos,
y comprobando que no haya residuos atpicos.
Grfico del Modelo Ajustado
Semanas
P
r
e
s
t
a
m
o
s
8 12 16 20 24 28 32
26
31
36
41
46
51
56
Homocedasticidad
aceptable
Modelo de regresin lineal:
i i i
bx a y
Y: variable explicada
X: regresor
residuo
Hiptesis bsicas:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de x
i
(homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
Cmo CONTRASTAR?
a.- Inspeccin del diagrama de dispersin, valores de los coeficientes
de correlacin de Pearson y Spearman (si el ajuste no funciona bien
para la muestra, difcilmente lo har para la poblacin).

b.- Contraste tipo ANOVA sobre la existencia o no de correlacin lineal.
COEFICIENTE DE DETERMINACION. = Contraste sobre la pendiente
de la recta de regresin.

c.- Cmo podemos estar seguros de que, en la poblacin, los coeficien-
tes de Pearson y Spearman no seran 0 (en cuyo caso, no habra
correlacin lineal)? Contraste de hiptesis.

Cmo CONTRASTAR?
(Explicacin: PIZARRA)
- Eliminacin de parmetros (simplificacin del modelo):
i i i
bx a y
Si aceptamos el contraste H
0
: a=0, entonces la recta de regresin
que obtenemos es y = bx (una frmula ms sencilla): se dice entonces
que hemos simplificado nuestro modelo.
Y: variable explicada
X: regresor
residuo
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de x
i
(homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
i i i
bx a y
Qu hacer si falla alguna hiptesis? (algunas ideas sobre esto)
(APUNTES)
Statgraphics
4. El modelo de regresin mltiple.
PROBLEMA: Hemos recogido datos sobre usuarios de mediana edad
de una biblioteca en la que adems se realizan actividades tanto para
nios como para adolescentes y adultos, y estamos interesados en
analizar cules son las variables que determinan el nivel de satisfaccin
de sus usuarios; las variables recogidas son: aficin a la lectura, al cine,
a la msica, nmero de hijos, renta y, por supuesto, nivel de satisfac-
cin.


Aficion_lectura Num_hijos Aficion_cine Aficion_musica renta_mens Nivel_estudios Aficion_TV Satisfaccion
4 0 3 5 1200 4 4 4
3 0 3 4 1500 5 4 3
5 1 4 1 1800 3 5 5
2 2 1 3 1000 2 2 3
4 1 5 3 1300 3 4 4
3 1 3 4 1900 1 4 3
5 3 4 5 1300 4 5 5
3 0 2 3 1200 4 4 3
3 1 4 1 1600 2 5 4
1 3 2 1 1400 2 1 2
4 0 5 4 1700 3 4 4
5 0 5 5 2500 4 5 5
5 2 4 4 1100 5 3 5
5 2 5 3 1400 3 4 5
2 1 1 4 1800 4 3 3
4 2 5 4 2000 4 5 5
3 3 2 4 1500 4 3 3
1 1 2 3 1000 2 2 2
2 1 2 2 1300 3 3 3
1 0 2 5 1600 4 4 2
5 1 4 4 1800 3 4 4
2 2 3 3 1200 4 4 4
4 1 5 5 1700 2 5 4
4 1 4 3 1500 5 4 4
5 2 4 5 1100 5 5 5
El modelo de regresin simple es, a priori, poco realista (parece poco
probable que el nivel de satisfaccin dependa de una nica variable,
ms bien lo natural es que en l intervengan varias variables). En con-
secuencia, ensayamos no con
sino con
Y=a+bX
Y=a+b
1
X
1
+ +b
n
X
n

Variable respuesta
(en nuestro caso,
nivel de satisfaccin)
regresores
Satisfaccion = 0,686829 + 0,134472*Aficion_cine +
0,436889*Aficion_lectura - 0,0904825*Aficion_musica +
0,234494*Aficion_TV + 0,113699*Nivel_estudios + 0,206893*Num_hijos -
0,0000595998*renta_mens
Por ejemplo, en el problema anterior, la frmula a la que llegaremos
es:
Aqu, Y=Satisfaccin, X
1
=Aficin_cine, X
2
=Aficion_lectura, etc.
Sirve para:
- predecir.
- detectar influencias (qu variables tienen ms poder sobre la
variable que nos interesa, etc.)
Modelo de regresin mltiple:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de x
i
(homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
6. Las variables x
1
, x
2
, etc. no estn linealmente correlacionadas
entre s.
i n n i
x b x b a y
1 1
residuo
Modelo de regresin mltiple:
1.
2. Los residuos tienen media 0.
3. La varianza de los residuos no depende de x
i
(homocedasticidad)
4. Los residuos son normales.
5. Los residuos son aleatorios.
6. Las variables x
1
, x
2
, etc. no estn linealmente correlacionadas
entre s.
2+ 4+ 5= Residuos siguen una normal N(0,)
i n n i
x b x b a y
1 1
residuo

Вам также может понравиться