Вы находитесь на странице: 1из 37

Tema 7: Regresin Simple y Mltiple

EJEMPLO:

Nos dicen que la frmula

N prestamos 25 0'3Das
Aproxima bien el nmero de prstamos que efecta una biblioteca a lo largo de su primer ao de vida.

Si damos valores a la variable Das (n das transcurridos desde la apertura de la biblioteca

N prestamos 25 0'3Das
120

Nprestamos

100 80 60 40 20 0 0 100 200 300 400

Das

Si dos variables X e Y est relacionadas mediante una expresin del tipo Y=a+bX, la grfica que relaciona los valores de X e Y es una lnea recta, y se dice que Y=a+bX es la ecuacin de dicha recta; el recproco es cierto, es decir, si la grfica que relaciona X e Y es una recta, entre ambas existe una relacin del tipo Y=a+bX. En ese caso, decimos que entre X e Y hay una relacin de tipo lineal.

En la realidad, no nos encontramos frmulas tan redondas, pero s nos encontramos fenmenos que pueden aproximarse por ellas.

EJEMPLO: Supongamos que una biblioteca proporcion los siguientes datos, a lo largo de su primer ao de vida

Das 5

N prestamos 25

20
35 50 65 80 95

32
40 39 47 51 56

110
135 150 165 180 195

54
69 72 76 77 86

210
235 250 265 280 295

90
98 102 105 110 113

310

120

120

N prestamos

100 80 60 40 20 0 0 100 200 300 400

Das

APROXIMADAMENTE,

N prestamos = 24,5529 + 0,301579*Das

En este caso, diramos que las variables N prstamos y Das estn linealmente correlacionadas, y que lo de arriba es la ecuacin de la recta de regresin de N prstamos sobre Das.

Para qu nos sirve? (1) para conocer leyes empricas; (2) para predecir el valor de una cierta variable

PROBLEMAS: Dadas dos variables X e Y, continuas 1.- [Correlacin] Existe una cierta relacin entre ellas, o por el contrario son independientes? En el primer caso, hablamos de que entre X e Y hay correlacin; en el segundo, decimos que son incorreladas 2.- [Correlacin lineal] Suponiendo que entre X e Y hay correlacin, estn linealmente correlacionadas, es decir, funciona suficientemente bien un modelo del tipo Y = a+bX para predecir Y a partir de X? Cules son los ptimos valores para a y b, es decir, los que producen mejores estimaciones? 3.- [Otros tipos de correlacin] Hay algn modelo mejor que el lineal que permita estimar Y a partir de X? Por ejemplo, Cuadrtico: Y=a+bX+bX2 Exponencial: Y=a bx Otro ejemplo (Leyes bibliomtricas)

Curva logstica del crecimiento de la informacin

1. Distribuciones bidimensionales. Correlacin. Cuando en una poblacin registramos simultneamente los valores de dos variables X e Y, decimos que estamos ante una distribucin BIDIMENSIONAL (PIZARRA: distribuciones marginales)

Los datos relativos a una distribucin bidimensional se pueden representar grficamente mediante una NUBE DE PUNTOS, o DIAGRAMA DE DISPERSION (PIZARRA)

Si la nube de puntos se ajusta aproximadamente a una curva, diremos que las variables estn correlacionadas, es decir, que existe una cierta relacin entre ellas (y buscaremos cul es la expresin, la frmula que mejor aproxima una de ellas partir de la otra); en caso contrario, decimos que las variables son incorreladas, es decir, que no tienen relacin.

120 100 80 60 40 20 0 0 100 200 300 400

Hay correlacin

15 12 9 6 3 0 0 100 200 300 400

Incorreladas

Adems de la inspeccin de la nube de puntos, hay mtodos ms exactos para evaluar la existencia o no de correlacin.

Si la nube de puntos parece ajustarse en torno a alguna curva (es decir, si hay correlacin), la forma de dicha curva nos indica el tipo de correlacin. Si la nube de puntos parece agruparse en torno a una recta, diremos que hay correlacin lineal, o que las variables estn linealmente correlacionadas.

120 100 80 60 40 20 0 0 100 200 300 400

Si las variables estn linealmente correlacionadas, entonces tiene sentido buscar la recta que mejor se ajusta a la nube de puntos, es decir, la recta que globalmente est ms cerca del conjunto de puntos. Si nuestra intencin al hacer eso es la de estimar Y a partir de X, entonces encontrar dicha recta es equivalente a encontrar la mejor aproximacin

Y=a+bX

(RECTA DE REGRESION DE Y SOBRE X)

Cmo tomar a, b para que la aproximacin sea ptima?

2. Regresin lineal sobre un conjunto de puntos. PROBLEMA 1: Dada una distribucin bidimensional (X,Y), determinar si las variables X e Y estn o no linealmente correlacionadas, y la fuerza de dicha correlacin lineal.

PROBLEMA 2: Suponiendo que X e Y estn linealmente correlacionadas, determinar la recta de regresin de Y sobre X, es decir, a y b de modo que, aproximadamente, Y=a + bX.

PROBLEMA 1: Dada una distribucin bidimensional (X,Y), determinar si las variables X e Y estn o no linealmente correlacionadas, y la fuerza de dicha correlacin lineal.

- Nube de puntos. - Coeficiente de correlacin lineal de Pearson. (PIZARRA) - Coeficiente de correlacin lineal de Spearman. - Coeficiente de determinacin R-cuadrado % de variabilidad explicada.

PROBLEMA 2: Suponiendo que X e Y estn linealmente correlacionadas, determinar la recta de regresin de Y sobre X, es decir, a y b de modo que, aproximadamente, Y=a + bX.

Y a bX
(Ecuacin recta de regresin de Y sobre X) Conocida la recta de regresin, podemos estimar los valores de Y correspondientes a distintos valores de X.

i a bxi y
Valor predicho, o estimado

120 100 80 60 40 20 0 0 100 200 300 400

y i :valor real

120 100 80 60 40 20 0 0 100 200 300 400

i y

Valor predicho:

i a bxi y

120 100 80 60 40 20 0 0 100 200 300 400

Residuo: diferencia entre el valor real y el valor predicho

i y

Valor predicho:

i a bxi y

R-cuadrado Coeficiente de Determinacin % de variabilidad explicada (PIZARRA)

Statgraphics

3. El modelo de regresin lineal. Sabemos decidir si, aproximadamente, un conjunto (xi,yi) de puntos (datos) se ajusta o no a Y=a+bX. Pero, teniendo en cuenta que esos datos son una MUESTRA de una poblacin

SIGUE SIENDO APROXIMADAMENTE VALIDO Y=a+bX cuando tomamos NO una muestra (xi,yi), sino cuando consideramos TODA LA POBLACION? Qu queremos decir por aproximadamente?

Modelo de regresin lineal:

Decimos que dos variables (poblacionales!) estn linealmente correlacionadas, si:

1.

y i a bxi i
residuo

Y: variable explicada

X: regresor

2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 2+ 4+ 5= Residuos siguen una normal N(0,)

Grfico del Modelo Ajustado


56 51 46 41 36 31 26 8 12 16 20 24 28 32

Prestamos

Semanas
La varianza de los residuos no depende de xi (homocedasticidad)

Modelo de regresin lineal:

Hiptesis bsicas:

1.

y i a bxi i
residuo

Y: variable explicada

X: regresor

2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 2, 4 y 5 pueden contrastarte guardando los residuos, y procediendo como en otras ocasiones.

Modelo de regresin lineal:

Hiptesis bsicas:

1.

y i a bxi i
residuo

Y: variable explicada

X: regresor

2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 3 lo contrastaremos con los grficos de residuos, y comprobando que no haya residuos atpicos.

Grfico del Modelo Ajustado


56 51 46 41 36 31 26 8 12 16 20 24 28 32
Homocedasticidad aceptable

Prestamos

Semanas

Modelo de regresin lineal:

Hiptesis bsicas:

1.

y i a bxi i
residuo

Y: variable explicada

X: regresor

2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios.

Cmo CONTRASTAR?

Cmo CONTRASTAR?
a.- Inspeccin del diagrama de dispersin, valores de los coeficientes de correlacin de Pearson y Spearman (si el ajuste no funciona bien para la muestra, difcilmente lo har para la poblacin). b.- Contraste tipo ANOVA sobre la existencia o no de correlacin lineal. COEFICIENTE DE DETERMINACION. = Contraste sobre la pendiente de la recta de regresin. c.- Cmo podemos estar seguros de que, en la poblacin, los coeficientes de Pearson y Spearman no seran 0 (en cuyo caso, no habra correlacin lineal)? Contraste de hiptesis.

(Explicacin: PIZARRA)

- Eliminacin de parmetros (simplificacin del modelo):

y i a bxi i
Si aceptamos el contraste H0: a=0, entonces la recta de regresin que obtenemos es y = bx (una frmula ms sencilla): se dice entonces que hemos simplificado nuestro modelo.

Qu hacer si falla alguna hiptesis? (algunas ideas sobre esto) (APUNTES) 1.

y i a bxi i
residuo

Y: variable explicada

X: regresor

2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios.

Statgraphics

4. El modelo de regresin mltiple.

PROBLEMA: Hemos recogido datos sobre usuarios de mediana edad de una biblioteca en la que adems se realizan actividades tanto para nios como para adolescentes y adultos, y estamos interesados en analizar cules son las variables que determinan el nivel de satisfaccin de sus usuarios; las variables recogidas son: aficin a la lectura, al cine, a la msica, nmero de hijos, renta y, por supuesto, nivel de satisfaccin.

Aficion_lectura 4 3 5 2 4 3 5 3 3 1 4 5 5 5 2 4 3 1 2 1 5 2 4 4 5

Num_hijos 0 0 1 2 1 1 3 0 1 3 0 0 2 2 1 2 3 1 1 0 1 2 1 1 2

Aficion_cine Aficion_musica renta_mens Nivel_estudios 3 5 1200 4 3 4 1500 5 4 1 1800 3 1 3 1000 2 5 3 1300 3 3 4 1900 1 4 5 1300 4 2 3 1200 4 4 1 1600 2 2 1 1400 2 5 4 1700 3 5 5 2500 4 4 4 1100 5 5 3 1400 3 1 4 1800 4 5 4 2000 4 2 4 1500 4 2 3 1000 2 2 2 1300 3 2 5 1600 4 4 4 1800 3 3 3 1200 4 5 5 1700 2 4 3 1500 5 4 5 1100 5

Aficion_TV Satisfaccion 4 4 4 3 5 5 2 3 4 4 4 3 5 5 4 3 5 4 1 2 4 4 5 5 3 5 4 5 3 3 5 5 3 3 2 2 3 3 4 2 4 4 4 4 5 4 4 4 5 5

El modelo de regresin simple es, a priori, poco realista (parece poco probable que el nivel de satisfaccin dependa de una nica variable, ms bien lo natural es que en l intervengan varias variables). En consecuencia, ensayamos no con

Y=a+bX
sino con

Y=a+b1X1+ +bnXn

regresores Variable respuesta (en nuestro caso, nivel de satisfaccin)

Por ejemplo, en el problema anterior, la frmula a la que llegaremos es:

Satisfaccion = 0,686829 + 0,134472*Aficion_cine + 0,436889*Aficion_lectura - 0,0904825*Aficion_musica + 0,234494*Aficion_TV + 0,113699*Nivel_estudios + 0,206893* 0,0000595998*renta_mens

Aqu, Y=Satisfaccin, X1=Aficin_cine, X2=Aficion_lectura, etc. Sirve para: - predecir. - detectar influencias (qu variables tienen ms poder sobre la variable que nos interesa, etc.)

Modelo de regresin mltiple:

1.

y i a b1 x1 bn x n i
residuo

2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 6. Las variables x1, x2, etc. no estn linealmente correlacionadas entre s.

Modelo de regresin mltiple:

1.

y i a b1 x1 bn x n i
residuo

2. Los residuos tienen media 0. 3. La varianza de los residuos no depende de xi (homocedasticidad) 4. Los residuos son normales. 5. Los residuos son aleatorios. 6. Las variables x1, x2, etc. no estn linealmente correlacionadas entre s. 2+ 4+ 5= Residuos siguen una normal N(0,)

Вам также может понравиться