Вы находитесь на странице: 1из 12

Tema 8: Regresión y Correlación

Estadística. 4o Curso.

Licenciatura en Ciencias Ambientales

Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 1 / 12
Índice

1 Introducción

2 Modelo de Regresión Lineal

3 Inferencia en el Modelo de Regresión Lineal

4 Correlación Lineal

5 Predicciones

Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 2 / 12
1. Introducción

En este tema estudiaremos cómo determinar si existe relación entre dos variables
cuantitativas X e Y, así como algunos coeficientes para, caso de existir, determinar la
fuerza de dicha asociación.
Al mismo tiempo que daremos respuesta a estos problemas, desarrollaremos un
modelo que relaciona X e Y aunque no de forma determinística, sino admitiendo la
existencia de una componente aleatoria, debida al azar y a otros elementos del
experimento estadístico que no se han tenido en cuenta en el análisis. Dicho modelo
se denomina Modelo de Regresión Lineal.

Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 3 / 12
2. Modelo de Regresión Lineal

Planteamiento general
Supongamos que estamos interesados en determinar la relación entre las siguientes
variables:
Y, variable aleatoria sobre una población (dependiente o respuesta).
las variables que influyen en Y se llaman predictoras o regresoras. Nos
limitaremos al caso de una única variable predictora, X, definida sobre la misma
población que Y.
La distribución de probabilidad de Y dependerá del valor que tome X. No obstante, Y
no está completamente determinada por X, ya que hay otras influencias aleatorias.
Esto se expresa mediante la ecuación:

Y = f (X) + E (ecuación de regresión de Y sobre X)

E, variable aleatoria no observable con media E[E] = 0 (error o ruido)

Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 4 / 12
2. Modelo de Regresión Lineal

Regresión Lineal
Si f es una recta, entonces la regresión de Y sobre X es lineal.

Y = β0 + β1 X + E

En la práctica, la ecuación anterior es imposible de determinar. Nuestro problema se


limita a la Inferencia (estimación puntual, intervalos de confianza y contraste de
hipótesis) sobre los parámetros β0 y β1 .
Intuitivamente, la pendiente de la recta, β1 , marca el crecimiento (o decrecimiento) de
la variable Y por cada unidad que crece la variable X.

Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 5 / 12
2. Modelo de Regresión Lineal

Otros parámetros de interés: correlación lineal


Algunos parámetros cuantificarán el grado de relación entre X e Y y el sentido de la
misma. Son la Covarianza poblacional (σxy ) y el Coeficiente de Correlación Lineal
(ρ). Se relacionan mediante la expresión
σxy
ρ= , −1 ≤ ρ ≤ 1
σx σy

Se verifica que
Si β1 , σxy , ρ < 0, la relación lineal es negativa (cuando crece X, decrece Y).
Si β1 , σxy , ρ = 0, no hay relación lineal, las variables son incorreladas, es decir,
el comportamiento de X no afecta al de Y.
Si β1 , σxy , ρ > 0, la relación lineal es positiva (cuando crece X también crece Y).

Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 6 / 12
3. Inferencia en el Modelo de Regresión Lineal
Ejemplo 1
Se desea conocer si existe relación entre las concentraciones de nitrato y sulfato en un
suelo. Para ello se toman 20 muestras de tierra resultando estas concentraciones:
SO4 1.68 5.08 4.47 4.91 2.91 3.65 2.36 1.23 2.47 1.09
NO3 1.74 3.33 2.33 2.03 3.03 3.43 0.27 2.98 0.22 1.37
SO4 5.96 5.72 3.40 1.14 2.88 1.97 0.38 4.46 3.37 1.29
NO3 2.13 4.5 1.34 1.07 0.48 2.21 2.28 4.62 1.57 2.52

Representamos las dos variables en la nube de puntos o diagrama de dispersión


4
4



3

3
nitrato

NIT






2
2

● ●


1
1


1 2 3 4 5 6
1 2 3 4 5 6 SULF

sulfato
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 7 / 12
3. Inferencia en el Modelo de Regresión Lineal
Toma de datos
Como hemos visto en el Ejemplo, la inferencia se basará en una muestra aleatoria simple ambas variables X
e Y, medidas sobre los mismos individuos.

Y y1 y2 y3 ... yn
X x1 x2 x3 ... xn

Estimación puntual
Los estimadores de los parámetros del modelo son:
n
1 X sxy
σ̂xy = sxy = (xi − x̄)(yi − ȳ) , ρ̂ = r = , −1 ≤ r ≤ 1
n − 1 i=1 sx sy

La recta de regresión lineal estimada de Y sobre X es la recta que mejor se ajusta a la nube de puntos de un
determinado conjunto de datos (ajuste de mínimos cuadrados) y sus coeficientes se calculan son:
s s „
s2 x̄2
«
sxy 1
β̂1 = 2 , E1 = 2
, β̂ 0 = ȳ − β̂ 1 x̄ , E 0 = s2 + 2
sx (n − 1)sx n (n − 1)sx
1 Xn n−1 2
siendo s2 la varianza intrínseca muestral: s2 = (yi − (β̂0 + β̂1 xi ))2 = (s − sxy β̂1 )
n−2 i=1 n−2 y

Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 8 / 12
3. Inferencia en el Modelo de Regresión Lineal

Intervalos de confianza
Hemos de suponer que E ∼ N(0, σ). A un nivel de confianza 1 − α:
Para β1 : I1 = [β̂1 ± E1 tn−2,α/2 ]
Para β0 : I0 = [β̂0 ± E0 tn−2,α/2 ]

Contraste de hipótiesis
Supondremos también que E ∼ N(0, σ). La hipótesis más interesante a contrastar es
que hay relación entre las variables, es decir,

H0 : β 1 = 0 H0 : no hay relación lineal entre X e Y


H1 : β1 6= 0 H1 : sí hay relación lineal entre X e Y

El estadístico de contraste es:


|β̂1 |
T=
E1
Rechazamos H0 al nivel α si T > tn−2,α/2 (equivalentemente si 0 6∈ I1 ).

Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 9 / 12
4. Correlación Lineal

Grado de relación entre las variables


Intuitivamente, si aceptamos H0 la variable X desaparece de la ecuación

Y = β0 + β1 X + E

es decir, toda la variabilidad de Y es aleatoria. Por el contrario si aceptamos H1 ,


entonces parte de la variabilidad de Y es debida a X y habrá relación entre X e Y.
El grado de relación y el signo de la misma nos lo dan σ̂xy = sxy , ρ̂ = r. Este
último coeficiente está entre -1 y 1, y por tanto su magnitud puede ser comparada con
estas cantidades. Así su proximidad a -1 ó a 1 nos da idea de una asociación lineal
fuerte mientras que su proximidad a 0 de una asociación débil.

Coeficiente de determinación
Al valor r2 se le denomina coeficiente de determinación. Mide el grado de asociación
lineal (sin signo) entre X e Y. Intuitivamente, r2 se puede interpretar como el tanto por
1 de la variabilidad de Y que queda “explicada” por la variable X.

Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 10 / 12
4. Correlación Lineal

Contraste de hipótesis
A menudo es útil contrastar
H0 : ρ = 0
H1 : ρ 6= 0
El estadístico de contraste es √
r n − 2
T = √
1 − r2
Rechazamos H0 al nivel α si T > tn−2,α/2

Este contraste es equivalente al de H0 : β1 = 0 y por tanto requiere la hipótesis de


normalidad.

Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 11 / 12
5. Predicciones

La recta de regresión estimada Y = β̂0 + β̂1 X puede ser utilizada para realizar
predicciones.
Sea x0 un valor observado de la variable X, que se corresponde con un valor y0 de la
variable Y que no hemos observado. Aunque no conozcamos y0 , la recta anterior nos
permite hacer inferencia sobre este valor. Así su estimación será

ŷ0 = β̂0 + β̂1 x0

Si además E ∼ N(0, σ) podemos dar un intervalo de confianza al nivel 1 − α para y0 :


" s   #
2
1 (x0 − x̄)2
ŷ0 ± s 1 + + tn−2,α/2
n (n − 1)s2x

Estas predicciones sólo serán fiables si hemos probado que hay relación entre las
variables y el coeficiente de determinación r2 es alto.

Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 12 / 12

Вам также может понравиться