Академический Документы
Профессиональный Документы
Культура Документы
Estadística. 4o Curso.
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 1 / 12
Índice
1 Introducción
4 Correlación Lineal
5 Predicciones
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 2 / 12
1. Introducción
En este tema estudiaremos cómo determinar si existe relación entre dos variables
cuantitativas X e Y, así como algunos coeficientes para, caso de existir, determinar la
fuerza de dicha asociación.
Al mismo tiempo que daremos respuesta a estos problemas, desarrollaremos un
modelo que relaciona X e Y aunque no de forma determinística, sino admitiendo la
existencia de una componente aleatoria, debida al azar y a otros elementos del
experimento estadístico que no se han tenido en cuenta en el análisis. Dicho modelo
se denomina Modelo de Regresión Lineal.
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 3 / 12
2. Modelo de Regresión Lineal
Planteamiento general
Supongamos que estamos interesados en determinar la relación entre las siguientes
variables:
Y, variable aleatoria sobre una población (dependiente o respuesta).
las variables que influyen en Y se llaman predictoras o regresoras. Nos
limitaremos al caso de una única variable predictora, X, definida sobre la misma
población que Y.
La distribución de probabilidad de Y dependerá del valor que tome X. No obstante, Y
no está completamente determinada por X, ya que hay otras influencias aleatorias.
Esto se expresa mediante la ecuación:
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 4 / 12
2. Modelo de Regresión Lineal
Regresión Lineal
Si f es una recta, entonces la regresión de Y sobre X es lineal.
Y = β0 + β1 X + E
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 5 / 12
2. Modelo de Regresión Lineal
Se verifica que
Si β1 , σxy , ρ < 0, la relación lineal es negativa (cuando crece X, decrece Y).
Si β1 , σxy , ρ = 0, no hay relación lineal, las variables son incorreladas, es decir,
el comportamiento de X no afecta al de Y.
Si β1 , σxy , ρ > 0, la relación lineal es positiva (cuando crece X también crece Y).
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 6 / 12
3. Inferencia en el Modelo de Regresión Lineal
Ejemplo 1
Se desea conocer si existe relación entre las concentraciones de nitrato y sulfato en un
suelo. Para ello se toman 20 muestras de tierra resultando estas concentraciones:
SO4 1.68 5.08 4.47 4.91 2.91 3.65 2.36 1.23 2.47 1.09
NO3 1.74 3.33 2.33 2.03 3.03 3.43 0.27 2.98 0.22 1.37
SO4 5.96 5.72 3.40 1.14 2.88 1.97 0.38 4.46 3.37 1.29
NO3 2.13 4.5 1.34 1.07 0.48 2.21 2.28 4.62 1.57 2.52
●
●
4
4
●
●
●
3
●
3
nitrato
NIT
●
●
●
●
●
2
2
● ●
●
1
1
●
●
1 2 3 4 5 6
1 2 3 4 5 6 SULF
sulfato
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 7 / 12
3. Inferencia en el Modelo de Regresión Lineal
Toma de datos
Como hemos visto en el Ejemplo, la inferencia se basará en una muestra aleatoria simple ambas variables X
e Y, medidas sobre los mismos individuos.
Y y1 y2 y3 ... yn
X x1 x2 x3 ... xn
Estimación puntual
Los estimadores de los parámetros del modelo son:
n
1 X sxy
σ̂xy = sxy = (xi − x̄)(yi − ȳ) , ρ̂ = r = , −1 ≤ r ≤ 1
n − 1 i=1 sx sy
La recta de regresión lineal estimada de Y sobre X es la recta que mejor se ajusta a la nube de puntos de un
determinado conjunto de datos (ajuste de mínimos cuadrados) y sus coeficientes se calculan son:
s s „
s2 x̄2
«
sxy 1
β̂1 = 2 , E1 = 2
, β̂ 0 = ȳ − β̂ 1 x̄ , E 0 = s2 + 2
sx (n − 1)sx n (n − 1)sx
1 Xn n−1 2
siendo s2 la varianza intrínseca muestral: s2 = (yi − (β̂0 + β̂1 xi ))2 = (s − sxy β̂1 )
n−2 i=1 n−2 y
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 8 / 12
3. Inferencia en el Modelo de Regresión Lineal
Intervalos de confianza
Hemos de suponer que E ∼ N(0, σ). A un nivel de confianza 1 − α:
Para β1 : I1 = [β̂1 ± E1 tn−2,α/2 ]
Para β0 : I0 = [β̂0 ± E0 tn−2,α/2 ]
Contraste de hipótiesis
Supondremos también que E ∼ N(0, σ). La hipótesis más interesante a contrastar es
que hay relación entre las variables, es decir,
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 9 / 12
4. Correlación Lineal
Y = β0 + β1 X + E
Coeficiente de determinación
Al valor r2 se le denomina coeficiente de determinación. Mide el grado de asociación
lineal (sin signo) entre X e Y. Intuitivamente, r2 se puede interpretar como el tanto por
1 de la variabilidad de Y que queda “explicada” por la variable X.
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 10 / 12
4. Correlación Lineal
Contraste de hipótesis
A menudo es útil contrastar
H0 : ρ = 0
H1 : ρ 6= 0
El estadístico de contraste es √
r n − 2
T = √
1 − r2
Rechazamos H0 al nivel α si T > tn−2,α/2
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 11 / 12
5. Predicciones
La recta de regresión estimada Y = β̂0 + β̂1 X puede ser utilizada para realizar
predicciones.
Sea x0 un valor observado de la variable X, que se corresponde con un valor y0 de la
variable Y que no hemos observado. Aunque no conozcamos y0 , la recta anterior nos
permite hacer inferencia sobre este valor. Así su estimación será
Estas predicciones sólo serán fiables si hemos probado que hay relación entre las
variables y el coeficiente de determinación r2 es alto.
Licenciatura en Ciencias Ambientales (4o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 12 / 12