Вы находитесь на странице: 1из 23

RELACIN ENTRE VARIABLES

Los modelos de regresin lineal son importantes instrumentos estadsticos elaborados para relacionar dos o ms variables de inters. Esta relacin, a menudo toma la forma de una ecuacin lineal o modelo lineal. La regresin lineal simple es la situacin en la que hay exactamente dos variables. Entonces, el valor de la variable dependiente se puede predecir para un valor dado de la variable independiente.

Ejemplo 1
Supongamos que un ingeniero qumico est investigando la relacin entre la temperatura de funcionamiento de un proceso y el rendimiento del producto. En este caso, podra ser til para controlar la temperatura de operacin (variable independiente) con el fin de controlar o predecir el rendimiento (variable dependiente).

Para este ejemplo, se toman ocho lecturas, aunque en una aplicacin real se requiere ms datos.

Grafico del Rdto. y la temperatura

Consideraciones
El modelo de regresin es representado por una ecuacin:

0 y 1 son parmetros, que deben ser estimado de una muestra. 0 : representa el intercepto, cuando x=0 1 : representa la pendiente, indica el cambio en y para un cambio en una unidad en x.

es el termino aleatorio llamado error


Cada observacin es representada en el modelo como:

Estimacin de los parmetros


La regresin estimada mediante la minimizacin de los errores:

b0 y b1 son estimados de la muestra:

donde,

Ejemplo 2
Considerando el caso del rendimiento y la temperatura dado en el ejemplo 1.

Rendimiento

65
120

70

75

80

85

140

160

180

temperatura

Prueba de hiptesis de la regresin


Para las pruebas de hiptesis sobre los parmetros de la regresin, es necesario conocer, el valor esperado y su variancia de los estimadores

el estimado de la variancia del error:

y los errores estndares:

Hiptesis sobre 0 y 1
Sobre 1 corresponde a la pendiente de la recta, si es cero, entonces no hay regresin. El estadstico de la prueba es: : nivel de significacin Sobre el intercepto 0, si es cero, no hay intercepto

El estadstico de la prueba es: : nivel de significacin y el valor critico para ambas prueba es con t-student, con /2 y n-2 gl Se rechaza la Ho cuando el estadstico supera el valor critico.

Ejemplo 3
Considerando el caso del rendimiento y la temperatura dado en el ejemplo 1.

Mediante el programa R.
Coefficients: Estimate (Intercept) 19.9464 temperatura 0.3679 --Std.Error t.value Pr(>|t|) 4.7348 4.213 0.00561 ** 0.0312 11.789 2.25e-05 ***

Segn la probabilidad nos indica que 0 y 1 rechazan la hiptesis de nulidad, entonces son distintos de cero. Los valores de t, son obtenidos como: estimate/std.Error. El valor 19.9 indica la tasa de cambio del rdto. por un aumento en una unidad de temperatura.

Intervalo de confianza para los s


Cuando se rechaza la Ho, indicando que los parmetros son distintos de cero, es conveniente hallar los intervalos de confianza.

Ejemplo 4
Con los datos del ejemplo del rdto. y la temperatura, los intervalos al 95% confianza:

Anlisis de variancia de la regresin.


Considerando que el modelo es aditivo y lineal, la variacin de la variable dependiente puede ser descompuesta en variacin debida al modelo y al error, lo cual permite cuantificar el aporte del modelo de regresin en la variacin total.

Suma de cuadrados del total.


Suma de cuadrados de la regresin. Suma de cuadrados del error.

Los grados de libertad de la regresin es igual al numero de variables independientes, del total es n-1 y la diferencia es del error.

Cuadro del ANVA.

Ejemplo 5
Con los datos del ejemplo del rdto. y la temperatura, mediante el programa R se tiene:
Response: rdto Df Sum Sq Mean Sq F value Pr(>F) temperatura 1 568.34 568.34 138.98 2.25e-05 *** Residuals 6 24.54 4.09 ---

Se interpreta que la temperatura en el modelo de regresin planteado, es altamente significativo.

Asunciones para la regresin


Hay una serie de hiptesis en la regresin. Los supuestos para el enfoque de los mnimos cuadrados para el anlisis de regresin son: 1. Los errores son independientes. 2. Los errores tienen una distribucin normal con media cero. 3. Los errores tienen varianza constantes. Las hiptesis se puede comprobar mediante el anlisis residual. Residuos conspirado contra los valores ajustados y o en contra de la variable independiente x puede proporcionar alguna informacin acerca de la validez del supuesto de varianza constante y una grfica de probabilidad normal de los residuos se pueden utilizar para evaluar la hiptesis de normalidad.

Anlisis de residuo
> par(mfrow=c(2,2),mar=c(4,4,2,2)) > plot(modelo,col="blue")
Residuals vs Fitted
4

Normal Q-Q
Standardized residuals 2.0
4

1 2 3 4

Residuals

-1

-1.0

0.0

1.0

-3

65

70

75

80

85

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

Fitted values

Theoretical Quantiles

Scale-Location
Standardized residuals Standardized residuals 2
4

Residuals vs Leverage
4 1 0.5 7

1.2

0.8

0.4

-1

0.0

Cook's distance7 0.0 0.1 0.2 Leverage 0.3 0.4

0.5 1

65

70

75

80

85

Fitted values

Prediccin de observaciones
El modelo de regresin ajustada se usa a menudo para hacer predicciones de nuevas observaciones o futuras respuestas. Si x0 es un valor de la variable independiente. El estimador puntual del nuevo valor, y0, viene dado por:

Para x0 =150 C, el valor predicho del rendimiento es:

19.9464 0.3679 x0
= 19.9464+0.3679(150) = 75.13 %

> predict(modelo,new=data.frame(temperatura=150)) 75.125

CORRELACION LINEAL SIMPLE


La correlacin mide la fuerza de la relacin lineal entre dos variables aleatorias. Una relacin lineal entre dos variables si una variable aumenta la otra aumenta o disminuye. Esto se ver grficamente los valores de las dos variables a lo largo de una lnea recta. El coeficiente de correlacin poblacional es a menudo desconocida y se puede estimar utilizando datos de la muestra, observando pares de puntos x, y se puede estimar mediante:

El valor varan entre -1 y 1, la correlacin puede ser negativa, cero o positiva. Si es cercano a -1 o 1, es perfecta la asociacion, en cero ya no hay asociacin.

Grficos de la correlacin

Positiva

r-> -1

r-> 1

negativa

Neutra, r-> 0

Ejemplo 6
Con la informacin del rendimiento y la temperatura se tiene:

La correlacin es igual a 0.998. Se puede afirmar que al incrementar la temperatura, el rendimiento tambin aumenta

COEFICIENTE DE DETERMINACION
Mide el aporte del modelo a la variable respuesta, es expresado en porcentaje y explica que un porcentaje de la variacin total.

EJEMPLO 7 Con la informacin del rendimiento y la temperatura se tiene:

Significa que el 95.9% de la variacin del rendimiento es explicado por el modelo de regresin en la que se incluye la temperatura.

REGRESIN LINEAL MULTIPLE


Es una extensin del modelo de regresin lineal simple a mas de una variable independiente xi.

El modelo estimado (ajustado) es:

donde b0 estima 0, b1 a 1, b2 a 2.

Ejemplo 8
Un artculo en el Journal of Agricultural Engineering Research describe el modelado de la susceptibilidad de los melocotones al daos, varias son variables independientes que podrian explicar este hecho. Dos variables independientes que se cree que podrian afectar como la altura a que el melocotn se cae al suelo (mm) y la densidad de durazno (g/cm3). Los datos que son tpicos de este experimento son los siguientes:

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.379807 10.565243 0.509 0.6263 x1 0.016089 0.005955 2.702 0.0306 * x2 -4.480623 9.754684 -0.459 0.6599 --Residual standard error: 1.339 on 7 degrees of freedom Multiple R-squared: 0.5431, Adjusted R-squared: 0.4125 F-statistic: 4.16 on 2 and 7 DF, p-value: 0.0645

Modelo: y = 5.379807 + 0.016089 x1 - 4.480623 x2


Analysis of Variance Table Response: y x1 x2 Residuals --Df Sum Sq Mean Sq F value Pr(>F) 1 14.5451 14.5451 8.1082 0.02478 * 1 0.3785 0.3785 0.2110 0.65992 7 12.5571 1.7939

Anlisis

El modelo estimado es:

donde b0 es 5.4, b1 es 0.016 y b2 es -4.48 segn los resultados, x1 es significativo, pero x2 es significativo al 0.10. El modelo puede quedar en esa forma o reducir el modelo a una sola variable:

Esta reduccin es observada en el R, de 54.3% quedara reducido al 52.9%, que no es una perdida importante.