Академический Документы
Профессиональный Документы
Культура Документы
Regresión y Correlación
por
Lic. Olga Susana Filippini
1
Introducción
Muchas veces las decisiones se basan en la relación entre
dos o más variables.Ejemplos
250
Rendimiento
200
150
Rend.
100
50
0
0 20 40 60 80 100 120 140
Dosis
1 60
Horas hombre
1 40
1 20
1 00
80
Horas hombre
60
40
20
0 10 20 30 40 50 60 70 80 90
6000
5000
4000
3000
2000
1000
0
0 2 4 6 8 10 12 14 16
9
Coeficiente de correlación
lineal
El Coeficiente de Correlación (r)
requiere variables medidas en escala de
intervalos o de proporciones
– Varía entre -1 y 1.
– Valores de -1 ó 1 indican correlación perfecta.
– Valor igual a 0 indica ausencia de correlación.
– Valores negativos indican una relación lineal
inversa y valores positivos indican una relación
lineal directa
10
Correlación Negativa Perfecta
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X 11
Correlación Positiva Perfecta
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X 12
Ausencia de Correlación
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X 13
Correlación Fuerte y Positiva
10
9
8
7
6
Y 5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X 14
Fórmula para el coeficente de
correlación (r) Pearson
n(ΣXY) (ΣX)(ΣY)
r=
[n(ΣX ) (ΣX) ][n(ΣY ) (ΣY) ]
2 2 2 2
15
Modelos de Regresión
16
Modelos de Regresión
17
Representación gráfica del
modelo de Regresión Lineal
19
Supuestos de Regresión Lineal
Clásica
• Cada error está normalmente distribuido
con:
– Esperanza de los errores igual a 0
– Variancia de los errores igual a una constante
2.
– Covariancia de los errores nulas para todo
ij
20
Proceso de estimación de la regresión lineal simple
Modelo de regresión Datos de la muestra
y=0+1x+ x y
x1 y1
Ecuación de regresión x2 y2
E(y)=0+1x . .
Parámetros desconocidos . .
0.1 . .
xn yn
Ecuación estimada de
b0 y b1 regresión
y=b0+b1x
proporcionan estimados Estadísticos de la muestra
0 y 1 b0.b1
21
Líneas posibles de regresión en la
regresión lineal simple
Sección A Sección B Sección C
Relación lineal positiva Relación lineal negativa No hay relación
Ey Ey Ey
La pendiente 1
Línea de regresión * es negativa
La pendiente 1
es 0
* La pendiente 1 *
es positiva Línea de regresión Línea de regresión
x x x
* Ordenada al origen 0
22
Estimación de la ecuación de
Regresión Simple
Y’= a + bX, donde:
Y’ es el valor estimado de Y para distintos X.
a es la intersección o el valor estimado de Y cuando X=0
b es la pendiente de la línea, o el cambio promedio de Y’
para cada cambio en una unidad de X
el principio de mínimos cuadrados es usado para obtener a
y b:
n( XY ) ( X )( Y )
b
n( X 2 ) ( X ) 2
Y X
a b 23
n n
Mínimos cuadrados - Supuestos
1. El modelo de regresión es lineal en los parámetros.
2. Los valores de X son fijos en muestreo repetido.
3. El valor medio de la perturbación i es igual a cero.
4. Homocedasticidad o igual variancia de i.
5. No autocorrelación entre las perturbaciones.
6. La covariancia entre i y Xi es cero.
7. El número de observaciones n debe ser mayor que
el número de parámetros a estimar.
8. Variabilidad en los valores de X.
9. El modelo de regresión está correctamente
especificado.
10. No hay relaciones lineales perfectas entre las
explicativas. 24
Estimación de la variancia de los
términos del error (2)
Debe ser estimada por varios motivos
• Para tener una indicación de la variabilidad
de las distribuciones de probabilidad de Y.
• Para realizar inferencias con respecto a la
función de regresión y la predicción de Y.
• La lógica del desarrollo de un estimador de
2 para el modelo de regresión es la misma
que cuando se muestrea una sola población
• La variancia de cada observación Yi es 2, la
misma que la de cada término del error
25
Estimación de la variancia de los
términos del error (2)
Dado que los Yi provienen de diferentes distribuciones
de probabilidades con medias diferentes que
dependen del nivel de X, la desviación de una
observación Yi debe ser calculada con respecto a su
propia media estimada Yi.
Por tanto, las desviaciones son los residuales
Yi - Ŷi = ei
Y la suma de cuadrados es:
n n n
SC (Y Ŷ ) (Y a bX ) e
e i i
2
i 1
2 2
i
i 1 i 1 i 1
26
Estimación de la variancia de los
términos del error (2)
La suma de cuadrados del error, tiene n-2 grados de
libertad asociados con ella, ya que se tuvieron que
estimar dos parámetros.
Por lo tanto, las desviaciones al cuadrado dividido por
los grados de libertad, se denomina cuadrados medios
n 2
SC e
CM e i 1 i
n2 n2
e
27
Análisis de Variancia en el análisis
de regresión
El enfoque desde el análisis de variancia se basa en
la partición de sumas de cuadrados y grados de
libertad asociados con la variable respuesta Y.
La variación de los Yi se mide convencionalmente
en términos de las desviaciones
(Y Y )
i i
Y i
Y (Ŷi Y) (Yi Ŷi )
T R E
(T): desviación total
(R): es la desviación del valor ajustado por la
regresión con respecto a la media general
(E): es la desviación de la observación con respecto
a la línea de regresión
29
Desarrollo formal de la partición
Si consideremos todas las observaciones y elevamos al
cuadrado para que los desvíos no se anulen
Y Y (Ŷ Y) (Y Ŷ )
2 2 2
i i i i
Coeficiente de Determinación, R2 - es la
proporción de la variación total en la
variable dependiente Y que es explicada o
contabilizada por la variación en la variable
independiente X.
– El coeficiente de determinación es el
cuadrado del coeficiente de correlación, y
varia entre 0 y 1.
31
Cálculo del R2 a través de la
siguiente fórmula
( ŷ y ) 2
R
2 c
( y y)
2
o
32
Inferencia en Regresión
• Los supuestos que establecimos sobre los
errores nos permiten hacer inferencia sobre
los parámetros de regresión (prueba de
hipòtesis e intervalos de confianza), ya que
los estimadores de 0 y 1 pueden cambiar su
valor si cambia la muestra.
• Por lo tanto debemos conocer la distribución
de los estimadores para poder realizar
prueba de hipòtesis e intervalos de confianza
33
Ejemplo
Se desean comparar los rendimientos predichos a partir de la
información obtenida por 3 sensores sobre los rendimientos
reales por parcelas de lotes de maíz. Los rendimientos (Y) y el
los rindes predichos de 4 sensores se presentan a continuación
Sensor 1 Sensor 4 Sensor 5 Rendimiento
0,0754 0,3083 0,1212 42,5846
0,0754 0,3083 0,1212 43,8576
0,0742 0,3327 0,1328 44,0082
0,0766 0,3327 0,1251 43,4989
0,0766 0,3297 0,1251 41,3327
0,0730 0,3205 0,1193 41,0313
0,0754 0,3114 0,1193 40,4802
0,0766 0,2901 0,1193 36,6735
0,0754 0,3449 0,1328 43,3535
0,0754 0,3480 0,1193 43,3180
0,0766 0,3480 0,1193 43,3143
0,0766 0,3419 0,1135 41,0042
0,0766 0,2840 0,1135 36,4908
0,0766 0,3053 0,1193 37,5931
0,0754 0,3266 0,1232 40,4556
0,0766 0,2840 0,1135 35,5595
0,0754 0,3358 0,1232 41,6400
0,0742 0,3419 0,1251 43,5951
45,95
PRED_Rendimiento
38,41
30,87
23,33
15,79
0,078 0,092 0,107 0,121 0,135
B5
Rendimiento
PRED_Rendimiento
Y = 338.71*X - 4.87 35
R2 = 0.32
Título
45,95
PRED_Rendimiento 38,41
30,87
23,33
15,79
0,22 0,26 0,30 0,34 0,37
B4
Rendimiento
PRED_Rendimiento
Y = 155.37*X – 13.25
36
R2 = 0.57
Título
45,95
PRED_Rendimiento
38,41
30,87
23,33
15,79
0,071 0,076 0,081 0,087 0,092
B1
Rendimiento
PRED_Rendimiento
Y = -1004.34*X +112.24
R2 = 0.44 37