Академический Документы
Профессиональный Документы
Культура Документы
La Regresin lineal se refiere a la prediccin del valor de una variable a partir de una o ms variables.
En ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la variable
independiente (x) variable de prediccin.
En muchos problemas hay dos o ms variables inherentemente relacionadas, y es necesario explorar
la naturaleza de esta relacin. El anlisis de regresin puede emplearse por ejemplo para construir
un modelo que exprese el rendimiento como una funcin de la temperatura. Este modelo puede
utilizarse luego para predecir el rendimiento en un nivel determinado de temperatura. Tambin puede
emplearse con propsitos de optimizacin o control del proceso.
Comenzaremos con el caso ms sencillo, la prediccin de una variable (y) a partir de otra variable
(x).
REGRESIN LINEAL SIMPLE
Para las situaciones siguientes establezca cual es la variable dependiente y cual es la independiente.
a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de
sus salarios mensuales.
Solucin: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por
un maestro, y la variable independiente o variable de prediccin es el salario anual del docente.
b) El gerente de un restaurante quiere estimar el nmero de clientes que puede esperar cierta
noche a partir del nmero de reservaciones para cenar recibidas hasta las 5:00 PM
Solucin: El nmero de clientes es la variable de respuesta, el nmero de reservaciones es la
variable independiente.
Supuestos para el modelo de regresin lineal1
1. Para cada valor de x, la variable aleatoria
se distribuye normalmente.
es 0; esto es,
2
E 0 .
Pgina 1
Ejemplo 1:
En el marco de la Segunda Especializacin en Monitoreo Ambiental de la Universidad Nacional
Altiplnica de Puno, con fecha 28 de junio de 2013, los participantes del curso tomaron muestras del
Ro Choquene en diversos puntos y obtuvieron los siguientes resultados para Ca y Mg:
SITIOS
PM-01
PM-02
PM-03
PM-04
PM-05
PM-06
PM-07
PM-08
PM-09
PM-10
DESCRIPCIN
BOFEDAL
PIEZMETRO
RIO VISCACHANI
RIO CHOQUENE
RIO WILALACAYA
LADO RIO WILALACAYA
RIO CHOQUENE
TRIBUTARIO RIO CHOQUENE
RIO CHOQUENE
RIO PROVENIENTE TOCOTOCO
NORTE
8372157
8371618
8367709
8367173
8367170
8367095
8366360
8365945
8364474
8363253
ESTE
Ca (mg/L) Mg (mg/L)
427268
19,10
39,66
427366
17,40
34,89
427645
184,00
21,03
427452
128,00
27,84
427435
41,30
7,83
427444
4,15
1,97
428410
45,90
10,21
429290
97,90
12,37
429806
70,30
13,31
429909
49,40
10,64
Grfico de dispersin
45,00
40,00
Mg (mg/L)
35,00
30,00
25,00
20,00
15,00
10,00
5,00
0,00
0,00
50,00
100,00
Ca (mg/L)
Pgina 2
150,00
200,00
Donde
y = variable dependiente
0 ordenada al origen
= pendiente
x = variable independiente
= Error aleatorio
determinstica.
La diferencia principal entre un modelo probabilstico y uno determinstico es la inclusin de un
trmino de error aleatorio en el modelo probabilstico. En el ejemplo las diferentes concentraciones
de Mg para una misma concentracin de Ca, se atribuyen al trmino de error en el modelo de
regresin.
y
b0 =
b1=
0 (ordenada al origen)
Estimador puntual de 1. (pendiente)
Estimador puntual de
SS x
x
x
n
SS y
y
y
n
SS xy xy
x y
n
Pgina 3
b1
SS xy
SS x
b0 y b1 x
Donde:
SS = suma de cuadrados
b1 = pendiente
b0 = ordenada al origen
n = nmero de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el clculo de las frmulas.
SITIOS
PM-01
PM-02
PM-03
PM-04
PM-05
PM-06
PM-07
PM-08
PM-09
PM-10
DESCRIPCIN
Ca (mg/L) Mg (mg/L)
BOFEDAL
19,10
39,66
PIEZMETRO
17,40
34,89
RIO VISCACHANI
184,00
21,03
RIO CHOQUENE
128,00
27,84
RIO WILALACAYA
41,30
7,83
LADO RIO WILALACAYA
4,15
1,97
RIO CHOQUENE
45,90
10,21
TRIBUTARIO RIO CHOQUENE
97,90
12,37
RIO CHOQUENE
70,30
13,31
RIO PROVENIENTE TOCOTOCO
49,40
10,64
SUMAS
657,45
179,75
MEDIAS
65,75
17,98
x
364,81
302,76
33856,00
16384,00
1705,69
17,22
2106,81
9584,41
4942,09
2440,36
71704,15
Calculando b0 y b1 tenemos:
= 71704,15
657,45
= 28480,10
10
= 4620,34
179,75
= 1389,33
10
= 12270,01
=
657,45 179,75
= 452,35
10
452,35
= 0,0159
28480,10
= 16,93 + 0,0159
Pgina 4
y
1572,92
1217,31
442,26
775,07
61,25
3,90
104,24
153,02
177,16
113,21
4620,34
xy
757,51
607,09
3869,52
3563,52
323,21
8,19
468,64
1211,02
935,69
525,62
12270,01
Grfico de dispersin
45,00
40,00
y = 0,0159x + 16,93
Mg (mg/L)
35,00
30,00
25,00
20,00
15,00
10,00
5,00
0,00
0,00
50,00
100,00
150,00
200,00
Ca (mg/L)
Error
Los errores se denominan frecuentemente residuales. Podemos observar en la grfica de
regresin los errores indicados por segmentos verticales.
Grfico de dispersin
45,00
40,00
y = 0,0159x + 16,93
Mg (mg/L)
35,00
30,00
25,00
20,00
15,00
10,00
5,00
0,00
0,00
50,00
100,00
150,00
Ca (mg/L)
Pgina 5
200,00
Al usar el criterio de mnimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos,
podemos obtener el valor mnimo para la suma de cuadrados del error (SSE)
SSE SS y b1 SS xy
A la varianza de los errores e se le llama varianza residual siendo denotada por Se2, se encuentra
dividiendo SSE entre n-2
S e2
SSE
n2
La raz cuadrada positiva de la varianza residual se llama error estndar de estimacin y se denota
por Se.
=+
Aplicando las frmulas al ejemplo, obtenemos la suma de cuadrados del error, la varianza residual
y el error estndar de la estimacin:
= 1389,33 0,0159 452,35 = 1382,14
=
1382,14
= 172,77
8
172,77 = 13,14
Ejemplo 2: Durante una segunda campaa de muestreo, realizada el 28 de septiembre de 2013, los
participantes de la Segunda Especializacin de Monitoreo Ambiental, recuperaron los siguientes
datos de concentracin de Ca y Mg:
SITIOS
PM-01
PM-02
PM-03
PM-04
PM-05
PM-06
PM-07
PM-09
PM-10
DESCRIPCIN
BOFEDAL
PIEZMETRO
RIO VISCACHANI
RIO CHOQUENE
RIO WILALACAYA
LADO RIO WILALACAYA
RIO CHOQUENE
RIO CHOQUENE
RIO PROVENIENTE TOCOTOCO
Ca (mg/L)
36,10
73,10
188,00
211,00
65,30
12,90
84,10
79,40
56,10
Mg (mg/L)
79,44
45,67
21,41
23,49
11,70
6,47
14,02
13,55
11,34
Encuentre:
a)
b)
c)
d)
Pgina 7
SITIOS
PM-01
PM-02
PM-03
PM-04
PM-05
PM-06
PM-07
PM-09
PM-10
DESCRIPCIN
Ca (mg/L)
BOFEDAL
PIEZMETRO
RIO VISCACHANI
RIO CHOQUENE
RIO WILALACAYA
LADO RIO WILALACAYA
RIO CHOQUENE
RIO CHOQUENE
RIO PROVENIENTE
TOCOTOCO
SUMAS
MEDIAS
Mg (mg/L)
x2
y2
xy
36,10
73,10
188,00
211,00
65,30
12,90
84,10
79,40
79,44
45,67
21,41
23,49
11,70
6,47
14,02
13,55
1303,21
5343,61
35344,00
44521,00
4264,09
166,41
7072,81
6304,36
6310,71
2085,75
458,39
551,78
136,89
41,86
196,56
183,60
2867,78
3338,48
4025,08
4956,39
764,01
83,46
1179,08
1075,87
56,10
806,00
89,56
11,34
227,09
25,23
3147,21
107466,70
128,60
10094,14
636,17
18926,32
= 35284,92
= 4364,15
= 1410,85
= 0,0400
= 28,814
= 4307,72
= 615,39
= 28,814 0,0400
a)
b)
c)
d)
e)
b0 =28,814
b1 =-0,0400
S e2 = 615,39
28,814 - 0,0400x70 = 26,014 mg/L
28,814 0,0400x155 = 22,614 mg/L
Anlisis de correlacin
Establece si existe una relacin entre las variables y responde a la pregunta, Qu tan evidente es
esta relacin?.
La correlacin es una prueba fcil y rpida para eliminar factores que no influyen en la prediccin,
para una respuesta dada.
Coeficiente de Correlacin de Pearson
Pgina 8
Un valor positivo indica que cuando una variable aumenta, la otra variable aumenta
Un valor negativo indica que cuando una variable aumenta, la otra disminuye
Si las dos variables no estn relacionadas, el coeficiente de correlacin se aproxima a 0.
SSxy
SSxSSy
Tabla de Correlacin
Por su importancia, cul es el coeficiente mnimo de correlacin?
n
3
4
5
6
7
8
9
10
11
12
13
14
95%
de confianza
1.00
0.95
0.88
0.81
0.75
0.71
0.67
0.63
0.60
0.58
0.53
0.53
99%
de confianza
1.00
0.99
0.96
0.92
0.87
0.83
0.80
0.76
0.73
0.71
0.68
0.66
n
15
16
17
18
19
20
22
24
26
28
30
95%
de confianza
0.51
0.50
0.48
0.47
0.46
0.44
0.42
0.40
0.39
0.37
0.36
99%
de confianza
0.64
0.61
0.61
0.59
0.58
0.56
0.54
0.52
0.50
0.48
0.46
Pgina 9
Correlacin Negativa
Evidente
25
20
20
15
15
10
Correlacin Positiva
Evidente
25
10
5
Sin Correlacin
0
0
10
15
20
25
0
0
10
25
15
20
25
20
15
25
Correlacin
Positiva
10
Correlacin
Negativa
5
0
0
20
10
15
20
25
25
20
15
Y
15
10
10
5
5
0
0
10
15
20
25
10
15
20
25
Ejemplo 3: Para los datos del Ejemplo 1, calcule el coeficiente de Pearson, interprete el resultado e
indique si se puede utilizar la ecuacin de regresin con un 95% de confianza.
= 452,35
= 28480,10
= 1389,33
=
452,35
= 0,0719
28480,10
1389,33
Grfico de dispersin
Mg (mg/L)
45,00
40,00
y = 0,0159x + 16,93
35,00
30,00
25,00
20,00
15,00
10,00
5,00
0,00
0,00
50,00
100,00
Ca (mg/L)
Pgina 10
150,00
200,00
Pgina 11
Pgina 12
Anlisis de residuos: muestra los pronsticos y residuos para cada observacin, as como
el grfico de residuales, en el cual observamos inconsistencias ya que la mayora de los
puntos se encuentran alejados de la curva de regresin.
Pgina 13