Вы находитесь на странице: 1из 13

MODULO 3

REGRESIN LINEAL

El objetivo de este mdulo es revisar el anlisis de la regresin lineal, con enfoque en la


formulacin del algebra de matrices y las rutinas MATLAB para la regresin lineal. Despus de
revisar este mdulo el lector debe ser capaz de:

Formular una solucin utilizando el lgebra de matrices para un problema de mnimos


cuadrados.
Usar la rutina polyfit del Matlab para encontrar un ajuste polinomial de datos.
Usar la rutina polyval del Matlab para evaluar un polinomio.

3.1. MOTIVACIN

Los modelos desarrollados en este texto requieren los valores de muchos parmetros tales como
coeficientes de velocidades de reaccin, etc. Es comn utilizar la regresin lineal (tambin conocida
como anlisis lineal por mnimos cuadrados) para estimar los valores de estos parmetros. Para
ilustrar los principios bsicos del anlisis por regresin lineal, consideremos primero la ecuacin de
una lnea.
Consideremos los datos mostrados como crculos abiertos en la figura 3.1.Deseamos encontrar una
recta que proporcione el mayor ajuste de los datos.

Figura 3.1. Datos experimentales y prediccin del modelo lineal

xi yi
Asignamos que representa la variable independiente y representa la variable
yi
dependiente, para el i-simo punto de los datos experimentales. Tambin, representa un modelo
de prediccin de la variable dependiente, dado el valor experimental de la variable independiente,
xi
. Los conjuntos de variables dependientes e independientes pueden representar como vectores:

III.1
x1 y1
x y
x 2 , y 2
M M

xN yN

que se pueden escribir de la siguiente manera, para minimizar espacio:

xT x1 x2 K xN
y T y1 y2 K y N

donde T representa la operacin transpuesta.

Dado un conjunto de datos experimentales, x e y, deseamos encontrar los parmetros que


permitan que el modelo ajuste mejor los datos experimentales. Para un buen ajuste de los datos, es
y ax b
necesario minimizar la diferencia entre los datos y la prediccin del modelo ( ). Nuestra
primer tarea consiste en encontrar los parmetros a y b del modelo, de modo que la suma de los
valores absolutos de los errores sea minimizada. Aqu hemos definido el error como la diferencia
entre el valor experimental y la prediccin del modelo. Es decir, nuestro objetivo es encontrar los
valores de a y b, tal que la sumatoria de la ecuacin siguiente sea minimizada:

y1 y1 y2 y 2 y3 y3 y4 y 4 y5 y5
(3.1)
La principal desventaja de este enfoque es que no hay una forma simple, que de una solucin
analtica a este problema. Un enfoque alternativo es minimizar la suma de los cuadrados de los
errores. Es decir, encontrar a y b, tal que la ecuacin siguiente sea minimizada
y1 y1 y2 y 2 y3 y3 y4 y 4 y5 y5
2 2 2 2 2

(3.2)
Para N puntos de datos, podemos representar (3.2) utilizando la notacin ms compacta:
N

y y
2
i i
i 1
(3.3)
Adems la solucin analtica que se seguiremos tendr, otra ventaja de la formulacin de la suma de
los cuadrados es que los errores grandes se penalizan en mayor medida que los pequeos errores.

3.2. SOLUCIN POR MNIMOS CUADRADOS PARA UNA RECTA

Utilizando notacin de optimizacin, nos referimos a la ecuacin (3.3), como la funcin objetivo.
Deseamos encontrar los valores de a y b (conocidos como variables de decisin) que minimicen la
funcin objetivo. Establecemos que f(a,b) representa la funcin objetivo:

III.2
N
f a, b yi yi
2

i 1
(3.4)
yi a xi b
y puesto que :
N
f a, b yi a xi b
2

i 1
(3.5)
Sabemos del clculo la condicin necesaria para el mnimo de una funcin con respecto a una
f a, b
variable. El mnimo de se satisface con las ecuaciones:
f a, b
0
a

(3.6)
f a, b
0
b
(3.7)
De (3.6)
f a, b N
2 yi axi b xi 0
a i 1
(3.8)
y de (3.7):
f a, b N
2 yi axi b 0
b i 1
(3.9)
Retirando el valor constante -2, encontramos que (3.8) y (3.9) pueden escribirse como (3.10) y
(3.11):
N

y x ax
i 1
i i i
2
bxi 0

(3.10)
N

y ax b 0
i 1
i i

(3.11)
A partir de aqu, multiplicando ambos miembros por -1, en ambas ecuaciones; el juego de
ecuaciones normales ser retirando los parmetros a y b de las sumatorias:
N N N
b xi a xi2 yi xi
i 1 i 1 i 1

(3.12)

III.3
N N
a xi b N yi
i 1 i 1
(3.13)
Notar que tenemos dos ecuaciones (3.12) y (3.13) y dos incgnitas (a y b); N, es el tamao de la
muestra. Ordenando las ecuaciones (3.12) y (3.13):
N N
bN a xi yi
i 1 i 1
N N N
b xi a xi2 yi xi
i 1 i 1 i 1

Los coeficientes a y b pueden ser estimados por medio de los determinantes:

N
N y i 1
i

N N N N N

xi
i 1
yi xi
i 1
N yi xi xi yi
a N
i 1 i 1 i 1
2
N
N
N xi N x xi 2
i
i 1 i 1 i 1
N N

x x
i 1
i
i 1
2
o

N N

y
i 1
i x
i 1
i

N N N N N N

yi xi
i 1
x
i 1
i
2
y x x y x
i i
2
i i i
b N
i 1 i 1 i 1 i 1
2
N
N
N x i N x x
i
2
i
i 1 i 1 i 1
N N

xi
i 1
x
i 1
2
i

Tambin podemos resolver fcilmente para b en trminos de a partir de (3.13) para obtener:
N N
1 1
b
N N
y a x
i 1
i
i 1
i

(3.14)
Desde luego, vemos que los trminos en (3.14) no son ms que los valores medios de y y x:

III.4
N
1
y
N
yi 1
i

N
1
x
N
xi 1
i

b y ax
de modo que: (3.15)
Sustituyendo (3.15) en (3.12) encontramos:
N N
y ax Nx a xi2 yi xi
i 1 i 1
(3.16)
N N
Nx y Nax 2 a xi2 yi xi
i 1 i 1

N N
a N x 2 xi2 yi xi N x y
i 1 i 1
(3.17)
que conduce a:
N

y x N x y
i i

a i 1

N



x N x
i 1
2
i
2

(3.18)
y b puede ser determinado de (3.15)

3.3. SOLUCIN PARA LA ECUACIN DE UNA RECTA USANDO NOTACIN


MATRIZ- VECTOR

El modelo de prediccin de cada variable dependiente puede escribirse como:


yi a xi b
(3.19)
el cual puede escribirse en la forma de matriz-vector, para N datos, como:

y1 x1 1
y 1 a
2 x2
... ... ... b

y N x3 1
( N 1) ( N 2) (2 1)

(3.20)

III.5
y puede verse que el dimensionamiento de las matrices y vectores es consistente. Utilizando
notacin compacta matriz-vector, escribimos la ecuacin (3.20) como:

Y
(3.21)
La funcin objetivo es
N
f () ( yi yi ) 2
i 1

(3.22)
la que podemos escribir como:

]T [Y Y
f () [Y Y ]
{ 14 2 43 14 2 43
(11) (1 N ) ( N 1)

(3.23)
donde:

y1 y1

y2 y2
YY
...

y N y N N 1

]T y y
[Y Y y2 y 2 ... y N y N 1 N
1 1

luego:
y1 y1
y y
] y y
]T [ Y Y
[Y Y y2 y 2 ... y N y N 1 N 2
2
1 1
...

y N y N N 1

La expresin general de optimizacin es entonces:


]T [Y Y
f ( ) [ Y Y ]
Minimizar:

Y (3.21)
Sujeta a:

f ()
donde es la funcin objetivo, es el vector que contiene las variables de decisin, y (3.21) es
la restriccin de igualdad. Puesto que las ecuaciones de restriccin son lineales (en este caso) y son
restricciones de igualdad y la funcin objetivo es cuadrtica, existe una solucin analtica para este
problema. La solucin es (Edgar and Himmelblau, 1988):

III.6
= ( T) 1 T Y
(3.24)
Dnde:
x x2 ... xN
T 1
1 1 ... 1 2 N

Anlisis:
[ T ]212 T2 N R 2 N
a
R 2 N Y
N 1 [ ]21
b 21

3.4. GENERALIZACIN DE LA TCNICA DE REGRESIN LINEAL

Debe tenerse en cuenta que el nico requerimiento para la estimacin de parmetros ( a y b)


utilizando la solucin por mnimos cuadrados (3.24) es que el modelo debe ser lineal con respecto a
los parmetros. No hay limitacin para las funcionalidades con respecto a las variables
independientes (x1, x2, x3 y x4). Como un ejemplo considere la funcin:
y ax1 bx22 c ln x3 d e x4

donde las x son las variables independientes. Los k-simos datos puntos se representan como:
y(k ) ax1 ( k ) bx2 (k ) 2 c ln x3 ( k ) d e x4 ( k )

que pueden escribirse como:


y (k ) (k )T

donde:
( k )T [ x1 ( k ) x2 (k )2 ln x3 (k ) e x4 ( k ) ]
,
T
[a b c d ]

Ahora, para el sistema de N datos punto podemos escribir:



Y

donde:
y (1) (1)T a
y(2) b
(2)T
Y

... ... c
T
y( N ) (N ) d

III.7
La solucin a este problema es la ecuacin (3.24) y la generalizacin para cualquier sistema que es
lineal en los parmetros es clara. Una formulacin comn es el ajuste por mnimos cuadrados de un
polinomio.
Considere una ecuacin polinmica general de n-orden, donde pi es un parmetro
(coeficiente) a ser encontrado como el mejor ajuste de los datos (con slo una variable de estado):
y p1 x n p2 x n 1 ... pn x pn 1

El vector de parmetros es:

p1
p
2
...

pn
pn 1
N 1

La matriz de funciones de la variable independiente es:

x (1) n x (1) n 1 ... x(1) 1



x(2) n x(2) n 1 ... x (2) 1

... ... ... ... ...

x( N )
n
x ( N ) n1 ... x( N ) 1 N ( n 1)

El vector de la variable medida es:

y (1)
y (2)
Y
...

y ( N ) N 1

donde x(i) y y(i) representan respectivamente las variables independiente y dependiente en los i-
simos datos punto. La solucin a este problema es la ecuacin (3.24):

= ( T) 1 T Y
(3.24)

3.5 RUTINAS MATLAB polyfit y polyval.

III.8
La rutina MATLAB polyfit es utilizada para ajustar datos a un polinomio de orden n, y la
rutina polyval es utilizada para evaluar un polinomio de orden n. Sean x = vector de la variable
independiente, y = vector de variable dependiente, y n = el orden del polinomio. El mejor ajuste de
coeficientes del polinomio se encuentra a partir de:

p = polyfit(x,y,n)

donde los elementos del vector p son ordenados de la potencia ms alta a la ms baja. Dados un
polinomio p y un vector independiente x1, el vector dependiente resultante y1 puede encontrarse a
partir de:

yl = polyval(p,xl)

Mostramos el uso del polyfit y polyval mediante el ejemplo 3.1.

Ejemplo M3.1 Reactor Batch

AB
Considere un reactor batch con una reaccin de primer orden, . El modelo es:

dC A
kdt
dt

CA k t
donde = concentracin de A, constante de velocidad, y = tiempo. Separando las variables e
integrando:

dC A
k dt
CA
CAdC A t
CA 0 C
A
k dt
0

ln C A ln C A 0 kt
ln C A ln C A0 kt

C A0
donde es la concentracin inicial de A. Tener en cuenta que la ecuacin es lineal. Si hacemos
que:

III.9
y ln C A
p 1 k
p 2 ln C A0

tenemos la forma:
y p 1 t p 2

Ahora usamos polyfit para encontrar el mejor ajuste lineal de los datos. Los datos del reactor
batch se muestran en la tabla 3.1 y la figura 3.2.

Tabla 3.1 Concentracin en funcin del tiempo


Tiempo, min 0 1 2 3 4 5
CA,kmol/m3 8,47 5,00 2,95 1,82 1,05 0,71

Figura 3.2. Data del reactor batch. Concentracin de A como funcin del tiempo

III.10
Los mismos valores de los parmetros pueden obtenerse de la ecuacin (3.24) mediante el siguiente
procedimiento:

Los parmetros de la regresin lineal se convierten de nuevo en parmetros fsicos:

k p 1 0,502 min 1
C A0 exp( p(2)) 8, 24 kmol / m3

Ahora, queremos comparar los datos experimentales con la mejor recta de ajuste (modelo). La lnea
se genera utilizando la funcin polyval. El modelo y experimento se comparan en la Figura 3.3.

III.11
Figura 3.3. Ploteo semilogartmico de la data de concentracin y mejor ajuste de recta

Tambin se quiere comparar los datos experimentales con el modelo en una grfica concentracin-
tiempo.

Los datos y el modelo se comparan en la Figura 3.4.

La constante de velocidad se ha evaluado a una sola temperatura. Puede ser evaluada a


diferentes temperaturas y en tal caso, la regresin lineal puede utilizarse para evaluar las constantes
de Arrhenius (factor de frecuencia y energa de activacin).

III.12
Figura 3.4.Data de concentracin y su modelo como una funcin del tiempo

III.13

Вам также может понравиться