Вы находитесь на странице: 1из 7

Regresión lineal por cuadrados mínimos 2019

Regresión lineal. Método de cuadrados mínimos

En muchos problemas de ciencia e ingeniería interesa determinar una relación (función) entre dos
conjuntos de datos s (X,Y). Donde, (X,Y)= {(xi,yi, i=1..N}. N es la cantidad de pares de datos.
Por ejemplo:
- en un proceso químico, puede ser importante la relación entre la temperatura del proceso (X) y
la conversión (Y) de cierto reactivo.
- la presión arterial (Y) de una persona depende de su edad (X).
- la ganancia mensual de peso (Y) de un bebé depende del volumen de leche que tome (X)
El análisis de regresión se puede extender al caso general una variable dependiente Y que dependa de
varias variables (X(1,X(2,…X(r). En este curso nos restringiremos al caso más simple en que Y depende de
una sola variable X.
X se denomina variable independiente o también variable controlada, ya que nosotros podemos
establecer sus valores. Y es la variable dependiente.
La relación entre estas variables se puede expresar mediante una fórmula, Y=f(X). La función f(X) se
elegirá de forma de representar adecuadamente la influencia de X sobre Y. Puede ser una función lineal,
un polinomio de grado 2 o más, una función exponencial o trigonométrica, etc.
En este curso veremos las representaciones que llevan a funciones lineales en sus parámetros como la
recta y los polinomios de grado 2 o mayor.
Además, explicaremos cómo representar los datos usando una función exponencial, mediante un proceso
de linealización de parámetros. En cursos más avanzados se tratarán otras representaciones no lineales
en sus parámetros.

Representación de Y=f(X) mediante una recta


Este es el caso denominado regresión lineal simple. Utilizaremos la técnica de “cuadrados mínimos”.
La función o modelo a utilizar será una recta:
f ( X ) = Y = A + BX

Supongamos que tenemos el siguiente conjunto de datos (X, Y): ( x , y ) , i = 1..N 


i i

Estrictamente, cada valor experimental puede representarse como}


yi == A + Bxi + ei
En el siguiente gráfico x-y se muestran los puntos y una posible recta que representa su relación. Además,
se indica la distancia entre uno de los puntos y dicha recta. Esta distancia representa el error de la
predicción del modelo (ei)

1
Regresión lineal por cuadrados mínimos 2019

El objetivo es obtener la “mejor recta” que represente la evolución de los datos. Esto se logra
minimizando las distancias verticales entre el dato y la recta.
EL método de cuadrados mínimos propone utilizar las distancias al cuadrado y minimizar la suma de las
mismas, dividido la cantidad de pares de datos (N) menos 2. Es decir,

N 2 N 2

min  ( yi − ycalculado ) min  ( yi − ( A + Bxi ) )


SS = i =1
= i =1
A, B N −2 A, B N −2

En esta fórmula los datos xi e yi son números (constantes). Lo único que se desconoce son los parámetros
A y B. Las técnicas para obtener el mínimo de esta sumatoria requieren conocimientos de derivadas
parciales, que se estudiarán en Análisis Matemático II. Se requiere plantear las derivadas respecto de A y
de B e igualarlas a cero. Esto es similar a lo que se aprendió en Análisis Matemático I para derivadas para
totales, donde se encontraba el mínimo de y=f(x) dy/dx=0, verificando también que la derivada segunda
sea menor que 0.
En este curso no veremos los detalles de la derivación, solo diremos que al final de este proceso se
obtiene el siguiente sistema lineal de dos ecuaciones con dos incógnitas (A y B):

 N
  N 
 N  xi 
 A 
 yi 
 i =1
   =  i =1 
N  B N 
xi 2      yi xi
N

  xi  
 i =1 i =1   i =1 

Resolviendo por substitución, se obtienen las siguientes expresiones para A y B:


n

xY − Nx y
i i
B= i =1 A=Y −B x
n

x
2
i
2
−Nx
i =1

Ejemplo: Considere los siguientes 10 pares de datos (xi,yi), i=1,...,10, correspondiente a la temperatura de
un reactor (X=) y la conversión de un reactivo (X)

i xi yi i xi yi
1 100 45 6 150 68
2 110 52 7 160 75
3 120 54 8 170 76
4 130 63 9 180 92
5 140 63 10 190 88

2
Regresión lineal por cuadrados mínimos 2019

100
90
80
70

y
60
50
40
90 110 130 150 170 190
x

Ahora obtenemos, con la ayuda de la calculadora o una planilla de cálculos como Excel, los coeficientes
de la matriz y el vector independiente del sistema de ecuaciones planteado.

Cálculos de cuadrados mínimos


i xI yi xi yi xi2
1 100 45 4500 10000
2 110 52 5720 12100
3 120 54 6480 14400
4 130 63 8190 16900
5 140 63 8820 19600
6 150 68 10200 22500
7 160 75 12000 25600
8 170 76 12920 28900
9 180 92 16560 32400
10 190 88 16720 36100
n=10 10 10 10 10
 x i = 1450  y i = 676  xi y i = 102110  xi 2 = 218500
i =1 i =1 i =1 i =1

x = 145 y = 67.6

 10 1450   A  676 
1450 218500  B  = 102110
    

Resolviendo el sistema::
n
 xi Yi − n x Y 102110 − 10  145  67.6
i =1
B= = = 0.4958
n
218500 − 10  (145)2
 xi
2
2
− nx
i =1

A = Y − B x = 67.6 − 0.496  145 = −4.2848

En la siguiente figura se grafica esta recta sobre los datos experimentales:

3
Regresión lineal por cuadrados mínimos 2019

100
y = 0,4958x - 4,2848
90
80
70

y
60
50
40
90 110 130 150 170 190
x

}Representación de Y=f(X) mediante un polinomio de grado 2 o mayor

Se sigue el mismo procedimiento que en el caso de la recta, sólo que habrá más parámetros a estimar.

Por ejemplo, si se representa a los datos con un polinomio de grado 2:

f ( X ) = Y = A + BX + CX 2
La función a minimizar será:
2 2

( y − ( A + Bx + Cx ))
N N

min  min 
( yi − ycalculado ) i i
2
i
SS = i =1
= i =1
A, B, C N −3 A, B, C N −3

donde el valor 3 representa el número de parámetros del polinomio.

Luego de plantear las ecuaciones para las derivadas de SS respecto de A, B y C e igualarlas a 0, resulta un
sistema lineal en dichos parámetros:
 N N
2  N 
 N  xi  xi    yi 
 i =1 i =1
  A   i =1 
N N N
    N

  xi x  xi 3   B  =   yi xi 
2
i
 i =1 i =1 i =1
 C   i =1 
N 2 N N
4 N 2
  xi x   yi xi 
3
i xi 
 i =1 i =1 i =1   i =1 

Este sistema se puede resolver eliminación de Gauss u otro método y así obtener A, B y C.

Ejercicio propuesto: Observando los sistemas de ecuaciones para la el caso de la recta y para el caso del
polinomio de grado 2, plantear por analogía el sistema a resolver para un polinomio de grado 3.

En el siguiente ejemplo, un conjunto de datos se representa por una recta y por un polinomio cuadrático.

4
Regresión lineal por cuadrados mínimos 2019

x y
0 -2
1.5 4
2 6
4 9
6 10

15 12
y = 1.8853x + 0.3096 10
2
10 R = 0.8496 8
6
4 y = -0.4367x2 + 4.5715x - 1.8558

y
y

5
2 R2 = 0.9951
0 0
0 2 4 6 8 -2 0 2 4 6 8
-5 -4
x x

A simple vista se observa que el modelo cuadrático es mejor. A continuación, veremos cómo cuantificar
cuál de los modelos es mejor.

Coeficiente de determinación
Para su cálculo se toman distintas definiciones de varianza como medidas de variación de los datos en sí
mismos y de los datos respecto de la predicción del modelo.
La medición de la variación en el conjunto de valores de respuesta yi (i=1,…N) correspondiente al
conjunto de entradas xi (i=1,…, N) se mide en forma estadística como:
N
SSYY =  ( yi − y)2
i =1

La variación que queda en la respuesta después de descontar la contribución directa de las variables de
entrada a dicha variación se mide como la suma de los errores cuadráticos:
N
SS R =  ( yi − A − B xi )2
i =1

La diferencia entre estas dos expresiones (SSYY –SSR) cuán representativo es el modelo. Esto se debe a
que se está haciendo la diferencia entre la variación total de los datos y la parte de la variación que no
puede representar el modelo.
Se define así el coeficiente de determinación R2 como:
SSYY − SSR
R2 =
SSYY
Este coeficiente toma, en general, valores entre 0 y 1.
Se espera que un modelo sea razonable si R2 se aproxima a 1. En el ejemplo anterior R2=0,8496 para la
recta y R2=0,9951 para el polinomio cuadrático. Por lo tanto, se espera que el modelo cuadrático sea
mejor que el lineal. Esto se corrobora visualmente.
Si dos modelos tienen R2 similares y ambos representan razonablemente el comportamiento de los datos,
es mejor elegir el más simple de ellos. Esto se debe a que luego será más sencillo usar el modelo para
predecir valores de y en puntos distintos a los experimentales. También será más sencillo derivar o
integrar la ecuación.
Un modelo puede tener un R2 cercano a 1 y no representar adecuadamente el comportamiento de los
datos. Por ejemplo, un modelo polinómico de grado alto puede presentar oscilaciones que los datos

5
Regresión lineal por cuadrados mínimos 2019

experimentales no muestren. Por eso es importante la realización del gráfico de dispersión superpuesto a
las predicciones del modelo, antes de elegir dicho modelo.

Coeficiente de determinación y el coeficiente de correlación muestral

Si el modelo Y=f(X) es una línea recta (A+BX), se puede demostrar que está relacionado con el
coeficiente de correlación muestral (r) así:
r = R2
Ejemplo: Si r=0.9, un modelo de regresión lineal simple (recta) explicaría el 81% (R2=0.92) de la variación
en los valores de respuesta.

Transformación a linealidad

En muchos casos la respuesta es obviamente una función no lineal de las variables de entrada.
En algunos casos, como el de la función exponencial, es posible linealizarla y utilizar las ecuaciones de la
regresión lineal simple para la determinación de los parámetros
Por ejemplo, en ciertas aplicaciones ese sabe que W(t), la amplitud de una señal en el tiempo t después
de haber sido originada, está relacionada con t, aproximadamente por la siguiente expresión:
W  ce − dt
tomando logaritmos naturales de ambos miembros:
ln(W )  ln(c) − dt
llamando y= ln(W(t)), = ln(c) y =-d, entonces se podrá tomar un modelo de la forma:
y = A+ B t
Antes de aplicar la técnica de cuadrados mínimos lineales para obtener A y B, se deben transformar los
datos originales.Es decir:

Datos originales: {(t, Wi), i=1...N}

Datos transformados {(t, ln(Wi)), i=1...N}

Con estos últimos datos, se procede a resolver el sistema de ecuaciones:

 N
  N 
 N  t i   ln(Wi )
 A  i =1 
 i =1
  =  
N N
2  B N 
  ti  t i   ln(Wi ) xi 
 i =1 i =1   i =1 

Una vez obtenidos A y B se calculan los parámetros originales:


c = eA d = −B
W = ce − dt

6
Regresión lineal por cuadrados mínimos 2019

En este curso, el modelo exponencial, así como polinomios de alto grado se resolverán con las
herramientas ofrecidas por Excel.

Ejemplo de ajuste de un conjunto de datos con el modelo lineal simple y uno exponencial

Observando el gráfico y los valores de R2, se puede afirmar que modelo exponencial es mucho mejor que
el modelo lineal.

Observación:
En este apunte se han visto los conceptos iniciales de la aplicación práctica de la técnica de cuadrados
mínimos no lineales. El tema es mucho más amplio y la determinación de los parámetros A, B, C…
requiere de un análisis estadístico más sofisticado, que escapa a los alcances de este curso.

Вам также может понравиться