Вы находитесь на странице: 1из 33

Tema 4: Regresión lineal.

Calibración

Relación entre dos variables


Método de mínimos cuadrados
Validación y evaluación del modelo
Predicción a partir del modelo
Anexo: algunos detalles importantes

EAIQ (GQ) · Tema 4


Relación entre dos variables
¿Qué tienen en común las siguientes gráficas?

EAIQ (GQ) · Tema 4


- En todos los casos, hay dos variables relacionadas.
señal

EAIQ (GQ) · Tema 4 tiempo de retención


Según estén sometidas o no a error aleatorio, la
dependencia o relación entre dos variables puede ser:
 Funcional: ninguna variable tiene error aleatorio.
 Regresión: sólo una variable tiene error aleatorio.
 Correlación: ambas variables tienen error
aleatorio.
Generalmente, las calibraciones experimentales se
ajustan a una relación de tipo regresión, que
presupone una distribución normal para la variable
sometida a error aleatorio.

EAIQ (GQ) · Tema 4


Definiciones:
♣ Variable aleatoria o variable dependiente o
variable respuesta: es la que está sometida a
errores aleatorios.
♣ Variable independiente o variable predictora o
variable explicativa: es la que origina -causa,
explica- los valores de la otra variable. Es la que
está controlada por el experimentador, bien
porque sus valores son conocidos (fijos), bien
porque pueden ser seleccionados de antemano.
No tiene errores aleatorios, sino valores fijos.
Estrictamente: el error de una de las variables es
despreciable frente al de la otra.
EAIQ (GQ) · Tema 4
Dependiendo de si se fijan o no los valores de la
variable independiente, se puede hacer un análisis de
regresión o de correlación.
Ejemplo: estudiar el peso de los alumnos en relación con su
altura:
 si se fijan de antemano distintas alturas: regresión.
 si no se fijan: correlación.
Objetivo del análisis de regresión: obtener una
expresión matemática que representa la relación
entre dos variables y luego utilizar dicha relación para
predecir el valor de una variable a partir de un valor de
la otra. Una variable se expresa condicionada al valor
de la otra:
Variable r espuesta = f (var iable exp licativa )
EAIQ (GQ) · Tema 4
La aplicación más importante: calibración:
variable independiente: suele ser la concentración
de la sustancia que se analiza (analito).
variable dependiente: señal que proporciona el
instrumento, y que se debe a la concentración.
Dos tipos de calibración: instrumental y metodológica.
a) Calibración instrumental: ajuste del instrumento
para que funcione correctamente. Con materiales
sin analito. Lo hace el fabricante o instalador.
b)Calibración metodológica (“calibración”): es la
regresión de la variable dependiente (“Y”) sobre
la independiente (“X”). Con patrones (materiales
con analito en concentración conocida).
EAIQ (GQ) · Tema 4
Cuando dos variables están relacionadas mediante una
relación de regresión, esa relación puede tomar
distintas representaciones gráficas:
 línea recta (“regresión lineal (simple)”).
 línea curva (más o menos “complicada”).
 no paramétrica (a partir de los datos).
 ...
Idea fundamental:
Buscar la línea que mejor se adapta a los datos,
¡NO AL REVÉS!
(no hacer que los datos estén sobre la línea)
EAIQ (GQ) · Tema 4
Suele interesar encontrar una línea recta (ecuación
paramétrica de la recta) porque:
las conclusiones son más fáciles de obtener.
el ajuste es más sencillo (y más fácil de dibujar).
es frecuente que haya un soporte teórico para esa
línea recta.
Ejemplo: transformaciones de los datos para conseguir
la linealidad.

S => 10S:

EAIQ (GQ) · Tema 4


S => log S:

Esa línea recta se puede obtener de distintas formas:


“a ojo”, solución gráfica (¡no despreciar!).
hallar la pendiente de la recta como ∆Y / ∆X, y la
ordenada en el origen por el punto de corte.
procedimientos sistemáticos. Entre ellos, el más
empleado: método de minimización de la
varianza (“Método de Mínimos Cuadrados”).
EAIQ (GQ) · Tema 4
Método de mínimos cuadrados
La relación entre la variable dependiente (“Y”) y la
variable independiente (“X”) se puede expresar de
forma genérica como:
Y = β0 + β1 X + β2 X2 + β3 X3 + ... + βnXn
donde los βi son coeficientes del modelo.
Cuando la relación entre variables se puede
representar por medio de una línea recta, basta con
determinar sólo los dos primeros términos, en los que:
β0: ordenada en el origen o intercepto (“α”, “a”).
β1: pendiente o coeficiente de regresión, razón de
cambio en Y al cambiar X en una unidad (“β”,“b”).
EAIQ (GQ) · Tema 4
Para aplicar correctamente el modelo de regresión
por mínimos cuadrados, se deben cumplir una serie de
hipótesis básicas:
 linealidad: la función de regresión es una línea
recta: Y =α +β·X +ε
α y β son parámetros desconocidos.
 independencia: los datos (xi,yi) (con i = 1, ..., n)
que observamos del modelo son independientes.
 normalidad: el error ε tiene una distribución
normal (ε ∈ N(0,σ2)).
 homocedasticidad: el error ε tiene la misma
varianza independientemente del valor de X.
EAIQ (GQ) · Tema 4
Procedimiento:
1º) adoptar un modelo (línea recta, Y = α + β X + ε)
2º) preparar y realizar las medidas (datos (xi,yi)).
3º) representar gráficamente los datos (X vs Y).
4º) examinar la gráfica y tomar decisiones
(repetición, dilución, rechazo, ...).
5º) estimar los parámetros del modelo (a, b, e, ...).
6º) validar el modelo (comprobar residuos e
hipótesis).
7º) predecir una variable a partir de la otra
(interpolación matemática o gráfica, no
extrapolación: ŷi = a + b xi ó x^ i= (yi – a)/b).
EAIQ (GQ) · Tema 4
α +β·X +ε
Y =
ŷ i= a + b · x i

+
¿? ei
0
X
_
¿ANOVA, contrastes,
Y= a + b · X residuos, ...?

EAIQ (GQ) · Tema 4


Modelo de regresión de Y
(variable dependiente) sobre X
(variable independiente):
α +β·X +ε
Y =

Los estimadores de α, β y ε
(respectivamente, ordenada en
el origen, pendiente y error) son,
respectivamente, a, b y e:
Y =
a + b· X + e

Esta recta pasa por el vector de medias (,) (o centro


de gravedad o centroide de los n pares de datos (xi,yi)
con los que se calculan los estimadores.

EAIQ (GQ) · Tema 4


ei: es el residuo o error aleatorio para el valor yi de la
variable dependiente (relacionado con el valor xi de la
variable independiente). Es la diferencia entre el valor
real (yi) y el valor estimado con el modelo (ŷi):
ei = y i − ( a + b · x i ) = y i − yˆ i

Fundamento del método de mínimos cuadrados:


obtener los valores de los estimadores a y b que hacen
que los residuos sean los más pequeños posibles. Se
usa la suma de cuadrados para evitar la compensación
entre los residuos positivos y los negativos:
nn

∑e ∑(y − yˆ i ) =  y i − ( a + b · x i )  = mínimo
2 2
2
i = i
=i 1= i 1

EAIQ (GQ) · Tema 4


Haciendo derivadas parciales respecto a a y b de esta
expresión e igualando a cero cada derivada, se llega a
las expresiones matemáticas para calcular a y b:
la pendiente (b): cociente entre la covarianza
(SXY) y la varianza de X (SX2):
∑ ( x − x )( y − y )
n

∑ ( x )( y )
n i i

−y 
i =1
−x SXY =
SXY i =1
i i  n
=
b =
∑(x ) ∑(x )
n
SX2
n 2
2
−x i −x
i i =1
i =1 SX2 =
n

la ordenada en el origen (a):


SXY
a=
y− 2 x=
y − b· x
SX

EAIQ (GQ) · Tema 4


Validación y evaluación del modelo
El ajuste por regresión sólo es aplicable si hay relación
lineal (recta) entre las variables. Ese modelo se valida
calculando covarianza y coeficientes de correlación y
de determinación y examinando los residuos.
Covarianza (SXY): depende de las unidades y es
sensible a cambios de escala, pero no de
localización (ver Tema 1):
∑(x )( y )
n

SXY > 0 => relación directa. i −x i −y


i =1
SXY < 0 => relación inversa. SXY = n
SXY = 0 => no hay relación lineal (recta). Las variables
pueden ser independientes o no.
si ambas variables son independientes => SXY = 0.
EAIQ (GQ) · Tema 4
Coeficiente de correlación (R, r): no se afecta por
cambios de escala (ver Tema 1):
∑ ( x − x )( y − y )
n

i i
i =1

( )( )
n
SXY =

SXY

i =1
 xi − x

yi − y 

n

= ∑(x )
n
r −x
2

∑(x ) ∑(y )
SX SY n 2 n 2 i =1
i

i −x i −y SX =
n
=i 1= i 1

∑( )
n 2
yi − y
es adimensional, y -1 ≤ r ≤ 1. SY =
i =1

n
cuanto más cercano sea r a 1 ó a – 1, mejor es el ajuste.
r > 0 => relación directa.
r < 0 => relación inversa.
r ≈ 0 => relación no lineal (recta). Puede ser otra
relación.
EAIQ (GQ) · Tema 4
El coeficiente de correlación, es útil para evaluar
el ajuste, pero debe usarse con precaución:
♠ r ≈ +1 ó r ≈ -1 no garantiza que todos los
datos estén próximos a la recta.
♠ la forma de la línea puede cambiar sin
cambiar r.
♠ r depende de los intervalos de las variables:
distintos valores de r no se pueden comparar
si se obtienen con distintas muestras.
♠ r no es proporcional: r = 0,98 no es “el doble
de bueno” que r = 0,49; mejorar r de 0,985 a
0,990 no es equivalente a mejorar de 0,990 a
0,995.
EAIQ (GQ) · Tema 4
Por tanto, aparte de r, es esencial la inspección
visual de los datos representados, para evaluar el
ajuste.
Coeficiente de determinación (R2, r2): es una
buena medida para determinar lo bueno que es el
ajuste, pues mide la proporción de variabilidad de
Y que es explicada por X a través de la recta de
regresión (ver Tema 1): 2
 SXY 
r =
2

 X Y
S S

0 ≤ r2 ≤ 1; cuanto más cercano a 1, mejor ajuste.


r2 es el mismo para la regresión de Y sobre X que
para la regresión de X sobre Y.
EAIQ (GQ) · Tema 4
Gráfico de residuos (“residuales”): gráfica de los
ei frente a los xi o los ŷi (valores estimados de Y).
Es útil para:
 validar el ajuste.
 comprobar si se cumplen las hipótesis de
partida, especialmente la homocedasticidad.
Al examinar un gráfico de residuos, comprobar:
 tendencia (¿residuos constantes o no?)
 residuos positivos vs negativos (¿mismo
número de ambos grupos? ¿están distribuidos
uniformemente?)
 datos atípicos (¿hay residuos mucho mayores
o
EAIQ (GQ) · Tema 4
menores que el resto?)
+ homocedasticidad: residuos dispersos
ei aleatoriamente, con número de residuos
0
_
X positivos similar al de residuos negativos.
El modelo es adecuado.
heterocedasticidad: los residuos se
+ dispersan más a medida que aumenta X.
ei
0
X
La precisión varía con X. Modelo
_ probablemente adecuado, pero mejor:
mínimos cuadrados ponderados.
+ homocedasticidad: modelo no adecuado.
ei
0 Quizá sería útil considerar alguna variable
X
_ adicional.
+ homocedasticidad: caso típico de ajustar
ei
0 a una recta datos que mejor se ajustarían
X
_ a una curva: el modelo no es válido.
EAIQ (GQ) · Tema 4
Con el gráfico de residuos, se pueden poner de
manifiesto datos atípicos, que puede ser
necesario eliminar del ajuste, puesto que pueden
tener enorme influencia sobre los estimadores.
Estos datos pueden ser: atípicos e influyentes.
dato atípico: el que se sale del modelo, tiene
un residuo grande (= mayor que 1,96 o
menor que – 1,96). Sólo suele “subir o bajar”
la línea.

EAIQ (GQ) · Tema 4


dato influyente: es un dato atípico que
“haciendo palanca” modifica pendiente y
ordenada en el origen, por estar lejos del
vector de medias.

La eliminación –en su caso- de estos datos


atípicos debe hacerse con precaución. Puede
ser útil algún contraste de hipótesis.
EAIQ (GQ) · Tema 4
Predicción a partir del modelo
El ajuste es un medio para hacer predicciones de los
valores de las variables. En el caso más importante,
calibración: hacer predicciones de la variable
concentración a partir de valores de la variable señal.
Se pueden definir desviaciones típicas para la
ordenada en el origen y la pendiente, con las que
definir sus intervalos de confianza:
varianza residual (sX/Y2, se2): (xi,yi) son los n datos
originales y (xi, ŷi) los n datos sobre la recta:
n
(xi,ŷi) ∑(y − yˆ i )
2
i
i =1
sy =
(xi,yi) x
n−2
EAIQ (GQ) · Tema 4
ordenada en el origen (a): n

∑ i
x 2

i =1
sa = s y
( )
x n
n ∑ xi − x
2

i =1

Intervalo de confianza (normalmente, al 95%) con


(n – 2) grados de libertad: α= a ± t s =α 0 ,05 ;( n − 2 ) a

pendiente (b): sy
sb =
x

∑(x )
n 2
i −x
i =1

Intervalo de confianza (normalmente, al 95%) con


(n – 2) grados de libertad:
β= b=
± tα 0 ,05 ;( n − 2 ) sb
EAIQ (GQ) · Tema 4
La incertidumbre en el cálculo de a y b da lugar a una
incertidumbre en el cálculo del valor de X
(“concentración”) a partir del valor de Y (“señal”).
Esta incertidumbre se expresa como desviación típica
(m es el número de medidas replicadas):
( )
2
sy 1 1 y MUESTRA − y
= + +
x
s x MUESTRA
( )
n
b n m
b2 ∑ x i − x
2

i =1

Intervalo de confianza (normalmente, al 95%) y (n – 2)


grados de libertad: y −a
x̂ MUESTRA = MUESTRA

b
µ=
MUESTRA ± tα
x MUESTRA= 0 ,05 ;( n − 2 ) s x MUESTRA
EAIQ (GQ) · Tema 4
Esto da lugar a la llamada banda de predicción, que
marca los límites de confianza para la predicción del
valor de xMUESTRA:

En la parte central, el error es menor: siempre es


bueno tener un número suficiente de datos (n).
EAIQ (GQ) · Tema 4
Anexo: algunos detalles importantes
la recta sólo vale para los intervalos de X e Y en los
que se encuentran los datos de partida. Fuera de
esos intervalos:
♣ diluir (para reducir Y)
♣ obtener más datos (para “cubrir” ampliar la
zona de ajuste)
♣ cerca y fuera del límite: hacerlo constar
la resolución gráfica y la matemática deben dar
resultados parecidos.
la recta de regresión de Y sobre X NO es la misma
que la de regresión de X sobre Y: es conceptual.
EAIQ (GQ) · Tema 4
en otros tipos de calibrado (“patrón interno”,
“adición estándar”) el ajuste por mínimos
cuadrados es idéntico: sólo cambia la variable.
Ejemplo: calibrado con patrón interno.

Variable independiente: concentración (C)


Variable dependiente: cociente de señales (SA/SPI), es
decir: SANALITO/SPATRÓN INTERNO

SA SPI= a + b · C
EAIQ (GQ) · Tema 4
Ejemplo: calibrado con adición estándar.

Variable independiente: concentración añadida (CAÑADIDA)


Variable dependiente: señal (S)

= a' + b' · CAÑADIDA


S

EAIQ (GQ) · Tema 4


Referencias:
R.M. Crujeiras, P. Faraldo Roca: “Manual de estadística
básica para ciencias de la salud”, Universidad de Santiago
de Compostela, Santiago de Compostela, 2010.
L. Gonick, W. Smith: “Á estatística ¡en caricaturas!”,
SGAPEIO, Lugo, 2001.
D.L. Massart, B.G.M. Vandeginste, L.M.C. Buydens, S. de
Long, P.J. Lewi, J. Smeyers-Verbeke: “Handbook of
chemometrics and qualimetrics: Part A”, Elsevier,
Amsterdam, 1997.
J.N. Miller, J.C. Miller: “Statistics and chemometrics for
analytical chemistry, 6th Ed.”, Pearson, Harlow, 2010.
J.S. Milton: “Estadística para biología y ciencias de la salud,
3ª Ed.”, McGraw-Hill, Madrid, 2002.
EAIQ (GQ) · Tema 4

Вам также может понравиться