Вы находитесь на странице: 1из 18

Revisin de los ms comunes

Tcnicas de preprocesamiento
Espectros del infrarrojo cercano

El pretratamiento de los datos espectrales del infrarrojo cercano (NIR) se ha


convertido en un
Parte del modelado quimiomtrico. El objetivo del pretratamiento es Eliminar
los fenmenos fsicos en los espectros con el fin de mejorar la Regresin
multivariante, modelo de clasificacin o anlisis exploratorio.
Las tcnicas de preprocesamiento ms utilizadas pueden dividirse en dos
Categoras: mtodos de correccin de dispersin y derivados espectrales. Esta
resea
Describe y compara los fundamentos tericos y algortmicos de la corriente
Mtodos de pretratamiento ms las consecuencias cualitativas y cuantitativas
De su aplicacin. El objetivo es proporcionar a los usuarios de NIR mejores
modelos finales
A travs de conocimientos fundamentales sobre el pretratamiento espectral.

INTRODUCCION

No hay sustituto para los datos ptimos


Pero, despus de la recopilacin de datos apropiada,
Pre-procesamiento de datos espectrales es el ms
Paso importante antes de la quimiometra bi-lineal
Modelizacin [por ejemplo, Componente Principal
Anlisis (PCA) y mnimos cuadrados parciales
(PLS)]. Existe una literatura
Aplicaciones espectroscpicas multivariantes de
Alimentos, piensos y farmacuticos, en
Que los estudios comparativos de pre-procesamiento
Son parte integrante. Reflectancia del infrarrojo cercano /
Transmitancia (NIR / NIT) espectroscopia
Es la tcnica espectroscpica que
Ha dado lugar, con mucho, a la mayor cantidad de
Mayor diversidad en las tcnicas de pre-procesamiento,
Principalmente porque los espectros pueden
Ser influenciados significativamente por las no linealidades
Introducido por la dispersin de la luz. Debido a la
Tamao comparable de las longitudes de onda en NIR
Radiacin electromagntica y partculas
Tamaos en muestras biolgicas, espectroscopa NIR
Es un campo de batalla para la dispersin no deseada
(Tanto el desplazamiento inicial como las no linealidades)
Que influir en la grabacin Espectros de muestra. Sin embargo,
aplicando
Preprocesamiento adecuado, estos efectos pueden
En gran medida.
En estudios de aplicacin, las comparaciones
Casi exclusivamente de las prestaciones relativas
En los modelos de calibracin
Desarrollado (descriptor cuantitativo-respuesta
relaciones). Casi ninguna evaluacin de
Las diferencias y las similitudes entre
Las tcnicas alternativas han sido
Y las implicaciones de las correcciones
(Por ejemplo, datos de descriptor espectral)
Raramente discutido. Este artculo tiene como objetivo discutir
Las relaciones entre las instituciones
Mtodos de pretratamiento para NIR / NIT, ms
Especficamente aquellas tcnicas que son
Independiente de las variables de respuesta, por lo que
Discutir slo mtodos que no requieren un
Respuesta. Nos centramos tanto en el
Aspectos tericos del proceso de pretratamiento
Tcnica y el efecto prctico que el
La operacin tiene en el espectro NIR / NIT.

Para las muestras slidas, se


Las variaciones son causadas principalmente por la luz
Dispersin y las diferencias en la eficacia
longitud de la trayectoria. Estas variaciones no deseadas
A menudo constituyen la mayor parte del
Variacin en el conjunto de muestras, y
Observado como cambios en la lnea de base (multiplicativa
Efectos) y otros fenmenos llamados
No linealidades. En general, la reflectancia NIR
La medicin de una muestra
Difusos reflejados y reflejos especulares
Radiacin (espejo-como reflexiones). De espejo
Las reflexiones se minimizan normalmente
Diseo de instrumentos y geometra de muestreo,
Ya que no contienen ningn producto qumico
informacin. La luz reflejada difusivamente,
Que se refleja en una amplia gama de
Direcciones, es la principal fuente de informacin
En el espectro NIR. sin embargo, el La luz reflejada difusivamente
contendr informacin sobre
Slo la composicin qumica de la muestra (absorcin)
Sino tambin la microestructura (dispersin). El primario
Formas de dispersin de la luz (que no
Transferencia de energa con la muestra) son Rayleigh y Lorentz-
Mie. Ambos son procesos en los que los
La radiacin se dispersa (por ejemplo, por pequeas partculas,
Burbujas, rugosidad superficial, gotitas, defectos cristalinos,
Microorganismos, clulas, fibras y fluctuaciones de densidad).
Rayleigh dispersin, que es fuertemente longitud de onda
Dependiente (1 / k4), se produce cuando las partculas son mucho
De dimetro menor que la longitud de onda de los electro-
Radiacin (<k / 10).

Cuando los tamaos de partcula son mayores que la longitud de onda,


Como es generalmente el caso para la espectroscopia NIR,
La dispersin de Lorentz-Mie es predominante. En contraste con
Rayleigh dispersin, Lorentz-Mie dispersin es anisotrpico,
Depende de las formas de la dispersin
Partculas y no depende fuertemente de la longitud de onda.
Para las muestras biolgicas, las propiedades de dispersin son
Excesivamente complejo, tan suave, o libre de modelo, pre-
procesamiento espectral
Tcnicas de espectro NIR, como se discute en
Este artculo, se les pide que eliminen la dispersin de la
Puro, espectros de absorbancia deseables.

Obviamente, el pre-procesamiento no puede corregir


Reflectancia (dispersin directa), ya que los espectros no
Contienen cualquier estructura fina. Espectros dominados por
especular
Reflectancia debe ser eliminado siempre como valores atpicos
Anlisis de datos multivariados, ya que seguirn siendo valores
atpicos,
Incluso despus del pre-procesamiento. Higo. 1 muestra un conjunto
de 13
Buenas muestras de sacarosa con diferentes tamaos de partcula
ms una
Mal ejemplo de sacarosa como (extremo) especular
La reflectancia se manifiesta en comparacin con los espectros
normales.

Higo. 1 ilustra tambin la disposicin general de la mayora de las


figuras
en este articulo. En la parte superior de la figura, un grfico de barras
Muestra valores de puntuacin PCA en el primer componente principal
(PC) para el conjunto de muestras despus de centrado medio de
datos [1].
La parte inferior muestra el efecto que el preprocesamiento ha
En el conjunto de datos (o, en este caso, sin pre-procesamiento). los
Cuadrado r entre los valores de la barra
Y se incluye una variable de referencia seleccionada (en este caso,
Tamaos de partcula promedio conocidos de 13 muestras de
sacarosa). por
El conjunto de datos de sacarosa, esta correlacin debera, por
ejemplo, ser baja
Cuando asumir que la partcula que origina la dispersin es un
obstculo;
La menor informacin posible sobre la partcula
El tamao debe permanecer despus del preprocesamiento correcto.
Un ejemplo de los datos de sacarosa pre-procesados puede ser
Visto en la Fig. 2, que tambin contiene un grfico de desviacin
estndar, que muestra el efecto que tiene el procesamiento previo en
el
Variacin entre muestras para diferentes regiones de longitud de
onda.
El pre-procesamiento seleccionado (detallado ms adelante)
Elimina algunos, pero no todos, de la dispersin no deseada o
Informacin de tamao de partcula en los espectros, como puede
observarse
Desde, por ejemplo, las primeras barras de PC.

A partir de ahora en este artculo, demostraremos el efecto


De diferentes tcnicas de pre-procesamiento en una pequea pectina
Conjunto de datos que contiene slo siete muestras con
Grados de esterificacin (% DE, en el intervalo 0-93%),
[2]. Estas muestras se midieron en reflectancia NIR
En el rango espectral 1100-2500 nm (recoleccin de
Cada intervalo de 2 nm; Higo. 3). Presentamos los correspondientes
Puntaje de la muestra PCA del primer factor despus de la
centralizacin media
Como un grfico de barras, junto con el grfico centrado
Valor de absorbancia a la longitud de onda 2244 nm. Hemos
seleccionado
Este pico como debera, en teora, describir el% DE
perfectamente. Para este artculo, suponemos que la informacin
En el espectro que est relacionado con la partcula de pectina
El tamao y la forma deben eliminarse mediante el
Tcnica, y que el grfico de barras debe mostrar una
Comportamiento correlacionado con% DE.

Para ilustrar el impacto del pre-procesamiento sobre la cuantificacin,


Utilizamos datos tomados de Christensen et al. [3]. Ellos
Estudi un conjunto de 32 mezclas de mazapn, basado en nueve
recetas diferentes, con datos disponibles en Internet (www.
Models.life.ku.dk). Se midieron todas las muestras de mazapn
Con seis diferentes instrumentos NIR y de referencia qumica
Anlisis de la humedad y el contenido de azcar. antes de
Construir un modelo de regresin cuantitativa, es importante
Limpiar los datos de prediccin de dispersin no sistemtica
Variaciones, ya que pueden tener un impacto significativo en
Rendimiento predictivo del modelo y la complejidad del modelo
O parsimonia. En este artculo, usamos PLS para predecir esto
Informacin de respuesta cuantitativa [4].

2. Tcnicas de pretratamiento
Las tcnicas de pretratamiento ms utilizadas en NIR
Espectroscopa (tanto en la reflectancia como en la transmitancia
Modo) se pueden dividir en dos categoras: scattercorrection
Mtodos y derivados espectrales.
El primer grupo de preprocesamiento de correccin de dispersin
Incluye correccin de dispersin multiplicativa
(MSC), MSC Inverso, MSC Extendido (EMSC), Ampliado
MSC Inverso, de-tendencias, Variable Normal Estndar
(SNV) y la normalizacin.

El grupo de derivacin espectral est representado por dos


Tcnicas en este artculo: derivados de Norris-Williams (NW) y
derivado polinomial de Savitzky-Golay (SG)
Filtros. Ambos mtodos utilizan un alisamiento de los espectros
Antes de calcular la derivada con el fin de disminuir
El efecto perjudicial sobre la relacin seal / ruido que
Los derivados convencionales de diferencias finitas.
El objetivo del paso de pre-procesamiento puede ser uno de tres:
Para mejorar un posterior anlisis exploratorio,
Para mejorar un modelo de calibracin bi-lineal subsiguiente
(Obligar a los datos a obedecer la ley de Lambert-Beer); o,
Para mejorar un modelo de clasificacin posterior.
La ley de Lambert-Beer (Ecuacin (1)) es emprica para NIR /
NIT y sugiere una relacin lineal entre el
Absorbancia de los espectros y la (s) concentracin (es) del
Constituyente (s):

Ak =-log10(T)= ek *l *c

Donde Ak es la absorbancia dependiente de la longitud de


onda, T es
La transmitancia de luz, ek es la longitud de onda
dependiente
Absorcin molar, l es la longitud efectiva de la trayectoria de
la
Luz a travs de la matriz de la muestra yc es la concentracin
Del (de los) constituyente (s) de inters. Lambert-Beer
La ley es estrictamente vlida slo para los sistemas puros de
transmisin
Sin dispersin. En las mediciones de reflectancia, la ecuacin
(1) se redefine en analoga a las mediciones de transmitancia
como:

Ak _log10R ffi ek _ l _ c

Donde R es la reflectancia detectada.

La seleccin de un preprocesamiento adecuado debe


Consideradas en relacin con la sucesiva fase de
modelizacin.
Si, por ejemplo, el conjunto de datos de inters no sigue
Ley de Lambert-Beer, factores o componentes adicionales en
La regresin PLS a menudo puede compensar esta no ideal
Comportamiento del predictor espectral [5]. La desventaja
De incluir estos factores adicionales es un aumento
Complejidad del modelo y, a su vez, probablemente una
De la robustez del modelo para predicciones futuras. Todas
Tcnicas de pretratamiento tienen el objetivo de reducir
Variabilidad no modelada de los datos con el fin de
La caracterstica buscada en los espectros, a menudo una
lineal (simple)
Relacin con un fenmeno (por ejemplo, un constituyente) de
interesar. Utilizando una tcnica de preprocesamiento
adecuada,
Esto puede lograrse, pero siempre existe el peligro de
Aplicar el tipo incorrecto o aplicar un preprocesamiento
demasiado severo
Que eliminar la valiosa informacin.

La eleccin adecuada del pretratamiento es difcil de evaluar


Antes de la validacin del modelo, pero, en general,
Varios pasos de preprocesamiento no es aconsejable y, como
Requisitos mnimos, el pretratamiento debera mantener
O disminuir la complejidad del modelo efectivo.
3. Correcciones de dispersin

Bajo los mtodos de correccin de dispersin, consideramos


tres preprocesos
Conceptos: MSC, SNV y normalizacin.
Estas tcnicas estn diseadas para reducir la (fsica)
Variabilidad entre las muestras debido a la dispersin. Los tres
tambin
Ajustar para los cambios de lnea de base entre muestras

3.1. MSC
Correccin de dispersin multiplicativa (o, en general, de
seal)
(MSC) es probablemente el pretratamiento ms utilizado
Tcnica para NIR (seguido de cerca por SNV y derivacin).
MSC en su forma bsica fue introducida por
Martens et al. En 1983 [6] y ms detalladamente elaborado
por
Geladi et al. En 1985 [7]. El concepto detrs de MSC es que
Artefactos o imperfecciones (por ejemplo, efecto de dispersin
indeseable)
Ser eliminado de la matriz de datos antes de los datos
modelado. MSC comprende dos pasos:

1. Estimacin de los coeficientes de correccin (aditivo


Y contribuciones multiplicativas).

xorg b0 bref ;1 _ xref e

2. Corregir el espectro registrado.

xcorr
xorg _ b0
bref ;1
xref
e
bref ;1

Donde xorg es un espectro de muestra original medido por el


Instrumento NIR, xref es un espectro de referencia utilizado
para el preprocesamiento
De todo el conjunto de datos, e es la parte no modelada
De xorg, xcorr es el espectro corregido, y b0 y bref, 1 son
Parmetros escalares, que difieren para cada muestra. Higo. 4
Ilustra la interpretacin de los parmetros escalares.

En la mayora de las aplicaciones, el espectro medio de la


calibracin
Se utiliza como espectro de referencia. Sin embargo, un
Tambin puede aplicarse un espectro de referencia genrico.
En el
Documento original de Martens et al. [6], se sugiri
Utilizar slo aquellas partes del eje espectral que no incluyen
Informacin relevante (lnea de base). Mientras esto hace
Buen sentido espectroscpico, es difcil determinar tales
Regiones en la prctica, especialmente en mediciones NIR,
Donde las seales de los diferentes componentes qumicos
Estn fuertemente superpuestos y correlacionados, y poco o
nada
Se encuentra una lnea de base verdadera. Esta es la razn
por la cual, en la mayora de
Casos, todo el espectro se utiliza para encontrar la correccin
escalar
Parmetros en MSC. Higo. 5 demuestra la
Aplicacin de MSC estndar a los datos de pectina. los
Se conservan las caractersticas espectrales del polvo de
pectina,
Mientras que las compensaciones de fondo y las pendientes
se eliminan en gran medida
(Comparar con la Fig. 3). La relacin lineal entre
El espectro y% DE es bueno, pero no perfecto.
La forma bsica del MSC se ha ampliado a ms
Elaborado aumentos [8 - 12] comnmente conocido como
EMSC. Esta expansin incluye tanto polinomio de segundo
orden de adaptacin al espectro de referencia, la instalacin
de un
Lnea de base en el eje de longitud de onda, y usos de a priori
Conocimiento de los espectros de inters o espectral
Interferentes. En este artculo, todas estas alternativas son
Se llama MSC por simplicidad, ya que pueden resumirse en
Una sola ecuacin:

xorg 1 xref x2
ref k k2 xknown;1 xknown;2 . . ._
_be
Donde k es el vector de correccin para el eje de longitud de
onda
Dependencia, y xknown, i es la inclusin de a priori
Conocimiento para informacin espectral deseada / no
deseada
(Por ejemplo, el espectro de una especie interferente
conocida).
La ecuacin (4) se puede expandir fcilmente para incluir
cualquier
Otras correcciones apropiadas. B es un conjunto de escalares
(correccin
Coeficientes) dada por la Ecuacin (5).

Ecuacin

Donde b0 es la correccin offset, bref, i es la correccin


De acuerdo con el orden i de la referencia, bk, i es la
correccin
De la dependencia del eje de longitud de onda del orden i, y
B, i es la correccin de la i-sima informacin conocida. Por
Comparacin con la ecuacin (2), se puede observar que
La ecuacin (4) es slo una expansin de orden superior de la
idea original. En este artculo, el xknown no ser
Discutido ms a fondo, ya que, en muchos casos prcticos,
Espectros para componentes deseados y no deseados
No disponible.

La correccin de referencia se realiza ms comnmente


Con slo un polinomio de primer orden. Aunque hay
Sin limitaciones matemticas para expandirse a un orden
superior
Adiciones, normalmente no hay argumentos espectroscpicos
Para hacerlo (excepto quizs si se produce una dispersin
significativa de Rayleigh
Est presente en la regin de longitudes de onda cortas).
Higo. La figura 6 muestra el resultado de un polinomio de segundo
orden
Correccin a los datos de la pectina. Los trminos de correccin
utilizados
Para la correccin polinmica de referencia de segundo orden son
Simplemente se encuentra mediante el ajuste de un segundo orden
(cuadrtico) polinomio
A los puntos de la Fig. 4. Slo mejoras marginales
Se alcanzan en comparacin con la correccin de primer orden
en la Fig. 5.

La dependencia del eje de longitud de onda suele incluirse como


Un ajuste polinomial de segundo orden en el eje de longitud de onda
A los espectros. Cuando no se incluye ninguna correccin de
referencia,
Este simple ajuste de longitud de onda tambin va bajo el nombre
De la de-tendencia espectral [13]; Puede ser visto como una lnea de
base
correccin. Es importante sealar que la
Dependencia de la longitud de onda en la correccin completa
Ecuacin
(4) en lugar de tenerlo como un paso separado conduce a una
Menor efecto correctivo. Esto se debe a una inversin de matriz
Operacin realizada simultneamente para todos los parmetros de
correccin en MSC, donde las diferentes correcciones
Se influenciarn mutuamente en los mnimos cuadrados
Criterio de ajuste. Cuando una dependencia de longitud de onda es
Independientemente del eje de la longitud de onda (y
No el espectro de referencia) influye en la correccin
Que conducir a un aplanamiento del espectro procesado.
Este efecto se puede observar comparando las Figs. 7 y 8.
Como se mencion anteriormente, las correcciones ms sofisticadas
(Por ejemplo, polinomios de orden superior u otras transformaciones
Dependencia de la longitud de onda) puede
Incorporado en el MSC. Thennadil y Martin [12]
Sugiri utilizar los valores logartmicos de las longitudes de onda,
Ya que se juzga ms sonora espectroscpicamente.
Sin embargo, la diferencia entre usar un algoritmo logartmico
Transformacin de las longitudes de onda versus el uso de un primer
orden
La correccin polinomial es mnima, haciendo que
Dos enfoques idnticos para todos los propsitos prcticos.
Como sealan Pedersen et al. [9], es un muy simple
Procedimiento para aplicar la versin inversa de MSC,
Correccin de seal inversa (ISC) [14]. La estimacin de
Los parmetros de correccin, los coeficientes b, se encuentran
De una manera similar al MSC regular:

Ecuacin
Tenga en cuenta que xorg y xref han intercambiado lugares en
comparacin con
Ecuacin (4). Una ventaja de (Extended) ISC (EISC) es
La simplicidad de la ecuacin de correccin:

Ecuacin

En ISC y EISC, tanto la estimacin de la correccin


Coeficientes y la correccin en s se realizan en
Lo que puede describirse como una forma de avance,
Conveniente incluir trminos y / o referencias adicionales
Seales [9]. La inversin de matriz anteriormente mencionada
Operacin necesaria para la estimacin de parmetros en MSC
Convertirse fcilmente en numricamente enfermos si incluye
Correcciones polinomiales de referencia de orden superior. Esto es un
Argumento a favor del ISC. Sin embargo, ISC asume, en el
Menos cuadrados, que el error en el registro
Espectro (a corregir) es menor que el error de
El espectro de referencia. En la mayora de las aplicaciones prcticas,
La referencia es el espectro medio calculado a partir de n
Muestras en el conjunto de datos (por ejemplo, el conjunto de
calibracin).

los
El nivel de ruido esperado para esta referencia es de magnitud raz de
n
Menor que los espectros individuales (despreciando el sesgo
Debido a las diferencias de dispersin en el conjunto). Este es un
argumento
Contra ISC, ya que un pequeo error en los espectros Influyen en el
pre-procesamiento en mayor grado que el
MSC original.

Вам также может понравиться