Вы находитесь на странице: 1из 11

Interacción entre Química y Estadística, con Referencia Especial a la Calibración y el Método de

Adición Estándar Generalizado *


ABSTRACTO
Sundberg, R., 1988. Interacción entre química y estadística, con especial referencia a la calibración
y la generalización
método de adición estándar. Chemometrics and Intelligent Laboratory Systems, 4: 299 - 305.
Desde el comienzo de este siglo, los problemas en el campo de la química y la ingeniería química
han importante papel en el desarrollo de estadísticas, y los modelos y métodos estadísticos han
demostrado ser una herramienta eficiente para la planificación de experimentos químicos y en el
análisis de datos químicos. Después de mencionar una serie de métodos estadísticos importantes
y áreas problemáticas químicas, discutiré más detalladamente la interacción y la el campo de
calibración. En particular, describiré y discutiré el método generalizado de adición estándar
(GSAM) con una doble intención: proponer mejoras estadísticamente motivadas y desarrollos
futuros en la teoría de la estimación y diseño para este método de análisis multicomponente, así
como para ilustrar cómo un estadístico tema, para el posible beneficio de los químicos en sus
futuros contactos con estadísticas y estadísticos.

VISIÓN DE CONJUNTO
La colaboración entre R.A. Fisher y W.S. Gosset ("Estudiante") proporciona un ejemplo excelente
de las primeras décadas de este siglo de una interacción mutuamente beneficiosa entre la
estadística y la química y entre la teoría y la práctica.
Gosset, químico de la fábrica de cerveza Guinness, convirtió al estadístico en su necesidad de
herramientas para el análisis de pequeños datos de muestra, mientras que Fisher era un
matemático y un estadístico de primera capacidad teórica con un interés genuino en problemas
prácticos. En la estimulación mutua desarrollaron la "metodología t y F" para el análisis estadístico
de pequeñas muestras de las distribuciones normales, una teoría que ahora se puede encontrar en
cualquier curso introductorio sobre estadísticas. Para más de esta perspectiva histórica, véase ref.
1.

Este tipo de combinación químico-estadístico, a veces en un mismo individuo, tiene


ha estado detrás de muchos desarrollos estadísticos que fue de particular relevancia tanto para la
teoría de la estadísticas y para la química (aunque todavía los químicos por la educación parecen
pensar que t F metodología define el papel de las estadísticas). Los primer grupo de temas (con
buenas referencias de manuales) cuando sea posible) quiero mencionar son:

- Diseño de experimentos [2]. La importancia de


variando varios factores a la vez para la detección de
las interacciones, para la eficiencia estadística, y
validez extendida de las conclusiones,
aún más ampliamente. Una reciente adición
a este campo, sobre todo clásico, es la idea de
diseño en variables latentes, lo que ha logrado
aplicado en las investigaciones de
síntesis [3], y en el modelado de la estructura-actividad
relaciones [4].
- Metodología de superficie de respuesta [S]. En particular,
esta es la metodología para la optimización empírica
análisis químico, síntesis y
procesos.
- Operación Evolutiva (EVOP) [6]. EVOP es un metodología para el mejoramiento de la
procesos de producción mediante experimentación a pequeña escala en línea. La filosofía detrás
de este enfoque es que el proceso también debe proporcionar información sobre sí mismo. Tanto
EVOP como mucho de la metodología de superficie de respuesta por Box en la ICI Chemical
Industries.
En mi opinión EVOP merece un renacimiento ya que
debe encajar bien en las ideas modernas de calidad
estrategias de mejora.
_ Modelado multivariado de estructuras complejas
y relaciones complejas. Esto es típico
la quimiometría, tal como lo representan los
que por Sharaf et al. [7]. Se trata de estadísticas
conceptos y técnicas tales como componentes principales,
estructuras latentes, discriminación y
reconocimiento de patrones.
_ Metodología de calibración. Vea a continuación para discutir.

Estadísticas entra más específicamente en el campo


de la química en muchos otros contextos de
menor importancia, y una selección de estos temas
y problemas siguientes:
_ Pruebas colaborativas de procedimientos analíticos, como
desarrollado por Youden [8]. Esta metodología
basado en la observación de que la variación entre
análisis realizados en diferentes momentos o por
laboratorios es típicamente mucho más alto que la variación
entre repeticiones ordinarias (reproducibilidad
es mucho menor que la repetibilidad). Es de
interés histórico a notar aquí otra conexión
con "Estudiante", quien discutió este problema
ya en 1927 [9].
Problemas de muestreo del análisis químico.
Los conceptos de identificabilidad y detección
límites en la química analítica.
Estimación de parámetros cinéticos. Un ejemplo
de la complejidad a menudo descuidada es la
Modelo de cinética de Michaelis-Menten, donde la linealización
es un peligro más que una ayuda. Véase ref.
10 para una discusión de los problemas estadísticos
con este modelo.
Modelos para la predicción de tiempos de residencia y
concentraciones de efluentes en sistemas de reactores químicos.

Teoría de la cromatografía, con su fondo


en difusión y otros fenómenos estocásticos
(elementos básicos en la referencia 11).
Problemas probabilísticos en la teoría de la polimerización
(véase, por ejemplo, la parte IV de la referencia 12).
Modelado para el control de procesos químicos. Un
ejemplo es el reciente trabajo de
el estadístico Palmquist [13,14] para la dinámica
control del pH en la mezcla de aguas residuales industriales
sistemas. Combinó el equilibrio ácido-base teoría de la química con contenido estocástico modelos
de sistemas de entrada y de medición
desarrollar un sistema de control que también aquellas situaciones fuertemente no lineales donde
modelos de control estándar previamente los químicos habían fracasado por completo.

CALIBRACIÓN
El entorno típico de. un problema de calibración
puede describirse como sigue: Determinar (o
una estimación) a partir de una selección de
curva estándar que relaciona los valores medidos y de
un método instrumental de análisis químico para
conocidos valores de concentración x, y utilizar esta relación para la estimación (o predicción) de
un desconocido
x de y medido.
Durante la historia anterior de la calibración x y
y eran típicamente unidimensionales. Bajo el supuesto
de linealidad Eisenhart en 1939 estableció
el protocolo durante décadas en la estadística
literatura [15]: Regresión y en x por mínimos cuadrados
e invertir la relación estimada. Otros estadísticos
han estudiado la precisión de este "clásico"
método. Un interés particular se dirigió
intervalos de confianza para el desconocido x. Como
un ejemplo, en algunas circunstancias
tener la peculiar forma de dos líneas infinitas
segmentos.
Los químicos tenían razón al no preocuparse por estos
peculiaridades. Las circunstancias
nunca ocurren en la práctica. Exigirían una
línea de calibración estimada que se utilizará automáticamente
en la forma estándar aunque resultara ser
esencialmente horizontal, que es sin sensibilidad.
Por lo tanto, desde el punto de vista aplicado esto fue un
pseudo-problema, sólo de algunos datos estadísticos
interesar.
Sin embargo, la mayoría de los químicos
ignoraron los aspectos estadísticos de la calibración.
Cierto, Eisenhart [15], Williams [16] y otros fueron
consultados por químicos con problemas de calibración,
pero los libros de texto de química han sido muy lentos en
reconociendo el aspecto estadístico y han tendido
para dar estimaciones estadísticamente ineficientes (si las hubiera) de
la línea de calibración e ignorar cualquier discusión de
la precisión de las estimaciones de x de ella.
En la literatura estadística una gran controversia
repentinamente surgió tras la propuesta de Krutchkoff
[17] en 1967 para utilizar la regresión "inversa", para regresar
x en y aunque el modelo especificado regresión
de y en x. Su motivación provenía de la media cuadrada
comparaciones de errores en simulaciones por ordenador. Ahora,
veinte años más tarde, el mensaje más claro
químico de este debate parece ser el siguiente:
Cuanto más fuertes son las suposiciones que se imponen
sobre los valores x desconocidos, más precisos
es la inferencia que se hace posible, sino también
más vulnerables a errores en los supuestos
esta inferencia será. Más específicamente,
(1) cuando las normas naturales y las incógnitas naturales
se suponen, es decir, todos ellos pueden considerarse
tal como se dibuja al azar de una distribución de valores x,
las x desconocidas deben predecirse, y
bajo algunas hipótesis adicionales el mejor predictor
corresponde a la regresión inversa, de x sobre y,
(2) cuando se permiten valores x desconocidos arbitrarios,
su determinación es un problema de estimación,
y una elección del estimador clásico puede ser
motivado por su buen comportamiento general, que
es menos sesgada para los valores x no centrales.
En las calibraciones univariadas típicas de
el ruido de medición de la química es pequeño y
diferencia entre "y en x" y "x en y" no es
importante, siempre y cuando el x desconocido se encuentre
rango central de valores x. Una diferencia no despreciable
podría tomarse como una señal de que
la calibración es imprecisa o que el x valor desconocido
está fuera del rango. En este último caso,
no confiar en el modelo.
Una buena caracterización y sistematización de
situaciones de tipo de calibración univariante y
problemas conectados se da en la ref. 18.
A finales de la década de los setenta el tiempo era
calibración multivariable, y en la década de 1980
un rápido crecimiento de la teoría y la práctica en este
campo. Químicos que deseen utilizar medidas computarizadas
instrumentos que rindan resultados multidimensionales
datos (típicamente intensidades registradas en una
diferentes longitudes de onda) comenzó a preguntar
datos deberían utilizarse eficazmente, en particular
la determinación simultánea de varias sustancias
a partir de datos no selectivos. Con este fin, la multivaria-
los métodos estadísticos de calibración fueron independientes
desarrollado en Inglaterra (por el estadístico
Brown [19], que había encontrado los problemas en
ICl) y en Escandinavia (por quimiometros, en
Martens en la investigación de alimentos de Noruega
Instituto; una colección de sus papeles y muchos
se pueden encontrar referencias en su tesis doctoral [20]).
Pronto otros estadísticos se unieron, a veces inspirados
por otras aplicaciones, y numerosos documentos
están apareciendo tanto en el producto químico como en el
literatura estadística. Es interesante notar que una primera
se desarrolló la teoría multivariante de la calibración
ya en 1959, en el cap. 9 del libro de Williams
[16], con un ejemplo bivariado de la química.
Sin embargo, este trabajo pasó casi desapercibido y
aparentemente fue publicado demasiado pronto para tener
influencia real. No fue hasta que los químicos superaron su miedo a los datos multidimensionales
y desarrollaron
interés en el análisis multicomponente de que el
el catalizador necesario estaba presente para obtener los estadísticos
empezó de nuevo
Entre los temas actuales de interés para los estadísticos
en la calibración multivariable son el uso de
vectores de respuesta de alta dimensión, el papel de
mínimos cuadrados (PLS) y otros métodos
tratando con colinearidades en el vector de respuesta,
construcción de regiones de confianza y
métodos, pero también se necesitará más teoría para
tratamiento de las relaciones no lineales, el ruido
calibración x-datos, y otros problemas.
Bajo una calibración estándar multivariable
los efectos de interferencia del modelo se indican
presencia de valores atípicos, pero generalmente no
corregida (véase la referencia 21). Una generalización de Hoet
Alabama. [22] de la situación de calibración multivariable a
tipo de matriz de los instrumentos ha sido
demostrado trabajar incluso en presencia de interferencias,
determinadas condiciones en el
estructura de los datos. Esta metodología
aún formulada en gran medida sin consideraciones estadísticas,
por lo que existe una perspectiva de aumento de
eficiencia estadística. Lo mismo ocurre con la
variante de la calibración multivariante denominada
método de adición estándar, para ser discutido
abajo. Los dos últimos métodos podrían ser
combinados [23].
MÉTODO GENERALIZADO DE ADICIÓN ESTÁNDAR
(GSAM)
El método de adición estándar (SAM) es un
procedimiento bien conocido para el análisis químico
se sospechan efectos de matriz. Se agregan las normas
a la muestra y se mide una respuesta antes
y después de estas adiciones. Una matemática lineal
modelo de datos es
JJ, = fi ('$ + x,) + e, i = O, l, ..., n (1)
donde E representa la cantidad desconocida de analito
a estimar, x, es una cantidad añadida (x0 = 0),
y, es la señal medida, y ej representa la medida
error. Hagamos más las estadísticas
supuesto de que los e, 's son independientes y
normalmente distribuidos alrededor de 0 con la
varianza u2. En particular, esta hipótesis
un ajuste de cero para cada medición por separado.
Escribiendo (Y = fl. $ Tenemos una relación lineal estándar
regresión de y sobre x con parámetros OL, p. De
los estimadores de máxima verosimilitud (= mínimos cuadrados)
p ^ y & = _j- & (bar para promedios) obtenemos
el estimador de máxima verosimilitud [= & / p ^
= y // 3 - X. Gráficamente -5 se obtiene como el
punto donde la regresión ajustada de y en x se cumple
el eje x. Se considera una suposición crucial
que la linealidad (proporcional) del modelo (1)
sobre una amplia gama de cantidades de analito, hasta
una cantidad cero, por lo que no sólo existe un
linealidad en la región observada de las cantidades [2, 6].
La precisión estadística del estimador es rara vez
mencionadas en las descripciones de SAM, pero una
fórmula es fácilmente calculada por las leyes
para la propagación de errores estadísticos,
Var ([) = $ 1+ n
(i + x) _ {2}
Yo yo
n+l
; b, - XJ2
(2)
Una SAM generalizada para el análisis de múltiples componentes,
GSAM, que no requiere total selectividad
para cada analito, se propuso en la ref. 24 y tiene
sido desarrollados principalmente por Kowalski y
compañeros de trabajo Gran parte de su trabajo se describe en la ref.
7. Ahora la cantidad desconocida de analito 5 es una
p-vector dimensional, al que se añaden conocidos
vectores X, ("adiciones estándar múltiple"), i =
01 5, ..., n. Los vectores de respuesta Y, uno para cada adición,
se obtienen a través de q> p análisis
sensores. Típicamente X0 = 0, de modo que se mide Y0
en la muestra original. Esto se supone a continuación para
conveniencia. Un modelo matemático que relaciona la respuesta
linealmente a la cantidad de analito es
Y = B (t + X) + E ,, i = Ol 1 '..., n (3)
donde B es una matriz de coeficiente xp desconocido
y el vector q E, representa el ruido de medición.
Los problemas estadísticos incluyen la estimación de 5,
evaluación del error estadístico de esta estimación,
y la elección de un diseño eficiente para las adiciones.
Al igual que con SAM, el supuesto de linealidad
una cantidad cero es crucial, por lo que las pruebas estadísticas de
linealidad.
Trabajos anteriores sobre GSAM, aunque
la ruptura en la química analítica, han re-fracturado en la química analítica, han considerado
la determinación de E como una
problema matemático de resolver sobredeterminado
sistemas de ecuaciones: Considere como datos nuevos las
Z, = Y; - Y ,, que no dependen de 5,
calcule una estimación B de B por el mínimo estándar
cuadrados (LS) a partir de los datos Z, y finalmente estima 5
de Y, = 85 + ruido por LS estándar, con respecto a B
como se indica. En las fórmulas los estimadores son
B = ZX '(xx') - l (4)
(primo para transponer), donde Z y X son los
q x n y p x n matrices de las columnas Z, y X,
respectivamente (i = 1,. _ _, n) y
, & (B'B)) 'By0 (5)
Una variación de este método de cálculo (IDCGSAM)
difiere sólo por el uso de los sucesivos
incrementos Z, = U, - q_1 en lugar del "total"
diferencias Z, = Y, - Yo. Entonces las columnas X, de
X en la fórmula 4 se sustituyen por X, -X, -i.
Para la estimación de 5 este procedimiento aparece
estadísticamente ineficiente desde varios puntos de vista.
En primer lugar, la reducción a partir de los datos originales n + 1 Y
a las n diferencias Z, implica una cierta pérdida de
la información sobre B, si la Z, es total
diferencias o incrementos. A continuación, para la estimación
de $ dado B, es ineficaz usar sólo Y0 como en
fórmula 5, en lugar de todos los datos Y. Aquí mucha eficiencia
podría obtenerse. En tercer lugar, cuando q> p eficiencia
se podría obtener mediante la estimación y
respecto a la estructura de correlación entre el q
componentes de la Y. En los trabajos anteriores
componentes fueron asumidos explícita o implícitamente
para ser independiente. Esto no es realista, sin embargo,
y por ejemplo, los datos reales en la referencia. 25 mostrar
correlaciones residuales sustanciales.
¿Cómo estimaría un estadístico [? Él haría
primero como la parte estocástica del modelo a ser
especificado más exactamente. Añadamos en el modelo (3) el
suponiendo que los vectores de errores de medición E,
están mutuamente sin correlación (¡ajustes separados de cero!),
y por simplicidad también que normalmente son
distribuido con una covariancia q q q
matriz I '. Entonces un estimador puede ser derivado por
el método de máxima verosimilitud (ML). Cuando
q = p esto conduce a la solución explícita simple
& 6-16 = & 'Y_ = y
(6)
D
donde & = Y-BX y
B = (Y - Yz) (x - XI) '
x {(x-X2) (X-X1) '} -' (7)
son las estimaciones LS en el modelo Y = (Y + BX, +
E ,, x y r son los promedios sobre X0, Xi ,. . . , X,
y Y ,, Y ,,. . . , Y $, respectivamente, y 2 es una fila
vector de n + 1 ones. Cuando q> p una no lineal
ecuación para E. Este sistema
probablemente tiene que ser resuelto numéricamente, pero eso es
no es un problema serio hoy en día. Más problemático
es la cuestión relativa a las estadísticas
propiedades que el estimador poseerá. En el
correspondiente caso q> p en estándar multivariable
calibración, el estimador de ML tiene algunas
propiedades [26].
Una alternativa más heurística cuando q> p sería
ser primero en estimar (Y y B por LS y luego, ya que
(Y = B & para regresar & en B por un peso adecuadamente
LS para obtener la alternativa 6 Equivalentemente, la regresión
de Y sobre B arroja la estimación correspondiente
de 6 + X. Los residuos de la regresión
de & (o Y) en B se podría utilizar para la comprobación del modelo.
La matriz de covarianza de 6i (o Y) es proporcional
a mi (la matriz de covarianza de la E, 's), por lo que un
la ponderación adecuada debe ser por la matriz I'- '.
Con una estimación f insertada para I? esto conduce a una
forma estimada de los mínimos cuadrados generalizados
estimador,
& (Blf-'B) - 'B / f-'y_X
(8)
Cuando q = p, la fórmula 8 se simplifica a la fórmula 6.
Además, si B hubiera sido libre de errores por suposición, eq. 8
habría sido el estimador ML. Al elegir
para regresar y en B hemos descuidado deliberadamente el
error estadístico en B. En principio una (leve) mejora
de la fórmula 8 debe ser posible por
respecto a la relación entre & y B como una
relación errores-en-variables más que como una
regresión
Observación: El uso de mínimos cuadrados en datos Y para
la estimación de B también ha sido defendida por Lorber
[27]. Él es engañoso, sin embargo, al criticar
el método Z de sesgo, y contrariamente a su afirmación, su estimador de E no es un AZUL (Mejor
Lineal
Estimador Imparcial) de la cantidad de analito. los
se recomienda más bien el estimador (8) dado anteriormente.
La eficiencia estadística de los diferentes
estimadores se debatirán sobre la base de un
modelo estadístico, sino también la precisión estadística
de las estimaciones puede ser (al menos aproximadamente)
calculado y estimado. Además por su propio bien,
precisión podría utilizarse para comparar diferentes
opciones de diseño. Para p> 1 un problema de diseño inusual
cuando la muestra es demasiado pequeña para
varias alícuotas; todas las adiciones entonces tienen que ser
sucesivamente a la muestra original única.
Una investigación teórica y empírica adicional
de los métodos descritos anteriormente se llevarán a cabo
y se informó a su debido tiempo.

CONCLUSIÓN
La estadística es una metodología científica y la
tarea de los estadísticos es desarrollarla y aplicarla.
Por lo tanto, un estadístico debe estar genuinamente interesado
en el uso práctico de modelos estadísticos y
procedimientos en química y otros campos de aplicación.
Sin embargo, sería natural que el estadístico
estar más interesado en el modelo / método
que en los datos particulares a mano. Por consiguiente,
el estadístico podría querer (o incluso debería)
_ simplificar para poder derivar propiedades estadísticas,
- generalizar para obtener un modelo / método de aplicabilidad
en casos futuros.
En la interacción con los estadísticos, el químico debe
tenga cuidado de que el estadístico no se esté desviando también
mucho del problema dado. Aunque el estadístico
también debe ser un buen detective de datos, sospechoso
de los errores gruesos, las variables al acecho, etc.
el modelo, es responsabilidad del químico
proporcionar el conocimiento de la materia relevante
al problema. Luego, como se ha ejemplificado anteriormente, la
la interacción puede ser fructífera para ambas partes. los
el establecimiento del campo de la quimiometría es
importante en este contexto. Las revistas especializadas
en esta dirección puede proporcionar las
entre los químicos y los estadísticos, por lo que
que reconocen y comprenden mutuamente
manera de pensar. El aspecto educativo es importante.
Un estudiante de química que ha experimentado
un curso introductorio en diseño experimental y
la quimiometría no debería tener miedo de intentar
consideraciones multivariables, o de consultar
estadístico. Esperemos una buena comunicación
en el futuro, para el futuro

Вам также может понравиться