Вы находитесь на странице: 1из 58

MANUAL PARA EL PROFESOR

Estadística y Quimiometría para Química


Analítica
Cuarta edición

James N. Miller
Jane C. Miller

www.librosite.net/miller

Madrid  México  Santafé de Bogotá  Buenos Aires  Caracas  Lima  Montevideo


San Juan  San José  Santiago  São Paulo  White Plains

i
© Pearson Educación, S.A.
Los usuarios estarán autorizados a, por los medios puestos a su disposición, visualizar,
imprimir y descargar el material de esta página únicamente para uso personal y sin fines
comerciales, pero eso no les permite borrar o corregir ninguna marca registrada, copyright u
otro aviso de propiedad. Los usuarios no podrán distribuir, transmitir, reproducir o publicar
electrónicamente o de cualquier otra forma ninguna parte de los datos sin previo
consentimiento escrito de Pearson Educación, S.A. Asimismo, tiene la obligación de hacer uso
correcto de la Página y de los servicios conforme a la Ley, moral y buenas costumbres
generalmente aceptadas y con fines lícitos. Se reservan el resto de los derechos.

DERECHOS RESERVADOS
© 2002 respecto a la primera edición en español por:
PEARSON EDUCACIÓN, S.A.
Núñez de Balboa, 120
28006 MADRID

MILLER, N. J. Y MILLER, J. C
ESTADÍSTICA Y QUIMIOMETRÍA PARA QUÍMICA ANALÍTICA

ISBN: 84-205-3514-1
Depósito legal: M.29.356-2002-09-18

PRENTICE HALL es un sello editorial autorizado de PEARSON EDUCACIÓN, S.A.

Traducido de:
Instructor’s Manual, Statistics and Chemometrics for Analytical Chemistry
Fourth Edition
Copyright © 2001 por Pearson Education Limited
ISBN: 0-13-026466-0

Edición en español:

Equipo de traducción:
Web Editor: Concepción I. Ramírez De Antón
Assistant Web Editor: Esther Martín González
Colaboración: Marta Encinas, Olivia Ocaña y Roberto Lorente
Equipo técnico:
WebMaster: Luis Pérez

ii
© Pearson Educación, S.A.
Contenido

Capítulo uno: Guía para algunas fuentes de material complementario

Introducción 1
Revistas especializadas y artículos de opinión 1
La World Wide Web (WWW) 7

Capítulo dos: Soluciones completas a los ejercicios

Ejercicios del Capítulo 1 9


Ejercicios del Capítulo 2 11
Ejercicios del Capítulo 3 12
Ejercicios del Capítulo 4 21
Ejercicios del Capítulo 5 27
Ejercicios del Capítulo 6 36
Ejercicios del Capítulo 7 43
Ejercicios del Capítulo 8 48

iii
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

CAPÍTULO UNO

Guía para algunas fuentes de material complementario

Introducción

Los profesores de estadística del campo de las ciencias analíticas siempre quieren actualizar
sus conocimientos sobre el tema, así como ampliar sus ejemplos numéricos y las aplicaciones
existentes. Este material se puede utilizar para enseñar a los estudiantes nuevos métodos
estadísticos y ejercicios para su aplicación en experimentos individuales de laboratorio, en
proyectos o en clases prácticas. El creciente interés en la aplicación de la estadística a la
química demuestra que, actualmente, han surgido muchas fuentes de este nuevo material: aquí
señalamos algunos de los recursos más accesibles, cuyo nivel coincide con el del libro de
texto. Hemos sido selectivos de forma inevitable y deliberada, especialmente con el material
disponible en Internet, que prolifera rápidamente y varía en gran medida en cuanto a calidad.
Muchas páginas web se basan en los materiales de las clases impartidas en universidades de
países angloparlantes. Como tales, estos materiales pueden constituir sólo un módulo, o una
parte de un módulo, y también pueden servir como información complementaria a una serie de
clases específicas. Obviamente, los profesores deben utilizar este material de forma adecuada.
Por otra parte, Internet se utiliza cada vez más para facilitar material adicional (datos, software,
etc.) que completa los artículos de investigación. Este fenómeno supone un claro desarrollo
atractivo del que más adelante se exponen algunos ejemplos.

Los materiales recomendados en esta sección deberían considerarse como


complementarios a los mencionados en las secciones de Bibliografía al final de cada capítulo
del libro Estadística y Quimiometría para Química Analítica, 4ª edición, 2002. Estas secciones
bibliográficas hacen referencia a libros de texto tradicionales, muchos de los cuales son
estudios generales sobre aspectos de la estadística en lugar de estar enfocados a la química
analítica. No obstante, todos los materiales mencionados en el libro de texto pertenecen a
estudios químicos y la mayoría cubren específicamente los problemas analíticos.

Revistas especializadas y artículos de opinión

Existen dos revistas de investigación reconocidas que publican estudios sobre la aplicación de
la estadística a los problemas químicos, y especialmente analíticos. Estas revistas son Journal
of Chemometrics (publicado por Wiley) y Chemometrics and Intelligent Laboratory Systems
(publicado por Elsevier). A pesar de que, probablemente, los trabajos de investigación
publicados en estas revistas sean demasiado complicados o detallados para suscitar el interés
de los lectores de nuestro libro de texto, ambas publican artículos de opinión sobre métodos
quimiométricos. Algunos tienen carácter tutorial y son mucho más relevantes. Además de los
estudios del Journal of Chemical Education y The Analyst, sobre los que se debatirá en
secciones posteriores, muchas otras revistas contienen importantes estudios y artículos de
opinión en este campo. La revista Analytical Chemistry (publicada por la American Chemical
Society) y Analytica Chimica Acta (publicada por Elsevier) son las más notables, siendo
especialmente valiosos los extensos estudios bienales y los listados de referencias publicados
por Analytical Chemistry. El último de estos estudios, realizado por el profesor B.K. Levine,
aparece en Analytical Chemistry, p. 72 (2000) 91R-97R. Contiene 120 referencias del periodo
que oscila entre noviembre de 1997 y noviembre de 1999. Como su propio título indica,
‘Chemometrics’ (Quimiometría), trata casi exclusivamente de los métodos más avanzados,
explicados en el Capítulo 8 del libro de texto. El material se divide en cinco secciones
principales: (1) resolución de curvas multivariantes, aplicada principalmente a señales
cromatográficas solapadas o señales espectroscópicas; (2) calibración multivariante, haciendo
especial hincapié en el uso de mínimos cuadrados parciales; (3) reconocimiento de patrones;

1
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

(4) relaciones estructura-propiedad; y (5) análisis multidireccional aplicado a conjuntos de datos


de tres factores. No se ha llevado a cabo ningún estudio significativo acerca de los métodos
estadísticos convencionales y elementales. Un estudio anterior realizado por el mismo autor
(Analytical Chemistry, p. 70 (1998) 209R-228R) era más completo (con alrededor de 600
referencias) y trataba un mayor número de métodos y de áreas de aplicación, incluida la
optimización y el uso de métodos estadísticos básicos.

Otra publicación periódica que ofrece fuentes de información útiles es Trends in


Analytical Chemistry (Elsevier). El nivel de muchos de sus estudios se adecua tanto a
estudiantes graduados como a no graduados y, a menudo, contiene artículos sobre estadística
y quimiometría. Una entrega especial reciente (números 9-10, 1999) estaba dedicada por
completo a la metrología en química.

Varias revistas están por completo o en su mayor parte dedicadas a la evaluación


estadística propiamente dicha de métodos analíticos, pruebas de aptitud y otras comparaciones
interlaboratorio y a la optimización y diseño experimental en el análisis. Entre estas revistas, la
más reconocida es la Journal of the Association of Official Analytical Chemists (JAOAC), que se
publica en Estados Unidos. Esta revista también publica artículos sobre el desarrollo de nuevos
métodos analíticos, pero las importantes funciones reglamentarias de muchos miembros de la
AOAC garantiza que existe un gran énfasis en muchos aspectos relevantes del análisis de
datos.

Window on Chemometrics, de la Royal Society of Chemistry, es una guía muy útil para
el desarrollo y el uso de la estadística y la quimiometría. Es una publicación mensual que
contiene títulos y resúmenes de artículos de opinión y artículos de casi 250 revistas de todo el
mundo. Los resúmenes se presentan en seis secciones: (1) técnicas generales y estadística;
(2) calibración y validación; (3) programas informáticos, sistemas expertos y aplicaciones; (4)
espectrometría; (5) cromatografía; y (6) otras técnicas analíticas. En el ejemplar de marzo de
2000, la cantidad de resúmenes en estas secciones fueron de 21, 25, 24, 43, 40 y 12,
respectivamente, que son 165 resúmenes en total, lo que demuestra la importancia que se
otorga a la aplicación de la estadística a la química.

Journal of Chemical Education

Esta revista (JCE) también es publicada por la American Chemical Society y está dedicada a la
enseñanza de la química a todos los niveles, desde la escuela hasta la universidad. Las tasas
de suscripción son relativamente bajas e incluyen el acceso a la versión electrónica de la
revista, que contiene material complementario muy valioso. Además de sus publicaciones
originales (véase a continuación), JCE ofrece artículos de opinión sobre nuevos libros de texto
y software, junto con una amplia gama de materiales didácticos en CD-ROM. La importancia (y
dificultades) de los métodos estadísticos para estudiantes de química se refleja en muchos
ejemplares de JCE. A continuación resumimos algunos ejemplos de trabajos de investigación
publicados a lo largo de los últimos cinco años, que guardan relación con los temas tratados en
nuestro libro de texto: el último ejemplar de JCE fue el de junio de 2000. Algunos de los
trabajos describen ejercicios de laboratorio, donde la evaluación estadística apropiada de los
datos es especialmente importante, mientras que otros ofrecen comentarios y consejos sobre la
elección de los métodos y el empleo adecuado o erróneo de la estadística sin guardar relación
con un método o experimento específicos.

2000

De Levie, R.: “Spreadsheet Calculation of the Propagation of Experimental Imprecision”, JCE,


nº 77, p. 534. Este breve trabajo muestra cómo todas las hojas de cálculo disponibles se
pueden utilizar para calcular la precisión global de un experimento por etapas múltiples
mediante la diferenciación numérica. Se recomienda el uso de un macro (el autor
proporcionará macros para Microsoft Excel 95 ó 97). Se ha tomado uno de los ejemplos
algebraicos del trabajo de Andraos de 1996 (véase el resumen del año 1996).

2
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Edmiston, P.L. y Williams, T.R.: “An Analytical Laboratory Experiment in Error Analysis:
Repeated Determination of Glucose Using commercial Glucometers”, JCE, nº 77, p. 377.
El experimento explicado en este estudio utiliza tiras desechables de bajo coste que
incorporan reactivos enzimáticos para determinar la presencia de glucosa en soluciones
acuosas. El producto coloreado se mide en un fotodetector de reflectancia simple. Las
mediciones simples permiten aplicar contrastes anómalos y que los estudiantes
comparen sus resultados entre sí o con los estándares de referencia. También se puede
utilizar el mismo método para proporcionar pequeños proyectos, permitiendo a los
estudiantes indagar en la validación del método, el muestreo y las variables de muestra,
los errores sistemáticos, etc. Los datos necesarios se pueden recopilar rápidamente
utilizando un sistema analítico realista que resulta atractivo para los estudiantes.

Zielinski, T.J.: “Symbolic Software in the Chemistry Curriculum”, JCE, nº 77, p. 668. Este
estudio promueve el uso educativo de programas como Mathcad, que cada vez adquieren
más popularidad. La aplicación de Mathcad a los problemas de regresión lineal y no lineal
se demuestra de forma breve con dos ejemplos de S. H. Young y A. Wierzbicki. En el sitio
web de JCE se pueden encontrar los archivos necesarios: el usuario necesita Mathcad y
Adobe Acrobat.

1999

Burdge, J.R., MacTaggart, D.L. y Farwell, S.O.: “Realistic Detection Limits from Confidence
Bands”, JCE, nº 76, p. 434. Se trata de un trabajo excelente y completo que describe
cómo se pueden obtener los límites de detección mediante bandas de confianza de
rectas de regresión ponderadas y no ponderadas. El método se compara detalladamente
con métodos más sencillos que utilizan la desviación estándar de medidas en blanco
(véanse las páginas 125-127 del libro de texto) y, además, incluye una extensa
bibliografía. El método de banda de confianza ha sido aprobado por una serie de
organismos oficiales y parece ser un buen candidato a convertirse en el método estándar
para límites de detección; así pues, este artículo es importante, aunque pueda tener
mayor relevancia para investigadores que para estudiantes.

Bruce, G.R y Paramjit, S.G.: “Estimates of Precision in Standard Addition Analysis”, JCE, nº 76,
p. 805. Este interesante estudio es un buen ejemplo de las dificultades que pueden
encontrar un usuario de métodos estadísticos incauto. Los autores explican cómo han
calculado sus estudiantes la desviación estándar de concentraciones de analito
determinadas por el método de adiciones estándar (véanse las páginas 127-130 del libro
de texto). El método correcto emplea la Ecuación (5.12) del libro de texto, pero algunos
estudiantes aprovecharon la ventaja del hecho de que la concentración de prueba resulta
(de forma correcta) de a/b, siendo a y b la ordenada en el eje y y la pendiente de la línea
recta, respectivamente. Estos estudiantes utilizaron la Ecuación (2.12) para combinar los
errores de la pendiente y la ordenada para obtener una desviación estándar de la
concentración. Este segundo método (incorrecto) proporciona desviaciones estándar más
pequeñas que la Ecuación (5.12). La razón de la discrepancia es que la Ecuación (2.12)
supone que las fuentes de error que se combinan son independientes. Este no es el caso
en el experimento de adiciones estándar, donde los errores en a y b proceden de la
misma línea recta. (Véase también el trabajo de Meyer en el resumen del año 1997).

Muranaka, K.: “Teaching Statistical Methods”, JCE, nº 76, p. 469. Este breve apunte, con una
réplica de K.A. Thomasson, hace referencia al trabajo publicado en JCE, nº 75, p. 231
(véase el resumen del año 1998). En este trabajo se destaca la importancia de la
distinción entre los contrastes de una y dos colas en la aplicación de la Q de Dixon, y del
uso de los valores críticos correctos (los valores originales de Dixon tienen errores
tipográficos).

3
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Pandey, S., Borders, T.L., Hernández, C., Roy, L.E., Reddy, G.D., Martinez, G.L., Jackson, A.,
Brown, G. y Acree, W.E., Jr.: “Comparison of Analytical Methods: Direct Emission versus
First-Derivative Fluorometric Methods for Quinine Determination in Tonic Waters”, JCE, nº
76, p. 85. Este estudio describe el uso del espectro de emisión de quinina y sus derivados
directos en la determinación de este compuesto en muestras de agua tónica. Los
métodos de regresión convencional se utilizan para calcular los valores R2 para los
gráficos de calibrado y los resultados obtenidos utilizando los dos métodos se comparan
mediante los contrastes F y t. El método se puede ampliar calculando también los valores
de R’2.

1998

Caballero, J.F. y Harris, D.F.: ”There Seems to be Uncertainty about the Use of Significant
Figures in Reporting Uncertainties of Results”, JCE, nº 75, p. 996. Breve apunte sobre el
redondeo de resultados, argumentando que muchos autores utilizan demasiadas figuras
significativas en la práctica.

Thomasson, K., Lofthus-Mershcman, S., Humbert, M. y Kulevsky, N.: “Applying Statistics in the
Undergraduate Chemistry Laboratory: Experiments with Food Dyes”, JCE, nº 75, p. 231.
Este estudio describe experimentos sencillos en los que a los estudiantes se les hace
entrega de dos colorantes alimenticios comunes con espectros de absorción bien
separados. Las medidas repetidas de varias muestras sirven para estudiar el rechazo de
los valores anómalos mediante el test Q. También se describe la comparación de dos
soluciones similares con los contrastes F y t y el uso de los mínimos cuadrados lineales
en la determinación de las concentraciones de los colorantes en las bebidas sin alcohol.
Contiene propuestas para ampliar el estudio de las mezclas de colorante.

1997

Harris, D.C.: “Nonlinear Least-Squares Curve Fitting with Microsoft Excel Solver”, JCE, nº 74, p.
119. Este estudio muestra, con la ayuda de un ejemplo numérico en el que se utiliza la
ecuación de van Deemter, cómo se utiliza el solucionador de Excel en el ajuste de curvas.
El método se aplica a la regresión no ponderada, y a la ponderada con las ponderaciones
obtenidas a partir de desviaciones estándar medidas.

Lieb, S.G.: “Simplex Method of Nonlinear Least Squares – A logical Complementary Method to
Linear Least-Squares Analysis of Data”, JCE, nº 74, p. 1008. Este artículo probablemente
sea más adecuado para profesores e investigadores que para alumnos. Explica cómo el
método de optimización simplex es eficaz en la producción de ajustes de mínimos
cuadrados cuando las funciones matemáticas que describen el sistema no son lineales.
Se utiliza un programa FORTRAN para realizar los cálculos. Además, se facilitan dos
ejemplos y una herramienta para el análisis de errores.

Meyer, E.F.: ”A Note on Covariance in Propagation of Uncertainty”, JCE, nº 74, p. 1339. Este
breve apunte destaca que, si el error global en un experimento deriva de dos (o más)
fuentes de error que no son independientes, las ecuaciones de las que se obtiene el error
global (véase la Sección 2.11 del libro de texto) deben incluir un término adicional de
‘covarianza’. En el ejemplo propuesto (medida de la presión de vapor del agua como una
función de la temperatura) éste término adicional es negativo; así pues, el error en el
resultado final (una determinada temperatura de ebullición) es más preciso que el
obtenido con el supuesto de que las fuentes de error son independientes.

4
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Vitha, M.F. y Carr, P.W.: “A Laboratory Exercise in Statistical Analysis of Data”, JCE, nº 74, p
998. La ponderación de grandes cantidades de píldoras de vitamina E es la base de los
experimentos detallados en este estudio. Los resultados se utilizan para calcular la
estadística descriptiva básica (media, mediana, etc.), aplicar contrastes de significación
que incluyen la aplicación del contraste chi-cuadrado para probar la normalidad, y
estudiar la distribución muestral de la media. También se menciona el hecho de que las
ponderaciones de las píldoras se desvían significativamente de la distribución normal; así
pues, se ofrece la oportunidad de demostrar el teorema del límite central.

1996

Andraos, J.: “On the Propagation of Statistical Errors for a Function of Several Variables”, JCE,
nº 73, p. 150. A pesar de que las ecuaciones para la propagación de error en casos
sencillos son bien conocidas (véanse las páginas 36-39 del libro de texto), a menudo
resulta difícil aplicarlas a situaciones reales donde participan muchas variables o
funciones matemáticas complejas. El autor resuelve una ecuación general para estos
ejemplos avanzados, después muestra cómo ésta se reduce a las ecuaciones conocidas
en casos sencillos y las aplica a varios ejemplos de cristalografía y química física.

The Analyst

Publicación mensual de la Royal Society of Chemistry (RSC, Cambridge, Reino Unido) que
supone una excepcional fuente de material. La política editorial de la revista siempre ha
dedicado un especial interés al uso adecuado de la estadística en los trabajos de investigación,
de ahí la utilización continua en los ejemplos del libro de texto de los datos presentes en dichos
trabajos. Por otra parte, con la finalidad de promover el uso correcto de la estadística, la revista
ha publicado frecuentes artículos de opinión sobre los métodos estadísticos: algunos de estos
artículos tienen una clara intención tutorial, mientras que otros investigan los progresos
experimentados recientemente en áreas específicas. The Analyst también es el órgano de
publicación de estudios del subcomité de estadística del Comité de Métodos Analíticos de la
división analítica de la RSC. Este subcomité ofrece asiduamente informes muy influyentes
sobre principios y aplicación de nuevos métodos estadísticos, el uso indebido de métodos ya
establecidos, el desarrollo y uso de estudios interlaboratorio y otros muchos temas
relacionados con la estadística y la quimiometría. A continuación ofrecemos una lista de
artículos e investigaciones editadas por The Analyst.

1999

Mullins, E.: “Getting More from your Laboratory Control Charts”, Analyst, nº 124, p. 433. Guía
informativa.

1998

Despagne, F. y Massart, D.L.: “Neural Networks in Multivariate Calibration”, Analyst, nº 123, p.


157-158. Artículo íntegro.

Lowthian, P.J., Thompson, M. y Wood, R.: “The Interpretation of Data from Collaborative Trials:
Comparison of the Harmonised Protocol with the AMC Robust Method”, Analyst, nº 123,
p. 2803.

5
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

1997

Comité de métodos analíticos: “Handling False Negatives, False Positives and Reporting Limits
in Analytical Proficiency Tests”, Analyst, nº 122, p. 495.

Horwitz, W. y Albert, R.: “The Concept of Uncertainty as Applied to Chemical Measurements”,


Analyst, nº 122, p. 615.

Kane, J.S.: “Analytical Bias: the Neglected Component of Measurement Uncertainty”, Analyst,
nº 122, p. 1283.

1996

Olsen, E.: “Effect of Sampling on Measurement Errors”, Analyst, nº 121, p. 1155.

Thompson, M. y Fearn, T.: “What Exactly is Fitness for Purpose in Analytical Measurement?”,
Analyst, nº 121, p. 275.

Thompson, M. y Lowthian, P.J.: “Statistical Aspects of Proficiency Testing in Analytical


Laboratories: 1. Ranking of Participants on Scores is Misleading. 2. Testing for Sufficient
Homogeneity. 3. Confirmatory Statistical Test for Scheme Organisers”, Analytical, nº 121,
pp. 1589, 1593, 1597.

1995

Comité de métodos analíticos: “Internal Quality Control of Analytical Data”, Analyst, nº 120, p.
29.

Thompson, M. y Ramsey, M.H.: “Quality Concepts and Practices Applied to Sampling – An


Exploratory Study”, Analyst, nº 120, p. 261.

1994

Comité de métodos analíticos: “Is My Calibration Linear?”, Analyst, nº 119, p. 2363.

1993

Miller, J.N.: “Outliers in Experimental Data and Their Treatment”, Analyst, nº 118, p. 445. Guía
informativa.

1992

Comité de métodos analíticos: “Proficiency Testing of Analytical Laboratories: Organisation and


Statistical Assessment”, Analyst, nº 117, p. 97.

1991

Miller, J.N.: “3. Basic Statistical Methods for Analytical Chemistry”, “2. Calibration and
Regression Methods”, Analyst, nº 116. Artículo de opinión.

6
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

1989

Miller, J.C. y Miller, J.N.: “Basic Statistical Methods for Analytical Chemistry. 1.Statistics of
Repeated Measurements”, Analyst, nº 113, p. 1351. Artículo de opinión.

La World Wide Web (WWW)

La variedad de recursos estadísticos que se pueden encontrar en la Telaraña Mundial (World


Wide Web) es muy amplia y está continuamente cambiando, aunque, como se mencionó
anteriormente, su calidad y relevancia son muy variables. Además del material complementario
de la revista JCE arriba indicada, los sitios web que aparecen a continuación y que se han
visitado recientemente forman son fuentes muy valiosas de información y de software.

Un buen punto de partida en el campo de la quimiometría es el sitio


www.infometrix.com/chemometrics/chemometrics.html, que ofrece una gran variedad de
enlaces. Este sitio web conduce al lector por los distintos departamentos universitarios y su
personal académico, principalmente de Estados Unidos y Europa, haciendo hincapié en la
investigación y enseñanza de la quimiometría. Entre los recursos que se encuentran en la
sección de Estados Unidos destacan los enlaces a Center for Process Analytical Chemistry de
la Universidad de Washington, Seattle; y a Food Science and Technology group de la
Universidad Cornell. Estos sitios web incluyen resúmenes de proyectos de investigación, obras
de referencia, etc.

Http://gepasi.dbs.aber.ac.uk/home.html es la página principal de un grupo líder en


Reino Unido de quimiometría con sede en Aberystwyth (Universidad de Gales). Proporciona
referencias a los últimos trabajos realizados por este grupo, junto con información general,
tutoriales y enlaces a otros sitios web.

Uno de los sitios web más interesante y con enlaces de gran utilidad es
www.acc.umu.se/~tnkjtg/chemometrics/, dirigido por Johan Trygg. Entre todos los tutoriales de
fácil acceso que ofrece este sitio, se encuentra una magnífica introducción a la estadística
multivariante realizada por Mike Wulder, que se puede visualizar en la siguiente dirección
www.pfc.cfs.nrcan.gc.ca/profiles/wulder/mvstats/intro_to_ms.html. El sitio de la Universidad de
Umea (www.anachem.umu.se/eks/pointers.htm) proporciona una colección de enlaces (por
ejemplo, en la sección “The Analytical Chemistry Springboard”, el salto a la química analítica) a
softwares, así como a cursos e hipertextos de varias instituciones de enseñanza superior. Entre
los que destaca “The Virtual Classroom” (la clase virtual) de la Universidad de Akron; Ohio,
Estados Unidos, donde James K. Hardy proporciona tanto material elemental como avanzado
sobre estadística y quimiometría. Uno de los enlaces que se encuentra en este sitio,
http://ull.chemistry.uakron.edu/chemometrics/, contiene una amplia lista de temas que abarca
secciones desde una visión general sobre estadística (“Basic Statistics”) y Anova (“Simple
ANOVA”), pasando por el rechazo de datos (“Rejection of Data”) y la calibración (“Calibration”)
hasta temas más complejos como la calibración multivariante (“Multivariate Calibration”) y las
redes neuronales (“Neural Networks”). En cada tema se incluyen transparencias claras y
sencillas. Es importante observar que el material de este servidor, tiene derechos de autor y no
se deben hacer copias del contenido sin la autorización del autor.

Otro sitio web de carácter educativo y con sede en Estados Unidos, en este caso de la
Universidad de Massachusetts en Dartmouth, se encuentra en la dirección
www.umassd.edu/1Academic/CartsandSciences/Chemistry/. Aquí se puede encontrar material,
tanto en forma de texto como en diagramas, que comprende la presentación de datos a través
de histogramas, estadística básica como la media, la desviación estándar, la distribución
normal y contrastes de significación sencillos como el contraste F y el contaste t, además de
métodos de contraste de datos anómalos. Aunque la mayor parte del material de este sitio sólo
está disponible para los estudiantes que se hayan registrado y que tengan una clave, todos los
usuarios de Internet tienen acceso a la unidad de estadística.

7
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Uno de los sitios más importantes es el denominado “Chemometrics World” en


www.wiley.co.uk/wileychi/chemometrics, perteneciente a la misma editorial que Journal of
Chemometrics. Además de incluir publicidad de esta revista, también recoge numerosa
información y enlaces a bases de datos, software, obras de referencia, etc.

Dada la gran variedad de software disponible para realizar cálculos estadísticos, un


campo de estudio importante y actual es la validación de dichos programas, es decir,
¿proporcionan resultados exactos cuando se aplican a los conjuntos de datos estándar? Dichos
conjuntos de datos son aportados por el National Institute of Standards and Technology, en
Estados Unidos, a través de su sitio web www.nist.gov. El programa Valid Analytical
Measurement (VAM), en Reino Unido, ofrece un sitio web con información sobre la validación,
así como páginas de gran utilidad para la formación. Dicho material se puede encontrar en la
dirección www.vam.org.uk/, que también incluye enlaces de interés.

Royal Society of Chemistry en www.chemsoc.org también incluye información


educativa y enlaces. Aunque esté cambiando y creciendo continuamente, hasta el momento no
parece ofrecer material que esté directamente relacionado con la estadística y la quimiometría.
El sitio de American Chemical Society, www.acs.org, ofrece una gran cantidad de material
educativo para estudiantes de todas las edades, en la que se incluye un curso on-line titulado
Basic Statistical Analysis of Laboratory Data. Es necesario pagar una cuota para inscribirse a
este curso.

Todos los sitios web que se han mencionado anteriormente ofrecen material más o
menos relacionado con la química. Sin embargo, la World Wide Web proporciona acceso a
numerosos sitios relacionados con la enseñanza de estadística en general, aunque la mayor
parte contiene información concerniente a química y, de hecho, en ocasiones utiliza ejemplos
de química y de campos afines. Computer Teaching Initiative (CTI), a través de su página
www.stats.gla.ac.uk/cti, ofrece un acceso bien presentado y práctico para adquirir este tipo de
material. Aunque CTI ha sido sustituido por otra organización, su página principal todavía
permanece en activo y ofrece una enorme gama de recursos. La mayoría de los programas de
estadística más conocidos están revisados de forma exhaustiva y, en ocasiones, se pueden
descargar versiones de prueba de forma gratuita. Programas como DISCUS y Analyse-It son
de especial interés en este contexto, los cuales están diseñados para mejorar los servicios de
cálculo y de enseñanza disponibles a través de Microsoft Excel.

8
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

CAPÍTULO DOS

Soluciones completas a los ejercicios

Ejercicios del Capítulo 1

Ejercicio 1. El laboratorio A ha obtenido un resultado de la media exacta de 41,9 g l -1 (muy


próximo al valor correcto) y una pequeña dispersión de resultados: todos los valores están
entre 41,1 y 42,5 g l -1. Así pues, estos resultados son precisos e insesgados. La exactitud de
cada medición individual es buena, así como la media. Los errores aleatorios son pequeños y
los errores sistemáticos, o bien son pequeños, o bien se han anulado mutuamente en gran
medida. El laboratorio B ha obtenido el mismo valor de la media exacta, pero la dispersión de
los resultados es mucho mayor (rango 39,8-43,9 g l -1). Aparentemente, no hay sesgo (aunque,
de nuevo, es posible que dos o más errores sistemáticos se hayan cancelado entre sí), pero
hay grandes errores aleatorios (es decir, los datos son muy imprecisos) y cuatro de los seis
resultados individuales tienen una exactitud muy pobre. Las mismas estimaciones muestran
que el laboratorio C ha obtenido resultados precisos aunque sesgados (la media, 43,2 g l -1, y
todas las lecturas individuales muestran una exactitud pobre). Los resultados del laboratorio D
son imprecisos y sesgados, aunque (seguramente, por azar) una de las lecturas, 42,2 g l -1, es
bastante exacta. El laboratorio E ha obtenido una serie de resultados que parecen precisos y
no sesgados, a excepción del valor final. La exactitud de esta última interpretación es tan pobre
que, en la práctica, debería comprobarse como un resultado anómalo (véase la Sección 3.7): si
la comprobación mostrara que se puede rechazar el valor atípico, con un margen de confianza
razonable, los resultados restantes serían muy parecidos a los del laboratorio A.

Este ejemplo permite a los estudiantes adquirir práctica en el uso apropiado de los
términos exactitud, precisión, sesgo, y errores aleatorios y sistemáticos. Los resultados del
laboratorio E también exigen que los estudiantes analicen detenidamente las mediciones
individuales y que aprendan a estar al tanto de las anomalías.

Ejercicio 2. El segundo grupo de seis resultados obtenido por el laboratorio A tiene la misma
media que el primer grupo, lo que confirma que este laboratorio produce resultados sin un
sesgo significativo (errores sistemáticos pequeños o de autoanulación). Sin embargo, en el
segundo grupo de resultados la dispersión es mayor (precisión más pobre: el rango es 40,8-
43,3 g l-1). Así pues, a pesar de que el valor medio es exacto, al menos dos de las
interpretaciones individuales no lo son. Los resultados reflejan la diferencia entre repetibilidad
(es decir, precisión dentro de días) y reproducibilidad (precisión entre días).

Puede pedir a los estudiantes que identifiquen los factores que contribuyen a los
errores aleatorios más grandes en las mediciones entre días, tales como la utilización de piezas
distintas en los aparatos, la estabilidad de las muestras y los reactivos, las variaciones en la
temperatura del laboratorio, etc.

Ejercicio 3. Los preparados de anticuerpos monoclonados se obtienen siguiendo la fusión de


una célula productora de anticuerpos (célula de plasmática) con una célula (cancerosa) del
mieloma anormal. El resultado es que todos los anticuerpos generados son idénticos, en
contraste con los anticuerpos obtenidos a partir de mezclas normales de células plasmáticas,
que muestran una heterogeneidad pronunciada. Así pues, en un experimento del tipo descrito,
el número de sitios de unión por molécula debe ser un número entero (evidentemente, dos en
este caso). Por tanto, los resultados son precisos, pero muestran una clara evidencia de sesgo
hacia valores bajos. Este sesgo es, probablemente, un artefacto del método experimental
utilizado en la determinación del número de sitios de unión. En este ejemplo, la falta de
exactitud tanto de los resultados individuales como del valor medio (que no necesita ser
calculado) tiene poca importancia, dado que la respuesta correcta es obvia.

9
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Los estudiantes deberían darse cuenta de que este es un caso bastante raro de un
experimento en el que el resultado correcto puede deducirse claramente a partir del resultado
experimental, permitiendo así que se averigüen el grado de sesgo y la exactitud de forma
inmediata. Debería invitar a los estudiantes a considerar otros casos en los que surge la misma
situación, por ejemplo: el número de moléculas de agua de la cristalización en un complejo
inorgánico es normalmente un número entero.

Ejercicio 4. (i) Al igual que muchos analitos bioquímicos, la concentración de lactato en sangre
humana varía ampliamente entre pacientes sanos (aproximadamente 5-20 mg 100 ml -1 en
adultos) y también varía, en menor grado, en el mismo individuo en distintos momentos. Si se
analiza ésta última variación (intraindividual), la exactitud no será importante, pero se
necesitarán mediciones precisas; los errores experimentales deben ser pequeños si se
comparan con las variaciones individuales. Si se realiza una sola medición para comprobar si el
individuo se encuentra o no dentro del “intervalo normal” de lactato en sangre, se requerirá
menos precisión, pero un sesgo más grande podría llevar a un diagnóstico equivocado.

(ii) El contenido de uranio de los minerales se estudia con vistas a una extracción
económicamente rentable del elemento. Así pues, no es necesaria una gran precisión, pero un
sesgo considerable (positivo o negativo) podría provocar decisiones económicamente
desastrosas.

(iii) En este análisis, la velocidad es esencial, de manera que son poco importantes la exactitud
y la precisión. A medida que el paciente intoxicado se recupera, debería controlarse el nivel de
la droga en el plasma sanguíneo para asegurarse de que va descendiendo. Dado que se trata
del estudio de una pauta, la precisión es más importante que la falta de sesgo.

(iv) Una vez más, el objetivo principal es detectar cambios en el resultado del análisis. Dado
que estos cambios pueden ser muy pequeños, es necesaria una buena precisión para detectar
cualquier pauta, pero la exactitud no es tan esencial. Un requisito muy importante es la
estabilidad y la reproducibilidad diaria del aparato de medición; en la práctica, éste instrumento
debería graduarse todos los días con ayuda de un estándar de estabilidad probada.

Es de esperar que los estudiantes utilicen el sentido común y la pericia estadística al


responder estas preguntas, que son una manera de recordar que factores tales como el coste,
la velocidad, etc. suelen ser tan importantes en la práctica como la precisión, el sesgo, etc.

Ejercicio 5. (i) En este experimento, la fuente de error más probable es que la muestra tomada
no es representativa del metal en conjunto, y por tanto, puede proporcionar un valor
completamente engañoso para el grueso del contenido de Fe (el muestreo se trata en el
Capítulo 4). Surgirán errores sistemáticos si la reducción de Fe(III) a Fe(II) no es completa, o si
hay un error de indicador considerable. Los errores sistemáticos distintos del error de muestreo
pueden comprobarse con la ayuda de una muestra de metal estándar (éstas muestras están
disponibles comercialmente, acompañadas de un valor Fe certificado). Otro problema, que no
se resuelve necesariamente utilizando la muestra estándar, es la posibilidad de que otros
elementos en estados de oxidación bajos sean valorados con sulfato cérico, proporcionando un
resultado falsamente elevado para el hierro. Los errores aleatorios en el análisis volumétrico se
tratan en las primeras secciones del capítulo en el libro de texto.

(ii) Además de los errores sistemáticos que se tratan en el apartado (i), la formación y/o
extracción quelatante incompleta presentarán los mayores problemas en este caso. De nuevo,
esos errores podrían detectarse con la ayuda de una muestra de metal de contenido conocido
de Fe. Si se aplica el procedimiento experimental a dicho material de referencia y la
recuperación de Fe es <100% (contando con los errores aleatorios), sería recomendable
corregir el contenido de Fe de las muestras de prueba para esta recuperación incompleta. (En
otras áreas de aplicación, como el análisis de alimentos, todavía existe una gran controversia
en cuanto al uso rutinario de las correcciones). El análisis colorimétrico probablemente utilizará
una serie de estándares Fe y un procedimiento gráfico para calcular el resultado y los errores
aleatorios: estos métodos se tratan con más detalle en el Capítulo 5.

10
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

(iii) Los errores aleatorios en el análisis gravimétrico deberían ser muy pequeños y los errores
sistemáticos directamente asociados al proceso de pesada se pueden minimizar aplicando una
técnica esmerada (véase la Sección 1.4). Las fuentes de error más probables en esta
determinación son químicas y se suelen tratar largo y tendido en los manuales de análisis
tradicional; por ejemplo, el problema de la coprecipitación de otros iones.

De nuevo, estas respuestas se apoyan tanto en el sentido común como en los


conocimientos generales de los alumnos sobre métodos de análisis básico, así como en
cualquier pericia estadística.

Ejercicios del Capítulo 2

Ejercicio 1. La solución a este problema se puede obtener utilizando las teclas de función de
una calculadora. Utilizando seis decimales, las teclas dan: x = 0,076667 μg g-1, s = 0,007071 μg
g-1. Hasta un grado prudente de exactitud, los datos podrían expresarse como 0,077 y 0,007,
respectivamente. Desviación estándar relativa = 100s / x = 100 × 0,00707/0,077 = 9,22%, que
se puede redondear a 9%.

Ejercicio 2. Para los resultados proporcionados, x = 5,16286, s = 0,026903, n = 7.


(i) Utilizando el método de la Sección 2.7, para los límites de confianza al 95%, obtenemos: x 
tn s / n = 5,16286 ± (2,45 × 0,026903/ 7) = 5,16286 ± 0,02494 = 5,163 ± 0,025.

(ii) Del mismo modo, los límites de confianza al 99% vienen dados por 5,16286 ± (3,71 ×
0,026903 / 7) = 5,16286 ± 0,0377 = 5,163 ± 0,038.

Ejercicio 3. En este caso, x = 22,32 ng ml-1, s = 1,37663 ng ml-1. Así pues, la desviación
estándar relativa = 100 × 1,37663/22,32 = 6,1677%. Se obtiene un grado prudente de exactitud
dando respuestas como x = 22,3 ng ml-1, s = 1,4 ng ml-1, DER = 6,2%. Los límites de confianza
al 99%, utilizando el valor t, 3,25, vienen dados por 22,32 ± (3,25 × 1,37663/10) = 22,32 ±
1,414818 = 22,3 ± 1,4 ng ml-1.

Para el segundo conjunto de resultados, x = 12,83333 ng ml-1, s = 0,952190 ng ml-1. Así


pues, la desviación estándar relativa = 100 × 0,952190/12,83333 = 7,4197%. Las respuestas
se pueden proporcionar como x = 12,83 ng ml-1, s = 0,95 ng ml-1, DER = 7,4%. Los límites de
confianza al 99% vienen dados por 12,83333 ± (4,03 × 0,952190/6) = 12,83333 ± 1,56658 =
12,8 ± 1,6 ng ml-1.

Ejercicio 4. Tanto la Ecuación (2.8) como la (2.9) se pueden utilizar en este problema, pero la
última es más exacta, de manera que obtenemos límites de confianza al 95% dado que x ± tn
s / n = 10,12 ± (2,01 × 0,64 / 50) = 10,12 ± 0,18 ng ml -1. La amplitud de este intervalo de
confianza = 2 × 0,18 = 0,36 ng ml-1. Se necesita un intervalo más estrecho y, por tanto, un
tamaño de muestra mayor. En este caso, al utilizar la Ecuación (2.8) en lugar de la (2.9) se
introduce un pequeño error. La amplitud del intervalo de confianza al 95% proporcionado por la
Ecuación (2.8) es 2 × 1,96 × s / n, de manera que podemos escribir 0,2 = 2 × 1,96 × 0,64 /
n. Esto conduce al resultado n = 2 × 1,96 × 0,64/0,2 = 12,544, así que n = 157, es decir, se
necesita un tamaño de muestra de aproximadamente 160. Si el tamaño de muestra no fuera lo
suficientemente grande como para permitir utilizar la Ecuación (2.8), se necesitaría aplicar el
método de ensayo y error con la Ecuación (2.9).

Ejercicio 5. Los límites de confianza al 95%, calculados como siempre, aplicando x ± tn s / n,
vienen dados por 49,5 ± (2,26 × 1,5/ 10) = 49,5 ± 1,1 ng ml-1. El intervalo de confianza incluye
50,0 ng ml-1, lo que indica ausencia de error sistemático.

11
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicio 6. En este problema parecido al anterior, los límites de confianza al 95% vienen
dados por 10,178 ± (2,78 × 0,18539/ 5) = 10,18 ± 0,23 ml. Este intervalo incluye 10,00 ml, así
que de nuevo, no hay pruebas de error sistemático.

Ejercicio 7. A partir de la Ecuación (2.11), la desviación estándar de la cantidad de reactivo


utilizada = (0,0001)2 + (0,0001)2 = 0,00014 g. Para 250 ml de una disolución 0,05 M, el peso
del reactivo (de peso molecular 40) necesario = 40 × 0,25 × 0,05 = 0,5 g. Así pues, la DER de
este peso es 100 × 0,00014/0,5 = 0,028%. La DER del volumen es, igualmente, 100 ×
0,05/250 = 0,02%. Utilizando la Ecuación (2.13), la DER de la molaridad viene dada por
0,0282 + 0,022 = 0,034%.

Para 250 ml de una disolución 0,05 M, el peso necesario de un reactivo con peso
molecular 392 = 392 × 0,25 × 0,05 = 4,9 g. La DER de este peso = 100 × 0,00014/4,9 =
0,0029%. La DER del volumen = 100 × 0,05/250 = 0,02%, como antes. Al utilizar la Ecuación
(2.13), la DER de la molaridad = 0,00292 + 0,022 = 0,020%.

Este ejemplo ilustra cómo, cuando se combinan dos DER, la mayor de ellas domina en
el resultado final. A pesar de que la DER del peso se reduce diez veces en el segundo cálculo,
el valor de la DER del volumen no varía. En consecuencia, la DER en la molaridad del segundo
cálculo sólo se reduce aproximadamente un 40%.

Ejercicio 8. Partiendo de la definición del producto de solubilidad, se puede demostrar que la


solubilidad del sulfato de bario = 1,3 × 10-10 = 1,14 × 10-5 M. La DER del producto de
solubilidad = 100 × 0,1 × 10-10 / 1,3 × 10-10 = 7,7%. Utilizando la Ecuación (2.15), la DER de la
solubilidad es la mitad de la DER del producto de solubilidad, es decir, 0,5 × 7,7% = 3,85%. Así
pues, la desviación estándar de la solubilidad = (DER de la solubilidad × media)/100 = 3,85 ×
1,14 × 10-5/100 = 0,44 × 10-6 M.

Ejercicios del Capítulo 3

Ejercicio 1. La Figura 3.A muestra una gráfica de probabilidad normal obtenida utilizando
Minitab.

Figura 3.A

12
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

El diagrama muestra puntos muy próximos a una línea recta y esparcidos aleatoriamente
alrededor de ella. Esto sugiere que los datos podrían haberse obtenido de una población
normal. Se puede hacer una estimación de la media observando el valor correspondiente a una
frecuencia acumulada del 50%, dando aproximadamente 10,2. De hecho, los números fueron
generados por un ordenador como muestra aleatoria de una población normal con media 10 y
desviación estándar 1. Esta opción está disponible, por ejemplo, en Minitab.

De modo alternativo, los datos se pueden ordenar y representar frente al porcentaje de


frecuencia acumulada en un papel probabilístico normal. A continuación se proporciona la tabla
de valores para hacerlo.

Valor % de frecuencia acumulada


8,71 5
8,82 10
8,92 15
9,17 20
9,53 25
9,83 30
9,84 35
9,90 40
10,04 45
10,30 50
10,31 55
10,32 60
10,40 65
10,65 70
10,91 75
11,12 80
11,68 85
11,69 90
11,88 95
x-μ
Ejercicio 2. Calcular t = (véase la Ecuación (3.1)).
s / n

0,482 - 0,496
Para la muestra 1, t = = -1,54, dando ltl = 1,54.
0,0257/ 8
Los valores de ltl para las otras muestras son 1,60, 1,18 y 1,60.

Hay siete grados de libertad y el valor crítico de |t| es 2,36. Ninguno de los valores
calculados excede este valor, de manera que ninguno de los valores medios medidos difiere
significativamente del valor certificado correspondiente.

Ejercicio 3. (a) Se puede utilizar tanto el contraste de Dixon como el de Grubbs. En primer
lugar, es preciso ordenar los valores por tamaño:

1,84 1,85 1,91 1,92 1,92 1,94 2,07.

Para aplicar el contraste de Dixon, utilicemos la Ecuación (3.8):


Q = |valor sospechoso valor más cercano| / (valor más grande - valor más pequeño)
|2,07 1,94|
= = 0,565.
2,07 1,84
El valor crítico de la Q (P = 0,05) para un tamaño muestral 7 es 0,570, por lo que no se
rechaza la medida sospechosa al nivel del 5%.

Como alternativa, para aplicar el contraste de Grubbs, utilicemos la Ecuación (3.9):


1,92|
|2,07­
G = |valor sospechoso – x | / s = = 1,984.
0,0756

13
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

El valor crítico (P = 0,05) es 2,02. Así pues, el valor sospechoso tampoco se rechaza al
nivel de significación del 5%.
s 12
(b) Utilice un contraste F. A partir de la Ecuación (3.7), F = , donde s1 y s2 se disponen en
s2 2

la ecuación de modo que F ≥ 1, siendo F = 0,44052 / 0,075592 = 34. El valor crítico es F7.7 =
4,995 (P = 0,05) para un contraste de dos colas. Ya que el valor calculado de F excede a éste,
queda constancia de que las varianzas difieren significativamente al nivel de significación del
5%.

Observe que los cálculos tanto en el apartado (a) como en el (b) presuponen que las
muestras se han extraído de poblaciones normales. No hay datos suficientes en este ejemplo
para elaborar una gráfica de probabilidad normal: resultaría útil debatir con los alumnos sobre
la probabilidad de que los datos se distribuyan normalmente (es decir, cuando una variable se
mide para un número de personas distintas).
s 12
Ejercicio 4. (a) Utilice un contraste F. A partir de la Ecuación (3.7), F = , donde s1 y s2 se
s 22
disponen en la ecuación de modo que F ≥ 1. Las varianzas son 183,95 para la muestra de
pepino y 108,48 para la muestra de tomate (unidades μg2 g-2), dando F = 183,95/108,48 = 1,70.
El valor crítico es F6,6 = 5,82 (P = 0,05) para un contraste de dos colas. Ya que el valor
calculado de F no excede a este, llegamos a la conclusión de que las varianzas no difieren
significativamente.

(b) Dado que las varianzas no difieren de forma significativa, se pueden combinar utilizando la
Ecuación (3.3) para calcular una estimación global de varianza.
2 2
(n  1) s 1 + (n2  1) s 2 6×183,95+6×108,48
s = 1
2
= = 146,215
n1 + n2 - 2 7+7-2
s = 12,09.

Las medias de muestra son 780,9 para el pepino y 772,6 para el tomate (unidades μg g-
1
).
(x1  x2) 780,9 – 772,6
Si utilizamos la Ecuación (3.2), t = = = 1,28.

s 1 1
n1 + n2 √
12,09 1
7
+
1
7

Para un contraste de dos colas, el valor crítico es 2,18 (P = 0,05), de manera que las
medias no difieren de forma significativa.

De nuevo, los cálculos de esta pregunta y de todas las siguientes de este ejercicio
presuponen que las muestras se obtienen de poblaciones normales. En este caso, esta sería
una suposición lógica ya que los valores de muestra son medidas de réplica.

Ejercicio 5. En este ejemplo, es necesario comparar varias medias de muestra distintas y, por
tanto, el análisis de varianza es apropiado. La tabla que aparece a continuación muestra el
resultado de llevar a cabo un ANOVA de un factor utilizando Minitab. El cuadrado medio entre
muestras = 2121,9 y el cuadrado medio dentro de muestras = 8,10. La tabla muestra que el
agua recuperada difiere significativamente entre distintas profundidades, dado que F = 292
(entero más próximo) y que la probabilidad de este resultado es 0,000 hasta tres cifras
significativas. [El valor crítico de F3,20 (P = 0,05, contraste de una cola) es 3,098].

14
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Análisis de la varianza de factor único

Análisis de varianza
Fuente gl      SC      CM      F Valor de P
Factor  3 6365,71 2121,90 261,92 0,000
Error 20  162,03    8,10
Total 23 6527,74

IC al 95% individual para la media basada
en la desviación estándar conjunta
Nivel N Media Desviación ­­­­+­­­­­­­­­+­­­­­­­­­+­­­­­­­­­+­­
estándar
Profundidad 7 m 6 34,117 2,453 (­*­)
Profundidad 8 m 6 45,367 1,571           (­*­)
Profundidad 16 m 6 72,233 2,111 (­*­)
Profundidad 23 m 6 70,36 4,412                                 (­*­)
                                        ­­­­+­­­­­­­­­+­­­­­­­­­+­­­­­­­­­+­­
Desviación estándar conjunta = 2,846        36        48        60        72

El análisis Minitab incluye un diagrama que muestra el intervalo de confianza para la


media en cada nivel, calculado con el valor de la desviación estándar conjunta, que en este
caso es igual a 8,1014 = 2,846. Este diagrama indica que el resultado significativo se debe a
que los dos primeros niveles difieren entre sí y, a la vez, son diferentes de los dos niveles más
bajos.

Se puede comprobar esta afirmación calculando la mínima diferencia significativa =


s2 / n × th (n-1) = 8,1014 × 2 / 6 × t4x5.

Si tomamos t20 = 2,09 (P = 0,05, contraste de dos colas), obtenemos una mínima
diferencia significativa de 3,43. Las medias, en orden ascendente de tamaño, son 34,1 (a 7 m),
45,4 (a 8 m), 70,4 (a 23 m) y 72,2 (a 16 m). Las diferencias entre medias consecutivas son
11,3, 25,0 y 1,8. Comparando estas diferencias con la mínima diferencia significativa,
observamos que no existe diferencia significativa entre las dos profundidades más bajas: el
resultado significativo se debe a que los dos resultados más altos se diferencian
significativamente entre sí y, a la vez, son diferentes de las dos profundidades más bajas.

En la Sección 3.9 ya se mencionó que el método de la mínima diferencia significativa


no es riguroso al cien por cien, debido a que es equivalente a obtener una diferencia
significativa entre dos medias para cada par de muestras (véase la Sección 3.3). Si la hipótesis
nula es verdadera y las medias muestrales son todas iguales, la probabilidad de resultados no
significativos para un test al nivel del 5%, utilizando este método, es 0,95 n, donde n es el
número de pares de muestras posibles. La probabilidad de al menos una diferencia significativa
es, por tanto, 1 - 0,95n. En este ejemplo, donde hay seis pares posibles, esta probabilidad es
0,265, considerablemente superior al nivel significativo global necesario del 5%. Como
consecuencia, el método de la mínima diferencia significativa puede proporcionar un par de
valores que difieran significativamente, incluso cuando el cálculo del ANOVA global muestra
que no hay diferencia significativa entre las medias.

La homogeneidad de la varianza es un supuesto que se obtiene al realizar el ANOVA.


Minitab permite contrastar ese supuesto. El resultado obtenido se ilustra a continuación.

15
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Homogeneidad de la varianza

Respuesta C13
Factores C14
Nivel de confianza 95,0000

Intervalos de confianza de Bonferroni para desviaciones estándar

Inferior Sigma Superior N Niveles del factor

1,36210    2,45309 8,1517 6 1


0,87207    1,57056 5,2190 6 2
1,17193    2,11061 7,0136 6 3
2,44985    4,41210 14,6616 6 4

Prueba de Bartlett (distribución normal)

Estadístico de la prueba : 5,575
Valor P : 0,134

Prueba de Levene (cualquier distribución continua)

Estadístico de la prueba : 1,260
Valor P : 0,315

Los valores P están por encima de 0,05, demostrando que el supuesto de


homogeneidad de la varianza para este ejemplo es válido. El manual del Minitab proporciona
más detalles sobre estas pruebas y referencias para la prueba de Levene. La Bibliografía del
Capítulo 3 también ofrece referencias de textos sobre pruebas de homogeneidad de varianza.

Ejercicio 6. En primer lugar, es necesario emplear un contraste F para comprobar si las


varianzas de las dos muestras difieren de forma significativa. A partir de la Ecuación (3.7),
2
s1
F= 2
, donde s1 y s2 se disponen en la ecuación de modo que F ≥ 1. Las varianzas son
s2

0,01577 para la muestra de hombres y 0,0026667 para la muestra de mujeres (unidades μmol2
g-2), siendo F = 0,01577/0,0026667 = 5,9135. El valor crítico es F7,3 = 14,62 (P = 0,05) para un
contraste de dos colas. Ya que el valor calculado de F no excede a éste, la conclusión que
deriva de este ejercicio es que las varianzas no difieren significativamente. Como
consecuencia, se pueden combinar las varianzas y realizar un contraste de diferencia entre
medias utilizando la Ecuación (3.2). En primer lugar, se calcula la estimación conjunta de la
varianza a partir de la Ecuación (3.3):
(n – 1)s12 + (n2 – 1)s22 7 × 0,01577 + 3 × 0,0026667
s2 = 1 = = 0,011844
n1 + n2 - 2 8+4-2
s = 0,109.
(x1  x2) 0,40 – 0,32
Utilizando la Ecuación (3.2), t = = = 1,20.

s 1 1
n1 + n2
0,109
√ 1
8
+
1
4

El valor crítico, t10 = 2,23 (P = 0,05, contraste de dos colas). Como el valor experimental
de |t| es inferior a éste, no existe constancia de que la concentración de norepinefrina difiera
entre sexos.

Ejercicio 7. La hipótesis nula es que todos los dígitos son iguales, por lo que la frecuencia
esperada para cada uno es 50/10 = 5. Utilizamos un contraste chi-cuadrado con el estadístico
X2 calculado en la Ecuación (3.12). El cálculo se plantea más fácilmente en una tabla como la
siguiente.

16
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Dígito Frecuencia Frecuencia (Oi – Ei)2/Ei


observada, Oi esperada, Ei
0 1 5 3,2
1 6 5 0,2
2 4 5 0,2
3 5 5 0
4 3 5 0,8
5 11 5 7,2
6 2 5 1,8
7 8 5 1,8
8 3 5 0,8
9 7 5 0,8

Total, X2 = 16,8

Hay 9 grados de libertad y el valor crítico es 16,92 (P = 0,05). El resultado no es


significativo al nivel del 5%, por lo que a este nivel de significación no hay suficientes pruebas
para afirmar que se prefieren unos dígitos a otros. No obstante, la frecuencia del dígito 5 es
mucho más alta que las otras frecuencias y, como siempre, merece la pena obtener más
pruebas.

Ejercicio 8. Para cada material, primeramente es necesario emplear el contraste F para probar
si las varianzas de las dos muestras difieren significativamente. Si partimos de la Ecuación
2
s1
(3.7), F = 2
, donde s1 y s2 se disponen en la ecuación de modo que F ≥ 1. El valor crítico es
s2

F4.4 = 9,605 (P = 0,05, contraste de dos colas). Los valores experimentales de F son:

Pino: 0,262/0,142 = 3,449


Haya: 0,802/0,442 = 3,306
Planta acuática: 4,662/2,632 = 3,139.

Ningún valor es significativo y, por tanto, se pueden combinar las varianzas utilizando la
Ecuación (3.3).

2 2
(n1 – 1)s1 + (n2 – 1)s2
s2 = .
n1 + n2 - 2

Al realizar la sustitución, obtenemos los siguientes valores de s2 para los tres


materiales:

Pino: 0,0436
Haya: 0,4168
Planta acuática: 14,316.
(x1  x2)
Con la Ecuación (3.2), t = , se obtienen los siguientes valores de |t|:
s
√ 1 1
n1 + n2
Pino: 2,27
Haya: 5,27
Planta acuática: 3,73.

Para un contraste de dos colas, los valores críticos son t8 = 2,31 (P = 0,05) y t8 = 3,39
(P = 0,01), lo que significa que las medias no difieren significativamente al nivel del 5% para las
muestras de pino, pero sí difieren al nivel de significación del 1% en las muestras de haya y de
planta acuática.

17
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicio 9. (a) La hipótesis nula es que el primer trabajador no difiere de los otros tres. Esto
significa que se espera que el primer trabajador tenga 15,25 roturas y que los otros tres tengan
en total 15,25 × 3 = 45,75 roturas. En este ejemplo, el número de grados de libertad es 1; así
pues, se debería aplicar la corrección de Yates. A continuación se muestra el cálculo realizado
en una tabla, donde Oi es la frecuencia observada y Ei la frecuencia esperada:

Oi Ei |Oi - Ei | |Oi - Ei | - ½ {|Oi - Ei | - ½}2/Ei


24 15,25 8,75 8,25 4,463
37 45,75 8,75 8,25 1,488
Total, X2 = 5,951

El valor crítico para el grado de libertad 1 es 3,84 (P = 0,05). Dado que 5,9513,84, la
hipótesis nula se descarta: hay evidencia de que el primer trabajador difiere de los otros tres.
Observemos que el contraste no muestra en qué dirección difiere el primer trabajador de los
otros. Esto se debe deducir a partir de los datos. En este caso, es evidente que el primer
trabajador es más propenso a los accidentes.

(b) La hipótesis nula es que el segundo, tercero y cuarto trabajadores no difieren entre sí. Si
este es el caso, entonces se espera que el número total de roturas de 37 se divida por igual
entre cada uno de ellos, obteniendo frecuencias esperadas de 37/3. El cálculo de X2 se
muestra en la siguiente tabla.

Frecuencia observada, Oi Frecuencia esperada, Ei |Oi - Ei |2/Ei


17 37/3 1,77
11 37/3 0,14
9 37/3 0,90
Total, X2 = 2,81

Existen dos grados de libertad; así pues, el valor crítico (P = 0,05) es 5,99. El resultado
no es significativo y no hay datos para afirmar que los tres últimos trabajadores difieren
significativamente en la falta de cuidado de cada uno de los otros.

Ejercicio 10. El contraste t para datos emparejados es el más adecuado para este ejemplo, ya
que se emplean dos métodos en un número de muestras. Las diferencias entre la primera y la
segunda medición son 1,5, 1,4 y 0,7 para la primera, segunda y tercera muestras,
respectivamente. La media de estos valores es d = -0,73333 y su desviación estándar es sd =
1,2423. Si tomamos la Ecuación (3.6):

= -0,73333  3 = -1,02.
d n
t=
sd 1,2423
El valor experimental de |t| es 1,02 y el valor crítico, t2, es 4,30 (P = 0,05, contraste de
dos colas). Los resultados obtenidos por los dos métodos no difieren significativamente.

Con frecuencia, los estudiantes tienen dificultades a la hora de decidir si resulta


apropiado aplicar un contraste para datos emparejados o uno para datos no emparejados. Si
los tamaños muestrales son distintos (como en el Ejercicio 6), entonces está claro que no se
puede llevar a cabo un contraste para datos emparejados. Pero, ¿qué ocurre cuando los
tamaños muestrales son iguales? Para resolver este problema, basta con indagar si se altera el
significado de los datos cuando se altera el orden de una muestra. Por ejemplo, en esta
pregunta, ¿se alterará el significado de los datos si se modifica el orden de los valores para el
método enzimático en la tabla a 21,6, 31,1 y 31,0? Claramente, la respuesta es “sí” porque el
valor 29,6 se asigna ahora a la muestra número 1, en lugar de a la muestra número 2, como
ocurría anteriormente. Compárese esta situación con la del Ejercicio 4. En este caso, existen
números iguales de medidas en ambas muestras, pero la interpretación de los datos no se ve
afectada si se modifica el orden de los valores.

Ejercicio 11. Esta es una pregunta para la que se requiere comparar varias medias, por lo que
el análisis de varianza es el método apropiado. A continuación se muestra el resultado de un
ANOVA de un factor utilizando Minitab.

18
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Análisis de varianza de un factor

Análisis de varianza
Fuente gl SC CM F P
Factor 5 0,5718 0,1144 2,57 0,048
Error 30 1,3357 0,0445
Total 35 1,9075

IC al 95% individual para la media basada
en la desviación estándar conjunta
Nivel N Media Desviación estándar  ­+­­­­­­­­­+­­­­­­­­­+­­­­­­­­­+­­­­­
A 6 84,537 0,121                    (­­­­­­­­*­­­­­­­­)
B 6 84,222 0,142     (­­­­­­­­*­­­­­­­­)
C 6 84,402 0,146      (­­­­­­­­*­­­­­­­­)
D 6 84,243 0,158      (­­­­­­­­*­­­­­­­­)
E 6 84,158 0,275  (­­­­­­­­*­­­­­­­­)
F 6 84,293 0,332         (­­­­­­­­*­­­­­­­­)
­+­­­­­­­­­+­­­­­­­­­+­­­­­­­­­+­­­­­
Desviación estándar conjunta =  0,211   84,00     84,20     84,40     84,60

El cuadrado medio entre muestras = 0,1144 y el cuadrado medio dentro de muestras =


0,0445. Esto da como resultado F = 2,57. La probabilidad de este valor (o un valor superior) es
0,048. Como esta cantidad es menor que 0,05, el resultado es significativo al nivel del 5%; a
este nivel significativo hay evidencia de que las medias obtenidas por los analistas difieren.

Mínima diferencia significativa = s2 / n × th(n-1) = 0,0445 × 2 / 6 × t65.

Si tomamos t30 = 2,04 (P = 0,05, contraste de dos colas), se obtiene una mínima
diferencia significativa de 0,25. La comparación entre pares de trabajadores sugiere que el
resultado significativo se debe a que el trabajador A difiere de los trabajadores B, D y E. Sin
embargo, obsérvese el comentario del Ejercicio 5 sobre el nivel de significación efectivo cuando
se emplea el método de la mínima diferencia significativa. En este caso, hay 15 pares posibles
de muestras para comparar, obteniendo un nivel de significación efectivo de 1  0,9515 = 0,54
para este método. Esto señala que algunas diferencias significativas entre analistas podrían
deberse a una variación aleatoria más que una diferencia real entre medias de población. No
obstante, téngase en cuenta que los intervalos de confianza para los analistas A y E del
diagrama anterior no se solapan.

La homogeneidad de varianza es un supuesto que se obtiene al realizar el ANOVA.


Minitab permite contrastar ese supuesto. El resultado obtenido se ilustra a continuación.

Homogeneidad de la varianza

Respuesta C1
Factores C2
Nivel de confianza 95,0000

Intervalos de confianza de Bonferroni para desviaciones estándar

Inferior   Sigma Superior N Niveles del factor

0,065240 0,120941 0,43805 6 1


0,076396 0,141622 0,51295 6 2
0,078723 0,145934 0,52857 6 3
0,085407 0,158325 0,57345 6 4
0,148299 0,274912 0,99573 6 5
0,179324 0,332425 1,20404 6 6

19
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Prueba de Bartlett (distribución normal)

Estadístico de la prueba : 8,277
Valor P : 0,141

Prueba de Levene (cualquier distribución continua)

Estadístico de la prueba : 2,071
Valor P : 0,097

(El Ejercicio 5 proporciona referencias para obtener más detalles acerca de estas pruebas).

Ejercicio 12. La media de los hombres es = 40,0 y la desviación estándar = 2,777 g l -1. La
media de las mujeres es = 43,25 y la desviación estándar = 3,059 g l -1.

En primer lugar, es necesario utilizar el contraste F para comprobar si las varianzas de


las dos muestras difieren significativamente.

s 12
Si tomamos la Ecuación (3.7), F = , donde s1 y s2 se disponen en la ecuación de
s 2
2

modo que F ≥ 1, siendo F = 3,0592/2,7772 = 1,21. El valor crítico es F7.7 = 4,995 (P = 0,05) para
un contraste de dos colas. Ya que el valor calculado de F no excede a éste, llegamos a la
conclusión de que las varianzas no difieren significativamente. Como consecuencia, se pueden
combinar las varianzas y realizar un contraste de diferencia entre medias utilizando la Ecuación
(3.2). En primer lugar, se calcula la estimación conjunta de la varianza a partir de la Ecuación
(3.3):
(n1 – 1)s12 + (n2 – 1)s22 7 × 3,0592 + 7 × 2,7772
s2 = = = 8,5346
n1 + n2 - 2 8+8-2
s = 2,92.
(x1  x2) 40,0 – 43,25
Utilizando la Ecuación (3.2), t = = = -2,23.

s 1 1
n1 + n2
2,92
√ 1
8
+
1
8

El valor crítico, t14 = 2,14 (P = 0,05, contraste de dos colas). Como el valor experimental
de |t| es superior a éste, las concentraciones medias de albúmina para hombres y mujeres
difieren significativamente.

Ejercicio 13. Un contraste t para datos emparejados es el más adecuado para este ejemplo,
dado que se emplean dos métodos para un número de muestras (véase el Ejercicio 10 para
consultar las formas de ayudar a los estudiantes a decidir si un contraste para datos
emparejados es el más adecuado). Las diferencias entre la primera y la segunda medición son:
2,8; 0,3; 0,9; 0,9; 1,1; 1,1. La media y la desviación estándar de estas diferencias son d = 1,183
y sd = 0,845, respectivamente. Si tomamos la Ecuación (3.6):
d n 1,183  6
t= = = 3,43.
sd 0,845
El valor experimental de |t| es 3,43 y el valor crítico, t5, es 2,57 (P = 0,05, contraste de
dos colas). Los resultados obtenidos por los dos métodos sí difieren significativamente.

Ejercicio 14. Supongamos que n es el tamaño de muestra requerido y que xc es el valor crítico
para la media muestral. Si H0 es verdadera, entonces la distribución muestral de la media será
normal con media 3,00 y desviación estándar = 0,036/n. Necesitamos que P (media muestral
≥ xc) = 0,01. Esto significa que F(z) = 0,99 (véase Sección 2.2). Partiendo de la Tabla A.1 del
Apéndice, el valor correspondiente de z es 2,33. Si utilizamos la Ecuación (2.4), obtenemos:
x-μ x -μ x - 3,00
z= = c ; así pues, 2,33 = c .
σ σ / n 0,036 / n

20
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Si ordenamos los datos, obtenemos xc - 3,00 = 2,33 × 0,036 . (1)


n
Si H1 es verdadera, entonces la distribución muestral de la media será normal con
media 3,05 y desviación estándar = 0,036/ n. Necesitamos que P (media muestral ≤ xc) = 0,01.
Esto significa que F (z) = 0,01. Tomando la Tabla A.1 como referencia, el valor correspondiente
de z es -2,33. Si utilizamos la Ecuación (2.4), obtenemos:
x-μ x -μ x - 3,05
z= = c ; así pues, -2,33 = c .
σ σ / n 0,036 / n

0,036
Si ordenamos los datos, obtenemos xc - 3,05 = -2,33 × . (2)
n
Si restamos la Ecuación (2) a la Ecuación (1), obtenemos:
0,036
0,05 = 2 × 2,33 × .
n

Al resolver esta ecuación, obtenemos n = 11,2, cifra que redondeamos al número


entero más cercano, es decir, 12.

Ejercicios del Capítulo 4

Ejercicio 1. En este ejercicio se utilizan los principios de la estrategia de muestreo que se


resumen en la Sección 4.4. Para cada uno de los esquemas de muestreo, la varianza global,
2
2, posee distintas contribuciones que se obtienen de la varianza de las medidas, 0 (aquí = 4)
2
y de la varianza muestral, 1 (aquí = 10). Sin embargo, estas contribuciones no son iguales en
los dos esquemas. En el Esquema 1, la mezcla de los cinco incrementos de muestra (h) junto
2
con las medidas duplicadas (n) sobre la mezcla da un valor 2 de 0 /n + 1 /h = 4/2 + 10/5 = 4.
2

En el Esquema 2 se realiza un análisis por duplicado de cada uno de los tres incrementos, por
lo que el valor de 2 viene determinado por 20 /nh + 1 /h = 4/[2 × 3] + 10/3 = 4, como en el otro
2

esquema.

Se pueden comparar los costes relativos de ambos esquemas si tomamos S como el


coste de muestreo y A como el coste del análisis. De este modo, el coste total en el Esquema 1
es 5S + 2A, mientras que en el Esquema 2 es 3S + 6A. Intentamos buscar situaciones para que
el último coste sea más bajo, es decir, 5S + 2A > 3S + 6A, o bien 2S > 4A, o bien S > 2A. El
Esquema 2, que implica menos muestreos pero más análisis, resulta más económico sólo si el
coste de muestreo es mayor que el doble del coste del análisis.

Se puede animar a los estudiantes a que consideren casos opuestos en los que el
proceso de muestreo sea el paso menos económico (por ejemplo, cuando los materiales a
granel son tóxicos, radiactivos, casi inaccesibles, etc.) y otros factores relevantes como el
tiempo que llevan los pasos de muestreo y de análisis.

Ejercicio 2. Este es un ejemplo sencillo de cálculos del ANOVA con un factor de efecto
2
aleatorio: aparte del error inevitable en la medida, varianza 0, cualquier variación que se
produzca en la concentración de albúmina día a día también será aleatoria, con una varianza
12. A continuación se muestran los cálculos de la salida del ANOVA proporcionados por Excel.

21
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Anova de un factor

RESUMEN
Grupos Frecuencia Suma Promedio Varianza
Fila 1 3 186 62 1
Fila 2 3 169 56,333 0,333
Fila 3 3 142 47,333 5,333
Fila 4 3 170 56,667 6,333

ANOVA
Fuente de  SC gl CM F Valor P F crít
variació
n
Entre días 332,92 3 110,97 34,15 6,58E­05 4,066
Dentro de días 26,00 8 3,25

Total 358,92 11

La tabla muestra que la aplicación del contraste F en la comparación de las variaciones


2
entre días y dentro de días (0) da un valor F de 34,15, superior al valor crítico (P = 0,05,
contraste de una cola) que es 4,066. La probabilidad de que esto ocurra de forma aleatoria
(0,0000658) es mínima, así que podríamos inferir con bastante seguridad que la variación entre
2
días es significativamente mayor que 0. Por tanto, la variación día a día o variación muestral,
2
1, viene dada (véase la Sección 4.3) por (cuadrado medio entre días  cuadrado medio dentro
de días)/n = (110,97 – 3,25)/3 = 35,91.

Estos cálculos son relativamente fáciles con la ayuda de Excel o de un programa


similar. El punto más importante que se debe destacar es que la variación entre días no es una
medida directa de 21, ya que incluye una contribución de 20. Los estudiantes también han de
tener en cuenta que las concentraciones de proteínas, como la albúmina, en una persona
varían en realidad de un día a otro e, incluso, de una hora a otra. Asimismo dependerán de
factores como la alimentación, la posición (es decir, si el individuo se encontraba de pie,
sentado o tumbado durante la toma de la muestra) y, claro está, su estado de salud. Todos
estos factores contribuirán a la “variación muestral”, a menos que se tomen las precauciones
adecuadas; por ejemplo, tomar la muestra a la misma hora todos los días.

Ejercicio 3. Este ejemplo también requiere el uso de ANOVA con un factor de efecto aleatorio,
pero teniendo en cuenta que cualquier variación en las concentraciones de halofuginona en las
diferentes partes del hígado está más allá del control experimental. De esta manera, la tabla de
ANOVA en Excel abajo indicada es muy parecida, y puesto que los números de las muestras y
las medidas repetidas son las mismas que en el Ejercicio 2, el valor crítico de F es el mismo.
En este caso, el valor experimental de F también es mayor, por lo que el cuadrado medio entre
muestras es demasiado grande como para que se deba únicamente a un error de medida
2
aleatorio. El valor de 0 viene dado por el cuadrado medio dentro de muestras, es decir,
0,000175 y la varianza muestral, 21, viene determinada como en el caso anterior por: (0,000831
 0,000175)/3 = 0,000219.

Anova de un factor

RESUMEN
Grupos Frecuencia Suma Promedio Varianza
Fila 1 3 0,7 0,2333 0,000233
Fila 2 3 0,61 0,2033 0,000233
Fila 3 3 0,6 0,2 1E­04
Fila 4 3 0,68 0,2267 0,000133

22
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

ANOVA
Fuente de  SC gl CM F Valor P F crít
variación
Entre muestras 0,002492 3 0,000831 4,746 0,03475 4,066
Dentro de muestras 0,0014 8 0,000175

Total 0,003892 11

Utilizando los mismos principios que en el Ejercicio 1 podemos conocer la varianza total
para los dos esquemas de muestreo tal y como aparece a continuación:
Esquema 1: 2 = (0,000175/4) + (0,000219/6) = 0,00008025.
Esquema 2: 2 = (0,000175/[2  3]) + (0,000219/3) = 0,0001022.

Ejercicio 4. El problema más evidente al determinar la capacidad del proceso, , es que no se


debe permitir que las variaciones en la media del proceso influyan en el resultado. Esto se
consigue calculando un número de distintas estimaciones de  en varias ocasiones y
realizando el promedio de los resultados. En este caso, si se calculan las seis muestras por
separado, sus varianzas son 2,607, 0,697, 1,487, 3,633, 6,417 y 1,927. La media de estos
valores es 2,795, cuya estimación de  es 1,672. Con un cálculo alternativo y, quizás, más
sencillo se puede determinar el rango, R, para cada muestra. Del valor medio, R, se obtiene la
estimación de  mediante la Ecuación (4.4). En este ejercicio, los valores de rango son 3,4, 2,0,
2,8, 4,1, 5,9 y 2,5. La media de dichos resultados es 20,7/6 = 3,45. Si esto lo dividimos entre el
valor apropiado de d1, que es 2,059, obtenemos 1,676 (este valor no es igual que el anterior, ya
que la relación entre la desviación estándar y el rango tan sólo es exacta cuando se realiza la
media de un número infinito de muestras). Utilizando el valor anterior, las líneas de aviso del
diagrama de Shewhart para la media se encuentran a 50  (2  1,672)/4 = 50  1,672 y las
líneas de acción a 50  (3  1,672)/4 = 50  2,508. Por otra parte, las líneas de aviso y de
acción para este diagrama vienen determinadas por las Ecuaciones (4.9) y (4.10), donde los
valores de W y A (0,476 y 0,750, respectivamente), junto con el valor de R, 3,45, dan como
resultado 50  1,64 y 50  2,59, respectivamente. Así, podemos comprobar de nuevo que, por
la misma razón, estos resultados no son exactamente iguales que los derivados del valor de .

Las líneas de aviso y de acción del diagrama de control para el rango, para el que el
valor objetivo es R = 3,45, vienen dadas por las Ecuaciones (4.5)(4.8). Por tanto, los
resultados obtenidos son: la línea de aviso inferior se encuentra a 3,45  0,2888 = 1,00; la línea
de aviso superior a 3,45  1,935 = 6,68; la línea de acción inferior a 3,45  0,097 = 0,33 y la
línea de acción superior se encuentra a 3,45  2,579 = 8,90.

Obsérvese que la desviación estándar realizada en las 24 medidas a la vez es 2,33.


Esto significa aproximadamente un 40 por ciento más que el valor estimado anteriormente, al
tratar las 6 muestras por separado; es decir, es un resultado que destaca la importancia de
determinar el valor de  sin depender de fluctuaciones en la media del proceso. El análisis de
los datos originales indica que dichas fluctuaciones son de gran importancia en este ejercicio.

Ejercicio 5. A continuación (Figura 4.A) se muestra una representación gráfica de Youden para
dos muestras de este conjunto de datos: las líneas señalan las medias de las medidas en la
muestra A (7,01) y en la muestra B (7,75), y se muestra la línea de 45 a través del punto (7,01,
7,75). Como ocurre en la mayoría de los ensayos de colaboración, los errores sistemáticos
predominan, por lo que los resultados obtenidos por los diferentes laboratorios son tan bajos
como ca. 3 ppm y tan altos como ca. 12 ppm para los mismos materiales. Hay menos errores
aleatorios: 13 de los 15 puntos se encuentran en los cuadrantes (+, +) y (, ), mientras que si
los errores aleatorios predominaran, aparecerían números de puntos aproximadamente iguales
en cada uno de los cuadrantes. El error aleatorio para un laboratorio concreto viene
determinado por la distancia perpendicular del punto para dicho laboratorio desde la línea de
45. De acuerdo con este criterio, tan sólo los laboratorios 4 y 15 muestran unos errores
aleatorios de gran importancia.

23
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Figura 4.A

Estas conclusiones están respaldadas por los cálculos numéricos (véase abajo). Se
calculan los valores de D (diferencias entre los dos resultados) para cada laboratorio
(proporcionando resultados como 1,2, 0,9, 2,0, etc.) y su media es 0,74. Del mismo modo,
se hallan las sumas de los dos valores, T (18,8, 8,5, 22,2, etc.) y sus medias son 14,75. Las
medias obtenidas se pueden utilizar para determinar los valores de (D  D) (0,46, 0,16,
1,26, etc.) y los valores de (T  T) (4,05, 6,25, 7,45, etc.), así como sus cuadrados. Por tanto,
la Ecuación (4.15) muestra que la varianza de la medida, s2r , viene dada por 22,22/28 = 0,793,
2
mientras que la Ecuación (4.16) muestra que la varianza total, sR, es 308,76/28 = 11,027. En el
sentido estricto de la palabra, debemos afirmar que estas dos varianzas difieren de forma
significativa al calcular F = 11,027/0,793 = 13,905. El valor crítico (P = 0,05, contraste de una
cola) de F14.14 es 2,48, por lo que la varianza global es claramente mucho mayor que la varianza
de la medida aleatoria. Es obvio que la varianza global está sujeta a la varianza, debido a los
2
errores sistemáticos entre los laboratorios, sL, que vienen determinados por la Ecuación (4.17)
como (11,027 0,793)/2 = 5,117. (Como se manifiesta en el libro de texto, este cálculo es una
forma más sencilla del ANOVA de dos factores: véase el Capítulo 7). Por último, se observa
que la media global de todas las medidas es 14,75/2 = 7,38 ppm. La desviación estándar global
es 11,027 = 3,32 ppm, de manera que la desviación estándar relativa es 332/7,38 = 45%. Este
resultado es mucho más alto que el valor que se predice mediante la relación de Horwitz para
medidas a un nivel de aproximadamente 7,5 ppm (cerca del 12 por ciento), por lo que
podríamos concluir que existen dificultades específicas para realizar las determinaciones del
nivel de cadmio de forma exacta, o bien que los laboratorios implicados en este ensayo no
reunían las condiciones previas normales de las pericias analíticas.

24
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

A B D T D–D T–T (D – D)2 (T – T)2


8,8 10 -1,2 18,8 -0,46 4,047 0,212 16,376
3,8 4,7 -0,9 8,5 -0,16 -6,253 0,026 39,104
10,1 12,1 -2 22,2 -1,26 7,447 1,588 55,453
8 11 -3 19 -2,26 4,247 5,108 18,034
5 4,7 0,3 9,7 1,04 -5,053 1,082 25,536
5,2 6,4 -1,2 11,6 -0,46 -3,153 0,212 9,944
6,7 8,7 -2 15,4 -1,26 0,647 1,588 0,418
9,3 9,6 -0,3 18,9 0,44 4,147 0,194 17,195
6,9 7,5 -0,6 14,4 0,14 -0,353 0,02 0,125
3,2 2,8 0,4 6 1,14 -8,753 1,3 76,621
9,7 10,4 -0,7 20,1 0,04 5,347 0,002 28,587
7,2 8,3 -1,1 15,5 -0,36 0,747 0,13 0,558
6,5 6,8 -0,3 13,3 0,44 -1,453 0,194 2,112
9,7 7,2 2,5 16,9 3,24 2,147 10,498 4,608
5 6 -1 11 -0,26 -3,753 0,068 14,088
Medias: Sumas:
7,007 7,747 -0,74 14,753 22,216 308,757
Varianzas:
0,793 11,027

Ejercicio 6. Este problema se resuelve utilizando los valores tabulados (n = 5) de W y A (para


el diagrama de Shewhart para la media), y de w1, w2, a1 y a2 (para el diagrama de rangos), junto
con las Ecuaciones (4.9) y (4.10) en el caso del diagrama de la media y con las Ecuaciones
(4.5)(4.8) para hallar el diagrama de rangos. Los resultados pueden resumirse de la forma
siguiente:

Diagrama de la media: W = 0,377. Las líneas de aviso están en 120  (0,377  7) = 120  2,64.
A = 0,594. Las líneas de acción están en 120  (0,594  7) = 120  4,16.
Diagrama de rangos: w1 = 0,365. La línea de aviso inferior está a 7  0,365 = 2,56.
w2 = 1,804. La línea de aviso superior está a 7  1,804 = 12,63.
a1 = 0,158. La línea de acción inferior está a 7  0,158 = 1,11.
a2 = 2,358. La línea de acción superior está a 7  2,358 = 16,51.

Con estos resultados queda clara la asimetría de las líneas en el diagrama de rangos.

Ejercicio 7. En este ejemplo el valor de  es 0,6 mg 100 ml-1, de manera que el diagrama de
Shewhart para la media puede representarse con las líneas de aviso y de acción en 80  (2 
0,6)/4 y 80  (3  0,6)/4 mg 100 ml-1, es decir, en 80  0,6 y 80  0,9 mg 100 ml-1,
respectivamente. El diagrama se muestra en la Figura 4.B (puesto que los niveles de alcohol
medidos tienden a caer, solamente toman importancia en este ejercicio las líneas de aviso y
acción inferiores). Si se aplican criterios más sencillos, el proceso (que en este caso es de tipo
analítico) únicamente se detendría el día 15, es decir, cuando hay dos puntos sucesivos fuera
de la línea de aviso inferior. Este resultado no es adecuado, ya que como se refleja claramente
en el diagrama, a partir del día 8, aproximadamente, existe una tendencia descendente en los
resultados con un promedio de aproximadamente 80 mg 100 ml -1 durante los primeros cinco
días y sólo de 79 mg 100 ml -1 durante los últimos cinco días. A veces se aplican otros criterios
para averiguar dichas tendencias en el diagrama de Shewhart: en este caso, el criterio de seis
puntos decrecientes sucesivos haría que el proceso se detuviera el día 13.

25
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Figura 4.B

El diagrama sumacu (véase la Figura 4.C) muestra claramente que la media del
proceso inicia una tendencia descendente a partir del día 8 ó 9 y, de esta manera, identifica
esta tendencia cuanto antes. Desde los días 12 ó 13 en adelante, la pendiente de la
representación sumacu es más o menos constante, indicando que la media del proceso se ha
desplazado a un valor nuevo y uniforme, como se observa más arriba.

Figura 4.C

26
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicios del Capítulo 5

Ejercicio 1. Cuando se aplica la Ecuación (5.2) a este conjunto de datos, se obtiene un valor r
= -0,8569, lo cual indica que, en efecto, existe una correlación negativa entre la concentración
de mercurio y la distancia del punto de medición desde el polarógrafo. Podemos confirmar este
hecho mediante la aplicación de la Ecuación (5.3), que demuestra que t = (0,8569 × 2)/0,5155
= 3,325. El valor crítico de t (P = 0,05, n - 2 = 4 grados de libertad) tiene un valor inferior, 2,78.
Esto confirma que el valor de r es significativo al nivel de probabilidad escogido. No obstante,
este resultado tiene que interpretarse de forma cautelosa por dos motivos. Primero, porque no
es lo mismo correlación que causalidad; es decir, el hecho de que dos conjuntos de mediciones
estén correlacionados no significa necesariamente que un conjunto de resultados se produzca
como consecuencia directa del otro: pueden estar vinculados por azar. Hace algún tiempo se
demostró que, durante un período de varios años, el problema de disentería en Escocia tuvo
una fuerte correlación negativa con el índice de precios al por menor, pero ¡difícilmente podría
deducirse que la disentería contribuyera a mantener bajos los precios!. En el caso de los
análisis de mercurio, es posible que los niveles de mercurio estén relacionados con otra fuente
de contaminación, como un derrame oculto de mercurio. Y segundo, hemos de tener en cuenta
que el coeficiente de correlación, r, contraste sólo las relaciones lineales. Incluso si la
contaminación de mercurio se origina en el polarógrafo, creeríamos que estaría relacionado
con la distancia desde el instrumento mediante una ecuación cuadrática inversa, o similar. Este
es un buen ejemplo de la necesidad de aplicar el sentido común (en este caso, el sentido
químico) a la interpretación de resultados estadísticos.

Ejercicio 2. En este ejemplo, la aplicación de la Ecuación (5.2) da un valor r muy superior:


0,99982. Una representación gráfica de calibrado lineal nos parecería por tanto perfectamente
adecuada para este conjunto de mediciones. Sin embargo, un analista avispado se daría
perfecta cuenta de que las diferencias entre los valores sucesivos de y disminuyen, mientras
que x aumenta: estas diferencias son 0,148, 0,144, 0,140, 0,136 y 0,134; Esto indica que, en
sentido estricto, se podría trazar una curva con dichos datos. Un análisis de los residuos de y,
obtenidos al trazar una línea recta (véase el Ejercicio 9) nos llevaría a la misma conclusión, a
pesar de que tal procedimiento apenas es necesario en este caso. En la práctica, los errores
analíticos resultantes del uso de una gráfica de línea recta serían muy pequeños, pero este
ejemplo enfatiza la necesidad de examinar cuidadosamente cualquier dato antes de aplicar
posibles métodos estadísticos inadecuados.

Ejercicio 3. Las Ecuaciones (5.4) y (5.5), aplicadas a esta serie de datos, dan b = 0,02516 y a
= 0,002107, respectivamente. También podemos mostrar que x = 15, y = 0,380, Σx
i
i
2
= 2275 y

Σ (x - x )
i
i
2
= 700. Los residuos individuales de y, (yi - ŷi ) son +0,0009, -0,0009, -0,0028,

+0,0104, -0,0074, -0,0062 y +0,0060. Estos residuos (como se esperaba) suman cero y la
suma de sus cuadrados es 0,000247. La Ecuación (5.6) muestra que sy/x = 0,00703. Las
Ecuaciones (5.7) y (5.8) dan sb = 0,000266 y sa = 0,00479, respectivamente. Estas
desviaciones estándar pueden utilizarse para proporcionar intervalos fiables para b y a al
multiplicar por t = 2,57 (P = 0,05, 5 grados de libertad). Por lo tanto, estos intervalos de
confianza al 95% son 0,0252  0,0007 y 0,0021  0,0123 respectivamente, usando en cada
caso 4 cifras decimales. A continuación se presenta el cálculo simplificado de Excel para este
ejercicio (omitiendo toda la sección del ANOVA):

27
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Resumen de los resultados

Estadística de la regresión
R múltiple 0,99972
R cuadrado 0,99944
R cuadrado ajustado 0,99933
Error estándar 0,00703
Observaciones 7,00000

Coeficientes Error estándar Inferior al 95 % Superior al 95 %


Ordenada en  0,002107 0,004787 ­0,0102 0,0144
el origen
X Variable 1 0,02516 0,000266  0,0245 0,0258

Como en el Ejemplo 5.9.1, la pendiente de la gráfica, b, se describe como “X Variable


1”, debido a que proporciona el coeficiente para el término x en la Ecuación (5.1). El término
“error estándar” se utiliza para describir sy/x en la parte superior de la tabla, así como sa y sb en
la parte inferior.

Ejercicio 4. (a) Puesto que la ecuación de la línea de calibrado (véase el Ejercicio 3) es y =


0,002107 + 0,02516x, es decir, x = (y - 0,002107)/0,02516, un valor de y de 0,456 corresponde
a un valor de x de 18,04 ng ml-1. El valor de sx0 (Ecuación 5.9) es 0,00703/0,02516 {1 + 1/7 +
[(0,456 - 0,380)2/(700 × 0,025162)]}0,5 = 0,300. El valor de t utilizado para convertir esta
desviación estándar en un intervalo de confianza vuelve a ser 2,57; así pues, los límites de
confianza para la concentración son 18,04 ± (2,57 × 0,300) = 18,04 ± 0,77 ng ml-1.

(b) En este caso, es necesario comprobar en primer lugar si se puede omitir el posible dato
anómalo de 0,347. Podemos calcular Q = (0,347 - 0,314)/(0,347 - 0,308) = 0,033/0,039 = 0,846.
Este resultado excede (por muy poco) el valor crítico (P = 0,05, n = 4) de 0,831 (Tabla A.5), por
lo que la medición 0,347 se puede rechazar, dejando tres medidas cuya media es 0,311. Esto
corresponde a una concentración de 12,28 ng ml -1. El valor de sx0 de la Ecuación (5.10) con m =
3 es 0,195; así pues, con t = 2,57, como anteriormente (el número de soluciones estándar, y de
ahí el número de grados de libertad, no ha cambiado), los límites de confianza vienen dados
por 12,28 ± (2,57 × 0,195) = 12,28  0,50 ng ml-1. Resulta instructivo comparar este intervalo de
confianza con el obtenido en la sección (a) de este ejercicio. Como ya se demostró en la página
139 del libro de texto, se prevé que los cálculos de regresión no ponderados, donde se supone
que un error en la dirección de y es independiente de x, den intervalos de confianza similares
para todas las estimaciones de concentración. En este ejemplo, la principal diferencia entre los
cálculos de las secciones (a) y (b) es la utilización de mediciones repetidas de y0 en la sección
(b), y de aquí el uso de la Ecuación (5.10) en lugar de la (5.9) para calcular sx0. En ambas
ecuaciones, el término importante dentro de la raíz cuadrada es casi siempre el primero, que en
la sección (a) es 1 y en la (b) es 1/3. Por eso, se espera que la precisión de las mediciones
repetidas sea mejor mediante un factor cercano a 1/3 ó 0,58. En la práctica, esto se mejora
mediante un factor de 0,50/0,77 = 0,65 porque el segundo término idéntico en la raíz cuadrada
(1/7 = 0,1429) en las dos ecuaciones suaviza significativamente el efecto de las mediciones
repetidas. El tercer término dentro de la raíz cuadrada es el más pequeño para la mayoría de
las rectas de calibrado: por ejemplo, en la sección (a) es (0,076) 2/(700 × [0,02516]2) = 0,0130.

Ejercicio 5. El problema se resuelve usando los datos del Ejercicio 3. Si el límite de detección
se define como aquella concentración que proporciona una señal que excede el ruido de fondo
en tres desviaciones estándar, y si el ruido de fondo y la desviación estándar vienen dados por
a y sy/x respectivamente, entonces el LOD es el valor de x correspondiente a un valor de y de a
+ 3sy/x = 0,002107 + (3 × 0,00703) = 0,02319. El valor de x correspondiente es (0,02319 -
0,00211)/0,02516 = 0,84 ng ml-1. Si aplicamos la definición alternativa, aunque ahora menos
utilizada, usando a + 2sy/x , entonces el valor de y es 0,01617, y el valor de x correspondiente
es, como cabría esperar, dos tercios del valor anterior, es decir, 0,56 ng ml -1. Esto será cierto
para una línea de pendiente dada, con independencia del valor de la ordenada a, y el LOD se
determinará dividiendo 3sy/x (o 2sy/x , etc.) entre la pendiente. (Se suma el valor de a en 3sy/x

28
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

para obtener el valor crítico de y, pero luego se le vuelve a restar cuando este valor de y se
convierte al mismo LOD). Se puede plantear el interrogante sobre si la ordenada en el origen
sirve para algo en el contexto de los LOD. Podría argumentarse que sí es importante, ya que
ayuda a determinar el valor de y correspondiente al LOD. Una vez establecido el último valor
para cualquier experimento de calibrado, se considerará que un material que dé una lectura en
el instrumento inferior a éste valor, no contendrá una cantidad significativa de analito.

Ejercicio 6. Los primeros pasos de un cálculo de las adiciones estándar son iguales a los de
una gráfica de calibrado tradicional: la aplicación de las Ecuaciones (5.4) y (5.5) da b =
0,005349 y a = 0,2569, respectivamente. La concentración del material de una prueba viene
dada por la razón a/b = 48,0 ng ml-1. En estos cálculos, resulta útil hacer una rápida
comprobación del resultado: la suma de la misma cantidad de oro debería dar,
aproximadamente, el doble de la señal en el instrumento. En este caso, la solución, en la que el
nivel de oro añadido es 50 ng ml -1, tiene una absorbancia de 0,528, lo cual es justamente casi
el doble del valor de 0,257 obtenido en las muestras originales de agua de mar. El valor de sy/x
(Excel) es 0,003694 y es fácil demostrar que y = 0,4441 y Σ (x – x )
i
i
2
= 4.200. La Ecuación
0,5
0,003694 1 (0,4441)2
(5.12) muestra, por tanto, que sxE viene dado por +
0,005349 8 (0,005349)2 × 4200

= 0,9178. Como hay 6 grados de libertad, t = 2,45 (P = 0,05), con lo que los límites de
confianza para la concentración vienen dados por 48,0 ± (2,45 × 0,9178) = 48,0 ± 2,2 ng ml-1.
En estos cálculos hay que tener en cuenta dos puntos: el primero es que, de todos los términos
de la raíz cuadrada en la Ecuación (5.12), el segundo es con mucho el mayor, al contrario que
sucede normalmente con las Ecuaciones (5.9) y (5.10). Esto se debe en gran parte a que el
numerador de este término es y 2, es decir, y0 aquí es cero por la extrapolación al eje x. El
segundo punto a tener en cuenta es si éste método de extrapolación empeora sobremanera (es
decir, amplía) los límites de confianza para un cálculo de concentración, comparado con un
experimento de calibrado tradicional.

Hemos visto que en el último método los límites de confianza para la recta de regresión
divergen de la línea con concentraciones altas y bajas (Figura 5.6), así que, en base a esto, se
esperaría una pérdida de precisión usando el método de las adiciones estándar. No obstante,
las estadísticas de las adiciones estándar son diferentes, como se puede comprobar al
comparar las Ecuaciones (5.10) y (5.12). El primer término dentro de la raíz cuadrada en la
primera ecuación (1/m) no está presente en la segunda ecuación. Esto ocurre porque el valor
de y0 está fijo en cero exactamente en la segunda ecuación, es decir, como si se hubiera
establecido un número infinito de mediciones, m, para determinar su valor. Como resultado, a
pesar de que el tercer término dentro de la raíz cuadrada de la Ecuación (5.12) sea ahora
apreciable (como ya hemos notado), la precisión global del método de las adiciones estándar
normalmente no difiere mucho de la de un experimento de calibrado tradicional que usa
técnicas y aparatos análogos.

Ejercicio 7. Dado que se realizan mediciones repetidas en cada estándar en este ejercicio, se
pueden calcular los errores aleatorios en la dirección de y para cada punto de la gráfica y
realizar un cálculo de regresión ponderada. Cuando se hayan calculado los valores medios de
y y sus desviaciones estándar, los datos se pueden resumir de la siguiente manera:

Concentración, ng ml-1 (x) 0 10 20 30 40 50


Intensidad (unidades arbitrarias) (y) 4,0 21,2 44,6 61,8 78,0 105,2
Desviación estándar (s) 0,71 0,84 0,89 1,64 2,24 3,03

La recta de calibrado no ponderada se determina a partir de las dos primeras filas de


esta tabla. Aplicando las Ecuaciones (5.4) y (5.5) como en los ejercicios anteriores, los valores
de b y a resultan ser 1,982 y 2,924, respectivamente. Estos valores pueden usarse para
mostrar que las soluciones de prueba proporcionan intensidades de fluorescencia de 15 y 90
unidades tienen concentraciones de quinina de 6,09 y 43,9 ng ml -1, respectivamente. Unos
sencillos cálculos más profundos indican que y = 52,47, Σ (x  x )i
2
= 1.750, y sy/x = 2,991. La

29
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Ecuación (5.9) se puede utilizar para mostrar que sx0 = 1,767 para las dos concentraciones:
dado que los dos valores de y0 están situados casi simétricamente por encima y debajo de y, el
tercer término dentro de la raíz cuadrada en esta ecuación es prácticamente igual en cada
caso. Usando un valor t de 2,78 (4 grados de libertad, P = 0,05), los intervalos de confianza
para las dos concentraciones pueden escribirse como 6,1 ± 4,9 y 43,9 ± 4,9 ng ml -1. Es preciso
observar que el valor sy/x obtenido de este cálculo no ponderado depende de si las 30
mediciones originales fueron introducidas de forma separada en la hoja de cálculo, o si primero
se calcularon los promedios de los seis grupos de cinco mediciones y luego se introdujeron
dichos promedios (en cuyo caso, la diferencia es muy pequeña). En la práctica, es muy posible
que los seis materiales de ensayo estuvieran preparados, y cada uno fuera medido cinco veces
para proporcionar un único punto en la gráfica de calibrado. En tal caso, se tendrían que
introducir los seis promedios en la hoja de cálculo.

Pasamos ahora a la recta de regresión ponderada. El primer paso consiste en calcular


las ponderaciones para cada punto usando sus desviaciones estándar. La Ecuación (5.13)
muestra que las ponderaciones en orden de valores ascendentes de x son 2,23, 1,59, 1,42,
0,42, 0,22 y 0,12. Como estaba previsto, dichas ponderaciones suman 6, que es el número de
puntos de calibrado. Y, como se esperaba, las ponderaciones son mayores cuando x es
pequeño, dando lugar a una región donde las desviaciones estándar son pequeñas, y por tanto,
donde la línea debe pasar cerca de esos puntos. Con la ayuda de las Ecuaciones (5.14) y
(5.15) podemos determinar la pendiente y la ordenada en el origen de la línea ponderada,
dando valores de bw y aw de 1,964 y 3,483, respectivamente. Estos resultados son bastante
similares a las propiedades correspondientes de la línea no ponderada, incluso aunque el
esparcimiento de los puntos es notorio (véase la Figura 5.A, donde se representa la recta de
regresión no ponderada), y proporcionan valores de concentración de 5,87 y 44,1 ng ml -1,
respectivamente, para las soluciones con valores y0 de 15 y 90. Una vez más, estos valores se
aproximan a los obtenidos a partir de la recta no ponderada. La importancia de usar una recta
ponderada se demuestra cuando se calculan los límites de confianza para estas
concentraciones. Para conseguirlo, primero es necesario calcular mediante la interpolación las
ponderaciones correspondientes a los valores y0 de 15 y 90. Una revisión de los datos de arriba
muestra que las ponderaciones de 1,80 y 0,18 serían razonables. El uso de estas
ponderaciones con la Ecuación (5.16) proporciona valores sx0w de 0,906 y 2,716
respectivamente para las dos concentraciones, y por tanto los límites de confianza son 5,9 ±
2,5 y 44,1 ± 7,6 ng ml -1, respectivamente. Como se esperaba para un cálculo de regresión
ponderado, y conforme a la realidad experimental, los límites de confianza para el valor de
concentración más bajo son más reducidos que los de concentración más alta.

30
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Figura 5.A

Ejercicio 8. Es más fácil manejar datos de este tipo sobre la comparación de métodos usando
Excel o alguna hoja de cálculo similar, ya que sus resultados proporcionan toda la información
necesaria. En este ejemplo, es de suponer que el método ESI es el “nuevo” método que
proporciona los valores de y, mientras que el método gravimétrico se espera que tenga errores
aleatorios pequeños (véase el Capítulo 1) y que, por tanto, proporcione los valores de x. Los
resultados de Excel (omitiendo los elementos del ANOVA) son los siguientes:

Resumen de los resultados

Estadística de la regresión
R múltiple 0,9697
R cuadrado 0,9404
R cuadrado ajustado 0,9329
Error estándar 16,7264
Observaciones 10

Coeficientes Error Estadístico Valor Inferior Superior


estándar t P al 95% al 95%
Ordenada en  4,4837 8,6939 0,5157 0,6200 ­15,5646 24,5319
el origen
X Variable 1 0,9629 0,0857 11,2346 0,0000 0,7653 1,1606

A partir de este resumen obtenemos un coeficiente de correlación (“R múltiple”) de


0,9697. La ordenada en el origen, a, de la gráfica está en 4,48 y su intervalo de confianza,
15,56  +24,53, incluye cero. La pendiente, b, es 0,963 y su intervalo de confianza, 0,765
1,161, incluye 1. En general, se puede concluir, por tanto, que la concordancia entre ambos
métodos es buena, y no se dan indicios de diferencias sistemáticas entre ellos. Debemos, no
obstante, prestar atención a dos críticas de este método: primero, la revisión de los datos
muestra que los materiales de ensayo contienen, ya sea niveles muy bajos de sulfuro, o ya sea
entre 100 y 200 mg. La comparación de métodos resultaría más convincente con un
esparcimiento aún mayor de los valores a través del intervalo, y quizás con más datos globales;
a pesar de que, en la práctica, el analista pueda tener muy tener poca o ninguna elección en
estos temas. Segundo, hay que recordar que la recta de regresión de y sobre x aquí

31
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

determinada asume errores aleatorios en x sin importancia, al menos comparados con los
errores aleatorios en y. Aunque posiblemente esto resulte válido en este ejemplo particular, el
método mostrado se usa a menudo en casos donde las suposiciones no pueden justificarse en
absoluto.

Ejercicio 9. Cuando se muestran los datos (véase la Figura 5.B), parece como si la gráfica
fuera aproximadamente lineal hasta un valor de absorbancia de 0,7-0,8. Cuando se examina
todo el conjunto de datos usando Excel y se determinan los residuos (véase la tabla de
resultados de los residuos), se averigua que esta última muestra una tendencia de negativo a
positivo y otra vez a negativo.

Resultados de los residuos


Observación Valor previsto de Y Residuos
1 0,117 ­0,067
2 0,187 ­0,017
3 0,303 0,017
4 0,536 0,064
5 1,001 0,069
6 1,467 ­0,067

Figura 5.B

La suma de cuadrados de los residuos es 0,019 y el coeficiente de correlación es 0,9936.


Cuando se repiten estos cálculos, quitando el último punto (300, 1,4), el coeficiente de
correlación sube hasta 0,9972, y la suma de cuadrados de los residuos (véase la tabla a
continuación) desciende hasta 0,004. Esto nos sugiere claramente que este punto debería
omitirse si deseamos representar una gráfica de línea recta. Al omitir el quinto punto (200,
1,07), también se consiguen mejoras más profundas aunque más pequeñas (la suma residual
de cuadrados es 0,00068, r es igual a 0,9980), pero a costa de obtener un intervalo de
linealidad aún más corto. En la práctica, por tanto, el quinto punto de la gráfica bien podría
mantenerse como parte de la porción de línea recta.

32
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Resultados de los residuos


Observación Valor previsto de Y Residuos
1 0,088 ­0,038
2 0,167 0,003
3 0,299 0,021
4 0,564 0,036
­5 1,092 ­0,022

La explicación para muchos experimentos de este tipo, donde la gráfica de calibrado


parece ser lineal cerca del origen, aunque indique desviaciones negativas en valores altos de x,
radica en que la relación entre x e y es de tipo curvilíneo, cuya función se acerca a una línea
recta en valores bajos. Las gráficas curvilíneas se explicarán en ejemplos posteriores, pero
merece la pena fijarse en que una curva cuadrática resulta mucho más conveniente para este
(completo) conjunto de datos que una lineal. Mediante métodos que se describirán más
detalladamente en posteriores ejemplos, la línea recta y = 0,0703 + 0,00465x da R´2 = 0,9839,
y la ecuación cuadrática, que es y = -0,0063 + 0,0068x - 7106x2, da R´2 = 0,9997.

Ejercicio 10. Para resolver este problema, se determinan, como siempre, las dos rectas de
regresión no ponderadas derivadas de las dos filas de datos (dados los subíndices 1 y 2). Los
resultados son: a1 = 0,0014; b1 = 0,0384; a2 = 0,1058; b2 = 0,012. La coordenada x del punto
de intersección de estas rectas, xI, viene dada por la Ecuación (5.18), y es igual a (0,0014 
0,1058)/(-0,012  0,0384) = 0,1044/0,0504 = 2,07. Esto nos sugiere que se ha formado un
complejo DPA-Eu 2:1. Los valores sy/x para las líneas 1 y 2 son 0,002224 y 0,000966,
respectivamente. El valor conjunto s2(y/x)p viene dado por la Ecuación (5.20), y el resultado es
3,85  106. Esto, a su vez, nos permite calcular s2∆a = 2,72  105, s2∆b = 3,57  106 y s2∆a∆b =
8,99  106 (Ecuaciones 5.215.23). Estos valores, junto con un valor t de 2,201 (P = 0,05, 11
grados de libertad), proporcionan los coeficientes de la ecuación cuadrática (5.19), que en
orden son 0,002519, 0,010430 y 0,010768. La solución a esta ecuación proporciona los
límites de confianza para xI de 1,97 y 2,17, es decir, xI = 2,07 ± 0,10. Este cálculo es
obviamente aburrido (y es crucial retener un montón de números significativos para obtener
soluciones precisas para la ecuación cuadrática), y sería aconsejable escribir (por ejemplo) una
hoja de datos en Excel para llevarlo a cabo, si es que se va a utilizar de forma habitual.

Ejercicio 11. Problemas de este tipo se resuelven fácilmente usando (por ejemplo) Excel.
Primero, se introducen los datos en una hoja de cálculo, usando la columna A para los datos de
absorbancia (y) y B para los datos de la concentración (x). Puesto que queremos estudiar las
ecuaciones cúbica y cuadrática, también necesitamos los valores x2 y x3; las funciones de Excel
nos proporcionan dichos datos en las columnas C y D (pueden necesitarse pasos similares en
programas estadísticos como el Minitab para calcular estos términos). La función de regresión
de Excel proporciona por tanto los resultados para las ecuaciones cúbica y cuadrática, usando
las columnas B y C para los “valores de X” en el primer caso, y las columnas BD en el
segundo. Los resultados comentados debajo se pueden resumir de la forma siguiente:

Ecuación cuadrática: y = 0,0165 + 0,600x - 0,113x2:


R2 = 0,9991; R´2 = 0,9981
Ecuación cúbica: y = -0,0055 + 0,764x - 0,383x2 + 0,117x3:
R2 = 0,9999; R´2 = 0,9997.

Estos resultados sugieren que un ajuste cúbico, que tiene el mayor valor de R´2, es
mejor que uno cuadrático.

Hemos de fijarnos en que los resultados ANOVA sugieren que, en el ajuste cúbico, los
coeficientes para x2 y x3 no difieren significativamente de cero (P = 0,05). No existe duda sobre
esto debido en parte al pequeño número de medidas.

33
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Datos

Absorbancia, y Concentración, x x2 x3
0,084 0,123 0,015129 0,001861
0,183 0,288 0,082944 0,023888
0,326 0,562 0,315844 0,177504
0,464 0,921 0,848241 0,78123
0,643 1,42 2,0164 2,863288

Ajuste cuadrático
Estadísticas de regresión
R2 0,9991
R2 ajustado 0,998
1
Error estándar 0,00963
Observaciones 5

ANOVA
gl SC CM F F significativa
Regresión 2 0,197381 0,09869 1064,67 0,000938
Residual 2 0,000185 9,27E­05
Total 4 0,197566

Coeficientes Error Estadístico Valor P Inferior Superior


estándar t al 95% al 5%
Ordenada 0,017 0,011859 1,39239 0,29841 ­0,03451 0,06754
Coeficiente 0,600 0,039530 15,17153 0,00432 0,42965 0,76982
x
Coeficiente ­0,113 0,024830 ­4,546 0,04514 ­0,21971 ­0,00604
x2

Ajuste cúbico
Estadísticas de regresión
R2 0,9999
R2 ajustado 0,9997
Error estándar 0,00372
Observaciones 5

ANOVA
gl SC CM F F significativa
Regresión 3 0,197552 0,065851 4767,64 0,010646
Residual 1 0,000014 1,38E­05
Total 4 0,197566

Coeficientes Error  Estadístico Valor P Inferior Superior


estándar t al 95% al 95%
Ordenada ­0,006 0,007749 ­0,71290 0,60572 ­0,10399 0,09294
Coeficiente 0,764 0,049077 15,57018 0,04083 0,14056 1,38771
x
Coeficiente ­0,383 0,077247 ­4,95858 0,12669 ­1,36455 0,59848
x2
Coeficiente 0,117 0,033262 3,52456 0,17600 ­0,30540 0,53987
x3

Ejercicio 12. En este caso, la aplicación de Minitab muestra que para una línea recta, un ajuste
cuadrático y un ajuste cúbico, los datos son:

Línea recta: R2 = 0,924; R´2 = 0,909.


Ajuste cuadrático: R2 = 0,979; R´2 = 0,968.
Ajuste cúbico: R2 = 0,979; R´2 = 0,957.

34
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

La aplicación de una ecuación cúbica no mejora R2, y reduce R´2, con lo cual podemos
concluir que, en este caso, un ajuste cuadrático será lo mejor: la ecuación ajustada es y = -15,4
+ 7,04x - 0,0365x2. Esto se confirma mediante el coeficiente cúbico muy pequeño de la
ecuación cúbica ajustada, y = -18,3 + 7,39x - 0,0456x2 + 0,000063x3. Vemos que tanto el ajuste
cúbico como el cuadrático dan unas ordenadas en el eje y algo negativas. No obstante, la tabla
del ANOVA muestra que, en cada caso, las ordenadas no difieren significativamente de cero.
Los resultados del Minitab se adjuntan a continuación: obsérvese que este programa
proporciona valores de R2 y R´2 en porcentajes más que en decimales.

Regression Analysis: Straight Line

The regression equation is
y = 38.7 + 3.55 x

Predictor   Coef StDev    T     P


Constant  38.70  24.74 1.56 0.179
x 3.5497 0.4559 7.79 0.001

S = 34.16      R­Sq = 95.5%      R­Sq(adj) = 93.2%

Analysis of Variance

Source DF    SS    MS     F     P


Regression  1 70731 70731 60.61 0.001
Error  5  5835 1167
Total  6 76566

Regression Analysis: Quadratic

The regression equation is
y = – 15.4 + 7.04 x – 0.0365 x*x

Predictor Coef   StDev     T     P


Constant ­15.41   22.40 ­0.69 0.529
x  7.037   1.124  6.26 0.003
x*x ­0.03645 0.01141 ­3.20 0.033

S = 20.26      R­Sq = 97.9%      R­Sq(adj) = 96.8%

Analysis of Variance

Source DF    SS    MS     F     P


Regression  2 74924 37462 91.26 0.000
Error  4  1642   410
Total  6 76566

Source DF Seq SS
x  1 70731
x*x  1  4193

35
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Regression Analysis: Cubic

The regression equation is
y = ­18.3 + 7.39 x – 0.0456 x*x + 0.000063 x*x*x

Predictor     Coef     StDev     T     P


Constant   ­18.30     36.96 ­0.50 0.654
x    7.389     3.460  2.14 0.122
x*x ­0.04557   0.08432 ­0.54 0.626
x*x 0.0000633 0.0005783  0.11 0.920

S = 23.35      R­Sq = 97.9%      R­Sq(adj) = 95.7%

Analysis of Variance

Source DF    SS    MS     F     P


Regression  3 74931 24977 45.82 0.005
Error  3  1635   545
Total  6 76566

Source DF Seq SS
x  1 70731
x*x  1  4193
x*x*x  1     7

Ejercicios del Capítulo 6

Ejercicio 1. Si se ordenan los valores en orden creciente respecto al tamaño, se obtiene: 9,84,
9,89, 9,91y 10,20. La mediana es el valor medio, en este caso se encuentra entre 9,89 y 9,91 a
9,90 ml. La media equivale a 9,96 ml: este valor es mayor que tres de los cuatro valores
originales porque el valor 10,20 ml la eleva. Puede que el valor 10,20 ml sea un dato anómalo:
esto se puede comprobar mediante el contraste de Grubbs. La desviación estándar de los
10,20  9,96
cuatro valores es 0,163, obteniendo un valor de G = = 1,475. El valor crítico de
0,1627
un contraste de dos colas (dos colas, porque antes de que se recopilaran los datos no había
ningún indicio que hiciera pensar que quizás hubiera un valor, por regla general, elevado) es
1,481. Por lo tanto, el valor de 10,20 no se puede rechazar como dato anómalo. Si fuera
rechazado, la media sería 9,88 ml y la mediana 9,89 ml. Esto muestra cómo la media es
sensible a los valores extraordinariamente bajos o elevados y cómo la mediana no lo es.

Ejercicio 2. Comparado con la mediana, los valores experimentales proporcionan signos de 


+ 0 +  + + + + (en el que “0” indica que los valores son del mismo tamaño). De hecho, se
tienen ocho lecturas, de los cuales seis son positivos (+). En la Tabla A.9 del Apéndice 2, la
probabilidad de que dos (o menos) de los ocho signos sean de un tipo y de que los seis
restantes (o más) sean de otro es 2 × 0,144 = 0,288. El resultado es mayor que 0,05, por lo
que se mantiene la hipótesis nula de que los datos podrían proceder de una población simétrica
con un contenido en azufre de la mediana del 0,10 por ciento.

En el contraste de rangos y signos, primero se calculan las diferencias entre la mediana


planteada como hipótesis y los valores de los datos, que son 0,01, +0,02, 0, +0,01, 0,02,
+0,07, +0,02, +0,04, +0,01. Se desprecia el valor de 0 y prescindiendo del signo se ordenan los
valores restantes de menor a mayor para tener como resultado 0,01, 0,01, 0,01, 0,02, 0,02,
0,02, 0,04, 0,07. A continuación se incorporan sus signos y se obtiene 0,01, +0,01, +0,01,
+0,02, +0,02, 0,02, +0,04, +0,07. Los números entonces se jerarquizan dependiendo de su
orden en la lista y a estos rangos se les asigna el mismo signo que el del valor de los datos
correspondiente. Los valores con magnitud 0,01 comparten las posiciones 1, 2 y 3, por lo que

36
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

se les asigna a cada uno la posición 2. Los valores con magnitud 0,02 comparten las
posiciones 4, 5 y 6, de manera que se les atribuye a cada uno la posición 5. Así, las posiciones
con sus signos son 2, +2, +2, +5, +5, 5, +7, +8. Los rangos positivos suman 29 y los
negativos 7. La menor de estas cifras, es decir, 7, se toma como el estadístico del contraste. En
la Tabla A.11 del Apéndice 2, el valor crítico de n = 8 para un contraste de dos colas (a P =
0,05) es 3. Como el valor observado es mayor, se mantiene de nuevo la hipótesis nula.

Utilizando Minitab, se puede calcular más rápidamente. A continuación se muestra la


salida impresa:

El contraste de los signos para la mediana

Sign test of median = 0.09000 versus not = 0.09000

N Below Equal Above     P       Median


sulphur 9     1     1     7     0.0703   0.1100

Como el valor P obtenido es mayor que 0,05, no se rechaza la hipótesis nula a este
nivel de significación.

Ejercicio 3. Este es un ejemplo en el que los datos están emparejados: el orden de los valores
para, por ejemplo, los resultados IDR no se podría cambiar sin alterar el significado de los
datos. Los datos se pueden analizar mediante el contraste de los signos o el contraste de
rangos y signos. Si a los valores de los resultados IDR se les restan los valores de los
resultados EID, los signos de las diferencias son +, , +, +, +, +, +, +, 0, +. Si se desprecia el
valor de “0”, tenemos nueve signos: uno negativo y el resto positivo. En la Tabla A.9 del
Apéndice 2, la probabilidad de que ocho de los nueve signos sean iguales es de 0,020 × 2 =
0,04. El resultado es significativo a P = 0,05, por tanto la hipótesis nula (que los métodos
proporcionen el mismo resultado) puede rechazarse.

Para el contraste de rangos y signos, se necesitan las diferencias de signos, que son:
+0,2, 0,1, +0,2, +0,1, +0,2, +0,1, +0,1, +0,4, 0, +0,4. Si se desprecia el valor de “0” y se
ordenan los valores de menor a mayor, obtenemos: 0,1, 0,1, 0,1, 0,1, 0,2, 0,2, 0,2, 0,4, 0,4.
Cuando se incorporan sus signos, el resultado es –0,1, +0,1, +0,1, +0,1, +0,2, +0,2, +0,2, +0,4,
+0,4. Por tanto, las posiciones con sus signos son –2,5, +2,5, +2,5, +2,5, +6, +6, +6, +8,5, +8,5.
De modo que el estadístico del contraste toma el valor 2,5 (es decir, equivalente a la suma de
los rangos negativos), muy inferior al valor crítico de 5 para P = 0,05 (véase la Tabla A.11 en el
Apéndice 2) y de ahí que la hipótesis nula sea rechazada de nuevo: existen pruebas que
indican que los dos métodos proporcionan resultados diferentes. Sin embargo, obsérvese que
el resultado del contraste de rangos y signos debería interpretarse con cautela, si existen
muchas posiciones empatadas, como ocurre tanto en esta pregunta como en la anterior.

Ejercicio 4. La aleatoriedad de los valores se puede contrastar mediante el contraste de rachas


de Wald-Wolfowitz. En primer lugar, la mediana se calcula ordenando los valores en orden
ascendente según el tamaño, teniendo como resultado: 17, 19, 21, 22, 23, 24, 25, 25, 26, 30.
La mediana se encuentra entre el quinto y el sexto valor a 23,5. Si comparamos todos los
valores de la lista original con este valor, obtenemos los siguientes signos +, +, +, , , , , ,
+, +, donde el signo “+” indica un valor mayor que la mediana y el signo “” un valor menor que
la mediana. Por tanto, existen tres rachas en una lista con cinco signos negativos y cinco
positivos. Teniendo en cuenta la Tabla A.10 del Apéndice 2, para M = N = 5 el número de
rachas es significativo (a P = 0,05), si es menor que tres. Como consecuencia, el resultado
obtenido no es significativo y no existen indicios de que la sucesión observada no sea aleatoria.

Ejercicio 5. Existen dos muestras independientes. El contraste rápido de Tukey conlleva el


cálculo del número total de medidas en las dos muestras que no están incluidas en la región de
solapamiento. Si combinamos las dos muestras y se incluyen en una lista ordenándolas en
orden ascendente, obtenemos: 66, 68, 71, 79, 79, 86, 88, 90, 91, 104, 120, donde los valores
de la cerveza aparecen subrayados. La hipótesis nula consiste en que no existe ninguna
diferencia entre los valores de la mediana de las poblaciones de “cerveza” y de “cerveza rubia”;
por el contrario, la hipótesis alternativa implica que la “cerveza” produzca valores mayores que

37
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

la “cerveza rubia”. En esta lista el valor más elevado es un valor de “cerveza” y el más bajo es
un valor de “cerveza rubia”, por lo que merece la pena continuar con el contraste. Son tres (es
decir, 66, 68 y 71) los valores de “cerveza rubia” que son más pequeños que todos los valores
de “cerveza” y también hay un empate (79) que se cuenta como 0,5 en el cálculo del valor de T.
El siguiente paso es contar el número de valores de “cerveza” que son mayores que los valores
de “cerveza rubia”: hay dos (es decir, 104 y 120). En conjunto existen 3,5 + 2 = 5,5 valores que
no se encuentran en la región de solapamiento y el T estadístico es 5,5 para el contraste rápido
de Tukey. En este caso, es conveniente un contraste de una cola, ya que se espera de
antemano que los valores de la cerveza rubia sean más bajos que los de otro tipo de cerveza.
El valor crítico para P = 0,05 es 6: se rechaza la hipótesis nula, si T es mayor o igual que este
valor. Por lo tanto, en este caso, no se rechaza la hipótesis nula de las medianas iguales.

En este ejemplo creemos que, si la cerveza rubia y la otra clase de cerveza son
distintas, la cerveza rubia produce niveles de alcohol en la sangre inferiores a la cerveza de
otro tipo. De este modo, debería existir un número pequeño de casos en los que la cerveza
rubia produjera un nivel de alcohol en la sangre superior al del otro tipo de cerveza. El contraste
U de Mann-Whitney implica encontrar el número de valores de “cerveza rubia” que supere a
cada uno de los valores de “cerveza”.

Valor de Valores más grandes Número de valores


“cerveza” de “cerveza rubia” más grandes

79 79 (empate), 86, 91 2,5


88 91 1
90 91 1
104 - 0
120 - 0

La suma total de la tercera columna, es decir, 4,5, es el estadístico del contraste.


Teniendo en cuenta la Tabla A.12, la hipótesis nula es rechazada, si el estadístico del contraste
es menor o igual a 5 (P = 0,05), de manera que para este contraste se rechaza precisamente la
hipótesis nula. Este resultado es contrario al obtenido con el contraste de Tukey; lo cual no
resulta sorprendente, puesto que el contraste de Tukey es menos consistente que el contraste
U de Mann-Whitney. En una situación como esta, en la que la hipótesis nula sólo se rechaza en
un contraste, se necesitaría disponer de más datos para aclararla.

El contraste de Mann-Whitney también se puede llevar a cabo utilizando el programa


Minitab. A continuación se muestran los resultados de un contraste de una cola para los datos
cerveza/cerveza rubia (beer/larger). Se puede observar que el programa ajusta los empates.

Intervalo de confianza y contraste de Mann-Whitney

beer N = 5 Median = 90.00


larger N = 6 Median = 75.00

Point estimate for ETA1 – ETA2 is  18.50

96.4 Percent CI for ETA1 – ETA2 is (­1.01, 41.00)
W = 40.5

Test of ETA1  =  ETA2 vs ETA1  >  ETA2 is significant at 0.0339

The test is significant at 0.0336 (adjusted for ties)

En caso de que se necesite un contraste U de Mann-Whitney de dos colas, tanto el


número de valores de la Muestra 1 que son más grandes que todos los valores de la Muestra 2,
como el número de valores de la Muestra 2 que son más grandes que todos los valores de la
Muestra 1 se obtienen de la misma forma que se ha mostrado anteriormente. El estadístico del
contraste es el valor más pequeño de estos dos valores y el valor crítico de un contraste de dos
colas se toma de la Tabla A.12 del Apéndice 2.

38
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Las hipótesis que comportan tanto el contraste U de Mann-Whitney como el contraste


rápido de Tukey se basan en que las muestras se extraen de poblaciones con la misma forma
y, por tanto, con la misma varianza. Sin embargo, los contrastes no muestran ninguna hipótesis
sobre cuál es esta forma. Es necesario compararlo con un contraste t, para diferenciar dos
medias (utilizando las Ecuaciones (3.2) y (3.3)), lo cual implica que las distribuciones son
normales con varianzas iguales. Hay que destacar que si las poblaciones son normales,
entonces el contraste U de Mann-Whitney es casi tan consistente como el contraste t y, puesto
que puede utilizarse cuando las poblaciones no son normales, se puede emplear en más
campos que el contraste t. Como consecuencia, el contraste U de Mann-Whitney ofrece una
interesante alternativa al contraste t en muchas situaciones y es indudablemente uno de los
métodos no paramétricos más utilizado.

Ejercicio 6. En este ejercicio, en el que los datos aparecen en forma de ordenaciones, es


adecuado realizar los cálculos con un coeficiente de correlación ordinal. La tabla que se
muestra a continuación indica las ordenaciones del personal académico y de los estudiantes
medidas por los espectrómetros, junto con los valores de d, la diferencia entre las dos
ordenaciones asignadas y d2. Obsérvese que d siempre equivale a 0.

Espectrómetro Ordenación Ordenación del d d2


de los estudiantes personal académico

A 3 5 2 4
B 1 3 2 4
C 5 6 1 1
D 4 2 2 4
E 7 4 3 9
F 6 7 1 1
G 2 1 1 1
Totales 0 24

Por lo tanto, el valor del coeficiente de correlación ordinal de Spearman (véase la

Ecuación (6.4)) es: rs = 1 


6 d2Σ = 1
6  24
= 0,571.
n (n  1)
2
7 (49  1)
Un contraste de colas es adecuado en este caso, puesto que no existe ningún motivo
para suponer, antes de realizar el contraste, que cualquier correlación será, por ejemplo,
positiva antes que negativa. El valor crítico para un contraste a P = 0,05 es 0,786, por lo que no
hay evidencia para rechazar la hipótesis nula de no correlación entre el personal académico y
los estudiantes.

Ejercicio 7. Si tomamos las distancias como los valores de x y los niveles de mercurio como
los valores de y, obtenemos las pendientes:

b14 = 0,1250, b25 = 0,2278, b36 = 0,0133.

La mediana de estos valores es 0,1250. Este valor ahora se utiliza para calcular las
ordenadas en el origen, ai, utilizando ai = yi  bxi. Esto tiene como resultado:

a1 = 2,5750, a2 = 2,9750, a3 = 2,2375, a4 = 2,5750, a5 = 2,1625, a6 = 3,0750.

Si se ordenan estos valores en orden ascendente, se obtiene:

2,1625, 2,2375, 2,5750, 2,5750, 2,9750, 3,0750.

La mediana de estos valores se encuentra entre el tercer y el cuarto valor, es decir,


2,575. Por tanto, la recta de regresión que se consigue con el método de Theil es y = 0,125x +
2,575. Los coeficientes son excepcionalmente similares a los obtenidos con el método de
mínimos cuadrados, que son a = 2,573 y b = 0,122.

39
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicio 8. En la tabla abajo indicada se colocan los valores observados en orden ascendente.
En la segunda columna se proporcionan los valores estandarizados resultantes de
(x  )
la ecuación z = , siendo  = 1,0 y  = 0,2. En la tercera columna aparece la frecuencia

acumulada (f.a.) y en la cuarta, se proporcionan los valores de la función de distribución
acumulada (f.d.a.) con un salto de 1/10 = 0,1. Obsérvese que el valor de 1,3 g 100 ml -1 está
duplicado en los datos originales, por lo que, en el diagrama, el salto correspondiente es el
doble de la altura normal.

x z F.a. F.d.a. (observada)

0,4 3,0 1 0,1


0,7 1,5 2 0,2
0,8 1,0 3 0,3
0,9 0,5 4 0,4
1,0 0,0 5 0,5
1,1 0,5 6 0,6
1,3 1,5 8 0,8
1,5 2,5 9 0,9
1,8 4,0 10 1,0

La Figura 6.A muestra esta función de distribución acumulada y la f.d.a. para una
distribución normal. En la Tabla A.1 del Apéndice 2 del libro de texto, aparecen los valores para
representar gráficamente esta última. La máxima diferencia entre las dos curvas tiene lugar
justo antes del salto en z = 1,5 y es equivalente a aproximadamente 0,333. En este caso, se
utiliza el método de Kolmogorov para contrastar una distribución concreta, es decir, la que tiene
especificada su media y desviación estándar con antelación (contraste de una cola): el valor
crítico adecuado es, entonces, 0,241 (P = 0,05, n = 10: Tabla A.14). En este caso, se rechaza la
hipótesis nula, por lo que esto no significa que la media y la desviación estándar especificadas
sean necesariamente los valores que mejor se ajustan a los datos. La Figura 6.A. indica que las
funciones de distribución acumuladas para la distribución normal y la observada coinciden en
sus centros, de esta manera la elección de la media era más o menos correcta. Sin embargo, la
distribución observada se encuentra más extendida que la distribución normal propuesta, esto
indica que el valor especificado para la desviación estándar era demasiado bajo.

En la práctica, la media y la desviación estándar de los datos experimentales son 1,08


y 0,41, respectivamente. Si se repite el cálculo anterior tomando estos valores como
estimaciones de  y , respectivamente, los valores de z cambian a 1,65, 0,93, 0,68, 0,44,
0,19, 0,05, 0,54, 1,02 y 1,75. La Figura 6.B muestra esta función de distribución acumulada y
de nuevo, se compara la f.d.a. de la distribución normal. En este punto, las dos curvas están
muy próximas entre sí con una máxima diferencia de 0,105, justo por debajo del salto en z =
0,54. En este caso, el método se utiliza para contrastar la normalidad de una distribución cuyas
media y desviación estándar no se especifican con antelación (contraste de dos colas). Por lo
que no es de extrañar que los valores críticos que se van a utilizar sean menores: aquí el valor
crítico (n = 10, P = 0,05: Tabla A.14) es 0,262. Puesto que el valor observado es mucho más
bajo que éste, se puede mantener la hipótesis nula: los datos se ajustan muy bien a esta
distribución normal. Esta forma modificada del método de Kolmogorov-Smirnov fue introducida
por W.H. Lilliefors y, por tanto, también se la conoce con el nombre de contraste de Lilliefors.

40
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Figura 6.B

Existe un método alternativo, menos formal, para analizar estos datos que consiste en
utilizar una representación de probabilidad normal tal y como aparece en la Sección 3.12. Dicho
diagrama, que se obtiene con Minitab, se muestra a continuación en la Figura 6.C. Los puntos
se sitúan próximos a una línea recta, confirmando que los datos proceden probablemente de
una distribución normal. Sin embargo, los valores de la media y de la desviación estándar
obtenidos a partir del diagrama (en la parte derecha) indican que, aunque la media se acerque
a 1, la desviación estándar no es igual que el valor propuesto de 0,2, sino que es igual que el
valor de 0,41, que se calcula directamente a partir de los valores de la muestra individual.

41
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Figura 6.C

Ejercicio 9. La salida impresa que abajo indicada muestra los resultados del contraste de
Kruskal-Wallis que se obtuvieron utilizando Minitab. El estadístico del contraste aquí se
denomina H y se ha producido una corrección en los empates. El resultado del contraste se da
como un valor P, que en este caso es mayor que 0,05. Como consecuencia, la hipótesis nula
de ninguna diferencia entre las muestras de aceite se mantiene en P = 0,05.

Contraste de Kruskal-Wallis

Kruskal­Wallis Test on Ni (ppm)

C8 N Median Average Rank Z
1 6  15.95 6.5 1.69
2 6  16.90 8.7 0.42
3 6  18.10     13.3  2.11
Overall      18 9.5

H = 4.97  DF = 2  P = 0.083
H = 4.98  DF = 2  P = 0.083  (adjusted for ties)

Como ocurre con el contraste U de Mann-Whitney, el contraste de Kruskal-Wallis da por


supuesto que las distribuciones de las poblaciones tienen la misma forma, pero, a diferencia de
ANOVA, no tiene por qué ser necesariamente normal.

42
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicios del Capítulo 7

Ejercicio 1. En este ejemplo se debería utilizar un ANOVA de dos factores. Los dos factores
son “método” (method) y “solución” (solution): el primero es controlado y el segundo es
aleatorio. Como no hay réplica, no es posible determinar si existe algún tipo de interacción
entre los dos factores. Los resultados del análisis con Minitab aparecen a continuación:

Analysis of Variance (Balanced Designs)

Factor Type Levels Values


Method fixed      3     A B C
Solution fixed      4     1 2 3 4

Analysis of Variance for chloride

Source DF       SS       MS    F     P


Method  2 0.012017 0.006008 1.28 0.345
Solution  3 0.011092 0.003697 0.79 0.543
Error  6 0.028183 0.004697
Total 11 0.051292

F­test with denominator: Error
Denominator MS = 0.0046972 with 6 degrees of freedom

Numerator DF       MS    F     P


Method  2 0.006008 1.28 0.345
Solution  3 0.003697 0.79 0.543

Como el cuadrado medio entre soluciones es menor que el residual, el efecto de las
distintas soluciones no es significativo. La comparación del cuadrado medio entre métodos con
el residual da un valor de F = 1,28. El valor P correspondiente es 0,345, por lo que el método
no tiene un efecto significativo en P = 0,05.

Ejercicio 2. Éste es otro ejemplo en el que se debería utilizar ANOVA de dos factores sin
réplica. Los dos factores son “suelo” y “día”. La tabla que aparece a continuación muestra los
resultados del análisis utilizando Excel con ‘suelo’ como factor fila y ‘día’ como factor columna.

Anova: dos factores sin réplica

RESUMEN Cálculo Suma Promedio Varianza


Fila 1 3 218 72,6666 66,3333
Fila 2 3 220 73,3333 41,3333
Fila 3 3 226 75,3333 6,33333
Fila 4 3 226 75,3333 102,333
Fila 5 3 220 73,3333 34,3333

Columna 1 5 362 72,4 27,3


Columna 2 5 348 69,6 6,8
Columna 3 5 400 80 23,5

ANOVA

Fuente de variación SC Gl CM F Valor P F crít


Filas 18,6667 4 4,66667 0,17632 0,94436 3,83785
Columnas 289,6 2 144,8 5,47103 0,03182 4,45897
Error 211,733 8 26,4667

Total 520 14

43
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

El cuadrado medio entre suelos (filas) es menor que el residual, luego no hay
diferencias significativas entre los suelos. La comparación entre el cuadrado medio entre días
(columnas) y el residual da lugar a F = 5,47. El valor P asociado es 0,031816. Como éste es
menor que 0,05, la diferencia entre días es significativa al nivel del 5 por ciento. Se puede
calcular la varianza de la variación entre días (supuestamente) aleatoria, σd2, en base a que el
cuadrado medio entre días es igual a σ02 + cσd2, donde σ02 se calcula mediante el cuadrado
medio residual y c = 5, el número de suelos analizados cada día. El resultado es 144,8 = 26,47
+ 5 × σd2. Así pues, σd2 = 23,7 y σd = 4,9.

La representación en Excel proporciona información adicional muy útil en forma de


medias y varianzas para los distintos niveles de los diferentes factores. Las medias para los
diferentes suelos (filas) no varían mucho (como cabría esperar del resultado no significativo
para este factor), mientras que las medias para los diferentes días (columnas) sí varían
bastante. Puede comprobarse que las medidas descienden del día 1 al día 2, y luego aumentan
bruscamente del día 2 al día 3.

Ejercicio 3. Éste es otro ejemplo de ANOVA de dos factores sin réplica. Los factores son el
compuesto orgánico (“Compound”) y la relación molar (“Ratio”); ambas son variables
controladas. Los siguientes resultados se obtuvieron con Minitab y muestran que la relación
molar (valor P = 0,482) no tiene un efecto significativo, pero el compuesto sí (valor P = 0,031).

Analysis of Variance (Balanced Designs)

Factor Type Levels Values


Compound fixed      4      1 2 3 4
Ratio fixed      3      1 2 3

Analysis of Variance for % Recovery

Source DF      SS     MS    F     P


Compound  3 12611.6 4203.9 5.95 0.031
Ratio  2  1168.2  584.1 0.83 0.482
Error  6  4237.2  706.2
Total 11 18016.9

F­test with denominator: Error
Denominator MS = 706.19 with 6 degrees of freedom

Numerator DF     MS    F     P


Ratio  2  584.1 0.83 0.482
Compound  3 4203.9 5.95 0.031

Se debe aplicar el sentido común a éstas y otras mediciones; los datos sugieren que el
comportamiento de la difenilamina es muy distinto del mostrado por los otros tres compuestos.

La toma de medidas duplicadas es necesaria para determinar si está presente algún


efecto de interacción. En la práctica, con los duplicados sería suficiente.

44
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicio 4. El efecto principal del factor A resulta de la diferencia media en respuesta cuando A
cambia del nivel bajo al alto, manteniendo fijos los niveles de C y T. Hay cuatro pares de
respuestas que proporcionan una estimación del efecto del nivel de A, como se muestra en la
tabla siguiente:

Nivel de C Nivel de T Nivel de P Diferencia


+ 

  0,084 0,099 0,015


 + 0,049 0,076 0,027
+  0,082 0,097 0,015
+ + 0,051 0,080 0,029

Total = 0,086

Así pues, el efecto promedio de A = 0,086/4 = 0,0215.

De forma similar, se puede obtener que el principal efecto de C = ¼ [(0,097 - 0,099) +


(0,082 - 0,084) + (0,080 - 0,076) + (0,051 - 0,049)] = 0,005 y el efecto principal de T es -0,0265.

Considérese ahora el efecto de la interacción entre A y C. Las dos primeras cifras de la


última columna de la tabla anterior dan el cambio en la respuesta cuando P cambia del nivel
alto al bajo con C en el nivel bajo. Su promedio es ½ [ 0,015 + (0,027)] = 0,021. Las dos
últimas cifras en la misma columna proporcionan el cambio en respuesta cuando P cambia del
nivel bajo al alto con C en el nivel alto. Su promedio es ½ [0,015 + (0,029)] = -0,022. Así
pues, el efecto de interacción AC = ½ [0,022  (0,021) = -0,0005. Utilizando un método
similar, el efecto de interacción AT = 0,0065 y el efecto CT = 0,0025.

Téngase en cuenta ahora la interacción entre los tres factores. La interacción AT


calculada anteriormente se puede dividir en dos partes con relación al nivel de T. Con T en el
nivel bajo, la estimación de la interacción sería ½ [0,015  (0,015)] = 0, y con T en el nivel
alto sería ½ [0,029  (0,027)] = -0,001. La interacción de los tres factores se estima por la
mitad de su diferencia entre estas dos estimaciones, es decir, ½ [0,001  0] = 0,0005.

También se puede emplear Minitab para obtener estos efectos, tal y como aparece a
continuación. La columna “Coef” se refiere a otra manera de describir el modelo, con +1
indicando el nivel alto de un factor y 1 el nivel bajo. Para obtener más información, consúltese
el manual Minitab. Estos coeficientes no añaden nada al cálculo realizado.

Ajuste factorial fraccional

Estimated Effects and Coefficients for Response

Term Effect Coef


Constant  0.07725
A ­0.02150 ­0.01075
C  0.00050  0.00025
T ­0.02650 ­0.01325
A*C ­0.00050 ­0.00025
A*T ­0.00650 ­0.00325
C*T  0.00250  0.00125
A*C*T ­0.00050 ­0.00025

45
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Analysis of Variance for Response

Source DF Seq SS Adj SS     Adj MS F P


Main Effects  3 0.00232950 0.00232950 0.00077650 * *
2­Way Interactions  3 0.00009750 0.00009750 0.00003250 * *
3­Way Interactions  1 0.00000050 0.00000050 0.00000050 * *
Residual Error  0 0.00000000 0.00000000 0.00000000
Total  7 0.00242750

En este ejemplo, al contrario de lo que sucede en el Ejemplo 7.7.1, no hay mediciones


repetidas y, por tanto, no se puede estimar el error residual. Por este motivo aparecen los
asteriscos en la columna ‘F’ de la tabla anterior. Si se considera que la interacción de tres
factores no es importante, se podría utilizar este efecto para calcular el cuadrado medio
residual. La suma de los cuadrados se puede calcular de los efectos utilizando:

Suma de cuadrados = número total de medidas × (efecto)2/4.

Para las interacciones de dos factores, el resultado es 0,0000005, 0,0000845 y


0,0000125 para AC, AT Y CT, respectivamente. La suma de todo es 0,0000975, como aparece
en la tabla de Minitab anterior. Los cuadrados medios serán iguales a estos valores dado que
cada suma de cuadrados tiene 1 grado de libertad. Se pueden comparar los cuadrados medios
con el cuadrado medio residual (como se estimó a partir de la interacción de tres factores) para
obtener los valores F de 1, 169 y 25, respectivamente. El valor crítico de F1.1 es 161,4 (P =
0,05), lo que indica que existe una interacción significativa entre el tiempo que una solución
puede permanecer y la presencia de agitación. Esto tendría sentido si habláramos en términos
físicos. Puesto que la interacción entre A y T es significativa, no hace falta analizar estos
factores de forma separada. Sin embargo, el efecto principal de C sí puede ser analizado. Éste
tiene una suma de cuadrados (y, por tanto, un cuadrado medio) igual a 0,0000005. Como esta
cifra es igual al cuadrado medio residual (interacción de tres factores), el efecto es claramente
no significativo.

Ejercicio 5. En este ejercicio se puede aplicar un ANOVA de dos factores, siendo los dos
factores “laboratorio” y “muestra”. Se han realizado medidas repetidas y, por tanto, es posible
investigar cualquier interacción entre estos factores. La representación en formato Excel se
proporciona a continuación.

Anova: dos factores con réplica

ANOVA
Fuente de variación SC gl CM F Valor P F crít
Muestra 5,06778 2 2,53389 62,4794 62,4794 4,25649
Columnas 0,18778 2 0,09389 2,31507 2,31507 4,25649
Interacción 0,10222 4 0,02556 0,63014 0,63014 3,63309
Dentro de muestras 0,365 9 0,04056
Total 5,72278 17

La interacción no es significativa porque su valor P es 0,653, que es mayor que 0,05. Al


no haber una interacción significativa, se puede probar la diferencia entre laboratorios
(columnas). La diferencia no es significativa porque el valor P (= 0,154) de nuevo es mayor que
0,05. También se puede probar la diferencia entre las muestras: en este caso, la diferencia es
muy significativa (valor P = 0,00000528). Sin embargo, esta diferencia no interesa en este
ejemplo.

Ejercicio 6. (a) Cuando no existe ninguna restricción en el número de experimentos que se van
a llevar a cabo ni en el grado de optimización necesario, se utiliza el método de la razón aurea
para determinar los puntos de iniciación. El intervalo total = 9 - 5 = 4. Este intervalo se divide
entre 1,618 y se obtiene 2,47. Así pues, los puntos de iniciación están en 5 + 2,47 = 7,47 y 9 -
2,47 = 6,53.

46
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

(b) Cuando se requiere un grado de optimización específico, se utiliza el método de la serie de


Fibonacci. El intervalo original necesita una reducción de 4/0,1 = 40. El primer número de
Fibonacci por encima de 40 es F9 = 55, lo que indica que se necesitan nueve experimentos
para alcanzar el resultado deseado. La fracción necesaria para fijar los puntos de iniciación es
F7/F9 = 21/55. El punto de iniciación más bajo está en (4 + [4 × 21/55]) = 6,53 y el punto de
iniciación más alto es (9 - [4 × 21/55]) = 7,47. Estos valores son los mismos que los que se
obtienen en el apartado (a). Esto es debido a que el cociente Fn/Fn – 2 tiende al cociente de oro a
medida que n tiende a infinito: por ejemplo, F9/F7 = 1,61764... y (1 + 5)/2 = 1,618033.... Si el
grado de precisión necesario es amplio (es decir, n es amplio), entonces los dos métodos
proporcionan el mismo resultado.

(c) Si sólo se van a realizar seis experimentos, entonces se utiliza de nuevo el método
Fibonacci para fijar el punto de iniciación. El cociente utilizado para determinar los puntos de
iniciación es F4/F6 = 5/13. Los puntos de iniciación son (4 + [4 × 5/13]) = 6,54 y (9 - [4 × 5/13]) =
7,46, que de nuevo son similares a los resultados obtenidos para el método del cociente de oro.
El grado de optimización alcanzado es 1/F6 = 1/13, de manera que el rango de pH óptimo se
definirá entre un intervalo de 4/13 = 0,31 unidades de pH.

Es interesante comparar los resultados de los apartados (b) y (c) con la reducción en el
rango original que se habría alcanzado si los experimentos se hubieran espaciado a intervalos
iguales. En el apartado (b) la reducción habría sido 2/(9+1) = 1/5, comparada con 1/40; para
(c), la reducción habría sido 2/(6 + 1) = 2/7, comparado con 1/13.

Ejercicio 7. El vértice 1 debería rechazarse porque da la respuesta más baja. El nuevo vértice
(8) se calcula como aparece en la siguiente tabla, donde los valores han sido expresados con
una cifra decimal. Normalmente, los cálculos se realizarían utilizando una hoja de cálculo o se
podrían automatizar usando una computadora incorporada.

Factores
A B C D E
Vértice 2 6,0 4,3 9,5 6,9 6,0
Vértice 3 2,5 11,5 9,5 6,9 6,0
Vértice 5 2,5 4,3 9,5 9,7 6,0
Vértice 6 2,5 4,3 9,5 6,9 9,6
Vértice 7 3,3 6,7 12,5 7,7 7,0

(i) Suma 16,8 31,1 50,5 38,1 34,6


(ii) Suma/5 3,4 6,2 10,1 7,6 6,9
(iii) Vértice rechazado (1) 1,0 3,0 2,0 6,0 5,0
(iv) Desplazamiento 2,4 3,2 8,1 1,6 1,9
(v) Vértice 8 5,8 9,4 18,2 9,2 8,8

47
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicios del Capítulo 8

Ejercicio 1. Minitab incluye una opción para estandarización de variables, es decir, se resta la
media a cada valor y las diferencias resultantes se dividen entre la desviación estándar.

Variedad Sucrosa Glucosa Fructosa Sorbitol


A 0,45975 -1,73547 -1,29107 -0,00475
A 1,22599 -0,91167 -0,32812 -1,00240
A 1,11652 -1,07643 -0,54211 -1,28745
A 1,99223 -1,90023 -0,54211 -1,00240
A 1,44491 -0,08787 -1,29107 2,06181
B -1,07274 1,55973 -0,32812 -0,36105
B -0,63489 0,90069 -0,54211 -0,57484
B -0,19703 0,73593 -0,11413 1,42047
B -0,63489 0,57117 -0,32812 -0,78862
B -0,85381 0,40641 -0,32812 -0,57484
C -0,85381 0,07689 0,31385 0,70786
C -0,96328 0,73593 0,74183 -0,71736
C -0,08757 0,57117 1,70478 0,42281
C -0,19703 0,40641 2,34675 0,92164
C -0,74435 -0,25263 0,52784 0,77912

Los siguientes datos se obtuvieron utilizando Minitab para realizar un análisis


discriminante lineal con variables estandarizadas.

Discriminant Analysis

Linear Method for Response: Variety
Predictors: Sucrose Glucose Fructose Sorbitol

Group    A   B C


Count    5      5 5

Summary of Classification

Put into      ....True Group....
Group     A     B     C
A     5     0     0
B     0     5     0
C     0     0     5
Total N     5     5     5
N Correct     5     5     5
Proportion 1.000 1.000 1.000

N = 15 N Correct = 15 Proportion Correct = 1.000

Summary of Classification with Cross­validation

Put into      ....True Group....
Group     A     B     C
A     5     0     0
B     0     5     0
C     0     0     5
Total N     5     5     5
N Correct     5     5     5
Proportion 1.000 1.000 1.000

N = 15 N Correct = 15 Proportion Correct = 1.000

48
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Squared Distance Between Groups
      A       B       C
A  0.0000 50.3433 88.4046
B 50.3433  0.0000 15.8055
C 88.4046 15.8055  0.0000

Linear Discriminant Function for Group
   A      B       C
Constant ­14.538 ­2.439  ­8.782
Sucrose  15.039 ­3.697 ­11.342
Glucose  ­1.829  2.931  ­1.102
Fructose  ­9.612  0.363   9.249
Sorbitol  ­2.191 ­0.229   2.421

Obsérvese que las funciones discriminantes lineales difieren de aquellas que se


obtienen utilizando variables no estandarizadas (véase el Ejemplo 8.5.1). No obstante, los
resultados de la clasificación cruzada son los mismos.

La sucrosa y la fructosa tienen los mayores coeficientes, lo que significa que podrían
ser las variables más efectivas en la discriminación entre variedades.

El análisis siguiente muestra el resultado de una discriminación linear utilizando sólo


estas dos variables (estandarizadas).

Discriminant Analysis

Linear Method for Response: Variety
Predictors: Sucrose Fructose

Group    A  B C
Count    5    5 5

Summary of Classification

Put into     ....True Group....
Group     A     B     C
A     5     0     0
B     0     5     0
C     0     0     5
Total N     5     5     5
N Correct     5     5     5
Proportion 1.000 1.000 1.000

N = 15 N Correct = 15 Proportion Correct = 1.000

Summary of Classification with Cross­validation

Put into     ....True Group....
Group     A     B     C
A     5     0     0
B     0     5     1
C     0     0     4
Total N     5     5     5
N Correct     5     5     4
Proportion 1.000 1.000 0.800

N = 15 N Correct = 14 Proportion Correct = 0.933

49
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Squared Distance Between Groups
    A     B    C
A  0.0000 37.0231 68.4299
B 37.0231  0.0000  8.8113
C 68.4299  8.8113  0.0000

Linear Discriminant Function for Group
    A     B    C
Constant ­11.227 ­1.291 ­6.526
Sucrose  12.773 ­4.234 ­8.539
Fructose  ­8.155  0.888  7.267

Utilizando solamente estas dos variables, la tasa de clasificación es 15 de 15, como


antes. La clasificación cruzada proporciona una tasa de éxito de 14 sobre 15 para las dos
variables, en comparación con 15 sobre 15 usando las cuatro variables.

Es interesante observar la eficacia que tienen estas variables por sí mismas en la


discriminación entre variedades. En cada caso, la tasa de éxito de la clasificación cruzada
solamente es 10 de 15. El diagrama (véase la Figura 8.A) del valor (estandarizado) de la
sucrosa frente al de la fructosa muestra claramente los tres grupos separados y también
muestra por qué cada variable, por separado, no es buena para la discriminación entre grupos.

Figura 8.A

50
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicio 2. (a) El dendrograma de la Figura 8.B muestra dos grupos claros con pertenencia a
los grupos dependiendo de si el arroz está o no limpio.

Figura 8.B

(b) La matriz de correlación es la siguiente:

    P      K     Ni


K  0,954
Ni ­0,531 ­0,528
Mo  0,150  0,117 ­0,527

Los valores críticos para un contraste de dos colas siendo P = 0,05 son ±0,497 y siendo
P = 0,01 son ±0,623. Así pues, existe una correlación positiva altamente significativa entre P y
K; una correlación negativa significativa entre P y Ni, Ni y K, y Ni y Mo; y ninguna correlación
significativa entre K y Mo y entre Mo y P.

(c) El resultado del análisis de componentes principales utilizando Minitab es el siguiente:

Principal Component Analysis

Eigenanalysis of the Correlation Matrix

Eigenvalue 2.4884 1.1201 0.3464 0.0451


Proportion  0.622  0.280  0.087  0.011
Cumulative  0.622  0.902  0.989  1.000

Variable    PC1    PC2    PC3    PC4


P  0.577  0.340 ­0.239  0.703
K  0.572  0.366 ­0.186 ­0.710
Ni ­0.509  0.357 ­0.783 ­0.021
Mo  0.283 ­0.789 ­0.544 ­0.035

51
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Una representación de las puntuaciones (véase la Figura 8.C) muestra dos grupos bien
definidos correspondientes a las variedades limpio (P) y sucio (U).

Figura 8.C

La Figura 8.D muestra la representación de las puntuaciones, donde los grupos son el
arroz crecido en la estación húmeda (W) y el arroz crecido en la estación seca (D). En este
caso, no existe separación de los grupos.

Figura 8.D

52
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Tampoco existe separación en grupos con relación a la variedad, como se puede


comprobar en la representación de puntuaciones de la Figura 8.E.

Figura 8.E

Así pues, el ACP confirma el análisis en (a), es decir, la separación en grupos viene
determinada por la cualidad limpia o sucia del arroz.

(d) Los resultados del análisis anterior indicarían que el ADL no sería eficaz en la determinación
de la variedad de arroz, midiendo la concentración de los elementos K, Mo, Ni y P. Sin
embargo, el resultado de realizar un ADL utilizando los valores estandarizados proporciona los
siguientes datos de Minitab.

Discriminant Analysis

Linear Method for Response: Variety
Predictors:  P  K  Ni  Mo

Group     A    B


Count     8      8

Summary of Classification

Put into     ....True Group....
Group     A     B
A     8     0
B     0     8
Total N     8     8
N Correct     8     8
Proportion 1.000 1.000

N = 16 N Correct = 16 Proportion Correct = 1.000

Summary of Classification with Cross­validation

Put into     ....True Group....
Group     A     B
A     7     1
B     1     7
Total N     8     8
N Correct     7     7
Proportion 0.875 0.875

N = 16 N Correct = 14 Proportion Correct = 0.875

53
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

Squared Distance Between Groups
      A       B
A  0.0000 20.8607
B 20.8607  0.0000

Linear Discriminant Function for Group
      A       B
Constant  ­2.608  ­2.608
P  18.016 ­18.016
K ­19.319  19.319
Ni ­0.051   0.051
Mo ­1.198   1.198

Con esto se demuestra que es posible discriminar de forma efectiva entre variedades.

Los coeficientes de la función discriminante lineal indican que las concentraciones de P


y K son las más eficaces en la discriminación entre variedades. El resultado de ADL utilizando
estos dos elementos es el siguiente:

Discriminant Analysis

Linear Method for Response: Variety
Predictors:  P  K

Group     A  B
Count     8  8

Summary of Classification

Put into     ....True Group....
Group     A     B
A     8     0
B     0     8
Total N     8     8
N Correct     8     8
Proportion 1.000 1.000

N = 16 N Correct = 16 Proportion Correct = 1.000

Summary of Classification with Cross­validation

Put into     ....True Group....
Group     A     B
A     7     0
B     1     8
Total N     8     8
N Correct     7     7
Proportion 0.875 1.000

N = 16 N Correct = 15 Proportion Correct = 0.937

Squared Distance Between Groups
      A       B
A  0.0000 16.2190
B 16.2190  0.0000

Linear Discriminant Function for Group
      A       B
Constant  ­2.027  ­2.027
P  14.176 ­14.176
K ­15.341  15.341

La discriminación es casi tan buena como con los cuatro elementos.

54
© Pearson Educación, S.A.
Estadística y Quimiometría para Química Analítica, 4ª Edición

El diagrama (véase la Figura 8.F) del valor estandarizado de P frente al de K resulta


muy revelador.

Figura 8.F

Los dos grupos, uno abajo a la izquierda y el otro arriba a la derecha, corresponden a si
el arroz está limpio o sucio; de esta variable depende, en su mayor parte, la variación en P y K.
No obstante, también es posible la separación efectiva en relación con la variedad porque, en
general, la concentración de P es mayor que la concentración de K para la variedad A y la
concentración de P es menor que la concentración de K para la variedad B.

55
© Pearson Educación, S.A.

Вам также может понравиться