Академический Документы
Профессиональный Документы
Культура Документы
ESTAQ!?TICA
, ,
Versin en espaol de
Roberto Izquierdo Hornillos
Profesor de Qumica Analtica
Universidad Complutense de Madrid
y
Carlos Mat Jimnez
Profesor de Estadstica
lCAl, Universidad Pontificia Comillas
Con la colaboracin de
Santiago Capella Vizcaino
Universidad Nacional Autnoma de Mxico
..
TT ADDISON-WESLEY IBEROAMERICANA
Argentina Brasil . Chile . Colombia . Ecuador . Espaa
Estados Unidos Mxico Per Puerto Rico Venezuela
Versin en espaol de la obra Statistics for Analytical Chemistry, Second Edition, de J.e.
Miller y J.N. Miller, publicada originalmente en ingls por Ellis Horwood, Londres,
Inglaterra. 1988 por le. Miller y J.N. Miller/Ellis Horwood Limited.
ndice general
Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IX
1 Introduccin
1.1 Problemas analticos . .1
1.2 Errores en el anlisis cuantitativo .2
1.3 Tipos de errores . .3
Portada: Ricardo Aniaga 1.4 Errores sistemticos y aleatorios en el anlisis volumtrico .7
1.5 El manejo de errores sistemticos . 11
1.6 Planificacin y diseo de experimentos . 14
1.7 Calculadoras y computadores en los clculos estadsticos 15
Bibliografa 17
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
\Iwdir otro volumen a los numerosos textos de estadstica pudiera parecer una tarea
"1l1 excesivas garantas de xito; no obstante, la realidad es que por desgracia muchos
cientificos altamente calificados ignoran hasta los mtodos estadsticos ms elementales.
.Es mas asombroso an que los qumicos analticos, quienes practican una de las ciencias
lI1;~S cuantitativas de todas las existentes, no estn ms prevenidos que otros contra este
mal peligroso, pero sin lugar a dudas curable. Por lo tanto, es de esperar que este libro
pueda beneficiar a los cientficos analticos que deseen disear y realizar sus experimentos
en forma correcta, y extraer tanta informacin de los resultados como puedan. As mismo,
pretende atraer al creciente nmero de estudiantes que se especializan en qumica anlitica,
ya los que utilizan mtodos analticos en forma rutinaria en el trabajo de laboratorio.
Existen otras dos razones que nos han alentado a escribir este libro. Una es el enorme
impacto de la microelectrnica, en forma de microcomputadores y calculadoras de bolsillo,
sobre la estadstica: mediante estos aparatos, los cientficos activos han resuelto los
problemas que planteaban los procedimientos analticos difciles. La segunda es el rpido
desarrollo de los nuevos procedimientos "quimiomtricos", incluyendo el reconocimiento
de pautas, optimizacin, tcnicas de filtrado numrico, simulaciones, etc., todos ellos
factibles gracias a las facilidades que aportan los computadores. En el ltimo captulo de
este libro se intenta proporcionar al lector cuando menos una introduccin del potencial
de algunos de estos mtodos estadsticos ms novedosos. Sin embargo, no se ha incluido
ningn programa de computador en el libro; esto se debe, en parte, a las dificultades de
presentar programas que puedan ejecutarse en todos los tipos conocidos de microcompu-
tadores, y en parte a la existencia de una cantidad considerable de libros y programas de
computador adecuados y accesibles al pblico.
La disponibilidad de este enorme potencial de los computadores hace que el cientfico,
naturalmente, aplique mtodos estadsticos de manera racional y correcta. Para limitar la
extensin de este libro, y recalcar sus aspectos prcticos, no hemos intentado mostrar con
detalle las bases tericas de las pruebas estadsticas descritas. No obstante, hemos intentado
aclarar al analista cuales son las pruebas apropiadas para los tipos de problemas que
probablemente encontrar en el laboratorio. En el texto se incluyen ejemplos resueltos y,
al final de cada capitulo, ejercicios para el lector. Muchos de ellos se basan en los datos
proporcionados por trabajos de investigacin publicados en The Analyst. Nuestro profundo
agradecimiento al editor Phil Weston, por permitimos hacer uso de su distinguida revista.
Tambin agradecemos a nuestros colegas, amigos y familia su paciencia durante la
preparacin del libro; por otro lado en los apndices se citan individualmente las fuentes
de las tablas estadsticas; al editor de la serie, doctor Bob Chalmers; y a nuestros editores
por su eficiente cooperacin y consejos.
J. C. Miller
J. N. Miller
gran aceptacin que ha tenido la primera edicin de este libro nos ha animado a preparar
una segunda edicin revisada y ligeramente ampliada. Agradecemos en especial a quienes
han indicado errores de la primera edicin y nos sugirieron posibles mejoras. El profesor
D. Thorburn Burns nos ha ayudado mucho al sealamos los errores; tambin agradecemos
al profesor J. E. Colbeck por sus comentarios constructivos acerca de la nomenclatura.
Los principales cambios introducidos en esta edicin forman un nuevo captulo (4), en
el cual se trata por primera vez los ensayos de colaboracin y se cubre en gran medida el
muestreo y los diagramas de control. Se aadi material sobre errores de tipo 1 y tipo 2;
el uso secuencial de las pruebas de significacin; los mtodos no paramtricos, y las
grficas de calibracin no lineales. Por ltimo, se ampli el estudio del reconocimiento de
pautas y del diseo factorial, y se incorporaron soluciones ms detalladas a algunos de los
problemas.
De nuevo, agradecemos a nuestros editores; los editores de la serie, los doctores Bob
Chalmers y Mary Masson; y Phil Weston, editor de The Analyst, su ayuda y cooperacin
adicionales para la produccin de esta edicin.
J. C. Miller
J. N. MilIer
Glosario de smbolos
Wj
estadsticos utilizados en la prueba de la suma de rangos de Wilcoxon
intervalo '''''============
peso dado a un punto en la recta de regresin
X media aritmtica de una muestra
Xo valor ele x estimado utilizando rectas de regresin
XI-:
x\v
valor de x extrapolado
media ari tmtica de valores de x ponderados
Introduccin
x 2
cantidadlltilizaela en contrastes de bondad del ajuste
y prediccin del valor de y por la recta de regresin
Yw media ari tmtica de los valores de y ponderados
)'B seal elel blanco
z variable Ilormal estndar
1.1 PROBLEMAS ANALTICOS
ra la comparacin de los resultados experimentales con un valor supuesto o de referencia: experimento y empezar de nuevo. Como ejemplos se podran incluir la avera total de un
este tema se estudia con detalle en el captulo 3. instrumento, la cada o el derramamiento accidental de una muestra muy importante, o
Una situacin ms comn es la del analista que lleva a cabo varias determinaciones descubrir durante el desarrollo de un experimento que un reactivo que se supona puro, en
repetidas en el curso de un solo anlisis. (El valor y la significacin de tales repeticiones realidad estaba contaminado. Tales errores (que ocurren ocasionalmente incluso en los
se ver con detalle en el prximo captulo.) Suponga que un analista efecta cuatro veces laboratorios mejor controlados') normalmente se reconocen con mucha facilidad. En
un experimento volumtrico y obtiene valores de 24.69, 24.73, 24.77 Y25.39 ml. El primer consecuencia, en nuestro anlisis slo tenemos que distinguir con detenimiento entre los
aspecto por sealar es que los valores de titulacin se redondean a 0.01 ml; este aspecto errores aleatorios y los sistemticos.
tambin se analiza en el captulo 2. Tambin es evidente de inmediato que los cuatro valores Podemos hacer mejor esta distincin mediante el estudio cuidadoso de una situa-
son distintos debido a los errores inherentes a las medidas, y que el cuarto valor (25.39 ml) cin experimental real. Cuatro estudiantes (A-D) realizan un anlisis en el que titulan
exactamente 10.00 mI de hidrxido de sodio exactamente O.lM* con cido clorhdri- Tabla 1.1 Erroressistemticos y aleatorios
co exactamente O.lM. Cada uno realiza cinco rplicas del anlisis y obtiene los resultados
Estudiante Resultados (ml) Comentario
que se muestran en la tabla 1.1.
Los resultados obtenidos por el estudiante A tienen dos caractersticas importantes. 10.08
Primero, todos estn muy prximos; todos caen entre 10.08 y 10.12 mI. En trminos 10.11
A 10.09 Preciso
generales, diramos que los resultados son altamente reproducibles. La segunda caracte-
10.10 pero inexacto
rstica distintiva es que todos son demasiado altos; en este experimento (algo inusual) 10.12
conocemos de antemano la respuesta correcta: 10.00 mI. Resulta evidente que han surgido
dos tipos de errores completamente distintos en el experimento de este estudiante. En 9.88
10.14
primer lugar existen errores aleatorios, los cuales provocan que los resultados individua- B 10.02 Exacto
les caigan a ambos lados del valor medio (en este caso 10.10 ml). Los estadsticos afirman 9.80 pero impreciso
qu~ los errores aleatorios afectan la precisin, o reproducibilidad de un experimento. En 10.21
el caso del estudiante A, queda claro que los errores aleatorios son pequeos y, por lo tanto, 10.19
decimos que los resultados son precisos. Sin embargo, tambin existen errores sistem- 9.79
ticos, los cuales provocan que todos los resutados sean errneos en el mismo sentido (en C 9.69 Inexacto
este caso todos son demasiado altos). Los errores sistemticos afectan la exactitud, es decir, 10.05 e impreciso
la prnxf'nidrd (JI valor verdadero. En muchos experimentos, los errores aleatorios y 9.78
sistemticos no se detectan fcilmente con slo observar los resultados, sino que tambin 10.04
tienen orgenes muy distintos en cuanto a la tcnica experimental y al equipo que se utiliza. 9.98
Antes de examinar las causas de los errores en este experimento, podemos analizar D 10.02 Exacto
9.97 y preciso
brevemente los resultados obtenidos por los estudiantes B a D. El estudiante B ha obtenido
10.04
resultados que se encuentran en contraposicin directa con los del estudiante A. El
promedio de los cinco resultados (10.01 mI) est muy prximo al valor verdadero, de
manera que podemos caracterizar los datos como exactos, sin errores sistemticos sustan- Podemos aclarar esta diferencia con una extensin del experimento anterior. Por el
ciales. Sin embargo, la variedad de los resultados es muy grande, lo que indica una precisin camino normal el estudiante A, por ejemplo realizara las cinco medidas repetidas en una
insatisfactoria y la presencia de errores aleatorios sustanciales. La comparacin de estos sucesin rpida; pero es probable que no tardara ms de una hora en realizar el ejercicio
resultados con los obtenidos por el estudiante A muestra con claridad que los errores completo. Utilizara la misma serie de disoluciones y el mismo material de vidrio a lo largo
aleatorios y los sistemticos pueden ocurrir independientemente uno del otro. Esta conclu- del experimento; aadira la misma preparacin del indicador a cada matraz de titulacin,
sin se refuerza con los datos de los estudiantes C y D. El trabajo del estudiante C no es ni y permaneceran iguales la temperatura, la humedad y dems condiciones de laboratorio.
preciso (intervalo de 9.69 a 10.19 rnl) ni exacto (media 9.90 ml). El estudiante D ha logrado En tales circunstancias, la precisin medida sera la precisin dentro de rachas; esto se
a la vez resultados precisos (intervalo de 9.97 a 10.04 ml) y exactos (media 10.01 mI). La denomina repetitividad. Sin embargo, suponga que por alguna razn el mismo estudiante
distincin entre errores aleatorios y sistemticos, y entre precisin y exactitud, se resume realiz las titulaciones en cinco ocasiones diferentes. Es probable que en tales circunstan-
en la figura 1.1. cias usara recipientes de vidrio y preparaciones de indicador diferentes; as mismo, las
E! experimento aparentemente sencillo, descrito en los prrafos anteriores, merece condiciones del laboratorio tambin pudieron cambiar de una ocasin a otra. Por eso en
varios comentarios adicionales. Es muy importante mencionar que las palabras precisin este caso no sera sorprendente encontrar una gran variabilidad en los resultados. Este
y exactitud tienen significados completamente diferentes en la teora de errores, mientras conjunto de datos reflejara la precisin entre rachas del mtodo, y esto es a 10 que se
que se usan de manera indistinta en el lenguaje cotidiano. Por ejemplo, en varios diccio- debera asignar el trmino reproducibilidad. En la tabla 1.2 se resumen las definiciones
narios se menciona la exactitud como una definicin de precisin, y viceversa. Esta de los trminos utilizados y las relaciones entre ellos .
desafortunada confusin hace ms difcil recordar la diferencia principal entre los errores Se debe aprender otra leccin del experimento de titulacin. Es fcil apreciar que los
sistemticos y los aleatorios, a los cuales se refieren las palabras exactitud y precisin, valores obtenidos por el estudiante C son inaceptables, y que los del estudiante D son
respectivamente. Mencionaremos dos problemas adicionales de nomenclatura. En algunos los ms aceptables. Sin embargo, en ocasiones puede ocurrir que haya dos mtodos
textos se habla de errores "determinados" e "indeterminados" con el mismo significado disponibles para un anlisis concreto, de los cuales se piense que uno sea preciso pero
que errores sistemticos y aleatorios, respectivamente. As mismo, aunque utilizamos con inexacto, mientras que el otro, exacto pero impreciso. En otras palabras, es posible que
anterioridad la palabra "reproducibilidad" como una definicin aproximada de la precisin, tengamos que elegir entre los tipos de los resultados obtenidos por los estudiantes A y B
el convenio actual hace una distincin ciudadosa entre reproducibilidad y repetitividad. respectivamente. Entonces, qu tipo de resultado es preferible? No es posible dar una
respuesta categrica a esta pregunta, aunque slo sea porque la eleccin del mtodo
* El smbolo 1M indica I mol del material especificado por litro de solucin. analtico se basar, en la prctica, en el costo, la facilidad de automatizacin, la rapidez del
Resultado rimental y de nuestro equipo. En la prxima seccin se analiza esta importante distincin
adicional entre los elos grandes tipos ele errores.
correcto
EJERCICIOS
1. Una muestra estndar de suero sanguneo humano contiene 42.0 g de albmina por litro. Cinco
laboratorios (A-E) realizan cada uno seis determinaciones (en el mismo da) de la concentracin
de albmina, con los siguientes resultados (en gil):
2. Utilizando la misma muestra y mtodo del ejercicio 1, el laboratorio A realiza otras seis
determinaciones de la concentracin de albmina en un tiempo de seis das sucesivos. Los
valores obtenidos son 41.5, 40.8, 43.3, 41.9, 42.2, 41.7 gil. Comente estos resultados.
B, e y D son 0.17, 0.21 Y 0.033 mi respectivamente, y establecer as una confirmacin
cuantitativa de las afirmaciones sobre la precisin realizadas en el captulo 1.
Muchas calculadoras de bolsillo proporcionan los resultados de estos clculos si se
introducen en ellas los valores de x. Sin embargo, se debe tener cuidado en pulsar la tecla
correcta para obtener la desviacin estndar. Algunas calculadoras proporcionan dos valo-
res diferentes para la desviacin estndar, uno calculado utilizando la ecuacin (2.2) y el
otro sustituyendo (11 - 1) por 11 en el denominador de esta ecuacin. (La razn de estas dos
formas diferentes se explica en la pg. 23.) Por supuesto, para valores grandes de Il la
diferencia es despreciable.
Por desgracia, al calcular una desviacin estndar, la calculadora puede redondear
nmeros de manera tal que puede obtenerse un valor errneo (incluso cero). Esto sucede
Errores en el anlisis clsico. normalmente cuando existen diferencias entre los valores introducidos en el cuarto o
subsiguientes dgitos significativos, dependiendo del tpo de calculadora. Por ejemplo,
Estadstica de medidas repetidas muchas dan como cero la desviacin estndar de los tres valores 100.000, 100.001 Y
100.002, mientras que de hecho es 0.00 l. Este problema se puede superar codificando los
valores, es decir, restando una cantidad fija a cada uno, por ejemplo, en este caso 100.000
para obtener 0.000, 0.00 I Y 0.002. Puesto que la desviacin estndar mide la variabilidad
en torno a la media, la desviacin estndar de esos valores codificados es la misma que la
de los valores originales. (La media de los valores originales se obtiene aadiendo 100 a
la media de los valores codficados.) La codificacin de valores tambin reduce el trabajo
2.1 MEDIA Y DESVIACIN ESTNDAR y posibles errores al introducir la informacin en una calculadora. En este ejemplo
concreto, el clculo podra haberse realizado an con ms rapidez y con menos tendencia
En este captulo se introducen algunos conceptos estadsticos fundamentales y se aplican al error tomando los valores codificados como O, 1 Y 2: en tal caso debe tenerse especial
;\ situaciones habituales en el anlisis clsico es decir, se realizan mediciones repetidas de cuidado de decodificar el resultado que aparece en la pantalla de la calculadora.
la misma cantidad. En el captulo 1 se expusieron los diversos tipos de errores al considerar
Jos resultados de repetir cinco veces una valoracin hecha por cuatro estudiantes: estos
datos se reproducen a continuacin. Tabla 2.1 Clculos de la media y la desviacin estndar para los resultadosdel estudiante A
x,(ml)
Estudiante Resultados (ml)
A 10.08 10.11 10.09 10.10 10.12 10.08 0.0004
B 9.88 10.14 10.02 9.80 10.21 10.11 0.0001
C 10.19 10.09 0.0001
9.79 9.69 10.05 9.78 10.10 O. ()()()()
D 10.04 9.98 10.02 9.97 10.04 10.12 0.0004
Total 50.50 0.0010
Para comparar estos resultados se utilizaron dos criterios, el valor promedio y el grado de
varia bilidad (dispersin). El valor promedio utilizado fue la media aritmtica x, (en forma i = 50.50/5 = 10.10 mi
5= yO 0010/4 = 0.016 rnl
abreviada, media) que es la suma de todas las mediciones dividida por el nmero de
mediciones:
x= z:: x.In
(2.1) El clculo de la tabla 2.1 fue muy simple porque los valores de (x; - X)2 se podran
calcular mentalmente. Por lo regular esto no es as y para simplificar la aritmtica se puede
La medida ms utilizada de la variabilidad es la desviacin estndar, s. sta se define utilizar una forma alternativa de la ecuacin (2.2), si no se dispone de una calculadora
por la frmula: programada para clculos estadsticos:
"o ,,'
I
-- --~ ~ - ~ -
1) n(n - 1)
El clculo de la desviacin estndar de los resultados de A se muestra en la tabla 2.1. El
lector debera comprobar que las desviaciones estndar de los resultados de los estudiantes
La media y la desviacin estndar pueden calcularse tambin con un computador Esta tabla indica que, en la tabla 2.2, el valor de 0.46 .Jg/ml aparece una vez, el valor de
utilizando un programa BASIC de unas pocas lneas. Este programa slo sera til si 0.4 7 ,L/g/mI aparece tres veces y as sucesivamente. El lector puede comprobar que la media
el propio computador fuese recogiendo los datos o si se analizase una gran cantidad de estos resultados es 0.500 .Jg/ml y la desviacin estndar es 0.0165 fJg/ml. (Estos valores
de ellos. Ejemplos de dichos programas aparecen en los libros de la bibliografa del se expresan de manera arbitraria con tres cifras significativas: este importante aspecto de
captulo 1. la presentacin de resultados se analiza al final del captulo.) La distribucin de los
E! cuadrado de s es una cantidad estadstica muy importante conocida como la resultados puede apreciarse con facilidad dibujando un histograma como el de la figura
varianza; su significacin se manifestar en el captulo dedicado a la propagacin de 2.1. En l se muestra que las medicioues estn distribuidas en forma casi simtrica en torno
errores. As mismo se emplea mucho el coeficiente de variacin (CV), tambin conocido a la media, con las mediciones agrupadas respecto al centro.
como la desviacin estndar relativa (DER), que se define por 100 s/x. El CV o DER,
cuyas unidades se expresan obviamente en porcentaje, es un ejemplo de error relativo; es
decir, una estimacin del error dividida por una estimacin del valor absoluto de la cantidad
medida. Los errores relativos se utilizan con frecuencia en la comparacin de las precisio-
nes de los resultados que tienen diferentes unidades o magnitudes, y son importantes en el
y
clculo de la propagacin de errores.
0.51 0.51 0.51 0.50 0.51 0.49 0.52 0.53 0.50 0.47
0.51 0.52 0.53 0.48 0.49 0.50 0.52 0.49 0.49 0.50
0.49 0.48 0.46 0.49 0.49 0.48 0.49 0.49 0.51 0.47
0.51 0.51 0.51 0.48 0.50 0.47 0.50 0.51 0.49 0.48
11 x
0.51 0.50 0.50 0.53 0.52 0.52 0.50 0.50 0.51 0.51
Figura 2.1 Histograma de los datos de concentracin de ion nitrato de la tabla 2.3.
de la concentracin de ion nitrato, dada con dos cifras significativas, en una muestra con-
creta de agua. Estos resultados se pueden resumir en una tabla de frecuencias (tabla 2.3). Estc conjunto de 50 mediciones constituye una muestra de un gran nmero de ellas
(en teora infinita) que se pueden tomar de la concentracin de nitrato. Este conjunto de
posibles mediciones se denomina poblacin. Si /10 hay errores sistemticos, entonces la
Tabla 2.3 Tabla de frecuencias para las mediciones de concentracin de ion nitrato media de la poblacin, indicada por .J es el verdadero valor de la concentracin de nitrato
que se intenta determinar. La media, x, de la muestra nos proporciona una estimacin de .J.
Concentracin de ion
De manera similar, la poblacin tienen una desviacin estndar simbolizada por (J. El valor
nitrato (Jig/ml) Frecuencia
de la desviacin estndar, s, de la muestra nos proporciona una estimacin de (J. El uso de
0.46 1 la ecuacin (2.2) nos da una estimacin insesgada de (J. Si en vez de (I! - 1) utilizamos I!
0.47 3
en el denominador de la ecuacin, el valor que se obtiene de s tiende a subestimar (J (vase
0.48 5
0.49 10 la pg. 21).
0.50 10 Las mediciones de concentracin de ion nitrato que aparecen en la tabla 2.2 presentan
0.51 13 slo valores discretos debido a las limitaciones del mtodo de medicin. En teora, una
0.52 5 concentracin puede tomar cualquier valor ele manera que para describir la forma de la
0.53 3
poblacin, de la que se ha extrado una muestra, se necesita una curva continua. El modelo
matemtico que habitualmente se emplea es la distribucin normal o Gaussiana descrita
por la ecuacin y
(2.4)
d. e. = 02
y su forma se muestra en la figura 2.2. No es necesario recordar esta frmula complicada,
aunque algunas de sus propiedades generales son importantes. La curva es simtrica
respecto a 1-' y cuanto mayor sea el valor de a mayor ser la variabilidad de la curva, como
1O -
J1 x
I
Figura 2.3 Distribuciones normales con la misma media perodiferentes valores de desviacin
5 .- r---- -----
estndar.
~
estudiar las medias muestrales, cualquier desviacin de la normalidad en una poblacin no
es generalmente importante en el contexto de las pruebas estadsticas utilizadas con ms
frecuencia.
~ I I I I I I I La distribucin normal no slo se aplica cuando se hacen mediciones repetidas de un
0.46 0.48 0.50 0.52 mismo especimen; tambin los resultados obtenidos a menudo se adaptan a la distribucin
normal cuando se mide la misma magnitud para diferentes muestras. Por ejemplo, si
Concentracin de ion nitrato, ,ugJml
medimos las concentraciones de albmina en suero sanguneo procedentes de humanos
Figura 2.2 La distribucin normal, y = exp[-(x - ,u)2/202l/ uf2it. La media se indica con u. adultos sanos, encontraremos que los resultados estarn aproximadamente distribuidos de
manera normal. Sin embargo, en este segundo tipo de poblacin, es decir, una medida sobre
se muestra en la figura 2.3. Un anlisis un poco ms detallado demuestra que, cualesquiera cada serie de especmenes, no es raro que existan otras distribuciones. En concreto, se
que sean los valores de 1-' y a, aproximadamente el68 % de los valores de la poblacin caen encuentra con frecuencia la denominada distribucin log-normal: en esta distribucin los
dentro de 1 a de la media; cerca del 95 % de los valores se ubican dentro de 2 a de la logaritmos de las concentraciones (u otras caractersticas), cuando se representan frente a
media, y casi el 99.7 % de los valores se encuentran dentro de 3 a de la media (figura 2.4). la frecuencia, proporcionan una curva de distribucin normal. Por ejemplo, la concentra-
Esto significa que si las concentraciones de ion nitrato que aparecen en la tabla 2.3 se cin de anticuerpos en suero sanguneo humano es aproximadamente una distribucin
distribuyen normalmente, cerca del 68 % caeran en el intervalo de 0.483 a 0.517; alrededor lag-normal (figura 2.5), y los tamaos de la partcula de gotas formadas por nebulizadores
del 95% en el intervalo de 0.467 a 0.533, y el 99.7% en el de 0.450 a 0.550. De hecho, en fotometra de llama pueden seguir tambin esta distribucin.
33 de los 50 resultados (66%) caen entre 0.483 y 0.517; 49 (98 %) entre 0.467 y 0.533, y
todos los resultados se ubican entre 0.450 y 0.550, de manera que la concordancia con la
teora es bastante satisfactoria. 2.3 LA DISTRIBUCIN MUESTRAL DE LA MEDIA
~~nqu~ no se pueda demostrar que las mediciones repetidas de cualquier cantidad
anahtica siempre van a estar distribuidas normalmente, las pruebas indican que por lo Yahemos visto que la media de una muestra de mediciones nos proporciona una estimacin
general esta hiptesis est al menos muy cerca de la verdad. Adems, como veremos al del valor verdadero, 1-', de la magnitud que se quiere medir. Sin embargo, ya que las
%
y
(i)
1O
~-1(]' ~+1(]' x
y
(ii)
'----.-:::::..-_--l... ~ _ la media de varios valores que en uno solo. Mucha gente piensa que cuantas ms
~-2(]'
mediciones se tomen ms confiable ser nuestra estimacin de fl, el valor real. Para
x
y corroborar esta idea volvamos a la determinacin de ion nitrato descrita en la seccin 2.2.
(iii) En casos como el estudiado (concentracin del ion nitrato), por lo regular es poco prctico
realizar 50 mediciones repetidas. Un nmero ms verosmil sera 5 y podemos ver cmo
las mediciones de las muestras de este tamao estn distribuidas alrededor de fl, si
consideramos los resultados de la tabla 2.2 como 10 muestras en las que cada una de ellas
99.7% contiene 5 resultados. Si tomamos cada columna como una muestra, las medias son 0.506,
0.504, 0.502, 0.496, 0.502, 0.492, 0.506, 0.504, 0.500, 0.486. Resulta evidente que estas
mediciones se encuentran ms agrupadas entre s que las mediciones originales. De la
misma forma que stas eran muestras de una poblacin infinita de posibles mediciones,
estas medias son una muestra de las posibles medias de muestras de 5 mediciones de la
poblacin global. La distribucin de estas mediciones muestrales se denomina distribu-
x cin muestral de la media o distribucin en el muestreo de la media; su media es la
Figura 2.4 Propiedades de la distribucin normal: (i) aproximadamente el 68% de los valores caen misma que la de la poblacin original y su desviacin estndar se denomina error estndar
dentreo de 1u.de la media; (ii) cerca de195% de los valores se ubican dentro de 2ude la media; de la media (e.e.m.). Existe una relacin matemtica entre el e.e.m. y la desviacin
(1Il) el 97% de los valores se encuentran dentro de 3u de la media. estndar, a, de la distribucin de mediciones individuales, la cual es independiente de la
forma en que estn distribuidas. Si Il es el tamao de la muestra, la relacin es:
mediciones individuales estn distribuidas en torno al valor verdadero con una dispersin e.e.m. = o/V-;Z (2.4)
que depende de la precisin, es poco probable que la media de la muestra sea exactamente
Igual al valor verdadero. Por esta razn es ms til proporcionar un intervalo de valores Como es de esperar, a mayor 11, menor ser la dispersin de las mediciones muestrales en
que contenga casi con seguridad el valor verdadero. La amplitud de este intervalo depende torno a u. Este trmino utilizado universalmente, el error estndar de la media, podra
de dos factores. El primero es la precisin de las mediciones individuales, las cuales de- conducir al lector a pensar que a/m mide la diferencia entre x y u. Esto no es as: a/m
penden a su vez de la varianza de la poblacin. El segundo es el nmero de mediciones proporciona una medida de la incertidumbre que hayal estimar fl a partir de x, como se
de la muestra. El slo hecho de repetir mediciones implica que se tiene ms confianza en ver en la siguiente seccin.
Otra propiedad de la distribucin muestral de la media es que, aun cuando la pobla- J1 - 1.96( al.f1l) <X< J1 + 1.96( al.f1l) (2.5)
cin original no est distribuida normalmente, tiende a la distribucin normal cuando
aumenta n. Este resultado se conoce como teorema del lmite central. Este teorema es de (Se utiliza en esta ecuacin el valor exacto de 1.96 en lugar del valor aproximado, 2, que
suma importancia, ya que muchas pruebas estadsticas se realizan sobre la media y se supone se emplea frecuentemente.)
que se distribuye en forma normal. Debido a que en la prctica se puede suponer una Sin embargo, en la prctica por lo regular disponemos de una muestra, de media
distribucin casi normal para las distribuciones de las mediciones repetidas, es razonable conocida, y buscamos un intervalo para J1, el valor verdadero. Puede reordenarse la
asumir que las medias de muestras muy pequeas (digamos> 5) se distribuyan normalmente. ecuacin (2.5) y expresarse de la siguiente forma:
J1 ~ x t(s/.f1l) (2.9)
El valor adecuado de t depende tanto de (n - 1), que se conoce como nmero de grados de
libertad (cuyo smbolo habitual es v), como del grado de confianza requerido. [El trmino
"grados de libertad" se refiere al nmero de desviaciones independientes (Xi - x) que se
utilizan al calcular s. En este caso, dicho nmero es (11 - 1), porque cuando se conocen (11 - 1)
desviaciones, la ltima se puede deducir si se utiliza el resultado obvio 2.: (z, - x) = O]. En
~-1.96(J//n 1-I+1.96(1/ln x
i
la tabla 2.4 se recogen los valores de t. En dicha tabla puede apreciarse que para muestras
Figura 2.6 Distribucin muestral de la media, en la que se muestra el intervalo dentro del cual de tamao superior a 50, los valores de t son muy prximos a los valores de 1.96 y de 2.58
se encuentra el 95% de la mediciones muestrales. utilizados en las ecuaciones (2.6) y (2.8), respectivamente. Esto confirma la validez de la
hiptesis utilizada antes al calcular los lmites de confianza para la concentracin de nitrato. 2.5 PRESENTACIN DE RESULTADOS
El uso de esta tabla puede aclararse con un ejemplo.
Como ya 10 sealamos, los resultados experimentales cuantitativos carecen de inters si
Ejemplo, Se determin el contenido de ion sodio de una muestra de orina utilizando un no van acompaados de una estimacin de los errores ocurridos en su medida. Una prctica
electrodo selectivo de iones, y se obtuvieron los siguientes valores: 102, 97, 99, 98, usual en la bibliografa de qumica analtica es citar la media como la estimacin de la
10 1, 106 mM. Cuiles son los lmites de confianza al 95 y 99%, para la concentracin cantidad medida y la desviacin estndar como la estimacin de la precisin. Menos
de ion sodio'? frecuente es citar el error estndar de la muestra en lugar de la desviacin estndar, es decir,
La media y la desviacin estndar de estos valores son 100.5 mM y 3.27 mM, dando el resultado en la forma de los lmites de confianza al 95 % de la media. Ya que no
respectivamente. Hay seis mediciones y por lo tanto 5 grados de libertad. El valor de t existe un convenio universal, es importante establecer la forma empleada y, suponiendo
calculado usando la tabla 2.4 para determinar los lmites de confianza al 95% es de que el valor de n est dado, las tres formas se pueden convertir unas en otras utilizando las
ecuaciones (2.4) y (2.9).
Un aspecto que se relaciona con la presentacin de resultados es el redondeo de la
Tabla 2.4 Valores de t para intervalos de confianza respuesta. El principio importante en este caso es que el nmero de cifras significativas
dadas indica la precisin del experimento. Por ejemplo, sera absurdo dar el resultado de
Grados de libertad Valores de t para intervalos de confianza de un anlisis volumtrico como 0.107 846M, pues ningn analista podra alcanzar la preci-
95% 99% sin implicada de 0.000 001 en una cantidad medida de 0.1, es decir, 0.001 %. En la prctica,
12.71 se acostumbra fijar corno cifras significativas todos los dgitos que sean seguros, ms el
63.66
2 4.30 9.92 primero incierto. Por ejemplo, la media de los valores 10.09, 10.11, 10.09, 10.10 y 10.12,
.\
3.18 5.84 es 10.102, y su desviacin estndar es 0.013 04. Por supuesto, existe incertidumbre en la
4 2.78 4.60 segunda cifra decimal; los resultados son todos 10.1 con una cifra decimal, pero difieren
5 2.57 4.03
lO
en la segunda. Mediante el mtodo sugerido, el resultado podra expresarse como:
2.23 3.17
20 2.09 2.85
30 2.04 2.75 xs= 1O.1O0.01 (n=5)
50 2.01 2.68
--------_.-
lOO 1.98 2.63 Si se hubiera constatado que este resultado es un redondeo inaceptable de la desviacin
estndar, entonces se podra dar como:
2.57 y, de la ecuacin (2.9), los lmites de confianza al 95% estn dados por: x s = 10.10 2 0.0 h (n = 5)
.J ~ 100.5 2.57 x 3.27/.f6 donde el uso de los subndices nos indica que el dgito slo se proporciona para evitar la
~ 100.5 3.4 mM prdida de informacin. El lector podra decidir si fue til o no.
De igual manera, cuando se calculan los lmites de confianza [vase la Ec. (2.9)], no
De igual manera, los lmites de confianza al 99% estn dados por: es necesario dar el resultado de ts/.fIl con ms de dos cifras significativas. El valor de x
debera darse, en este caso, con el correspondiente nmero de cifras decimales.
.J ~ 100.5 4.03 x 3.27/.(6 El nmero de cifras significativas citado se utiliza a menudo en lugar de una estimacin
~ 100.5 5.4 mM especfica para sealar la precisin de un resultado. Por ejemplo, se considera que en el
nmero 0.104 6M las tres primeras cifras decimales son ciertas, pero existen dudas acerca
Si la muestra procede de una poblacin de la que se sabe que se distribuye lag-normal, de la cuarta. Sin embargo, puesto que existe incertidumbre en la ltima cifra, podra ser
entonces los valores individuales de deberan transformar tomando sus logaritmos antes cualquiera desde 0.000 05 a 0.000 5; este mtodo proporciona una estimacin pobre de la
de calcular los lmites de confianza. Puesto que los valores transformados estarn distri- precisin y no es recomendable. A veces se recalca la incertidumbre en la ltima cifra al
buidos normalmente, entonces los lmites de confianza de la media se pueden calcular como utilizar los formatos 0.1 04(6)M, o ms comn 0.104 6M, pero sigue siendo preferible dar
se ha explicado con anterioridad. Sin embargo, observe que los valores de la media y la una estimacin especfica de la precisin tal como la desviacin estndar.
desviacin tpica de la muestra se calculan utilizando los valores originales no transforma- Un problema que puede surgir es si un 5 debera redondearse por encima o por debajo.
dos. Como resultado de la asimetra ele la distribucin Iog-norrnal (vase la Fig. 2.5), el Por ejemplo, si 9.65 se redondea a una sola cifra decimal, podra convertirse en 9.6 9.77
n.ltervalo de confianza de la media, calculado como se ha descrito anteriormente, no es Es evidente que los resultados tendrn sesgo si un 5 se redondea siempre hacia el valor
sImtrico con respecto a la media muestral. superior; este sesgo puede evitarse redondeando el 5 al nmero par ms prximo, dando,
es este caso, 9.6. De la misma forma 4.75 se redondea a 4.8.
Cuando hay que utilizar varias cantidades para calcular un resultado fina) (vase la etapas, y cada una de ellas se encuentra sujeta a errores (vase el captulo 1). El clculo
seccin 2.7), stas no deben redondearse demasiado porque se producir una prdida de final puede conllevar operaciones tales como sumas, restas, multiplicaciones o divisiones
precisin innecesaria. Una buena regla es dejar un dgito detrs de la ltima cifra signifi- de dos o ms cantidades, o elevar alguna cantidad a una potencia.
cativa y dejar el posterior redondeo hasta que se llegue al resultado final. La misma regla Es muy importante sealar que los procedimientos utilizados para combinar errores
se aplica cuando se usan la media y la desviacin estndar en pruebas estadsticas tales aleatorios y errores sistemticos son completamente distintos. Esto se debe a que algunos
como las pruebas F y t (vase captulo 3): se debera utilizar en los clculos los valores no errores aleatorios se compensan entre s, mientras que cada error sistemtico ocurre en un
redondeados de x y s. sentido definido y conocido. Por ejemplo, si el resultado final de un experimento, x, est
dado por x ~ a + b; si a y b tienen un error sistemtico de + 1, es evidente que el error
sistemtico de x es de +2. Sin embargo, si a y b tienen un error aleatorio de l, el
2.6 OTROS USOS DE LOS LMITES DE CONFIANZA error aleatorio de x no es 2: esto se debe a que habr ocasiones en que el error aleatorio en
a ser positivo mientras que en otras en b ser negativo (o viceversa).
Los lmites de confianza se pueden utilizar como una prueba para detectar errores sistema- En esta seccin slo se considera la propagacin de errores aleatorios (los errores
ticos, como se muestra en el siguiente ejemplo. sistemticos se consideran en la seccin 2.8). Si se conoce la precisin de cada observacin,
entonces se pueden usar reglas matemticas sencillas para estimar la del resultado final.
Ejemplo. Se comprueba la escala de absorbancia de un espectrmetro a una longitud Estas reglas se resumen a continuacin.
de oncla concreta usando una solucin estndar con una absorbancia de 0.470. Diez
mediciones de absorbancia con el espectrmetro dieron x = 0.461 y s = 0.003. Encuentre
el intervalo de confianza al 95 % de la absorbancia media y decida si se encuentra (i) Combinaciones lineales
presente un error sistemtico. En este caso el valor final, y, se calcula a partir de una combinacin lineal de cantidades
Los lmites de confianza al 95 % de las absorbancias medidas por el espectrmetro medidas a, b, e, etc., por:
son [Ec. (2.9)]:
(2.10)
!! ~ x t(s/.f1)
~ 0.461 2.26 x 0.003/ ITO donde k, ka, k" k etc., son constantes. La varianza (definida como el cuadrado de des-
= 0.461 0.002 viacin estndar) tiene la propiedad de que la varianza de una suma o diferencia de
cantidades independientes es igual a la suma de sus varianzas. Se puede demostrar que
(El valor de t se obtuvo a partir de la tabla A.l que se encuentra en los apndices, la si os, ab, a., etc., son las desviaciones estndar de a, b, e, etc., la desviacin estndar de y,
cual es una versin mas completa de la tabla 2.4.) ay, est dada por:
Ya que este intervalo de confianza no incluye la absorbancia conocida de 0.4 70, es
probable que exista un error sistemtico. En el prximo captulo se tratar otra (2.11)
aproximacin al mismo problema.
Ejemplo. En una titulacin, la lectura inicial en una bureta es de 3.51 mI y la lectura
Tambin se pueden usar los lmites de confianza cuando se realizan mediciones a cada final es de 15.67 mI, ambas con una desviacin estndar de 0.02 ml. Cul es el volumen
uno de una serie de ejemplares. Por ejemplo, si se requiere el peso medio de una pastilla del titulante utilizando y cul es su desviacin estndar?
en un gran lote, se consumira demasiado tiempo en pesar cada una. De igual manera, si
se usa un mtodo analtico destructivo, como la espectrometra de absorcin atmica, para Volumen utilizado = 15.67 - 3.51 = l2.16ml
analizar el lote y establecer el contenido medio, sera imposible examinar cada tableta. En Desviacin estndar = V(0.02)2 + (0.02? = 0.028 mI.
ambos casos, podra tomarse una muestra del lote (que en tales circunstancias forma la
poblacin) y a partir de la media y la desviacin estndar de la muestra se podra encontrar Este ejemplo aclara el aspecto importante de que la desviacin estndar del resultado
un intervalo de confianza para el valor medio de la cantidad medida. final es mayor que la de las lecturas individuales de la bureta, incluso aunque el
volumen utilizado se calcule a partir de una diferencia, pero es menor que la suma de
las desviaciones estndar.
2.7 PROPAGACIN DE ERRORES ALEATORIOS
(ii) Expresiones multiplicativas
En el trabajo experimental, se calcula con frecuencia la cantidad que se va a determinar a Si y se calcula a partir de una expresin del tipo:
partir de una combinacin de cantidades observables. Ya hemos visto, por ejemplo, que
IIlCluso una operacin relativamente simple como un anlisis volumtrico, implica varias y ~ kablcd (2.12)
(donde a, b, e y d son cantidades medidas independientemente y k es una constante) (El smbolo del mdulo 11 significa que la magnitud de la cantidad encerrada en l se toma
entonces existe una relacin entre los cuadrados de las desviaciones estndares relativas: sin tener en cuenta el signo, por ejemplo: 1-21 = 2.)
donde los parmetros implicados se definen a continuacin, con una estimacin de sus
desviaciones tpicas entre parntesis: (2.17)
y = b" (2.14)
Ejemplo: La ecuacin de Nernst, aplicada en el anlisis potenciomtrico, es
entonces las desviaciones tpicas de y y b estn relacionadas por:
E = EO + (RT/nF)lnc
G, =
\'
Ib
llG,
1
1
(2.15 ) donde E es el potencial de electrodo que se mide; EO es el potencial de electrodo estndar
. I
del ion que se determina; T es la temperatura absoluta; 11 es el nmero de electrones
que participan en la serniclula correspondiente; e es la concentracin del ion; R es la diferencia entre dos pesadas, se eliminan los errores sistemticos. Procedimientos como
F.
constar~te .de los gases, y es la constante de Faraday. Obtenga una expresin para ste, considerados en forma cuidadosa, pueden minimizar a menudo los errores sistemti-
la desviacin estndar relati va de la concentracin, suponiendo que T ~ 298 K Y que cos, como se describi en el captulo l. Sin embargo, es preciso sealar que esto se
no tiene error. Calcule el valor de la desviacin estndar relativa si n = 1 Y la d.e. de E aplica slo a una balanza electrnica con una nica pesa de referencia interna; cuando se
es 0.001 V.
usa una balanza "pasada de moda" con una serie de pesas individuales, stas deben
Si se reescribe la ecuacin de Nernst y se sustituyen los valores numricos de T. R calibrarse, y hacerse las correcciones correspondientes (y todava tendrn un error de ca-
y Fresulta: '
librado aleatoriol).
En contraste con el ejemplo anterior, la desviacin estndar relativa es constante. Davies, O. L. y Goldsmith, P. L., Statistical Methods in Researeh and Production. Londres,
Longmans, 1982. Se trata con ms detalle el tema de este captulo.
Mritz, P., Captulo 1 en Compreliensive Analytical Chemistry Vol. Xl, Svehla, G. Ed., Amsterdam,
2.8 PROPAGACIN DE ERRORES SISTEMTICOS Elsevier, 1981. En este artculo se profundiza en la aplicacin de la teora de errores a los mtodos
analticos.
La reglas de combinacin de errores sistemticos pueden dividirse tambin en tres grupos: Skoog, D. A. Y West, D. M., Fundamentals oi Analytical Chemistry, 4a ed., Nueva York, Holt
Saunders, 1982. Se describe el uso de la estadstica en la evaluacin de datos analticos.
Topping, J., Errors of Observation and tlieir Treatment, Londres, Chapman & Hall, 1962. Se trata
(i) COII/billacioncs lineales de manera ms completa la teora de errores y se estudia la teora de que los errores se distribuyen
normalmente.
Si. \" se calcula a partir de cantidades medidas usando la ecuaCIOIJ (2.10), y los errores
slskm;lt'coS
. .. de'a"b , "A
e e tc., son esa, u
by"!J.C, etc., entonces el error sistemtico de y tiv
se calcula a partir de: ' .,
EJERCICIOS
7 Diez mediciones de la relacin entre las reas de dos picos en un experimento de cromatografa
lquida dieron los siguiente valores:
.J = x (ts/In
(donde n es el tamao muestral) se escribe de otra forma:
(3.1 )
3.1 INTRODUCCIN
y se calcula un valor de t sustituyendo los resultados experimentales en esta ecuacin. Si
Una de las propiedades ms importantes de un mtodo analtico es que se encuentre libre ITI (es decir, el valor de t sin considerar el signo) es mayor que un cierto valor crtico,
de errores sitemticos, es decir, el valor dado para la cantidad de analito debera ser el valor entonces se rechaza la hiptesis nula. El valor crtico de ITI para un nivel de significa-
verdadero. Esta propiedad se puede comprobar al aplicar el mtodo a una muestra estndar cin concreto se encuentra en la tabla A. l. Por ejemplo, para un tamao de muestra de 10
que contenga una cantidad conocida de ana lito (vase el Cap. 1). Sin embargo, como se (es decir, 9 grados de libertad) y un nivel de significacin de 0.01, el valor crtico de Itl
vio en el captulo anterior, los errores aleatorios no permiten que la cantidad medida sea es 3.25.
exactamente igual a la cantidad conocida incluso aunque no hubiera error sistemtico. Para
decidir si la diferencia entre la cantidad medida y la cantidad conocida se puede justificar Ejemplo. En un mtodo para determinar mercurio por la tcnica de absorcin atmica
por estos errores aleatorios, puede aplicarse una prueba estadstica que se denomina prueba de vapor fro, se obtuvieron los siguientes valores para un material de referencia que
de significacin. Como su nombre lo indica, esta aproximacin prueba si son significativas contiene 38.9 % de mercurio:
las diferencias entre los dos resultados, o si se pueden justificar slo por variaciones
aleatorias. Las pruebas de significacin se han utilizado en forma amplia en la evaluacin 38.9,37.4,37.1 %
de los resultados experimentales. En este captulo se consideran varias pruebas que son
tiles particularmente para los qumicos analticos. (Hou, P. K., Lau, O. W. y Wong, M. C.,Analyst, 1983,108,64.)
Hay alguna evidencia de error sistemtico?
La media de estos valores es de 37.8% y la desviacin estndar de 0.964%. Si se
3.2 COMPARACIN DE UNA MEDIA EXPERIMENTAL CON UN VALOR adopta la hiptesis nula de que no hay error sistemtico, es decir, .J = 38.9% Y se utiliza
CONOCIDO la ecuacin (3. 1) resulta
/\1 realizar una prueba de significacin comprobamos la veracidad de una hiptesis Itl ~ 1(37.8 - 38.9) x 13/0.9641 ~ 1.98
,jcnorninac!a hiptesis nula. Como observamos en el prrafo anterior, adoptamos como
hiptesis nula aquella mediante la cual un mtodo no se encuentra sujeto a errores De la tabla A.1, para 2 grados de libertad, el valor crtico de ITI es 4.3 (P = 0.05). Ya que
sisternaticos. El trmino nulo se utiliza para indicar que no hay ms diferencia, entre lo el valor observado de Itl es menor que el valor crtico, no se rechaza la hiptesis nula:
observado y el valor conocido, que la que puede atribuirse a la variacin aleatoria. no hay evidencia de error sistemtico. Hay que sealar nuevamente que esto no
Suponienc!o que esta hiptesis nula es verdadera, se puede utilizar la teora estadistica para significa que no existan errores sistemticos, sino que no se ha podido constatar su
calcular la probabilidad (es decir, la posibilidad) de que la diferencia observada entre la existencia.
media muestral, x, y el verdadero valor, .J, se deba solamente a un error aleatorio. Cuando
ms pequea sea la probabilidad de que la diferencia observada ocurra por azar, menos
3.3 COMPARACIN DE LAS MEDIAS DE DOS MUESTRAS verdadera, la probabilidad de que haya una gran diferencia debida al azar es menor que
1 entre 1000.
Otra forma por la que los resultados de un mtodo analtico nuevo pueden comprobarse es
por comparacin de los obtenidos utilizando un segundo mtodo (quizs un mtodo de El siguiente ejemplo, es otra aplicacin de esta prueba, en donde se emplea para decidir si
referencia). En este caso tenemos dos medias muestra les XI y X2. Si tomamos como hiptesis
un cambio en las condiciones de un experimento afecta el resultado.
nula que los dos mtodos dan el mismo resultado, necesitamos comprobar si (XI - X2) difiere
en forma significativa de cero. Si las dos muestras tienen desviaciones estndar que no
Ejemplo. En una serie de experimentos para la determinacin de estalla en ~roductos
sean significativamente diferentes (vase seccin 3.6, en donde se presenta un mtodo para
alimenticios, las muestras se llevaron al punto de ebullicin con HCl a reflujo durante
probar esta suposicin), se puede calcular una estimacin conjunta de la desviacin
diferentes tiempos. Los resultados fueron:
estndar a partir de la dos desviaciones estndar individuales SI y S2 utilizando la ecuacin:
(Banford,1. c., Brown, D. H., McConnell, A. A., McNeil,C. 1., Smith,W. E., Hazelton, donde t tiene (/1- 1) grados de libertad. Si se sustituye en la ecuacin (3.6) resulta un
R. A. YSturrock, R. D., Analyst, 1983,107,195.) valor de t = -0.7. El valor crtico de Itl es 3.18 (P = 0.05) Ypuesto que el valor calculado
de Itl es menor que ste, se acepta la hiptesis: el mtodo no da valores significativa-
De los datos anteriores tenemos que: mente diferentes para las concentraciones medias de plomo.
/11 = 7, X = 1.921, s = 0.076 Hay varias circunstancias por las cuales puede ser necesario o deseable disear un
/12 = 6, X2 = 3.465, S2 = 0.440 experimento de manera que se analice cada muestra por cada uno de los dos mtodos
y, de este modo, los resultados surjan emparejados en forma natural. Algunos ejemplos
De nueva cuenta, la hiptesis nula es que la concentracin media de tiol es la misma son:
para los dos grupos. Si se sustituye en la ecuacin (3.4) resulta t = 8.5 Y de la ecuacin
(3.5) se obtienen 5 grados de libertad. El valor crtico de Itl (P = 0.001) es 4.03, de manera (a) la cantidad de muestra disponible que se va a examinar slo es suficiente para una
que se rechaza la hiptesis nula: la concentracin media de tiol es diferente para los dos determinacin por cada mtodo;
grupos. (b) los mtodos se van a comparar utilizando una gran variedad de muestras de
diferente procedencia y posiblemente con concentraciones muy distintas (vase el prximo
prrafo);
3.4 LA PRUEBA t POR PAREJAS (e) las muestras que se van a examinar pueden presentarse durante un periodo extenso
por lo que es necesario eliminar los efectos de las condiciones ambientales tales como
Con frecuencia ocurre que deben compararse dos mtodos de anlisis por medio del estudio temperatura, presin, etctera.
de .muestras que contienen, de manera sustancial, diferentes cantidades de analito como
se ilustra en el siguiente ejemplo: ' Como es comn que los mtodos analticos se apliquen en un amplio intervalo de
concentraciones, a menudo se compara un mtodo nuevo con uno estndar mediante el
Ejemplo. La siguiente tabla proporciona la concentracin de plomo (..tgJl) determinado anlisis de muestras en las que las caractersticas del analito puedan variar en varias
por dos mtodos diferentes para cada una de las cuatro muestras: potencias de diez. En este caso resulta inadecuado utilizar la prueba t por parejas, ya que
su validez se apoya en la hiptesis de que cualquier error, ya sea aleatorio o sistemtico,
es independiente de la concentracin. En intervalos de concentracin amplios dicha t ~ (25.228 - 25.00) x /6/0.238 ~ 2.35
hiptesis no tiene por que ser del todo cierta. El mtodo estadstico preferido en estos casos
es la regresin lineal: ms adelante se describe su aplicacin (vase la Seco 5.9). De la tabla A.1 el valor crtico de t para 5 grados de libertad es 2.02 (P ~ 0.05, prueba
de una cola). Puesto que el valor observado de t es mayor que ste, se rechaza la
hiptesis nula y hay evidencia de sesgo positivo.
3.5 LAS PRUEBAS DE UNA Y DOS COLAS
Es interesante observar que si en el ejemplo anterior se hubiera realizado una prueba de
Los mtodos analizados hasta el momento es este captulo se refieren a probar la diferencia dos colas (1/1 ~ 2.57), 110 se habra rechazado la hiptesis nula. La explicacin de este
entre dos medias en cualquieir direccin. Por ejemplo, el mtodo descrito en la seccin hecho aparentenmente contradictorio, reside en que la decisin de efectuar una prueba de
3.2 prueba si existe diferencia significativa entre el resultado experimental y el valor una o dos colas depende del grado de conocimiento a priori, ya que en este caso se
conocido para el material de referencia, sin tener en cuenta el signo de la diferencia. En sospechaba o esperaba sesgo positivo. Por supuesto, resulta esencial que se tome la decisin
muchas situaciones de este tipo, el analista no tiene una idea preconcebida, previa a las sobre si la prueba ser de una o dos colas antes de realizar el experimento, y no despus,
mediciones experimentales, con relacin a si la diferencia entre la media experimental y cuando los resultados podran prejuzgar la eleccin. En general, se encontrarn ms
el valor de referencia ser positiva o negativa. situaciones en las que se empleen pruebas de dos colas que de una cola, y se detectarn
De esta manera, es necesario contar con una prueba que cubra esta posibilidad: sta se con facilidad las relativamente raras circunstancias en las que sea necesario emplear
denomina prueba de dos colas (o bilateral). Sin embargo, en algunos casos puede ser pruebas de una cola.
apropiado utilizar un tipo diferente de prueba. Por ejemplo, en un experimento se espera
incrementar la velocidad de reaccin aadiendo un catalizador; es evidente que antes de
empezar el experimento slo se tiene inters en que la velocidad nueva sea mayor que la 3.6 LA PRUEBA F PARA LA COMPARACIN DE DESVIACIONES
anterior y, por lo tanto, slo es necesario probar un incremento, Este tipo de prueba se llama ESTNDAR
de una cola (o unilateral). Para una valor dado de n y un nivel de probabilidad concreto,
el valor crtico para una prueba unilateral difiere de una bilateral. En una prueba unilateral, Las pruebas de significacin descritas hasta ahora en este captulo se utilizan para comparar
para un incremento, el valor crtico de t (en lugar de 1/1) para P = 0.05 es aquel que es medias y, por lo tanto, para detectar errores sistemticos. En muchos casos, tambin es
superado con una probabilidad del 5%. Ya que se supone que la distribucin muestral de importante comparar las desviaciones estndar, es decir, los errores aleatorios de dos
la media es simtrica, esta probabilidad es la mitad de la probabilidad de que sea importante conjuntos de datos. Esta comparacin, como en el caso de las pruebas de medias, puede
en la prueba bilateral. De esta manera, para encontrar el valor adecuado para la prueba de tener dos formas; o bien probar si el Mtodo A es ms preciso que el Mtodo B (es decir,
una cola se busca en la columna de P ~ 0.10 en la tabla A.l. En forma similar, para una la prueba de una cola) o si los mtodos A y B difieren en su precisin (o sea, la prueba de
prueba de una cola con P = 0.01, se emplea el valor en la columna P = 0.02. Para una prueba dos colas). As, si quisiramos probar si un mtodo analtico nuevo es ms preciso que uno
de una cola para Ull decremento; el valor crtico de t ser de la misma magnitud pero con estndar, deberamos utilizar la prueba de una cola; si quisiramos probar si dos desvia-
un signo negativo.
ciones estndar difieren significativamente (por ejemplo, antes de aplicar la prueba 1, vase
la seccin 3.3), sera adecuado una prueba de dos colas.
Ejemplo. Se sospecha que una valoracin cido-base tiene un error de indicador En la prueba F se considera la razn de las dos varianzas muestra les, es decir, la razn
significativo y, por lo tanto, tiende a dar resultados con un error sistemtico positivo de los cuadrados de las desviaciones estndar. La cantidad calculada (F) est dada por:
(es decir, un sesgo positivo). Para comprobar esto, se utiliza una disolucin de cido
exactamente O.lM para valorar 25.00 mi de otra disolucin de una base, exactamente (3.7)
O 1M con los siguientes resultados (ml):
Q ~ I 0.380 - 00401 1/(004 10 - 0.380) = 0.021/0.03 ~ 0.7 Obviamente 2.9 Y3.1 son los valores sospechosos, pero el valor calculado de Q es:
De la tabla AA, para un tamao de muestra 4, el valor crtico de Q es 0.831 (P = 0.05). Q = (3.1 - 2.9)/(3.1 - 2.0) ~ 0.18
Ya que el valor calculado de Q no lo supera, debe aceptarse la medida sospechosa.
un valor que no es significativo (P = 0.05), En estos casos, lo apropiado es una prueba
En una situacin ideal, habra que tomar nuevas medidas cuando aparezca un valor para un par de valores anmalos; las referencias de stos aparecen en la bibliografa al final
sospech~so, en ~special si slo se han tomado inicialmente unos pocos valores. Esto podra del captulo.
aclarar SI debera rechazarse el valor sospechoso o no y, si se mantuviera, tambin reducira Los valores anmalos aparecen tambin en otros clculos estadsticos, como en los
su efecto sobre la media y la desviacin estndar. mtodos de regresin lineal que se describirn en el captulo 5. Estos casos se analizan
tambin en textos avanzados.
Ejemplo. Si se aaden tres muestras medidas a las dadas en el ejemplo anterior,
quedara:
3.8 ANLISIS DE LA VARIANZA
0.403,0.410,0.401,0.380,0.400,0.413,0.411
En la seccin 3.3 se describi un mtodo para comparar dos medias y probar si diferan en
se debera an mantener el 0.380?
forma significativa. En el trabajo analtico se presentan a menudo comparaciones en las
El valor de Q calculado es ahora: que intervienen ms de dos medias. Algunas situaciones de este tipo son: comparar la
concentracin media de protena en una solucin para muestras almacenadas en condicio-
Q = 10.380 - 0.4001/(0.413 - 0.380) = 0.606 nes diferentes; comparar los resultados medios obtenidos de la concentracin de un analito
utilizando diferentes mtodos; comparar la media de los resultados en una valoracin
El valor crtico de Q (P = 0.05) para un tamao muestral 7 es 0.570, por 10que la medida obtenidos por diferentes operadores que usan los mismos aparatos. En tociosestos ejemplos
sospechosa se rechaza a un nivel de significacin del 5%. hay dos posibles fuentes de variacin. La primera, que siempre est presente, se debe al
error aleatorio en la medida, lo cual se analiz con detalle en el captulo anterior: este tipo
') e Es importante tener en cuenta que par.a un nivel de significacin del5% hay todava un de error provoca diferentes resultados aunque las medidas se repitan en las mismas
- %de nesgo, o 1 de cada 20, de rechazar incorrectamente un valor sospechoso. Esto puede condiciones. La segunda fuente de variacin posible se debe a lo que se conoce como factor
tener un efecto considerable a la hora de estimar la precisin del experimento. Por ejemplo, controlado o de efecto fijo: para los ejemplos anteriores los factores de control son,
para los 7 valores de la concentracin de nitrito dados anteriormente, la desviacin estndar respectivamente, las condiciones bajo las cuales se almacen la solucin, el mtodo de
es de. 0.011 mg/l, pero cuando se rechaza el valor sospechoso la desviacin estndar se anlisis empleado y los operadores que realizaron la titulacin. El anlisis de la varianza
convIerte el.1 0.0056 mgjl, es decir, la precisin parece haber mejorado en un factor de 2. (conocido como ANOVA, del ingls Analysis ofVariance) es una tcnica estadistica muy
, En el ejemplo anterior se subraya la importancia de ser cauto al rechazar valores poderosa que se utiliza para separar y estimar las diferentes causas de variacin. En los
anomalos. Cuando las medidas se repiten slo unas pocas veces (lo que es normal en un ejemplos anteriores, se puede utilizar para separar la variacin debida al error aleatorio de
Tabla 3.2 Generalizacin de la tabla 3.1
cualquier otra variacin provocada al cambiar el factor de control. De esta manera, probar
Media
si una alteracin del factor de control ocasiona diferencias significativas entre los valores
medios obtenidos. Muestra 1 XII XI2 Xlj XI"
Tambin se puede emplear las tcnicas ANOVA en situaciones donde hay ms de una Muestra 2 X21 X22 X2j X2"
fuente de variacin aleatoria. Por ejemplo, considere la pureza de un barril de cloruro
sdico. Las muestras se toman al azar de diferentes partes del barril, y se realizan los
mismos anlisis sobre las muestras. Adems del error aleatorio en la medicin de la pureza, xi} XiII Xi
Muestra i Xii X2
habr tambin diferencias en la pureza de las muestras en las distintas partes del barril.
Puesto que las muestras se eligen al azar, esta variacin ser aleatoria y esto se conoce
como factor de efecto aleatorio. De nueva cuenta, en este caso puede utilizarse el ANOVA Xhj Xh" X.
Muestra h Xhl Xh2
para separar las fuentes de variacin. media global = !_
Ambos tipos de anlisis estadsticos, en donde hay un factor, ya sea controlado o
aleatorio, adems del error aleatorio de las medidas, se conoce como ANOVA de un factor.
Los procedimientos aritmticos son similares en los casos de un factor de efecto fijo y uno
de efecto aleatorio. En este captulo se presentan ejemplos del primer caso y en el prximo una poblacin con media J1 y varianza ~. Con base en esta hiptesis se puede. es~i.mar ~.
captulo del segundo, en donde se considera con ms detalle el muestreo. Las situaciones de dos formas; una estudia la variacin dentro de cada muestra, y la otra la vanacion entre
ms complejas en las que existen dos o ms factores, posiblemente interactuando entre s, las distintas muestras.
se consideran en el captulo 7 (Diseo experimental).
de manera que: y la menor diferencia significativa es f3 x .(2/3) x 2.306 (P = 0.05), lo cual da 3.26. Al
comparar este valor con las diferencias entre las medias, se sugiere que Xo y Xc difieren sig-
" 2 62
estimacin entre muestras de ao = - x3 = 62 nificativamente entre s y tambin difieren de XA y XIJ , mientras que XA y XIl no difieren en
3
forma significativa entre s, es decir, la exposicin a la luz es lo que afecta la fluorescencia.
El mtodo de la mnima diferencia significativa descrito antes no es del todo riguroso:
Esta estimacin tiene 3 grados de libertad, ya que se ha calculado a partir de 4 medias
se puede demostrar que conduce a demasiadas diferencias significativas. Sin embargo, es
muestrales. Note que esta estimacin de a~ no depende de la variabilidad dentro de cada
una prueba de ejecucin simple cuando el ANOVA indica que hay diferencias significativas
mu~stra, ya que se cal~ula con las medias muestra les. Sin embargo, si por ejemplo la media entre las medias. Otros mtodos ms rigurosos se describen en la bibliografa que aparece
de la muestra D cambiase entonces tambin cambiara esta estimacin de a~.
En general, tenemos: al final de este captulo.
estimacin de a~ entre muestras = n 1.: (Xi - x)2/(h - 1) 3.10 LA ARITMTICA DE LOS CLCULOS ANO VA
(3.10)
que d~ .nuevo es un :'cuadrado medio" el cual supone dividir una suma de trminos Al utilizar ANOVA para probar la diferencia entre varias medias, se estim a~ de dos formas
~uadratIcos entre el numero de grados de libertad. En este caso, el nmero de grados de distintas. Si la hiptesis nula fuese verdadera, a~ tambin podra estimarse de una tercera
hbertad es 3 y el cuadrado medio es 62, por lo que la suma de los trminos cuadrticos es forma, tratando los datos como si fueran una muestra grande. Esto implicara sumar los
3 x 62 = 186.
cuadrados de las desviaciones a la media total:
Si resumimos los clculos realizados hasta aqu:
del trabajo .aritmtico. En la tabla 3.3 en donde se resumen las sumas de cuadrados y los Las pruebas de significacin descritos hasta ahora en este captulo han sido, en general,
grados de libertad, se muestra la relacin entre las fuentes de variacin Se ob ' pruebas acerca de si la media de varias observaciones difiere significativamente del valor
l . '. . servara que
os valores de la vanacion total, dados en la ltima fila de la tabla son la sum d l l propuesto por la hiptesis nula. Los datos utilizados han tornado la forma de observaciones
d 1 dos nri . , a e os va ores
e as oS'pnmera~ filas, tanto para la suma de cuadrados como para los grados de libertad. que, aparte de cualquier redondeo, se han medido en una escala continua. En contraposicin
Esta propiedad aditiva se mantiene para todos los clculos de ANOVA d it en esta seccin se tratan las frecuencias es decir, el nmero de veces que ocurre un suceso
libro. escn os en este
dado. Por ejemplo, en la tabla 2.3 se proporcionan las frecuencias de los diferentes valores
, De la misma manera que el clculo de la varianza, hay frmulas que simplifican el obtenidos de la concentracin de ion nitrato cuando se tomaron 50 medidas en una muestra.
calculo de la suma de cuadrados. Estas frmulas se resumen en la tabla 34 I l Corno se analiz en el captulo 2, por lo regular se supone que estas medidas se extraen de
.'1' l .. . . en a cua se
un Iza a notacin antenor y tambin se introducen los smbolos: una poblacin que se distribuye normalmente: la prueba chi cuadrada se puede utilizar para
probar si las frecuencias observadas difieren en forma significativa de las que cabra esperar
mmero total de medidas = N = nh con esta hiptesis nula. Puesto que el clculo requerido en este caso es relativamente
suma de las medidas en la z-sima muestra = Ti complicado, no ser descrito aqu. (Al final del captulo se proporciona un ejemplo
suma de todas las medidas, gran total = T ilustrativo desarrollado con detalle.) El principio de la prueba chi cuadrada se comprende
mejor en el siguiente ejemplo:
Tabla 3.4 Frmula para clculos de ANOVA de un factor
Ejemplo. A continuacin se muestra el nmero de roturas en el material de vidrio
Fuente de variacin
SUl11a de cuadrados informadas por 4 trabajadores de un laboratorio a lo largo de cierto periodo. Hay
Grados de libertad
alguna prueba de que los trabajadores difieran en su habilidad?
Entre muestras ;: Tf/n - T2/N h- 1
Dentro de las muestras Nmero de roturas: 24,17,11,9.
por diferencia por diferencia
2
Total LLx
I 1 IJ
- T2/N
La hiptesis nula adoptada es que no hay diferencias en su habilidad. Si los
N 1
trabajadores utilizan el laboratorio el mismo tiempo, se esperara, a partir de la hiptesis
nula, el mismo nmero de roturas por cada trabajador. Puesto que el nmero total de
Se puede entender el funcionamiento de las frmulas en la tabla 3 4 SI' se renit l '1 l roturas es 61, el nmero de roturas esperada por trabajadores es 61/4 = 15.25. Por
de ANOV . pi en os ca cu os
, A para los elatos de la tabla 3.1. El clculo de los cuadrados de la media se expone supuesto, en la prctica no es posible que haya un nmero no entero de roturas: ste
mas adelante. A todos los valores de la tabla 3 1 se les ha restado 100 l . lifi corresponde a un concepto matemtico. La distribucin "igual" ms prxima y mane-
'd b . ., . , o que slmp I tea
~~nsl era ~emente la antmetIca. Note que esto no afecta la estimacin de la varianza entre jable desde un punto de vista prctico es 15, 15,15,16, en algn orden determinado.
uestras ni dentro de las muestras, ya que se ha restado la misma cantidad de cada valor. Se trata de responder la pregunta de si la diferencia entre las frecuencias observadas y
esperadas es tan grande que deba rechazarse la hiptesis nula. Si considerarnos una
Ti Tf serie de lanzamientos de un dado se puede entender mejor por qu existen ciertas
A 2 o 1
B 3 9 diferencias entre los dos conjuntos de frecuencias: sera muy sorprendente, por ejem-
1 1 4
C 6 36 plo, si en 30 lanzamientos aparecieran exactamente con la misma frecuencia los
-3 -5 - 1 -9
D 81
-lO -8 -6 -24 576
nmeros 1, 2, 3, etc. El clculo de chi cuadrada, X\ que es la cantidad utilizada para
T = -24 probar la existencia de diferencias significativas, se muestra a continuacin.
;:Tf = 702
n= 3 h = 4 N = 12 El: xl = 258
ifi pecial denominado papel de probabilidad normal. Este mtodo se
en un papeI gra ICO es
Frecuencia observada, Frecuencia esperada, E O-E (O - E)2/E explica mejor con un ejemplo.
24 15.25 8.75 5.020
17 15.25 1.75 0.201 . l U '1' 1 de probabilidad normal para probar si los valores siguientes
Ejemp o. ti Ice pape
11 15.25 -4.25 1.184 proceden de una poblacin normal:
9 15.25 -6.25 2.561
109,89,99,99,107,111,86,74,115,107,134,113,110,88,104.
0.00 x2 = 8.966
En la tabla 3.5 se muestran los datos acomodados en ord~n crecient~. En la,segUn~a
Note que el total de la columna O - E es siempre cero, con 10 cual se dispone de una columna aparecen las frecuencias acumuladas en cada rnedida, es decir, el numero e
forma til para verificar los clculos.
Si X2 supera un cierto valor crtico, se rechaza la hiptesis. El valor crtico depende,
como en otras pruebas de significacin, del nivel de significacin de la prueba y del Tabla 3.5
nmero de grados de libertad. En un ejemplo de este tipo, el nmero de grados de Frecuencia acumulada en %
Medida Frecuencia acumulada
libertad es uno menos que el nmero de clases utilizado, es decir, 4 - 1 = 3 en este caso.
Los valores crticos de X2 para P = 0.05 aparecen en la tabla A.5. Para 3 grados de 1 6.3
74 12.5
libertad, el valor crtico es 7.81. Puesto que el valor calculado de X2 es mayor que ste 86 2
3 18.8
se rechaza la hiptesis nula a un nivel de significacin del 5%: se han encontrado 88 25.0
pruebas de que los trabajadores difieren significativamente en su habilidad. 89 4
6 37.5
99 43.8
7
r
En este clculo de se obtiene un resultado significativo debido al alto nmero de roturas 104
107 9 56.3
62.5
realizadas por el primer trabajador. Para estudiar esto ms ampliamente se pueden realizar 109 10
11
68.8
pruebas chi cuadrada adicionales. Una de ellas prueba si el segundo, tercero y cuarto 110 75.0
trabajadores difieren significativamente entre s: en este caso, cada frecuencia esperada es 111 12
13 81.3
(17 + 11 + 9)/3. (Note el hecho de que la prueba t no puede aplicarse aqu, ya que estamos 113 87.5
115 14
manejando frecuencias y no variables continuas.) Otras pruebas que permiten analizar si 15 93.8
134
el primer trabajador difiere del resto, es tomar a los tres restantes como un grupo. En este
caso hay dos clases: las roturas hechas por el primer trabajador con una frecuencia esperada
de 15.25 y el total de roturas correspondientes a los otros tres: con una frecuencia
esperada de 15.25 x 3 = 45.75. En estos casos, donde hay slo dos grupos y, por lo tanto,
100
un grado de libertad, se debe aplicar un ajuste conocido como correccin de Yates; esto
implica sustituir O - E por 10 - E I - 0.5, por ejemplo, 4.5 se convierte en 4. Ests pruebas
adicionales se muestran en un ejercicio al final de este captulo.
En general, la prueba chi cuadrada debera utilizarse solamente si el nmero total de Cll
observaciones es 50 o ms y las frecuencias individuales esperadas no son menores que 5.
-e
Cll
:::l
Esto no es una regla rgida: al final del captulo aparece una referencia en la que se E
profundiza en este punto, y se describen tambin otras aplicaciones de la prueba chi :::l
o
Cll
cuadrada. Cll
50
'0
l:
Gl
:::l
3.12 PRUEBA DE LA NORMALIDAD DE UNA DISTRIBUCIN o
...Gl
U.
Como se ha sealado en este captulo, muchas pruebas estadsticas suponen que los datos
utilizados proceden de una poblacin normal. En la seccin anterior se mencion un
mtodo para probar esta hiptesis, utilizando la prueba chi cuadrada. Por desgracia,
este mtodo slo se puede utilizar si hay 50 o ms datos. En el trabajo experimental lo Medida
normal es tener pocos datos. Una forma visual simple de comprobar si un grupo de datos
La curva de frecuencias acumuladas de una distribucin normal.
procede de una poblacin normal es representar una curva de frecuencias acumuladas Figura 3.1
medidas menores o iguales que dicha medida. En la tercera columna se muestra la probar la normalidad, en ella se proporciona tambin una perspectiva de las diferentes
frecuencia acumulada en porcentaje; ste se ha calculado utilizando la frmula: pruebas de normalidad. En la seccin 6.11 se describe otro mtodo, el mtodo de Ko!mo-
gorov-Smirnov que, entre otras aplicaciones, se puede emplear para probar la normalidad.
% frecuencia acumulada = lOO x frecuencia acumuladaf( n + 1) En esa seccin aparece un ejemplo desarrollado.
Donde n es el nmero total de medidas (existen razones matemticas para dividir por
n + 1 en lugar de n): Si los datos proceden de una distribucin normal, la grfica que 3.13 CONCLUSIONES A PARTIR DE LAS PRUEBAS DE SIGNIFICACIN
presenta la frecuencia acumulada frente a las medidas tendr forma de curva en S, como
se muestra en la figura 3.1. Hasta ahora, en este captulo nos hemos dedicado a los diferentes tipos de prue~a de
significacin. En esta seccin profundizaremos ms en lo referente a las conclusiones
El p~pel de probabilidad normal tiene una escala no lineal en el eje del porcentaje de que se pueden extraer de una prueba de significacin. Como se explic e~ la seccin 3.2,
frecuencia acumulada, lo que convierte la curva en forma de S en una lnea recta. Los datos una prueba de significacin, por ejemplo, al nivel P = 0.05, supone un nesgo del 5% de
d.e!a tabla a~1terior, representados en dicho papel, aparecen en la figura 3.2: los puntos se que se rechazar una hiptesis nula incluso aunque sea verdadera. A este tipo de error se
sitan aproxlmada~e~tes~bre una lnea recta, lo cual confirma la hiptesis de que los datos le conoce como error de tipo 1: el riesgo de este error se puede reducir al alterar el nivel
proceden de una distribucin normal. de significacin de la prueba a P = 0.01 o incluso a P ~ 0.001. Sin embargo, ste no es el
nico tipo de error posible: tambin se puede mantener una hiptesis nula aun cuando sea
falsa. Este es el denominado error de tipo 2. Para calcular la probabil.idad de est~ tifO ~e
error es necesario postular una alternativa a la hiptesis nula, conocida como hiptesis
99 alternativa.
98 Considere un producto qumico del cual se piensa que contiene el 3 % de fsforo por
pesada. Al parecer, esta proporcin se ha incrementado y, para probar esto, se ha an~lizado
95 la composicin empleando un mtodo estndar con una desviacin estndar conocida del
Cll
0
'O 90 0.03%. Suponga que se toman 4 medidas y se realiza una prueba de significacin al nivel
.! 0 P = 0.05. Es necesario que dicha prueba sea de una cola, al estar interesados slo en un
::J
E 80 0
::J 0
incremento. La hiptesis nula es:
o 70 0
Cll
Cll 60 0 hiptesis nula, = 3.0%
'
e
Cll
50
40 e
&
::J o
o 30 0
...
Cll
u. o
20
~
0
10 o
5 e
2
1
\
\
Figura 3.2 Representacin de la probabilidad normal para el ejemplo de la seccin 3.12. Tipo 2 \
\
\
,,
,
u~ mtodo para probar la normalidad es utilizar una cantidad que mida cunto se
aproximan a una r~cta los puntos representados en el papel de probabilidad normal. El 3.00 -r 3.05
x
Xc
calculo de esta ~antldad, el coeficiente de correlacin, r, se describe en un captulo posterior
(Sec. 5.3). Al fmal de este captulo aparece una referencia bibliogrfica para el uso de r al
Figura 3.3 Errores de tipos 1 y 2.
La lnea continua de la figura 3.3 indica la distribucin muestral de la media si la hiptesis
nula fuese verdadera. Esta distribucin muestral tiene una media 3.0 y una desviacin . unstancias en donde se dispone de dos o ms pruebas para probar la misma hiptesis,
circ . d idi '1 1 .
puede ser til comparar la potencias de las pruebas con el fin de eCI Ir cua es a mas
estndar (es decir, error estndar de la media) a/m = 0.03/14%. Si la media muestral cae
por encima del valor crtico indicado, Xc, se rechaza la hiptesis nula. Por lo tanto, la regin adecuada. .
sombreada, con rea 0.05, representa la probabilidad de un error de tipo 1. Los errores de tipo 1 y 2 son tambin relevantes cuando se aplican secuencialmente
Supongamos que tenernos la hiptesis alternativa: pruebas de significacin. Un ejemplo de esta situacin es la aplicacin de la prueba. t ~ I~
diferencia entre dos medias, despus de utilizar en primer lugar la prueba F para decidir SI
hiptesis altenativa, f.J = 3.05% se pueden juntar o no las varianzas de las muestr~s .(~ans.e las Secs. 3.3 y 3.6). Los do~
errores de tipo 1 y 2 pueden surgir de la prueba F inicial; SI ocurre ~lg~no de ellos querra
decir que los niveles de significacin establecido~ para ~a subsiguiente prueba t son
La lnea punteada de la figura 3.3 indica la distribucin muestral de la media si la hipteisis
incorrectos debido a la forma incorrecta en que ha SIdo aplicada la prueba t.
alternativa fuese verdadera. incluso si ste fuese el caso, se aceptar la hiptesis nula si la
Este ejemplo resalta la conclusin general de que las pruebas de significaci~n no dan
media muestral cae por debajo de z, La probabilidad de este error de tipo 2 se representa
respuestas indiscutibles: ms bien ayudan a la ~nterpretaci~ .de los datos expenmentales
con el rea rayada. El diagrama pone de manifiesto la interdependencia de los tipos de
al dar las probabilidades de que ciertas conclusiones sean vlidas.
error. Por ejem.plo, si se cambia el nivel de significacin a P = 0.01 para reducir un riesgo
de un error de tipo 1, Xc aumentar y el riesgo de un error de tipo 2 se incrementar tambin.
De manera recproca, una disminucin en el riesgo de un error de tipo 2 slo puede lograrse
por un incre~ento en la probabilidad de un error de tipo l. La nica manera por la que BIBLIOGRAFA
pueden reducirse ambos errores (para una hiptesis alternativa dada) es aumentar el tamao
Bamett, V. Y Lewis, T., Outliers in Statistical Data, Nueva York, Wiley, 1978. Un tratamiento muy
de la muestra. Por ejemplo, el efecto de incremento n hasta 9, se ilustra en la figura 3.4: la
completo de la filosofa del rechazo de valores anmalos y las pruebas empleadas. .
disminucin resultante en el error estndar de la media produce una disminucin de ambos
tipos de error, para un valor de xc. Box, G. E. P, Hunter, W. G. y Hunter, J. S., Statistics for ~xperilllentalists,Nueva York, Wlley, 1978.
Proporciona ms detalles sobre los contrastes entre medias en el ANVA.
Campbell, R. c., Statistics for Biologists, Cambridge, Cambridge University Press, 1974. Propor-
ciona pruebas de la homogeneidad de varianzas y de normalidad.
DaVles, O . L . y Goldsmith " P L. Statistical Methods in Research . and Production, rLondres,
.
/ ...... \
I \
Longmans, 1972. Proporciona ms detalles acerca de los errores de TIpos 1 y 2 Y otras ap icaciones
I \
I \ de la prueba chi cuadrada.
I \
I
,
,
\ Filliben, J. J., Technometrics, 1975,17,111. Describe el uso de r al probar la normalidad, y estudia
I
I \
\
otras pruebas de normalidad.
I \
I \
\
Kowalski, B. R. (Ed.), Chemometrics: Theory and App~ication, A~erican Chemical Society, 1?77,
\
\
Washington. El captulo 11 describe pruebas de normalidad y analiza el efecto de la no normalidad
\
\ en las pruebas paramtricas.
\
\
Miller, J. c., Statistics for Advanced Level, Cambridge, Cambridge University Press, 1983. Propor-
\
, ciona un ejemplo de la prueba chi cuadrada para normalidad.
,
I \
I
I \
\
Sokal, R. R. Y Rohlf, F. J., Biometry, Freeman, 1969. Da informacin detallada de las pruebas de la
I \
\
homogeneidad de varianzas.
I
\
I
I
,
I
I ,,
\
I \
\
Tipo 2 \
\
-,
-,
EJERCICIOS
3.00
1. Utilizando una grfica de probabilidad normal, pruebe si el siguiente conjunto de datos podra
haber sido obtenido de una poblacin normal:
Figura 3.4 Errores de tipo 1 y 2 al aumentar el tamao de la muestra.
11.68, 11.12,8.92,8.82, 10.31, 11.88,9.84, 11.69,9.53,10.30,9.17, 10.04, 10.65, 10.91, 10.32,
8.71,9.83,8.90, 10.40
La probabilidad de que se rechace una hiptesis nula falsa se denomina la potencia de
una ~rueba; esto es (l - probabilidad de un error de tipo 2). En el ejemplo expuesto es una 2. Los datos expuestos a continuacin estn tomados del ejemplo de la seclcin ~.3 YI se refieren a
lunclOll de la media especificada en la hiptesis alternativa, y depende tambin del tamao la concentracin de tiol en sangre. Verifique si el dato 2.07 no es un va 01' anoma o.
de la muestra, el nivel de significacin de la prueba, y si sta es de una o dos colas. En
1.84 1.92 1.94 1.85 1.91 2.07
3. Los siguientes datos proporcionan la recuperacin de bromuro adicionado a muestras con Estao encontrado (mg/kg)
Tiempo de ebullicin (min)
contenido vegetal, medido mediante un mtodo de cromatografa gas-lquido. La cantidad de 57,57,55,56,56,55,56,55
bromuro potsico aadido a cada vegetal fue la misma. 30
75 51,60,48,32,46,58,56,51
Tomate 777 790 759 790 770 758 764 .Jgjg
Pepino 782 773 778 765 789 797 782 .Jgjg Pruebe si d b llicic . I
(a) la variabilidad de los resultados es ms grande para tiempos e e u icion mas argos.
(b) las medias difieren significativamente.
(Roughan, J. A., Roughan, P. A. Y Wilkins, J. P. G., Analyst, 1983,108,742.)
8. Los datos dados en el ejemplo de la seccin 3.12, para el nmero de roturas realizadas por cuatro
(a) Pruebe si la recuperacin en los vegetales tiene varianzas que difieran significativamente. trabajadores diferentes, se reproducen a continuacin:
(b) Pruebe si las tasas de recuperacin medias difieren significativamente.
24,17,11,9
4. Los siguientes resultados muestran el porcentaje del agua intersticial total recuperada al
centrifugar muestras de piedras areniscas tomadas de diferentes profundidades.
Pruebe si . d I d I t
(a) el nmero de roturas del primer trabajador difieren significativamente e as e os o ros
Profundidad de la muestra (m) Agua recuperada, %
tres trabajadores; . .' . I f I d 'd d
7 33.3 33.3 35.7 38.1 31.0 33.3 (b) el segundo, tercero y cuarto trabajadores difieren slgmflcatlvamente en a a ta e cm a o
8 43.6 45.2 47.7 45,4 43.8 46.5 de cada uno de los otros.
16 73.2 68.7 73.6 70.9 72.5 74.5
23 72.5 70.4 65.2 66.7 77.6 69.8 9. Los siguientes resultados se obtuvieron al comprar un mtodo nuevo y .ell ofici~~ pa)ra
la determinacin de fenilbutazona. (Las cifras se refieren a los porcentajes dlltodo
e recuperacin.
(Wheatstone, K. G. Y Gelsthorpe, D., Analyst, 1982, 107, 731.)
Mtodo nuevo Mtodo oficial
Demuestre que el porcentaje de agua recuperada difiere significativamente de diferentes 99.35 99.53
Media
profundidades. Utilice el mtodo de la menor diferencia significativa descrito en la seccin 3.9 0.185 0.152
Varianza
para encontrar las causas de este resultado significativo. 3
Tamao de muestra 3
5. Al leer en una bureta 0.01 mI, un analista tiene que estimar la cifra final. La siguiente tabla de (Amer, M. M., Taha, A. H., EI-Zeany, B. A. Y EI-Sawy, O. A., Analyst,1982, 107,908.)
frecuencias proporciona las ltimas cifras de 50 lecturas. Realice una prueba de significacin
adecuada para determinar si se prefieren algunos dgitos a otros. Pruebe si los resultados medios obtenidos por los dos mtodos difieren significativamente.
Dgito 0123456789
10. La siguiente tabla proporciona la cantidad (en mgjrnl) de clorhidra:o de efe.drina en~ontrada en
Frecuencia 16453112837 preparaciones farmacuticas de Ephedrine Elixir B. P., po~ ~os metodos .dlferente~. espectros-
copia ultravioleta de derivadas y un mtodo de ensayo oficial. (La cantidad nommal en cada
6. Para evaluar un mtodo espectrofotomtrico con el fin de determinar titanio, se aplic el mtodo muestra fue de 3 mg/ml.)
a muestras de aleaciones conteniendo diferentes cantidades certificadas de titanio. Los resulta-
dos (% Ti) se muestran a continuacin. Muestra nmero Mtodo de derivadas Mtodo oficial
1 2.964 2.913
Muestra Valor certificado Media Desviacin estndar 3.000
2 3.030
1 0.496 0.482 0.0257 3 2.994 3.024
2 0.995 1.009 0.0248
3 1.493 1.505 0.0287 (Davidson, A. G. YElsheikh, H., Analyst, 1982,107,879.)
4 1.990 2.002 0.0212
Pruebe si los resultados obtenidos por ambos mtodos difieren significativamente.
Para cada aleacin se realizaron 8 determinaciones repetidas.
11. Las siguientes cifras se refieren a la concentracin de albmina, en g/l., en el suero sanguneo
(Qiu Xing-chu y Zhu Ying-quen,Analyst, 1983,108,641.)
de 16 adultos sanos:
Para cada aleacin pruebe si el valor medio difiere significativamente del valor certificado. 37,39,37,42,39,45,42,39,44,40,39,45,47,47,43,41
7. La siguiente tabla muestra otros resultados del artculo citado en la seccin 3.3, concerniente a (Foote, J. W. y Delves, H. T., Analyst, 1983, 108,492.)
la extraccin y detenninacin de estao en comestibles (Analyst, 1983, 108, 109). Los resultados
p:oporcionan los niveles de estao recuperado del mismo producto despus de ebullicin a Las primeras 8 cifras corresponden a hombres y.las s~gu.ndas.8 cifras a mujeres. Pruebe si la
diferentes tiempos en un recipiente abierto. concentracin media para hombres y mujeres difiere significativamente.
12. Se compar un nuevo mtodo espectroscpico de absorcin atmica de llama para d t .
ti . 1 . f . e errnmar
an imonio en a atrns era con el metodo calorimtrico recomendado. Para muestras de atms-
fera urbana se obtuvieron los siguientes resultados:
(Castillo, J. R., Lanaja, J., Martinez, M. c. y Aznrez, J., Analyst, 1982,107, 1448.)
Control de calidad y muestreo
Difieren significativamente los resultados obtenidos por los dos mtodos?
4.1 INTRODUCCIN
4.2 MUESTREO
Los ensayos de colaboracin pretenden dar respuesta a la siguiente pregunta: "Si la misma
4.4 ESTRATEGIA DE MUESTREO muestra (o una serie de partes alicuotas idnticas de una nica muestra) se analiza por el
mismo mtodo en diferentes laboratorios, los resultados obtenidos sern los mismos dentro
Si se real' T . d
. Iza un ana ISIS e cada uno de los h incrementos de muestra (vese el eiem lo de los lmites de error aleatorio? Muy a menudo se supone que, con el uso de instrumentos
anten?:, Seco 4.3) entonces los lmites de confianza de la media estn dados J PI idnticos en diferentes laboratorios, se obtendrn resultados muy similares cuando se aplica
ecuaclOn (2.9): por a
un mtodo particular a muestras idnticas por cientficos expertos. Por desgracia, la amplia
experiencia prctica, ha mostrado en repetidas ocasiones que esto no se cumple y que
J.L = x t(5/Vh) incluso pueden obtenerse resultados muy divergentes an cuando se piense que se han
tomado todas las precauciones experimentales. Por ejemplo, en un estudio del nivel de
donde - I di d ..
. x es a me la e las tnediciom-, y 52 la varianza de ellas; S2 es una estimacin de la cidos grasos polinsaturados en una muestra de aceite de palma, realizado en 16laborato-
vananza total el que es la sum d i ' . rios diferentes, [ste vari entre 5.5% y 15.0%! La gran variacin fue muy notoria por el
2. " a e as vananzas muestra les y de mediciones es decir 2
;. a~ (vease la Sec..1.6 Y 2.7), Y el/ h (que es estimada por S2/ h) es la varianza d~ la medi; ;0 hecho de que no fue un anlisis de trazas y de que se utiliz un mtodo para determinar
le. valor de cada IIlcremento de muestra es la media de n mediciones repetidas entonces la cidos grasos relativamente sencillo por espectrometra de absorcin, despus de saponi-
~aanan~a.~e la I~e.dia se convi~rte en (a~n + a7)/h = a~nh + a7/h. Es obvio que p~ra alcanzar ficar y digerir con una enzima la muestra original. En otra situacin, al determinar el
preclslOn mxima se reqlllere que la varianza de la media sea tan pequea como fuera porcentaje de aluminio en una muestra de piedra caliza, en diez laboratorios, se obtuvieron
valores en el intervalo del 1.11% al 1.9%.
Estos resultados divergentes deben considerarse con extrema cautela; implican que, laboratorio. Tambin se determinan los valores medios de X y Y Y se dibujan lneas
por ejemplo, una muestra de un alimento que al parecer supera una prueba de seguridad horizontales y verticales a travs del punto (X, 1), con lo cual se divide el diagrama en
en un laboratorio, es probable que no la supere si se examina en otro. El suero sanguneo cuatro cuadrantes.
de un individuo puede parecer completamente normal en un laboratorio y, sin embargo, Si los resultados de los diferentes laboratorios varan por completo debido a errores
indicar un estado patolgico en otro. Tales posibilidades son claramente inaceptables: los aleatorios, las determinaciones de X y Yen cada caso pueden dar resultados que son a la
mtodos analticos que se utilizan en laboratorios diferentes tienen que elegirse con cuidado vez demasiado altos, o demasiado bajos, X alto y Y bajo, o X bajo y Y alto. Estos cuatro
a fin de minimizar las variaciones entre laboratorios y los consiguientes problemas de resultados seran igualmente probables y daran aproximadamente el mismo nmero de
interpretacin de sus resultados. Generalmente slo se adoptarn los mtodos que propor- puntos en cada uno de los cuatro cuadrantes del diagrama. Pero si los errores sistemticos
cion~n pequeas variaciones entre los laboratorios para su uso en anlisis estndar y son la causa predominante de la variacin, podremos esperar que un laboratorio que obtiene
confiables. Se ha prestado mucha atencin al diseo de ensayos de colaboracin, de manera un valor alto de X tiende tambin a obtener un valor alto de Y. Esto conducira a un
que, con el mnimo esfuerzo, produzcan la mxima cantidad de informacin sobre las predominio de puntos en los cuadrantes superior derecho e inferior izquierdo del diagrama,
fuentes y la magnitud de los errores entre los laboratorios. y ste es de hecho el resultado obtenido en prcticamente todos los ensayos de colabora-
cin. Es obvio que, ante la hipottica ausencia de errores aleatorios, todos los puntos
deberan caer sobre la diagonal de 45 del diagrama. En la prctica, ya que en alguna medida
4.6 REPRESENTACIONES GRFICAS DE DOS MUESTRAS los errores aleatorios estn siempre presentes, los puntos caen dentro de una elipse la cual,
tiene esta diagonal como su eje mayor. La longitud de la perpendicular desde un punto
La alarmante dispersin de resultados obtenidos en diferentes laboratorios durante ensa- individual a la diagonal da una medida del error aleatorio, y la perpendicular interseca a la
yos de colaboracin se podra explicar, en principio, por los errores aleatorios de las diagonal en un punto a una distancia de (X , y) que est relacionado con el error sistemtico
mediciones, o por la presencia de diferentes errores sistemticos en diferentes laboratorios. de ese laboratorio. Es evidente que esta aproximacin de dos muestras a los ensayos de
En la prctica, la evidencia es abrumadora en cuanto a que las variaciones son causadas colaboracin puede proporcionar mucha informacin til. Youden ha sealado otras
por errores sistemticos. Este resultado se demuestra mucho mejor usando un diagrama ventajas de esta aproximacin, las cuales se analizarn en la seccin 4.8.
para dos muestr~s (o X - Y), ideado por W. 1. Youden. El principio en que se basa es que
a cada laborat~r~o que cola~ora en el ensayo se le debe enviar dos muestras similares (X y
Y), Y se le solicita que realice una determinacin de cada una. Los resultados se grafican 4.7 LA PREPARACIN DE UN ENSAYO DE COLABORACIN
como se muestra en la figura 4.1, donde cada punto es un par de resultados de un nico
El propsito de un ensayo de colaboracin es claro: evaluar la variacin en los resultados
de un mtodo analtico concreto (a menudo uno nuevo o modificado) cuando se efecta en
una serie de laboratorios. Los resultados se podran utilizar para decidir si el mtodo mismo
es apto para uso general, y quizs tambin para identificar aquellos laboratorios a los que
o se les podra confiar un trabajo analtico importante, por ejemplo, con repercusiones para
o
la salud pblica o de otro tipo de normatividad. De esta manera, al parecer es fcil establecer
o este ensayo. Un nico laboratorio "de arbitraje" (a menudo, en la prctica, un laboratorio
Muestra y
del gobierno) debera enviar una o ms muestras a otros laboratorios, junto con instruccio-
o o
nes detalladas sobre los mtodos analticos que se deban utilizar. Los laboratorios de
colaboracin analizarn las muestras de acuerdo con estas instrucciones, y devolvern sus
o
o o resultados al centro de arbitraje, en donde se evaluarn utilizando mtodos estadsticos. En
o o la prctica, se emplea una buena cantidad de trabajo para establecer y llevar a cabo dicho
o o ~~ ensayo, y se deben tomar decisiones muy importantes antes de enviar las muestras.
o 00 o o <, o Un experimento preliminar decisivo es la prueba de "entereza". Como observamos en
o o o --
o X, y el captulo 1, incluso los experimentos analticos muy sencillos suponen varios pasos
o
0 individuales y, quizs, el uso de un cierto nmero de reactivos. As, muchos factores
0
o experimentales (por ejemplo, temperatura, composicin del disolvente, pH, humedad,
pureza de reactivos y concentracin, etc.) afectarn los resultados, y es esencial que dichos
factores se identifiquen y estudien antes de emprender cualquier ensayo de colaboracin.
Muestra X En algunos casos, un mtodo resulta ser tan sensible a pequeos cambios en un factor, que
en la prctica es muy difcil de controlar (por ejemplo, reactivos de alta pureza), de manera
Figura 4.1 Una representacin grfica de dos muestras de Youden. que se rechaza por ser impracticable antes de que se efecte el ensayo. En otros casos el
ensayo continuar, pero se prevendr a los colaboradores de aquellos factores que deben a insatisfactorio. Otra alternativa es numerar todos los laboratorios disponibles y seleccio-
ser controlados con cuidado. Aunque en el captulo 7 se expone un anlisis ms completo nar a los participantes, mediante una tabla de nmeros aleatorios (vese la Seco 4.2). Por
del diseo experimental, es importante indicar aqu que puede obtenerse mucha informa- supuesto, no se permite seleccionar slo laboratorios de clase alta.
cin de un nmero relativamente pequeos de experimentos. Suponga que se cree que siete La preparacin, el empaquetado y el envo de las muestras es otro elemento importante
factores experimentales (A a G) podran afectar los resultados de un anlisis. Estos factores del ensayo. Es normal tener una reserva de muestra y dividirla entre los laboratorios
tienen que ser probados con (al menos) dos valores, denominados niveles, para ver si son participantes (el arbitro retiene algunas muestras para permitir cualquier experimento
realmente significativos. As, si se pens que la temperatura afectaba el resultado, debemos adicional necesario). Si la muestra no es homognea por naturaleza, pueden surgir los
realizar experimentos preliminares a dos temperaturas (niveles) y comparar los resultados. problemas de muestreo analizados en las secciones precedentes.
De manera similar, si la pureza de los reactivos puede ser importante, se deben realizar
experimentos con lotes de reactivos de alta y baja pureza. Podra pensarse que sern
7
necesarios 2 experimentos preliminares para cubrir todas las combinaciones posibles de 4.8 CLCULOS EN ENSAYOS DE COLABORACIN
siete factores a dos niveles. Sin embargo, en la prctica slo ocho experimentos proporcio-
narn informacin importante. Los dos niveles de los factores se denominan + y -, y la Cuando se concluye el trabajo experimental de un ensayo de colaboracin, y se envan los
tabla 4.2 muestra cmo estn situados en los ocho experimentos, cuyos resultados se datos al organismo de arbitraje, debe realizarse la evaluacin estadstica de los resultados.
denominan Y, Y2, ... , Ys. El efecto de alterar cada uno de los factores de su nivel alto al Estos clculos deberan revelar hasta qu punto la variacin entre los laboratorios partici-
bajo se calcula fcilmente. As el efecto de cambiar B de + a - est dado por: (y + Y2 + Ys pantes se debe a errores sistemticos. En esta seccin se consideran los clculos inherentes
+ Y6)/4 - (Y3 + Y4 + Y7 + ys)/4. Cuando las siete diferencias de los factores A a G hayan sido a dos casos muy simples de ensayos de colaboracin, y tambin algunos de los problemas
calculados en su totalidad de este modo, es fcil identificar cualquier factor que tenga un que pueden surgir en la prctica.
efecto preocupante en los resultados. Se puede demostrar que cualquier diferencia que sea Quizs el caso ms sencillo de ensayo sea aquel en el que a cada laboratorio
ms de dos veces la desviacin estndar de mediciones repetidas es significativa y debera participante se le envia una nica muestra y sobre ella se realizan mediciones repetidas.
estudiarse posteriormente. Este simple conjunto de experimentos, conocido tcnicamente Deben analizarse los resultados enviados al organismo de arbitraje para separar la variacin
como diseo factorial incompleto, tiene la desventaja de que no se pueden detectar las entre las repeticiones de la variacin entre laboratorios. El siguiente ejemplo muestra que
interacciones entre los factores. Este tema se analizar en el captulo 7. esto se puede hacer mediante una aplicacin simple del ANOVA de un factor: en este caso,
tenemos un factor de efecto aleatorio, como se describi en la seccin 4.3.
Tabla 4.2 Pruebade entereza para siete factores Ejemplo: se envi una muestra de pienso medicinal que contiene el factor de crecimien-
Experimento Factores to olaquindox a cinco laboratorios, cada uno de los cuales realiz anlisis por duplicado
Resultado utilizando cromatografa lquida de alta resolucin con un detector ultravioleta. Se
A B e D E F G obtuvieron los siguientes resultados:
1 + + + + + + + y
2 + +
Laboratorio Olaquindox encontrado (rng/kg)
+ Y2
3 + 1 23.0 22.2
+ + Y3
4 + 2 23.8 22.6
+ + Y4
5 + +
3 21.0 23.8
+ ys
+ 4 26.5 27.1
+ + Y6
+ + 5 21.4 21.4
+ Y7
8 + + + ys (Datos tomados de Analytical Methods Commitee, Analyst, 1985, 110, 75).
Estime las variaciones aleatorias y entre laboratorios en este ensayo.
Los clculos ANOVA comienzan restando 20 a cada resultado, lo cual da:
Otro aspecto que se debe establecer antes de comenzar el ensayo es el nmero de
laboratorios participantes. Por supuesto ste no debera ser demasiado pequeo, ya que los Laboratorio T ~
resultados tendran escasa aplicacin general. Puesto que las diferencias sistemticas entre 1 3.0 2.2 5.2 27.04
2 3.8 3.6 7.4 54.76
laboratorios causarn muchas de las variaciones en los resultados, es ms adecuado enviar
3 1.0 3.8 4.8 23.04
unas poca~ ~uestras a numerosos laboratorios que enviar muchas muestras a unos pocos, 4 6.5 7.1 13.6 184.96
au~]q~e utilizar un gran nmero de laboratorios ser costoso y emplear tiempo. En la 5 1.4 1.4 2.8 7.84
practIca, muchos ensayos de colaboracin se realizan en forma satisfactoria con 10 a 20 T= 33.8 L~ = 297.64
laboratorios. Si el centro de arbitraje conoce a los participantes, puede ser correcto 2
seleccionar deliberadamente un intervalo de laboratorios variando en calidad de excelente n=2 h=5 N=IO LLX'i =
I J
153.26
La tabla ANOVA es, entonces: resultado obtenido por cada laboratorio para la muestra A puede incluir un error
sistemtico. El mismo error se incluir presumiblemente en aquel resultado de labora-
Fuente de Grados de Cuadrado torio para la muestra simil~r B. Por 10 tanto, la diferencia D ( = A - B) tendr eliminado
variacin Suma de cuadrados libertad medio este error, de manera que la diversidad de los valores de D proporcionar una estimacin
Entre laboratorios (297.64/2) - (33.W/l0 = 34.576 4 8.644
Dentro del laboratorio por diferencias
de los errores aleatorios o de la medicin. En forma similar A y B pueden sumarse para
= 4.440 5 0.888
Total 153.26 - (33.W/l0 ~ 39.016 9 dar T, cuya diversidad proporciona una estimacin de la variacin global en los
resultados. La varianza de medicin se estima entonces por:
Ya que el cuadrado medio entre laboratorios es mayor que el de dentro de los
laboratorios, se utiliza la prueba F para ver si esta diferencia es significativa. El valor 2 _ r.(D-D?
(4.1)
de F en este caso est dado por: <1 0 - 2(n-l)
F4,5 = 8.644/0.888 = 9.734 y la varianza global, 02, debida a todas las fuentes de error, se estima por:
E? valor. crtico de F4 ,5 (P = 0.05, tabla A.2) es 5.192, por 10 que se concluye que la
(4.2)
diferencia entre los dos cuadros medios es significativa. Esto indica que la variacin
sis~emtica entre laboratorios (Ji
se encuentra muy por encima de cero, y puede
estimarse como [(cuadrado medio entre muestras) - (cuadrado medio dentro de las Advierta que cada una de estas ecuaciones incluye un 2 en el denominador. Esto se
muestras)J/n (vase la Seco 4.3). El valor resultante para (Ji
es 3.878 mostrando justifica porque tanto D como T dan estimaciones de los errores en los dos conjuntos
c~arame~te ~ue la ~~an parte de la variacin de los resultados se debe por supuesto a de resultados, los cuales se restan y suman a D y Trespectivamente. Los resultados de
diferencias sisternaticas entre laboratorios. este ensayo se pueden expresar en una tabla como la siguiente:
En la seccin 4.6 se mostr que un ensayo en el que cada laboratorio realiza una sola 1 2 3 4 5 6 7 8 9
medicin sobre cada una de dos muestras similares, proporciona informacin valiosa A 35.1 23.0 23.8 25.6 23.7 21.0 23.0 26.5 21.4
ac~r~a de los errores aleatorios y los sistemticos. Esta aproximacin tiene la ventaja B 33.0 23.2 22.3 24.1 23.6 23.1 21.0 25.6 25.0
D 2.1 -0.2 1.5 1.5 0.1 -2.1 2.0 0.9 -3.6
adicional de que los laboratorios participantes no tienden a suprimir una o ms determina- T 68.1 46.2 46.1 49.7 47.3 44,1 44.0 52.1 46.4
ciones repetidas, y que se pueden estudiar muchos materiales sin considerar un gran nmero
de experimentos. Otros clculos obtenidos a partir de la tercera y cuarta filas de datos muestran que D =
0.244, y T = 49.33, Yde aqu que la estimacin de (J~ sea (1.383)2, y la estimacin de
Ejemplo. Se dete~n~naron en nueve laboratorios (1-9) los niveles de plomo (en ng/g) 02 sea (5.296)2. Por tanto, Fs,s = (5,296/1.383)2 = 14.67. El valor crtico (P = 0.05) es
en dos muestras similares (A y B) de frmulas de leche en polvo para nios, utilizando 3.44 (tabla A.2). El valor experimental 10 supera ampliamente, de manera que se
espectrome tra de absorcin atmica con horno de grafito. Los resultados fueron: concluye que 02 es de hecho mucho ms grande que (J~. Esto implica, como hemos
visto, que la variacin entre laboratorios no puede explicarse slo por errores de
Muestra Laboratorios medicin aleatorios, y que se han producido errores sistemticos entre laborartorios.
1 2 3 4 5 678 9
A 35.1 23.0 23.8
La componente de 02 debida a estos errores sistemticos, (Ji, se calcula a partir de:
25.6 23.7 21.0 23.0 26.5 21.4
B 33.0 23.2 22.3 24.1 23.6 23.1 21.0 25.6 25.0
(4.3)
Es~i~e la variacin global entre laboratorios y sus componentes aleatorios y siste-
maticos. Note de nuevo la aparicin del 2 en la ecuacin porque se estudian dos muestras. Aqu
es fcil calcular que la estimacin de (Ji
es (3.615)2.
Este ejemplo difiere del anterior en que existen diferencias entre las muestras as
como entre los laboratorios. Por el procedimiento normal, tal situacin debera ser Aunque los ensayos de colaboracin de este tipo parecen muy simples tienen tambin
tr.atada por un ANOVA de dos factores (vase la Seco 7.7). Sin embargo, en este sus problemas. A veces ocurre que un laboratorio no puede tomar las medidas sobre las dos
ejemplo hay solamente dos muestras, elegidas deliberadamente con un contenido o sobre todas las muestras que le mandan, quizs porque se haya perdido o daado una
analtico similar, de manera que no existe inters en evaluar la diferencia entre ellas. muestra durante el envo, o a causa de errores accidentales en el propio laboratorio. La
A~en~s, se puede hacer los clculos por un camino que es numrica y conceptualmente desaparicin de datos presenta problemas de interpretacin que se tratan con profundidad
mas simple que un ANOVA de dos factores. Al realizar el clculo observamos que el en textos ms avanzados.
i
Otro problema avanzado en ensayos de colaboracin es el de los valores anmalos; es 30 .
decir, uno o ms laboratorios pueden generar resultados que al parecer se encuentran fuera 11 + ~~-,-- Linea de accin superior
o .jn l--------------------;-L''=n-:.e-:a de alerta superior
de lugar con respecto al resto. En el segundo ejemplo anterior, resulta obvio que los 20 ~------------~-~---'-_.--'--~---
resultados obtenidos por el laboratorio 1 son considerablemente ms altos que los otros 11+ - , o o
o yln o Valor objetivo
datos, y la aplicacin de la prueba Q (Sec. 3.7) muestra que estos resultados podran ser o
11
rechazados al nivel de probabilidad P ~ 0.05. Si se vuelven a calcular los valores de a~ y
~_-----!IiL--,...--:::_--------
0 u O
20
d- para los laboratorios restantes se demostrara que, aunque el ltimo valor sigue siendo 11 ~~--
L lea de alerta inferior
mayor, la prueba F indica que la diferencia ya no es significativa (P = 0.05). Esto es, si se o .jn
Lnea de accin inferior
eliminase el laboratorio I del ensayo, toda la variacin restante podra deberse slo a errores ::lo
11--~
cada 1000), en el caso de que esto ocurra lo normal ser det,ener el proc.e~o e investigar I~
4~ DIAGRAMAS DE CONTROL sucedido. La probabilidad de que x caiga entre cada par de Imeas de accion y de alerta esta
prxima a 0.025 (es decir, 1 en 40): un punto que cayera aqu n~ sera causa de preocupa-
Con mucha frecuencia surge la necesidad de controlar peridicamente la fabricacin de un cin, pero si dos puntos consecutivos caen en esta zona habr~a que detener el ~ro~~so.
producto, quizs para observar si los artculos individuales contienen, en promedio, la Se puede observar que un diagrama de control muestra una sene de ~:uebas de significa-
cantidad correcta de una sustancia dada, y para asegurar que no existe demasiada variacin. cin, correspondiendo las lneas de aviso y de accin a los valores cuneos para ": 0.05.y
Una forma de hacerlo es tomando pequeas muestras a intervalos regulares. Considere la P = 0.003 respectivamente. En ocasiones el proceso se podra detener cuando esta toda VIa
situacin concreta en que se controla el peso de las pastillas que salen de una lnea de bajo control (un error de Tipo 1, vase la Seco 3.13), aunque, el riesgo de que esto suceda
produccin. Idealmente la medida del peso de cada pastilla debera ajustarse a un valor
es bajo. .
exacto, Jo, aunque en la prctica habr cierta variacin aleatoria de una pastilla a otra. Esta Existen dos razones por las que los puntos podran empezar a caer fuera de las lineas
variacin se debe en parte al error aleatorio al realizar la medicin y en parte a las de accin. La primera, la media de los artculos producidos conocida como media del
diferencias reales en peso entre las pastillas. Suponga que conocemos el tamao de la proceso, puede haber derivado hacia fuera del valor obje~ivo; en se~undo lugar uede F
variacin aleatoria global, medida por la desviacin estndar de la poblacin, a, de existir un incremento en la variacin, de manera que las lineas de aviso y de accion no
experiencias anteriores; si el proceso est bajo control, es decir que, los pesos de las indiquen las probabilidades correctas, sino que estn demasiado prximas al valor objetiv~.
pastillas producidas si tienen el peso medio Jo, y desviacin estndar a, entonces para Recprocamente, un descenso en la variacin sgnifica qu~ puede no de.t~ctarse. un.camblO
muestras de Il pastillas, cerca del 95 % de las medias muestrales se encontrarn incluidas en en la media del proceso, debido a que las lneas de aviso y de accion no indican las
el intervalo Jo 2a/fIl y aproximadamente el 99.7% dentro del intervalo Jo 3a/fIl probabilidades correctas y estn demasiado lejos del valor objetivo. ~or estas razones es
[vase Cap. 2, Ecs. (2.5) Y (2.7)). Un diagrama de control es una grfica en la que importante estudiar la variacin de un proceso as como su valor medio, Esto se ~1ace con
se presentan consecutivamente los valores de las medias muestra les de manera que se mayor facilidad utilizando el intervalo, w (es decir, la diferencia entre el valor mas grande
pueda tomar cualquier accin correctora lo ms rpido posible. En la figura 4.2 se mues- y el ms pequeo) de cada muestra tomada. El diagrama de She:vhart adecl~~do se puede
tra un tipo de diagrama de control, conocido como diagrama de Shewhart, para el pro- construir con la ayuda de tablas que proporcionan las lneas de aviso y de accion, y el valor
ceso descrito. Se representa el valor de la media muestral, x, en funcin tiempo, y objetivo de w para valores diferentes de 1/ y a (vase la bibliografa de este captulo): Los
cuando el proceso esta bajo control los valores de x se distribuyen normalmente en torno diagramas de medias e intervalos se utilizan simultneam.ente: y se toman acciones
a Jo. Hay tambin dos pares de lneas horizontales en el diagrama: las lneas de alerta en apropiadas si los puntos caen fuera de las lneas sobre cualquier diagrama.
,Lio 2 a/fIl y las lneas de accin en po 3 a/fIl. El objeto de estas lneas est indicado Todava no hemos considerado con detalle cmo establecer IIn valor para a; esto es
por sus propios nombres. Puesto que la probabilidad de que una media caiga fuera de las decisivo al construir los diagramas de control para x y w; a veces a se denomina capacidad
lneas de accin, cuando el proceso est bajo control, es solamente 0.003 (es decir, 3 de
del proceso, debido a que mide la variacin inherente. Ya que es una desviacin estndar
de una poblacin debe estimarse a partir de una muestra muy grande, por ejemplo, de
pastillas. Esto podra causar dificultades: necesitamos estar seguros de que cuando se tomen 90- Lnea de accin superior
estas medidas no habr derivas en la media del proceso que proporcionaran un valor
errneamente alto de u, pero no hemos construido tadava el diagrama para seguir la Lnea de alerta superior
media! Este problema circular se supera tomando un gran nmero de pequeas muestras 8 5~-----------------
durante un periodo. A partir de cada muestra se puede calcular una estimacin de la varianza
Valor objetivo
dentro de muestras que no se ve afectada por las posibles variaciones entre las muestras.
Estas estimaciones se pueden promediar para dar un valor de la capacidad del proceso 8 O ~--i:~----e-=--~--------
[vase la Seco 3.9 (i)]. En la prctica, por lo general se utilizan los intervalos de las muestras,
Lnea de alerta inferior
ya que esto conduce a clculos ms simples, aunque implica el mismo principio. o
Una consideracin importante al utilizar un diagrama de Shewhart es la rapidez con
que se detecta un cambio brusco en la media del proceso. Cuando sta cambia, el siguiente
punto no caer necesariamente fuera de las lneas de aviso o de accin; por ejemplo, si
cambia en 3 u/m, entonces existe una probabilidad de 1/2 de que el siguiente punto caiga 70
fuera de las lneas de accin, pero si la media del proceso cambia en 1 u/m, esta
probabilidad se reduce a 1/40. El nmero promedio de puntos que se deben representar
antes de que sea detectado un cambio en la media del proceso se denomina longitud media
de racha (LMR). Por supuesto, ello depende del tamao del cambio en la media del
proceso en comparacin con u/m: cuanto mayor sea el cambio, se detectar con ms 1O 15
5
rapidez. Por ejemplo, si la media del proceso cambia en 1 u/m, entonces la LMR antes Nmero de observacin
de que una media muestral caiga fuera de las lneas de accin es aproximadamente de 50.
Si el proceso se detiene cuando dos puntos consecutivos caen fuera de la lnea de alerta, Figura 4.3 Diagrama de Shewhartpara los datos de la tabla 4.3.
la LMR queda aproximadamente dividida por dos. Puesto que la LMR depende del
cambio en la media del proceso comparada con u/Ifl, se puede reducir aumentando el
tamao de la muestra: el mayor tamao que puede tomarse en la prctica suele estar dado
por consideraciones de costos y tiempos: por lo regular se toman tamaos de muestra entre Tabla 4.3 Clculo de la suma acumulada: valor objetivo = 80; u/.fIl (conocido) = 2.5
4 y 6.
Un tipo diferente de diagrama de control, conocido como diagrama de sumas acumu- Nmerode (Media muestral) -
Media muestral (valor objetivo) SA
ladas (DSA), utiliza todas las medias muestrales previas, en lugar de la ltima o de las dos observacin
ltimas como hace el diagrama de Shewhart. SA son las siglas del trmino "suma 82 +2 +2
1 +1
acumulada", es decir, la suma de las desviaciones de las medias muestrales del valor 2 79 -1
80 O +1
objetivo, acumuladas de atrs hacia adelante. Un ejemplo aclarar el clculo: 3
78 -2 -1
4 +1
5 82 +2
Ejemplo. En la tabla 4.3 se proporciona el valor de la media para una serie de muestras. 79 -1 O
6
Se sabe que el valor de u/m es 2.5 y la figura 4.3 muestra el diagrama de Shewhart 7 80 O O
para las medias naturales. Se ve que, aunque no quedan puntos fuera de las lneas de 79 -1 -1
8
78 -2 -3
aviso, una serie de valores cae a un lado del valor objetivo. 9
80 O -3
En la tabla 4.3 tambin se muestra el clculo de las sumas acumuladas. Es obvio 10
76 -4 -7
que si el proceso est bajo control, las desviaciones positivas y negativas son igual- 11
77 -3 -10
12
mente probables, por lo que la suma acumulada debera oscilar alrededor de cero; estos 76 -4 -14
13
valores se encuentran representados en la figura 4.4. Para ofrecer una buena impresin 76 -4 -18
14
75 -5 -23
visual, el DSA aparece dibujado de tal forma que la distancia correspondiente a 15
2 u/m sobre el eje vertical es igual a la distancia entre observaciones sucesivas sobre
el eje horizontal.
Del DSA se desprende que la media del proceso cambi despus de tomar la octava
muestra. Una ventaja del DSA es que indica en qu punto el proceso se sali de control.
30
<l:
20 (f)
<l:
CIl
1O
5 1O 15 Nmero de observacin
O
0 o
o 0
Nmero de observacin o o
o
- 1O o
o
o
-20
o
-3O
Figura 4.4 Diagrama de sumas acumuladas (SA) para los datos de la tabla 4.3.
Para probar si una tendencia en un DSA indica que la media del proceso ha cambiado
y que esto no se puede atribuir a simples variaciones aleatorias, puede utilizarse un
delimitador V. Como se muestra en la figura 4.5 un delimitador en forma de V, de
preferencia grabado en plstico claro para poder superponerse (transparencias convencio-
nales), se sita en el DSA con su eje horizontal y su vrtice a una distancia d a la derecha
de la ltima observacin. El semingulo entre los brazos de la V se denomina e. Se dice
<l:
que el proceso est bajo control si todos los valores de la SA caen entre los brazos de la V, CIl
como se indica en la figura 4.5. La figura 4.6 ilustra una situacin en la que el proceso est
fuera de control: dos de los valores de SA se encuentran fuera del brazo superior de la V,
lo que indica que la media del proceso ha cado por debajo del valor objetivo (vanse las
Figs. 4.3 y 4.4). Por supuesto, el rendimiento del delimitador depender de los valores Nmero de observacin
elegidos para ey d. Cuanto mayor sea el valor de d (y menor el valor de e), ms probable
ser que un valor dado caiga fuera de los brazos de la V. Estos valores deben elegirse de
manera que aparezcan pocas falsas alarmas cuando el proceso est bajo control pero que
se detecta rpidamente un cambio importante en la media del proceso. Otros detalles acerca
de la dependencia de la LMR de e y d para diferentes cambios en la media del proceso se
encuentran en una monografa !.c.!. citada en la bibliografa de este captulo. En general,
la LMR para un DSA es inferior que para un diagrama de Shewhart con el mismo tamao
de muestra.
Un DSA tambin puede utilizarse para estimar el tamao del cambio ocurrido en la
media del proceso cuando ste se encuentra fuera de control. Si, por ejemplo, la media del
proceso disminuye en .6., entonces cada media muestral, en promedio, ser el valor objeti va
menos .6.. Como resultado, la SA disminuir en promedio en .6. para cada punto repre-
sentado. As pues, la pendiente promedio de la lnea que une los puntos de la SA Figura 4.6 Uso de un delimitador V con el proceso fuera de control.
proporciona una medida del cambio en la media del proceso y, por consiguiente, la
correccin necesaria.
Los mtodos descritos en esta seccin se pueden utilizar tambin para controlar la Esquema 1: Tome 5 incrementos de muestra, mzc.lelos y re~l.i~e un anli~is por duplicado.
exactitud y precisin de los anlisis de rutina en el laboratorio. A intervalos de tiempo fijos Esquema 2: Tome 3 incrementos de muestra y realice un anlisis por duplicado de cada una.
sobre una muestra estndar, se toma un nmero pequeo de muestras repetidas, y la media
Demuestre que la varianza de la medicin es la misma para ambos esquemas.
y el intervalo de las mediciones repetidas se representan sobre los diagramas de control.
El diagrama de control para la media controla la exactitud, y la concentracin conocida de Qu relacin entre costo de muestreo y costo de anlisis se debe sobrepasar para que e! segundo
analito en el estndar es el valor objetivo. Para el intervalo, esta consideracin controla la esquema sea el ms econmico?
precisin, y el valor objetivo es la capacidad del proceso. De nuevo es necesario establecer
un valor para la capacidad del proceso con el fin de construir los diagramas de control. En 2. Los datos de la tabla adjunta dan la concentracin de albmina medida en el suero sanguneo
de un adulto. Se tom una muestra de sangre durante cuatro das consecutivos y se determin
este caso, la capacidad del proceso estar limitada por el error aleatorio que se produce al
la concentracin de albmina en e! suero por triplicado.
tomar las medidas, en lugar del error que se comete al preparar un estndar. Esto se puede
verificar al preparar una serie de estndares y que cada uno contenga el mismo nivel Da Concentracin de albmina (normalizada, unidades arbitrarias)
(nominal) de analito, y haciendo una serie de mediciones repetidas sobre cada estndar. Se 1 63 61 62
puede utilizar ANOVA para verificar que la varianza entre estndares no sea significativa 2 57 56 56
comparada con el error aleatorio de las mediciones y tambin para estimar esto ltimo. 3 50 46 46
4 57 54 59
Aqu "repetidas" significa una medicin repetida de tal forma que se repiten todas las
etapas del anlisis, estimando de esta manera todas las posibles contribuciones al error Demuestre que la concentracin media para los diferentes das difiere significativamente. Estime
aleatorio. la varianza de la variacin da a da (es decir, "la variacin muestral").
Wernimont, G. T., Use ofStatistics to Develop and Evaluate Analytical Methods, Spendley, W. (Ed.), Se proponen dos esquemas disponibles de muestreo:
Association of Official Analytical Chemists, Virginia, Arlington, 1985. Diseado como el sucesor
actualizado de Youden y Steiner (vase ms abajo). Esquema 1: Tome 6 incrementos de muestra, mzclelos y haga mediciones por cuadruplicado.
Woodward, R. B. y Goldsmith, P. L., Cummulative SUIll Techniques, Monografa LC.L No. 3, Esquema 2: Tome 3 incrementos de muestra y sobre cada uno haga mediciones por duplicado.
Edinburgo,Oliver & Boyd, 1964. Un tratamiento detallado de DSA.
Youden, W. J. y Steiner, E. B., Statistical Manual ofthe Association ofOfficial Analytical Chemists, Calcule la varianza total de la media para cada esquema.
Association of Official Analytical Chemists, Virginia, Arlington, 1975. Un manual clsico sencillo
y bien escrito sobre los ensayos de colaboracin. 4. Para estimar la capacidad de un proceso, se hicieron mediciones sobre 6 muestras de tamano 4,
como se muestra en la tabla adjunta (en la prctica se necesitaran al menos 25 de tales muestras).
Bartley,1'. F., Computerized Qualit Control: Programs for the Analytical Laboratory. Chichester, Estime la capacidad de! proceso, a. Si e! valor objetivo es 50, calcule las posiciones de las lneas
Horwood, 1987. Proporciona programas de computador para utilizarlos en control de calidad: los de aviso y de accin de un diagrama de Shewhart para la media muestra!.
programas tambin se encuentran disponibles en disquetes.
Muestras Valores
1 48.8 50.8 51.3 47.9
2 48.6 50.6 49.3 49.7
EJERCICIOS 48.2 51.0 49.3 50.3
3
4 54.8 54.6 50.7 53.9
Se proponen dos esquemas de muestreo para una situacin en la que se sabe, por anteriores 5 49.6 54.2 48.3 50.5
experiencias, que la varianza muestra! es 10 Y la varianza de medicin es 4 (en unidades 6 54.8 54.8 52.3 52.5
arbitrarias).
5. En un ensayo de colaboracin, se enviaron dos muestras muy similares de aceite (A y B) a 15
laboratorios, cada uno de los cuales realiza una determinacin del nivel de cadmio en cada
muestra utilizando la tcnica de emisin de plasma por acoplamiento inductivo. Se obtuvieron
los siguientes resultados:
Dibuje el diagrama de estas dos muestras para estos datos y comente la principal fuente de
error en el ensayo de colaboracin. Estime la varianza global, la varianza de medicin, y el s.i ANLISIS INSTRUMENTAL
componente de error sistemtico de la varianza de los resultados.
Las tcnicas de anlisis clsico o "qumica hmeda" como volumetras y gravimetras se
utilizan todava en muchos laboratorios y tambin se ensean ampliamente en cursos de
Qumica Analtica. Dichas tcnicas suministran excelentes introducciones a la manipula-
cin y otras prcticas requeridas en el trabajo analtico; son ideales para anlisis de alta
precisin, especialmente cuando se utiliza un pequeo nmero de muestras, y son necesa-
rias para el anlisis de materiales estndar. Sin embargo, en este momento no hay duda de
que muchos anlisis se efectan por mtodos instrumentales. Las tcnicas que utilizan
espectrometria de absorcin y emisin a varias longitudes de onda, diferentes mtodos
electroqumicos, espectrometra de masas, cromatografa gaseosa y lquida, y mtodos ra-
dioqumicos y trmicos, probablemente suponen el 90% de todo el trabajo analtico actual,
o incluso ms. Hay varias razones para esto.
(1) Los mtodos instrumentales pueden realizar anlisis que son difciles o imposibles
por los mtodos clsicos. Mientras que stos pueden detectar slo rara vez especies
qumicas a niveles de submicrogramos, muchos mtodos instrumentales son sorprenden-
temente sensibles. Por ejemplo, los mtodos luminiscentes han detectado molculas
orgnicas a nivel de lO-1 8M. Por 10 general, slo es posible determinar un analito a la vez
por mtodos de "qumica hmeda", si bien la espectrometra de plasma puede determinar
diez o ms elementos simultneamente (y a muy bajas concentraciones), mientras que los
mtodos que combinan HPLC (cromatografa lquida de alta resolucin, high-performance
liquid chromatography) con deteccin espectroscpica pueden identificar y determinar
muchos componentes de mezclas orgnicas complejas en pocos minutos. An ms, el
intervalo de concentracin de un mtodo concreto de anlisis clsico est normalmente
limitado por consideraciones terico-prcticas. As, titulaciones con AEDT (EDTA, en
ingls) pueden realizarse con xito con concentracin de reactivo del orden de 1O-4M,
aunque se establece un lmite superior (-o. 3M ) por la solubilidad del AEDT en agua. El
intervalo de concentracin til en mtodos clsicos es generalmente de 2 a 3 rdenes de
magnitud (es decir, potencias de 10). Por el contrario, algunos mtodos instrumentales
pueden determinar concentraciones de analito en el intervalo de seis o ms rdenes de
magnitud: esta caracterstica tiene importantes repercusiones para el tratamiento estadsti-
co de los resultados, como veremos en la prxima seccin.
Seal
(2) Para una gran variedad de muestras, el anlisis instrumental suele ser ms rpido y
a menudo ms barato que los mtodos manuales que requieren de mucha mano de obra.
En anlisis clnicos, por ejemplo, se presenta con frecuencia la necesidad de realizar el
mismo anlisis en una veintena o incluso en cientos de muestras de sangre o suero
sanguneo o plasma cada da; a pesar del alto costo inicial del equipo, esto, se realiza, por
lo general, usando sistemas completamente automticos. La automatizacin ha llegado a
ser un aspecto tan importante en qumica analtica, que la facilidad con la cual puede
automatizarse una tcnica concreta a menudo determina si se utiliza o no.
Un mtodo automtico tpico ofrece la posibilidad de procesar muestras a razn de cien
por hora o ms: el equipo tomar un volumen medido de muestra, la diluir adecuadamente,
provocar una o ms reacciones, y determinar y registrar la concentracin del anal ita o
un derivado producido en las reacciones. Evidentemente en el anlisis automtico surgirn
problemas especiales de estimaciones de error; los errores sistemticos, por ejemplo, deben
ser identificados y corregidos tan rpido como sea posible.
(3) Los instrumentos analticos modernos pueden ponerse fcilmente en interfaz con
computadores. La tendencia actual consiste en utilizar microcomputadores de 8 bits o
16 bits con dispositivos de almacenamiento de informacin de disco duro o blando. Tales
sistemas pueden traer consigo un grado de perfeccionamiento razonable en el control del
instrumento y manejo de datos. Por ejemplo, el computador puede controlar tiempos de
muestreo o aparatos de inyeccin mediante activacin elctrica con conmutadores. Una Nmero de observacin
vez que se han obtenido los resultados analticos, el computador puede procesar los datos, Figura s. Procedimiento de calibracin en anlisis instrumental: O puntos de calibracin;
realizando operaciones tales como la generacin de derivadas de espectros o transformadas muestra problema.
de Fourier. Tambin puede evaluar los resultados estadsticos -el tema recurrente de este
libro-, y comparar los resultados analticos con datos almacenados en su memoria, as
como comparar espectros y otros datos. Todos estos recursos se consiguen con compu- obtener la concentracin de analito en cualquier muestra problema por interpolacin, como
tadores de bajo costo que funcionan a velocidades aceptables. Otra posibilidad importante se indica en la figura 5.1. Este procedimiento general plantea varias preguntas estadsticas
es el desarrollo de instrumentos "inteligentes" que realizan, por ejemplo, procesos de importantes.
optimizacin automticos (vase el Cap. 7). No hay duda de que con los recursos de los
computadores y su rpida incorporacin a la gran mayora de los instrumentos analticos, (1) Es lineal la grfica de calibracin? Si es una curva, qu forma tiene?
stos aumentarn su potencialidad y eficencia. (2) Teniendo en cuenta que cada uno de los puntos de la lnea de calibracin est sujeto
a errores, cul es la mejor lnea recta (o curva) que pasa por esos puntos?
(3) Suponiendo que la calibracin es realmente lineal, cules son los errores estimados
5.2 GRFICAS DE CALIBRACIN EN ANLISIS INSTRUMENTAL y los lmites de confianza para la pendiente y la ordenada en el origen de la recta?
(4) Cuando la grfica de calibracin se usa para el anlisis de una muestra problema,
La capacidad de las tcnicas de anlisis instrumental para manejar un intervalo amplio de cules son los errores y los lmites de confianza para la concentracin determinada?
concentraciones de analito significa que se calculan los resultados, y se evalan los errores (5) Cul es el lmite de deteccin del mtodo? Esto es, cul es la menor concentracin
aleatorios de una manera concreta, que difiere de la que se utiliza cuando se repite una sola de analito que se puede detectar con un nivel de confianza predeterminado?
medicin varias veces. El procedimiento habitual es como sigue. El analista toma una serie
de muestras (normalmente tres o cuatro, y posiblemente alguna ms) en las que se conoce Antes de abordar estas preguntas detalladamente, debemos considerar una serie de
la concentracin de analito. Estas calibraciones estndar se miden en el instrumento aspectos sobre el trazo de grficas de calibracin. Primero, por lo regular,.es esencial ~ue
analtico en las mismas condiciones que las usadas para las muestras problema (es decir, los estndares de calibracin cubran el intervalo completo de concentraciones requerido
las "desconocidas"). Una vez que se ha establecido la grfica de calibracin, se puede en los anlisis subsiguientes. Con la importante excepcin del "mtodo de las adiciones
valores de x, por lo general, se denomina x y la media de los valores de y, y: la posicin (x,
estndar", que se tratar en una seccin posterior, la concentracin de muestras problema
se determina normalmente por interpolacin y no por extrapolacion. En segundo lugar, es y) se conoce como el "centro de gravedad" de todos los puntos.
Para estimar si los puntos experimentales se ajustan bien o no a una lnea recta,
muy importante incluir el valor de una muestra "en blanco" en la curva de calibracin.
calculamos el coeficiente de correlacin momento-producto, r. Para simplificar, deno-
La muestra en blanco no contiene ningn analito agregado deliberadamente, pero contiene
minaremos a este dato estadstico como "coeficiente de correlacin" debido a que en las
los mismos disolventes, reactivos, etc., que las otras muestras problema, y est sujeta
ciencias cuantitativas es el ms usado; sin embargo, encontraremos otros coeficientes de
exactamente a la misma secuencia del procedimiento analtico. La seal del instrumento
dada por la muestra en blanco no ser a menudo cero. Desde luego, est sujeta a correlacin en el captulo 6. El valor de r est dado por:
errores, como los otros puntos de la calibracin, y no tiene sentido, en principio, sustraer
el valor del blanco de los otros valores estndar antes de dibujar la grfica de calibracin.
Finalmente, se debe subrayar que la curva de calibracin se representa siempre con la (5.2)
respuesta del instrumento en el eje vertical (y) y la concentracin estndar sobre el eje
horizontal (x). Esto se debe a que muchos de los procedimientos que se describen en las
secciones siguientes suponen que todos los errores se presentan en los valores de y y que Un minucioso estudio de esta ecuacin muestra que r puede tomar valores en el intervalo
las concentraciones estndares (valores de x) se encuentran libres de error. Este supuesto de -1 ~ r ~ + l. Como se indica en la figura 5.2, un valor de r de -1 describe una correlacin
se analiza posteriormente. negativa perfecta, es decir, todos los puntos experimentales estn en la lnea recta de
pendiente negativa. En forma similar, cuando r = + 1, tenemos una correlacin positiva
El lector debera considerar que los mtodos descritos ahora siguen generando contro-
perfecta, ya que todos los puntos estn exactamente en una lnea recta de pendiente
versia, lo cual es patente en muchas reuniones cientficas y trabajos originales acerca de
la calibracin. Muchas de estas controversias derivan del hecho de que los mtodos
utilizados generalmente se apoyan en dos supuestos. El primero es el que mencionamos en
el prrafo anterior, o sea, que los errores en la calibracin slo ocurren en los valores de y.
En muchos anlisis instrumentales de rutina, este supuesto puede estar bien justificado.
Los estndares pueden prepararse con un error de ca. 0.1 % o inferior (vase el Cap. 1),
mientras que las mediciones instrumentales podran tener un coeficiente de variacin del y
1 al2 % o mayor. No obstante, con la aparicin en los ltimos aos de algunos instrumentos
automticos de alta precisin nuevamente se han cuestionado estos supuestos, lo que ha
llevado a algunos usuarios a preparar sus disoluciones estndar por peso en lugar de usar
la combinacin de peso y volumen, que es menos exacta.
El segundo supuesto es que la magnitud de los errores en y sea independiente de la
concentracin de analito. El sentido comn indica que es improbable que esto sea verdad:
si, por ejemplo, los errores relativos en la medicin son constantes, los errores absolutos
aum~~tarn a medida que aumenta la concentracin de analito. Como veremos, es posible
modificar el procedimiento estadstico teniendo en cuenta tales factores; sin embargo, en
la prctica los procedimientos modificados (y bastante ms complejos) parece que no se
adoptan en muchos de los casos donde deberan utilizarse.
y. X 10
Xi Xi - (Xi - X)2 Yi - Y (y - Y)2 (Xi X)(y Y)
O 2.1 -6 36 -11.0 121.00 66.0
2 5.0 -4 16 -8.1 65.61 32.4
4 9.0 -2 4 -4.1 16.81 8.2
6 12.6 O O -0.5 0.25 O Pendiente = 1.93
8 17.3 2 4 4.2 17.64 8.4
10 21.0 4 16 7.9 62.41 31.6 5
12 24.7 6 36 11.6 134.56 69.6
42 91.7 O 112 O 418.28 216.2
x = 42/7 = 6; Y = 91.7/7 = 13.1 Ordena en el origen = 1.52
Los nmeros que se encuentran por debajo de la lnea, al pie de las columnas, son en
cada caso las sumas de los nmeros de la tabla. [Note que I(x, - x) y I(y - y) ambos o 2 4 6 8 10 12
a = y - bi (5.5)
El valor calculado de t se compara con el tabulado al nivel de significacin deseado, usando Es obvio que los trminos utilizados para calcular r son necesarios tambin en el clculo
una prueba t de dos colas y (n - 2) grados de libertad. La hiptesis nula en este caso es que de a y b: esto se facilita con una calculadora o un programa de computador sencillo.
no existe correlacin entre x y y. Si el valor calculado de t es mayor que el tabulado, la Los resultados de los clculos de la pendiente y ordenada en el origen se representa en
hiptesis nula se rechaza; esto es, se concluye que existe una correlacin significativa. la figura 5.3. De nuevo es importante recalcar que la ecuaciones (5.4) y (5.5) no deben
emplearse mal porque slo darn resultados tiles cuando un estudio previo (clculo de r
y una inspeccin visual de los puntos) indique que una lnea recta es coherente con el y
experimento que se trata. Para calcular rectas de regresin pueden usarse tambin mtodos
no paramtricos (es decir, mtodos que no hacen suposiciones acerca de la naturaleza de ,
la distribucin del error): este tema se trata en el prximo captulo. 6
.,
La recta de regresin calculada en la accin anterior se utilizar en la prctica para X 4 Y4
estimar la concentracin de las muestras problema por interpolacin, y quizs tambin O X 4, Y4
para estimar el lmite de deteccin del procedimiento analtico. Los errores aleatorios en
los valores de la pendiente y de la ordenada en el origen son importantes, por lo que
consideramos ahora las ecuaciones utilizadas para calcularlos. Primero debemos calcular
el dato estadstico Sy/x , que est dado por:
_{7 yy},
(Yi -
(5.6)
Sy/x -
n- 2
Se comprueba que esta ecuacin utiliza los residuos de y, Yi - Ji, donde los valores Ji son
los puntos sobre la recta de regresin calculada, correspondientes a los valores individuales
de x es decir, los valores de y "ajustados" (Fig. 5.5). El valor de J para un valor de x dado x
se calcula rpidamente a partir de la ecuacin de regresin. La forma de la ecuacin
(5.6) es similar a la de la ecuacin de la desviacin estndar de una serie de mediciones Figura 5.5 Los residuosde y de una regresinlineal.
repetidas [Ec. (2.2)]; pero difiere en que las desviaciones (yi - y), son sustituidas por los
residuos, (yi - Yi), Y el denominador contiene el trmino (n - 2) en vez de (n - 1). En un
clculo de regresin lineal el nmero de grados de libertad (vase la Seco 2.4) es (n - 2). Ejemplo. Calcule la desviacin estndar y los lmites de confianza para la pendiente y
Esto refleja el hecho obvio de que para representar una lnea recta slo se necesitan dos la ordenada en el origen de la recta de regresin calculada en la seccin 5.4.
puntos. Es posible que no realicemos este tipo de clculo directamente en una calculadora
Despus de obtener un valor de Sy/x, podemos calcular Sb y Sa, las desviaciones estndar programable, aunque se han desarrollado programas de computador tiles (vase la
para la pendiente (b) y la ordenada en el origen (a). stas estn dadas por: bibliografa del captulo 1). Aqu se efecta el clculo manualmente, utilizando una
tabla estructurada como antes.
(5.7) ,
2 (yi -),i)2
Xi Xi Yi Yi lYi - Yil
O O 2.1 1.52 0.58 0.3364
X; }' 2 4 5.0 5.38 0.38 0.1444
s; = Sy/x { n ~Xi if
- (5.8) 4
6
16
36
9.0
12.6
9.24
13.10
0.24
0.50
0.0576
0.2500
1
/1 / La significacin de esta ltima definicin se aclara con mayor detalle en la figura 5.7.
I / Un analista que estudia concentraciones traza se enfrenta a dos problemas: por un lado no
/ / desea dar un informe de la presencia de anal ita cuando est realmente ausente, pero por
ji / otro, tampoco pretende informar que el analito est ausente cuando de hecho est presente.
/ / La posibilidad de que ocurra cada uno de estos errores debe minimizarse bajo una defini-
/ cin lgica de un lmite de deteccin. En la figura, la curva A representa la distribucin
/ normal de valores medidos de la seal de! blanco. Sera posible identificar un punto y = P,
/ hacia el borde superior de esta distribucin, y pretender que sera improbable que una seal
ms grande que sta se debiese al blanco (Fig. 5.7), mientras que se supondra que una
seal menor que P indica una muestra en blanco. Sin embargo, para que una muestra d
Concentracin una seal promedio P, el 50% de las seales observadas ser menor que sta, ya que
Figura 5.6
tendr una distribucin normal (de la misma forma que para el blanco, vase ms adelante)
Forma general de los limites de confianza para una concentracin determinada utili-
zando una recta de regresin no ponderada. que se prolonga por debajo de P (curva B). La probabilidad de concluir que esta muestra
no difiere de la del blanco cuando de hecho lo hace es por lo tanto del 50%. El punto P,
anterior). Por otra parte, no es adecuado usar valores de n pequeos: en tal caso no slo
1/n se.r g.rande, sino que el nmero de grados de libertad n - 2, se har muy pequeo, y se Lmite de Lmite de
necesitaran valores muy grandes de t en el clculo de los lmites de confianza. En muchos decisin deteccin
Ys
ex~e~imento~,como en el ejemplo dado, aproximadamente seis puntos de calibracin sern
suficientes; SI es necesario el analista ganar precisin extra repitiendo mediciones de yo.
Como hemos visto, una de las ventajas de utilizar mtodos instrumentales de anlisis es
que SO~l capaces de ~~t~ctar'y. determinar cantidades de ana lito mucho ms pequeas que
los metod~s de analIsls. clsicos. Esta ventaja permite apreciar la importancia de las
c~nc.e~traclOnes en el nivel de trazas en muchos materiales, por ejemplo en muestras
bioigicas y medioambientales, contribuyendo as al desarrollo de muchas otras tcnicas
en las.cuales los lmites de deteccin bajos son el mejor criterio para aplicarlas con xito.
Es ~~ldente q~e los mtodo~ estadsticos son importantes para la evaluacin y la compa-
raclOn. ~e 111m tes de deteccin, En trminos generales, se puede describir el lmite de )
~etecclOn de un analito como aquella concentracin que proporciona una seal en e!
instrumento (v) significativamente diferente de la seal de una muestra en "blanco" o "seal
Figura 5.7 Definiciones de (a) el limite de decisin y (b) el lmite de deteccin.
25
llamado el lmite de decisin, es insatisfactorio como un lmite de deteccin, ya que
soluciona el primero de los problemas mencionados antes, pero no el segundo. Un punto Y,23.0
ms adecuado est en y = Q (vase la Fig. 5.7), de manera que Q est situado al doble de
la distancia que existe entre Ys y P. Se puede demostrar que si ys - Q es 3.28 veces la a = Ya = 1.52 0.30
desviacin estndar del blanco, SIJ, entonces la probabilidad de que cada uno de los dos b = 1.93 0.04
tipos de error ocurra (indicados por las reas sombreadas de la figura 5.7) es slo del 5%. 20
Si, como se sugiere en la ecuacin (5.11), la distancia YIJ - Q es slo 3s lJ, la probabilidad r = 0.9989
de cada error es aproximadamente del 7%; muchos analistas deberan considerar que esta sI'" s B = 0.433
y x
definicin del lmite de deteccin es razonable.
Es preciso insistir de nuevo en que esta definicin es completamente arbitraria, y est LOO = 0.67pg/ml
abierta para que cualquier analista proponga una alternativa ante un propsito concreto. ca Sx "'0.25
'(3 15
Por ejemplo, existen ocasiones en que un analista est ansioso de evitar a toda costa la e
Ql
posibilidad de informar sobre la ausencia de analito cuando de hecho est presente, pero olJ) !'
11
lo contrario no es relativamente preocupante. Est claro que cuando se cite un lmite de ...O
Ql
=
deteccin en un trabajo o informe, debe proporcionarse la definicin utilizada para ~
obtenerlo. Se han realizado algunos intentos para definir otro lmite, el "lmite de cuanti- :
ficacin" (o "lmite de determinacin"), considerado como el lmite ms bajo para medi- 10
ciones cuantitativamente precisas, en oposicin a la deteccin cualitativa. Se ha sugerido
un valor de yu + 10s13 para este lmite, aunque en la prctica no se ha utilizado ampliamente. 11
estndar estimada por Sy/x [vase la Ec. (5.6)]. sta es la justificacin para representar las
a Ya
curvas de distribucin normal con la misma amplitud que refleja la figura 5.7; por lo tanto
L.o.d
es apropiado utilizar SYlr en lugar de Sn en la estimacin del lmite de deteccin. Por
O
supuesto, se puede realizar el experimento con el blanco varias veces y obtener un valor O 2 4 6 8 10
independiente para Sil, pero es un procedimiento que lleva tiempo, y en la prctica el uso Concentracin, pg/ml
de S,r es bastante adecuado. El valor de a, la ordenada en el origen calculada, puede
utilizarse como una estimacin de yn, la propia seal del blanco; debera ser una estimacin Figura 5.8 Resumen de los clculos usando los datos de la pg. 92.
ms exacta de Yll que el solo valor de la medicin del blanco, YI.
representacin sea lineal, puede ser medida en cualquier punto de ella. Por el contrario: ~l
Ejemplo. Estime el lmite de deteccin para determinar la fluorescena estudiada en las lmite de deteccin de un mtodo se calcula con ayuda de la zona ?e la representacin
secciones anteriores.
cercana al origen, y utiliza tanto la pendiente como la ordenada al ongen.
Se utiliza la ecuacin (5.11) con los valores de YIJ (= a) y Sil (= s.1/}) calculados
previamente. El valor de yen el lmite de deteccin est dado por 1.52 + 3 x 0.432 9,
es decir, 2.82. El uso de la ecuacin de regresin conduce a un lmite de deteccin de
5.8 EL MTODO DE LAS ADICIONES ESTNDAR
0.67 pg/ml. La figura 5.8 resume todos los clculos realizados a partir de los datos para
determinar la fluorescena. analista desea determinar la concentracin de plata en muestras de
Supongamo S que un . " S' tili 1 todos
desechos fotogrficos por espectrometria de absorcin atmica. 1 u 1 iza ~s m
Es muy importante evitar la confusin entre el lmite de deteccin de una tcnica con de las secciones anteriores, podra efectuar una calibracin ~n el esp~ctrof?,tometro con
su sensibilidad. Esta confusin surge, probablemente, porque no existe una palabra que . d 1 de plata pura y utilizar la grfica de calibracin resultante
signifique "tener un lmite de deteccin bajo"; la palabra "sensible" se utiliza generalmente soluciones acuosas e una sa . t 'todo slo es
en la determinacin de plata en las muestras problema. Sin embargo, ~~ e me
con este propsito, lo que da lugar a demasiada ambigedad. La sensibilidad de una tcnica vlido si una solucin acuosa pura de plata da la misma seal de absorclOn que una muestra
se define correctamente como la pendiente de una lnea de calibracin y, siempre que la
fotogrfica de desecho que contenga la misma concentracin de plata. En otras palabras, seal
cuando se usan soluciones puras para establecer la grfica de calibracin se supone que no
hay "efectos de matriz", es decir, disminucin o aumento en la seal de absorbancia de
plata debido a la presencia de otros componentes en la muestra. Frecuentemente, tal
suposicin no es vlida en muchas reas del anlisis. Los efectos de matriz ocurren incluso
con mtodos tales como la espectrometra de plasma que tienen la ventaja de estar
relativamente libres de interferencias.
La primera solucin posible a este problema es tomar una muestra de desechos
fotogrficos que sea similar a la muestra problema pero libre de plata, y aadirle cantidades
conocidas de una sal de plata para formar soluciones estndar. Entonces, la grfica de
calibracin se establecer utilizando una matriz aparentemente adecuada; sin embargo, en Seal de muestra
/
muchos casos esta aproximacin es impracticable. No se eliminarn efectos de matriz que /
difieran en magnitud de una muestra a otra, y quiz no sea posible obtener una muestra de /
la matriz que no contenga analito, por ejemplo, es improbable que se consiga una muestra /
de residuos fotogrficos sin plata. De esto se desprende que todas las mediciones analticas,
/
/
incluyendo la grfica de calibracin, de alguna manera deben realizarse con la propia /
muestra. Esto se logra en la prctica usando el mtodo de adiciones estndar, el cual se
/
utiliza mucho en la espectrometra de absorcin atmica y emisin y tambin se aplica en
( ) Cantidad aadida
el anlisis electroqumico y en otras reas. Se toman volmenes iguales de solucin
Cantidad de analito en
problema, pero todas salvo una son "tratadas" por separado con cantidades conocidas y la muestra del problema
diferentes del ana lito, y todas se diluyen al mismo volumen. Despus se determinan las
seales instrumentales para todas estas soluciones y los resultados se representan como se Figura 5.9 El mtodo de las adiciones estndar.
muestra en la figura 5.9. Como de costumbre, la seal se representa en el eje y; mientras
que en el eje x la escala se expresa en trminos de las cantidades de ana lito aadidas (ya
sea como peso absoluto o como concentracin). La recta de regresin (no ponderada) se Plata adicionada, J1g por mi de 30
o 5 10 15 20 25
solucin de muestra original
calcula de la manera usual, si bien el espacio ocupado por ella se extrapolar al punto sobre 0.32 0.41 0.52 0.60 0.70 0.77 0.89
Absorbancia
el eje x donde y = O. Est claro que esta interseccin negativa sobre el eje x corresponde a
la cantidad de analito en la muestra del problema. El anlisis de la figura muestra que este Determine la concentracin de plata en la muestra, y obtenga los lmites de confianza
valor est dado por alb, la razn de la ordenada en el origeny la pendiente de la recta de al 95% para esta concentracin. ,
regresin. Ya que a y b estn sujetas a error (vase la Seco 5.5), el valor calculado tambin Las ecuaciones (5.4) Y (5.5) conduce a a ~ 0.3218 Y b = 0.0186. La razon entre estas
estar obviamente sujeto a error. Sin embargo, en este caso la cantidad no se predice a partir cifras proporciona la concentracin de plata en la muestra proble~na de 17.3 f.lg/mI.
de un nico valor medido de y, de manera que la frmula de la desviacin estndar SXE' del Los lmites de confianza para este resultado se pueden detenmnar con la ayuda
valor extrapolado de x (XE) no es la misma que en la ecuacin (5.9). En su lugar, se utiliza: . . (.1
de la ecuacion 5 2) . A 001094 ,y-n
qui' Sy/x es. - .601 4 ,Y'-~ (x I - X)2 ~ 700. El valor de
SxE es entonces 0.749 Y los lmites de confianza son 17.3 2.57 x 0.749, es decir 17.3
S {1
=~ -+ 2 y-2}i (5.12) 1.9 f.lg/ml.
XE b n b E (x, -
, i?
Aunque es una aproximacin elegante al problema com~l de efectos .de inter~e~e.ncia
Al aumentar nuevamente el valor de 11, se mejora la precisin de la cantidad estimada: en por la matriz, el mtodo de las adiciones estndar tie~en vanas desventajas: es, dificil de
general, deberan usarse al menos seis puntos en un experimento de adiciones estndar. automatizar, y puede utilizar cantidades de muestra mas gran,des que en otros m~t,odos. En
Adems, la precisin se mejora maximizando L, (Xi - :~'l, as las soluciones de calibracin trminos estadsticos, su principal desventaja es que es un metod~ de extrapol~clOn, por lo
tanto es menos preciso que las tcnicas de interpolaci~ '.En el ejemplo antenor podemos
cubriran, si fuera posible, un intervalo considerable. Los lmites de confianza para se
ver que, si una concentracin desconocida de plata adicionada a la muest~a, de desechos
XE
determinan, como siempre, como XE tsa:
fotogrficos proporcionase un valor de absorvancia de 0,~5, la concenlracto de la plat~
Ejemplo. La concentracin de plata en una muestra de desechos fotogrficos se adicionada debera ser 17.6 f.lg/ml, con lmites de confianza ~e 17.6 1:6. f.lg/m~. ~I
determin por espectrometra de absorcin atmica con el mtodo de las adiciones comparamos este resultado con el obtenido en el e~el~plo, es ev~dente la mdica mejona
estndar. Se obtuvieron los siguientes resultados. en los lmites de confianza. Como hemos visto, los lmites de confianza para un punto sobre
una recta de regresin varan con el valor de y, y alcanzan un mnimo cuando y ~ y (vase a b
la Seco 5.6). En la prctica, como se muestra en este ejemplo y en el de la seccin 5.6, esta
variacin en los lmites de confianza con el cambio en y probablemente no es muy grande,
de manera que los lmites de confianza no son significativamente malos incluso para un
resultado derivado de una extrapolacin sustancial.
normalmente el procedimiento que ilustra la figura 5.10. Uno de los ejes de la grfica de
regresin s.e utiliza ~ara los resultados obtenidos por el nuevo mtodo, y el otro para los MTODO B
)
que se obtienen aplicando el de comparacin o referencia a las mismas muestras. (La
Figura 5.10 El uso de una recta de regresin para comparar dos mtodos anal~icos: (a) muestra
impo.rt~ncia de asignar un eje a cada mtodo se analiza posteriormente.) As cada punto de una concordancia perfecta entre los mtodos para todas las muestras; de (b) a (f) Ilustra los resulta-
la grfica representa una nica muestra analizada por dos mtodos separados. Los mtodos dos de varios tipos de errores sistemticos (vase texto).
de la.s secciones precedentes se han aplicado para calcular la pendiente (b), la ordenada en
el ongen (a) y el coeficiente de correlacin (r) de la recta de regresin. Queda claro que si
y) podra detectar slo una forma del analito, mientras que el segundo detectara ambas
cada muestra conduce a un resultado idntico con ambos mtodos analticos la recta de
regresin tendr una ordenada en el origen de cero, y una pendiente y un' coeficiente formas.
En la prctica, el analista con frecuencia desea realizar una prueba para contrastar una
?e correlacin de 1 (vase la Fig. 5.lOa). En la prctica, por supuesto, esto nunca ocurre
ordenada en el origen significativamente diferente de cero, y una pendiente significativa-
incluso cuando los errores sistemticos estn completamente ausentes, los aleatorios
mente diferente de 1. Tales pruebas se realizan determinando los lmites de confianza para
aseguran que los dos procedimientos analticos no darn resultados que concuerden
a y b, generalmente al 95% de nivel de significacin. De este modo, el clculo es muy
exactamente en todas la muestras. .
similar al descrito en la seccin 5.5, y es ms til realizarlo utilizando un programa de
. Pueden ocurrir desviaciones de la situacin "ideal" (a = 0, b = r = 1) en una serie de
c'rcu~lstancias diferentes. En primer lugar, es posible que la recta de regresin tenga una computador sencillo.
pen~'ente de 1, pero no una ordenada en el origen de cero; o sea que un mtodo de
Ejemplo. El nivel de plomo de diez muestras de jugo de fruta de determin por un nuevo
ana lisis puede producir un resultado ms alto o ms bajo que el otro en una cantidad fija.
mtodo de anlisis potenciomtrico de redisolucin (stripping) (APR) empleando un
Tal error podra ocurrir si se calcul errneamente la seal de fondo de uno de los mtodos
electrodo de trabajo de carbn vitrificado, y los resultados fueron comparados con los
(vase la Fig. 5.lOb). Una segunda posibilidad es que la pendiente de la recta de regresin
obtenidos mediante la tcnica de espectrometra de absorcin atmica sin llama (EAA).
sea> 1 o < 1, 10 que indica que puede darse un error sistemtico en la pendiente de una
Se obtuvieron los siguientes datos (todo los resultados en ,ug/ml).
de las grficas de calibracin individuales (Fig. 5.lOc). Desde luego, estos dos errores
pueden ocurrir simultneamente (Fig. 5.lOd). Otros tipos posibles de error sistemtico se
5 6 7 8 9 10
manifiestan si l~ representacin grfica es una curva (Fig. 5. lOe). Problemas de especiacin Muestra 1 2 3 4
125 205 205 215 240 350
rueden p~oporcl?n~rresulta~ossorprendentes (Fig. 5.1 Of). Este tipo de representacin gr- Resultados EAA 35 75 75 80
120 200 220 200 250 330
Resultados APR 35 70 80 80
'.ca podra sur~lr SI un analito se encuentra en dos formas qumicas distintas, en propor-
ciones que vanan de una muestra a otra. Uno de los mtodos (;:)(lu rf':nrpsf':nhrl" pn ,,1 ,,po (Mannino. S.. Analvst, 1982.107, 1466).
Estos. resultados se representan en una lnea de regresin (vase la Fig. 5.11), con
sistemticos. Incluso si las rectas de regresin son ligeramente curvadas, el coeficiente de
los obtenidos por EAA en el eje x y los que resultaron por APR en el eje y. Usando 1
mtodos de las secciones precedentes puede observarse fcilmente que: os correlacin podra haber sido 1 (vase la Seco 5.3). Es evidente, por 10 tanto, que el clculo
de r tiene menor importancia en el presente contexto que el establecimiento de lmites de
a = 3.87, b = 0.968; r = 0.9945 confianza para la pendiente y ordenada en el origen. En algunos casos puede encontrarse
que el valor de r no es muy prximo al, aun cuando la pendiente y ordenada en el origen
Clculos adicionales muestran que: no sean significativamente diferentes de 1 y Orespectivamente. Tal resultado sugerira una
precisin muy pobre para uno o ambos de los mtodos bajo estudio. Por supuesto la
S)!' = 10.56; s; = 6.64; Sb = 0.0357 precisin de los dos mtodos puede determinarse y compararse por los mtodos de los
captulos 2 y 3. En la prctica es preferible que esto se haga antes de representar la recta
usando valores . de t adecuados para 8 grados de libertad (t = 2 .31) dan de regresin que compara los dos mtodos, la razn de esto se explica posteriormente, El
, . an los si .
os sIgUIentes segundo aspecto es que, si bien es claramente deseable comparar los mtodos en un
lmites de confianza al 95 % para la pendiente y ordenada en el origen:
intervalo de concentraciones tan amplio como sea posible, en la prctica quiz no sea
a = 3.87 15.34 y b = 0.963 0.083 factible obtener muestras reales con concentraciones de analito igualmente espaciadas en
el intervalo. En el ejemplo dado, los jugos de fruta examinados tienden a agruparse con
contenidos en plomo claramente similares, de manera que las muestras que contengan
De e.s~os resultados se. de~~ren?e que la pendiente y ordenada en el origen calculadas
plomo entre ca. 130 y 200 flg/l Y entre 260 y 320 flg/l no se podran estudiar. Tambin
no difieren en forma
. significativa
. " de los valores "ideales" de 1 y O respec tiivamente, y veremos esto ms adelante.
por 10 tanto no existen diferencias sIstemticas entre las dos series de resultados.
Este mtodo, aunque a nivel internacional se ha adoptado prcticamente en estudios
comparativos de mtodos instrumentales, est abierto a serias objeciones tericas por
E~ :~lacin c~n ~ste ej~mplo ~ue.den mencionarse otros dos aspectos. En primer lugar,
la rev'sI~n de la bibliografa de quumca analtica muestra que los autores se preocupan con varias razones. En primer lugar, se ha recalcado a travs de todo este captulo, que la recta
de regresin de y sobre x se calcula bajo el supuesto de que hay errores despreciables en
frecuencia de los ~alores del. coeficiente de correlacin en estudios comparativos; sin
los valores de x y se supone que todos los errores ocurren en la direccin y. Mientras que
embargo, en este ejemplo no Juega un papel directo al establecer si ocurren o no errores
esto es generalmente vlido en la generacin de una grfica de calibracin para un nico
mtodo analtico, no puede justificarse cuando la recta de regresin se usa con propsitos
350 de comparacin. En tal caso se puede tomar como cierto que los errores aleatorios existirn
en ambos mtodos analticos, es decir, en ambas direcciones de x y y. Esto sugerira que
O las ecuaciones utilizadas en el clculo de la propia recta de regresin pudieran no ser
300 vlidas. Sin embargo, ensayos prcticos y simulaciones muestran que la presente aproxi-
~
Ol macin conduce a resultados sorprendentemente fiables, siempre que se cumplan tres
::t
250 O condiciones.
ex::
a.
<t
(/) 1. El mtodo ms preciso se representa en el eje x: Por eso se realizan investigaciones
o 200 preliminares sobre las precisiones de los dos mtodos (vase lo expuesto anteriormente),
'O
s 2. Un nmero razonable de puntos (al menos 10, como en el ejemplo anterior) se
'3
(/) 150 representan en la comparacin. Ya que los lmites de confianza se basan en n - 2 grados
Cll
ex:: de libertad, es importante evitar valores pequeos de n.
100 3. Los puntos experimentales deberan cubrir el intervalo de concentracin de inters
de una manera aproximadamente uniforme: como hemos visto, puede ser difcil que se
cumpla este requisito en estudios comparativos sobre muestras reales.
50
Existe una segunda objecin terica al utilizar la recta de regresin de y sobre x como
se calcul en las secciones 5.4 y 5.5, en la comparacin de dos mtodos analticos. Esta
o 50 100 150 200 250 300 350 recta de regresin no slo supone que los errores en la direccin x son cero, sino tambin
Resultados EAA pgjl. que los errores en los valores de y son constantes, es decir que no varan con la concentra-
cin, y por lo tanto todos los puntos tienen igual ponderacin cuando se calculan la
Figura 5.11 Comparacin de dos mtodo s a!la1',' .1 ',
1 ICOS. a representacin muestra los datos de la pendiente y la ordenada en el origen. Este supuesto probablemente carezca de validez en
pag,93,
la prctica. En muchos anlisis, la desviacin estndar relativa (coeficiente de variacin)
es aproximadamente constante en un intervalo de concentraciones: el error absoluto
aumenta de este modo con la concentracin del analito, en vez de tener el mismo valor en
todas las concentraciones. Por consiguiente las rectas de regresin "no ponderadas" tienen
tambin una validez muy cuestionable en otras situaciones, es decir, cuando se aplican a Seal
grficas de calibracin para un nico procedimiento analtico. En principio, se deberan
utilizar en su lugar rectas de regresin ponderadas. Este concepto se desarrolla en la
siguiente seccin. Mientras tanto, puede reafirmarse que, a pesar de las objeciones tericas,
las rectas de regresin no ponderadas proporcionan informacin til en estudios compara-
tivos si se cumplen los requerimientos enunciados anteriormente.
Los comentarios hechos en las seccciones anteriores sobre clculos de regresin conven-
cionales o no ponderados indican que los ponderados quizs deberan adoptarse ms
frecuentemente. Los clculos que conllevan la utilizacin de los mtodos de regresin
ponderados son slo un poco ms complicados que los de las secciones anteriores, y pueden
realizarse fcilmente en un microcomputador, pero requieren informacin adicional de los
errores que surgen en los diferentes niveles de concentracin, o al menos la formulacin
de supuestos adicionales acerca de tales errores. Esto explica quizs por que los clculos de
regresin no ponderada se usan con menos frecuencia. En esta seccin se esbozan las
aplicaciones de los mtodos de regresin ponderada. Se supone que la recta de regresin
ponderada se utiliza para la determinacin de un nico analito y no para comparar dos
Concentracin
mtodos separados.
Consideremos con ms detalle la simple situacin que surge cuando el error en el Figura 5.12 La ponderacin de errores en un clculo de regresin.
clculo de una regresin es aproximadamente proporcional a la concentracin del analito.
Cuando los errores en los diferentes puntos de la grfica de calibracin se expresan por
"barras de error" (vase la Fig. S.12), stas se alargan a medida que aumenta la concentra- y
cin. En este caso es evidente que debe calcularse la recta de regresin para dar una pon- (S.1S)
deracin adicional a aquellos puntos donde las barras de error son ms cortas: es ms
a = Yw - ss;
importante que la recta calculada pase cerca de tales puntos que de los que representan con- x- y Y- w representan las coordenadas del centro de gravedad
in (S . IS) ,w
centraciones ms altas con los errores ms grandes. Este resultado se logra cuando se da a E n la ecuacto
ponderado (x w,Yw) por el que debe pasar la recta de regresin ponderada. Estas coordenadas
cada punto una ponderacin inversamente proporcional a la varianza correspondiente, s2;
este procedimiento lgico es de aplicacin general. As, si los puntos individuales se de-
estn dadas por: Xw= L wx;/n y Yw = L, wy;/n.
notan con (x" YI), (X2, Y2), etc., como es habitual, y las correspondientes desviaciones es-
tndar son SI, S" etc., entonces las ponderaciones individuales, W, W, etc., estn dadas por: Ejemplo. Calcule las rectas de regresin ponderada y no ponderada.~ara los siguientes
datos de calibracin. Calcule tambin para cada recta la concentraclOn de las muestras
(S. 13) problema con absorbancias de 0.100 y 0.600.
8 10
Como se ver las ponderaciones se han puesto en una escala de tal manera que su suma Concentracin, flg/ml o 2 4 6
0.158 0.301 0.472 0.577 0.739
sea igual al nmero de puntos sobre la representacin grfica: esto simplifica los subsi- Absorbancia 0.009
0.004 0.010 0.013 0.017 0.022
guientes clculos. La pendiente y la ordenada en el origen de la recta de regresin estn Desviacin estndar 0.001
dadas por:
La aplicacin de las ecuaciones (S.4) y (S.S) muestra que la ~endiente y la ordenada en
L w,xy, - nxwy.. el origen de la recta de regresin /10 ponderada son r~spectlvamente O.072S y 0.0133.
b = ----::----::-- (5.14) Las concentraciones correspondientes a las absorbancias 0.100 Y0.600 son 1.20 y 8.09
L, w,x - nx~ J1gJml respectivamente.
La recta de regresin ponderada es un poco ms tediosa en cuanto a su calculo: en mtodo de regresin ponderada proporciona resultados mucho ms reales. En la seccin
a.usencia de un programa de computador es habitual establecer una tabla como la que 5.6 utilizamos la ecuacin (5.9) para estimar la desviacin estndar (sx) y por lo tanto los
sigue. intervalos de confianza de una concentracin calculada usando un solo valor de y y una
recta de regresin no ponderada. Al aplicar esta ecuacin a los datos del ejemplo anterior
Xi Yi Si l/sr W W,X , WY ~~ Wxr vemos que los lmites de confianza no ponderados para las soluciones con absorbancias de
o 0.009 0.001 1000000 5.535 o 0.0498 o
~~-'--
o 0.100 y 0.600 son 1.20 0.65 y 8.09 0.63 Ilg}ml respectivamente. Como en el ejemplo
2 0.158 0.004 62500 0.346 0.692 0.0547 de la seccin 5.6, estos intervalos de confianza son muy similares. Sin embargo, en el
0.1093 1.384
4 0.301 omo 10000 0.055 0.220 0.0166 0.0662 0.880 ejemplo presente tal resultado no es completamente real; los datos experimentales muestran
6 0.472 0.013 5917 0.033 0.198 0.0156 0.0935 1.188 que los errores de los valores y observados, aumentan a medida que aumentan los propios
8 0.577 0.017 3460 0.019 0.152 0.0110 0.0877 1.216
10 0.739 0.022 2066 0.011 0.110 O.OOSI
valores de y; es la situacin esperada para un mtodo que tenga una desviacin estndar
O,()813 1.100
SUMAS: 1083943 5.999 1.372 0.1558 0.4380 5.768 relativa aproximadamente constante. Podramos esperar que este incremento en Si con el
de y tambin se reflejara en los lmites de confianza de las concentraciones determinadas:
--~_._~---
De estos nmeros queda claro que Yw ~ 0.1558/6 = 0.0260 Y X W = 1.372/6 = 0.229. los lmites de confianza para la solucin con una absorbancia de 0.600 seran mucho ms
Mediante la ecuacin (5.14), b se calcula a partir de grandes (es decir, peores) que los de la solucin con una absorbancia de 0.100.
En los clculos de regresin ponderados, la desviacin estndar (sxw) de una concen-
b = 0.43R - (6 x 0.22<) x 0.(26) _ tracin prevista est dada por:
5.76R - [6 x (0.22<)2] - O.073R
de manera que a est dado por 0.0260 - (0.073 x 0.229) = 0.0091. (5.16)
~stos valores para a y b pueden utilizarse para mostrar que los valores de absor-
~ancla de 0.100 y 0.600 corresponden a concentraciones de 1.23 y 8.0 I Ilg/ ml respec-
tivamente. En esta ecuacin, s(y/x)w est dada por:
15
Intensidad de fluorescencia 0.1 8.0 15.7 24.2 31.5 33.0
Concentracin, flg/ml O 2 4 6 8 10 10
El anlisis de los datos muestra que la parte de la grfica prxima al origen se adapta
bastante bien a una lnea recta con una ordenada en el origen prxima a cero y una 5
pendiente cercana a 4. La fluorescencia de la solucin estndar de 10 JgJml es
claramente inferior a la esperada si se tiene en cuenta estas bases, y existe alguna
posibilidad de que la desviacin de la linealidad afecte tambin a la fluorescencia o 2 4 6 8 10
estndar de 8 JgJml. En primer lugar, se aplican clculos de regresin lineal (no
concentracin, ,ug/ml
ponderada) a todos los datos; de la aplicacin de los mtodos de las secciones 5.3 y 5.4
se obtienen resultados a = 1.357, b= 3.479 Y r = 0.9878. De nuevo tenga en cuenta que Figura 5.14 Regresin curvilnea: identificacin del intervalo lineal. Los datos usados son los de
el valor alto de r puede ser engaoso, aunque se pueda utilizar en un sentido compara- la pg. 116; se muestran las rectas de regresin no ponde~adas a travs de t~dos los puntos ( __ ),
tivo (vase ms adelante). En este caso los residuos de y son -1.257, -0.314, +0.429, a travs de los cinco primeros puntos (- - -), y a traves de los cuatro pnmeros puntos (....).
+1.971, +2.314, y -3.143, Yla suma de los cuadrados de los residuos es igual a 20.981.
La tendencia de los valores de los residuos sugiere que el ltimo valor de la tabla est cuadrados de 0.14. Con esta lnea de calibracin el residuo de y para la solucin de 8
probablemente fuera del intervalo lineal. Jg/ml es -0.5: este valor es ms grande que los otros residuos pero no en una .canti?ad
Esta sospecha se confirma aplicando las ecuaciones de regresin lineal slo a los significativa. De este modo podemos concluir que es razonablemente seguro incluir el
cinco primeros puntos, resultando a ~ 0.100, b = 3.950 Y r = 0.9998. La pendiente y la punto (8, 31.5) dentro del intervalo lineal del mtodo. Al tomar una decisin marginal
ordenada en el origen estn mucho ms cerca de los valores esperados para la parte de de este tipo, el qumico analtico tendr en cuenta la exactitud requerida en sus
la grfica ms prxima al origen, y el valor de r es mayor que el primer clculo. Los resultados y el valor reducido de un mtodo para el cual el intervalo de calibracin es
residuos de los primeros cinco puntos de esta segunda ecuacin de regresin son O, O, muy corto. Los clculos descritos anteriormente se resumen en la figura 5.14.
-0.2, +0.4 y -0.2, con una suma de cuadrados de slo 0.24. El uso de la segunda
ecuacin de regresin muestra que la fluorescencia esperada de un patrn de lOJg/ml Una vez que se ha tomado la decisin de que una serie de puntos de calibracin no se
es 39.6, es decir, el residuo es -6.6. El uso de la prueba t (Cap. 3) mostrara que este ajustan satisfactoriamente a una lnea recta, el analista puede jugar otra carta antes de
ltimo residuo es significativamente ms grande que el promedio de los otros: en forma resignarse a los complejos clculos de regresin curvilnea. Puede ser capaz de transfor-
alternativa se podra aplicar una prueba (Sec. 3.6) para demostrar que es un "residuo mar los datos de manera que una relacin no lineal cambie a una lineal. Un mtodo
anmalo" entre los residuos. En este ejemplo, los clculos, aunque tediosos, son particularmente comn es representar lag y y/o lag x en vez de yo x. ~sto genera r~laciones
necesarios: el gran residuo del ltimo punto, unido con los residuos muy bajos de los lineales de curvas originales de la forma y = px". Tales transformaciones se aplican muy
otros cinco puntos y una suma de cuadrados enormemente reducida, confirma que el regularmente a los resultados de ciertos mtodos, por ejemplo inmunoensayos. Es impor-
intervalo lineal del mtodo no llega ms all de 10 Jg/ml. tante sealar que la transformacin puede afectar tambin a la naturaleza de los errores en
Despus de establecer que el ltimo punto puede excluirse del intervalo lineal, los diferentes puntos de la grfica de calibracin. Suponga que en una serie de mediciones
podemos repetir el proceso para estudiar el punto (8, 31.5). Podemos realizarlo de la forma y ~ px", las magnitudes de los errores aleatorios en y son independientes de x;
calculando la recta de regresin slo para los primeros cuatro puntos de la tabla, con la transformacin de los datos en forma lineal al tomar logaritmos generar datos cuyos
los resultados a = O, b = 4.00, r ~ 0.9998. El valor del coeficiente de correlacin sugiere errores en lag y l/O son independientes de los x. En este caso, y en cualquier otro donde la
que esta lnea se ajusta tan bien a los puntos como la anterior, en la cual se usaban cinco forma esperada de la ecuacin se conozca a partir de consideraciones tericas o de
puntos. Los residuos de este tercer clculo son +0.1, O, -0.3, y +0.2, con una suma de experiencia de mucho tiempo, es posible aplicar ecuaciones de regresin ponderadas
(vase la Seco 5.10) a los datos transformados. Se puede demostrar que, si los datos de la la actualidad con notable xito a travs de la aplicacin de funciones a trozos (splines).
forma general y ~ (x) se transforman en una ecuacin lineal Y = BX -i- A, el factor de En la prctica, se usan ms las splines cbicas, de manera que la aproximacin consiste
ponderacin, W, utilizado en las ecuaciones (5.14) a (5.17) se obtiene de la relacin: en ajustar una curva mediante una serie de ecuaciones cbicas. Estas "partes" cbicas estn
unidas en p puntos llamados "nudos", y es esencial que las dos primeras derivadas de los
W = (1/ [dY /dy ] )2
(5.18) dos trozos coincidentes en cada nudo sean iguales. As pues, una spline cbica completa
tiene (p - 1) trozos o segmentos, cada uno con cuatro coeficientes (es decir, de la forma y
En este ejemplo, y = px', de manera que Y = In y, y d}'; /dy = d In y /dy = l/y. As, ~ a + bx + er + dx 3) . Es necesario calcular (p - 1) (111 + 1) coeficientes donde 111 sea el orden
w, = jf. Desafortunadamente, no existen muchos casos de qumica analtica donde la forma del polinomio, tres en este caso. Las estrategias utilizadas en estos clculos son demasiado
matemtica exacta de una ecuacin de regresin no lineal se conozca con certeza, de modo complejas para que las consideremos aqu, pero es notable que se hayan apl icado con xito
que esta aproximacin tiene un valor restringido. funciones de spline a ensayos de competencia obligatoria como radioinmunoensayos, a
T~mbin debera considerarse que, en contraste con la situacin descrita en el prrafo espectrometra de emisin atmica, y a experimentos de cromatografa gas-lquido.
antenor, los resultados se pueden transformar para generar datos que podran tratarse por Si la curvatura de la grfica de regresin no es demasiado severa, y si los puntos de
mtodos no ponderados. Datos de la forma y = bx, con errores en la direccin y claramente calibracin no estn demasiado separados (condiciones usualmente satisfechas en trabajos
dependientes de x estn sujetos algunas veces a transformaciones lag-lag: los errores en analticos prcticos), puede usarse un mtodo sencillo, aunque aproximado, en lugar de la
lag y tienen entonces una variacin sensiblemente menor con lag x, de manera que los datos aproximacin compleja del ajuste de curvas. Esto conlleva el trazo de una lnea recta entre
transformados se pueden estudiar mediante ecuaciones de regresin no ponderadas. cada par de puntos y el clculo de concentraciones utilizando la interpolacin lineal, es
Si una simple transformacin algebraica no puede convertir los datos experimentales decir, la curva se trata como una serie de segmentos cortos y rectos. Este mtodo no
en fo~a l~n.eal, ser necesario ajustar una curva al conjunto de puntos de calibracin, y proporciona, por supuesto, lmites de confianza para las concentraciones calculadas, pero
despues utilizar esta curva para determinar la concentracin de muestras problema. El su sencillez lo hace muy atractivo y los errores sistemticos son, a menudo, sorprendente-
ajuste de una c.urva p~ede ser un proceso iterativo complejo, en el cual los programas de mente pequeos. Este punto se aclara en uno de los ejercicios al final del captulo.
computadores interactivos que muestren los resultados de las iteraciones sucesivas sern
de gran ayuda para el analista. Una estrategia frecuente es tratar de ajustar una curva de
expresin general y = a + bx + ex 2 + dx' + ... , es decir, un polinomio en x. El xito BIBLIOGRAFA
del proceso de ajuste a una curva puede valorarse, precisamente como en los clculos de
regresin lineal, mediante el mtodo de los mnimos cuadrados, el programa del compu- Aeton, F. S., Analysis of Straight Line Data, Nueva York,Dover, 1966. Un tratamiento general bien
tador buscar la curva que minimice la suma de los cuadrados de los residuos de y. Se escrito y extenso, con abundancia de ejemplos, incluyendo algunos de qumica. A pesar de su ttulo,
dispone de mtod.os no linea.les ponderados, con un inevitable incremento en la compleji- tambin hace referencia a la regresin curvilnea.
dad. Todos los mtodos de ajuste de curvas deben aplicarse con sentido comn, si se tiene Caulcutt, R. y Boddy, R., Statistics for Analytical Chemists, Londres, Chapman & Hall, 1983. Una
n puntos en la grfica de calibracin, el polinomio de orden ms alto que puede utilizarse aproximacin totalmente pragmtica, falto de teora estadstica, pero lleno de ejemplos de sentido
comn. Orientado hacia la qumica analtica industrial.
es el d~ orden (n - 1.). En general, se adoptar el polinomio de orden ms bajo que
proporciona un buen ajuste, y frecuentemente ser satisfactoria una ecuacin cuadrtica o Davies, O. L. y Ooldsmith, P. L., Statistical Methods in Researeh and Production, Londres,
Longmans, 1982. Un tratamiento bastante completo de los mtodos de regresin y correlacin, que
cbica. Es muy importante sealar, sin embargo, que las curvas de calibracin encontradas pone un considerable nfasis sobre conceptos avanzados tales como regresin curvilnea y problemas
en la prctica se obtienen a menudo de la superposicin de dos o ms fenmenos fsicos. de regresin mltiple.
En tll~orimetra, por ejemplo, las representaciones seal contra concentracin pueden ser Draper, N. R. y Smith, H., Applied RegressionA nalysis, Nueva York,Wiley, 1966. Un trabajo clsico
aproximadamsnre lineales en solucin muy diluida, pero a altas concentraciones exhibirn en este campo, con una cobertura de mximo alcance.
curvatura debido a (a) el tipo de ptica utilizada y (b) la falla de supuestos algebraicos Kaiser, H. y Menzies, A. c., The Limit of Detection of a Complete Analytical Procedure, Londres,
s~bre los que se pronostique una representacin lineal. Los efectos (a) y (b) son indepen- Hilger, 1968. Una interesante discusin sobre limites de deteccin.
dientes, de manera que pueden aparecer en la prctica muchas curvas de diferente forma. Snedecor, O. W. y Cochran, W. O., Statistical Methods, Iowa State University, 1967. Aporta una
(Por razones de este tipo las curvas de forma conocida y pronosticable rara vez se excelente cantidad de procedimientos de regresin y correlacin.
encuentran. en el trabajo analtico, vase 10 anterior). Esto es tan importante que las Liteanu, C. y Rica, 1., Statistical Theory and Methodology ofTrace Analysis, Chichester, Horwood,
representacIOnes de regresin no lineales no sonjams extrapolables ms all de las regio- 1980. Amplia cobertura de mtodos de anlisis de trazas.
nes exploradas realmente en el proceso de ajuste de la curva.
Si las grficas de calibracin no lineal son de hecho el resultado de la superposicin de
dos o. ms procesos fsico-qumicos, parace oportuno sugerir que no debemos esperar EJERCICIOS
eC~Iaclones algebraicas sencillas que ajusten los puntos de calibracin con plena satisfac-
Clono Por qu no intentar ajustar los puntos de una curva que conste de varias secciones
1. En un laboratorio provisto de equipo polarogrfico se tomaron seis muestras de polvo a varias
distancias del polargrafo y se determin el contenido de mercurio de cada muestra. Se
unidas con diferente forma matemtica? Esta es exactamente la aproximacin utilizada'en obtuvieron los siguientes resultados.
Distancia al polargrafo, m: 1.4 3.8 7.5 10.2 11.7 15.0 8. Una determinacin con un electrodo selectivo de iones (ES!) del sulfato procedente de sulfato
Concentracin de mercurio, ng/g: 2.4 2.5 1.3 1.3 0.7 1.2 reducido por bacterias se compar con una determinacin gravimtrica. Los resultados obteni-
dos se expresaron en miligramos de sulfuro.
Examine la posibilidad de que la contaminacin de mercurio surja del polargrafo.
Muestra: 123 4 5 6 7 8 9 10
2. La respuesta dc un ensayo colorimtrico para glucosa (GLU) se control con la ayuda de Mtodo ESI: 108 12 152 3 106 11 128 12 160 128
soluciones estndar de glucosa. Determine el coeficiente de correlacin a partir de los siguientes Gravimetra: 105 16 113 O 108 11 141 11 182 118
datos, y comente los resultados.
Comente la conveniencia del mtodo ESI para esta determinacin de sulfuro. (Al-Hitti, 1. K.,
Concentracin de GLU, mM: o 2 4 6 8 10 Moody, G. 1. YThomas, 1. D. R., Analyst, 1983,108,43.)
Absorbancia 0.002 0.150 0.294 0.434 0.570 0.704
9. En la determinacin de plomo en solucin acuosa por espectrometra de absorcin atmica con
3. Se obtuvieron los siguientes resultados cuando se analizaron una serie de soluciones estndar atomizacin en cmara de grafito, se obtuvieron los siguientes resultados.
de plata por cspcctromctria de absorcin atmica de llama.
Concentracin de plomo, ng/ml: 10 25 50 100 200 300
Concentracin ngjml: o 5 10 15 20 25 30 Absorbancia: 0.05 0.17 0.32 0.60 1.07 1.40
Absorbancia: 0.003 0.127 0.251 0.390 0.498 0.625 0.763
Examine el intervalo de calibracin lineal de este experimento. (Basado en Giri, S.K., Shields,
Determine la pendiente y la ordenada en el origen de la grfica de calibracin, junto con sus c.x., Littlejohn, D. y Ottaway, J.M., Analyst, 1983,108,244.)
limites de confianza.
10. En un anlisis instrumental se obtuvieron los siguientes datos (unidades arbitrarias).
4 Utilizando los datos del ejercicio 3, estime los limites de confianza para las concentraciones de
plata en: (a) una muestra que proporciona una absorbancia de 0.308, 0.314, 0.347 Y 0.312 en Concentracin: o 1 2 3 4 5 6 7 8 9 10
cuatro anlisis separados. Seal: 0.2 3.6 7.5 11.5 15.0 17.0 20.4 22.7 25.9 27.6 30.2
5. Estime el limite de deteccin del anlisis de plata de los datos del ejercicio 3. Trace la grfica de calibracin, y compare las concentraciones correspondientes a las seales
de 5, 16 Y 27 unidades, (a) ajustando una lnea recta a los puntos, (b) ajustando la curva y = 4x
6 El contenido de oro de una muestra de agua de mar concentrada se determin por espectrometra _ 0.lx2, (c) tratando la curva como una serie de segmentos lineales entre (Xl, YI) Y (X2, Y2), (X2,
de absorcin atomica mediante el mtodo de las adiciones estndar. Los resultados obtenidos Y2) y (X3, Y3), etc., y (d) tratando la curva como una serie de segmentos lineales utilizando slo
fueron los siguientes. puntos (Xl, Yl), (X3, Y3), (X5, Y5), etctera.
Estime la concentracin del oro en la muestra de agua de mar, y determine los lmites de
confianza para esta concentracin.
La 0uorescencia de una serie de soluciones cidas de quinina fue determinada 5 veces; los
resultados se exponen a continuacin:
Concentracin, ngjml: O 10 20 30 40 50
Intensidad de fluorescencia: 4 22 44 60 75 104
(unidades arbitrarias) 3 20 46 63 81 109
4 21 45 60 79 107
5 22 44 63 78 101
4 21 44 63 77 105
Ejemplo. Determine la media y la mediana para los cuatro valores siguientes de una
titulacin.
61 INTRODUCCIN
25.01 25.04 25.06 25.21 ml
Este capitulo describe una serie de mtodos estadsticos tiles que difieren en un aspecto
importante de los discutidos hasta ahora. Todas las pruebas desarrolladas en los captulos Es fcil calcular que la media de de estas cuatro observaciones es de 25.08 ml y que la
anteriores suponen que los datos que se analizan siguen la distribucin normal (Gaussiana). mediana es de 25.05 ml -en este caso es el promedio del segundo y tercer valores, ya
La validez ele esta hiptesis se basa en el teorema del lmite central (vase el Cap. 2), que que las medidas estn ordenadas numricamente. La media es mayor que cualquiera
demuestra que la distribucin muestral de la media puede ser aproximadamente normal de los tres valores ms prximos entre s (25.01, 25.04 Y 25.06 rnl) y de este modo
aunque la poblacin de referencia tenga una distribucin muy diferente: la aproximacin puede ser una medida de tendencia central menos realista que la mediana. En lugar de
mejora a medida que el tamao de la muestra aumenta. calcular la mediana podramos utilizar los mtodos del captulo 3 para probar el valor
Sin embargo, existen varias razones por las cuales deberamos estar interesados en 25.21 como un posible resultado anmalo, y determinar la media de acuerdo con el
mtodos que no requieran tal hiptesis. En primer lugar, algunos conjuntos de datos que resultado obtenido, pero esta aproximacin implica clculos extras y supone que los
interesan a los qumicos analticos no se distribuyen normalmente. Por ejemplo (vase el datos proceden de una distribucin normal.
Clp. 2). las concentraciones de anticuerpos en el suero sanguneo de un grupo de personas
diferentes puede expresarse aproximadamente como una distribucin lag-normal: dichos Este simple ejemplo ilustra una propiedad valiosa de la mediana: sta no se ve afectada
resultados no son en absoluto infrecuentes cuando se realiza una medicin concreta sobre por los resultados extremos o anmalos. Los lmites de confianza (vase el Cap. 2) para la
cada elemento de un grupo humano o de animales. En segundo lugar, en muchos experi- mediana se pueden estimar con la ayuda de la distribucin binomial. Este clculo puede
mentos utilizamos de hecho muestras pequeas de datos (p. ej. slo 3 4 titulaciones en
donde "e indica el nmero de combinaciones de r elementos de un total de 11 elementos Utilizando mtodos para mtricos , sera posible elaborar una grfica de regresin lineal
P es la. ~robabilidad de que aparezca un signo menos en uno de los resultados y q es 1; de tales datos y contrastar si su pendiente difiere significativamente de cero (vase el
probabilIdad de que no aparezca un signo menos en uno de los resultados, es decir, q = 1 Cap. 5). Tal aproximacin supondra que los errores se distribuyen normalmente y que
- p ', ~a que la ~ediana se define de manera que la mitad de los resultados experimentales cualquier tendencia que apareciese sera del tipo lineal. La aproximacin no pararn-
se sita por encuna de ella y la otra mitad por debajo, queda claro que si la mediana es 8.0 trica es de nuevo ms simple. Los datos se dividen en dos grupos iguales de la siguiente
en este caso~ entonces p y q deberan ser~. Utilizando la ecuacin (6.1) encontramos que forma:
P(6) ~ 7C~ (:i)6 ~ 2 ~ 7/128. De manera similar podemos calcular que la probabilidad de
obtener siete signos menos, P(7), es 1/128. Por lo tanto, en general la probabilidad 5.8 7.3 4.9 6.1 5.5
de obtener seis o ms signos negativos en nuestro experimento es 8/128. La cuestin slo 5.5 6.0 4.9 6.0 5.0
c?n~iste en saber si los datos difieren significativamente de la mediana postulada. Por con-
siguiente, debemos realizar una prueba de dos colas (vase el Cap. 3), es decir, debemos Al resultado del primer da se le resta el del sexto da, al del segundo da el del sptimo,
c~lcular la probabilidad de obtener 6 o ms signos idnticos (o sea, ~ 6 signos ms o ~ 6 etc. Los signos de las diferencias entre los pares de valores en las cinco columnas se
signos menos), cuando se toman al azar siete resultados. Esto es claramente 16/128 = 0.125. determinan de esta manera y son +, +, O, +, +. Como es habitual, el valor O se ignora,
Lll~~O comparamos esta cifra con 0.05, es decir, realizamos la prueba al nivel de signifi- y quedan cuatro resultados, todos ellos positivos. La probabilidad de obtener cuatro
cacion ?el 5%. Puesto que el valor experimental es mayor que 0.05, nuestra hiptesis nula signos idnticos en cuatro pruebas es claramente 2 x (1/16) = 0.125. (Observe que
(es decir, que los datos proceden de una poblacin de mediana 8.0) no se puede rechazar. nuevamente se utiliza una prueba de dos colas, ya que la tendencia en el nivel
Igual que en el captulo 3, es importante observar que no se ha probado que los datos de hormona podra ser ascendente o descendente.) La hiptesis nula, de que no existe
proceden de tal poblacin; slo se ha probado que tal hiptesis no se puede rechazar. ninguna tendencia en los resultados, no se puede rechazar en esta forma al nivel de
Qu.eda claro a partir de este ejemplo que la prueba de signos conllevar al uso frecuente significacin del 5%.
'le la d trib .. bi . I
,. IS n ucion unonua con p = q = 2. Esta aproximacin es tan comn en la estadstica
',lO parall1~trica que la mayora de las tablas estadsticas incluyen los datos necesarios, lo El lector crtico puede encontrar este resultado bastante insatisfactorio. Si se observan
cual permite que tales clculos se realicen instantneamente (vase la tabla A.7). Adems, los datos, es difcil resistirse a la conclusin de que, a pesar de los resultados de la prueba
de signos, hay de hecho una tendencia descendente en los resultados. Por ejemplo, la que se puedan dividir o convertir en slo dos categoras. Supongamos, por ejemplo, que
media de los tres primeros resultados es 6.00, la de los cuatro siguientes es 5.78, y la de se dispone de los tiempos de funcionamiento de doce lmparas que se han ido colocando
los tres ltimos es 5.30. Esta aparente discrepancia en parte es una consecuencia de la sucesivamente en un espectrmetro como fuentes de luz y que son 450, 420, 500, 405, 390,
filosofia del contraste de hiptesis: no podernos rechazar la hiptesis de que no existe 370, 380, 395, 370', 370, 420, Y 430 horas. El tiempo de vida mediano, es en este caso el
tendencia en los resultados, pero esto no significa que tal tendencia deba necesariamente promedio de los tiempos de funcionamiento de las lmparas sexta y sptima cuando los
estar ausente. Sin embargo, el ejemplo indica tambin que por la extrema sencillez de la datos estn dispuestos en orden creciente, es de 400 horas. Si a todas aquellas lmparas
prueba de los signos se pierde cierta potencia estadstica. La prueba no utiliza toda con tiempos de funcionamiento menores, que el mediano se les asigna un signo -, y a todas
la informacin ofrecida por los datos, por eso no es sorprendente encontrar que tambin aquella con tiempos de vida superiores se les asigna un signo +, entonces resulta la siguiente
proporciona menos informacin discriminante. En secciones posteriores se analizarn frecuencia + + + + - - - - - - + +. sta es la misma secuencia que la del ejemplo de
mtodos no para mtricos que utilizan las magnitudes de los resultados individuales as regresin anterior, y se demuestra de la misma manera que es significativamente no
como sus signos.
aleatoria. En este caso, las variaciones significativas que se producen en los tiempos de
funcionamiento se podran explicar porque las lmparas proceden de diferentes fabricantes
o de diferentes lotes.
6.4 LA PRUEBA DE RACHAS DE WALD-WOLFOWITZ
Tambin es importante resaltar que puede incomodamos mucho el tratar con nme-
ros inusualmente grandes de rachas cortas, as como con nmeros inusualmente peque-
En algunos casos puede interesarnos no slo si las observaciones generan signos positivos os de rachas largas. As pues, si se dan 6 signos + y 6 signos - en el orden + - + - + - +
o negativos, sino tambin si stos aparecen en una secuencia aleatoria. En la seccin 5.11, - + - + -, podramos sospechar que existe una secuencia no aleatoria. La tabla A.8 muestra
por ejemplo, se demostr que s una linea recta es un buen ajuste a una serie de puntos de que, con N = M = 6, un total de 11 12 rachas indica que la hiptesis nula de un orden
calibr.icion , los residuos positivos o negativos ocurrirn ms o menos al azar. Por el aleatorio se debera rechazar y sospechar una cierta periodicidad en los datos.
contrario, a] intentar ajustar una linea recta a un conjunto de puntos que realmente se sitan
en una linea curva resultaran secuencias no aleatorias de signos positivos o negativos;
podra s~~r, por ejemplo, una secuencia de signos +, seguida de una de signos _, y luego 6.5 PRUEBAS BASADAS EN EL RECORRIDO DE LOS RESULTADOS
otr,: de SI.2nos +. Dichas secuencias se conocen tcnicamente como rachas -el significado
utilizado aqu es el mismo que cuando alguien se refiere a "una racha de mala suerte", o En los captulos anteriores la desviacin estndar se ha utilizado como la medida de
cuando un deportista experimenta "una racha de malos resultados". En el caso del ajuste
dispersin o "variabilidad" ms comn de un conjunto de resultados. En estadistica no
de curvas, queda claro que una secuencia no aleatoria de signos + y - conducir a un nmero paramtrica se utiliza frecuentemente el recorrido intercuartlico (vase la Seco 6.1) como
ms pequeo de rachas que una aleatoria. El mtodo de Wald-Wolfowitz prueba si el
una medida de dispersin. Adems varias pruebas muy tiles se basan en el recorrido
numero de rachas es suficientemente pequeo para que se rechace la hiptesis nula de una completo wde la muestra, es decir, la diferencia entre el valor ms grande y el ms pequeo.
distribucin aleatoria de los signos. El nmero de rachas en los datos experimentales se Es evidente que w ser ms fcil de calcular que el recorrido intercuartlico, y de hecho los
c,ompara con los nmeros de la tabla A.S, que se presentan al nivel de significacin del 5%. clculos de la mayora de las pruebas descritas en esta seccin se pueden realizar mental-
f~n esta tabla s~ entra uti,l.izando los valores apropiados de N, el nmero de signos +, y M, mente. No obstante, debe recalcarse que aunque estas pruebas son rpidas, no son no
e, numero de signos -. SI el nmero experimental de rachas es ms pequeo que el valor paramtricas: por ejemplo los clculos utilizan la media aritmtica de la muestra y no la
:;:lmlado, entonces se puede rechazar la hiptesis nula.
mediana.
En lugar de las dos aplicaciones elementales de la prueba se pueden utilizar pruebas
Ejelll~lo. Para ajustar una recta a un conjunto de 12 puntos de calibracin se proponen simples de recorridos. En la seccin 3.2 se describi el uso de las prueba t para comparar
ecuaciones de re~resin lineal. Los signos de los residuos resultantes ordenados por una media experimental con un valor conocido o estndar. En lugar de esta prueba el
valores de x crecientes son: + + + + - -- - - - - + +. Comente si sera mejor intentar estadistico Ti se puede calcular a partir de la ecuacin
ajustar una curva a los puntos.
Aqu es evidente que N = M = 6, Y que el nmero de rachas es 3. La tabla A.8
Ti = Ix - VI/w (6.2)
muestra que, al nivel ele significacin del 5%, el nmero de rachas debe ser <4 si se
rechaza la hiptesis nula. As, en este caso, podemos rechazar la hiptesis nula y donde x es la media y Vel valor estndar.
concluir que la secuencia de signos + y - no es aleatoria. Por lo tanto resulta poco
satisfactorio intentar ajustar una linea recta a los puntos experimentales, y en su luaar Ejemplo. En una mtodo de determinacin de mercurio por espectrornetra de absorcin
se propone IlIld grificd de regresin curvihnea. b
atmica de vapor fro se obtuvieron los siguientes valores para un material estndar
que contena el 38.9% de mercurio:
Existen otros dos plintos de inters en relacin con la prueba de Wald- Wolfowtz. El
l\r"".,." es que merece la pella observar que se puede utilizar con cualesquiera resultados
38.9,37.4 37.1 %
(Hou, P K., Lau, O. W. y Wong, M. c., Aualyst, 1983, 108, 64.) Ya se utiliz el recorrido en otra prueba descrita en el captulo 3 (vase la seccin 3.6),
la prueba Q para resultados anmalos. Entonces se demostr que el valor experimental de
Existe alguna evidencia de error sistemtico? Observe que este ejemplo es el mismo Q [dado por (valor sospechoso) - (valor ms prximojl jrecorrido] se puede comparar con
que el de la seccin 3.2.
un conjunto de valores tabulados (tabla AA) para establecer si una medicin sospechosa
Es evidente que la media, x, en este caso es 37.8 %, y el recorrido, w, es 1.8 %. El podra ser candidata al rechazo. Se puede demostar que una forma ms simple, pero
valor de Ti es, por tanto, [ecuacin (6.2)] 137.8 - 38.91/1.8 = 0.611. Este valor se aproximada de esta prueba, prescinde de tablas. Un resultado anmalo se puede rechazar
compara con el de la tabla A.9, para n ~ 3 Y P ~ 0.05. El valor tabulado es 1.304: ya al nivel de significacin P ~ 0.05 si Q > -/(2jn) , y al nivel P ~ 0.01 si Q > -/(3/11) , c1onc1e
que el valor experimental es ms pequeo no podemos rechazar la hiptesis nula, o n es el nmero de mediciones incluyendo aquella que es aparentemente anmala.
sea, que los datos experimentales podran venir de una poblacin con un valor medio Esta prueba sirve para recordar que los mtodos de recorridos presentan la gran
de 38.9% de mercurio. Este resultado -que al nivel de significacin del 5% manifiesta desventaja de verse muy afectados por uno o ms resultados anmalos. En contraposicin,
ausencia de error sistemtico- es el mismo que el obtenido en la seccin 3.2 mediante los mtodos verdaderamente no paramtricos son por lo general inmunes a tales resulta-
la prueba t, aunque los clculos en este caso se realizan obviamente con mayor facili- c1os. Las pruebas de recorrido poseen otra desventaja: tienen menos potencia estadstica
dad. Hay que agregar que la prueba Ti puede utilizarse tambin para estimar lmites que los mtodos correspondientes decritos en el captulo 3. Debido a que las pruebas de
de confianza; en este caso los limites de confianza estarn dados por x (1.304 x 1.8) recorrido no utilizan todos los datos disponibles, habr casos en los que una prueba F, por
~ 37.8 2.]% (un recorrido que, como se esperaba, incluye el 38.9%). ejemplo, indique que la hiptesis nula apropiada pueda ser rechazada, pero su alternativa
ms simple, el sustituto de la prueba F, indique que la hiptesis nula debera ser aceptada.
Una prueba muy similar puede utilizarse en vez de la prueba t en la comparacin de La popularidad de las pruebas de recorrido indica que la simplicidad en los clculos es una
dos valores medios. Si se compara Ull conjunto de datos de media X y recorrido w con un compensacin ms que suficiente a todos estos problemas.
segundo conjunto de datos con el mismo valor de n y de media X2 y recorrido W2
respccti vamente, el estadstico T d se calcula a partir de la expresin:
6.6 LA PRUEBA DE RANGOS Y SIGNOS DE WILCOXON
(6.3)
La seccin 6.3 describa el uso de la prueba de signos. Su importancia reside en los
Como es habitual, si el valor experimental de T es menor que el valor tabulado (vase la supuestos mnimos que se hacen sobre los datos experimentales. No se supone que la
tabla 1\.10), entonces se acepta la hiptesis nula de igualdad entre las dos medias muestra- poblacin de la cual se toma la muestra sea normal, ni incluso que sea simtrica -la nica
les. Un ejemplo de este tipo de clculo se propone al final del captulo. Otra prueba con el informacin a priori necesaria es el valor de la mediana. Una cierta desventaja de la
iI1lSJ]]() propsito y que se ha hecho popular es la prueba de recorridos de Lord. En este prueba de signos es que no utiliza toda la informacin disponible. Slo es necesario saber
caso el estadstico de la prueba, L, est dado por:
si una medicin individual es ms grande o ms pequea que la mediana- la magnitud de
esta desviacin no se utiliza en absoluto.
(604) En muchos casos un analista tendr suficientes razones para creer que sus mediciones
se distribuyen simtricamente pero no desea suponer que siguen distribucin nonna!. Este
es. decir utiliza la suma de recorridos en lugar del recorrido promedio. Estas pruebas son supuesto de datos simtricos, y la consecuencia de que la media y mediana de la poblacin
tiles cuando se desea comparar muestras pequeas (11 puede ser tan pequeo como 2), sean iguales, permite desarrollar pruebas de significacin ms potentes. Wilcoxon contri-
pero (como la prueba t descrita en la seccin 3.3) suponen que la poblacin de partida es buy con importantes avances a este respecto, y su prueba de rangos y signos tiene varias
ormal, y que la dispersin es razonablemente similar en las dos muestras. De nuevo su aplicaciones. Su mecanismo se ilustra mucho mejor con un ejemplo.
ven radica en la sencillez de los clculos. La tabla A.lO proporciona un conjunto de
lor,:s tabulados para L: el rechazo de la hiptesis nula se produce cuando surgen valores Ejemplo. Se encontr que los niveles de plomo en sangre (en pg/rnl) de siete nios eran
.penmentales superiores a los valores tabulados.
104, 79, 98, 150,87, 136 Y 101. Podran proceder estos datos de una poblacin que
Incl uso se puede utilizar otras pruebas simples de recorrido en lugar de la prueba F se supone simtrica, con mediana (media) de 95 pg/ml?
u.rndo se compara la dispersin de dos conjuntos de resultados. En lugar de comparar Los datos comparados con el valor de referencia (95) toman los valores
vananzas. el nuevo estadstico, Fi, compara recorridos; esto es, Fr ~ WfW2 o w-lw; el
Cociente que sea mayor que l. El valor experimental Fr se compara, como es habitual, con 9, -16,3,55,-8,41,6
ios valores tabulados (vase la tabla A.II). Se rechaza la hiptesis nula de que las dos
nuestras proceden de poblaciones de varianzas iguales, si el valor experimental es mayor En primer lugar y prescindiendo del signo se ordenan estos valores de menor a mayor,
'I:L' el valor tabulado. Como en la prueba F convencional se dipone de versiones de una y
resultando:
colas de este "sustituto de la prueba F', la tabla A.II se debe utilizar con cuidado. En
os ejercicios al final del captulo se propone UI1 ejemplo c1eluso de este mtodo. ' 3,6,8,9,16,41,55
A continuacin se incorporan sus signos (en la prctica estos dos pasos se haran de mtrico)]) se distribuiran simtricamente en torno a cero. Es facil obtener las diferen-
una vez): cias sealadas:
Los nmeros entonces se jerarquizan; en este proceso mantienen sus signos pero se Colocando estos valores en orden numrico sin tener en cuenta el signo, tenemos:
les asignan nmeros que indican su orden (o rango), as:
-0.2,0.2, -0.3, -0.4, -0.4, 0.6, -0.7, -0.7
1,2, -3,4, -5,6,7
Queda claro que la asignacin de rangos a estos resultados presenta una dificultad, la
Los rangos positivos suman 20 y los negativos 8. La menor de estas dos cifras (8) se de las posiciones empatadas. Hay dos resultados con el valor numrico 0.2, dos con un
toma como el estadstico de la prueba. El teorema binorninal dar la probabilidad de valor numrico 0.4, y dos con un valor numrico de 0.7, cmo se calculan las
que aparezca este nmero. Si los datos proceden de una poblacin con una mediana posiciones? Este problema, en la prctica el nico que uno se encuentra en los mtodos
de 95, se ~speraria .que las ~umas de los rangos positivos y negativos fuesen aproxima- dejerarquizacin, se resuelve asignando posiciones promedio a los valores empatados,
darnente Iguales; SI la mediana de la poblacin fuese muy diferente de 95, la suma de con signos adecuados: por lo tanto, los rangos resultantes para estos datos son:
los rangos positivos y negativos seria diferente. La probabilidad de que aparezca una
suma concreta en la prctica est dada por una serie de tablas (vase la tabla A.12). En -1.5,1.5, -3, -4.5, -4.5, -7.5, -7.5
esta prueba. se rechaza la hiptesis nula si el valor tabulado es menor o igual que el
valor experimental, es decir, la situacin opuesta de la observada en la mayora de las En estos casos, merece la pena verificar si se ha hecho correctamente la ordenacin
pruebas de sig.ni:icacin. En este ejemplo, el examen de la tabla A.12 muestra que, para calculando la suma de todos los valores, sin tener en cuenta el signo. La suma para los
n = 7, el estadstico de la prueba debe ser menor o igual que 2 para que la hiptesis nula nmeros anteriores es 36, la misma que la suma de los ocho primeros nmeros
-que los datos proceden de una poblacin con una mediana (media) de 95- se puede naturales, y por tanto la ordenacin es correcta. La suma de los valores positivos es 7.5,
rechazar a un nivel de significacin de P = 0.05. En este ejemplo, la hiptesis nula se y la de los valores negativos es 28.5. El estadstico de la prueba es entonces 7.5. Al
debe aceptar claramente. Como de costumbre, se utiliza una prueba de dos colas mirar la tabla A.12 se observa que, para 11 = 8, el estadstico de la prueba tiene que ser
aunque quizs haya ocasiones en los que una prueba de una cola sea ms adecuada. ' menor o igual que 3 para que se pueda rechazar la hiptesis nula al nivel de significacin
P ~ 0.05. En este caso, la hiptesis nula tiene que ser aceptada -no hay evidencia de
Una ventaja importante de la prueba de rangos y signos es que tambin se puede utilizar la mediana (media) de la diferencia sea distinta de cero, y por tanto no hay ninguna
para ~atos por parejas, ya que se pueden transformar en el tipo de datos dados en el ejemplo evidencia sobre de una diferencia sistemtica entre los dos mtoclos analticos.
antenor. De esta forma se puede utilizar el mtodo de rangos y signos corno una alternativa
no paramtrica a la prueba t por parejas (vase la Seco 3.4). De estos ejemplos se desprende que la prueba de rangos y signos es un mtodo simple
y valioso. Su limitacin principal radica en que no se puede aplicar a conjuntos de datos
Ejemplo. La siguiente tabla proporciona el porcentaje de concentracin de zinc deter- muy pequeos: para una prueba de dos colas al nivel de significacin P = 0.05, n tiene que
minado por dos mtodos diferentes, para cada una de las ocho muestras de alimentos. ser al menos 6.
donde N ~ /lA + nn + /le etc. Este valor X2 se compara con los valores usuales cuando el 12R _ 3n(k + 1) (6.8)
nmero total de mediciones es > ca. 15, no obstante se utilizan tablas especiales para n- nk(k + 1)
meros ele mediciones ms pequeos. El nmero de grados de libertad es k - 1. Los valores
experimentales de X2 que superan los valores tabulados permiten rechazar la hiptesis nula que resulta en este caso 2.625. Al nivel de significacin P ~ 0.05 y con k = 3, l~s valores
(que las medianas de las muestras no son significativamente diferentes). Como ya se ha ..
cnticos d e X2 son 6 .O, 65
. , 64 ( n = 3 , 4 , 5 , 6, 7 Y 8, respectIvamente.
. , 7 .O,7. 1 Y6 .2 para ~
observado, en esta ltima situacin se pueden realizar otras pruebas sobre pares individua- (Muchos conjuntos de tablas estadsticas proporcionan ms ~atos, y cuando k > 1, se
les de muestras; de nuevo, el lector que desee mayor informacin puede consultar la puede utilizar las tablas usuales ele X2 con k - 1 grados de l~bertad.) En este caso, e,l
bibliografa. valor experimental ele i es mucho menor que el valo~ ~ntlco,. y ~~ ele.be aceptar la
Ya hemos visto (Secs. 3.4 y 6.3) que cuando se comparan resultados por parejas, se hiptesis nula: los tres mtodos dan resultados ~ue no difIeren. slgl~I:lca:Iv:ment.e.. "_
pueden utilizar pruebas estadsticas especiales. Estas pruebas se basan en el siguiente Es importante mencionar que la prueba de Fnedman podna ut.I1lzaro-e alternativa
principio: cuando dos mtodos experimentales que no difieren significativamente se apli- mente en forma inversa: suponiendo que los tres mtodos analiticos dan r.esulta~os
can a las mismas muestras qumicas, las diferencias entre los pares de resultados empare- indistinguibles, se podra utilizar el mismo procedimiento para contrasta~ clIferenc.las
jados deberan estar cerca de cero. Esto puede extenderse a tres o ms conjuntos de entre los cnatro extractos de plantas. En este caso k y I! son 4 y 3 respectIvan~ente, el
resultados emparejados utilizando una prueba no pararntrica ideada en 1937 por el famoso lector puede verificar con cuidado que R es 270 y que el valor resultante de,~ es 9.0.
economista americano, Milton Friedman. En qumica analtica, la principal aplicacin de la Este es mayor que el valor crtico para P ~ 0.05, 11 = 3: ' : 4.' qne es 7.4: ASI, ene~t~
prueba de Friedman es la comparacin de tres (o ms) mtodos experimentales aplicados segunda aplicacin de la prueba se puede recha~ar la hiptesis nula, y.afIrn:ar que ras
a las mismas muestras qumicas. La prueba utiliza de nuevo el estadstico X2 , en este caso cuatro muestras difieren en sus niveles de pesticida. Se encuentran .chspombles otras
para calcular las diferencias que aparecen entre los valores de la suma total de posiciones, pruebas que permiten comparaciones entre parcs de muestras seleccionados.
por distintos mtodos. El siguiente ejemplo aclara la simplificacin de la aproximacin:
Evidentemente es mucho ms simple realizar la prueba ele Friedman en la prcti:a .que
Ejemplo. Se determinaron los niveles de un pesticida en cuatro extractos de plantas por el mtodo ANOVA (vanse las Secs. 3.8, 3.10), aunque no tiene la capacidad de este ltimo
(A) cromatografia lquida de alta resolucin, (E) cromatografa de gas-lquido, y (C)
de estudiar los efectos de interaccin (vase el Cap. 7).
radioinmunoensayo. Se obtuvieron los siguientes resultados (todos en ng/ml):
Muestra Mtodo
A B e 6.9 CORRELACIN ORDINAL
I 4.7 5.8 5.7
2 7.7 7.7 8.5 Los mtodos de jerarquizacin se pueden aplicar tambin a los problemas de.cor:Tlaci~I~.
3 9.0 9.9 9.5 El mtodo elc coeficiente de correlacin ordinal de Spearmau, qllC se decribir en esta
4 2.3 2.0 2.9
seccin, es la aplicacin ms antigua de los mtodos de d ., , .
d or enacion en estadstics q d t una fuerte evidencia de que niveles de S02 ms altos producen vinos menos aceptables
e 1904. C~mo otros mtodos de ordenacin, es especialmente ventajosa cuando ue a a
los dos conjuntos de observaciones en estudio pued ' 1 ' . uno de al paladar!
d d . '. e expresarse so o en trminos de un
o~ en e posicion en lugar de expresarse en unidades cuantitativas A ' '.
ejemplo, ~e investig~ la posible correlacin entre las concentraciones' de s~ :~;I ~lgUlente
Otro mtodo de correlacin ordinal, debido a Kendall, se introdujo ern 1938; ste pre-
tende tener algunas ventajas tericas sobre el mtodo de Sparman, pero es ms complicado
en un conjunto de V1l10S de mesa y la calidad de su sabor. La calidad d OXI o e azu.fre
no se expresa con facilidad en trminos cuantitativos pero par ells~bor de un villa de calcular (especialmente cuando aparecen posiciones empatadas) y no se emplea con
vinos es realmente sencillo ordenarlos segn su refe . ~ un pane e catadores de tanta frecuencia.
que s~ ordenan con facilidad pero que no se cuanffic:~e~~~~;~:Pil~: de otros atri~u.t?s
de animales experimentales la calidad del es . d di ,luyen la condicin
cia del personal dellaborato;io Se debera tam~~~1O e Id c ado all.aboratorio, y la eficien-
d d . len recor ar que SIuno o los do . t 6.10 MTODOS DE REGRESIN NO PARAMTRICOS
e atas que se estudian fueran cuantitativos entonce (en ~ conjun os
critos en el captulo 5) no es necesario qu'e se dists'b contraste con los metodos des-
estadstic~s no paramtricos, el coeficiente de correla:ilr~~;~I~~rmalmente.
Como ot:~s Al analizar detalladamente los mtodos de regresin lineales en el captulo anterior, se hizo
de determinar e interpretar. Esto se muest l si . de Spearman, p, es facil hincapi en la hiptesis de distribucin normal para los errores en la direccin del eje y, y
ra en e siguiente ejemplo. qued clara la complejidad de alguno de los mtodos de clculo; sta se supera en gran
Ejemplo. Un panel de expertos ord ' parte al utilizar calculadoras o computadores, y existen tambin algunos mtodos de
diferentes; al mejor se le asi na la e~~ ,segun s~s preferenca, siete vinos de mesa aproximacin rpidos para ajustar lneas rectas a datos experimentales (vase la biblio-
contenido de dixid d g f 1:
posicion al siguiente la 2, y as sucesivamente. El grafa). Se mantiene, por lo tanto, un cierto inters en las aproximaciones no para mtricas
o e azu re de cada Villa (en part illc al problema de ajustar una lnea recta a un conjunto de puntos: de los mtodos disponibles,
mediante anlisis por in .' . . ,es por rm on) se determina
resultados siguientes par:~:~~~;i~n fl.ui co~ d~~ecclOn colori~trica. Utilice los
o
quizs el ms simple es el mtodo incompleto de Theil, denominado de esta forma para
vino y el contenido de dixido de azufre, iay re acton entre la calidad percibida en el distinguirlo de otro procedimiento ms complejo desarrollado por el mismo autor (el
mtodo "completo").
Vino El mtodo de Theil supone que un conjunto de puntos (XI, YI), (X2, Y2), etc., va a ser
Rango segn el sabor A BCD E F G ajustado por una recta de la forma y = bx + a. El primer paso en los clculos consiste en
Contenido de S02 1 2 3 4 5 6 7
disponer los puntos en orden de X creciente. Si el nmero de puntos, x, es impar, el punto
0.9 2.8 1.7 2.9 3.5 3.3 4.7
medio, es decir, el valor mediano de X se borra: el clculo siempre exige un nmero par de
El primer paso en los '1 I . puntos. Para cualquier par de puntos (x Yi), (Xi> Yi) donde X) > Xi, la pendiente, bij, de la lnea
ca cu os es convertir las concentraciones de SO d I
a bso Iutas a valores d ( . . . 2 e va ores que une los puntos se puede calcular a partir de:
describi en las secci:~:~gaOnt:~i~::~~en posiciones empatadas se promedian como se
bij ~ (Yi - Yi) / (Xi - X,) (6.10)
Vino
A B C D
Rango segn el sabor E F G
1 2 3 4 5
Se calculan las pendientes bij para el par de puntos (Xl, YI) Y el inmediatamente posterior
Contenido de S02 6 7
1 3 2 4 al valor mediano de la x, para (X2, Y2) y el segundo punto despus del valor mediano de la
6 5 7
x, y as sucesivamente hasta que se calcule la pendiente para la lnea que une el punto
Entonces, se calculan las diferenci d I
-1 1 O -1 l O El f" las, " entre as dos ordenaciones. Claramente son O inmediatamente anterior a la mediana de X con el ltimo punto. De esta forma, si los datos
, " ". cae retente de correlacin , p , esta' dad o en tonces por: ' originales contenan 11 puntos, se estimaran 5 pendientes (el punto mediano se ha
omitido); 8 puntos originales proporcionaran 4 estimaciones de la pendiente, y as
sucesivamente. Estas estimaciones de la pendiente, a su vez se disponen en orden ascen-
p
dente y su valor mediano, calculado como se describi en la seccin 6.2, es la pendien-
(6.9)
te estimada de la lnea recta. Con este valor de b, los valores a, de la ordenada en el origen
En este ejemplo, es 1 - (24/336) es decir O929 ' se estiman para cada punto con la ayuda de la ecuacin y ~ bx + a. De nuevo, las
el coeficiente de correlacin mom~nto- d' t' . La teo.na demuestra que, como estimaciones de a se ordenan de forma ascendente y el valor mediano se elige como la
11 = 7 tiene qu . pro uc o, puede vanar entre -1 y + 1. Cuando mejor estimacin de la ordenada en el origen de la recta. El mtodo se aclara mediante el
, e superar a 0.786 SI se va a rechaz I hi .
de correlacin al nivel de SI' ifi " p ar a ipotesis nula de ausencia siguiente ejemplo.
gm icacion = O05 (v I bl
mas concluir que hay una correl ' " '1 ease a ta a A.14). Aqu, pode-
. acin entre e cont id d SO d .
calIdad percibida. Teniendo en cuenta la 1'< em o ~ 2 e los VlI10S y su Ejemplo. Se han obtenido los resultados siguientes en un experimento de calibracin
arma en que se definen las posiciohes, hay para la determinacin absorciomtrica de un complejo metlico tipo quelato:
Concentracin, .Jg/ml:
Absorbancia: o 10 20 30 40 50 60 70 A
0.04 0.23 0.39 0.59 0.84 0.86 1.24 1.42
Ordenando estas estimaciones de 1 d d . que tambin existen mtodos no paramtricos disponibles para ajustar curvas, si bien stos
-o .O18, -O.008 , +0.O16,+.O 024,+0.026
a or ena a en el ongen, tenemos -0.160
+0 040 L . ., . ' ,
-0.022 escapan a los objetivos de este libro.
tanto +0 004 D t d . , . , a estnnaclOn med13na es por lo
, . . e es e mo o concluirno 1 . ,
0.0204x + O 004 E f '1 s que a mejor lnea recta est dada por y =
. . s aCI mostrar que la recta de "n . . d
los mtodos del captulo 5, es y ~ 0.0195x + 001 111l1t1l.0S cua radas", calculada por 6.11 LA PRUEBA DE BONDAD DEL AJUSTE DE KOLMOGOROV
rectas son similares cuando se re :. 9. La figura 6.1 muestra que ambas
Theil tiene tres ventajas distintas: ~~e:~~:~Ill~~~:I~:~~:I;~e. Sin embar?o, el m~todo. ~e En el captulo 3 se estudi el problema estadistico frecuente de la "bondad del ajuste". ste
de y; no supone que los errores en la direccin de x o d ~ e:~re~lestan en la direccin surge cuando se necesita probar la procedencia de una muestra de observaciones de una
y no se ve efectado por la presencia de resultados a . e}' se Istn,)u'yan normalmente, distribucin concreta, como puede ser una distribucin normal. La prueba de chi cuadrada
claramente ilustrado por el punto (50 O 86) d nOI~alos. Est~ ultimo aspecto queda es muy adecuada para este propsito cuando los datos se presentan como frecuencias,
de ser un resultado anmal 'l' e este ejemplo; tiene toda la apariencia aunque la prueba no se utiliza normalmente para menos de 50 observaciones, y es difcil
o, pero su va or no afecta en ab l t 1 '1
ya que ni b26 ni a afectan directamente las est .' so l~ o, e ca culo de Theil, usarla con datos continuos. En esta seccin se describe el mtodo de Kolmogorov, que es
ordenada en el origen, respectivamente En eIII:a~lOnes medl~I~as de la pendiente y muy apropiado para probar la bondad del ajuste con datos continuos y aislados. Este mtodo
embargo, este resultado anmalo tiene t .t alculo de rmrumos cuadrados, sin se puede extender a la comparacin de dos muestras, aunque no se describir con detalle.
resultados calculados' la lnea d ..an o peso como los otros; esto se refleja en los Estos mtodos modificados fueron descubiertos en primer lugar por Smimov, y al conjunto
anmalo que la lnea ~o paramt;ic:l.lI~~n~~c~u~~~dos p,asa ms cer,ca. del resultado de estas pruebas se les conoce, a menudo, como el mtodo de Kolmogorov-Smirnov.
ven muy afectados por los resultad '1 q os metodos estadlstIcos que no se El principio de la aproximacin de Kolmogorov es muy simple. Compara la curva de
os anorna os son metodos" b tos" ,
en ste y otros casos est clara. ro us os : su Importancia frecuencias acumuladas de los datos que se desea contrastar con la curva de frecuencias
acumuladas de la distribucin propuesta como hiptesis. El concepto de curva de frecuen-
A diferencia de la mayora de los mtodos ' . , cias acumuladas, y su aplicacin con relacin al papel de probabilidad normal, se analiz
clculos tedosos y sera de til id 1 no parametncos, el metodo de Theil conlleva en el captulo 3. Cuando se han trazado las curvas experimental e hipottica, el estadstico
, " gran u 1 I ac un programa de computador. Tenga en cuenta
de la prueba se obtiene encontrando la mxima diferencia vertical entre ambas, y cornpa-
randa este valor, de la forma habitual, con el conjunto de valores tabulados. Si los datos
experimentales se apartan sustancialmente de la distribucin esperada, se esperar que las
dos curvas se encuentren separadas en parte del diagrama de frecuencias acumuladas; sin
FA
embargo, si los datos estn en gran consonancia con la distribucin esperada, las dos curvas
nunca se separarn mucho una de otra. En la prctica, el mtodo de Kolmogorov tiene dos
0.8
aplicaciones frecuentes -prueba de aleatoriedad, y prueba de normalidad de una distribu-
cin-; el funcionamiento del procedimiento se ilustrar con ejemplos simples.
Dgito: o 1 2 3 4 5 6 7 8 9
Frecueucia : 1 6 4 5 3 11 2 8 3 7 0.4
Son estas lecturas congruentes con un uso aleatorio de los dgitos 0-97 (Note que los
datos de este ejemplo son idnticos a los del ejercicio 5 al final del captulo 3.)
En este ejemplo la distribucin hipottica es inmediata: se presupone que todos los
0.2
dgitos del O al 9 tienen la misma probabilidad de aparecer, y no son posibles otros
resultados. La curva hipottica de frecuencias acumuladas es, por lo tanto, una fun-
cin regular escalonada como se muestra en la figura 6.2. Las frecuencias acumula-
das en la prctica son claramente: 0.02,0.14,0.22,0.32, 0.38, 0.60, 0.64, 0.80, 0.86, 9
l.OO en x ~. O, 1, 2, ... ,9, respectivamente. Las dos curvas muestran una diferencia
o
mxima de 0.12 en x = 4. (En ejemplos simples de este tipo es innecesario representar Digito
en la prctica las frecuencias acumuladas; la diferencia mxima se puede obtener
, ara robar la aleatoriedad de los dgitos 0-9. La
examinando los datos.) La tabla A.15, que es adecuada para una prueba de dos colas Figura 6.2 El empleo del metodo de ~~Imo,gforovd Pla f~cuencia acumulada terica (A) Yla repre-
(el caso usual), muestra que al nivel de significacin P = 0.05 para 11 = 50 el valor crtico . .. t I presentaclOn gra tea e x
diferenCia maxima en re . ~ re . t 1(B) se muestra con las flechas (<---').
es 0.188, de manera que no se puede rechazar la hiptesis nula de que los dgitos se sentaclOn expenme n a ,
distribuyan aleatoriamente.
, vara probar si una distribucin es normal,
ro
El lector observar que este resultado es el mismo que el obtenido utilizando el mtodo Cuando se utiliza el metodo de Kolmogo PI d tos originales que podran tomar
h s transformar os a ' d
chi cuadrada (vase el Cap. 3, ej. 5). Una inspeccin minuciosa de las dos pruebas muestra lo primero que hay que acer e .' , tndar en la variable normal estan ar, z.
loui lar para la media y la desvlaclon es ,
que, en el clculo de chi cuadrada, los valores experimental y tabulado son casi los mismos, cua qUler va ., .
es decir, los dgitos de titulacin no se desvan significativamente de una distribucin Esto se hace utilizando la ecuaClOn.
(6.11)
aleatoria. En la prueba de Kolrnogorov, sin embargo, los resultados sugieren que los datos
se desvan ostensiblemente de la aleatoriedad. Esta reflexin surge del hecho de que los Z = (x - p)/ (J
valores de la tabla A.15 estn basados en la hiptesis de que la distribucin probada es . .' . nificado habitual. Se suele considerar esta transformacin
con! inua. Cuando los datos son discretos, los resultados de la prueba son conservadores, en la que cada termmo tiene su sig . ifi d tndar La teoria demuestra que Z,
" d d t [orma tipi tc a o cstunuur- .. 'd d
decir, tienden a dar muy pocos resultados significativos. No obstante hay algunas como la converSlO n e a os e~ 1 t su funcin de distribuclOn esta a a
stnbuye norma men e, y . . d d
ventajas en la prueba de Kolmogorov. En los ejemplos del tipo que se acaba de analizar, calculado en esta f arma, se d I . . 'n (6 11) se puede utilizar e os
bl t distlcas La ecuacio .
es mas sencillo de utilizar, y es ms fiable cuando 11 es pequeo. (El ejemplo anterior utiliza en muchas colecciones de ta as es a . d . de un conJ'unto de datos de una
. b r la proce encia
precisamente el conjunto de datos ms pequeos que generalmente se puede estudiar por formas. A veces es necesano pro a . d . .. estndar dadas. En tal caso, se
distribucin normal COllcreta,
de media y esvlaclOn
. t 1 mediante la ecuacin (6.11) y se reo. Iza
r
el mtodo chi cuadrada: 50 observaciones y una frecuencia esperada de 5 para cada
nrnero.) El mtodo de Kolmogorov tambin proporciona lmites de confianza no param- transforman directamente los datos,expenmen. a es 'necesario contrastar simplemente la
C n mas frecuencia, sera ti
ricos para la funcin de distribucin acumulada verdadera, utilizando los datos de la tabla la prueba de Kolmog orov. o ..', al En este caso primero se es lI11a
laui r dlstnbuclon norm . . .,
A. 15. Este tema se trata con mayor profundidad en pruebas detalladas sobre mtodos no procedencia de los datos d ecua qute -rodos si les del captulo 2; a cont1l1uaClOn
la media y la desviacin estndar, por los meto os simp
pmamtricos (vase la bibliografa).
se transforman por la ecuacin (6.11); Y por ltimo se aplica el mtodo Kolrno
dos tipos de pruebas se analizan en el ejemplo siguiente. gorov. Estos 6.12 CONCLUSIONES
Ejemplo. Se realizaron ocho titulaciones, con los resultados 25 13 2502 25 11 Las pruebas de ejecucin rpida y no para mtricas, descritas en este captulo son slo una
25.03, 24.97, 25.14 Y 25.09 m!. Dichos resultados dn , . , . ,25.07, pequea parte de todos los mtodos de este tipo que hay disponibles. Los ejemplos
poblacin normal con media 25 00 mI y d . '. , po nan proceder de (a) una
.. esvracion estandar O 05 1 (b) d expuestos manifiestan claramente tanto su potencia como sus limitaciones. En muchos
otra poblacin normal? . . 111 , Y e cualquier
casos su rapidez y conveniencia aventajan, en cierta medida, a los mtodos convencionales,
y las pruebas no paramtricas no conllevan la hiptesis de una distribucin nonna!. Se
(a) En este caso, el primer paso es transformar los valo ..
la relacin z ~ (x - 25 00)/0 05 obte id d I " res x en valores z, utilizando ajustan perfectamente al examen preliminar de un pequeo nmero de mediciones, y a
, . 111 a e a ecuacion (6 11) L 1 clculos hechos con rapidez -a menudo sin la nececidad de tablas- mientras el analista
transformados en 2.6 04 2 2 1 4 O 6 06 2 ' . os oc 10 resultados son
, . , . , . , . , - . , .8 Y 1 8 Esto' I est en el banco de pruebas o en la fbrica. Se puede utilizar tambin cuando se estudian
representan grficamente como una funcin de d t ib '., s va ores Z se ordenan y
d.ecir, 1/8) en cada paso. (Observe que ste el n .UClOn ~on un salto de 0.125 (es tres o ms muestras (Sec. 6.8). La potencia (es decir, la probabilidad de que una hiptesis
. " no es e mIsmo calculo qu 1'1" . nula falsa sea rechazada: vase la Seco 3.13) de un mtodo no paramtrico puede ser menor
SeCClOn 3.12.) La comparacin con la f " hi ,. e se u I IZO en la
uncion npotetlca par . d' (v . que la de la correspondiente prueba paramtrica, pero la diferencia se da slo en raras
que la diferencia mxima es O 545 el1111l 1 li a Z 111 tea vase la Flg. 6.3)
. va or Z Igeramente' feri 1 ocaciones. Por ejemplo, se han hecho muchas comparaciones de las potencias en condi-
este valor se utiliza la tabla A 16' la t' bl A 15 III enor a .4. Para probar
. , a a . no es adecuada d ' ciones diferentes (es decir, distribuciones poblacionales y tamaos muestrales diferentes)
se hayan transformado en la forma est d S . espues que los datos
an aro egun la tabla A 16 de la prueba de rangos de Wilcoxon y de la prueba t. La primera opera muy bien en casi
el valor crtico es O 288 de 111 d . , para 11 = 8 Y P = 0.05
. " o o que se puede re 1 1 hi . ' todas las circunstancias y slo cs marginalmcnte menos potente que la prueba t, incluso
tItulaciones probablemente no pr d d ~ lazar a llpotesls nula -las
oce en e una poblaCIn I 1 . cuando los datos proceden de una poblacin normalmente distribuida. Muchos programas
Y desviacin estndar 0.05 ml, iorrna con media 25.00 mi
para computadores personales incluyen ahora varias pruebas no paramtricas. Dichos
(b) En este caso, se estiman la media I d ' '. , programas permiten evaluar un conjunto concreto de datos con rapidez por dos o ms
(2.1) Y (2.2)] por 25.07 y 0059 . 1 Y a .esvlaclOn estndar [utilizando las Ecs. mtodos, y parece seguro que aumenta cl inters en estos mtodos en lugar de reducirse,
. m respectlvament I ilt
dos cifras significativas correctas L' 1 e,. y e u timo resultado tiene ya que resultan muy tiles.
25.07)/0.059, es decir por I 02 ~o;~ ~a 60;e~ de z estan ahora dados por Z ~ (x -
ma de frecuencias aCI;mlllada's p'a . . t' . '1 ,-0.68, -1.69, 1.19, 0.34. El diagra-
. , ara es os va ores dif dI'
sumo por O. 125 (en varios puntos) Est. dif . I rere e a curva hIpottica a lo BIBLIOGRAFA
crtico de 0.288. De esta <orlll'lIJOd' a I erencia es mucho ms pequea que el valor
l' e emos aceptar la hi itesi 1
ceden de una poblacin normal con una medo '25 On~o esis nu ~ d~,que los datos pro- Conover, W. J., Practica/ Non-paramctric Statiscs, Nueva York,Wiley, 1971. Probablemente el mejor
. la . 7) una desviacin estndar 0.059. texto general de mtodos no paramtricos.
l.r-.-r-----r---,r-~~-_ Daniel, W. W., Applied Nonparatuctric Stntistics, Boston, Houghton Miftlin, 1978. Es un texto muy
general que abarca un amplio espectro de mtodos no paramtricos con bastante profundidad;
FA contiene muchos ejemplos.
Langley, R., Practica/ Stotistics, Londres, Pan Books, 1968. Es un texto bastante asequible, con
especial nfasis en las pruebas no paramtricas.
0.5 Sprent, P., Quick Statistics, Londres, Penguin Books, 1981. Es una introduccin excelente a los
mtodos no paramtricos: claro, explicaciones con pocas matemticas, y muchos ejemplos y
ejercicios.
EJERCICIOS
1. Se realiz una titulacin 4 veces, con los siguientes resultados: 9.84, 9.91, 9.89, 10.20 ml,
Calcule y comente la mediana y la media de estos resultados.
2 3 4
F' l 2. El nivel de azufre en lotes de combustible de un avin, segn manifiesta el fabricante, est
.Igura 6.3 El empleo del mtodo de Kolmo orov distribuido simtricamente con un valor mediano del 0.1 %. Se ha encontrado que lotes sucesivos
eras mximas entre la curva de frecu . g I para probar la distribucin normal. Las diferen- tienen concentraciones de azufre de 0.09, 0.12, 0.1 0,0.11,0.08,0.17,0.12,0.14 Y0.11 %. Utilice
. enctas acumu adas terica y las dos distrib .
reflejan con las flechas ( <---. n UClones probadas se la prueba de signos, la prueba de rangos y signos, y una prueba de recorridos para probar la
afirmacin del fabricante.
3. La concentracin (g/lOO mi) de inmunoglobulina G en suero sa . .
gu
por llllnunoeJ[usin radial (i.d.r) y por electroinmunodifu .. l(l de 110 d~na~ltes se mide
tados. sion e.1. dln)eo
, con os SIgUIentes resul-
Donantes: 1 2 3 4 5 6 7 8 9 10
Resul. i.r.d. 1.3 1.5 0.7 0.9 1.0 1.1 0.8 1.8 0.4
Resul. e.i.d. I.I 1.6 1.3
0.5 0.8 0.8 1.0 0.7 1.4 0.4 0.9
Son significativamente diferentes los resultados de los dos mtodos?
En un ANOVA de dos factores, cada medicin, XI), se clasifica con dos factores, como se
muestra en la tabla 7.1. Hay N mediciones divididas entre e niveles de tratamiento y r
73 EXPERIMENTOS CON BLOQUES
bloques (por tanto N ~ cr), Tambin aparecen los totales por columna y por fila y el gran
total, T, necesarios en los clculos. La deduccin de las frmulas empleadas no se dar con
;1: illconw'nicnte dt' la ale:1torizacincom lleta -s nu .
,1(\I:CS natlwlies en el III t, .r. l . . 1 , e que no aprovecha las pOSIbles sulxlivi .. detalle como se hizo para el ANOVA de un factor en la seccin 3.C), El principio del mtodo
. " a cria cxpenmcntal SIi!Jong ,', I es el mismo, y al fina 1 del captulo se proporcionan referencias para los que estn
llndr a cabo l: 1" -dici " , a, por t;jl:mp 0, que no se pudiesen
'JJ'l'lH'r' ,:lSetXt mee clon.es del ejeillplt,) anterior en el mismo da y se tllvienn que interesados en los aspectos matemticos de! tema. Las frmulas para el clculo de la
l en cuatro e 1;15 consccutrv Ut'I' , e ~
, os. I rzanr o el nJlsmo orden de antes rcsi1tana: variacin de las tres fuentes diferentes, o sea, entre tratamientos, entre bloques y error
experimental, se dan en la tabla 7,2.
Dla l A C A
Da 2 A C A
Da :1 Ejemplo. En un experimento para comparar el porcentaje de eficiencia en la extraccin
C B B
Da 4 B de iones metlicos en solucin acuosa por agentes quclantes, se obtuvieron los siguien-
C B
tes resultados:
probar si la variacin da a da es significativamente mas grande que la variacin debida
Tabla 7.1 Forma general de la tabla del ANOVA dee (dos
os rae
f tores
al error aleatorio de la medicin y, si es as, estimar su varianza,
Como en un ANOVA de un factor, los clculos se pueden simplificar restando a
cada medicin un nmero arbitrario, En la siguiente tabla se muestran mediciones una
vez que se les ha restado 80 a cada uno de ellas,
Tratamientos
D Totales por filas. T, T'
Bloques A B C
O 3 1 6 3'6 }
Dia 1 4 ~-1 5 25 62 = "[,T,'
3 O
Da 2 -1 2 1 1 I
2 O
Dia 3 3
- 5 3 4 O ~ Gran total, T
Totales por columna, TI 6 9 16
TI' 36
----- ----_/
25
"[,1' = 86
j I
Das A B C D
1 84 80 83 79 En la siguiente tabla se muestra el clculo de los cU<ldr<ldos medios para cada fuente
2 79 77 80 79 de variacin
3 83 78 80 78 Cuadrado
Suma de Grados de
Fuente de libertad medio
cuadrados
~:::e~l::; II~r::;r::~~I~~s:r:~~i~~l:~~~ei~:sI:lget:~ico (coln concentracin especificada)
varracton
3 28.6667/3 ~ 9.5556
Entre tratamientos 86/3 - 0 2/12 ~ 286667
aleatoria. e 1 es que antes, tomados de una manera 2 15,5/2 ~ 7,75
Entre bloques 62/4 - 02/12 = 15,5
6 9.8333/6 = 1.6389
Residual por diferencias ~ 9.8333
En este experimento el uso d dif
~ d~ae~~~~e:jagen~~s ~u~lantes 54 - 0 2/12 = 54,0 11
ya que el investigador los elige' .es un factor controlado, Total
incontrolado ya que introduce ~arl'a ic etcucllodn e expenmento supone un factor
e on mcon ro a a causada a 1 1 . (Ya que p<lra obtener 1<1 suma de cuadrados residu<ll hay que calcular una diferenci<l, se
en la temperatura del laboratorio resi . ' . a vez; por os cambios
tracin de la disol " del i ' P ., n, etc., y por ligeras diferencias en la concen- deben tomar tantas cifras decimales como sean posibles p<lra evitar errores en esta
ucion e Ion metlico es d . 1d
captulos 3 y 4 se expf , 1 ' . ~clr, e la es un factor aleatorio. En los cantidad.)
~ignificativo par~
ICO a manera de utilizar el ANOVA Para el lector puede ser formativo el verificar que las sumas de cuadrados separan
debido a un factor controlado o . probar un efecto
los efectos de bloque y trat<1tniento. Esto puede hacerse, dig<lmos, incrementando
Incontrolado En e te exoeri para estimar la vananza de un factor
ANOVA d .d f s e experimento -en . . que hay a 1a vez dosos ti
tipos de factores- el todos los valores de un bloque en una cantidad fija y volviendo <1 c<llcubr las sumas de
. e os actores se puede utilizar de dos maneras' (i) . cuadrados Se deber<l llegar <1 que 1<1 suma de los cuadrados total y entre bloques se ha
. ifrcativamente
diferentes agentes quelantes tienen eficienci as srgru . ' . I diferentes,
.para probar
y (ii)SIpara
los
modific<ldo, mientras que la suma de cuadrados residual y entre tratamientos no
ha variado.
Si no hay ninguna diferencia entre las eficiencias o los dias, entonces las tres sumas
Tabla 7.2 Frmulas para ANO VA de dos factores
de cU<ldrados medios proporcionar<ln una estim<lcin de u;,
o sea, la v<lri<lnz<l de la
variacin aleatoria debida <11 error experiment<ll (vase 1<1 Seco 3.9). L<I prueba F se
Fuente de variacin Suma de cuadrados Grados de libertad
utiliza para ver si las estimaciones de 1<1 varianza difieren signific<ltiv<lmente. Compa-
e rando el cuadrado medio entre tratmnientos con el cuadrado medio residual resulta:
Entre tratamientos JI1')lr - TliN e - 1
Como el valor crtico de Fes 5.143 (P = 0.05) Y no es superado por el valor anterior,
se concluye que no hay diferencias significativas entre das. No obstante, el cuadrado 7.6 DISEOS ANIDADOS Y DE CLASIFICACIN CRUZADA
medio entre bloques es considerablemente mayor que el cuadrado medio residual, y si
el experimento se hubiera realizado sin bloques, estos dos efectos se combinaran en El diseo del experimento considerado en la seccin 7 ..4 s~ clcnolllina c1asifi.cacil;n
la estimacin del error experimental, y el experimento probablemente no habra sido l' lebido a que se torna una medicin para cada combll1aclon posibl> de los distintos
cruzar a (, e entra el diseno
capaz de detectar si tratamientos diferentes proporcionaban resultados significati va- niveles ele los factores. En contraposicin al diseno anterior se encue :.' ," e
mente diferentes. Si la diferencia entre dias hubiera sido significativa, indicara que . . l' figura 7 1 en el que una muestra de una soluclon est"lcl"r
expenmental que aparece en a , e . , . . ' d' [e , te
otros factores tales como la temperatura, preparacin de la disolucin, etc., tendran , e la uno ele los tres laboratorios Y en carla laboratono dos tecnicos 1 eren es
se enva a cae e " 1, ver que
efectos. Se puede demostrar que el cuadrado medio entre bloques proporciona una nalizan la muestra. Se dice que este diseo es anidado o Jcrarqulco Y se puee e L .
estimacin de aS + ca~, donde a~ es la varianza de la variacin aleatoria de da a da. a tiliz: todas las combinaciones posibles de las condiciones expenmentales, por
no se u I Izan (El ANOVA simple se
Ya que el cuadrado medio residual da una estimacin de aS,
se puede deducir una . 1
eJemp o, ca a
e . c
, 'bl' t
.
. '1 cuenta
estimacin de a~. puede considerar tambin corno un eJsei.o.'l1l1dado.) lamblen e~ p~~1 . e. amar 1 I
diseos mixtos (es decir, en parte de clasificacin cruzada, en parte amdddos),
Este ejemplo il ustra claramente las ventajas de considerar el diseo de un experimento
antes de realizarlo. Entre un experimento con bloques y uno sin bloques, con el mismo
nmero de mediciones en cada uno, el primero en ms sensible y proporciona ms
7.7 INTERACCIN
informacin.
El anlisis expuesto supone que los efectos, si existen, son aditivos. Este aspecto se La hi otesis bsica en el anlisis realizado en la seccin 7.4 era qu.e los e~ectos eh:,los,dOS
analiza posteriormente en la seccin 7.7. I ,. El' '1"" I 1 este trmino se explica llleJor mediante IUI
factores fuesen aditIVOS. sIgm lCd( o e e . _ . 1-
, . . . .: .: . 1" leila en la que cada factor tiene e os
ejemplo numcrtco. La snuacion mas sunp e es aql . 1 l l
. . los ,1' Y a, Y el factor BIas 11IVe es )1 y 'h
niveles: por ejemplo, el factor A tiene os nrve LS al ." I() 1') , l'"
7.5 CUADRADOS LATINOS Supongamos que las com binaci b l)' a 2b I trencn corno resultados
mactoncs al 1, al le
,-) ~
Solucin estandar
Da 1 A C B
Da 2 C A B
\
Da 3 C B A
;:ll '31 que las mediciones que utilizan el tratamiento C se concentran al principio del da y
Ji]'; que US3n el B lo hacen al final del da, se podra seguir el diseo siguiente:
3 Laboratorios
Da 1 A B C 2
Da 2 C A B
Da 3 B C A
Este diseno, en el que cada tratamiento aparece una vez en cada fila y una vez cada columna,
A B
/\
e D E F Tcnicos
''C be el nombre de cuadrado latino; permite separar la variacin entre tratamientos, entre
entre el momento del da y el error experimental aleatorio. Figura 7.1 Diseno anidado o jerrqllico.
Tabla 7.3
izquierda; si los efectos interaccionasen, las rectas no serian paralelas, como cu el diagrama
NiveldeA de la derecha. Si los factores tienen varios niveles, Una gnifica de este tipo es til en la
interpretacin de cualquier interaccin.
Desafortunadamente la situacin experimental se confunde por la presencia de errores
10 12 aleatorios, El lector puede comprobar que para la tabla 7.3, un ANOVA de dos factores da
Nivel de B
cero para la suma de cuadrados residual si el valor faltantc se considera como 17, pero si
15 ?
uno de los valores se modifica, esto ya no es asi. Con este diseo del experimento no
podemos valorar hasta que punto una suma de cuadrados residual que no es cero es causada
por el error aleatorio, en lugar eleserlo por la interaccin entre los dos efectos. Para estimar
con A en a2 tambin debera ser 5, de manera que el valor final en la tabla debera ser 17.
Observe que entonces el efecto de cambiar A del nivel a al nivel 2 . d el error aleatorio se debe repetir las mediciones en cada celda de la tabla. Es importante la
di del ni I a2 es ,In epen- forma exacta de esta repeticin. Supongamos, por ejemplo, que una determinacin consiste
ienternente el nivel de B. En general si los resultados
bl 7 4 ' ' son como se muestran en la en disolver un peso dado de una especie en IUI volumen especificado de agua y posterior-
ta a . y son ajenos al error aleatorio, entonces Y2 - YI es igual a)' y SI' 1 f t
4 - 3 os e ec os son mente en titularlo frente a una disolucin cstaudar. Las mediciones repetidas deben incluir
tanto la etapa de pesar COIIlO la de titular: si slo se repitiese la etapa de titular, el error
aleatorio producido al pesar no estara incluido en la estimacin del error experimental.
Tabla 7.4
Adems, si el mismo lote ele disolucin estndar y el mismo conjunto de material de vidrio
Nivel deA no se utilizan para todas las determinaciones en el experimento, entonces l/O se debe utilizar
el mismo Jote de disolucin estndar y el mismo conjunto de material de vidrio para las
mediciones repetidas. Las mediciones que se repiten de manera que est.in sujetas a todas
YI Y2 las fuentes de error aleatorio en el experimento se llaman rplicas. En el ejemplo siguiente
Nivel deB
se aclara cl mctodo por el cual se puede separar el error aleatorio y la suma de cuadrados
de la interaccin.
(i)
( i i) Tabla 7.5
/ N i v e l de A' a,
El primer paso en los clculos es encontrar los totales de celda. Esto se hace en
~---'------L- _ la tabla 7.CJ, que tambin incluye otras cantidades necesarias en los clculos. Como
b2 antes, T, denota el total de la fila r-sima, el T el total de la columna j-sima y T el
Nivel de B gran total.
Nivel de B
Se calculan las sumas de cuadrados entre filas, entre columnas y del total. Cada
Figura 7.2 (i) Efectos que son aditivos; (ii) efectos que interaccionan. clculo requiere el trmino r-/I/rc (donde 1/ es el numero de mediciones repetidas en
Tabla 7.6
de la i-sima fila y j-sima columna, es decir, la suma de las mediciones replicadas en
Concentracin (gil) A(nm) 240 270 300 350 L. 1f. la i-sima fila y la j-sima columna.
0.02 190 214 99 159 662 438244
0.06 186
Suma de cuadrados residual = I.X~k - I.yt/n
211 95 156 648 419904
0.10 187 213 99 157 656 430336 = 172138 - 344244/2
Tj.563 638 293 472 T= 1966 1288484 I.n
1] 316969
= =16
407044 85849 222784
I.n ~ 10322646 con (n - l)rc = 12 grados de libertad.
J
La suma de cuadrados de la interaccin y sus grados de libertad se pueden obtener
ahora por diferencia. A continuacin se resumen los resultados de estos clculos.
cada celda, en este caso 2, r = nmero de filas y e = nmero de columnas). Aeste trmino
Fuente de variacin Suma de cuadrados Grados de libertad Cuadrado medio
se le denomina a veces trmino de correccin, C. Tenemos:
Entre filas 12.34 2 6.17
Entre columnas 11059.506 3 3686.502
e = T'[nrc = 19662/(234) = 161048.16 Interaccin 1.994 6 0.3323
Residual 16 12 1.3333
Se calculan ahora las sumas de cuadrados:
Total 11089.84 23
Suma de cuadrados entre filas = rn/nc - e Para probar si cada una de las fuentes de variacin es significativa se compara el cuadrado
medio de dicha fuente con el cuadrado medio residual.
= 1288484/(2 x 4) - 161048.16 (i) Interaccin. sta es obviamente no significativa ya que el cuadrado medio de la
= 12.34 interaccin es menor que el cuadrado medio residual.
(ii) Entre columnas (es decir, entre longitudes de onda). sta es significativa ya que
con r - 1 = 2 grados de libertad tenemos:
= 1032646/(23) -161048.16 El valor crtico de F3. 12 es 3.49 (P = 0.05). En este caso se esperaba un resultado significativo
ya que la absorbancia depende de la longitud de onda.
=11059.506
(iii) Entre filas (es decir, entre concentraciones). Tenemos:
con e - 1 = 3 grados de libertad.
h12 = 6.17/1.3333 = 4.63
Suma de cuadrados total = I.Xlk - e El valor crtico de F 2 12 es 3.885 (P = 0.05), indicando que la variacin entre filas es
demasiado grande para que se tenga en cuenta como variacin aleatoria: la solucin no es
donde Xijk es la k-sima rplica en la i-sima fila y j-sima columna, es decir, I.xlk
adecuada como un estndar de absorbancia. La figura 7.3 muestra la representacin de
es la suma de los cuadrados de las mediciones individuales que aparecen en la tabla la absortividad molar frente a la longitud de onda, y en ella los valores con la misma
7.5.
concentracin estn unidos por lneas rectas. Esto aclara los resultados del anlisis anterior
de la siguiente forma:
Suma de cuadrados total = 172138 - 161048.16
(i) las lneas son paralelas, lo que indica ausencia de interaccin;
= 11089.84 (ii) las lineas no son muy horizontales, 10 que indica que la absortividad molar vara
con nrc - 1 = 23 grados de libertad. con la concentracin;
(iii) las lineas se encuentran a diferentes alturas en la grfica, lo que indica que la
L~ variacin .debida al error aleatorio (nonnalmente llamada variacin residual) absortividad molar depende de la longitud de onda.
se estuna a partir de la variacin dentro de las celdas es decir la variacin entre
rplicas. La suma de cuadrados residual = hlk - I.yt/n donde Tij es ~l total para la celda
Las frmulas en los clculos anteriores se resumen en la tabla 7.7.
decir, si algunos laboratorios daban resultados inesperadamente altos o bajos para algunas
muestras. Esto se hace comparando la suma de cuadrados residual y de interaccin. Si /lO
hay ninguna interaccin, entonces se podra probar si los laboratorios obtuvieron resultados
significativamente diferentes, es decir, si existe diferencia sistemtica entre los laborato-
rios. Si existiese, entonces se podra estimar la varianza entre elIos. Sin embargo, si hay
alguna interaccin significativa, la prueba sobre diferencias significativas entre laborato-
rios tiene poca relevancia.
Para que un ANOVA de dos factores sea vlido se deben satisfacer las siguientes
condiciones (vase la Seco 3.9):
(i) el error aleatorio es el mismo para todas las combinaciones de niveles de los factores;
(ii) los errores aleatorios se distribuyen aproximadamente normales.
0.02 0.06 0.10 Un experimento como el del ejemplo anterior, en el que la variable de respuesta (es decir,
la absortividad molar) se mide para todas las combinaciones posibles de los niveles
elegidos de los factores, recibe el nombre de diseo factorial completo. El lector ha podido
concentracin, gil observar que este tipo de diseo de experimento es la anttesis de la aproximacin clsica
Figura 7.3 Relaciones en el ANOVA de dos factores del ejemplo de la seccin 7.7. en donde la respuesta se investiga para cada factor, mientras que el resto de los factores se
mantiene a un nivel constante. Hay dos razones de peso para utilizar un diseo factorial en
lugar de uno clsico, en experimentos que prueben si la respuesta depende del nivel del
En est~ ~xperimento los dos factores, es decir, la longitud de onda y la concentracin
factor:
de la.sol.uclOn, son factores controlados. En qumica analtica una aplicacin importante de
(i) el experimento factorial detecta y estima cualquier interaccin que el experimento
las te~Il1cas ANOV~ e~ in~estigar dos o ms factores controlados y sus interacciones en
de un factor cada vez no puede hacer;
experimentos de opnmtzacn. Esto se trata en la seccin 7.9. (ii) si los efectos de los factores son aditivos, entonces el diseo factorial necesita menos
mediciones que la aproximacin clsica para proporcionar la misma precisin. Esto se
Como se coment en la seccin 4.8, otra aplicacin importante de las tcnicas ANOVA
puede ver volviendo nuevamente al experimento de absortividad molar. All, las 24
se e~~l!entran en. las investigac.i~nes de colaboracin entre laboratorios, en cuanto a
mediciones se utilizaban para estimar el efecto de variar la longitud de onda y las mismas
prec~~lOn y exactltl~d. U~a ver~lOn .ms elaborada de los experimentos descritos en la
24 para estimar el efecto de variar la concentracin.
seccion 4.8 supondr~a enviar van~s tipos diferentes de muestras a una serie de laboratorios
En un experimento de un factor cada vez, en primer lugar se habra fijado fa concen-
y que c.a~a uno realIzase una sene de anlisis replicados sobre cada muestra. Un anlisis
tracin y, para obtener la misma precisin para el efecto de variar la longitud de onda,
;n~tematl.co de los resultado~ proporcionara las siguientes sumas de cuadrados: entre
habran sido necesarias 6 mediciones para cada longitud de onda, es decir, 24 en total.
~ ora tonos: entre mu~stras, mteraccin muestra-laboratorio, y residual. El objetivo de
Despus se habra fijado la longitud de onda y se realizaran otras 24 mediciones para
dicho expenmento sena probar primero si hay interaccin entre laboratorio y muestra, es
concentraciones diferentes, formando en total 48. En general, para k factores, una apro-
ximacin clsica supone k veces tantas mediciones como un factorial con la misma
precisin.
Tabla 7.7 Fnnulas para ANOVA de dos factores con interaccin
Fuente de variacin Suma de cuadrados Grados de libertad
Entre filas 7.9 DISEO FACTORIAL Y OPTIMIZACIN
ITiJnc
, - e r - 1
Entre columnas Puesto que con frecuencia las tcnicas analticas estn interesadas en la deteccin de trazas
IT'jnc - e e- 1
J
de anal ita, suele ser importante que los niveles de los factores de los que depende la
Inl'raccin
por diferencia por diferencia respuesta se elijan con vistas a maximizar la respuesta. El proceso de bsqueda de estos
Residuos niveles de factor ptimos se conoce como optimizacin.
Ix~, - ITtln rc(n - 1) En el primer paso se determinan los factores y las interacciones que afectan de manera
Total
Ix~, - e rcn importante a la respuesta. Esto se puede hacer utilizando un experimento factorial en el
que cada factor tenga dos niveles, conocidos habitualmente por "alto" y "bajo". En el caso (a) Efecto de los factores individuales. . . .
bi 1 . eles de P se puede hallar de la diferencia media en
de una variable cuantitativa los trminos "alto" y "bajo" tiene el significado usual. La El efecto de carn lar os I11V . fii
respuesta cuando P cambia el nivel alto al bajo y los nivele~ de ~ ~ T s~ mtntlel~el: I!o:i
eleccin exacta de los niveles se determina principalmente por la experiencia y el conoci-
Hay cuatro pares de respuestas ~u~ proporcionan una esumacion de e ecto e I11V
miento del experimentador y las restricciones fsicas del sistema, por ejemplo, si el agua
se utiliza como disolvente, slo se puede trabajar con temperaturas en el intervalo O-100C. P, como se muestra en la tabla siguiente.
Algunos problemas relacionados con la eleccin de los niveles se analizan ms adelante. Nivel de P
Para una variable cualitativa, "alto" y "bajo" se refiere a un par de condiciones diferentes, + Diferencia
Nivel de C Nivel de T
por ejemplo, la presencia o ausencia de un catalizador, el uso de agitacin mecnica o 9.9 4.7 5.2
magntica, muestras de forma granular o el polvo, etc. Como ya se han considerado 5.3 2.7 2.6
+ 8.0
experimentos con dos factores con cierto detalle, nos centraremos en uno con tres factores + 15.0 7.0
6.0 3.2 2.8
A, B Y C. Esto significa que hay 2 x 2 x 2 = 8 combinaciones posibles de niveles de + +
Total = 18.6
factores, como se muestran en la tabla siguiente. Un signo ms indica que el factor est en
el nivel alto y uno menos que est en el nivel bajo. La primera columna muestra una
Efecto promedio de alterar el nivel de P ~ 18.6/4 ~ 4.65
notacin utilizada a menudo para describir las combinaciones, donde la presencia de la
correspondiente letra en minscula indica que el factor est en el nivel alto, y su ausencia,
De manera similar se puede obtener el efecto promedio de alterar los niveles de T y C.
que el factor est en el nivel bajo. El nmero 1 se utiliza para indicar que todos los factores
Se deja como ejercicio para el lector demostrar que ellos son:
estn en el nivel bajo.
El proceso de optimizacin se puede visualizar como un hombre en una colina con niebla
espesa y que pretende Ilegar a la cima. En estas circunstancias una aproximacin obvia es
caminar en la direccin en que la colina tenga mayor pendiente. sta es la base del mtodo
del gradiente. La figura 7.7 muestra dos mapas posibles de curvas de nivel. Un simple Diagrama de curvas de nivel: un caso en el que el mtodo de un factor cada vez no
Figura 7.6
razonamiento demuestra que la direccin de mxima pendiente en cualquier punto r;e sirve para localizar el mximo.
(i)
(ii)
>-
Cll
'tl
-a; 2 ,,7f
>
Z )I;-----~""
tan e = 4/5
l
4 3
Figura 7.7 Diagramas de las curvas de nivel: la flecha en cada diagrama indica el camino de la
mxima pendiente. En (i) se dirige aproximadamente al mximo pero en (ii) no. Nivel de X
Figura 7.8 Un diseo factorial 2 x 2 para determinar la mxima pendiente, que est indicada por
encuentra en ngulo recto a las curvas de nivel en dicho punto, como se indica con las la lnea de trazo discontinuo.
flechas. Cuando las curvas de nivel son crculos, las flechas apuntarn a la cima, pero
cuando sean elipses puede no cumplirse lo anterior. La forma de las curvas de nivel depende
Los efectos de X y de Y indican que en la figura 7.8 se buscara la mxima respuesta a la
de las escalas elegidas para los ejes: se obtienen los mejores resultados con este mtodo si
derecha y por encima de la regin original. Ya que la variacin en la direccin de X
se toma una escala de los ejes de manera que un cambio de una unidad en cualquier
es mayor que en la direccin de Y, el incrementro a dar en la direccin de la X tendra que
direccin d un cambio aproximadamente igual en la respuesta. El primer paso es realizar
ser mayor. Para ser ms exactos, los incrementos en las direcciones de X y Y tendran
un experimento factorial con cada factor a dos niveles. Los niveles se eligen de tal manera
que estar en razn de 5 a 4 respectivamente, es decir, en la direccin indicada por la lnea
que el diseo forme un cuadrado como el que se muestra en la figura 7.8. Suponga, por
de trazo discontinuo de la figura 7.9.
ejemplo, que el experimento es una reaccin (catalizada por enzimas) en la que la tasa de
El paso siguiente en la optimizacin es realizar otros experimentos en la direccin
reaccin, en este caso es la respuesta, se quiere maximizar respecto del pH (factor X) y la
indicada por la lnea discontinua en la figura 7.9, digamos que en los puntos cuya
temperatura (factor Y). La tabla siguiente proporciona los resultados (tasa de reaccin
medida en unidades arbitrarias) del experimento factorial inicial. numeracin es 5, 6 y 7. Esto indicara que el punto 6 es una posicin aproximada para el
mximo en esta direccin. Entonces se lleva a cabo otro experimento factorial en la regin
pH (X) del punto 6 para determinar la nueva direccin de la mxima pendiente.
~ Este mtodo proporciona una forma satisfactoria de progresar en direccin al mximo,
68 7.0 con tal que sobre la regin del diseo factorial, las curvas de nivel sean aproximadamente
20 30 35 rectas. Esto es equivalente a que la superficie de respuesta sea plana, lo que se puede
Temperatura ('C)
25 34 39 describir matemticamente por una combinacin lineal de trminos en x y y. Al estar ms
cerca de la cumbre son tambin necesarios trminos en xy, x 2y y2. El trmino xy representa
Los efectos de los dos factores se pueden separar segn se describi en la seccin 7.9. la interaccin entre X y Y y se puede estimar utilizando la replicacin como se describi
Escribiendo de nuevo la tabla anterior, con la notacin de esa seccin, resulta: en la seccin 7.9. Los trminos cuadrados, que representan la curvatura de la superficie,
se pueden estimar comparando la respuesta en el centro del diseo factorial con el promedio
Combinacinde niveles Tasa de reaccin
1
de las respuestas en las esquinas. Cuando los efectos de curvatura e interaccin se hacen
30
x ms apreciables en comparacin con el error experimental (que se estima mediante
35
y 34 replicacin) se emplea un diseo factorial ms elaborado que permite determinar la forma
xy 39 de la superficie curva y, por lo tanto, la posicin aproximada del mximo. .
Es evidente que el diseo factorial y el mtodo del gradiente sern muy comphcados
Efecto promedio del cambio en el nivel de X = [(35 - 30) + (39 - 34)]/2 = 5 cuando existan varios factores implicados. La siguiente seccin describe un mtodo de
Efecto promedio del cambio en el nivel de Y = [(34 - 30) + (39 - 35)]/2 = 4
optimizacin que es conceptualmente mucho ms simple.
ro
-"-
::J
ro
"-
di
a.
E
~
Factores
A B e D E Respuesta
Vrtice 1 1.0 3.0 2.0 6.0 5.0 7
Vrtice :2 6.0 4.3 9.5 6.9 6.0 8
Vrtice 3 2.5 11.5 9.5 6.9 6.0 10 >-
Cll
'O
@
Vrtice 4 (rechazado) 2.5 4.3 3.5 6.9 6.0 6
Qj
Vrtice 5 2.5 4.3 9.5 9.7 6.0 11 >
2.5 4.3 9.5 6.9 9.6 9
Z
Vrtice 6
(i) Suma (vrtice 4 excluido) 14.50 27.40 40.00 36.40 32.60
(ii) Suma /11 (vrtice 4 excluido)
(iii) Vrtice rechazado (es decir, 4)
(iv) Desplazamientos = (ii) - (iii)
(v) Vrtice 7 = (ii) + (iv)
2.90
2.50
0.40
3.30
5.48
4.30
1.18
6.66
8.00
3.50
4.50
12.50
7.28
6.90
0.38
7.66
6.52
6.00
0.52
7.04
@
Derning (vase la bibliografa), que demuestran que el tamao del simplex inicial no es
tan crtico si se puede expandir o contraer segn se procede con el mtodo. Yarbro y
Deming citan un algoritmo que se puede utilizar para calcular las posiciones iniciales de
los vrtices; un vrtice normalmente se coloca en los niveles de los factores aceptados Nivel de X
actualmente.
Figura 7.11 Diagrama de lneas mostrando dos mximos localizados.
Se puede ver que, al contrario de un diseo factorial, el nmero de experimentos
exigidos en el mtodo simplex no crece rpidamente con el nmero de factores. Por esta
razn todos los factores que se piense que pueden tener relacin con la respuesta deberan
ser incluidos en la optimizacin, Ya que al hacerlo as no se incrementar el nmero de 7.13 RECONOCIMIENTO DE PAUTAS
experimentos necesarior para definir el ptimo.
Una vez que se ha encontrado un ptimo, el efecto sobre la respuesta cuando se vara El avance en la automatizacin ha hecho posible la recoleccin rpida de grandes cantida-
un factor mientras los otros se mantienen a sus niveles ptimos, se puede analizar cada vez des de datos, y el desarrollo de los microcomputadores ha hecho posible procesar e~t~s
para cada factor. Este procedimiento se puede utilizar para verificar la optimizacin. datos con mayor perfeccionamiento. El trmino quimiometra se ~Ia acua~~ para.d~scn~~r
Tambin indica la importancia de las desviaciones del nivel ptimo para cada factor; cuanto los mtodos estadsticos y matemticos diseados para extraer informacin qumnca til
ms acusado es el pico de respuesta en la regin del ptimo, ms crtica es la variacin en a partir de los datos qumicos. La optimizacin es un campo cubierto por el paraguas de la
el nivel del factor. quimiometra; otro es el campo del reconocimiento de pautas, que ahora pasamos a des-
La optimizacin por simplex se ha utilizado con xito en muchas reas de qumica cribir. .
analtica, por ejemplo, espectrometna de absorcin atmica, cromatografa de gases, Una consecuencia de la automatizacin es que se pueden determinar muchos parame-
mtodos de anlisis calorimtricos, espectrometra de plasma y analizadores centrifugas tros simultneamente para la misma muestra, por ejemplo, en qumica clnica, cromato-
en qumica clnica. Cuando un instrumento se conecta con microcomputador, se pueden grafa y anlisis de emisin atmica. En qumica analtica se utili~an dichos c~atos en las
utilizar los resultados de la optimizacin del simplex para iniciar mejoras en la variables pruebas de significacin, por ejemplo, determinar si un derramamlent~ de aceite procede
instrumentales. de una fuente concreta, utilizando las intensidades y/o las frecuencias de los muchos
Para superficies de respuesta con ms de un pico, como la expuesta en la figura 7.11., mximos obtenidos en el espectro de fluorescencia o infrarrojo de dichas muestras. Otro
los dos tipos de optimizacin descritos pueden encontrar un ptimo local tal como A en uso es la clasificacin, por ejemplo, dividir las fases estacionarias utilizadas en c~omato
lugar del ptimo verdadero B. Una forma de verificar este punto es empezar en una regin grafa gas-lquido dentro de grupos con propiedades similare~, ~ltiliza~ldo las propiedades
diferente y ver si se obtienen las mismas condiciones de ptimo. Los mtodos de optimi- de retencin de una variedad de solutos con propiedades qumucas diferentes. En ambos
zacin proporcionan informacin slo sobre algunas partes de la superficie de respuesta, casos los mtodos ele reconocimiento de pautas utilizan los elatos disponibles simultl~ea
ya que su objeto es maximizar la respuesta con el mnimo esfuerzo. Si se requiere un cuadro mente en lugar de secuencialmente. El conjunto de meelidas que se utiliza para caractenzar
completo de la superficie de respuesta, son necesarios experimentos ms elaborados que la muestra se denomina pauta. Cuando slo se mielen dos parmetros para cada muestra, la
cubran todo el intervalo de las variables. pauta se puede representar grficamente por un punto, como se muestra en la figura 7.12,
constituyen ms a la variacin entre los vectores de pautas. Las variables restantes, que
llevan poca informacin extra, se pueden rechazar. De hecho, si se utilizan demasiadas
variables, puede resultar una separacin en clases aleatoria y sin sentido qumico, o el
>- "ruido" de los parmetros superfluos puede oscurecer la existencia de clases.
o ( xi' Yi)
=
E
Yi
GI
-------------- Esencialmente hay dos procedimientos diferentes para el reconocimiento de pautas,
dependiendo si se utiliza para pruebas de significacin o clasificacin. En el primer caso
'Cll
~
se conocen las clases en que puede caer una muestra, y el objetivo es clasificar una muestra
Cll
a, de clase desconocida por su pauta. En el caso del ejemplo de derramamiento de aceite, una
r. muestra puede proceder de una de entre varias fuentes diferentes: cada fuente forma
_L
una clase y el propsito del reconocimiento de pautas es identificar la clase y, por lo tanto,
la fuente de la muestra. En el segundo caso se trata de ver si las pautas obtenidas caen en
grupos naturales; aqu no se espera ningn conocimiento a priori de las clases. Estas dos
aproximaciones diferentes al reconocimiento de pautas se denominan, a veces, aprendi-
zaje supervisado y no supervisado, respectivamente. Utilizan mtodos diferentes y ahora
pasamos a describirlas.
XL
Figura 7,12 Una pauta representada en el espaciode pautas; Xi y Yi son los valoresde los par- La situacin ms simple es aquella en la que una muestra puede pertenecer a una de dos
metrosX y Y; Ti es el vectorde pautas. clases: se conoce como clasificacin binaria. Para el caso'de dos parmetros se encuentra
reflejada en la figura 7.14. Para encontrar un criterio o clasificador para separar las dos
clases, se utiliza un conjunto de datos de pautas para muestras en las que se conoce la clase
donde las coordenadas del punto son los valores tomados por los dos parmetros. El
de la que son miembros. Este conjunto de datos se divide (utilizando nmeros aleatorios)
punto se puede definir tambin por un vector, dibujado desde el origen y conocido como
en dos partes llamadas el conjunto de orientacin y el conjunto de prediccin. El
un vector de datos o de pautas; el sistema coordenado se conoce como espacio de pautas.
conjunto de orientacin se utiliza para encontrar la posicin de un plano, el plano de
La base de todos los mtodos de reconocimiento de pautas es que los vectores de pautas
decisin, que separa las dos clases. Una manera simple de hacerlo es utilizar el plano de
para muestras similares se sitan con mucha proximidad en el espacio de pautas, formando
simetra entre los centros de gravedad de las dos clases. Esto significa que se asigna
conglomerados. En dos dimensiones este conglomerado se puede detectar con facilidad
un vector de pautas desconocido a la clase que tenga su centro de gravedad ms prximo
por el ojo humano. Sin embargo, cuando se miden ms de dos parmetros, ya no es posible
al vector. La distancia d entre dos puntos en un espacio 11 dimensional con coordenadas (x
la representacin grfica: si se miden 11 parmetros, cada muestra se representar por un
X2, ... , XII) Y (YI, Y2, ... , YII) se calcula habitualmente como la distancia eucldea, dada por la
punto en un espacio 11 dimensional y se necesitan mtodos matemticos para detectar
expresin:
conglomerados. Uno de dichos mtodos, conocido como anlisis de componentes prin-
cipales, permite proyectar los vectores de pautas sobre un plano, de tal forma que se pierda n
tan poca informacin como sea posible. La figura 7.13 ilustra el principio del mtodo en d2 (X,- yy
,~l
la situacin en que hay slo dos parmetros. El diagrama muestra dos grupos bien definidos
de vectores de pautas y dos lneas posibles sobre las que se podran proyectar los puntos,
Este mtodo es satisfactorio si las clases forman conglomerados compactos pero, si no es
reducindose de este modo el nmero de dimensiones de 2 a l. La proyeccin sobre la lnea
as, se puede obtener una separacin ms efectiva utilizando mtodos ms perfecci~n~dos.
A mantendra tanta diferencia como fuese posible entre los dos grupos, mientras la
Uno de estos es el mtodo de la mquina de aprendizaje. Se trata de un procedimiento
proyeccin sobre la lnea B oscurecera la diferencia. En este caso, se debera hacer
iterativo que utiliza retroalimentacin (jeed-back) negativa. Tomando en primer lugar
una proyeccin sobre la lnea A. Las lneas A y B representan combinaciones lineales de
como plano de decisin el plano de simetra entre los dos centros de gravedad, se prueban
las variables originales. De manera similar, el anlisis de componentes principales permite
una a una las pautas del conjunto de orientacin. Si se obtiene una clasificacin incorrecta
hacer una proyeccin de n a 2 dimensiones, de tal forma que se conserva tanto corno sea
se ajusta el plano de decisin para rectificar esto. El mtodo de la mquina de aprendizaje se
posible la diferencia entre los vectores de pautas. De nuevo, los ejes del plano sobre los
denomina as debido a que "aprende" de los errores en la clasificacin del reajuste
que se realiza la proyeccin representan combinaciones lineales de las variables originales.
requerido en la posicin del plano de decisin. Si suponernos que se puede separar dos
En muchos casos, slo algunas de las variables originales figuran significativamente en
clases por un plano, este procedimiento conduce, eventualmente, a la posicin de dicho
estas combinaciones lineales, y de este modo se pueden identificar las variables que
plano. Si las clases no son separables por un plano, entonces es preferible el mtodo de
Plano de decisin
.
A //
/ O
.
~
/
Clase 2 O Clase 1
>-
< /
.,III
j'
e"
//
/
/
-
E
...
o
Ql
O O
O O
...
/ 'ClI
(D O
.... /
/ ClI
o..
o / O O
/ O
/
o //
/ O
O
,
';;j ,
/ O
/
/
/
/ o
o
(i) /
-,
, -, Parmetro X
Variable 2
"-, -,
Figura 7.14 Dos clases separadas por un plano de decisin.
"
mnimos cuadrados. Este mtodo minimiza una suma de cuadrados que estima los errores
en la clasificacin. Determinar la posicin del plano de decisin se puede tambin tratar
.
A como un problema de optimizacin, resoluble por el mtodo de simplex: el plano de
, decisin se puede definir por un vector ortogonal a l y las componentes de este vector son
~
.,~
j'
e"
(D
/. /
los factores que se variarn de nivel. La respuesta que se maximiza es la proporcin de
pautas del conjunto de orientacin que se encuentran clasificadas correctamente.
Cuando la posicin del plano de decisin se ha fijado, la efectividad del plano de
.... /
/ decisin para separar las dos clases se puede probar utilizando el resto del conjunto
/ de datos, es decir, el conjunto de prediccin: cada muestra se clasifica por su pauta, y el
, /
porcentaje clasificado correctamente proporciona una estimacin objetiva de la eficiencia
(ii)
",
" B
/
,,
,
0/
0)3 del clasificador.
En la prctica, antes de aplicar el procedimiento de reconocimiento de pautas, se
deberan escalar las variables (que pueden venir medidas en valores numricos diferentes),
de modo que no dominen las variables con los valores ms grandes. Se puede hacer tambin
un intento preliminar para ponderar las variables para optimizar la clasificacin. Despus
de contrastar el clasificador, se pueden revisar de nuevo estos factores de ponderacin.
Variable 2 Cuando hay ms de dos clases que se van a separar, se pueele utilizar una serie ele
clasificaelores binarios. Un mtodo alternativo, que es conceptualmente muy simple, es el
mtodo del K entorno ms prximo (KNN, Kincarest neighbour; en ingls). Este mtoelo
tambin tiene la ventaja ele que se pueele utilizar cuando no se pueelen separar las clases
por un plano, como se ilustra en la figura 7.15. En la forma ms simple eleseparacin, cada
Figura 7.13 muestra se clasifica en la misma clase que el entorno ms prximo. Alternativamente se
Proyec~in de ?untos desde dos dimensiones a una dimensin; (i) muestra de pun-
tos originales; (11) muestra sus proyecciones sobre dos ejes diferentes, puede tomar los K entornos ms prximos (donde K es un entero pequeo) y decidir por
( i) (ii)
4
0
> o 0 5
-....o
OJ
.....E
oo
a s s 2
~
~
1
O O
a.
O O
O
oC cis.. 1
(iii) (iv)
O
4
~5
O O
3 5
1
Parmetro X
Figura 7.15 Dos clases que no se puede separar por un plano, Figura 7.16 Etapas en el conglomerado de pautas: O representa un punto original, representa
el nico punto que se sustituyea un par de puntos.
un esquel~a de v~tacin los miembros de la clase. Se toma normalmente un valor impar puntos que estn ms prximos y los sustituye por un nuevo punto en la mitad de ambos.
para K a fin de evitar empates. En una versin ms compleja se puede dar diferentes pesos Este procedimiento se repite y si se contina indefinidamente agrupar todos los puntos
a los entornos, dependiendo de su distancia relativa. Con este mtodo no es necesario hacer juntos como se muestra, por pasos, en la figura 7.16. En estos diagramas se unen por una
ninguna divisin del conjunto de datos en conjuntos de prediccin y orientacin; se pueden lnea los pares de puntos que han sido emparejados juntos y se sustituyen por un nico
utilizar todos los datos para estimar la eficiencia del mtodo. punto. As, en cada etapa, se unen los grupos de puntos que estn clasificados juntos. Las
Las aproximaciones al reconocimiento de pautas descritas hasta ahora han considerado etapas sucesivas del agrupamiento se puede mostrar en un dendrograma como el de la
slo la distancia entre puntos y no su orientacin relativa en el espacio. Dichos mtodos figura 7.17. El eje vertical muestra la semejanza, sij, entre los dos puntos i y i. se calcula
son no paramtricos, es decir, ningn modelo se propone para la distribucin en el espacio segn la expresin siguiente:
~e pa:ltas de l.as muestras de~tro d~ una clase. Por el contrario, el programa de computador
SIMCA (debido a Wold), disponible comercialmente, utiliza el conjunto de datos para Sij = J -d;ldmx
formar un I.nodelo matemtico de cada clase. Entonces es posible calcular para cada clase
la probabIlIdad de que una muestra desconocida pertenezca a esa clase. donde dij es la diferencia entre los puntos i y j y d mx es la distancia mxima entre cualquier
Al~unos de los campos en que se han aplicado los mtodos de reconocimiento de pautas par de puntos. Obviamente, la semejanza toma valores de O (para puntos coincidentes) a l
supervIsadas, son: pruebas de diagnstico en qumica analtica ciencia forense la identi- (para los dos puntos ms alejados). La etapa en la que se detiene el agrupamiento, y que
ficacin de fuentes de polucin, qumica de alimentos y la ~rediccin de la 'estructura determina el nmero de grupos en la clasificacin final, se debera decidir por un criterio
molecular a partir de los espectros. qumico. Una aproximacin opuesta trata todas las pautas inicialmente como un grupo, y
despus las subdivide.
Como se mencion anteriormente, los mtodos de aprendizaje no supervisado han sido
7.15 MTODOS DE APRENDIZAJE NO SUPERVISADOS utilizados para clasificar la gran cantidad de fases que se presentan en cromatografa
gas-lquido. Se puede entonces seleccionar un pequeo conjunto referido de fases con
El lector re~~rdar que stos son los mtodos que se utilizan para decir si un conjunto de caractersticas diferentes tomando una fase de cada clase. Otra aplicacin es la clasificacin
pautas se divide naturalmente en grupos. Existe un gran nmero de mtodos de bsqueda de los antibiticos por su accin frente a los diferentes tipos de bacterias, para clasificar la
de conglomerados en el espacio de pautas. Una aproximacin agrupa, juntos, el par de relacin entre actividad biolgica y estructura molecular.
Massart , D. L., Dijkstra, A, y Kaufman, L., Evalnatiou and Optmurntioa of Laboratory Methods
and Analytical Proccdures. Arnstcrdam, Elscvicr, 1978. Una valiosa fuente de informacin de los
temas de este capitulo. Incluye muchos ejemplos extra idos de la bibliografa y proporciona un gran
S, nmero de referencias adicionales.
I J
Varmuza, K., Palien Recognition in Chemistry. Berlm, Springer- Verlag, 1980. Proporciona un
1 2 tratamiento detallado de los mtodos y aplicaciones del reconocimiento de pautas.
3 4 5
1.01- Yarbro, L. A., Y Deming, S. N., Anal. Chim. Acta, 1974, 73, 391. Discute la eleccin del simplex
inicial.
Betteridge, D., Wade, A. P. Y Howard, A. O., Talanla, 1985,32,709,723. Buena fuente de referencias
de los mtodos sirnplex, compara varias aproximaciones.
EJERCICIOS
Laboratorio
Muestra I 2 3
A 5.1,5.1 5.3,5.4 5.3,5.1
B 5.8,5.4 5.4,5.9 5.2,5.5
C 6.5,6.1 6.6,6.7 6.5,6.4
Figura 7.17 Un dendrograma para los puntos de la figura 7.16.
Compruebe que no existe interaccin significativa laboratorio-muestra y pruebe las diferencias
significativas entre laboratorios.
Queda claro que el reconocimiento de pautas se puede utilizar para establecer relacio- 2. Si la respuesta en el vrtice 7 en el ejemplo de la optimizacin simplex (pg. 170) es 12, qu
nes ql~e de otra. forma podran quedar ocultas en una masa de datos. Es un mtodo que se vrtice se rechazar al formar un nuevo sirnplex y cules son las coordenadas del nuevo vrtice?
ha aplicado recientemente en qumica analtica: su potencial como un medio de anlisis de
3. Se prepararon cuatro soluciones estndar, cada una conteniendo un 16% de cloruro calculado
datos no se ha evaluaelo por completo. Existen varios paquetes disponibles de programas por pesada. Para analizar cada disolucin estndar se emplearon tres mtodos de titulacin, cada
elecomputador aparte elel SIMCA. Uno ele ellos es ARTHUR (desarrollado por Kowalski) uno con una forma diferente de determinar el punto final. El orden de los experimentos fue
que contiene programas para muchos mtodos, incluidos los descritos aqu. aleatorio, Los resultados del cloruro (%w/w) se muestran a continuacin:
Mtodo
Solucin A B C
BIBLIOGRAFA 1 16.03 16.13 16.09
2 16.05 16.13 16.15
Box, O. E. P, Hunter, W. O., y Hunter, 1. S., Statisticsfor Experimentalists Nueva York Wiley 1978 3 16.02 15.94 16.12
amiento d eta IIa d o de los diseos factorial completo y fraccional
Prop ~rcIOna un t.ra tarni " ,
y del mtodo de. 4 16.12 15.97 16.10
la maxuna pendiente,
Pruebe si existen diferencias significativas entre (a) la concentracin de cloruro en las diferentes
soluciones y (b) los resultados obtenidos por los diferentes mtodos.
Cooper, B. E., Statistics for Experimentalisis, Oxord, Pergarnon Press 1975. Proporcion d t II
adIcIOnales de ANOVA. ' a e a es
4. Para conocer el contenido en nitrovina, se analizaron cuatro muestras diferentes de alimentos
;ox: D. R, Planning of EXJcrilllc11ls, Nueva York, Wiley, 1958. Un tratamiento no matemtico hervidos por dos mtodos diferentes, cada uno por duplicado. Los resultados se muestran en la
cstinado al trabajador experimental. Proporciona detalles adicionales de los cuadrados Latinos. tabla siguiente (concentracin en mg/kg). Pruebe si los resultados obtenidos por los mtodos
difieren significativamente.
Davis, J. c., Statistics and .Data Analysis in Gcology, Nueva York, Wiley, 1973. Informa con
sufiCiente claridad del ana liSIS de componentes principales. Alimentos Mtodo HPLC Mtodo Espectrofotomtrico
1 9.3, 10.0 9.0, 10.2
Kowalski, B. R (Ed.), Chemometrics: Theory and Application Washington American Chemic I 2 9.3, 12.3 9.0, 11.8
Soclety, 1977, Contiene articulos sobre SIMCA y ARTHUR' , a
3 12.8,12.7 12.9,12.0
Kryger, L., Talanta, 1981,28,871. Un compendio de las aplicaciones de los mtodos del recono- 4 11.9,11.8 11.6,12.1
cunienro de pau tas
as aa laa oui . 1uyendo muchas referencias de trabajos originales.
quuruca, lile (Adaptado de Gliddon, M 1., Cordon, C. y Parnham, O. M., Analyst, 1983, 108, 116.)
5. La temperatura efectiva del vapor de estao, calculada de la razn de absorbancias de dos lneas
espec~rales, fue comparada con respecto a la temperatura real bajo diferentes condiciones
expenmentales en un tubo de cuarzo calentado. Los resultados se muestran en la tabla siguiente
(valores en C). Calcule el efecto principal y de interaccin.
Temperatura efectiva
20 60 20 60
Temperatura real (C) 900 843 826 852 855
{ 1000 908 873 908 908
(Adaptado de Welz, B. y Melcher, M., Analyst, 1983,108,213.)
(Adaptado de Bertenshaw, M. P., Gelsthorpe, D. y Wheatstone, K. c.,Analyst, 1982,107, 163.) 3. Las poblaciones de anticuerpos monoclonales son homogneas, de aqu que el nmero
de posiciones de enlace por molcula deba ser un nmero entero -obviamente dos
en este caso. Los resultados son, en este caso, precisos, pero muestran clara evidencia
de un error sistemtico que produce valores bajos.
e~ua.cin (3.5) es 7. Valor crtico ~ 2.36 (P = 0.05, dos colas). La m~dias no difieren Entre das 332.92 3 111
sigm ficati varnente, 8 3.25
Dentro de das 26.00
358.92 11
Total
8. (a) Frecuencias esperadas ~ 15.25 Y45.75, suponiendo que el nmero de roturas est
en proporcin al nmero de trabajadores en cada grupo, mientras que las frecuencias F ,s = 34, Valor crtico = 4.066 (P = 0.05) demostrando que las concentraciones medias
difieren significativamente. Estimacin de la varianza muestral ~ (111 - 3.25)/3 = 35.9.
3
reales S~I~ 24 y 37; 1 grado de libertad l ~ 5.95 (Se aplica la correccin de Yates).
Valor cntico = 3.84 (P = 0.05). El primer trabajador difiere significativamente de los
otros tres. 3. Los clculos del ANOVA se resumen a continuacin:
(b) Para .Ios ltimo~ tres trabajadores las frecuencias esperadas = 12.33, 12.33,
12.33 (~s decir, 37/3);.X" = 2.81; 2 grados de libertad. Valor critico ~ 5.99 (P = 0.05). g.1. cuadrado medio
Fuente de variacin Suma de cuadrados
Los ltimos tres trabajadores no difieren significativamente unos de otros. 3 0.0008306
Entre muestras 0.0024916667
8 0.000175
Dentro de muestras 0.0014
9. En primer lugar debemos probar si las varianzas difieren significativamente: F ~ 11
122 -no srgrn
. 'f'icanvo
. 2,2 Total 0.0038916667
(P ~ 0.05, dos colas). Entonces se puede calcular una estima-
F 3 , 8 = 4.746. El valor crtico (P ~ 0.05) es 4.066, demostrando que el cuadrado m d'
e~t~e muestras es demasiado grande para ser explicado por variacin en las e 10 De las columnas D y T de la tabla, es fcil calcular que la estimacin de u~ = 0.793, Y
diciones, me- que la estimacin de a2 = 11.027. El valor experimental de F 14 14 es 11.027/0.793 =
El cuadrado medio dentro de muestras 0000175 . '. 13.095: ste es mucho mayor que el valor tabulado (ca. 2.48, obtenido de la tabla A.2
.
Ia varianza di' . 2 ' . , proporcIona una estimacin de
e as mediciones, uo. por interpolacin), mostrando que los errores sistemticos son de hecho significativos.
Esti.macin de la v~rianza muestral, u~ = 0.0008306 - 0.000175)/3 = 0.000219 Se pueden estimar de la ecuacin (4.3), siendo el resultado de u~ = 5.117.
Var~anza de la medl~ para el esquema 1 = 0.000175/4 + 0.000219/6 = 0.00008025
Varianza de la media para el esquema 2 ~ [0.000175/ (2 x 3)] + 0000219/3 .
0.0001022. . = CAPTULO 5
1. La aplicacin de la ecuacin (5.2) a los datos proporciona un coeficiente de correlacin
4. Se realiza una estimacin de a2 de cada muestra, dando: 2.607 0.847 3017 3633 producto-momento, r, de -0.8569. Este valor sugiere una correlacin negativa consi-
~.927. El promedio de estos valores es 3.077. Entonces'la estl'm' '., 'd' , derable entre el nivel de mercurio y la distancia al polargrafo. Su significacin puede
'13.077 = 1.753. acion e u =
ser probada utilizando la ecuacin (5.3), que proporciona un valor de t de 3.33. La
Las lneas de alerta se encuentran en 50 2 1 75 rrr comparacin de este valor con el valor tabulado de t a un nivel de confianza del 95%
. 3/v4 , es decir, en 48.25 y 51. 75
Las lneas de accin se encuentran en 50 3 1 7 rr; y n - 2 (= 4) grados de libertad (t = 2.78) muestra que la relacin es de hecho
. 53/v 4 ,es decir, en 47.37 y 52.63.
significativa a este nivel de confianza. Sin embargo, hay dos advertencias, (1) este
5. Clculos ~imples muestran que las c.oncentraciones medias de Cd en las muestras A mtodo prueba slo una correlacin lineal, mientras que en el laboratorio podramos
B, determmadas por los 15 laboratorios son 701 Y775 . Y esperar que el nivel de mercurio decrecera con el incremento de la distancia al
, . . ppm respectIvamente Cuando
se representa en una carta de dos muestras el punto (7 75 701) dib . ' . polargrafo de forma inversamente proporcional al cuadrado de la misma; (2) COrre-
d '1 1]' I . . ,. , y se I ujan a traves
e e al mea. iorizontal y vertical, los cuatro cuadrantes generados contienen (leyen lacin no es lo mismo que causa. Los clculos muestran que existe una relacin entre la
do en e sentido de las aguja d I loi
s e re OJ a partir. del cuadrante + +) 6 1 7 1 - distancia al polargrafo y la concentracin de mercurio -no prueban que el polar-
~.~te res~ltado es tpico de un ejercicio de colaboracin de este 'tipo, ~ ;ugi~re ~~:t~:~ grafo sea la fuente de la contaminacin de mercurio. La contaminacin podra surgir,
si~~en.~~as grandes entre los 15 laboratorios son debidas fundamentalmente a errores por ejemplo del fregadero o de otra pieza del equipo prxima al polargrafo.
na ICOS. Hay que hacer constar que slo cuatro laboratorios (7 9 12 Y 13)
resulltabdos qu~ estn bastante cercanos a las medias de ambas mu~st~as mien~r:l;eqr:~ 2. En este caso la ecuacin (5.2) muestra que r = 0.99982. Esto es sintomtico de una co-
I os a oratorios 3 y 10 pos
. een para am bas muestras grandes ses ' .. rrelacin lineal, aunque inspeccionando los datos se muestra claramente que una curva
negatIvos, respectivamente. Las distancias en perpendicular desde 10;op:~OSltlVOS .y es en ms adecuada en este caso, Cada valor de y (absorbancia) es ms grande que su
mentales a la lnea de 45 ue a (77 os expen- predecesor, pero con un incremento que decrece lentamente cuando x aumenta. La
lab tori . . q p sa por . 5, 7.01) mide los errores aleatorios de los
ora onos partlClpan.tes, y queda claro que los laboratorios 4 y 14 pueden t curvatura tambin puede demostrarse estudiando los residuos (vese el ejercicio 9).
grandes errores aleatorios en sus resultados. ener En este caso, los errores causados al tratar los datos como en una grfica de calibrcin
Para calcular los componentes de la variacin, se expone la tabla siguiente: lineal seran muy pequeos.
Laboratorio 3. Aplicando las ecuaciones (5.4) y (5.5) resultan unos valores de b = 0.0252, Y a = 0.0021
A B
1 D T respectivamente. Otros resultados importantes incluyen: x = 15; Y = 0.380; Ir; =
8.8 10.0
2
3.8
-1.2 18.8 2275; Y ~(Xi - X)2 = 700. Los residuos individuales (yi - Yi ) de y encontrados son
3 4.7 -0.9 8.5
10.1 12.1 -2.0 +0.0009, -0.0009, -0.0028, +0.0104, -0.0074, -0.0062, +0.0060. Estos residuos
4 22.2
8.0 11.0 -3.0
5 19.0 suman cero (como era de esperar), y la suma de sus cuadrados es 0.000247. Aplicando
5.0 4.7 0.3
6 9.7 la ecuacin (5.6) se obtiene que Sy/x = 0.00703. Entonces la ecuacin (5.7) da Sb =
5.2 6.4 -1.2
7 11.6 0.000266, Y el uso de t (5 grados de libertad; nivel de confianza del 95%) = 2.57
6.7 8.4 -2.0
8 15.4
9.3 9.6 -0.3 proporciona un lmite de confianza para b de 0.0252 0.0007. Similarmente, la
9 18.9
6.9 7.5 -0.6 ecuacin (5.8) proporciona un valor de So = 0.00479, con lmites de confianza para a
10 14.4
3.2 2.8
11 0.4 6.0 de 0.0021 0.0123.
9.7 10.4 -0.7
12 20.1
7.2 8.3 -1.1
13 15.5 4. (a) Es fcil demostrar, usando los valores de a y b calculados en el ejercicio 3, que un
6.5 6.8 -0.3
14 13.3 valor de y de 0.456 corresponde a un valor de x de 18.04 ng/ml, y que (yo _ y)2
9.7 7.2
15 2.5 16.9
5.0 6.0 ~ 0.00578. La aplicacin de la ecuacin (5.9) proporciona entonces un valor de SxO =
-1.0 11.0
0.300, Y los correspondientes lmites de confianza estn dados por 18.04 (2.57 x
0.300) = 18.04 0.77 ng/ml.
(b) En est~ caso, es claramente necesario ver si el valor de absorbancia 0347
es un valor anomalo. ~l valor de Q c~lculado de la ecuacin (3.8) es (0.347 _ 5.87 Y 44.1 ng/m1 respectivamente. Note que estos valores, y los de la pendiente y
0.314)/(0.347 - 0.308) - 0.846. Para un mvel de confianza del 95% el val b . ordenada en el origen, son todos similares a los calculados en la regresin no
es mayor que el valor de Q tabulado de O829 de man 1 ' l a r o tenido ponderada, a pesar de la considerable dispersin de los puntos experimentales. La
rechazarse. De lo~ tres resultados que que'dan 'se obtiel~:au~~ea~s:r~~~c~~3~:~:~e:e diferencia esencial entre el uso de los mtodos de regresin ponderada y no ponderada
0.311, correspondiente a una concentracin de 1228 gJ 1 E e slo es patente cuando la ecuacin (5.16) se utiliza para estimar la desviacin estndar
.d . n m. n este caso el valo d
Sx esta. ado por la ecuacin (5.10) [m =3; (Yo _ y)2 = 0.00476] siendo O ' ~ e de las concentraciones estimadas. Para estimar esta ecuacin, es necesario, en primer
de confianza son, por tanto 1228 + (2 57 x O 195) 1228 .195, los Imites lugar, estimar los valores Wo para los dos valores Yo bajo estudio. La inspeccin de los
, . -. . = . 0.50 ng/ml.
datos sugiere que pesos de 1.8 y 0.18 respectivamente son apropiados para los valores
5. Con los resultados del anterior ejercicio 3 este cl 1 . de yo de 15 y 90. El uso de estos pesos da valores de Sxw de 0.906 y 2.716 respectiva-
deteccin se define como la concentracin c~ o es muy s~nclllo. El lmite de mente. La multiplicacin por el valor de t de 2.78 proporciona lmites de confianza
seal de absorbancia de fondo en tres veces l~~e pr? ~~e una senal que supera a la para las dos concentraciones de 5.9 2.5 y 44.0 7.6 ngJml respectivamente.
viene dada por a (O 0021) Y I d ' " .esv 13ClOn estndar, la seal de fondo
. a esviacion estndar por s (O 00703) L -
absorbancia en el lmite de deteccin es 0.00211 + (3 x O 0~73)' _ . a sen~l ?e 8. Aqu, el mtodo "nuevo" es claramente el ESI, representado, por 10 tanto, en el eje y:
de deteccin, calculado de la pendiente y ord dI: - 0.0232, Y el lfrnite la tcnica gravimtrica es la referencia o procedimiento estndar y se representa en el
es 0.84 ng/ml, ena a en e ongen de la recta de regresin, eje x. La recta de regresin calculada de esta manera tiene una pendiente de 0.963, y
una ordenada en el origen de 4.48, siendo el coeficiente de correlacin de 0.970. Este
6. Los clculos de regresin lineal usuales dan a = 0.2569 Y b = 0005349 L . ltimo valor es sumamente significativo [t = 11.29 - Ec. (5.3)], pero los lmites de
estos dos valores da la concentracin d I ' . a razon de confianza de la pendiente y la ordenada en el origen deben calcularse tambin. Los
x = 35, Y = 0.4441 Cx _ -)2 = 4200 e a muestr,a problema (48.0 ngJml). Tambin clculos usuales [Ecs. (5.6)-(5.8)] y un valor tabulado de t = 2.31 (8 grados de libertad;
0003 ,/ x , Y (y - y)2 = 0.00001364 As' _
. 693, Y SxE dado por la ecuacin (5.12) es O 917 ..' I p.ues Sy/x - a un nivel de confianza del 95%) muestran que los lmites de confianza para la
la concentracin son 48.03 (2.45 x O 9179) = 4'8 9. Los hmites de confIanza para pendiente y la ordenada en el origen son respectivamente 0.96 0.200 y 4.5 20.1.
. .0 2.2 ngJml.
Ya que estos intervalos de confianza al 95% incluyen claramente a 1 y O respectiva-
7. Los datos disponibles permiten un clculo de re .. . mente, debemos concluir que esta recta de regresin indica una buena concordancia
de y, y desviaciones estndar: gresion ponderado, SIendo los valores entre los dos mtodos analticos. No obstante, hay una sensacin residual de intran-
quilidad sobre los datos. Los clculos muestran que 7 de los residuos y son negativos
x: o 10 20 30 40 50
(incluyendo 6 en una secuencia simple) y slo 3 son positivos. Se sugiere tambin que
y: 4.0 21.2 la concordancia entre los dos mtodos es muy grande para la mayora de las muestras,
44.6 61.8 78.0 105.2
pero muy pobre para una pocas; esto podra ser causado por problemas de especiacin.
s: 0.7 1 0.8 4 0.8 9 1.64 2.2 4 3.0 Un buen analista podra concluir que se necesitan ms datos (en el trabajo citado se
3
suministran ms datos).
El primer paso es calcular la recta de re resin n .
ordenada en el origen 1 982 y 2 924 g. o ponderada SIendo la pendiente y la
. '. respechvamente Las ca t . 9. Si se representan grficamente estos datos (recuerde que debera hacerse siempre),
dientes a intensidades de fluor . d . ncen racIOnes correspon- existen ciertos indicios de que la calibracin sea lineal hasta 0.7 - 0.8 unidades de
escencra e 15 y 90 id d
43.9 ng/ml respectivamente. De la manera habitu 1(U~I a els ~on .d~ ~ste modo 6.09 y absorbancia, y curva posteriormente. Clculos de regresin lineal no ponderada
Ya 1 1 " a vease e eJerclclclO 3) s - 2 991
que se ca cu a facilmenr- que (Xi _ X)2 es 1750 _ ' y/x - . utilizando los seis puntos proporcionan un coeficiente de correlacin de 0.9936, y los
las dos concentraciones son en los dos casos 1.
de 2.78, los lmites de confianza al 95
76J ~es ~;;)7], ~s valores de Sx para
c. . . sando un valor de t
residuos y (en orden creciente de x) de -0.07, -0.02, +0.02, +0.06, +0.07 y -0.07
y 43 9 + 4 9 gJ 1 . % para estos valores estn dados por 6 1 + 4 9 (redondeando a dos cifras decimales). La tendencia en estos valores es obvia y
. - . n m respectIvamente. . - . confirma que se trata de una curva. La suma de los cuadrados de los residuos es
Para calcular la recta de regresin onderad ' . 0.0191. La confirmacin de que el ltimo punto debera ser omitido del intervalo
calcular la ponderacin de cada punt t.P d la, es necesario, en pnmer lugar,
o u IIIzan o a ecuacin (5 13) A f d . lneal, se obtiene repitiendo el clculo de regresin slo con los cinco puntos. El
mentar los valores de x estas p d . . . m e mcre-
0122 _ . /, on eraciones son 2.227, 1.591, 1.418 0.417 0224 coeficiente de correlacin entonces aumenta a 0.9972 y los residuos y son -0.04, O,
. ,notese que la suma de estos nmeros es 5 999 . '. ,. y +0.02, +0.04 y -0.02 respectivamente (suma de cuadrados 0.0040). Los residuos y
errores. Esta es una importante ve T .. . . ' es decir 6, SI redondeamos
n icacion por realizar Utilizar d t d para el sexto punto con respecto a esta segunda lnea recta es comparativamente muy
nes y las ecuaciones (5.14) y (5 15) 1 di . loes as pon eracio- grande: -0.22.
. a
d e regresin ponderada son 1 964 3 4 8 3 'pen lente y la ordenada en el . d 1
ongen e a recta Este proceso puede repetirse para el quinto punto, es decir, se calcula la lnea recta
t . . y. respectlvamente De e t t 1
racione, correspondientes a las intensid d d fl .. ,s a rec a, as concen- ajustada slo con los cuatro primeros puntos. De nuevo se mejora, en este caso, el
a es e uorescenc de 15 y 90 unidades son
coeficiente de correlacin (a 0.9980), se reducen los valores de los residuos y (-0.02,
+0.01, +0.01 y -0.01), Y existe un gran residuo para el quinto unto' .
(-0.14). Puede concluirse, por lo tanto ue el uinto p ~aJo estudIO (b) En la prueba de rangos y signos, se desprecia de nuevo el valor cero. Los datos
del intervalo lineal del mtodo. Prueb;s~imila;es aplfc~~~~~~~~:~~C~~I~~~ :~;'bin restantes comparados con la mediana proporcionan las siguientes diferencias ordena-
al c~mpararIos, que probablemente deberan formar parte del int 1 li rcan, das: -0.01,0.01,0.01, -0.02, 0.02, 0.02, 0.04, 0.07. Las posiciones con sus signos,
analista podra usar mtodos de regresin lineal en el intervalo de a~;:r~a~~I~aol, you6n teniendo en cuenta los empates, son por tanto -2, 2, 2, -5, 5, 5, 7, 8. El total de
con confianza. a - . posiciones negativas (-) es 7 pero, a P = 0.05, el valor crtico para n = 8 es solamente
de 3. Por lo tanto, se mantiene de nuevo la hiptesis nula.
10. Este ejemplo tambin recalca la importancia del trazado de una e r ' .. (c) Para utilizar una prueba de rangos, calculamos la media (x), que es 0.1156 y
en \'~z. de realizar un simple clculo de regresin lineal. El ltimo ~va de cahbraciOn el recorrido (w), 0.09. Entonces TI est dado por Ix - f1/w = 0.173. El valor critico en
coeficiente de correlacin de O 9952 la i .. lculo produce un este caso es 0.255, de modo que por tercera vez se mantiene la hiptesis nula. En
. ,aunque a IIlspecclOn de I ifi
~ebnV~rl~:~t;r~~i:~:ec~:v;; ~: ~e~r~s~: l:n:a: ~u~s~~~ que los residu:sg;~i~~ae~~;~~~ contra de las apariencias observadas a simple vista no se puede decir, quizs, que la
muestra de combustible no cumpla la especificacin.
residuos es 9.50. Es claramente m" b bl ' a suma de los cuadrados de los
aleatorio. Cuando la curva y = 4x _ ;sl I~pro. a e que el orden de los signos sea 3. Este problema se puede resolver tambin utilizando la prueba de signos, y el de rangos
delos residuos es' + __ + + O + . XI se ajusta a los datos, el orden de los signos
. - - -+,yasumadeloscuadradosess'l 129 E' y signos. Si se restan los valores e.i.d. de los valores i.d.r., los signos de las diferencias
entonces, evidencia de que los puntos se a iustan me' o o. . x~ste, son: + - + + + + + + O +. En efecto, 9 resultados, con 8 signos + y un signo -. La
recta. Para los valores de y 5 16 Y 27 I l J jor ~or la curva que por la lnea probabilidad de que haya 8 signos + en 9 resultados es solamente de 0.04, por tanto al
4 83 Y 8 51 .d d ' .' a mea recta predice concentraciones de 1 15
. . U1l1 a es respectivamente mientras ue 1 . . , nivel de significacin P = 0.05 se puede rechazar la hiptesis nula: los resultados son
de 1.29 451 Y 8 60 id d .' q a curva predice concentraciones significativamente diferentes. En la prueba de rangos y signos, el valor asociado a las
,.,.. UI1l a es respectivamente. A la luz de los anlisis d i ' .
los valores ultimas son ciertament . fi bl e os residuos, posiciones negativas es slo de 2.5. Este nmero es muy inferior al valor crtico de 5,
e mas la es No debe pas l'
que otras curvas podran ajustar los punt '. arse por ato, sin embargo, por tanto se rechaza otra vez la hiptesis nula, y se confirma la diferencia significativa
sugiere aqu: el anlisis con computad os expenmentales aun mejor que la que se entre los dos conjuntos de resultados. Observe, no obstante, que los resultados de la
or muestra que" 1 ' " .
y ~ 0.86 -t 3.97x _ 0.098x2. e mejor ajuste cuadrtico es prueba de rangos y signos deberan interpretarse con precaucin si hay muchas
El ejemplo tambin muestra que en los casos d . posiciones empatadas, como ocurre en este ejercicio y en el anterior.
de puntos de calibracin y dond '1 ond~ existe un razonable nmero
. ' e os errores alea tonos no son d
tratamiento de la curva como u . d muy gran es, el 4. El nuevo mtodo proporciona una media de 64.7 mg/lOO ml y un intervalo de
. na sene e segmentos rectos t
aproXimado atractivo Si se dibujan di . cor os, es un mtodo 2.1 mg/l00 mI: las cifras correspondientes para el mtodo estndar son 65.86 y
los puntos del calibrado las con t le~ segmentos lineales, es decir, se utilizan todos 0.9 mg/l00 ml. De estas cifras, se ve claramente que T des 0.773, mayor que el valor
, cen raciones calculadas por int laci li
seales de 5, 16 Y 27 unidades son 1 36 450 8 . erp~ aClon ineal para crtico de 0.61, de manera que las medias difieren significativamente. La razn de
si slo se dibujan cinco segment . 'd" y ..65 uIlldades respectivamente. Incluso posiciones F R es 2.33, comparada con el valor crtico de 3.2, de manera que las
1 . os, es ecir, solo se usan los puntos X = O 2 4
as concentracIOnes predichas son 1.32 437 851 id . '" etc., precisiones de los mtodos no son significativamente diferentes. (La prueba F da el
de clculo y los derivados de 1 " . y. uru ades. En vista de la facilidad mismo resultado.)
evidentes. a curva ajustada, los atractivos de este mtodo son
5. Si los valores se disponen en orden ascendente, se obtiene que la mediana es 23.5. Los
valores individuales, para el uso de las barras de grafito, tienen por lo tanto los signos
CAPTULO 6 + + + - - - - - + +. De este modo existen tres rachas. Pero para N = M = 5 el valor
crtico es 3, con lo cual se podria decir que la sucesin dada se ha obtenido al azar.
1. La media es 9.96 ml, y la mediana (el promedio de 1 ..
segunda y tercera posiciones) es 9 90 I L b as medICIOnes que OCupan la 6. Este problema se resuelve fcilmente mediante la prueba U. Si se espera que los valores
se puede rechazar a P = 005 S fi' m. ha prue a Q muestra que el valor 10.20 no de "cerveza estndar" sean mayores que los valores de "cerveza rubia", debera de ser
. . I uera rec azada la medi b"
mediana a 9 89 ml: la di '. ' a cam lana a 9.88 mi y la pequeo el nmero de valores de cerveza rubia que son mayores que los de cerveza
. ,me lana es msenslble a la presencia de valores anmalos.
estndar. Es realmente 4.5, contando 0.5 para el empate que aparece. El valor crtico
2. (a) Se usa la prueba de los signos: comparados con l a ' . en una prueba de una cola es 5, con lo cual podemos rechazar la hiptesis nula al nivel
valores experimentales los signos _ + O mediana proporCionan, en los de P = 0.05 Yafirmar que una cerveza rubia en particular produce niveles de alcohol
,, ' + - + + + + En efe t d
:-; lecturas, 6 con signo +. La probabilidad de 6 si . e o, e este modo tenemos en sangre inferiores a los de una cerveza estndar en concreto! Sin embargo, el
mayor que 0.05. Por lo tanto se mantien 1 hi . I~nos en 8 lecturas es 0.29, mucho resultado en la prueba de ejecucin rpida de Tukey, T= 5.5, no llega a alcanzar el valor
e
de una poblacin simtrica con t 'd a IP?tesls nula de procedencia de los datos crtico de 6 (una cola, P = 0.05). Por tanto, se deben tratar los resultados con
con eru o mediano de azufre de 0.10%.
precaucin. Se necesitan ms datos. La prueba de Siegel-Tukey para la variabilidad
proporciona un estadstico de la prueba de 10, muy por encima del valor crtico de 2. :: _ _13- (1521 + ~756.25 + 6320.25) - 3 (18 + 1)
Por tanto, la hiptesis nula de variabilidades similares se debe aceptar. X - 342 + 18 6 6 6
Un factor Efecto
G 18.25
T -12.25
Q 55.25
Dos factores
GT 13.75
TQ -5.25
CQ -0.75
Tres factores
GTQ 3.75
~...o()Vl_
"""......
- ; - O J r t'~
cr-G~~tr.
l
L
>
.
(t ~ ~. ;; '3 '"O
:3 ;;; :::: ,;::; ~ (e~
~ Vl := ~ tz: ~
(j~~::::~ .....
g:lo.:;
(") 001 ':"i") (D r/)
~
....
@~ w ;;; ~ n
o~g8z (e
:::: (') (ti ~
~ ;;. 2.. ~ ~
=- t>l O
n
d
~
o:::: ~
!::..t>l
-'O
g cf'' = :3
~ (1)
~
(e
O S' ; :..
""1 CiJ Q.) ~ c:
rJ::
S
(1)
::t :=:~
(1) 'O
O
t>l
- -t>l n ::::
t>l (1) (e
~~5' g'
g~=~
~
..,
o 'O (1) (1)
_.::::
O, (1)'
~ ~
;;; ~
=o.no.
o. o -. (1)
(e
(1)==~, '"O
;;-g8~
'S183~
~;:g~
cT ; ~ o
=
"'1
(e
_
~ ~ ::1. :1. .....,;
~ o ~ ~ ~
&ri=;~""
o. o . '"
-. ~ cT = -
(/) """"t (D " .....
:::.~(1) ~ ir:
~ ;;; ~
CJ - (/)
s
-
~
....
0.5"0.0'
(1) (1) ... ~
1""'\
_
8 tn ;;; ? ... ~
t>l~::::l' ~
fr'~~ B; ....
'O(1)~'O
t>l ~ _ ...
n
"'.,
"
t>l ' ' O
(1) n : :(1)
: -r ...
e: ... t>l cT \1..
= e; fr' B;
Prueba de suma de rangos (a) las medianas de dos muestras difieren 146 No paramtrica; tamaos de muestra mnimos:
de Wilcoxon prueba de una cola /11 ~ /12 ~ 3; prueba de dos colas,
/I[ ~ 3,112 = 5
Prueba U de Mann-Whitney (a) las medianas de dos muestras difieren 148 Versin ms simple de la prueba de suma de
rangos de Wilcoxon
Prueba rpida de Tukey (a) las medianas de dos muestras difieren 148 Alternativa muy simple a las pruebas de suma de
rangos y U -no necesita tablas estadsticas
Prueba de Kruskal- Wal1is (a) las medianas de tres o ms muestras difieren 150 No paramtrica; utiliza el mtodo X2 en forma modi-
ficada
Prueba de Friedman (a) las muestras emparejadas difieren 151 No paramtrica; mtodo X2 en forma modificada
---------------~
'"
o
C
<O
5s
o
U
Apndice 2 Tablas estadsticas
Se presentan para la conveniencia del lector las siguientes tablas, y para su uso en este libro
en pruebas estadsticas simples, ejemplos y ejercicios. Estn presentadas en un formato
compatible con las necesidades de qumicos analticos: el nivel de significacin P = 0.05
ha sido utilizado en muchos casos, Yse ha supuesto que el nmero de mediciones disponible
es suficientemente pequeo. Excepto donde no se establezca lo contrario, estas tablas
abreviadas han sido obtenidas, con autorizacin de Elelllelltary Statistics Tables de Henry
R. Neave, publicadas por George Allen & Unwin Ud. (Tablas A.I-A.3, A.5-A.7 Y A.12-
A.16). Se remite a estas fuentes a los lectores que requieran nmeros de mediciones no
recogidos en las tablas.
TablaA.l La distribucin t
90% 95% 98% 99%
Valor de t para un intervalo de confianza de 0.02 0.01
0.10 0.05
Valor critico de \tl para valores de P de
Nmero de grados de libertad
6.31 12.71 31.82 63.66
I 6.96 9.92
2.92 4.30
2 4.54 5.84
2.35 3.18
3 3.75 4.60
2.13 2.78
4 3.36 4.03
2.02 2.57
5 3.14 3.71
1.94 2.45
6 3.00 3.50
1.89 2.36
7 2.90 3.36
1.86 2.31
8 2.82 3.25
1.83 2.26
9 2.76 3.17
1.81 2.23
10 2.68 3.05
1.78 2.18
12 2.62 2.98
1.76 2.14
14 2.58 2.92
1.75 2.12
16 2.55 2.88
1.73 2.10
18 2.53 2.85
1.72 2.09
20 2.46 2.75
1.70 2.04
30 2.40 2.68
1.68 2.01
50 2.33 2.58
1.64 1.96
Los valores criticas de Irl son adecuados para una prueba de dos colas. Para una prueba de una cola el valor se
toma de la columna para dos veces el valor de P deseado, por ejemplo, para una prueba de una cola, P 0.005,~
5 grados de libertad, el valor critico se lee de la columna P ~ 0.10 Yes igual a 2.02.
Tahla A.2 Valores crticos de F para una prueba de una cola (P ~ 0.05) TablaA.4 Valores crticos de Q (P ~ 005)
Tamao de muestra Valor crtico
t/
I 1 2 4 5 6 7 8 9 10 1 15 20
4 0.831
U --_._-~~--------
1
5 0.717
I 161 4 1995215.7 2246 230.2 2340 2368 2389 2405 2419 2439 245.9 24E.0 0.621
1851 1900 19.16 19.25 19.30 19.33 19.35 19.37 1938 19.40 1941 1943 J945 6
2 0.570
3 10.13 9.552 9.277 9117 9013 8941 8.887 8845 8.812 8.786 8.745 8.703 8660 7
4 7.709 6.944 6591 6388 6256 6 163 6.094 6.041 5999 5.964 5.912 5858 5.803 8 0.524
5 6.608 5786 5409 5. 92 5050 4.950 4.876 4818 4.772 4735 4.67R 4619 4.558 9 0.492
10 0.464
6 5987 5143 4.757 4.534 4387 4.284 4207 4.147 4.099 4.060 4000 3938 3874
7 5591 4737 4.347 4120 3.972 3866 3.787 3.726 3.677 3637 35"75 3.511 3445 Toma d os d e K"lIlg, E . P.], Am
. . Statist. Assoc ., 195848531
" , cOllautorizacindeAmericallStatistical
8 5.318 4459 4066 3.838 3.687 3.581 3.500 3438 3.388 3347 3284 3.218 3150 Assocjation.
9 5.117 4256 3863 3.633 3.482 3374 3.293 3.230 3.179 3.137 3073 3.006 2.936
10 4.965 4103 3708 3.478 3.326 3.217 3.135 3.072 3.020 2978 2.913 2845 2.774 Tabla A.S Valores criticas de i (P = 0.05)
5 11.07
16 4.494 3634 3239 3007 2852 2.74] 2.657 2.591 2.5 38 2494 2425 2.352 2.276 6 12.59
17 4451 3.592 3.197 2.965 2810 2699 3.614 2.548 2.494 2.450 2381 2.308 2.230 14.07
7
J8 4.414 3555 3160 2.928 7.77 3 2.661 2<>77 2.510 2.456 2412 2342 2.26C 2.191 15.51
19 4381 3.522 :1127 2.895 2740 2628 2.544 8
2.477 2423 2378 2.008 2.234 2.155
<1351 9 16.92
20 3493 3098 2.866 2711 2599 2.514 2.447 2.393 2348 2.27R 2/03 2124
10 18.31
L',- nmero de grados de libertad del numerados y lJ, ~ nmero de grados de libertad del denominador.
TablaA.6 Nmeros aleatorios
.~-----_._-
20 5871 4461 3.859 3515 3.289 3 128 3007 2913 2.837 2.774 2676 2.573 2464 80102 48211 61149 7124() 19993 79708
2201'14 031 )7 96937 86176
_ _ _ o ___ ._
La tabla utiliza la distribucin binominal con P = 0.5 para proporcionar las probabilidades de r xitos Valores criticas para pruebas de una y dos colas a P ~ 0.05
o menos para II ~ 4 - 15. Estos valores corresponden a una prueba de signos de una cola y se deben Prueba de dos colas
1/ Prueba de una cola
duplicar para una prueba de dos colas.
2 3.175 6.353
r=O 2 3 4 5 6 7 3 0.885 /.304
4 0.529 0.717
n
S 0.388 0.507
4 0.063 0.313 0.688 0.312 0.399
6
5 0.031 0.188 0.500 0.263 0.333
0.344 0.656 7
6 0.016 0.109 0.230 0.288
8
7 0.008 0.063 0.227 0.500 0.205 0.255
9
8 0.004 0.035 0.144 0.363 0.637 0.]86 0.230
0.02. 0.090 0.254 0500 10
9 0.002
10 0.001 0.011 0.055 0.172 0.377 0.623
11 0001 0.006 0.033 0.113 0.274 0.500
12 0.000 0.003 0.019 0.073 0.194 0.387 0.613
13 0.000 0.002 0.011 0.046 0.133 0.290 0.500
Tabla A.IO La prueba T el Y la prueba de recorridos de Lord
14 0.000 0.001 0.006 0.029 0090 0.212 0.395 0.605
15 0.000 0.000 0.004 0.018 0.059 0.151 0.304 0.500 Valores crticos de T el Y La P'~ 0.05
ni = 1/2 t: L
Tabla A.S La prueba de rachas de Wald-Wolfowitz 1.71
2 3.43
3 1.27 0.64
N M AP = 0.05, el nmero de rachas
4 0.81 0.41
es significativo si es:
S 0.61 0.31
menor que mayor que 0.50 0.25
6
2 12-20 3 NA 0.43 0.21
7
3 6-14 3 NA 8 0.37 0.19
3 15-20 4 NA 9 0.33 0.17
10 0.30 0.15
4 5-6 3 8
4 7 3 NA Las tablas A.9 y A.IO estn tomadas de Lord, E., Biometrika, 1947,34,66, con autorizacin ele Biometrika
4 8-15 4 NA
Trustees.
4 16-20 5 NA
5 5 3 9
S 6 4 9
S 7-8 4 10 Tabla A.U La prueba sustituta de la prueba F (FR)
5 9-12 4 NA
S 13-18 5 NA Valores criticas de FR para pruebas de una y dos colas a P = 0.05
6 6 4 10 Nmero de
6 7-8 4 11 mediciones en
6 9-12 5 12 numerador y
6 13-18 6 NA denominador Prueba de una cola Prueba de dos colas
7 7 4 12 2 12.7 25.5
7 8 5 12 3 4.4 6.3
7 9 5 13 4 3.1 4.0
7 10-12 6 13 5 2.6 3.2
8 8 S 13 6 2.3 2.8
8 9 6 13 7 2.1 2.5
8 10-11 6 14 8 2.0 2.3
8 12-15 7 15 9 1.9 2.2
10 1.9 2.1
Adaptada ele Swed, F. S. y Eisenhar, c., Ann. Math. Statist. 1943, 14, 66, con autorizacin del Institute of
Mathematical Statistics. La prueba no puede aplicarse a datos con N, M menores que los nmeros dados, O a casos Adaptada de Link, R. F.,AI/n.Matl: Suuist.; 1950,21, 122con autorizacindel Isntitute of Mathematical Statistics.
marcados con NA.
Tabla A.12 La prueba de rangos y signos de Wilcoxon
Tabla 14 El coeficiente de correlacin ordinal de Spearrnan
Valores crticos para el estadstico a P = 0.05
Valores crticos de a P = 0.05
n Prueba de una cola Prueba de dos colas
n Prueba de una cola Prueba de dos colas
5 O NA
6 5 0.900 1.000
2 O
7 6 0.829 0.886
3 2
8 7 0.714 0.786
5 3
9 8 0.643 0.738
8 5
10 9 0.600 0.700
10 8
11 10 0.564 0.649
13 10
12 11 0.536 0.618
17 13
13 12 0.504 0.587
21 17
14 13 0.483 0.560
25 21
15 14 0.464 0.538
30 25
15 0.446 0.521
La hiptesis nula puede rechazarse cuando el estadstico de la prueba sea :<:; que el valor tabulado. NA indica que 16 0.429 0.503
la prueba no puede ser plicada. 0.414 0.488
17
8 0.401 0.472
19 0.391 0.460
20 0.380 0.447