Вы находитесь на странице: 1из 33

UNIVERSIDAD NACIONAL DE INGENIERIA

FACULTAD DE INGENIERIA PETROLEO, GAS NATURAL Y PETROQUIMICA

TRATAMIENTOS DE DATOS
ANALITICOS

LIC. Carlos Minaya A.


Análisis Peso, Volumen
Cuantitativo Potencial eléctrico
Absorción de radiación

DATOS MEDIDA DE
ANALITICOS MAGNITUDES FÍSICAS

Cualquier medida física conlleva cierta variabilidad

Afectados de cierto grado SIEMPRE HAY UN


ERROR EN SU
de INCERTIDUMBRE MEDIDA
¿Podemos evaluar la magnitud del error
probable cometido al realizar una medida?

ESTABLECER LA FIABILIDAD DE LOS DATOS

¿Cómo?
 Conociendo el tipo de errores posibles.
 Diseñando experimentos que los pongan de manifiesto
 Analizando patrones de concentración conocida.
 Aplicando test estadísticos a los datos

APLICACIÓN DE LA ESTADISTICA A LOS


DATOS ANALÍTICOS
Algunos CONCEPTOS BÁSICOS sobre la aplicación
de la ESTADÍSTICA en el tratamiento de datos
analíticos.

La estadística nos permite sacar de los datos analíticos la


máxima información y tomar decisiones objetivas que tienen
una alta probabilidad de ser correctas atendiendo a su calidad
y uso.

Población y muestra : En estadística el término “Población”


designa un grupo finito o infinito de cosas con características
comunes. La parte observada de una “población” se
denomina “muestra”
Población Universo de datos
Muestra Fracción representativa de la población
Las leyes de la Estadística se aplican a una
población de datos, para usar estas leyes en
Química Analítica debemos suponer que la
muestra es representativa de la población de
resultados

Las estimaciones estadísticas con


una muestra sólo pueden ser hechas
en términos de Probabilidad
Media poblacional () y media muestral (x)

Media de la muestra, x ,también llamada promedio, es


la suma de los valores obtenidos dividido por N, el
número de medidas:
Se define :
N

x i
xi = valor individual

x i 1 N = número de medidas
N
Desviación estándar de la muestra (s)
Viene dada por :

 ( xi  x) 2 xi = valor individual
x = media
s i 1
N = número de medidas
N 1 N-1 = grados de libertad

Sólo N-1 desviaciones dan una medida independiente de la


precisión de la muestra.
Para una serie infinita de datos (n = ), la media se designa
con la letra griega mu, µ (media de la población), y la
desviación estándar se escribe con la letra griega sigma, 
(desviación estándar de la población).
Nunca se mide µ y , pero los valores de x y s se acercan a
µ y  a medida que aumenta el número de medidas. A
medida que aumenta el número de medidas, x se acerca a
µ si no hay errores sistemáticos. La cantidad n-1 se llama
grados de libertad

El cuadrado de la desviación estándar se denomina


varianza. La desviación estándar expresada como
porcentaje del valor medio (100s/x ) se llama desviación
estándar relativa o coeficiente de variación.
Ejercicio de aplicación 1
Media y desviación estándar.
Supongamos que se han hecho las siguientes 4 medidas: 821,
783, 834 y 855. Hallar la media y la desviación estándar.
Solución:
N

x 821  783  834  855


i
x 
i 1
N 4

x  823,2
N

 i
( x  x ) 2

s i 1

N 1

s
821  823,2  783  823,2  834  823,2  855  823,2
2 2 2 2

4 1

s  30,3
Las medidas experimentales conllevan cierta variabilidad,
de modo que no se puede sacar ninguna conclusión con
absoluta certeza.

La estadística proporciona medios para aceptar conclusiones


que tienen una alta probabilidad de ser correctas y de
rechazar las conclusiones que no lo son.

Si se repite una experiencia un gran número de veces, y


los errores son puramente aleatorios, los resultados
tienden a agruparse simétricamente en torno a un valor
medio. Cuantas más veces se repita la experiencia más se
acercan los resultados a una curva ideal llamada
distribución gaussiana o normal

En general, no se pueden hacer tantas medidas de una


experiencia de laboratorio.
0,45

0,4

0,35

0,3

0,25
Y

0,2

0,15

0,1

0,05

0
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81
X

Figura 1.- Distribución Gaussiana. El eje X respresenta el número de


veces que un resultado (eje Y) se repite.
Desviación estándar y probabilidad

La fórmula de la curva gaussiana es:


 X   2
1
y e 2 2

 2
Para una serie finita de datos se hace la aproximación de
considerar x como µ y s como . El valor máximo de y está
en x =µ y la curva es simétrica en torno a x =µ.

La desviación estándar mide la anchura de la curva de Gauss.


Cuanto mayor es el valor de  más ancha es la curva. En toda
curva de Gauss, el 68,3% del área está comprendida en el
intervalo µ±1, el 95,5% está comprendida en el intervalo µ±2
y el 99,7% está comprendida en el intervalo µ±3.
Intervalos de confianza

Si se dispone de un número limitado de medidas, no es


posible determinar la verdadera media de la población, µ,
o la verdadera desviación estándar, . Lo que podemos
determinar es x y s, la media muestral y la desviación
estándar muestral.
El intervalo de confianza es una expresión que indica que
es probable que la verdadera media, µ, esté a una cierta
distancia de la media medida, . El intervalo de confianza
viene dado por:
ts
X
n
donde t es el estadístico t de Student.
Tabla .- Valores de t de Student.
Nivel de Confianza
Grados de libertad 50 90 95 98 99 99,5 99,9
1 1,000 6,314 12,706 31,821 63,657 127,32 636,619
2 0,816 2,920 4,303 6,965 9,925 14,089 31,598
3 0,765 2,353 3,182 4,541 5,841 7,543 12,924
4 0,741 2,132 2,776 3,747 4,604 5,598 8,610
5 0,727 2,015 2,571 3,365 4,032 4,773 6,869
6 0,718 1,943 2,447 3,143 3,707 4,317 5,959
7 0,711 1,895 2,365 2,998 3,500 4,029 5,408
8 0,706 1,860 2,306 2,896 3,355 3,832 5,041
9 0,703 1,833 2,262 2,821 3,250 3,690 4,781
10 0,700 1,812 2,228 2,764 3,169 3,581 4,587
15 0,691 1,753 2,131 2,602 2,947 3,252 4,073
20 0,687 1,725 2,086 2,528 2,845 3,153 3,850
25 0,684 1,708 2,068 2,485 2,787 3,078 3,725
30 0,683 1,697 2,042 2,457 2,750 3,030 3,646
40 0,681 1,684 2,021 2,423 2,704 2,971 3,551
60 0,679 1,671 2,000 2,390 2,660 2,915 3,460
Ejercicio de aplicación 2
Cálculo de intervalos de confianza
Se determina el contenido de hidratos de carbono de una
glucoproteína (una proteína con azúcares unido a ella), que resulta
ser 12,6; 11,9; 13,0; 12,7 y 12,5 g de hidratos de carbono por 100 g de
proteína en análisis replicados. Hallar los intervalos de confianza del
50% y del 90% del contenido en hidratos de carbono.
Solución:
N° xi
1 12,6
2 11,9
3 13,0
4 12,7
5 12,5
N

x 12,6  11,9  13,0  12,7  12,5


i
x 
i 1
 12,54
N 5
N° xi (xi – x)2
1 12,6 (12,6 – 12,54)2 = 0,0036
2 11,9 (11,9 – 12,54)2 = 0,4096
3 13,0 (13,0 – 12,54)2 = 0,2116
4 12,7 (12,7 – 12,54)2 = 0,0256
5 12,5 (12,5 – 12,54)2 = 0,0016
62,70 0,652

 i
( x  x ) 2

0,652
 0,4037
s i 1
5 1
N 1
Para el 50% : gl = 5-1 = 4  t = 0,741

ts (0,741)(0,4037)
X    12,54 
n 5
 = 12,54 ± 0,13 para el 50%

Para el 90% : gl = 5-1 = 4  t = 2,132

ts (2,132)(0,4037)
X    12,54 
n 5
 = 12,54 ± 0,38 para el 90%.
COMPARACIÓN DE MEDIAS UTILIZANDO
LA t DE STUDENT
1. Comparación de un resultado medido con un valor
conocido.
Se mide una cantidad varias veces y se obtiene un valor medio y una
desviación estándar. El resultado no concuerda exactamente con el
resultado aceptado. ¿Coincide o no el resultado medido con el
resultado conocido dentro del error experimental?

Para ello, calculamos tcalculado y se compara con la ttabulada. Si


tcalculado  ttabulado a un nivel de confianza del 95% se considera
que los dos resultados son diferentes:

X  Valor Conocido
tcalculado  n
s
Ejercicio de aplicación 3

Comparación de un resultado medido con un valor


conocido.
Se compró una muestra de carbón de material estándar de
referencia, certificado por el NIST (National Institute of
Standars and Technology), que contenía 3,19% en peso de
azufre. Se quería ensayar un nuevo método analítico para
ver si reproducía el valor conocido. Los valores medidos
fueron 3,29, 3,22, 3,30 y 3,23% en peso de azufre.
¿Concuerda este resultado con el valor conocido?.
N° xi (xi – x)2
1 3,29 (3,29 – 3,26)2 = 0,0009
2 3,22 (3,22 – 3,26)2 = 0,0016
3 3,30 (3,30 – 3,26)2 = 0,0016
4 3,23 (3,23 – 3,26)2 = 0,0009
 Xi = 13,04  (Xi – X)2 = 0,005

x  3,26 y s  0,041

X  Valor Conocido
tcalculado  n
s
3,26  3,19
tcalculado  4  3,41
0,041
Comparación de medias replicadas.

En la tabla anterior se puede ver que la columna del nivel


de confianza 95% y gl = n – 1 = 4 – 1 = 3

t tabulada = 3,182

Dado que tcalculado  ttabulado se puede concluir que el resultado


obtenido es diferente del valor conocido.

La probabilidad de que sean iguales es inferior al 5 %


2. Comparación de medias replicadas.
Se mide una cantidad varias veces con dos métodos
diferentes, que dan dos resultados distintos, cada uno con
su desviación estándar. ¿Concuerdan entre sí los dos
resultados dentro del error experimental?.
Para dos conjuntos de medidas, que tienen n1 y n2 medidas
(con medias X 1 y X 2 se calcula t con la formula

X1  X 2 n1n2 s12 n1  1  s 22 n2  1


t calculado  donde: s combinada 
n1  n2  2
scombinada n1  n2

La tcalculada se compara con la t de las tablas para


n1+n2-2 grados de libertad. Si la tcalculada es mayor
que la ttabulada a un nivel de confianza del 95%, los
dos resultados se consideran diferentes.
Ejercicio de aplicación 4
A principios del siglo pasado, se creía que el aire seco estaba
compuesto de aproximadamente una quinta parte de oxígeno y cuatro
quintas partes de nitrógeno. Rayleigh eliminó todo el oxígeno de una
muestra de aire, introduciendo en el aire cobre al rojo vivo (con la
consiguiente formación de CuO sólido). A continuación midió la
densidad del gas resultante y lo recogió en un volumen conocido, a
temperatura y presión constante. Preparó también el mismo volumen de
nitrógeno puro, por descomposición química del óxido nitroso (N2O). La
masa media del gas obtenido del aire fue X1 = 2,31011 g, con una
desviación estándar de s1 = 0,00014 (para n1=7 medidas). La masa del
gas obtenido por vía química fue X2 = 2,29947 g, con una desviación
estándar de s2 = 0,00138 (para n2 = 8 medidas). ¿Era el gas obtenido por
Lord Rayleigh a partir del aire más denso que el nitrógeno obtenido
químicamente?. ¿Qué conclusión se puede deducir de este
experimento?.
s12 n1  1  s 22 n2  1
s combinada 
n1  n2  2

(0,00014) 2 7  1  (0,00138) 2 8  1
scombinada   0,00102
782

X1  X 2 n1n2
t calculado 
scombinada n1  n2

2,31011  2,22947 7.8


tcalculado   20,2
0,00102 78
Grados de libertad = 7 + 8 – 2 = 13  t tabulado = 2,1698, para un nivel de
confianza del 95 %. Por lo tanto t calculado > t tabulado

El gas obtenido a partir del aire indudablemente es mas denso que el


N2 obtenido por vía química
3. Comparación de pares de medidas.
Se mide una vez la muestra 1 con el método A y otra vez con el
método B, y no dan el mismo resultado. Asimismo, se mide otra
muestra, designada como 2, una vez con el método A y otra con el
método B, y los resultados vuelven a ser diferentes. El procedimiento
se repite con n muestras diferentes. ¿Concuerdan los dos métodos
dentro del error experimental o difieren entre sí sistemáticamente?

Para contestar a esta cuestión se aplica el test t a las diferencias


individuales entre los resultaos de cada muestra:

 D  D
2
D
t calculada  n donde: sD  i
sD n 1

La cantidad D es la diferencia media entre los métodos A y B y n es el


número de pares de datos.
Ejercicio de aplicación 5
Comparación de pares de medidas.
El colesterol contenido en el plasma sanguíneo de seis individuos fue
analizado por dos métodos analíticos distintos:
Contenido en colesterol (mg/dL)
Individuo Método A Método B
1 1,46 1,42
2 2,22 2,38
3 2,84 2,67
4 1,97 1,80
5 1,13 1,09
6 2,35 2,25

¿Es el método B sistemáticamente diferente al método A?.

SOLUCION
Contenido en colesterol (mg/dL)
Individuo Método A Método B Diferencia (D)
1 1,46 1,42 1,46 – 1,42 = 0,04
2 2,22 2,38 2,22 – 2,38 = - 0,16
3 2,84 2,67 2,84 – 2,67 = 0,17
4 1,97 1,80 1,97 – 1,80 = 0,17
5 1,13 1,09 1,13 – 1,09 = 0,04
6 2,35 2,25 2,35 – 2,25 = 0,10
D = + 0,38

D
 D
 D
0,38
 0,06
n 6
Individuo Diferencia (D) (Di – D)2
1 0,04 (0,04 – 0,06 )2 = 0,0004
2 - 0,16 (- 0,16 – 0,06 )2 = 0,0484
3 0,17 (0,17 – 0,06 )2 = 0,0121
4 0,17 (0,17 – 0,06 )2 = 0,0121
5 0,04 (0,04 – 0,06 )2 = 0,0004
6 0,10 (0,10 – 0,06 )2 = 0,0016

(Di – D)2 = 0,075

 D  D
2
0,075
sD  i
  0,122
n 1 6 1
D 0,06
t calculada  n  tcalculada  6  1,20
sD 0,122

Grados de libertad = 6 – 1 = 5  t tabulado = 2,571, para un nivel de


confianza del 95 %.
Por lo tanto t calculado < t tabulado

Las dos técnicas no son, pues, significativamente distintas a un


nivel de confianza del 95%
Test Q de datos sospechosos.

En ocasiones, un dato no es coherente con los restantes. Se puede usar el


test Q como ayuda para decidir si se retiene o se descarta un dato
sospechoso. Para aplicar el test Q se ordenan los datos en orden creciente
y se calcula Q definido como:

Divergencia
Qcalculado 
Re corrido

El recorrido es la dispersión máxima entre los datos. La divergencia es la


diferencia entre el valor sospechoso y el valor más próximo.

Si Qcalculada  Qtabulada, el punto sospechoso se descarta.


Tabla 2 .- Valores de Q para el rechazo de datos

Q nivel de confianza 90 % Numero de


observaciones
0,76 4
0,64 5
0,56 6
0,51 7
0,47 8
0,44 9
0,41 10
Ejercicio de aplicación 6
Consideremos los siguientes 5 resultados: 12,53, 12,56, 12,47, 12,67 y
12,48. ¿Es el 12,67 un punto rechazable?.
Divergencia = 0,11

12,47, 12,48, 12,53, 12,56 12,67

Recorrido = 0,20

Divergencia 0,11
Qcalculado   Qcalculado   0,55
Re corrido 0,20
n = 5  Q tabulado = 0,64
Por lo tanto Q calculado <Q tabulado , el punto sospechoso se debe
retener.
Existe una probabilidad mayor del 10% de que el 12,67 sea un
miembro más de la misma población al igual que los otros 4 números.

Вам также может понравиться