Вы находитесь на странице: 1из 28

48

2. ESTADISTICA DESCRIPTIVA

2.1 INTRODUCCION

La calidad cuantificable de un producto está dada por la medición que se realice de


sus atributos de calidad y estos están siempre sujetos a una cierta cantidad de
variación como resultado del azar. La incidencia de diferentes causas es inherente a
cualquier esquema particular de producción e inspección y la variación dentro de
éste patrón aún en condiciones de estabilidad es inevitable.

Las razones de las variaciones externas a este patrón mencionado pueden ser
descubiertas y corregidas; pero para ello es necesario establecer el patrón de
variación del atributo de calidad y éste es uno de los aspectos de mayor utilidad de
la Estadística en el Control de la Calidad.

El Control de Calidad de los productos manufacturados era una función que existía
antes de que se aplicaran los métodos estadísticos al análisis de datos de calidad,
pero éstos facilitaron enormemente la labor.

La Estadística Descriptiva permite un procesamiento de los datos disponibles de tal


manera que ellos permitan establecer patrones de variación, detectar irregularidades
o cambios extraños, prevenir tendencias, disminuir el papel de la intuición y por
consiguiente dar tranquilidad respecto de la marcha del proceso.

2.1.1 Definiciones

Estadística. Conjunto de métodos científicos para el procesamiento de datos con el


propósito de extractar información y conclusiones válidas que permitan tomar
decisiones razonables.
49

Procesamiento de datos. Es el conjunto de pasos que se siguen para obtener el


máximo provecho de la información. Estos pasos pueden resumirse así:
- Coleccionar los datos
- Organizarlos
- Resumirlos
- Presentarlos
- Analizarlos
- Sacar conclusiones válidas

Finalmente se pretende tomar decisiones razonables.

Universo. (También denominado población) Es el conjunto o grupo total de


elementos que para un estudio concreto poseen una o varias características en
común, también se le considera como un conjunto de medidas. Si la característica
observada ha sido medida, recibe el nombre de variable; si por el contrario, tan sólo
se anota su presencia se le denomina atributo; por ejemplo:

- Los elementos de una misma clase fabricados por una empresa.


- Los pesos o las estaturas de los habitantes de una ciudad.
- Las mediciones de concentración de una substancia procedentes de la muestras
que se tomen de un proceso químico.

Población infinita. La que está formada por un número indeterminado de unidades.


La población finita es aquella constituida por un número determinado o limitado de
elementos; El comportamiento de una población demasiado grande, aún siendo
finita, tiende a ser considerado igual al de una población infinita.

Muestra. Es una porción tomada de la población o universo; en otras palabras un


subconjunto del conjunto universo.

2.1.2 Algunos conceptos estadísticos.

Enfoque deductivo. Se procesa un conjunto dado de datos y se analizan para sacar


conclusiones circunscritas a lo estudiado, sin que éstas traten de buscar impli-
caciones respecto a un conjunto mayor. Estas conclusiones preliminares constituyen
la base de la Estadística Descriptiva. Si el estudio se hace sobre la totalidad de la po-
blación se denomina censo.

Enfoque inductivo. En éste caso se estudian datos procedentes de una o varias


muestras y se pretende sacar conclusiones de importancia respecto de la población
de la cual proceden. Para que las conclusiones sean válidas, la muestra o muestras
deben ser representativas. Este enfoque es la base de la Inferencia Estadística.
50

2.1.3 Algunos conceptos matemáticos.

Variable. Es una magnitud que puede asumir valores dentro de un conjunto numérico
dado el cual se denomina su dominio.

Variable continua. Es la que teóricamente puede asumir cualquier valor dentro de un


intervalo establecido. Los datos que quedan descritos mediante una variable
continua se denominan datos continuos y corresponden a mediciones.

Variable discreta. El dominio de ésta variable se ve restringido a valores puntuales


dentro de un intervalo. Los datos que quedan descritos mediante una variable
discreta se denominan datos discretos y corresponden a enumeraciones o conteos.

Función. Es una relación de correspondencia entre los elementos de dos conjuntos


denominados conjunto de partida y conjunto de llegada de tal manera que a todo
elemento del conjunto de partida le corresponda uno y sólo uno del conjunto de
llegada.

2.2 MANEJO DE DATOS

2.2.1 Error en datos experimentales.

Una experiencia de laboratorio o de producción, se apoya especialmente en la toma


de datos. Es necesario distinguir en primer lugar, las clases de datos que se pueden
presentar:

Datos digitales; Proceden de una operación de conteo y su valor tiene una total
exactitud, están representados por números enteros, por ejemplo, el número de
personas que entran a un recinto, el número de vehículos que atraviesan un puente
en un determinado tiempo, el número de repeticiones de una experiencia.

Datos análogos; Proceden de mediciones, al comparar una magnitud con un patrón


o una escala preestablecida y reportando el valor que más se parezca, nunca se da
un valor exacto sino aproximado, la analogía puede incluir una sucesión de
comparaciones hasta reportar el dato final; por ejemplo la medida de una longitud, un
peso, una temperatura, la intensidad de una corriente eléctrica.

La exactitud es la correspondencia del dato obtenido con el verdadero valor de la


magnitud medida. Para juzgar la exactitud es necesario la comparación con otro dato
que se considera mejor o más ajustado a la realidad ya sea por que se obtuvo con
un mejor procedimiento o con el uso de instrumentos más sofisticados.

La precisión es la semejanza que guardan entre sí los distintos datos obtenidos en


las repeticiones de una medición en las mismas condiciones. Por lo tanto para
51

juzgar la precisión es necesario disponer de un conjunto de datos obtenidos de


manera similar.

En una experiencia que aporta un conjunto de datos de la misma variable, para


valorar la exactitud, se emplean además del dato de referencia las llamadas medidas
de posición (media, mediana, moda ); para valorar la precisión se utilizan las
llamadas medidas de dispersión ( desviación media, desviación normal, recorrido,
coeficiente de dispersión ).

Tipos de error. Cuando se efectúan mediciones experimentales se pueden


presentar dos tipos de errores:

Errores sistemáticos o determinados, los cuales se deben a:


- mala calibración del instrumento
- uso inadecuado del instrumento
- deficiencias del método seguido
- fallas personales constantes
- alguna influencia constante del medio

Estos errores afectan las mediciones de la misma manera y son susceptibles de ser
corregidos, lo que significa que pueden ser eliminados o de algún modo minimizados
mediante el suficiente cuidado en la graduación, en los controles, en los ensayos
patrón y otras condiciones de la experiencia.

Errores indeterminados, fortuitos o de azar, se presentan por variaciones


imponderables y fuera del alcance del observador, pues ni la fuente del error ni su
magnitud pueden discriminarse con certeza. No pueden por lo tanto corregirse, pero
se pueden estimar mediante tratamiento estadístico si se tiene un número
suficientemente grande de mediciones repetitivas para promediarlas y establecer la
dispersión. Se debe tener en cuenta, que la precisión de una media aritmética de
una serie de valores medidos aumenta sólo en razón directa de la raíz cuadrada del
número de valores.
52

2.3 DISTRIBUCIONES DE FRECUENCIA

Una vez se ha recogido un conjunto de datos ya sea que procedan directamente de


la medición o sean el resultado de operaciones aritméticas y se hayan tomado las
decisiones pertinentes en cuanto a la significación y el redondeo de los mismos, se
pasa al procesamiento del bloque da datos para obtener la mayor información
posible.

2.3.1 Procedimiento general.

El procedimiento general de procesamiento de datos se ilustra a través de un


ejercicio. En el bloque de datos que se da a continuación se tienen las
concentraciones de cloruro de sodio de muestras tomadas de un proceso de
disolución de sal mineral en la salmuera final y determinadas por el método de la
fluoresceina y titulación manual con redondeo de los datos a la décima más próxima.

DATOS DE CONCENTRACION DE NaCl PROVENIENTES DE UN PROCESO


INDUSTRIAL DE DISOLUCION. ( gramos / Litro )

304,9 308,1 306,0 297,8 294,8 298,6 305,3 302,1

307,3 312,3 304,7 300,5 296,3 298,9 296,9 302,7

302,5 301,5 299,5 310,2 312,8 305,8 299,1 315,9

309,0 309,1 314,6 306,2 312,0 302,9 310,5 308,6

299,6 304,2 303,2 311,9 303,0 313,0 305,4 301,8

307,5 313,1 309,6 305,6 300,1 306,8 309,6 311,5

301,6 314,2 306,8 298,1 306,7 310,9 306,1 305,1

302,8 298,5 300,0 307,8 305,3 303,8 301,8 302,4

308,9 306,6 315,1 309,2 303,5 306,5 304,8 308,6

302,5 304,7 305,6 308,7 298,9 304,2 301,4 307,2


53

A) Determinación del recorrido de los datos. Se establece al efectuar la diferencia


entre el dato mayor y el dato menor del conjunto.

Recorrido = 315,9 -294,8 = 21,1 g/L

B) División del recorrido. Se procede a partir el recorrido en categorías de manera


arbitraria pero conveniente. Para establecer el tamaño de las categorías puede servir
como guía el dividir el recorrido por cinco y por veinte y con base en estos dos
resultados, escoger un tamaño intermedio de intervalo que resulte cómodo para
trabajar (por ejemplo 1, 2, 5 o 10 unidades).

21,1 21,1
-------- = 4,22 ------- = 1,05
5 20

Se escoge como tamaño de los intervalos 2 unidades.

C) Delimitación de los intervalos. Con base en el tamaño escogido se procede a


establecer intervalos de tal manera que el primero de ellos cobije el dato menor y el
último llegue a contener el dato mayor. Se aconseja establecer los intervalos de tal
manera que exista una discontinuidad entre ellos, de modo que el extremo superior
de uno no coincida con el inferior del siguiente. Este procedimiento da origen a la
distinción entre límites verdaderos y límites aparentes.

CATEGORIA INTERVALOS INTERVALOS

(LIMITES APARENTES) (LIMITES VERDADEROS)


[K] [ IK ] [ CK ]

1 294,0 - 295,9 293,95 - 295,95


2 296,0 - 297,9 295,95 - 297,95
3 298,0 - 299,9 297,95 - 299,95
4 300,0 - 301,9 299,95 - 301,95
5 302,0 - 303,9 301,95 - 303,95
6 304,0 - 305,9 303,95 - 305,95
7 306,0 - 307,9 305,95 - 307,95
8 308,0 - 309,9 307,95 - 309,95
9 310,0 - 311,9 309,95 - 311,95
10 312,0 - 313,9 311,95 - 313,95
11 314,0 - 315,9 313,95 - 315,95
54

D) Determinar las marcas de clase. Para cada intervalo se calcula el punto medio.
CATEG. INTERVALOS MARCAS DE CLASE

[K] [ IK ] [ XK ]

1 294,0 - 295,9 294,95


2 296,0 - 297,9 296,95
3 298,0 - 299,9 298,95
4 300,0 - 301,9 300,95
5 302,0 - 303,9 302,95
6 304,0 - 305,9 304,95
7 306,0 - 307,9 306,95
8 308,0 - 309,9 308,95
9 310,0 - 311,9 310,95
10 312,0 - 313,9 312,95
11 314,0 –315,9 314,95

E) Determinar las frecuencias de clase. A partir de la tabla de datos original se


determina el número de datos que corresponde a cada intervalo.

CATEG. INTERVALOS MARC. DE CLASE FREC. DE CLASE

[k] [ Ik ] [ Xk ] [ fk ]

1 294,0 - 295,9 294,95 1


2 296,0 - 297,9 296,95 3
3 298,0 - 299,9 298,95 8
4 300,0 - 301,9 300,95 8
5 302,0 - 303,9 302,95 11
6 304,0 - 305,9 304,95 13
7 306,0 - 307,9 306,95 12
8 308,0 - 309,9 308,95 10
9 310,0 - 311,9 310,95 5
10 312,0 - 313,9 312,95 5
11 314,0 –315,9 314,95 4
------
80

2.3.2 Definición de términos.

Para las distribuciones de frecuencia es conveniente dar las definiciones siguientes:

Recorrido. [R] Es el tamaño de la zona en la cual se manifiesta la variable.


55

Categorías. [K] Son las subdivisiones que se establecen para el recorrido y se


acostumbra numerarlas en orden ascendente.

Intervalos de clase. [IK] Son la expresión individual de las categorías establecidas


con la ubicación de sus extremos.

Límites de clase. Son los extremos correspondientes a cada intervalo de clase y hay
que distinguir entre:

Límites verdaderos. Son los valores matemáticos que separan los intervalos de clase
y conviene que no correspondan con datos existentes, avanzan una posición
respecto del redondeo que tengan los datos. También se denominan fronteras de
clase.

Límites aparentes. Son los valores convencionales para los extremos de los
intervalos de clase, con ellos se evita la ambiguedad que pueda surgir al asignar un
dato extremo a una categoría

Marcas de clase. [XK] Son los valores correspondientes al punto medio de cada
intervalo de clase.

Tamaño de intervalo. [C] Es la distancia entre los límites verdaderos de cada


intervalo.

Frecuencia de clase absoluta. [fK] Es el número de datos que se ubican en cada


categoría o intervalo de clase. La suma de todas las frecuencias de clase debe
coincidir con el número total de datos [N].

2.3.3 Frecuencias acumulativas y frecuencias relativas.

Por conveniencia para el análisis de la información, se han establecido algunas


maneras de presentar los datos de frecuencia, estas son las frecuencias
acumulativas y las frecuencias relativas las cuales están dadas por los siguientes
procedimientos:

Frecuencia acumulativa ascendente absoluta. Consiste en acumular el número de


datos correspondientes a cada categoría a medida que se avanza en los intervalos
de clase. Se denominarán FK  y se resumen con la siguiente expresión;

FK  =  fK (K desde 1 hasta un i considerado)

Frecuencia acumulativa descendente absoluta. Consiste en tomar en principio la


totalidad de los datos de la distribución e ir descontando a medida que se avanza en
56

las categorías los datos correspondientes a los intervalos de clase anteriores. Se


denominarán FK  y se resumen con la siguiente expresión:

FK  =  fK (K desde el i considerado hasta n)

Frecuencia relativa. Es el resultado de dividir la frecuencia absoluta de cada intervalo


de clase [fK] por el número total de datos de la distribución N. Se denominarán fRK ,
pueden expresarse como fracción o como porcentaje y se resumen con la siguiente
expresión;

fK
fRK = ------ x 100
N

Frecuencia acumulativa ascendente relativa. Es la correspondiente frecuencia


acumulativa ascendente absoluta FK  dividida en todos los casos por el número
total de datos de la distribución N. Se denominaran FRK , pueden expresarse como
fracción o como porcentaje y se resumen con la siguiente expresión;

FK
FRK = ------- x 100
N

Frecuencia acumulativa descendente relativa. Es la correspondiente frecuencia


acumulativa descendente absoluta FK  dividida en todos los casos por el número
total de datos de la distribución N. Se denominarán FRK , pueden expresarse como
fracción o como porcentaje y se resumen con la siguiente expresión;

FK 
FRK  = ------- x 100
N

Los valores de estas frecuencias para ejercicio que se ha venido exponiendo se


presentan en la siguiente tabla:
57

CAT. INTERVALOS FREC.ACUM. FREC. RELATIVAS

k Ik fk Fk Fk fRK FRK FRK

1 294,0 - 295,9 1 1 80 1,25 1,25 100,00


2 296,0 - 297,9 3 4 79 3,75 5,00 98,75
3 298,0 - 299,9 8 12 76 10,00 15,00 95,00
4 300,0 - 301,9 8 20 68 10,00 25,00 85,00
5 302,0 - 303,9 11 31 60 13,75 38,75 75,00
6 304,0 - 305,9 13 44 49 16,25 55,00 61,25
7 306,0 - 307,9 12 56 36 15,00 70,00 45,00
8 308,0 - 309,9 10 66 24 12,50 82,50 30,00
9 310,0 - 311,9 5 71 14 6,25 88,75 17,50
10 312,0 - 313,9 5 76 9 6,25 95,00 11,25
11 314,0 –315,9 4 80 4 5,00 100,00 5,00
----
80

2.3.4 Representación Gráfica.

Una vez se tienen los datos tabulados en las formas establecidas, puede
procederse a su representación en varias formas; las más usuales son:

- Histograma absoluto
- Histograma relativo

- Polígono de frecuencias absoluto


- Polígono de frecuencias relativo

- Ojiva ascendente absoluta


- Ojiva ascendente relativa

- Ojiva descendente absoluta


- Ojiva descendente relativa

La elaboración de estas representaciones se da en las siguientes formas:


Histogramas. Son rectángulos que tienen por base los intervalos de clase tomados
desde sus limites verdaderos y por altura las correspondientes frecuencias de
clase; absolutas o relativas según sea el histograma buscado.
58

BASES : IK

ALTURAS : fK o fRK

Polígonos de frecuencia. Son la línea quebrada que resulta de unir los puntos que
tienen las siguientes coordenadas, abscisa las marcas de clase y ordenada, las
correspondientes frecuencias de clase; absolutas o relativas según sea el polígono
buscado. Los polígonos se completan en sus extremos con líneas punteadas
hasta las marcas de clase anteriores y posteriores a las consideradas y
frecuencias cero.

ABSCISAS : XK

ORDENADAS : fK o fRK

Ojivas ascendentes. Son la línea quebrada que resulta de unir los puntos que
tienen las siguientes coordenadas, abscisa el limite superior verdadero de cada
intervalo de clase y ordenada la correspondiente frecuencia acumulada
ascendente; absoluta o relativa según sea la ojiva buscada. La ojiva se completa a
la izquierda con línea punteada que va hasta el limite superior del intervalo anterior
al primero considerado y frecuencia cero.

ABSCISAS : Limite superior de IK

ORDENADAS : FK  o FRK 

La Ojiva ascendente representa el número de datos o el porcentaje de los mismos


que tienen un valor escogido sobre la abscisa o menos de ese valor; por ello
también se denomina ojiva "o menos".

Ojivas descendentes. Son la línea quebrada que resulta de unir los puntos que
tienen las siguientes coordenadas, abscisa el limite inferior verdadero de cada
intervalo de clase y ordenada la correspondiente frecuencia acumulada
descendente; absoluta o relativa según sea la ojiva buscada. La ojiva se completa
a la derecha con línea punteada que va hasta el limite inferior del intervalo de
clase posterior al último considerado y frecuencia cero.

ABSCISAS : Limite inferior de IK

ORDENADAS : FK  o FRK 

La ojiva descendente representa el número de datos o el porcentaje de los


mismos que tienen un valor escogido sobre la abscisa o más de ese valor; por ello
también se denomina ojiva "o más".

El corte de las dos ojivas corresponde a una medida muy importante en


59

Estadística cual es la mediana. Tanto los polígonos de frecuencia como las ojivas
pueden trazarse uniendo los puntos con curvígrafo y pasan llamarse perfiles o
polígonos u ojivas suavizadas.
60
61

2.4 MEDIDAS DE POSICION

Las medidas de posición son valores que resumen la distribución y dan una idea
cuantitativa del comportamiento de la variable que están representando los datos.
Las principales medidas de posición son: la media (en sus distintas formas), la moda,
la mediana, los cuartiles, los deciles y los percentiles.

2.4.1 Media aritmética y otras medias.

2.4.1.1 Media Aritmética

La media aritmética constituye el promedio más empleado en cualquier


procesamiento de datos, se define de la siguiente manera:

PARA DATOS SIMPLES


Sea X1 , X2 , X3 , ........ , Xn un conjunto dado de datos; la media aritmética ( X )
está dada por :

_ X1 + X2 + X3 + .... + Xn  XK
X = -------------------------------- = -------
n n

donde n simboliza el número total de datos.

PARA DATOS AGRUPADOS


Cuando se tiene una distribución, se considera que los datos de cada categoría
están representados por la marca de clase de esa categoría, se tiene entonces un
conjunto de marcas de clase y el correspondiente conjunto de las frecuencias de
clase;

Marcas de clase X1 , X2 , X3 , ..... , Xn

Frecuencias de clase f1 , f2 , f3 , ..... , fn


_
la media aritmética ( X ) está dada por :

_ X1 f1 + X2 f2 + X3 f3 + .... + Xn fn  XK fK
X = ------------------------------------- --- = ----------
f1 + f2 + f3 + .... + fn fK

( K desde 1 hasta n )
62

por simplicidad, en adelante la sumatoria

f1 + f2 + f3 + ... + fn = N

2.4.2 Moda

La moda ( X )se define como el dato o el valor de la variable que presenta una
mayor frecuencia.

PARA DATOS SIMPLES, la moda es el dato que más veces se repite en el


conjunto dado.

PARA DATOS AGRUPADOS, la moda se ubica en el intervalo de clase que


presenta la mayor frecuencia ya sea simplemente como la marca de clase de
dicho intervalo o mediante la fórmula;

 1
X = LiK + C ---------
1 + 2

donde :

LiK : Límite inferior verdadero del intervalo de mayor


frecuencia
C : Tamaño del intervalo de clase
1 : Diferencia entre la frecuencia del intervalo de moda
y la del intervalo anterior
2 : Diferencia entre la frecuencia del intervalo de moda
y la del intervalo siguiente

2.4.3 Mediana, Cuartiles, Deciles, Percentiles

2.4.3.1 Mediana

La mediana (X) se define PARA DATOS SIMPLES, como el dato que ocupa la
posición central en un ordenamiento ascendente de los datos si el número total de
datos es impar. En el caso de que el número total de datos es par, la mediana
será el promedio de los dos datos centrales del ordenamiento.

PARA DATOS AGRUPADOS, la mediana es el valor de la variable que divide la


distribución de frecuencia en dos partes iguales. Es decir que a la izquierda de la
mediana se encuentran la mitad de los datos y a su derecha la otra mitad. De
63

acuerdo a ésta definición, la fórmula para el cálculo de la mediana será :

 (N/2) - FK-1
X = LiK + C ---------------
fK

donde :
K : indicativo de la categoría en la cual se ubica
acumulativamente la mitad de los datos
LiK : Límite verdadero inferior del intervalo de clase en el cual se ubica
acumulativamente la mitad de los datos
C : Tamaño del intervalo de clase
N : Número total de datos
FK-1 : Frecuencia acumulada ascendente hasta la categoría
inmediatamente anterior a la que acumula la mitad
de los datos
fK : Frecuencia del intervalo que acumula la mitad de
los datos

2.4.3.2 Cuartiles

Los cuartiles se definen como medidas de posición que dividen la distribución en


cuatro partes iguales. Se tienen por lo tanto 3 cuartiles ( Q1 , Q2, Q3 ). A la
izquierda del primer cuartil se tiene 1/4 de los datos, el segundo cuartil coincide
con la mediana y a la izquierda del tercer cuartil se han cubierto 3/4 de los datos.
Con ésta base se puede establecer como fórmula general para el cálculo de los
cuartiles la siguiente;

q (N/4) - FK-1
Qq = LiK + C ------------------- (q : 1, 2, 3)
fK

donde :
K : indicativo de la categoría en la cual se ubica
acumulativamente 1/4 , 2/4 o 3/4 de los datos
LiK : Límite verdadero inferior del intervalo de clase en el cual se ubica
acumulativamente 1/4 , 2/4 o 3/4 de los datos
C : Tamaño del intervalo de clase
N : Número total de datos
FK-1 : Frecuencia acumulada ascendente hasta la categoría
inmediatamente anterior a la que acumula 1/4 , 2/4
o 3/4 de los datos
fK : Frecuencia del intervalo que acumula 1/4 , 2/4 o
3/4 de los datos
64

2.4.3.3 Deciles

Se definen como medidas de posición que dividen la distribución de frecuencia en


10 partes iguales. Se tienen por lo tanto 9 deciles ( D1, D2, ... , D10 ). A la izquierda
del primer decil se tiene 1/10 de los datos y así sucesivamente. Con ésta base se
puede establecer como fórmula general para el cálculo de los deciles la siguiente;

d (N/10) - FK-1
Dd = LiK + C --------------------- (d : 1, 2, ... , 9)
fK

donde :
K : indicativo de la categoría en la cual se ubica
acumulativamente 1/10 , 2/10 ,..., 9/10 de los datos
LiK : Límite verdadero inferior del intervalo de clase en el cual se ubica
acumulativamente 1/10 , 2/10 ,..., 9/10 de los datos
C : Tamaño del intervalo de clase
N : Número total de datos
FK-1 : Frecuencia acumulada ascendente hasta la categoría
inmediatamente anterior a la que acumula 1/10 , 2/10
... , 9/10 de los datos
fK : Frecuencia del intervalo que acumula 1/10 , 2/10 , ... ,
9/10 de los datos

2.4.3.4 Percentiles

Se definen como medidas de posición que dividen la distribución de frecuencia en


100 partes iguales. Por lo tanto los percentiles son 99 ( P1 , P2 , ... , P99 ).
Aplicando una deducción similar a la de las medidas anteriores, la fórmula general
para el cálculo de los percentiles será la siguiente;

P(N/100)- FK-1
Pp = LiK + C --------------------- (p : 1, 2, ... , 99)
fK

donde :
K : indicativo de la categoría en la cual se ubica
acumulativamente 1/100 , 2/100 , ... ,99/100
de los datos
LiK : Límite verdadero inferior del intervalo de clase en el cual se
ubica acumulativamente 1/100 , 2/100 , ... , 99/100 de los datos
C : Tamaño del intervalo de clase
65

N : Número total de datos


FK-1 : Frecuencia acumulada ascendente hasta la categoría
inmediatamente anterior a la que acumula 1/100 , 2/100 , ... ,
99/100 de los datos
fK : Frecuencia del intervalo que acumula 1/100 , 2/100 , ... , 99/100
de los datos

2.4.4 Relaciones entre las medidas de posición

La media aritmética para un conjunto de datos dado, presenta un valor levemente


superior al que arroja el cálculo de las otras medias. En general se tiene que:
_
A<G<X

Para una distribución perfectamente simétrica se tiene que :


_  
X = X = X

Cuando se da que,
_ 
(X-X)>0

se dice que la distribución es desviada a la derecha o positiva.


Cuando se da que,
_ 
( X - X )< 0

se dice que la distribución es desviada a la izquierda o negativa.

2.4.5 Ejercicio de aplicación

Para el ejercicio que se ha venido trabajando, el cálculo de las medidas de


posición es el siguiente:
Media aritmética.

[K] [ IK ] [ XK ] [ fK [ XK fK ] FK 
]

1 294,0 - 295,9 294,95 1 294,95 1


2 296,0 - 297,9 296,95 3 890,85 4
3 298,0 - 299,9 298,95 8 2391,60 12
4 300,0 - 301,9 300,95 8 2407,60 20
66

5 302,0 - 303,9 302,95 11 3332,45 31


6 304,0 - 305,9 304,95 13 3964,35 44
7 306,0 - 307,9 306,95 12 3683,40 56
8 308,0 - 309,9 308,95 10 3089,50 66
9 310,0 - 311,9 310,95 5 1554,75 71
10 312,0 - 313,9 312,95 5 1564,75 76
11 314,0 –315,9 314,95 4 1259,80 80
----- -----------
80 24434,00

_  XK fK 24434,00
X = --------- = --------------- = 305,42 g/L
N 80

Moda.

De la tabla se observa que el intervalo de moda es el correspondiente a la


categoría 6; el límite verdadero inferior de ésta categoría es 303,95 . Según la
fórmula establecida, la moda es :

 1 (13-11)
X = LiK + C --------- = 303,95 + 2 ----------------------
1 + 2 (13-11) + (13-12)


X = 305,28 g/L

Mediana.

De la Tabla correspondiente a la frecuencia acumulativa ascendente, se observa


que la mitad de los datos (N/2) se cumple en el intervalo correspondiente a la
categoría 6. Por lo tanto al aplicar la fórmula establecida para la mediana se tiene ;

(N/2) = 40 datos ===> Categoría 6 (K=6)

 (N/2) – FK-1 (40 - 31)


X = Li6 + C ------------------ = 303,95 + 2 ------------
f6 13


67

X = 305,34 g/L

Cuartiles.

Para el primer cuartil (Q1), de la tabla correspondiente a la frecuencia acumulativa


ascendente, se observa que la cuarta parte de los datos (N/4) se cumple
exactamente al final del intervalo de clase correspondiente a la categoría 4; por lo
tanto el límite superior verdadero de éste intervalo corresponde al primer cuartil y
no es necesario la aplicación de la fórmula establecida. por lo tanto ;

(N/4) = 20 datos ===> Categoría 4

Q1 = 301,95 g/L

Para el tercer cuartil (Q3), de la tabla correspondiente a la frecuencia acumulativa


ascendente, se observa que las dos terceras partes de los datos (3N/4) se
cumplen en el intervalo de clase correspondiente a la categoría 8; el límite inferior
verdadero de ésta categoría es 307,95 por lo tanto al aplicar la fórmula establecida
se tiene;

(3N/4) = 60 datos ===> Categoría 8 (K=8)

3 (N/4) - F8-1 (60 - 56)


Q3 = Li8 + C -------------------- = 307,95 + 2 ------------
f8 10

Q3 = 308,75 g / L

Deciles.

Para el cálculo de los deciles el procedimiento es similar. Como ejemplo se


calculará el decil dos (D2). Para el decil dos, se observa de la tabla de frecuencia
acumulativa ascendente que las dos décimas partes de los datos (2N/10) se
cumplen en el intervalo de clase correspondiente a la categoría 4; el límite inferior
verdadero de ésta categoría es de 299,95 por lo tanto al aplicar la fórmula
establecida se tiene;

(2N/10) = 16 datos ===> Categoría 4 (K=4)

2(N/10) - F4-1 (16 - 12)


D2 = Li4 + C -------------------- = 299,95 + 2 --------------
f4 8
68

D2 = 300,95 g/L

Percentiles.

Con el mismo procedimiento general se calculan a manera de ejemplo los


percentiles diez (P10) y noventa (P90), los cuales tendrán importancia
posteriormente.

(10N/100) = 8 datos ===> Categoría 3 (K=3)

10(N/100) – F3-1 (8 - 4)
P10 = Li3 + C------------------------ = 297,95 + 2 ----------
f3 8

P10 = 298,95 g/L

Para el cálculo del percentil 90 :

(90N/100) = 72 datos ===> Categoría 10 (K=10)

90(N/100) - F10-1 72 - 71
P90 = Li10 + C ------------------------ = 311,95 + 2 -----------
f10 5

P90 = 312,35 g/L

2.5 MEDIDAS DE DISPERSION

Las medidas de dispersión son valores que indican cuantitativamente la separación


que presentan los datos entre ellos. Las principales medidas de dispersión son: El
recorrido. La distancia semi-intercuartil, la distancia percentil, la desviación media, la
desviación normal y el coeficiente de variación.

2.5.1 El recorrido. (R)

Puede definirse como la distancia entre los valores extremos de la variable que
aportan los datos. Su expresión más sencilla es;
69

R = Dato mayor - Dato menor

2.5.2 Distancia semi-intercuartil, distancia percentil

La distancia semi-intercuartil. (DSIC) Se define mediante la siguiente relación;


DSIC = 1/2 ( Q3 - Q1 )

La distancia percentil. (DP) Se define como;

DP = P90 - P10

2.5.3 La desviación media. (DM)

Se define mediante la relación;

Para un conjunto de datos agrupados

X1 , X2 , X3 , ..... , Xn con sus respectivas frecuencias f1 , f2 , f3 , ..... , fn

_
| XK - X | fK
DM = ------------------ ( K desde 1 hasta n)
fK

2.5.4 La desviación normal - Varianza

La desviación normal. (S) Se define mediante la relación;

Para un conjunto de datos agrupados

X1 , X2 , X3 , ..... , Xn con sus respectivas frecuencias f1 , f2 , f3 , ..... , fn

(( XK - X )2 fK )1/2
S = -------------------- ( K desde 1 hasta n )
fK

La varianza. (S2) Es definida simplemente como la desviación normal al cuadrado.


_
( XK - X )2 fK
2
S = -------------------- ( K desde 1 hasta n )
fK
70

2.5.5 Dispersión relativa - Coeficiente de variación

La dispersión relativa. Es la relación entre una medida de dispersión (tal como la


desviación media o la normal) y una medida de posición (media, mediana o moda).

El coeficiente de variación. (v) Se define mediante la relación;

S
CV =----- X 100
X

2.5.6 Relación entre las medidas de dispersión

Existe una relación aproximada que establece con propósitos estimativos que;

DM  4/5 S

2.5.7 Ejercicio de aplicación

Para el ejercicio que se ha venido trabajando, el cálculo de las medidas de


dispersión es el siguiente:

Recorrido.(R)

R = 315,9 -294,8 = 21,1 gr/L

Distancia semi-intercuartil.(DSIC)

DSIC = 1/2 ( Q3 - Q1 ) = 1/2 (308,75 - 301,95) = 3,4 g/L

Distancia percentil.(DP)
71

DP = P90 - P10 = 312,35 - 298,95 = 13,4 g/L

Desviación media.(DM)

_
 | XK - X | fK
DM = ------------------ ( K desde 1 hasta n)
 fK
_
( X = 305,42 )

K XK fK | XK - X | | XK – X | fK

1 294,95 1 -10,47 10,47


2 296,95 3 -8,47 25,41
3 298,95 8 -6,47 51,76
4 300,95 8 -4,47 35,76
5 302,95 11 -2,47 27,17
6 304,95 13 -0,47 6,11
7 306,95 12 1,53 18,36
8 308,95 10 3,53 35,30
9 310,95 5 5,53 27,65
10 312,95 5 7,53 37,65
11 314,95 4 9,53 38,12
----- --------
80 313,76

313,76
DM = ---------- = 3,92 g/L
80

Desviación normal.(S)

(( XK - X )2 fK)1/2
S = -------------------- ( K desde 1 hasta n )
fK
72

S = 4,80 g/L

Varianza.(S2)

S2 = 23,02 (g/L)2

Coeficiente de variación

S 4,80
CV = ------ 100 = ---------- 100 = 1,57 %
X 305,42

2.6 CRITERIOS DE EVALUACION

Estos criterios permiten en conjunto con las medidas de posición y dispersión ya


establecidas, una evaluación y análisis de la distribución de datos para sacar
conclusiones.

2.6.1 Simetría (SESGO)

Existen varios cuantificadores de la simetría en una distribución, se usará la relación


conocida como primer coeficiente de Parsons o coeficiente de distorsión (), el cual
se calcula mediante la relación;
_ 
X-X
 = -------- 100
S

El coeficiente de distorsión de una distribución perfectamente simétrica valdrá cero.


Un valor positivo indicará una desviación hacia la derecha, mientras que un valor
negativo indicará una desviación hacia la izquierda. Una distribución se puede
considerar simétrica si éste coeficiente es menor del 5%.
73

2.6.2 Apuntamiento (CURTOSIS)

El apuntamiento indica si el perfil que representa la distribución es más o menos


agudo. Se cuantifica mediante la siguiente relación;

DSIC (Q3 - Q1)/2


 = ------- = ------------------
DP P90 - P10

El apuntamiento se evalúa respecto del apuntamiento de una Distribución Normal, el


cual tiene un valor de 0,263.

2.6.3 Agrupamiento de los datos

Un análisis de la repartición de los datos en una distribución se basa en la propiedad


de la desviación normal (S) para una Distribución Normal. Esta propiedad establece
que cuando se tiene una Distribución Normal, la repartición de los datos presenta el
siguiente comportamiento:

entre los limites se agrupan


_ _
(X - S) y (X + S) el 68,27 % de los datos
_ _
(X - 2S) y (X + 2S) el 95,45 % de los datos
_ _
(X - 3S) y (X + 3S) el 99,73 % de los datos

Por lo tanto para evaluar el agrupamiento de los datos en una distribución


cualquiera, una vez que se han calculado tanto la media como la desviación normal
74

de la distribución, se procede a estimar el porcentaje de datos que quedan


comprendidos entre los extremos (X - S) y (X + S). Un valor cercano al 68 % indicará
una repartición de los datos similar a la de una Distribución Normal.

2.6.4 Condiciones de Normalidad

La Distribución Normal es la más importante en Estadística, la más conocida y gran


parte de los fenómenos naturales se acercan a ella. Es también una de las más
estudiadas y con un desarrollo matemático muy conocido. Por lo tanto una
evaluación indispensable cuando se tiene una distribución es poder concluir si se
aproxima a la Distribución Normal.

La Distribución Normal tiene las características de ser simétrica, medianamente


apuntada, y con una agrupación de los datos de acuerdo a la anteriormente
señalada.

En consecuencia, para poder concluir que una distribución dada puede considerarse
aproximadamente Normal se examinan estas tres condiciones dentro de una
flexibilidad razonable; por ejemplo:

SIMETRIA - 5% <  < 5 %

APUNTAMIENTO 0,23 <  < 0,29


_ _
DATOS ENTRE (X - S) y (X + S) 63 % - 73 %

2.6.5 Ejercicio de aplicación

Para el ejercicio que se ha venido trabajando, se tienen los siguientes cálculos;

Simetría.
_ 
X-X 305,42 - 305,28
 = -------- 100 = --------------------- 100 = 2,9 %
S 4,8
Apuntamiento.

DSIC (Q3 - Q1)/2 3,4


K = ------- = -------------- = ------- = 0,254
DP P90 - P10 13,4

Agrupamiento de los datos.


_
75

X + S = 305,42 + 4,80 = 310,22 ===> Categoría 9


_
X - S = 305,42 - 4,80 = 300,62 ===> Categoría 4

Para determinar el porcentaje de datos comprendido, se debe calcular qué


percentiles son los que corresponden a estos valores; en la fórmula general para el
cálculo de percentiles,

p (N/100) - FK-1
Pp = LiK + C ------------------------ (p : 1, 2, ... , 99)
fK

se procede a despejar p para cada caso;

p (80/100) - 66
310,22 = 309,95 + 2 ----------------------
5

===> p = 83,34
_
( X+S ) corresponde al percentil 83,34

p (80/100) - 12
300,62 = 299,95 + 2 ----------------------
8

===> p = 18,35

_
( X - S ) corresponde al percentil 18,35

83,34 - 18,35 = 64,99  65

_ _
===> El 65 % de los datos se agrupan entre (X-S) y (X+S).

Se concluye que la distribución de datos puede considerarse como


Distribución Normal.

Вам также может понравиться