Академический Документы
Профессиональный Документы
Культура Документы
MEDIDAS DE DISPERSIÓN
Estadísticos o parámetros relacionados con la variabilidad de un
conjunto de datos y su distribución respecto a las medidas de
tendencia central, generalmente la media aritmética. Las medidas
de dispersión son: el rango, varianza, desviación estándar, error
estándar y el coeficiente de variación. Miden cuan diferentes y
distantes son los datos, lo que permite conocer con más precisión el
comportamiento de los datos y el efecto en la distribución de los
mismos, producto de la variabilidad registrada. Cuando mayor sea
ese valor, mayor será la variabilidad, cuanto menor sea, más
homogénea será. Así se sabe si todos los casos son parecidos o
varían mucho entre ellos.
Caracterizar una distribución solamente a través de una medida de
tendencia central no es apropiado. Las medidas de dispersión son
importantes debido a que dos muestras de observaciones con el
mismo valor central pueden tener variabilidad muy distinta.
MEDIDAS DE DISPERSIÓN
RANGO O AMPLITUD
Es la diferencia entre el mayor y el menor valor observado en un
conjunto de datos. Se interpreta como la amplitud que tiene la
distribución de los datos y se utiliza básicamente para variables
ordinales porque presenta el inconveniente de solamente tomar en
cuenta los valores extremos del conjunto de datos.
R DM dm
R xmax xmin
MEDIDAS DE DISPERSIÓN
VARIANZA
Se le llama también cuadrado medio (CM). Dificulta su interpretación el
hecho que se exprese en unidades cuadradas. En la expresión para
calcular la varianza, al numerador se le puede llamar simplemente suma
de cuadrados (SC) y corresponde a la sumatoria del cuadrado de las
diferencias entre cada una de las observaciones del conjunto de datos y la
media aritmética. En la varianza muestral, la expresión (n1) del
denominador se le llama grados de libertad.
n
xi
2
VARIANZA POBLACIONAL
2 i 1
n
n
xi x
2
s2 i 1 VARIANZA MUESTRAL
n 1
Observación: si no se expresa lo contrario, los datos corresponden a una muestra.
VARIANZA
Cualquiera de las siguientes expresiones equivalentes pueden
utilizarse para el cálculo de la varianza.
PARA UNA POBLACIÓN PARA UNA MUESTRA
n n
x x x
2 2
i i
2 i 1
s2 i 1
n n 1
n n
x 2
i n 2
i nx
x 2 2
2 i 1
s2 i 1
n n 1
2
2
n
i
n
i x n
x
i 1
i 1
n
2
x 2
xi
i
n n
2 i 1 s 2 i 1
n n 1
GRADOS DE LIBERTAD
La noción de grados de libertad (gl) utilizada por Gosset (1908) en su
trabajo sobre la distribución t de Student y expuesta por Fisher (1922),
establece que, de un conjunto de observaciones, los grados de libertad
están dados por el número de valores que pueden ser asignados de
forma arbitraria, antes de que el resto tomen un valor
automáticamente producto de establecerse los que son libres, esto,
con el fin de compensar un resultado el cual se ha conocido
previamente, partiendo de la premisa de que en todos los casos la
selección o asignación debe ser aleatoria. Ello significa que al número
de observaciones se le debe restar el número de términos
desconocidos que se están estimando a partir de los datos, para servir
como divisor en el cálculo del error de un grupo de datos. Expresiones
para los grados de libertad corresponden a:
gl n r o gl k r
Donde n es el número de observaciones, k el número de grupos y r el número de
observaciones o grupos, cuyo valor dependerá del que tomen aquellos de la muestra que
son libres.
MEDIDAS DE DISPERSIÓN
DESVIACIÓN ESTÁNDAR
La desviación estándar, es LA MEDIA CUADRÁTICA de las diferencias entre
la media y cada una de las observaciones del conjunto de datos, es decir,
es un promedio de desviaciones. En ese sentido, la desviación estándar se
interpreta como la desviación promedio de los datos respecto de la
media. También se le conoce con el nombre de desviación típica. Se
calcula obteniendo la raíz cuadrada de la varianza y se expresa en
unidades de la variable que se estudia, lo cual constituye una ventaja.
Tiene la desventaja que solo se puede utilizar para comparar la
variabilidad entre muestras extraídas de la misma población, en relación
a la misma variable e igual unidad de medida.
n n
xi xi x
2 2
i 1
y s i 1
n n 1
2 y s s2
MEDIDAS DE DISPERSIÓN
COEFICIENTE DE VARIACIÓN
Mide la variabilidad de los datos en términos relativos, comparando el
valor de la desviación estándar respecto de la media. El coeficiente de
variación se interpreta como el porcentaje de variabilidad observado
en la variable de estudio. Tiene la ventaja que permite hacer
comparaciones de variabilidad entre conjuntos de datos referidos a
variables distintas, de la misma variable pero con unidades de medida
diferentes, y muestras extraídas de distintas poblaciones, en las
cuales, los valores pueden ser de igual manera diferentes.
s
CV 100
x
MEDIDAS DE DISPERSIÓN
ERROR ESTÁNDAR DE LA MEDIA
El error estándar o error típico de la media (S, SE, EE), se utiliza cuando se pretende
cuantificar el error cometido al estimarla, el cual depende de tamaño de la muestra y
se interpreta como la desviación promedio de las medias muestrales respecto de la
media poblacional (media de medias). La media de una muestra es el estimador usual
de una media poblacional, sin embargo, diferentes muestras escogidas de la misma
población tienden en general a dar distintos valores de la media. El valor del error
típico TEÓRICO no es posible calcularse porque nunca se extraen todas las muestras
posibles y porque no se conoce el valor del parámetro. La medición EMPÍRICA del
error típico se efectúa desde la única muestra que se obtiene para estimar el
parámetro poblacional, dividiendo la desviación estándar de la variable por la raíz
cuadrada del número de datos. En términos generales, a mayor tamaño de muestra
menor error típico. Se calcula con:
n n
xi x i
2
x 2
nx 2
s2 s
sx sx i 1
sx i 1
n n n n 1 n n 1
MEDIDAS DE DISPERSIÓN: Cálculo
Se realiza un estudio acerca de los efectos del tabaquismo sobre los
patrones de sueño. La medición que se observa es el tiempo, en
minutos, que toma quedarse dormido. Se obtienen estos datos
1 2 3 4 5 6 7 8 9 10
D1 D2 D3 D4 D5 D6 D7 D8 D9
p 100 p
40% D4 60%
MEDIDAS DE POSICIÓN (CUANTILES)
Los PERCENTILES dividen a la serie en 100 partes iguales, los DECILES en
10 partes iguales y los CUARTILES en 4 partes iguales. Por ejemplo, cada
conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes
iguales. El primer cuartil es el valor debajo del cual quedan el 25% de las
observaciones, y sobre el cual se encuentran el 75% restante. El
segundo cuartil es equivalente a la mediana. El tercer cuartil es el valor
debajo del cual está el 75% de las observaciones y encima del cual se
encuentra el 25% restante. Por otro lado, el percentil 25 (P25) es el
primer cuartil (Q1), el quinto decil (D5) es el segundo cuartil (Q2) y el
tercer cuartil (Q3) es el percentil 75 (P75).
P n
x
P n 1
x Para x :
100 100 n
100 100 n 1 , n 1
Puesto 1 2 3 4 5 6 7 8 9 10 11 12
Valor 3 5 6 8 9 14 17 17 18 19 20 24
1 2 3 4 5 Me 6 7 8 9 10
D1 D2 Q1 D3 D4 D5 D6 D7 D8 D9
Q3
Q2
P50
MEDIDAS DE POSICIÓN: EJEMPLO
Dada una muestra de la edad de 14 personas que prefieren
determinado género musical. Calcule los percentiles 8, 32.5 y 50, el
cuarto decil y tercer cuartil.
Persona 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Edad 8 10 22 21 20 9 60 16 14 18 25 12 65 13
Datos ordenados de manera ascendente, de menor a mayor
Puesto 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Edad 8 9 10 12 13 14 16 18 20 21 22 25 60 65
MEDIDAS DE POSICIÓN
RANGO INTERCUARTIL Y DESVIACIÓN INTERCUARTÍLICA
El rango intercuartil (RlQ) es la diferencia entre el tercer cuartil y el primer
cuartil (P75P25). Indica la amplitud del 50% de los datos ubicados en la parte
central de la distribución. La desviación intercuartílica es la semidiferencia
del tercer y primer cuartil, e indica el alejamiento promedio del 50% de las
observaciones respecto de la mediana. Cumple una función similar a la
desviación estándar, pero es mucho más resistente al efecto de valores
extremos. En consecuencia ambos estadísticos constituyen medidas de
dispersión y se utilizan cuando la mediana es la medida de tendencia central.
RIQ Q3 Q1
Q
2 2
Para el ejemplo de las edades, el rango intercuartil y la desviación
intercuartílica se calcula de la siguiente manera:
Q3 Q1 22 12
RIQ Q3 Q1 22 12 10 años Q 5 años
2 2
MUESTRA Y MEDIA RECORTADA