Вы находитесь на странице: 1из 17

MEDIDAS DE DISPERSIÓN
Estadísticos o parámetros relacionados con la variabilidad de un
conjunto de datos y su distribución respecto a las medidas de
tendencia central, generalmente la media aritmética. Las medidas
de dispersión son: el rango, varianza, desviación estándar, error
estándar y el coeficiente de variación. Miden cuan diferentes y
distantes son los datos, lo que permite conocer con más precisión el
comportamiento de los datos y el efecto en la distribución de los
mismos, producto de la variabilidad registrada. Cuando mayor sea
ese valor, mayor será la variabilidad, cuanto menor sea, más
homogénea será. Así se sabe si todos los casos son parecidos o
varían mucho entre ellos.
Caracterizar una distribución solamente a través de una medida de
tendencia central no es apropiado. Las medidas de dispersión son
importantes debido a que dos muestras de observaciones con el
mismo valor central pueden tener variabilidad muy distinta.

MEDIDAS DE DISPERSIÓN

RANGO O AMPLITUD
Es la diferencia entre el mayor y el menor valor observado en un
conjunto de datos. Se interpreta como la amplitud que tiene la
distribución de los datos y se utiliza básicamente para variables
ordinales porque presenta el inconveniente de solamente tomar en
cuenta los valores extremos del conjunto de datos.

R  DM  dm
R  xmax  xmin

MEDIDAS DE DISPERSIÓN
VARIANZA
Se le llama también cuadrado medio (CM). Dificulta su interpretación el
hecho que se exprese en unidades cuadradas. En la expresión para
calcular la varianza, al numerador se le puede llamar simplemente suma
de cuadrados (SC) y corresponde a la sumatoria del cuadrado de las
diferencias entre cada una de las observaciones del conjunto de datos y la
media aritmética. En la varianza muestral, la expresión (n1) del
denominador se le llama grados de libertad.
n

  xi   
2

VARIANZA  POBLACIONAL
2  i 1
n
n

  xi  x 
2

s2  i 1 VARIANZA MUESTRAL
n 1

Observación: si no se expresa lo contrario, los datos corresponden a una muestra.

VARIANZA
Cualquiera de las siguientes expresiones equivalentes pueden
utilizarse para el cálculo de la varianza.

PARA UNA POBLACIÓN PARA UNA MUESTRA
n n

x   x  x 
2 2
i i
2  i 1
s2  i 1
n n 1
n n

x 2
i  n 2
 i nx
x 2 2

2  i 1
s2  i 1
n n 1
2
 
2
 
n

 i 
n

 i  x n
x
 i 1 
 i 1  
n

 
2
x 2
 xi
i
n n
 2  i 1 s 2  i 1
n n 1

GRADOS DE LIBERTAD
La noción de grados de libertad (gl) utilizada por Gosset (1908) en su
trabajo sobre la distribución t de Student y expuesta por Fisher (1922),
establece que, de un conjunto de observaciones, los grados de libertad
están dados por el número de valores que pueden ser asignados de
forma arbitraria, antes de que el resto tomen un valor
automáticamente producto de establecerse los que son libres, esto,
con el fin de compensar un resultado el cual se ha conocido
previamente, partiendo de la premisa de que en todos los casos la
selección o asignación debe ser aleatoria. Ello significa que al número
de observaciones se le debe restar el número de términos
desconocidos que se están estimando a partir de los datos, para servir
como divisor en el cálculo del error de un grupo de datos. Expresiones
para los grados de libertad corresponden a:
gl  n  r o gl  k  r
Donde n es el número de observaciones, k el número de grupos y r el número de
observaciones o grupos, cuyo valor dependerá del que tomen aquellos de la muestra que
son libres.

MEDIDAS DE DISPERSIÓN
DESVIACIÓN ESTÁNDAR
La desviación estándar, es LA MEDIA CUADRÁTICA de las diferencias entre
la media y cada una de las observaciones del conjunto de datos, es decir,
es un promedio de desviaciones. En ese sentido, la desviación estándar se
interpreta como la desviación promedio de los datos respecto de la
media. También se le conoce con el nombre de desviación típica. Se
calcula obteniendo la raíz cuadrada de la varianza y se expresa en
unidades de la variable que se estudia, lo cual constituye una ventaja.
Tiene la desventaja que solo se puede utilizar para comparar la
variabilidad entre muestras extraídas de la misma población, en relación
a la misma variable e igual unidad de medida.
n n

  xi      xi  x 
2 2

 i 1
y s i 1
n n 1
  2 y s  s2

MEDIDAS DE DISPERSIÓN
COEFICIENTE DE VARIACIÓN
Mide la variabilidad de los datos en términos relativos, comparando el
valor de la desviación estándar respecto de la media. El coeficiente de
variación se interpreta como el porcentaje de variabilidad observado
en la variable de estudio. Tiene la ventaja que permite hacer
comparaciones de variabilidad entre conjuntos de datos referidos a
variables distintas, de la misma variable pero con unidades de medida
diferentes, y muestras extraídas de distintas poblaciones, en las
cuales, los valores pueden ser de igual manera diferentes.

s
CV   100
x

MEDIDAS DE DISPERSIÓN
ERROR ESTÁNDAR DE LA MEDIA
El error estándar o error típico de la media (S, SE, EE), se utiliza cuando se pretende
cuantificar el error cometido al estimarla, el cual depende de tamaño de la muestra y
se interpreta como la desviación promedio de las medias muestrales respecto de la
media poblacional (media de medias). La media de una muestra es el estimador usual
de una media poblacional, sin embargo, diferentes muestras escogidas de la misma
población tienden en general a dar distintos valores de la media. El valor del error
típico TEÓRICO no es posible calcularse porque nunca se extraen todas las muestras
posibles y porque no se conoce el valor del parámetro. La medición EMPÍRICA del
error típico se efectúa desde la única muestra que se obtiene para estimar el
parámetro poblacional, dividiendo la desviación estándar de la variable por la raíz
cuadrada del número de datos. En términos generales, a mayor tamaño de muestra
menor error típico. Se calcula con:

n n

  xi  x   i
2
x 2
 nx 2

s2 s
sx   sx  i 1
sx  i 1
n n n  n  1 n  n  1

MEDIDAS DE DISPERSIÓN: Cálculo
Se realiza un estudio acerca de los efectos del tabaquismo sobre los
patrones de sueño. La medición que se observa es el tiempo, en
minutos, que toma quedarse dormido. Se obtienen estos datos

a. Encuentre la media de la muestra de cada grupo.


b. Calcule las medidas de dispersión de la muestra de cada grupo e
interprete los resultados.
c. Comente qué clase de impacto parece tener el hecho de fumar
sobre el tiempo que se requiere para quedarse dormido.

MEDIDAS DE POSICIÓN (CUANTILES)
DEFINICIÓN
Son valores que dividen a una serie de datos ordenados
ascendentemente en partes iguales, de manera que uno de
esos valores puede fraccionar a la serie en dos partes, una
que por debajo de dicho valor quedan el p por ciento de las
observaciones, y la otra, que por arriba de ese valor quedan
el 100p por ciento de las observaciones.

1 2 3 4 5 6 7 8 9 10
D1 D2 D3 D4 D5 D6 D7 D8 D9
p 100  p
40% D4 60%

MEDIDAS DE POSICIÓN (CUANTILES)
Los PERCENTILES dividen a la serie en 100 partes iguales, los DECILES en
10 partes iguales y los CUARTILES en 4 partes iguales. Por ejemplo, cada
conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes
iguales. El primer cuartil es el valor debajo del cual quedan el 25% de las
observaciones, y sobre el cual se encuentran el 75% restante. El
segundo cuartil es equivalente a la mediana. El tercer cuartil es el valor
debajo del cual está el 75% de las observaciones y encima del cual se
encuentra el 25% restante. Por otro lado, el percentil 25 (P25) es el
primer cuartil (Q1), el quinto decil (D5) es el segundo cuartil (Q2) y el
tercer cuartil (Q3) es el percentil 75 (P75).

P25 P50 P75


1 2 3 4 5 Me 6 7 8 9 10
D1 D2 Q1 D3 D4 D5 D6 D7 D8 D9
Q3
Q2

MEDIDAS DE POSICIÓN: CÁLCULO
PROCEDIMIENTO (InfoStat)  Procedimiento Excel (Exc) 

P  n 
x 
P   n  1 
x  Para x :
   100 100 n 
 100   100   n  1 , n  1 

Si P es entero: VPx  V P1  d V P 2  V P1 


V P  V P 1
VPx  DONDE: 
2 P: es el puesto o posición en la serie de datos
Si P no es entero: n: es el número de observaciones en la serie
x: orden del percentil
PPx  int  P   1 V[P]: valor de la serie en el puesto P
V[P+1]: valor de la serie en el siguiente puesto
Procedimiento Excel (Inc)  Int (P): entero de L redondeado hacia abajo.
V[P1]: Primer valor de la serie incluido en el puesto P
P   n  1 
x 
 1 x V[P2]: Segundo valor de la serie incluido en el puesto P
 100 
d: fracción decimal de P
VPx  V P1  d V P 2  V P1  PPx: Posición del percentil de orden x
VPx: Valor del percentil de orden x

MEDIDAS DE POSICIÓN: EJEMPLO
Dada la serie ordenada ascendentemente de 12
números, calcular: D1, Q1, D5, Q3 y P90.

Puesto 1 2 3 4 5 6 7 8 9 10 11 12

Valor 3 5 6 8 9 14 17 17 18 19 20 24
1 2 3 4 5 Me 6 7 8 9 10
D1 D2 Q1 D3 D4 D5 D6 D7 D8 D9
Q3
Q2
P50

MEDIDAS DE POSICIÓN: EJEMPLO
Dada una muestra de la edad de 14 personas que prefieren
determinado género musical. Calcule los percentiles 8, 32.5 y 50, el
cuarto decil y tercer cuartil.
Persona 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Edad 8 10 22 21 20 9 60 16 14 18 25 12 65 13

Datos ordenados de manera ascendente, de menor a mayor
Puesto 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Edad 8 9 10 12 13 14 16 18 20 21 22 25 60 65

MEDIDAS DE POSICIÓN
RANGO INTERCUARTIL Y DESVIACIÓN INTERCUARTÍLICA
El rango intercuartil (RlQ) es la diferencia entre el tercer cuartil y el primer
cuartil (P75P25). Indica la amplitud del 50% de los datos ubicados en la parte
central de la distribución. La desviación intercuartílica es la semidiferencia
del tercer y primer cuartil, e indica el alejamiento promedio del 50% de las
observaciones respecto de la mediana. Cumple una función similar a la
desviación estándar, pero es mucho más resistente al efecto de valores
extremos. En consecuencia ambos estadísticos constituyen medidas de
dispersión y se utilizan cuando la mediana es la medida de tendencia central.

RIQ Q3  Q1
Q 
2 2
Para el ejemplo de las edades, el rango intercuartil y la desviación
intercuartílica se calcula de la siguiente manera:

Q3  Q1 22  12
RIQ  Q3  Q1  22  12  10 años Q   5 años
2 2

MUESTRA Y MEDIA RECORTADA

La media aritmética es bastante sensible a un solo valor extremo, mientras


que la mediana es insensible a muchos valores apartados. Como el efecto de
valores extremos es indeseable, es posible recortar la muestra. La media es
el promedio de todos los datos, mientras que la mediana resulta de eliminar
todos excepto uno o dos valores medios y luego promediar. En otras
palabras, la media aritmética implica recortar 0% de cada extremo de la
muestra, mientras que en el caso de la mediana se recorta la cantidad
máxima posible de cada extremo. Una media recortada es un término medio
entre la media aritmética y la mediana. Una media 10% recortada, por
ejemplo, se calcularía eliminando el 10% (D10) inferior de las observaciones
y el 10% (D90) superior de las observaciones de la muestra y luego
promediando los que quedan (Devore, 2008). Una media recortada con un
porcentaje de recorte moderado, algo entre 5 y 25%, producirá una medida
de tendencia central que no es ni tan sensible a los valores apartados como
la media aritmética ni tan insensible como la mediana.

MUESTRA Y MEDIA RECORTADA

Para la serie de datos del ejemplo anterior


calcular la media recortada eliminando el
15% (P15) inferior de las observaciones y el
15% (D85) superior de las observaciones de
la muestra.
Puesto 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Edad 8 9 10 12 13 14 16 18 20 21 22 25 60 65

Вам также может понравиться