Академический Документы
Профессиональный Документы
Культура Документы
=
+
+ =
=
+
+
k n
x x
k n x
x
k k
k
2 si
2
1 2 si
~
) 1 ( ) (
) 1 (
La mediana es resistente a la presencia de datos atpicos. Tambin puede ser til cuando
algunos datos han sido censurados.
Ejemplos:
1) Supongamos que los datos son:
Xs: 3, 5, 2, 4, 6, 8, 7, 7, 6 n = 9 (n+1)/2 = 5
Ordenamos la muestra: 2 3 4 5 6 6 7 7 8
6
~
= x
2) Supongamos que los datos son:
Xs: 3, 5, 2, 4, 6, 8, 7, 7 n = 8 (n+1)/2 = 4.5
Ordenamos la muestra: 2 3 4 5 6 7 7 8
5 . 5
~
= x
3) Si tenemos:
Xs: 1,2,2,3 2
~
2 = = x x
Xs: 1,2,2, 7 2
~
2 = = x x
Ejercicios: 1) Qu pasa si, en el segundo caso, tenemos un 70 en lugar de 7?
2) Si tenemos una muestra de salarios de una poblacin dada, sera ms adecuado
tomar la media o la mediana muestral para representarlos?
Media - Podada: es un promedio calculado sobre los datos una vez que se han
eliminado 100 % de los datos ms pequeos y 100 % de los datos ms grandes.
Es una medida intermedia entre la media y la mediana. Formalmente podemos definirla
como:
145
| | | |
| |
n n
n n
x
n
x
x
2
) (
...
) 1 (
+ +
+
=
es decir, eliminando un nmero de datos en cada extremo de la muestra ordenada igual a
la parte entera de n .
Otra manera de definirla es eliminando n datos en cada extremo si n es entero y,
cuando no lo es, interpolando entre dos medias -podadas, una en la cual se podan
[n ] en cada extremo y otra en la que se podan [n ]+1 datos en cada extremo.
Ejemplos: 1) Sea el siguiente conjunto de 10 observaciones, ya ordenadas
Xs: 2 5 8 10 14 17 21 25 28 40
y calculemos la media 0.10-podada. Debemos podar 1 dato en cada extremo y calcular el
promedio de los 8 datos restantes, es decir
16
8
128
8
28 25 21 17 14 10 8 5
10 . 0
= =
+ + + + + + +
= x
2) Sea el siguiente conjunto de 12 observaciones, ya ordenadas
Xs: 1 2 5 8 10 14 17 21 25 28 40 45
y calculemos la media 0.10-podada. Usando la definicin dada inicialmente, debemos
podar [12 0.10] = [1.2] = 1 dato en cada extremo y calcular el promedio de los 10 datos
restantes, es decir
17
10
170
10
40 28 25 21 17 14 10 8 5 2
10 . 0
= =
+ + + + + + + + +
= x
Con la segunda definicin, deberamos calcular dos medias, una podando una
observacin en cada extremo de la muestra ordenada y otra podando dos observaciones
en cada extremo, e interpolar linealmente entre ambas medias. Es decir, calculamos
16
8
128
8
28 25 21 17 14 10 8 5
17
10
170
10
40 28 25 21 17 14 10 8 5 2
2
1
= =
+ + + + + + +
=
= =
+ + + + + + + + +
=
x
x
y la media podada se obtiene como la ordenada correspondiente a x = 1.2 en la recta que
pasa por (1,17) y (2, 16):
8 . 16
10 . 0
= x
como la ordenada correspondiente a x = 1.2 en la recta que pasa por (1,17) y (2, 16).
146
Observemos que la mediana puede ser vista como una media podada con =0.5. En ese
sentido, la media podada es una medida intermedia entre la media y la mediana. Es ms
resistente a datos atpicos que la media.
Cmo elegimos ?
Depende de cuantos outliers se pretende excluir y de cun robusta queremos que sea la
medida de posicin. Como dijimos, cuando seleccionamos = 0 tenemos la media, si
elegimos el mximo valor posible para (lo ms cercano posible a 0.5) tenemos la
mediana. Cualquier poda intermedia representa un compromiso entre ambas. Una
eleccin bastante comn es = 0.10, que excluye un 20% de los datos.
Ejemplo: En este ejemplo calcularemos las tres medidas.Los datos siguientes, ya
ordenados, corresponden al nmero de pulsaciones por minuto en pacientes con asma
durante un espasmo:
40 120 120 125 136 150 150 150 150 167
8 . 130 = x 143
~
= x 625 . 137
10 . 0
= x
Si la distribucin es simtrica la mediana y la media identifican al mismo punto. Sin
embargo, si la distribucin de los datos es asimtrica, esperamos que la relacin entre
ambas siga el siguiente patrn:
Asimetra derecha (cola larga hacia la derecha) X > X
~
Asimetra izquierda (cola larga hacia la izquierda) X < X
~
En ejemplo anterior tenamos:
Xs: 1,2,2,3 2 = x 2
~
= x
Xs: 1,2,2,7 3 = x 2
~
= x
Qu pasara con ambas medidas si reemplazamos el valor 7 por 70?
La mediana puede ser til cuando algunos datos son censurados. En estos casos es
imposible calcular la media muestral, sin embargo suele ser posible computar la mediana.
Ejemplos: a) Tiempo de supervivencia (en meses) de pacientes con cierta patologa. Los
datos que se indican entre parntesis tienen censura a derecha, es decir, se sabe que el
paciente sobrevivi ese tiempo, pero no se conoce el tiempo real de supervivencia.
1 5 10 12 18 24 25 28 39 45 (45) 48 50 51 (84) n = 15
Como n = 15 la mediana es el octavo dato, por lo tanto X
~
= 28. Es posible calcularla
aunque haya datos censurados, porque los mismos no participan en el clculo de la
mediana. Por ejemplo, aunque no conocemos exactamente el tiempo que sobrevivi el
147
paciente cuyo dato es (45) sabemos que en esta muestra ese dato ocupar el lugar 11 o
uno superior.
b) Si los datos son:
1 5 10 (12) 18 24 25 28 39 45 (45) 48 50 51 (84) n = 15
no es posible calcular la mediana debido al dato indicado como (12). Sabemos que este
paciente sobrevivi por lo menos 12 meses, pero desconocemos el verdadero valor, el
que puede ocupar cualquier posicin entre la cuarta y la ltima.
Pregunta: Si tenemos una muestra de salarios de una poblacin dada, sera ms
adecuado tomar la media o la mediana muestral para representarlos?
Medidas de Dispersin o Variabilidad: Cun dispersos estn los datos? Cun
cercanos son los datos al valor tpico?
Supongamos que tenemos datos
n
x x x ,......, ,
2 1
Xs: 0 2 6 7 10
Ys: 2 3 6 6 8
5 = = Y X
6
~ ~
= = Y X
Cmo medir la diferencia que se observa entre ambas muestras?
Rango Muestral: Es la diferencia entre el valor ms grande y el pequeo de los datos:
Rango = mx(X
i
) mn(X
i
)
Ejemplo: en nuestros conjuntos de datos:
R
X
= 10 R
Y
= 6
Esta medida es muy sensible a la presencia de outliers.
148
Veamos otro ejemplo:
Xs: 0 1 5 9 10
Ys: 0 0 5 5 10
Y X
R R Y X Y X = = =
~ ~
Varianza Muestral:Mide la variabilidad de los datos alrededor de la media muestral.
Varianza muestral =
1
) (
1
2
2
=
n
x x
S
n
i
i
Desvo estndar muestral =
2
S S =
Ejemplo: en los dos ejemplos anteriores obtenemos
S
2
x
= 20.5 S
x
= 4.258
S
2
y
= 12.5 S
y
= 3.536
El desvo estndar tiene las mismas unidades que los datos, mientras que la varianza
no.
Al basarse en promedios, estas medidas son sensibles a la presencia de datos
atpicos. Por ejemplo, si en la muestra de los Ys cambiamos el 10 por un 15
obtenemos S
2
Y
= 30 y S
Y
= 5.477, mientras que si lo cambiamos por un 20 obtenemos
S
2
Y
= 57.5 y S
Y
= 7.583.
Coeficiente de Variacin: Es una medida que relaciona el desvo standard con la media
de una muestra.
149
X
S
CV =
Es una medida que est en desuso, ya que no tiene propiedades estadsticas muy
interesantes, sin embargo no depende de las unidades y si lo multiplicamos por 100 nos
da una idea de la variabilidad relativa.
Distancia Intercuartil: Es una medida basada en el rango de los datos centrales de la
muestra y ms resistente que el desvo estndar.
Comenzaremos por definir los percentiles. El percentil 100 % de la muestra es el
valor por debajo del cual se encuentra el 100 % de los datos en la muestra ordenada.
Para calcularlo:
Ordenamos la muestra de menor a mayor
Buscamos el dato que ocupa la posicin ). 1 ( + n Si este nmero no es entero se
interpolan los dos adyacentes.
Ejemplo: Tenemos 19 datos que ordenados son
1 1 2 2 3 4 4 5 5 6 7 7 8 8 9 9 10 10 11
Percentil Posicin Valor
10% 0.10 (19+1) = 2 1
25% 0.25 (19+1) = 5 3 Cuartil Inferior
50% 0.50 (19+1) = 10 6 Mediana
75% 0.75(19+1) = 15 9 Cuartil Superior
95% 0.95(19+1) = 19 11
Notemos que el percentil 50% (o segundo cuartil) coincide con la mediana. Llamaremos
cuartil inferior (o primer cuartil) al percentil 25% y cuartil superior (o tercer cuartil) al
percentil 75%.
Los cuartiles y la mediana dividen a la muestra ordenada en cuatro partes igualmente
pobladas (aproximadamente un 25 % de los datos en cada una de ellas). Entre los
cuartiles se hallan aproximadamente el 50% central de los datos y el rango de stos es:
d
I
=distancia intercuartil= cuartil superior - cuartil inferior
Observacin: Si en ejemplo cambiramos el ltimo dato por 110, la distancia intercuartil
no cambiara, mientras que el desvo pasara de 3.2 a 24.13!!!!
Cuartos y Distancia entre Cuartos: Una medida muy cercana a los cuartiles inferior y
superior son el cuarto inferior y el cuarto superior. Se calculan de la siguiente manera:
Se ordena la muestra y se calcula la mediana de los datos.
Dividimos a la muestra ordenada en dos partes: la primera corresponde a los datos
ms pequeos que la mediana y la segunda parte a la los datos ms grandes que la
mediana
150
Si el tamao de la muestra es par, el cuarto inferior es la mediana de la primera
mitad, mientras que el cuarto superior es la mediana de la segunda mitad.
Si el tamao de la muestra es impar, a la primera y a la segunda parte se las
expande agregndoseles a cada una de ellas la mediana de todos los datos. El
cuarto inferior es la mediana de la primera parte expandida y el cuarto superior es
la mediana de la segunda parte expandida. Es decir, en el caso impar, la mediana
interviene en el cmputo de los dos cuartos.
Definimos la distancia entre cuartos como:
d
C
=distancia entre cuartos= cuarto superior-cuarto inferior
Ejemplo: Sean las siguientes muestras ordenadas
Cuarto inferior=3 Cuarto inferior=4
2 3 5 6 8 9 2 3 5 6 7 8 9
Cuarto superior=8 Cuarto superior=7.5
Desvo Absoluto Mediano (Desviacin absoluta respecto de la Mediana): Es una
versin robusta del desvo estndar basada en la mediana. Definimos la MAD como:
( ) x x MAD
i
~
mediana =
Cmo calculamos la MAD?
Ordenamos los datos de menor a mayor.
Calculamos la mediana.
Calculamos la distancia de cada dato a la mediana.
Despreciamos el signo de las distancias y las ordenamos de menor a mayor.
Buscamos la mediana de las distancias sin signo.
Observacin: Si deseamos comparar la distancia intercuartil y la MAD con el desvo
standard es conveniente dividirlas por constantes adecuadas. En ese caso se compara a
S con
675 . 0
MAD
35 . 1
I
d
151
5 Nmeros de Resumen:
Los 5 nmeros de resumen de la distribucin de un conjunto de datos consisten en el
Mnimo, el cuartil inferior, la mediana, el cuartil superior y el mximo.
Ejemplo: Los siguientes datos corresponden a tiempos de CPU (en segundos) de 25
trabajos enviados a un server tomados al azar.
CPU
1.17 1.23 0.15 0.19 0.92
1.61 3.76 2.41 0.82 0.75
1.16 1.94 0.71 0.47 2.59
1.38 0.96 0.02 2.16 3.07
3.53 4.75 1.59 2.01 1.40
Calculamos los 5 nmeros resumen y la media muestral para este conjunto de datos
> summary(server1)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.02 0.82 1.38 1.63 2.16 4.75
Realizamos un esquema de Tallo y Hoja y graficamos un histograma para este conjunto
de datos:
0 1 2 3 4 5
0
.
0
0
.
1
0
.
2
0
.
3
CPU
stem(CPU)
N = 25 Median = 1.38
Quartiles = 0.82, 2.16
Decimal point is at the colon
0 : 01257789
1 : 022244669
2 : 0246
3 : 158
4 : 7
Todas las medidas y los grficos muestran que se trata de una distribucin asimtrica con
cola a derecha.
Box-Plots
Con las medidas anteriores podemos construir un grfico de fcil realizacin y lectura.
Cmo lo hacemos? Vamos a dar la versin, pero vale la pena advertir que hay
variaciones de un programa a otro.
1. Representamos una escala vertical u horizontal
152
2. Dibujamos una caja cuyos extremos son los cuartiles y dentro de ella un segmento
que corresponde a la mediana.
3. A partir de cada extremo dibujamos un segmento hasta el dato ms alejado que est
a lo sumo 1.5 d
I
del extremo de la caja. Estos segmentos se llaman bigotes.
4. Marcamos con * a aquellos datos que estn entre 1.5 d
I
y 3 d
I
de cada extremo y con
o a aquellos que estn a ms de 3 d
I
de cada extremo. Algunos paquetes, como el R,
indican a todos los outliers de la misma forma.
Observacin: Muchos paquetes estadsticos realizan el boxplot usando los cuartos y la
distancia entre cuartos en lugar de la distancia intercuartil. Como estas medidas son muy
prximas, en general los resultados son anlogos. Lo importante es que entre los cuartos
o entre los cuartiles yace aproximadamente el 50% central de los datos.
Ejemplo: El box-plot correspondiente a los tiempos de CPU es el siguiente
0
1
2
3
4
CPU
Es interesante observar que en el boxplot se indica a uno de los datos como outlier,
mientras que en el anlisis anterior esto no pareca evidente.
A partir de un box-plot podemos podemos apreciar los siguientes aspectos de la
distribucin de un conjunto de datos:
posicin
dipersin
asimetra
longitud de las colas
puntos anmalos o outliers.
Los box-plots son especialmente tiles para comparar varios conjuntos de datos, pues
nos dan una rpida impresin visual de sus caractersticas.
153
Outliers: Los mtodos que hemos visto nos permiten identificar puntos atpicos, que
pueden aparecer en una o ms variables. Su deteccin es importante pues pueden
determinar o influenciar fuertemente los resultados de un anlisis estadstico clsico,
pues muchas de las tcnicas habitualmente usadas son muy sensibles a la presencia de
datos atpicos.
Los outliers deben ser cuidadosamente inspeccionados. Si no hay evidencia de error y su
valor es posible no deberan ser eliminados. Asimismo, la presencia de outliers puede
indicar que la escala elegida no es la ms adecuada.
Boxplots Paralelos
Una aplicacin muy til de los boxplots es la comparacin de la distribucin de dos o ms
conjuntos de datos graficando en una escala comn los boxplots paralelos de cada una
de las muestras. En este sentido los boxplots se muestran como un mtodo muy efectivo
de presentar y resumir los datos, tal como veremos en el siguiente ejemplo.
Ejemplo: Supongamos que se dispone de otros 25 datos correspondientes a tiempos de
CPU enviados a otro server. Si realizamos boxplots paralelos para ambos conjuntos de
datos obtenemos el siguiente grfico. La simple comparacin de los boxplots obtenidos
revela que los trabajos enviados al segundo server son ms largos. De hecho, el 75% de
los trabajos muestreados en el segundo server tienen tiempos de CPU mayores que el
cuartil superior de los trabajos muestreados en el primer server.
0
2
4
6
8
1
0
1er. server 2do. server
Ejemplo: Los siguientes boxplots corresponden a datos de concentracin mxima diaria
en partes por mil millones de dixido de azufre en Bayonne, en el estado de Nueva
Jersey, desde noviembre de 1969 hasta octubre de 1972 agrupados por meses. Hay 36
grupos de datos, cada uno de tamao aproximadamente 30.
Los boxplots muestran algunas caractersticas de estos datos en forma muy rpida.
Hay una reduccin general de la concentracin de dixido de azufre a lo largo del tiempo
debida a la conversin gradual en la zona al uso de combustibles con baja concentracin
de azufre. Esta disminucin es ms fuerte para los cuartiles superiores. Tambin se
muestran concentraciones ms elevadas para los meses de invierno debido al uso de
calderas a petrleo. Claramente se ve un efecto cclico y amortiguado. Los boxplots
muestran una distribucin asimtrica a derecha, con presencia de outliers en algunos
154
meses, y que la dispersin de la distribucin es mayor cuando el nivel general de la
concentracin es ms alto.
QQ-plot (Normal Probability Plot): El qq-plot es un grfico que nos sirve para evaluar la
cercana a una distribucin dada, en particular a la distribucin normal.
Consideremos la muestra aleatoria: X
1
, X
2
,....X
n
. Los estadsticos de orden se definen
como
X
(1)
X
(2)
....... X
(n)
Observemos que X
(1)
= min(X
1
, X
2
,....X
n
), mientras que X
(n)
= max(X
1
, X
2
,....X
n
).
En particular, si U
1
, U
2
,....U
n
son v.a. i.i.d tales que U(0,1) ~ U
i
, se puede demostrar que
1
) (
) (
+
=
n
i
U E
i
Por lo tanto esperamos que si graficamos U
(1)
,..., U
(n)
vs. sus valores esperados
1
,....,
1
1
+ + n
n
n
, el grfico debera parecerse a una recta si la distribucin subyacente
fuese Uniforme.
Por otro lado, si X es una variable continua con funcin de distribucin F estrictamente
creciente, entonces
) 1 , 0 ( ~ ) ( U X F Y =
155
Esto sugiere que si suponemos que X
i
~ F , entonces podemos graficar
) (
) (i
X F vs
1 + n
i
o equivalentemente
) (i
X vs )
1
(
1
+
n
i
F .
Observemos que si F es de la forma
) ( ) (
=
x
G x F
como es el caso de la normal, podemos graficar
) (i
X
vs |
.
|
\
|
+
1
1
n
i
G
o bien
) (i
X vs |
.
|
\
|
+
1
1
n
i
G
dar aproximadamente una recta pues
+
|
.
|
\
|
+
1
.
1
) (
n
i
G X
i
Notemos que si
1
F es la inversa de F, entonces el p-simo percentil de F, x
p
, es tal que
) ( ) (
1
p F x x F
p p
=
Por lo tanto, |
.
|
\
|
+
1
1
n
i
F es el
1 + n
i
-percentil de F.
En el QQ-plot se grafican en el eje de abscisas los percentiles de la distribucin terica
(en nuestro caso normal) y en el eje de ordenadas las observaciones ordenadas, que
pueden ser vistas como percentiles empricos.
En los siguientes grficos ilustramos con algunos ejemplos. Cabe observar que algunos
paquetes estadsticos representan a los percentiles tericos de la distribucin normal en
el eje de abscisas y otros en el eje de ordenadas
156
157
0
.
5
0
.
6
0
.
7
0
.
8
0
.
9
Asimetrica a izquierda
-
0
.
5
0
.
0
0
.
5
1
.
0
Colas Livianas
-
2
-
1
0
1
2
Normal
-
5
0
5
Colas Pesadas
0
.
0
0
.
1
0
.
2
0
.
3
Asimetrica a derecha
0.5 0.6 0.7 0.8 0.9 1.0
0
1
2
3
4
-1.0 -0.5 0.0 0.5 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
-2 -1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
-5 0 5
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0.0 0.1 0.2 0.3 0.4
0
1
2
3
4
5
6
R
o
j
o
=
M
e
d
i
a
n
a
,
N
e
g
r
o
=
M
e
d
i
a
0
.
5
0
.
6
0
.
7
0
.
8
0
.
9
-
0
.
5
0
.
0
0
.
5
1
.
0
-
2
-
1
0
1
2
-
5
0
5
0
.
0
0
.
1
0
.
2
0
.
3
158