Академический Документы
Профессиональный Документы
Культура Документы
11
¿Para que sirve la mediana, si ya tenemos la media
¿Para que sirve la mediana, si ya tenemos la media
aritmética?
aritmética?
x Es más robusta
robusta que
quelalamedia
mediafrente
frentea la presencia
a la de anomalías.
presencia de anomalías. Un ejemplo
Supongamos muy
simple:
que supongamos
nuestros que 2,nuestros
datos son: 5, 6, 7 datos
y 9. Lason:media
2, 5, es
6, 5,6
7 y y9.laLamediana
media eses 5,6
6. Siy la
al
mediana eslos
introducir 6. datos
Si al introducir
al ordenadorlos datos al ordenadorynos
nos equivocamos en equivocamos
último lugar eny en
vezúltimo
de 9
lugar en vez 99,
introducimos de 9la introducimos
media pasa a ser 99, de
la 23,8
media pasa a que
mientras ser la
23,8, mientras
mediana sigueque la
sien-
do 6.
mediana sigue siendo 6.
En algunos casos, como cuando se trabaja con datos todavía no depurados, fijarse
en la mediana puede ser más recomendable porque la información que da está
menos afectada por las posibles anomalías que puedan existir.
x Por su propia definición, la mediana deja un 50% de las observaciones por encima
y otro 50% por debajo y esto le da unas ventajas que la media no tiene. Por
ejemplo, si queremos saber si en nuestra empresa estamos entre los que cobran más
o entre los que cobran menos, debemos comparar nuestro salario con la mediana, y
no con la media. Si sólo hay 10 trabajadores y los salarios son (pongamos que en
miles de euros): 0,8; 0,8; 0,9; 0,9; 1,0; 1,0; 1,1; 1,1; 1,2 y 10, todos menos 1 (en este
caso el 90%) están por debajo de la media, que es 1,88. Esto no pasa nunca con la
mediana, si estamos por encima de la mediana, estamos con el 50% de los que más
cobran
Otro ejemplo. Si un examen se aprueba sacando una nota igual o superior a 5 y la
nota media que han sacado los estudiantes es de 5, no sabemos cuantos han
aprobado. Si se han examinado 50 estudiantes, puede ser que 41 hayan suspendido
con un 4; 8 estudiantes hayan sacado un 10 y uno haya obtenido un 6. Esto da
media 5, aunque es verdad que son unas notas muy raras. Si la mediana es 5, seguro
que la mitad han aprobado.
Además, puestos a criticar la media, podemos decir que su uso conduce a algunas
situaciones paradójicas, como aquella que dice que la mayoría de los hombres tiene un
número de piernas superior a la media.
Respecto al número de intervalos no hay una regla fija, aunque lo razonable es que su
Respectoaumente
número al número al de intervalos no el
ir aumentando haynúmero
una regla
de fija,
datos.aunque
Si se lo razonable
utiliza es que sude
un programa número
orde-
aumenteeste
nador, al iryaaumentando el número
dará un número de datos. razonable.
de intervalos Si se utilizaSi
unseprograma de ordenador,
hace a mano, este
una regla ya
sen-
dará un
cilla número
para tomardecomo
intervalos razonable.
referencia es la Si se hace a mano, una regla sencilla para tomar como
siguiente:
referencia es la siguiente:
Núm. de datos Núm. de intervalos
20* – 50 7
50 – 75 10
75 – 100 12
Más de 100 15
*Para menos de 20 datos es mejor utilizar un diagrama de puntos
Pero tambiéndebe
Pero también debetenerse
tenerseenencuenta
cuentaque
quepara
parafacilitar
facilitar
la la lectura
lectura deldel histograma
histograma es impor-
es importante
que laque
tante anchura de los de
la anchura intervalos sea un sea
los intervalos número sencillo.sencillo.
un número Por tanto,
Porlatanto,
tabla la
anterior se debe
tabla anterior
utilizar
se debecomo primera
utilizar comoaproximación, ya que el número
primera aproximación, ya que exacto estará supeditado
el número exacto estaráa tener un valor
supeditado
aadecuado
tener unpara la anchura
valor adecuado de para
los intervalos.
la anchura de los intervalos.
Veamos a través de un ejemplo los aspectos más relevantes a tener en cuenta, tanto si los his-
Veamos a través de un ejemplo los aspectos más relevantes a tener en cuenta, tanto si los
togramas se construyen con ordenador como si se hacen a mano. La Tabla 6.1 contiene los
histogramas se contruyen con ordenador como si se hacen a mano. La Tabla 6.1 contiene
pesos (en gramos) de 160 porciones de mantequilla, 80 cortados y empaquetados con la
los pesos (en gramos)
máquina 1 y otras de 160
80 con porciones
la máquina 2. de
El mantequilla,
valor nominal80escortados
de 220 ygramos,
empaquetados con
se considera
la máquina 1 y otras 80 con la máquina 2. El valor nominal es de 220 gramos, se consi-
tolerable una desviación de r 10 gramos y existe interés en conocer y comparar la variabilidad
dera tolerablelos
que presentan una desviación
pesos en ambasde ± 10 gramos y existe interés en conocer y comparar la
máquinas.
variabilidad que presentan los pesos en ambas máquinas.
Máquina 1 Máquina 2
220,3 215,5 219,1 219,2 220,3 208,0 214,4 219,2
215,8 222,0 218,9 213,6 216,9 213,4 217,7 217,7
220,4 218,7 218,6 219,6 222,9 219,7 209,4 221,6
221,5 227,0 219,5 222,5 223,1 215,3 220,4 215,6
215,7 225,3 223,0 218,0 216,0 210,9 221,4 210,9
222,7 215,1 219,6 217,3 212,1 213,0 218,0 216,5
216,0 218,8 217,9 213,0 216,9 216,0 213,5 219,2
219,4 218,3 216,7 224,1 216,2 218,4 216,6 214,9
219,8 222,6 219,1 217,7 216,2 212,2 216,9 214,9
220,2 219,5 222,4 219,9 222,9 214,3 219,1 216,7
218,0 223,9 219,6 221,9 214,9 212,6 219,4 213,3
219,3 219,6 218,8 219,9 219,0 216,7 216,4 213,5
220,0 214,1 224,3 217,4 218,0 219,5 219,5 222,3
223,9 220,6 219,5 219,6 211,8 218,2 218,3 217,4
218,1 218,8 218,4 217,9 214,6 215,7 218,0 216,4
216,9 221,6 220,6 222,6 215,6 220,4 217,3 216,2
217,9 225,7 222,2 216,1 212,5 214,6 209,7 211,3
224,2 216,2 219,9 220,4 215,8 219,9 216,5 211,9
214,1 219,7 222,4 224,5 213,7 209,7 216,9 213,1
221,1 225,0 222,7 222,2 212,5 217,5 217,4 215,7
La Figura 6.1 muestra los histogramas construidos con Excel (Excel 2000:
Herramientas > Análisis de datos > Histograma) con los valores de las escalas y de
anchura de las barras que se tienen por defecto. En ambos casos aparecen 9 barras (que
deberían tocarse, ya que la variable representada es continua), pero lo más destacable es
que los números que figuran en el eje horizontal son “raros”, especialmente para la
máquina 2, y esto dificulta su lectura y la interpretación del gráfico. Además, como
todos los programas adaptan la escala al rango de variación de los datos, las escalas no
son iguales para las 2 máquinas, lo que complica la comparación.
Máquina 1 Máquina 2
Histograma Histograma
30 30
25 25
20 20
Frecuencia
Frecuencia
15 15
10 10
5 5
0 0
...
...
8
3
55
5
5
75
25
75
25
75
25
75
25
20
21
22
or
6,
3,
or
77
32
5,
4,
8,
1,
5,
88
66
43
21
21
22
ay
ay
1,
9,
21
21
21
22
22
9,
3,
7,
1,
21
21
m
m
20
21
21
22
y
y
Clases Clases
Figura 6.1. Histograma construido con Excel con todos los parámetros por defecto
Si utilizamos Minitab (Versión 13: Graph > Histogram) con todos los parámetros por
defecto, aparecen 15 barras para la máquina 1 y 16 para la 2. En este caso, tanto los
números que figuran en los ejes como la anchura de los intervalos (1 gramo), son fáciles
de leer, aunque sería mejor tener más valores en el eje horizontal. En cuanto a las
escalas, ocurre lo mismo que en el caso anterior.
Máquina 1 Máquina 2
20
10
Frequency
Frequency
10
5
0 0
Figura 6.2. Histogramas construido con Minitab con los parámetros por defecto
Actuando sobre las opciones de Minitab se han construido los histogramas de la Figu-
ra 6.3, en los que los ejes están marcados con números que facilitan la lectura, se ha
mantenido una anchura de intervalo de 1 gramo y se ha forzado que las escalas sean
iguales. También se han añadido unas líneas con el valor nominal y las tolerancias, de
forma que con solo dar un vistazo se observa que la máquina 1 está produciendo
básicamente bien, mientras que la 2 está descentrada.
Máquina 1 Máquina 2
20 20
15 15
Frequency
Frequency
10 10
5 5
0 0
205 210 215 220 225 230 235 205 210 215 220 225 230 235
Pesos máquina 1 Pesos máquina 2
Figura 6.3. Histogramas construidos con Minitab actuando sobre las opciones disponibles para
conseguir la apariencia deseada
x Los ejes, especialmente el horizontal, deben estar marcados con valores fáciles de
leer.
x La anchura de los intervalos conviene que sea también un número “redondo”.
x Si se van a comparar varios histogramas, es necesario que todos ellos estén
construidos con la misma escala para facilitar la comparación y evitar confusiones.
1. Calcular el rango de los datos (valor máximo menos valor mínimo). En el caso de la
máquina 1, R = 227,0 – 213,0 = 14,0.
2. Plantear un número de intervalos en primera aproximación. En nuestro caso, con 80
datos, la tabla guía indica k =12 intervalos.
3. Calcular la anchura del intervalo, h, y ajustar a un número redondo. h = R/k, en
nuestro caso h = 14/12 = 1,17, y por tanto lo más razonable es redondear a 1.
4. Tabular los datos de acuerdo con los intervalos definidos. Tener en cuenta que
también interesa que los límites de los intervalos, o la marca de clase, sean números
sencillos.
Naturalmente, hay que tener una idea de por dónde irá la variabilidad de los datos para
poder diseñar la plantilla, que además, para su completa identificación y posibles
análisis comparativos, siempre debe incluir un apartado con la fecha, el origen de los
datos, la persona que los tomó, etc.
30
25
20
15
10
Observaciones:
Figura 6.4. Plantilla de recogida de datos en la que el histograma se va construyendo solo. Los valores
se redondean a las unidades y se marca una cruz en el lugar correspondiente
77
¿Cuándo conviene utilizar boxplots para analizar o describir
¿Cuándo conviene utilizar boxplots para analizar o describir
datos?
datos?
Los boxplots son gráficos muy apropiados para mostrar el comportamiento de los datos
cuando interesa presentarlos estratificados por alguna variable cualitativa. Por ejemplo,
la Figura 7.1 muestra la distribución de los pesos de 500 paquetes de azúcar llenados en
una planta de envasado que consta de 5 líneas independientes. Los pesos se presentan
según la línea en que se han llenado (100 paquetes por línea). El valor nominal es de
1.000 g.
Pesos (gr)
1.015
1.010
1.005
1.000
995
990
985
1 2 3 4 5
Línea de llenado
Figura 7.1. Distribución de los pesos de paquetes de azúcar según la línea en que han sido llenados
En ambos casos los gráficos resumen de una forma clara y compacta la información que
contienen los datos. Además facilitan la comparación entre grupos y permiten una
rápida identificación de valores atípicos.
1
Los datos provienen de un estudio realizado por el “Centre de Política del Sòl i Valoracions” del
departamento de Construcciones Arquitectónicas I de la UPC.
Algo análogo ocurre con las medias de las muestras. La media de una muestra formada
por unos individuos concretos es un número. Por ejemplo, si la variable que medimos
son las alturas y la muestra está formada por Juan, Antonio y María, la media de esta
muestra es
es 1,77.
1,77. Pero
Perosisihablamos
hablamosde
deuna muestrade
la muestra de33 individuos
individuos tomados al azar, la
la media
media
de esa muestra es una variable aleatoria, ya que está formada por observaciones indivi-
duales, que a su vez también son variables aleatorias.
Lo más interesante de este tema es que la media muestral se distribuye siempre con la
misma media que las observaciones individuales, con una varianza que es la enésima
parte (siendo n el tamaño de la muestra) de la que tiene esa distribución y además, muy
frecuentemente, su distribución es muy próxima a la Normal1.
145 150 155 160 165 170 175 180 185 190 195
1
Si la población es Normal, la media muestral sigue una distribución que también es Normal. Si la
población no es Normal, hace falta un cierto tamaño de muestra para poder considerar que la distribución
de la media muestral sea Normal. Dicho tamaño de muestra depende de lo distinta de la Normal que sea
la población. Para poblaciones con ligeras diferencias respecto a la Normal (ligeramente sesgada hacia
un lado, por ejemplo), no hay que preocuparse demasiado y basta con muestras de 3 o 4 observaciones.
Si la población es muy distinta de la Normal es necesario que la muestra tenga un cierto tamaño para
que la aproximación Normal funcione bien a efectos prácticos.
mida 1,85 metros, es prácticamente imposible que esta sea la altura media de un grupo
de 25 personas tomadas al azar, ya que en este grupo cabe esperar que haya un número
parecido de personas por encima y por debajo de la media general, de forma que los
valores de sus alturas se compensarán, dando un valor medio cercano a la media de la
población. En la Figura 12.2 se muestra el diagrama de puntos de unos valores que
podrían corresponder a las alturas medias de 20 grupos con 25 individuos cada uno.
Estos valores se han obtenido por simulación suponiendo que las alturas individuales
siguen una N(1,70 m; 0,07 m). Obsérvese como su dispersión es mucho menor que para
las alturas individuales
145 150 155 160 165 170 175 180 185 190 195
Figura 12.2. Valores que podrían corresponder a las alturas medias de 20 grupos con 25 individuos
cada uno
145 150 155 160 165 170 175 180 185 190 195
Figura 12.3. Distribución que hemos supuesto para la altura de las personas, N(1,70 m; 0,07 m) (la más
ancha) y la que se deduce de esta para las medias de grupos de 25 individuos (la mas esbelta)