Вы находитесь на странице: 1из 41

Estadística I 1

Guía de conceptos (segunda parte)

Gráficas de las distribuciones de frecuencias

La afirmación “una imagen vale más que mil palabras” se puede aplicar al
ámbito de la estadística descriptiva diciendo que “un gráfico bien elaborado vale más
que mil tablas de frecuencia”. Cada vez es más habitual el uso de diagramas, gráficos o
imágenes, para representar la información obtenida; de todas maneras, debemos ser
prudentes al confeccionar o interpretar gráficos, puesto que una misma información se
puede representar de formas muy diversas y no todas ellas son pertinentes, correctas o
válidas.

- Pictogramas
Son presentaciones gráficas que se hacen por medio de dibujos, que en la
mayoría de los casos son semejantes al fenómeno que se quiere representar. Por
ejemplo, si se quisiera representar el crecimiento de la población de un determinado país
según los años, se identifica a esta población a través de figuras humanas y la
presentación gráfica pudiera ser una como esta:

Cabe destacar que por medio de estos dibujos, se expresan las frecuencias de las
modalidades de la variable. También estos gráficos se hacen representando en diferentes
escalas un mismo dibujo, aunque se debe prestar atención ya que la escala de los dibujos
debe ser tal que el área de cada uno de ellos sea proporcional a la frecuencia de la
modalidad que representa. Veamos un ejemplo para clarificar esto:
Supongamos que se quiere representar mediante un pictograma la cantidad de botellas
de cerveza recogidas de la calle en un fin de semana en dos ciudades A y B:

Botellas de cerveza recogidas de la calle en un fin de semana


Estadística I 2

500 Botellas Ciudad A 125 Botellas Ciudad B

Tal y como dice la leyenda, en la ciudad A se recogieron 500 botellas y en la


ciudad B se recogieron 125 botellas, en proporción, la cantidad de botellas recogidas en
la ciudad B es un cuarto (es decir, un 25%) de las recogidas en la ciudad A; por lo tanto,
al hacer los dibujos, se debe mantener dicha proporción. Para la representación que se
hizo, el dibujo correspondiente al de la ciudad B es, en tamaño, la cuarta parte del
dibujo correspondiente al de la ciudad A.

- Gráfico de máximo-mínimo-al cierre.


Como su nombre lo indica, son gráficos que presentan el valor máximo, el
mínimo y el último valor de una variable seleccionada durante un período determinado;
el ejemplo quizá más conocido es el índice Dow Jones.

Ejemplo: Suponga que se tienen los valores de la bolsa correspondientes a tres días del
mes de junio, tal y como se muestra a continuación:

Máximo Mínimo Al cierre


Junio 9 181,07 178,17 178,88
Junio 10 180,65 178,28 179,11
Junio 13 180,24 178,17 179,35

Para la construcción de la gráfica se considera:


1. Un sistema de coordenadas cartesianas, ubicando en el eje vertical los valores
(en este caso los del índice Dow Jones) y en el eje horizontal los días de junio
seleccionados:

2. Posteriormente se trazan líneas verticales desde cada día considerado para el


mes de junio, comenzando por el valor mínimo hasta el valor máximo, lo cual se
presenta a continuación:
Estadística I 3

3. Por último, se traza una pequeña línea horizontal a nivel del valor con el cual
cerró ese día el índice (para los efectos de la representación sólo se indicó el
valor para el 11 de junio). La representación final será entonces:

- Gráficos circulares, de sectores o de pastel.


En este tipo de gráfico considera al círculo como la totalidad del fenómeno, en
consecuencia, se dividirá al mismo en tantos sectores como componentes tenga el
fenómeno a representar. Son bastante útiles para visualizar diferencias de porcentajes,
para representar datos cualitativos, etc.
Pasos para su construcción:
1. Buscamos los porcentajes que representan a cada elemento.
2. Cada porcentaje se multiplica por 3,6 y eso nos daría el valor de los ángulos
centrales.
3. Utilizar un transportador para ubicar cada ángulo.
También es posible hallar los ángulos centrales estableciendo una regla de tres
entre la totalidad del fenómeno (al cual le corresponden 360°) y la frecuencia de cada
parte del fenómeno.
Consideremos el ejemplo siguiente: En lo que va de año cierta tienda deportiva ubicada
en un centro comercial de la ciudad capital ha vendido la última línea de zapatos
deportivos de las marcas Nike, Skechers, Addidas y Reebok. A continuación se
presentan los datos sobre 50 ventas de pares de zapatos deportivos en dicha tienda:

Nike Nike Nike Skechers Nike Addidas Nike Addidas Skechers Skechers

Skecher Skechers Addidas Nike Skechers Nike Nike Nike Addidas Nike
s

Nike Addidas Addidas Reebok Nike Nike Nike Skechers Nike Skechers

Nike Nike Skechers Skechers Nike Nike Addidas Skechers Skechers Skechers

Skecher Nike Nike Addidas Nike Skechers Nike Skechers Nike Nike
s

Construya un gráfico circular con los datos.


Paso 1: Construcción de una tabla de distribución de frecuencias
Esta tabla ya fue construida en los apartados anteriores y se había obtenido como
respuesta:
Estadística I 4

Marca del fi hi %hi


Calzado

Nike 25 0,5000 50,00

Skechers 16 0,3200 32,00

Addidas 8 0,1600 16,00

Reebok 1 0,0200 2,00

Paso 2: Construcción del gráfico


Los porcentajes que representan a cada elemento están dados en la
columna de %hi (ver tabla anterior).
Cada porcentaje se multiplica por 3,6 para obtener los ángulos centrales,
al hacer esto, quedaría para la Nike 180º ; para Skechers 115,2º ; para
Addidas 57,6º y para Reebok 7,2º
El gráfico sería:
Marcas de zapatos vendidos

2,00%
16,00% Nike
Skechers
Addidas
50,00%
Reebok

32,00%

Note que no se indican los valores de los ángulos centrales, pero es conveniente
identificar los elementos de alguna manera. En el caso del gráfico anterior, se diferenció
por colores, además de indicar el porcentaje que representa cada marca (también se
podría señalar el valor de la frecuencia absoluta).

- Gráfico de trazos.
Es un tipo de gráfico en donde se localizan los puntos en un sistema de
coordenadas y luego se conectan los puntos sucesivos con trazos rectos.
Ejemplo: La tabla siguiente muestra la población de un país (en millones de habitantes)
para los años de 1860 a 1900:

Año 1860 1870 1880 1890 1900


Población 31,4 39,8 50,2 62,9 76,0

Para la construcción de la gráfica se considera un sistema de coordenadas


cartesianas, ubicando en el eje horizontal los valores de la variable
Estadística I 5

independiente (el tiempo en este caso) y en el eje vertical la cantidad de


pobladores (en millones) tal y como se muestra a continuación:

Luego se ubican los pares de puntos formados, es decir: (1860 ; 31,4) , (1870 ;
39,8) y así sucesivamente, tal como se hace en matemáticas. La gráfica sería:

Por último, se unen los puntos mediante trazos continuos, la gráfica final sería:

Se debe indicar el cero siempre que sea posible; en caso de que no lo sea, y si tal
omisión pudiera provocar alguna conclusión errónea, es aconsejable advertirlo de algún
modo (por lo general, con un corte en el eje), esa es la ruptura que aparece en el eje
horizontal.

- Gráfico de barras.
Consiste en una serie o conjunto de rectángulos que de acuerdo a su longitud y
anchura representan un fenómeno, generalmente se utilizan para representar datos
cualitativos, aunque también se utiliza para datos cuantitativos.
Observaciones con respecto a la construcción de estos gráficos:
En el eje donde irá la base del rectángulo se especifican los indicadores o
nombres que se usan para cada una de las bases.
La escala que se debe tomar para la base debe ser la misma para cada rectángulo.
La separación que exista entre las barras debe ser la misma y dependerá de: el
número de barras a construir y del espacio con que se cuente.
Estadística I 6

En el eje donde no esté la base del rectángulo se puede representar una escala de
frecuencias, frecuencias relativas o de porcentajes.

Entre los tipos de gráficos de barra tenemos:

a. Gráficos de barras simples: son aquellos que representan una sola característica.
Ejemplo: La tabla muestra el número de toneladas de trigo producidos por una
cooperativa durante los años 1995 al 1999.

Año 1995 1996 1997 1998 1999

Toneladas de trigo 200 185 225 250 240

Note que en el gráfico presentado se consideraron las observaciones planteadas:


igual separación entre los rectángulos, igual anchura para las bases de los rectángulo,
etc., además, la escala para el eje vertical fue establecida de manera tal que se pudieran
ubicar los valores de las frecuencias absolutas.
Por otra parte, al elaborar un gráfico es recomendable darle los mayores detalles
útiles posibles al futuro lector, es por esto que en ocasiones (y más aún si la escala no es
muy precisa) se colocan los valores correspondientes a las frecuencias (absoluta,
relativa o porcentual) en la parte superior de los rectángulos. La gráfica quedaría
entonces así:

Es de resaltar que para datos cuantitativos, la tendencia al determinar el ancho de


los rectángulos es a ser más bien delgados, es decir, considerar líneas rectas verticales.
De manera semejante, es posible realizar los gráficos de barras no sólo en forma
vertical, sino también horizontal.
Ejemplo: Las áreas de algunas regiones (en millones de millas cuadradas) están dadas
en la siguiente tabla:
Área 1,9 3,3 6,9 9,4 10,4
Estadística I 7

Región Europa Oceanía América del sur América del norte Asia

Para un gráfico de barras horizontales tendríamos que considerar:


Las bases de los rectángulos estarían ubicadas en el eje vertical.
Las demás condiciones (separación entre los rectángulos, ancho de las bases,
etc.) se mantienen igual.
El gráfico para los datos dados sería entonces el siguiente

Como observación: si se trabaja con una variable nominal, el orden de las barras
no importa (aunque la tendencia es a ordenarlas alfabéticamente), en cambio, si se
trabaja con una variable ordinal, es natural ordenar las barras de las categorías desde la
más baja hasta la más alta. Por ejemplo, supongamos que tenemos los datos
correspondientes al nivel de estudio de los empleados de una empresa, el gráfico de
barras ordenando por categorías es:
Nivel de estudio de los empleados
20 19
18
16 15
14
Frecuencia

12
10
8
8
6
6
4 3
2
0
Sin estudios Primaria Secundaria Bachillerato Universitario

Nivel

b. Gráficos de barras compuestas: son aquellos que representan varias características,


siendo útiles para propósitos comparativos. Como ejemplo, la tabla siguiente muestra el
número de toneladas de trigo y de maíz producidos por una cooperativa durante los años
1995 al 1999:
Año 1995 1996 1997 1998 1999
Toneladas de Trigo 200 185 225 250 240
Toneladas de Maíz 75 90 100 85 80
Para la construcción del gráfico las barras de los rectángulos se pueden colocar
una al lado de la otra, tal y como se muestra a continuación:
Estadística I 8

También es posible que las barras de los rectángulos se puedan colocar una
encima de la otra, tal y como se muestra a continuación:

- Histogramas
Son gráficos de barras en los cuales no hay separación entre los rectángulos que
se forman, se construyen mediante la representación de las clases de una distribución de
frecuencias en el eje horizontal y las frecuencias en el eje vertical. A través de él se
pueden visualizar tres características de los datos: forma, acumulación o tendencia
posicional y la dispersión o variabilidad
Para ir ilustrando los pasos de su construcción, considerar el ejemplo inicial del
investigador que desea determinar cómo varían las estaturas de las obreras de una
empresa. Construir los histogramas correspondientes:
Paso 1: Se trazan dos ejes de coordenadas sobre un plano y se ubican sobre el eje
horizontal a los límites de clase, tal y como se muestra a continuación.

Paso 2: En el eje vertical podemos indicar no sólo el número de frecuencias, también


podemos colocar la proporción y el porcentaje de observaciones para cada intervalo de
clase, por eso tenemos varios tipos de nombres:
Eje Vertical Nombre

Número de observaciones (fi) Histograma de frecuencias

Proporción de observaciones (hi) Histograma de frecuencias relativas

Porcentaje de observaciones (%hi) Histograma porcentual

Considerando en el eje vertical al número de observaciones, tenemos:


Estadística I 9

Paso 3: Se levantan perpendiculares por los límites de cada clase hasta la


frecuencia de clase respectiva.

Paso 4: Se unen las dos perpendiculares que representan cada clase. La gráfica
correspondiente al histograma de frecuencias será:

El histograma de frecuencias relativas y el porcentual se construyen con los


mismos pasos, lo que cambia son los valores que se ubican en el eje vertical. De esta
forma el histograma de frecuencias relativas será:
Estadística I 10

El histograma porcentual será:

Observaciones:
Los histogramas no se pueden utilizar con respecto a distribuciones de
frecuencias de clases abiertas (a menos que la persona cierre el intervalo de una
manera conveniente).
El histograma representa las frecuencias de los intervalos mediante áreas y no
mediante alturas; sin embargo, Levin y otros (2004) comentan que si las clases
empleadas en la distribución de frecuencias son del mismo ancho, entonces las
barras verticales del histograma también tienen el mismo ancho y como
consecuencia, el área contenida en cada rectángulo ocupa un porcentaje del área
total de todos los rectángulos, la cual es igual a la frecuencia absoluta de esa
clase correspondiente respecto a todas las observaciones hechas. Si los
intervalos de clase no son de igual tamaño, las alturas no representan a las
frecuencias, por lo tanto, es necesario ajustar la altura de los rectángulos (estas
alturas deberán ser calculadas) para que las superficies sean proporcionales a las
frecuencias de clase.
Levin y otros (2004) señalan que los histogramas (de frecuencias, relativo y
porcentual) tienen la misma forma, esto se debe porque en las situaciones
anteriores el tamaño relativo de cada rectángulo es la frecuencia de esa clase
comparada con el número total de observaciones.

- Polígono de frecuencia
Son gráficos de línea trazados sobre las marcas de clase de cada intervalo, y una
de las ventajas de los polígonos es que nos permite hacer la comparación entre dos o
más conjuntos de datos. Para ir ilustrando los pasos de su construcción, considerar la
tabla del ejemplo inicial y construir los polígonos de frecuencias correspondientes:
Paso 1: Se trazan dos ejes de coordenadas sobre un plano y se ubican sobre el eje
horizontal a las marcas de clase.
Estadística I 11

Paso 2: En el eje vertical podemos indicar no sólo el número de frecuencias, también


podemos colocar la proporción y el porcentaje de observaciones para cada intervalo de
clase, por eso tenemos varios tipos de nombres:
Eje Vertical Nombre

Número de observaciones (fi) Polígono de frecuencias

Proporción de observaciones (hi) Polígono de frecuencias relativas

Porcentaje de observaciones (%hi) Polígono porcentual

Considerando en el eje vertical al número de observaciones, los ejes estarían


dispuestos de la siguiente manera:

Paso 3: Se ubican los pares de puntos correspondientes, es decir, marca de clase


con su respectiva frecuencia absoluta de clase.

Es importante tomar en cuenta que el polígono debe ser cerrado, es decir, llegar
hasta el eje horizontal. Para hacer esto debemos determinar dos valores: el que va antes
de la primera marca de clase y el que va después de la última marca de clase.
El valor que va antes de la primera marca de clase se obtiene restándole a esta
primera marca de clase el valor de la amplitud, por lo tanto sería: 54,5 – 3 = 51,5.
El valor que va después de la última marca de clase se obtiene sumándole a esta
última marca de clase el valor de la amplitud, por lo tanto sería: 72,5 + 3 = 75,5.
Al ubicar estos dos nuevos valores la gráfica sería la siguiente:
Estadística I 12

Paso 4: Se unen los puntos respectivos mediantes líneas rectas, por lo que la
gráfica del polígono de frecuencias será:

A medida que crece el número de clases y de observaciones, el polígono se


vuelve cada vez más suave y curvo. Este polígono suavizado recibe el nombre de curva
de frecuencia.
Levin y otros (2004) hacen notar que los polígonos (de frecuencias, relativo y
porcentual) tienen la misma forma, esto se debe por que en las situaciones anteriores el
tamaño relativo de cada rectángulo es la frecuencia de esa clase comparada con el
número total de observaciones. Por lo tanto, si pidieran graficar el polígono de
frecuencias relativas o el porcentual, los pasos se repiten y la única diferencia sería que
el eje vertical en lugar de reflejar los valores de f i tendría los de hi o los de %hi. Las
gráficas serían:
Polígono de frecuencias relativa:

Polígono de frecuencias porcentual:


Estadística I 13

Los polígonos también pueden obtenerse a partir de los histogramas, uniendo los
puntos medios de los techos de los rectángulos que conforman al histograma y tomando
en cuenta que se deben extender ambos extremos del polígono hasta el eje horizontal en
aquellos puntos que serían las marcas de clase adyacentes a cada extremo. En la
siguiente gráfica se muestran tanto el histograma como el polígono de frecuencias, note
que también se deben señalar los valores con los cuales se cierra el polígono.

- Ojiva
Es la gráfica de una distribución de frecuencias acumuladas, se pueden construir
las ojivas “o más” o las ojivas “menor que”, la diferencia entre ambas gráficas es que la
primera tiene pendiente negativa y decrece, mientras que la segunda tiene pendiente
positiva y crece. Una de las ventajas de trabajar con ojivas es la facilidad (con respecto
a otras gráficas) para interpolar entre los puntos trazados.
Para ir ilustrando los pasos de su construcción, se continuarán manejando los
datos dados en la tabla construida con los valores de las estaturas de las obreras,
construir las ojivas correspondientes:
Paso 1: Se trazan dos ejes de coordenadas sobre un plano y se ubican sobre el eje
horizontal a los límites de clase.
Estadística I 14

Paso 2: En el eje vertical podemos indicar no sólo el número de frecuencias


acumuladas, también podemos colocar la proporción acumulada y el porcentaje de
observaciones acumuladas para cada intervalo de clase, por eso tenemos varios tipos de
nombres:
Eje Vertical Nombre

Número de observaciones acumuladas (Fi) Ojiva

Proporción de observaciones acumuladas (Hi) Ojiva relativas

Porcentaje de observaciones acumuladas (%Hi) Ojiva porcentual

Considerando en el eje vertical al número de observaciones acumuladas, los ejes


estarían dispuestos de la siguiente manera:

Paso 3: Se ubican los pares de puntos correspondientes comenzando de la


siguiente manera: al límite inferior de la primera clase, lo hacemos coincidir con
una frecuencia acumulada de cero; al límite superior de la primera clase le
corresponde la primera frecuencia acumulada. Al límite superior de la segunda
clase, le corresponde la segunda frecuencia acumulada y así sucesivamente. La
gráfica hasta los momentos iría tomando la siguiente forma:
Estadística I 15

Paso 4: Se unen los puntos respectivos mediante líneas rectas, por lo que la
gráfica de la ojiva será:

Levin y otros (2004) hacen notar que las ojivas (con frecuencias acumuladas,
relativa acumulada y porcentual) tienen la misma forma. Por lo tanto, si pidieran
graficar la ojiva relativa o la porcentual, los pasos se repiten y la única diferencia sería
que el eje vertical en lugar de reflejar los valores de F i tendría los de Hi o los de %Hi.
Las gráficas serían:
Ojiva relativa:

Ojiva porcentual:
Estadística I 16

- Diagrama de Pareto.
Es un recurso gráfico que permite representar datos categóricos; consiste en un
tipo especial de diagrama de barras verticales, donde las respuestas categorizadas se
grafican en orden descendente de frecuencias y se combinan con un polígono
acumulado en la misma escala.
El principio fundamental que subyace en esta técnica gráfica, según Berenson y
otros (2001), es la posibilidad de separar los “pocos vitales” de los “muchos triviales”,
lo que permite dirigir la atención a las respuestas importantes. Así, el diagrama alcanza
su utilidad máxima cuando la variable categórica de interés contiene muchas categorías.
Esta técnica se utiliza para clasificar la cantidad y tipo de defectos que se
presentan en un producto o en un servicio, por lo que este tipo de gráfico se usa
ampliamente en el control estadístico de procesos y el control estadístico de la calidad
del producto ya que se buscan dos cosas: las magnitudes de las diferencias en las
longitudes de las barras que corresponden a las categorías adyacentes decrecientes y los
porcentajes acumulados de estas categorías adyacentes.
Para ilustrar los pasos para su construcción, se tomará el ejemplo dado en
Berenson y otros (2001):
El gerente de operaciones de una planta empacadora de cereales indicó que, según su
experiencia, casi siempre hay 9 razones que dan como resultado la producción de cajas
de cartón no conformes al final del proceso de empaque: cartón roto (R), cartón
abultado (G), cartón agrietado (C), cartón sucio (D), agujeros en el cartón (H), peso de
empaque inadecuado (I), error de impresión (P), etiqueta ilegible (U) y tapa superior sin
sello (S).
Los datos sin procesar que se muestran a continuación representan una muestra de 50
cajas de cartón no conformes, las cuales se tomaron de la producción de la semana
pasada, las letras indican las razones de no conformidad:
U G U S H D D R I U S U S U G C S U D R S U D U S

S D P R S I S U D G S S U S D G S C U D D S S S U

Construya un diagrama de pareto con estos datos:


Paso 1: construir una tabla de distribución de frecuencias
Razones de no conformidad fi hi %hi
Cartón roto 3 0,0600 6,00
Cartón abultado 4 0,0800 8,00
Cartón agrietado 2 0,0400 4,00
Cartón sucio 9 0,1800 18,00
Agujeros en el cartón 1 0,0200 2,00
Peso de empaque inadecuado 2 0,0400 4,00
Error de impresión 1 0,0200 2,00
Etiqueta ilegible 12 0,2400 24,00
Tapa superior sin sello 16 0,3200 32,00
Estadística I 17

Σ = 50

Paso 2: construir la tabla ordenando en forma descendente


Razones de no conformidad fi hi %hi
Tapa superior sin sello (S) 16 0,3200 32,00
Etiqueta ilegible (U) 12 0,2400 24,00
Cartón sucio (D) 9 0,1800 18,00
Cartón abultado (G) 4 0,0800 8,00
Cartón roto (R) 3 0,0600 6,00
Cartón agrietado (C) 2 0,0400 4,00
Peso de empaque inadecuado (I) 2 0,0400 4,00
Agujeros en el cartón (H) 1 0,0200 2,00
Error de impresión (P) 1 0,0200 2,00
Paso 3: en la construcción del diagrama de Pareto, hay que considerar que el eje
vertical de la izquierda contiene las frecuencias o porcentajes absolutos, el eje
vertical de la derecha contiene los porcentajes acumulados (de 100, arriba, a 0,
abajo). El eje horizontal contiene las categorías de interés

La gráfica será entonces:


Estadística I 18

En algunos casos, en lugar de tomar dos ejes verticales, sólo toman uno y la
escala en el mismo va de 0% a 100%. Para las alturas de los rectángulos consideran a la
frecuencia porcentual (%hi) y para las líneas rectas el acumulado hasta el 100%.
Para terminar con el ejemplo, se puede decir que: al separar los “pocos vitales”
de los “muchos triviales”, se determina que las tapas sin sello (32,0%), las etiquetas
ilegibles (24,0%) y los cartones sucios (18,0%) representan el 74% de las razones de no
conformidad, las otras seis razones representan el 26,0%

- Gráficas para dos variables.


Hasta ahora básicamente se han trabajado representaciones gráficas para una
variable, en el caso de las tabulaciones cruzadas (2 variables), se pueden trabajar con
gráficos de barras con 2 características (ya estudiado en el apartado 6.5.2) o con
diagramas de dispersión. El gráfico de dispersión es una representación gráfica de la
relación entre 2 variables cuantitativas. Veamos un ejemplo, considere las siguientes
observaciones las cuales corresponden a dos variables cuantitativas X y Y:
Estadística I 19

El diagrama de dispersión se construye a partir de los ejes cartesianos, ubicando


los pares de puntos (tal y como se hace en matemática), sólo que estos puntos no se
unen entre sí con líneas. Al ubicar los respectivos pares se forma la llamada “nube de
puntos” o también gráfico de dispersión.
La gráfica será:
50
45
40
35
30
25
20
15
10
Y

5
0
-5
-10
-15
-20
-25
-30
-40 -30 -20 -10 0 10 20 30 40
X

Medidas descriptivas de las distribuciones de frecuencia

En los temas anteriores se inició el estudio de la estadística descriptiva, y a fin


de presentar un conjunto de datos (agrupados o no) en un formato adecuado, se les
organizó en tablas que llamamos tablas de distribuciones de frecuencias. Se estudiaron
algunos métodos gráficos y se llegó a la conclusión de que los mismos son útiles para
lograr una descripción de los datos, es por esto que las representaciones resultantes de
las distribuciones de frecuencia nos permitieron discernir las tendencias y patrones de
los datos; sin embargo, los métodos gráficos presentan limitaciones cuando se desea
tener una mayor exactitud.
De acuerdo con Berenson, Levine y Krehbiel (2001), dentro del manejo de la
información numérica, un buen análisis de datos no se limita a la presentación de datos
y la observación de lo que estos tratan de transmitir, motivo por el cual si necesitamos
de medidas más exactas de un conjunto de datos, recurrimos a números individuales. Se
debe recordar que cuando dichos valores obtenidos corresponden a una muestra se
llaman medidas estadísticas o estadísticos de la muestra, si son de una población,
reciben el nombre de parámetros de la población.
Mediante estos números individuales podemos describir ciertas características
del conjunto de datos de una manera más precisa, lo cual nos permitirá tomar decisiones
más rápidas y satisfactorias.
Las cuatro características que se consideran son:
1. Medidas de tendencia central
2. Medidas de posición “no centrales”
3. Medidas de dispersión.
4. Medidas de forma (sesgo y curtosis).

- Medidas de tendencia central


Según Spiegel (1991) un promedio es un valor típico o representativo de un
conjunto de datos. Como tales valores tienden a situarse en el centro del conjunto de
datos ordenados según su magnitud, los promedios se conocen también como medidas
de centralización o de tendencia central. Las medidas de tendencia central que se van a
Estadística I 20

considerar son la media aritmética, la mediana y la moda; las cuales se detallan a


continuación:

1.1 Media aritmética


Es aquella medida que representa el promedio aritmético de un conjunto de
observaciones, la misma actúa como punto de equilibrio o centro de gravedad, de
manera que las observaciones menores equilibran a las mayores.
Notación:
µ cuando sea para una población.
x cuando sea para una muestra.
Fórmulas:
Datos no agrupados Datos agrupados
n g
 xi x1  x 2  x 3  ...  x n  xi *fx * f  x * f  x * f  ...  x g * f
i 1 1 2 2 3 3 g
x  i1  x i 1

n n f n n
i
N xi son las marcas de clase
 xi fi son las respectivas frecuencias absolutas
μ  i1
N
Cabe destacar que para los datos agrupados, lo que se calcula es una estimación
del valor de la media ya que al agrupar por clases no conocemos los valores
individuales de cada observación, sólo que para facilitar los cálculos se ha de renunciar
a la exactitud. Veamos unos ejemplos para ilustrar las ideas planteadas:

(1) Considere los siguientes datos (no agrupados) de una muestra de las edades (en
años) en un grupo de jóvenes: 15,2 ; 18,6 ; 12,6 ; 13,2 ; 12,8 ; 13,8 ; 16,3 ; 13,0 ; 12,7 ;
15,8 ; 19,2 ; 12,7 ; 15,6 ; 13,5 ; 12,9; determine el valor de la media aritmética para el
conjunto de datos dados:
La media aritmética de la muestra (aplicando la fórmula para datos no
agrupados) está dada por la suma de todos los valores y dividiendo entre la cantidad de
elementos, es decir:
x
15,2  18,6  12,6  ...  12,9  14,53 años
15
Para visualizar lo que indica este resultado, considere la representación de los
datos en una línea recta.

Como se puede apreciar, el valor de la media (14,53 años) tiende a ubicarse de


tal forma que exista un equilibrio entre los valores.

(2) Del ejemplo utilizado al comienzo de la unidad 4, sobre el investigador que deseaba
determinar cómo variaban las estaturas de las obreras de una empresa y el cual tomaba
una muestra de 50 mujeres para registrar luego sus estaturas en pulgadas, se había
obtenido la tabla de distribución de frecuencia, calcular la media aritmética para el
conjunto de datos.
Estadística I 21

Para calcular la media debemos agregar una nueva columna a la tabla, donde se
establecerá el producto de xi * fi, es decir, el producto de la marca de clase por su
respectiva frecuencia absoluta:
li - li+1 fi xi hi %hi Fi Hi %Hi xi * fi

[53 – 56) 2 54,5 0,0400 4,00 2 0,0400 4,00 54,5 * 2 = 109

[56 – 59) 5 57,5 0,1000 10,00 7 0,1400 14,00 57,5 * 5 = 287,5

[59 – 62) 9 60,5 0,1800 18,00 16 0,3200 32,00 60,5 * 9 = 544,5

[62 – 65) 15 63,5 0,3000 30,00 31 0,6200 62,00 952,5

[65 – 68) 12 66,5 0,2400 24,00 43 0,8600 86,00 798,0

[68 – 71) 5 69,5 0,1000 10,00 48 0,9600 96,00 347,5

[71 – 74) 2 72,5 0,0400 4,00 50 1,0000 100,00 145,0

Σ = 50 Σ = 3184

Al realizar la suma de los valores correspondientes a la columna de x i * fi se


obtiene 3184; esta cantidad corresponde al valor del numerador en la fórmula para
determinar la media con datos agrupados. El valor del denominador se obtiene al sumar
los elementos de la columna de fi en este caso, 50. Luego, el valor de la media será:
3184
x  63,68 pulgadas
50
Interpretación: las obreras presentaron una estatura promedio de 63,68 pulgadas.

1.2 Media aritmética ponderada.


A veces se asocia a los números de un conjunto de datos ciertos factores o pesos
y es por ello que la media aritmética ponderada es un promedio que se calcula a fin de
tener en cuenta la importancia de cada valor para el total global, para ilustrar esta idea,
consideremos lo siguiente: en una materia cualquiera podemos tener en la evaluación
exámenes parciales, talleres, una prueba final, etc., y es posible que no tenga el mismo
peso para la nota final un taller que un parcial, o un examen final. Ante una situación de
esta naturaleza, la media aritmética ponderada es una medida adecuada para obtener el
promedio de las notas.
Notación: x w
Fórmula:
k
 wi *xi w 1 * x 1  w 2 * x 2  w 3 * x 3  ...  w k * x k
x w  i1 
k w 1  w 2  w 3  ...  w k
 wi
i 1
Estadística I 22

Cabe destacar que al calcular la media aritmética a partir de datos agrupados, en


realidad obtuvimos la media aritmética ponderada utilizando las marcas de clase para
los valores de “x” y las frecuencias de cada clase como los pesos, en ese caso Σ fi = Σ wi

Ejemplo: Si un examen final de curso se valora como 3 veces los exámenes parciales y
un estudiante tiene una nota de examen final de 85 y notas de exámenes parciales de 70
y 90, calcular su nota final.

Solución: note que para este caso el peso de los exámenes parciales es de 1 y el del
examen final 3, por lo tanto para calcular la nota final debemos usar la media aritmética
ponderada. Al aplicar la fórmula obtenemos:
1 * 70  1 * 90  3 * 85
xw   83 puntos.
11 3
La nota final será de 83 puntos.

Observaciones sobre la media aritmética:


Es una medida que toma en consideración todos los valores de la distribución.
Esto es positivo, pero por la misma razón es muy sensible a la presentación de
observaciones extremas o anómalas que hacen que la media se desplace hacia
ellas. En consecuencia no es recomendable usar la media como medida de
tendencia central en los casos en el cual el conjunto de datos no es homogéneo,
pues la cantidad obtenida no es representativa del total de los datos.
Tiene la ventaja de que es única y siempre se puede calcular (si no hay intervalos
abiertos).
El valor de la media aritmética puede no coincidir con los valores de la variable.

Algunas propiedades de la media aritmética:


La suma algebraica de las desviaciones de un conjunto de números con respecto
a su media aritmética es cero, matemáticamente:
k
 x i  x  0
i 1
En la expresión anterior xi es cada uno de los números. Vamos a ejemplificar
esta idea:
Supongamos que tenemos los siguientes valores: 1 ; 2 ; 3 ; 4 y 5. La media de
esos valores es:
12345
x  3
5
Luego, para comprobar la propiedad debemos resolver: (1 – 3) + (2 – 3) + (3 –
3) + (4 – 3) + (5 – 3) y el resultado de esas operaciones es cero, tal y como lo
plantea la propiedad.
La media aritmética de una constante es igual a la constante. Supongamos que
tenemos la serie: 5 ; 5 ; 5 ; 5 ; 5. Todos los valores son los mismos (constantes).
Al determinar la media de esa serie obtenemos:
5 5 5 5 5
x   5
5
Con lo cual se comprueba la propiedad.
Si a cada valor de la serie se le agrega una constante, la media de la nueva serie
es igual a la media de la serie original más la constante. Igual sucede si a la
media se le resta una constante. Ejemplifiquemos:
Estadística I 23

Supongamos que tenemos la serie: 1 ; 2 ; 3 ; 4 y 5. La media de esos valores es:


12 34 5
x  3
5
Ahora, a cada número de la serie vamos a sumarle una misma cantidad, digamos
10. La serie será entonces: 11 ; 12 ; 13 ; 14 ; 15. La media de esta serie es:
11 12 13 14 15
x  13
5
Como se ve, la media de la nueva serie (13) es igual a la media de la serie
original (3) más la constante (10, en este caso). Así, se comprueba la propiedad.
Media de medias: Si f1 números tienen de media m1, f2 números tiene de media
m2 ,..., fk números tienen de media mk, entonces la media de todos los números
es:
f * m  f * m 2  f 3 * m 3  ...  f k * m k
xw  1 1 2
f1  f 2  f 3  ...  f k
es, decir, la media aritmética ponderada de todas las medias.

Veamos un ejemplo: Supongamos que se desea hacer un estudio con respecto al


peso de los estudiantes, para ello sabemos que en un piso de la universidad hay 3 aulas
que son de diferente tamaño: en el aula uno hay 20 estudiantes, en el aula dos hay 35
estudiantes y en el aula tres hay 10 estudiantes.
También se sabe que el peso promedio en el aula uno es de 67,5 Kg. en el aula
dos el peso promedio resultó ser de 70,0 Kg. y en el aula tres de 62,8 Kg. Queremos
determinar el peso promedio general. Al aplicar la fórmula obtenemos lo siguiente:
2 0 * 6 7 ,5  3 5 * 7 0 ,0  1 0 * 6 2 ,8
xw   6 8 ,1 2 K g
20 35 10

1.3 Mediana.
Según Lind, Marchal y Mason (2004) es el valor que corresponde al punto
medio de un conjunto de datos, representando el elemento más central en dicho
conjunto, por lo que deja por encima y por debajo la misma cantidad de datos (una vez
que estos han sido ordenados). Geométricamente es el valor de “x” que corresponde a la
vertical que divide al histograma en dos partes de igual área.
Notación: Med
Fórmulas:
Datos no agrupados Datos agrupados

El valor de la mediana puede coincidir o n


 Fa
no con un valor de la serie, todo depende 2
Med  li  *a
si el número de datos es par o impar. f med
Los pasos son:
en donde:
1. Organizar por orden ascendente a los
li es el límite inferior.
datos.
Fa es la frecuencia acumulada anterior.
2. Utilizar la fórmula de posicionamiento
fmed es la frecuencia absoluta del intervalo de
de punto:
la mediana.
n 1
a es la amplitud.
2
Los pasos son:
para localizar el lugar que ocupa el valor
de la mediana en el arreglo ordenado.
3. Si el conjunto tiene un número impar
Estadística I 24

de elementos, el de la mitad será la n


1. Calcular
mediana, si contiene un número par de 2
elementos, la mediana será el promedio 2. Localizar ese valor en Fi, si no está, pasar
aritmético de los dos que se hallan en la al inmediato superior. Con esto se halla el
mitad. intervalo de la mediana.
3. Aplicar la fórmula sustituyendo los
valores correspondientes.

Veamos unos ejemplos:


(1) Sean los números: 5, 8, 4, 3, 10, 8, 4, 8, 6. Determinar la mediana:
Estamos trabajando con datos no agrupados, por lo tanto, seguimos los pasos expuestos
en el cuadro anterior:

1. Organizamos los datos de manera ascendente: 3, 4, 4, 5, 6, 8, 8, 8, 10


n 1
2. Utilizamos la fórmula de posicionamiento de punto:
2
9 1
Al sustituir los valores obtenemos: 5
2
Por lo tanto, buscamos el número que ocupa la quinta posición en la serie de datos
ordenados. En este caso es el 6; la mediana pedida entonces es Med = 6.

(2) Sean los números: 7, 5, 5, 9, 15, 18, 11, 12. Determinar la mediana:
Estamos trabajando con datos no agrupados, por lo tanto, seguimos los pasos expuestos
anteriormente
1. Organizamos los datos de manera ascendente: 5, 5, 7, 9, 11, 12, 15, 18
2.  Utilizamos la fórmula de posicionamiento de punto y sustituimos los valores:
8 1
 4,5
2
Como no hay la posición 4,5 ; entonces determinamos el promedio aritmético de
los dos que se hallan en la mitad, en este caso, los valores que ocupan la posición cuatro
9  11
y la posición cinco:  10 . La mediana entonces será igual a 10.
2
(3) Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban las
estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres
para registrar luego sus estaturas en pulgadas, se había obtenido la tabla de distribución
de frecuencia, determinar el valor de la mediana:
Como los datos están agrupados, procedemos a seguir los pasos dados al
comienzo de este apartado:
n 50
Paso 1: cálculo de   25
2 2
Paso 2: localizar ese valor en Fi, si no está, pasar al inmediato superior. Como 25
no aparece en Fi, pasamos al inmediato superior: 31.
Paso 3: aplicar la fórmula sustituyendo los valores correspondientes. Al
identificar a los elementos tenemos: li es 62; fmed es 12, Fa es 16 y la amplitud es 3.
25  16
Med  62  * 3  63,8 pulgadas
15
Interpretación: El 50% de las obreras tienen una estatura igual o inferior a 63,8
pulgadas aproximadamente.

Observaciones sobre la mediana:


Estadística I 25

Como medida descriptiva, tiene la ventaja de no estar afectada por las


observaciones extremas, ya que no depende de los valores que toma la variable,
sino el orden de los mismos. Por ello, es adecuado su uso (en lugar de la media)
en distribuciones que presentan observaciones extremadamente grandes o
pequeñas.
Puede ser calculada aún a partir de datos agrupados con clases abiertas (a menos
que la mediana entre en dicha clase abierta).
Puede usarse con datos cualitativos.
No utiliza toda la información de los datos (sólo los valores centrales).
Su mayor defecto es que no se ajusta fácilmente al cálculo algebraico, lo que
hace que sea difícil de utilizar en otras áreas, como en la inferencia.

1.4 Moda
Es el valor de los datos que se presenta con más frecuencia, es decir, el que más
se repite en un conjunto de datos; por lo que representa el punto más alto en la curva de
distribución de un conjunto de datos.
Notación: Mo

Fórmulas:
Datos no agrupados Datos agrupados

No hay fórmulas, sólo ver Mo  l i 


Δ
1 *a
Δ Δ
cuál valor o elemento es 1 2

el que más se repite. li es el límite inferior.


1 es el valor que se obtiene a restar la fmodal con la frecuencia
anterior.
2 es el valor que se obtiene a restar la fmodal con la frecuencia
siguiente.
a es la amplitud.
Los pasos para calcular la moda con datos agrupados serían:
1. Ubicar la mayor fi para hallar el intervalo modal
2. Aplicar la fórmula

Ejemplos:
(1) Hallar la moda de los números: 3, 5, 2, 5, 9, 5, 2, 8, 6.
Como la moda se definió como el elemento que más se repite, en este caso el 5 sería la
moda ya que es el que mayor frecuencia presenta.

(2) Del ejemplo inicial (ver unidad 4) sobre el investigador que deseaba determinar
cómo variaban las estaturas de las obreras de una empresa y el cual tomaba una muestra
de 50 mujeres para registrar luego sus estaturas en pulgadas, se había obtenido la tabla
de distribución de frecuencia, determinar el valor de la moda:
Como los datos están agrupados, procedemos a seguir los pasos datos
estipulados al comienzo de este apartado:
1. Determinar la clase donde se encuentra la mayor frecuencia absoluta (f i): en este caso
se encuentra en la cuarta clase
2. Sustituimos los valores en la fórmula, identificando a los elementos: a = 3 ; l i = 62 ;
∆1 = 15 – 9 ; ∆2 = 15 – 12. Al sustituir los valores, tenemos:
15  9
Mo  62  * 3  64 pulgadas.
15  9   15  12
Estadística I 26

Interpretación: la mayoría de las obreras tienen una estatura de 64 pulg.

2. Medidas de posición (no centrales)


Según Spiegel (1991), si una serie de datos se colocan en orden de magnitud, el
valor medio que divide al conjunto de datos en dos partes iguales es la mediana, por
extensión de esta idea se puede pensar en aquellos valores que dividen a los datos en
cuatro partes iguales, en cien partes iguales, etc. El nombre genérico esos valores es el
de cuantil y el mismo se define como el valor bajo el cual se encuentra una determinada
proporción de los valores de una distribución. Dentro de las medidas de los cuantiles
tenemos:
2.1 Deciles
Son aquellos valores que dividen en diez partes iguales a un conjunto de datos
ordenados; se representan por D1 , D2 , D3 , ....D9. De esta manera tenemos que:
D1 (primer decil) es el valor por debajo del cual se encuentran como máximo el 10%
de las observaciones, mientras que el 90% restante se sitúan por encima de él.
D2 (segundo decil) es el valor por debajo del cual se encuentran como máximo el
20% de las observaciones, mientras que el 80% restante se sitúan por encima de él.
D3 (tercer decil) es el valor por debajo del cual se encuentran como máximo el 30%
de las observaciones, mientras que el 70% restante se sitúan por encima de él. Y así
sucesivamente con los demás.
2.2 Cuartiles
Son aquellos valores que dividen en cuatro partes iguales a un conjunto de datos
ordenados; se representan por Q1, Q2, y Q3. De esta manera tenemos que:
Q1 (primer cuartil) es el valor por debajo del cual se sitúan a lo sumo el 25% de las
observaciones y por encima de éste el 75% restante.
Q2 (segundo cuartil) es el valor por debajo de cual se sitúan a lo sumo el 50% de las
observaciones y por encima de éste el 50% restante. Está justo en el centro de la
distribución y corresponde a la mediana.
Q3 (tercer cuartil) es el valor por debajo del cual se sitúan a lo sumo el 75% de las
observaciones y por encima de éste el 25% restante.
Observación: hay algunas variaciones en las convenciones con respecto al cálculo de los
cuartiles, ya que los valores reales calculados pueden variar un poco dependiendo de la
convención seguida. Sin embargo, el objetivo de todos los procedimientos de cálculo de
cuartiles es dividir al conjunto de los datos en aproximadamente cuatro partes iguales.
2.3 Percentiles
Son aquellos valores que dividen a un conjunto de datos ordenados en cien
partes iguales; se representan por P1, P2,..., P99. De esta manera tenemos que:
P1 es el valor por debajo del cual se sitúan a lo sumo el 1% de los datos y por
encima de él tenemos el 99% restante.
P2 es el valor por debajo del cual se sitúan a lo sumo el 2% de los datos y por
encima de él tenemos el 98% restante. Y así sucesivamente.
P35 es el valor por debajo del cual se sitúan a lo sumo el 35% de los datos y por
encima de él tenemos el 65% restante. Y así sucesivamente.
En forma genérica el p-ésimo percentil es un valor tal que por lo menos un “p”
por ciento de los elementos tiene dicho valor o menos y, al menos, un (100-p) por ciento
de los elementos tiene ese valor o más.
Es conveniente tomar en cuenta que los deciles y los cuartiles se pueden
expresar como percentiles, por ejemplo: D1= P10 , D2 = P20 , Q1 = P25, Q2 = P50 =
Mediana, etc. Dependiendo de si trabajamos con datos agrupados, o no agrupados,
tendremos los siguientes pasos para el cálculo de los percentiles:
Estadística I 27

Datos no agrupados Datos agrupados

Anderson y otros (1999) establecen los Se aplica la fórmula:


siguientes pasos: n*p
F
1. Ordenar los datos de manera ascendente. Pp  l i  100 a
*a
2. Calcular el índice de posición: f
p
 P  Para aplicar la fórmula, los pasos son:
i *n
 100  n *p
1. Ubicar el resultado de en Fi
Observaciones: 100
- Si “i” es entero, el p-ésimo percentil es el 2. Si no está ese valor, se pasa al inmediato
promedio de los valores de los datos superior.
ubicados en los lugares “i” e “i +1”. 3. Al ubicar el valor en Fi determinamos la
- Si “i” no es entero, se redondea al valor clase de donde se obtendrán los datos para
entero inmediato mayor que “i”, esto indica sustituir en la ecuación.
la posición del p-ésimo percentil.

La utilidad de los percentiles radica en que permite determinar el valor de la


variable para un porcentaje dado. Veamos algunos ejemplos:

(1) Determinar el P50 y el P85 de los datos siguientes: 2350, 2450, 2550, 2380, 2255,
2210, 2390, 2630, 2440, 2825, 2420, 2380.
Lo primero es ordenar de manera ascendente los datos:
2210, 2255, 2350, 2380, 2380, 2390, 2420, 2440, 2450, 2550, 2630, 2825.
Para determinar el P50:
12 * 50
Calculamos “i”: i =  6
100
Como “i” es entero, el P50 es el promedio de los valores que ocupan los lugares “i” e “i
+ 1” en este caso serían los lugares 6° y 7°, luego nos daría:
2390  2420
P50   2405
2
Para determinar el P85:
12 * 85
Calculamos “i”: i =  10,2
100
Como “i” es decimal buscamos el mayor entero al valor de “i”, en este caso sería 11.
Este número nos indica que debemos buscar el valor que ocupa la posición 11 en
nuestro conjunto de datos. Al llevar a cabo esto, obtenemos que P85 = 2630

(2) Del ejemplo inicial (ver unidad 4) sobre el investigador que deseaba determinar
cómo variaban las estaturas de las obreras de una empresa y el cual tomaba una muestra
de 50 mujeres para registrar luego sus estaturas en pulgadas, se obtuvo la tabla de
distribución de frecuencia; a partir de esa tabla, determinar: P15 ; Q1 ; D3
Para resolver esto, seguiremos los pasos planteados para el cálculo de percentiles
para datos agrupados:
Determinación de P15:
n * p 50 *15
1. Cálculo de   7,5
100 100
2. Se busca ese valor en Fi , como no está, pasamos al inmediato superior. En este
caso, es 16.
Estadística I 28

3. Identificamos los elementos para sustituir en la fórmula: a = 3 ; l i = 59 ; Fa


(frecuencia acumulada anterior) = 7 ; fp (frecuencia absoluta de la clase) = 9.
7,5  7
4. Aplicamos la fórmula: P15  59  * 3  59,17 pulgadas
9
Interpretación: el 15% de las obreras tienen una estatura de 59,17 pulgadas o
menos.
Determinación de Q1:
Como Q1 = P25 utilizamos la fórmula de percentiles para el cálculo de Q1
n * p 50 * 25
1. Cálculo de    12,5
100 100
2. Se busca ese valor en Fi , como no está, pasamos al inmediato superior. En este
caso, es 16.
3. Identificamos los elementos para sustituir en la fórmula: a = 3 ; l i = 59 ; Fa
(frecuencia acumulada anterior) = 7 ; fp (frecuencia absoluta de la clase) = 9.
12,5  7
4. Aplicamos la fórmula P25  59  * 3  60,83 pulgadas
9
Interpretación: el 25% de las obreras tienen una estatura de 60,83 pulgadas o
menos.
Determinación de D3:
Como D3 = P30 utilizamos la fórmula de percentiles para el cálculo de D3
n * p 50 * 30
1. Cálculo de    15
100 100
2. Se busca ese valor en Fi , como no está, pasamos al inmediato superior. En este
caso, es 16.
3. Identificamos los elementos para sustituir en la fórmula: a = 3 ; l i = 59 ; Fa
(frecuencia acumulada anterior) = 7 ; fp (frecuencia absoluta de la clase) = 9.
15  7
4. Aplicamos la fórmula P30  59  * 3  61,67 pulgadas
9
Interpretación: el 30% de las obreras tienen una estatura de 61,67 pulgadas o
menos.

2.4 Rango percentil.


Es una expresión matemática mediante la cual podemos hallar el porcentaje,
dado un valor de la variable. Dicha expresión se obtiene al despejar “p” en la fórmula de
percentiles para datos agrupados, el proceso para hallar el rango percentil es:
1. Ubicar el valor de la variable que nos dan, en el intervalo que le corresponde.
2. Una vez ubicado, podemos determinar li, fi, etc, para sustituir en la fórmula:
 
Pp  l i * f i
 Fa
p a *100
n
Vamos a ilustrar los pasos:
Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban
las estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres
para registrar luego sus estaturas en pulgadas, se había obtenido la tabla de distribución
de frecuencia, hallar el porcentaje de obreras cuyas estaturas son iguales o inferiores a
67 pulgadas:
1. Ubicamos el valor de 67 en la tabla según los intervalos que tenemos, y vemos que
corresponde a la 5ta clase.
2. Identificamos los elementos que corresponden: a = 3 ; li = 65 ; Fa = 31 ; fp = 15.
Estadística I 29

 67  65 *12  31
3. Aplicamos la fórmula: 3
p *100  78%
50
Interpretación: el 78% de las obreras tienen estaturas iguales o inferiores a 67
pulgadas.

3. Medidas de dispersión.
Mientras los estadísticos de tendencia central nos indican los valores alrededor
de los cuales se sitúan un grupo de observaciones, los estadísticos de variabilidad o
dispersión muestran si los valores de las observaciones están próximos entre sí o están
muy separados.
Levin y otros (2004) plantean que dos conjuntos de datos pueden tener la misma
localización central y no obstante, ser muy distintos si uno se halla más disperso que el
otro. Veamos el siguiente ejemplo tomado de Anderson y otros (1999): supongamos que
usted es un agente de compras de una importante empresa manufacturera y con
regularidad coloca pedidos con dos proveedores distintos, ambos le indican que
necesitan alrededor de 10 días hábiles para surtir sus pedidos. Después de varios meses
de trabajar así, encuentra usted que el promedio de días necesarios para surtir los
pedidos es, realmente, unos 10 para cada proveedor. Los gráficos que resumen la
cantidad de días hábiles requeridos para surtir los pedidos son los siguientes:

Aunque la cantidad promedio es aproximadamente de 10 en ambos casos.


¿Tienen éstos el mismo grado de confiabilidad para entregar a tiempo? Observe la
dispersión, o variabilidad, en los gráficos. ¿Qué proveedor prefiere usted?
Para la mayoría de las empresas es importante recibir materiales y suministros
tiempo. Las entregas a los siete u ocho días de J. C. Clark Distributor pueden
considerarse favorables; sin embargo, algunas de las entregas a los 13 o 15 días podrían
ser desastrosas en términos de la utilización de la mano de obra y del cumplimiento de
los programas de producción. Este ejemplo ilustra un caso en el que la dispersión, o
variabilidad, en los tiempos de entrega puede ser la consideración más importante para
seleccionar un proveedor. Para la mayoría de los agentes de compra, la menor
dispersión que muestra Dawson Supply, Inc. haría que fuera el proveedor más
consistente y preferido.
Teniendo presente el ejemplo anterior, pasemos a continuación a establecer las
definiciones con respecto a las medidas de variabilidad:

3.1 Dispersión
Estadística I 30

Es el grado en que los datos numéricos tienden a extenderse alrededor de un


valor medio. Levin y otros (2004) señalan que la dispersión de la distribución
suministra información complementaria que permite juzgar la confiabilidad de nuestra
medida de tendencia central. Si los datos están ampliamente dispersos, la localización
central será menos representativa de los datos en su conjunto de lo que sería en el caso
de datos que se acumulasen más alrededor de la media. Además, si no conviene tener
una amplia dispersión de valores respecto al centro o si esa dispersión implica un riesgo
inaceptable, deberemos ser capaces de reconocerlo y no escoger las distribuciones que
presentan la máxima dispersión.
Por ejemplo, a los analistas financieros les interesa la dispersión de las ganancias
de una empresa, las utilidades con una fuerte dispersión indican un riesgo mayor parar
los accionistas que las utilidades que permanecen relativamente estables.
Las medidas de dispersión se dividen en dos grandes grupos: las medidas de
dispersión absolutas y las medidas de dispersión relativas, a continuación se exponen las
mismas.

3.2 Medidas de dispersión absoluta.


Son aquellas que vienen expresadas en las mismas medidas que identifican a la
serie de datos, se van a considerar las siguientes:

3.2.1 Rango, amplitud o recorrido


Es la diferencia entre el valor máximo (más alto) y el valor mínimo (más bajo)
observado, por lo que un rango pequeño indica poca variación y uno grande indica una
gran variabilidad.
Notación: R
Fórmula: R = Xmáx - Xmin
Observaciones con respecto al rango:
No es muy útil porque sólo toma en cuenta los valores máximo y mínimo de una
distribución por lo que no da una idea de la verdadera concentración de los
valores. Por ejemplo, veamos las siguientes gráficas:

Ambas presentan igual rango, pero diferente variabilidad.


No se puede utilizar en distribuciones que tengan intervalos abiertos.
Puede ser afectado por observaciones extremas.

3.2.2 Rango intercuartílico o rango intercuartil.


Es la diferencia entre los valores de Q 3 y Q1, esta diferencia refleja la
variabilidad de las observaciones del 50% intermedio de los datos y tiene la ventaja de
no verse influenciado por valores extremos.
Notación: RI
Fórmula: RI = Q3 - Q1
Gráficamente:
Estadística I 31

A través del rango intercuartil podemos ver (aproximadamente) qué tan lejos de
la mediana tenemos que ir en cualquiera de las dos direcciones antes de que podamos
recorrer una mitad de los valores del conjunto de datos. Para los efectos de la situación
que se ha mantenido como ejemplo (el de las estaturas de las obreras), el rango
intercuartil es:
Q3 - Q1 = (66,63 – 60,83) pulgadas = 5,80 pulgadas.

3.2.3 Rango semi-intercuartílico o rango semi-intercuartil.


Es la semidiferencia entre los valores de Q3 y Q1, al igual que el rango
intercuartílico tiene la ventaja de no verse influenciado por valores extremos.
Notación : RSI
Q  Q1
Fórmula: RSI = 3
2
Para los efectos de la situación que se ha mantenido como ejemplo (el de las estaturas
66,63  60,83
de las obreras), el rango semi-intercuartil es RSI =  2,9 pulgadas. De
2
esto, pudiéramos establecer que un 50% de las estaturas caen en el intervalo [63,8 ± 2,9]
pulgadas.

3.2.4 Varianza.
Es la medida del cuadrado de la distancia promedio entre la media y cada
elemento de la población.
Notación:
σ2 cuando sea para una población.
s2 cuando sea para una muestra.
Fórmulas:
Datos no agrupados Datos agrupados
N g
  xi  μ  2   xi  μ 2
*f
i
2 i1 σ  2 i1
σ 
N N
g
 xi  x  xi  x
n 2 2

2
 2

i1
*f
i
S  i1 S 
n -1 n -1

Nota: La teoría matemática establece que si pretendemos estimar la varianza de


una población a partir de la varianza una de sus muestras, resulta que el error cometido
es generalmente menor cuando la varianza de la muestra se divide por n –1 y no por n,
porque el valor resultante da una mejor estimación de la varianza de la población. Sin
embargo, para grandes valores de n (n >30) no hay prácticamente diferencia entre
dividir por n o por n-1.
Para ilustrar el concepto de varianza, veamos dos ejemplos:
Estadística I 32

(1) Considere que se tiene una muestra con los siguientes valores: 5, 8, 7, 10, 15.
Determine la varianza para este grupo de datos:
Lo primero es determinar el valor de la media de la muestra, como los datos no están
agrupados, utilizamos la expresión:
5  8  7  10  15
x 9
5
Una vez determinada la media, aplicamos la fórmula para el cálculo de la
varianza para datos no agrupados:
(5  9) 2  (8  9) 2  ...  (15  9) 2
s2   14,5
5 1

2) Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban las
estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres
para registrar luego sus estaturas en pulgadas, se había obtenido la tablade distribución
de frecuencia.
Para calcular la varianza agregamos una nueva columna:

li - li+1 fi xi hi %hi Fi Hi %Hi ( xi - x )2 * fi

[53 – 56) 2 54,5 0,0400 4,00 2 0,0400 4,00 (54,5 - 63,68)2 * 2 =


168,5448

[56 – 59) 5 57,5 0,1000 10,00 7 0,1400 14,00 (57,5 - 63,68)2 * 5 =


190,9620

[59 – 62) 9 60,5 0,1800 18,00 16 0,3200 32,00 91,0116

[62 – 65) 15 63,5 0,3000 30,00 31 0,6200 62,00 0,4860

[65 – 68) 12 66,5 0,2400 24,00 43 0,8600 86,00 95,4288

[68 – 71) 5 69,5 0,1000 10,00 48 0,9600 96,00 169,3620

[71 – 74) 2 72,5 0,0400 4,00 50 1,0000 100,00 155,5848

Σ = 871,38
Como se está calculando la varianza de una muestra, la fórmula a utilizar será:
g
i  1  x i  x 
2
* f
2 i
S 
n -1
Al ver la fórmula, el numerador corresponde al valor obtenido al realizar la
sumatoria de los números correspondientes a la última columna de la tabla, por lo que:
871,38
s2= =17,7833 pulg 2
49
Algunas propiedades de la varianza:
La varianza de una constante es cero.
Estadística I 33

Siempre es una cantidad positiva.


La varianza del producto de una constante por una variable es igual al producto
de la constante al cuadrado por la varianza de la variable.
Observaciones sobre la varianza:
Las unidades de la varianza son los cuadrados de las unidades de los datos y en
muchas ocasiones no son fáciles de interpretar.
Puede sufrir un cambio desproporcionado por la existencia de valores extremos
en el conjunto.

3.2.5 Desviación típica o desviación estándar.


Se define como la raíz cuadrada positiva de la varianza.
Notación:
σ cuando sea para una población.
s cuando sea para una muestra.
Fórmulas:
Datos no agrupados Datos agrupados

N g
  xi  μ  2
  xi  μ 2
*f
i
i1 i1
σ  σ 
N N
g
 xi  x  xi  x
n 2 2

i1

i1
*f
i
S  S
n -1 n -1

Algunas propiedades de la desviación típica:


La desviación típica de una constante es cero.
Siempre es una cantidad positiva.
La desviación típica del producto de una constante por una variable es igual al
producto de la constante por la desviación típica de la variable.
Observaciones sobre la desviación típica:
Webster (1996) plantea que entre sus aplicaciones tenemos el teorema de
Chebyshev, el cual afirma que para cualquier conjunto de datos, al menos
1
1 2 de la observaciones están dentro de k desviaciones típicas de la media
k
(K >1). En virtud de esto, si por ejemplo, k = 2 nos daría 0,75. Lo que significa
que si formamos un intervalo de 2 desviaciones típicas por debajo de la media
hasta 2 desviaciones típicas por encima de la media, en dicho intervalo se
encontrarán como mínimo el 75% de todas las observaciones.
Nos permite determinar con mayor grado de precisión dónde se sitúan los
valores de una distribución de frecuencia en relación con la media.
Las unidades de la desviación típica se expresan en las mismas unidades de los
datos.
Puede sufrir un cambio desproporcionado por la existencia de valores extremos
en el conjunto.
Estadística I 34

Según Webster (1996), el concepto de desviación típica tiene una enorme


importancia en los negocios y en la economía. Por ejemplo, en finanzas, la desviación
típica se utiliza para medir el riesgo asociado a varias oportunidades de inversión. Al
utilizar esta medida para medir la variabilidad de las tasas de rendimiento que ofrecen
distintas inversiones, el analista financiero puede calibrar el nivel de riesgo que entraña
cada activo.
Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban
las estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres
para registrar luego sus estaturas en pulgadas, se habían obtenido una varianza de
17,7833 pulg2. La desviación típica es la raíz cuadrada de esa cantidad, por lo que
obtenemos: 4,2170 pulg.

3.3 Medidas de dispersión relativa.


Son relaciones entre medidas de dispersión absolutas y medidas de tendencia
central, estas medidas vienen generalmente expresadas en porcentajes y su función es la
de determinar entre varias distribuciones la de mayor o menor dispersión.
Estas medidas tienen como ventaja que nos permiten comparar distribuciones
donde las unidades pueden ser diferentes ya que estas medidas son independientes de
las unidades utilizadas.
Cabe destacar que varias distribuciones pueden tener un mismo valor para
determinada medida de dispersión y ser la variabilidad de sus datos en relación con la
media, diferente.
La expresión general para medidas de dispersión relativas viene dada por:
dispersión absoluta
Dispersión relativa 
promedio
Para los efectos del presente curso, la medida de dispersión relativa con la cual se
trabajará es el coeficiente de variación.

3.3.1 Coeficiente de variación.


Mide el grado de dispersión de un conjunto de datos en relación con su media.
Notación: CV
Fórmulas:
s
CV  * 100% para la muestra
x


CV  * 100% para la población

Observaciones:
El CV es un estadístico útil para comparar la dispersión de conjuntos de datos
que tienen distintas desviaciones estándar y distintos promedios.
El CV es un estadístico útil para comparar la dispersión de conjuntos de datos
que tienen distintas unidades.
El CV pierde su utilidad cuando la media se aproxima a cero.
Para los efectos de la situación que se ha mantenido como ejemplo (el de las
estaturas de las obreras), se había calculado previamente la desviación típica (4,2170
4,22
pulgadas.) y la media (63,68 pulg.). Luego CV = 63,68 *100%  6,62%
Interpretación: la desviación típica de la muestra es el 6,62% del valor de la
media de la muestra.
Estadística I 35

4. Medidas de forma: sesgo y curtosis.


En un análisis estadístico de una serie de valores, no sólo interesa conocer el
promedio y la dispersión de los datos, sino también cómo se refleja o se acerca esta
serie a una distribución simétrica y cómo es el grado de pico de la distribución. Para ello
se consideran las medidas de sesgo y de curtosis.

4.1 Medidas de sesgo.


El sesgo es el grado de asimetría de una distribución, es por esto que
visualmente podemos tener dos tipos de curvas:
Curvas simétricas: Son aquellas en las cuales al trazar una línea vertical desde
la cumbre de la curva al eje horizontal, se divide su área en dos partes iguales.
De acuerdo a Lind y otros (2004), en un conjunto simétrico de observaciones la
media, moda y mediana coinciden y los valores de los datos se encuentran
distribuidos uniformemente alrededor de estos valores. Gráficamente:

Curvas asimétricas: son aquellas curvas en las cuales al trazar una línea
vertical desde su cumbre al eje horizontal, no se divide su área en dos partes
iguales y pueden ser:
 Asimetría positiva (sesgo a la derecha): es una curva que disminuye
gradualmente hacia el extremo superior de la escala. Gráficamente:

De acuerdo con Levin, Rubin, Balderas, Del Valle y Gómez (2004), un ejemplo
de esto podría ser representar la distribución de frecuencias del número de días
que un producto se encuentra en existencia en un negocio de venta de fruta al
mayoreo. La curva estaría sesgada a la derecha, con muchos valores en el
extremo izquierdo y pocos en el extremo derecho, debido a que el inventario
debe agotarse rápidamente.
Estadística I 36

 Asimetría negativa (sesgo a la izquierda): es una curva que disminuye


gradualmente hacia el extremo inferior de la escala. Gráficamente:

De acuerdo con Levin y otros (2004), un ejemplo de esto podría ser representar
la distribución de frecuencias del número de días que requiere un agente de
bienes raíces para vender una casa. La curva estaría sesgada a la izquierda, con
muchos valores en el extremo derecho y pocos en el extremo izquierdo, debido a
que el inventario de casas se coloca muy lentamente.

Coeficiente de asimetría de Pearson.


Notación: SK
Fórmulas (cualquiera de las dos es válida):
x  Mo Si SK > 0 La asimetría es positiva.
SK 
s Si SK = 0 Hay simetría.
Si SK < 0 La asimetría es negativa.

3  x  Med 
SK 
s

Lind y otros (2004) establecen que el valor del coeficiente de asimetría de


Pearson puede variar entre -3 y +3. Un valor cercano a -3, como por ejemplo -2,57
indica una considerable asimetría negativa; un valor como 1,63 indica una asimetría
positiva moderada.
Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban
las estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres
para registrar luego sus estaturas en pulgadas, se habían obtenido los siguientes valores:
Media: 63,68 pulg. ; Moda: 64 pulg. ; Desviación Típica: 4,2170 pulg.
63,68  64
Al sustituir en la primera fórmula: SK =   0,0759
4,2170
Interpretación: asimetría negativa, pero como el valor es tan pequeño se puede
considerar que la distribución está ligeramente sesgada a la izquierda.

4.2 Medidas de curtosis.


La curtosis es una medida de la concentración relativa de valores en el centro de
la distribución comparado con las colas, es decir, mide el grado de pico o de
apuntamiento que presenta una distribución; el patrón de referencia es la distribución
normal o gaussiana. Los tipos de curvas que se pueden presentar son:
Curva platicúrtica: es aquella que presenta un pico ligero, es achatada.
Gráficamente:
Estadística I 37

Curva mesocúrtica: es aquella no es ni muy puntiaguda ni muy


achatada (es la curva normal).

Curva leptocúrtica: es aquella que presenta un pico alto.

Coeficiente de curtosis.
Es la medida que nos da una idea acerca del achatamiento o levantamiento de la
curva en relación con la normal.
Notación: K
Para determinar la curtosis de manera empírica, se establece el porcentaje de
valores que se encuentran en el intervalo x  s para considerar lo siguiente:
Si el resultado es menor a 68%, es platicúrica
Si el resultado es aproximadamente igual a 68%, es mesocúrtica
Si el resultado es mayor a 68%, es leptocúrtica
Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban
las estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres
para registrar luego sus estaturas en pulgadas, se había obtenido: x  63,68 pulgadas y
s = 4,22 pulgadas. Al calcular el porcentaje (con el rango percentil) para el intervalo
x  s se obtuvo 68,44%, por lo que la distribución es aproximadamente mesocúrtica.

5. Diagramas de bloques y líneas o boxplot.


En su forma más simple, el diagrama de bloques y líneas ofrece una
representación gráfica de los datos a través de los cinco números de resumen: Xmínimo ,
Q1 , Q2 , Q3 y Xmáximo. Este tipo de gráfico se caracteriza porque presenta al mismo
tiempo información sobre la tendencia central, dispersión, simetría y la presencia (si la
hay) de datos atípicos, en un conjunto de datos que se estén estudiando.
Antes de exponer los pasos para su construcción, se va a definir lo que se
considera como un dato atípico dentro de una distribución.
Estadística I 38

Según Anderson y otros (1999) los valores atípicos dentro de un conjunto de


datos son aquellos elementos con valores demasiado grandes o demasiado pequeños, es
decir, observaciones que se alejan de manera poco usual del resto de los datos. Un valor
atípico puede deberse a:
Un elemento para el cual se haya anotado su valor en forma errónea (lo cual
puede corregirse antes de proseguir el análisis).
Puede ser uno, que por error, se incluyó en el conjunto de datos y en estos casos
debe eliminarse.
Un elemento poco común que se haya anotado de forma correcta y que sí
pertenece al conjunto de datos.
Cabe destacar que aunque no necesariamente se deben eliminar los valores
atípicos, sí se debe comprobar su exactitud y su existencia.
Una vez definido lo que es un dato atípico, veamos los pasos para construir un
boxplot:
1) Construya una recta y marque en ella los 3 cuartiles, recuerde usar una unidad de
medida adecuada.
2) Dibuje una caja sobre la recta con los extremos localizados en Q1 y Q3.
3) Trace un segmento vertical por el punto correspondiente a la mediana dentro de la
caja, así la línea de la mediana divide al conjunto de datos en 2 partes iguales.
4) Se ubican los límites mediante el rango intercuartil: los límites están a 1,5 * RI
debajo de Q1 y a 1,5 * RI arriba de Q3. Se considera que los datos fuera de estos límites
son valores atípicos. Algunos autores comentan sobre los llamados valores extremos,
siendo éstos elementos aquellos que se encuentran fuera del intervalo 3* RI debajo de
Q1 y a más de 3 * RI arriba de Q3.
5) Se trazan dos líneas punteadas (extensiones o bigotes de la caja): una que va del
centro de la primera vertical hasta el valor mínimo dentro de los límites, y la otra que va
del centro de la segunda vertical hasta el valor máximo dentro de los límites.
6) Se marcan con un asterisco las localizaciones de los valores atípicos.
Gráficamente, el boxplot tendría una forma como esta:

Aunque usualmente se representa al boxplot de manera vertical, también se


puede presentar de forma horizontal, tal y como se ilustra a continuación:
Estadística I 39

Una de las ventajas del boxplot consiste en que permite comparar a la vez varios
grupos de datos, sin perder información ni saturarse de ella.
Con respecto a la interpretación del boxplot , la profesora Neyra Peña
recomienda tomar en cuenta las siguientes consideraciones:
Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.
La distancia entre las cinco medidas descritas en el boxplot puede variar, sin
embargo, recuerde que la cantidad de elementos entre una y otra es
aproximadamente la misma. Entre el límite inferior y Q1 hay aproximadamente
igual cantidad de elementos que de Q1 a la mediana, de ésta a Q3 y de Q3 al
límite superior. Se considera aproximado porque pudiera haber valores atípicos,
en cuyo caso la cantidad de elementos se ve levemente modificada.
La línea que representa la mediana indica la simetría. Si está relativamente en el
centro de la caja la distribución es simétrica. Si por el contrario se acerca al
primer o tercer cuartil, la distribución pudiera ser sesgada a la derecha
(asimétrica positiva) o sesgada a la izquierda (asimétrica negativa)
respectivamente. Esto suele suceder cuando los datos tienden a concentrase más
hacia un punto de la escala.
También algunos autores recomiendan considerar visualmente que: en
distribuciones con sesgo a la derecha, la distancia de Q 3 a Xmáximo excede la
distancia de Xmínimo a Q1; y en distribuciones con sesgo a la izquierda, la distancia
de Xmínimo a Q1 excede la distancia de Q3 a Xmáximo.
La mediana puede inclusive coincidir con los cuartiles o con los límites de los
bigotes. Esto sucede cuando se concentran muchos datos en un mismo punto,
pudiera ser este un caso particular de una distribución sesgada o el caso de una
distribución muy homogénea.
Debe estar atento al tamaño de la muestra. Lo que pareciera ser dispersión en los
resultados, en ocasiones podría deberse a un tamaño de muestra muy pequeño,
por lo que debe ser cauteloso a la hora de interpretar. En estos casos se sugiere
remitirse al reporte numérico.
Para ilustrar las ideas con respecto al boxplot, consideremos la siguiente
situación:
En un estudio para determinar el consumo de gasolina, se probaron 13 vehículos
durante 300 kilómetros, en condiciones de tránsito tanto en la ciudad como en el campo;
de lo anterior se obtuvieron los siguientes datos del consumo de la gasolina en litros:
Ciudad: 16,2 16,7 15,9 14,4 13,2 15,3 16,8 16,0 16,1 15,3 15,2 15,3 16,2

Campo: 19,4 20,6 18,3 18,6 19,2 17,4 17,2 18,6 19,0 21,1 19,4 18,5 18,7

Realice un análisis descriptivo de los datos que incluya un gráfico y las medidas
descriptivas adecuadas para determinar el consumo de gasolina comparando entre la
ciudad y el campo.
Estadística I 40

Solución:
En este caso lo más apropiado para realizar el análisis es construir un boxplot
para cada conjunto de datos, ya que el mismo nos permite visualizar en un solo dibujo
una serie de medidas descriptivas básicas para describir el comportamiento de los
mismos. Es importante destacar que las unidades de medición de los grupos deben ser
las mismas para poder efectuar las comparaciones.
Antes de poder construir el boxplot se debe:
Ordenar los valores de menor a mayor en cada grupo de datos.
Ciudad: 13,2 14,4 15,2 15,3 15,3 15,3 15,9 16,0 16,1 16,2 16,2 16,7 16,8

Campo: 17,2 17,4 18,3 18,5 18,6 18,6 18,7 19,0 19,2 19,4 19,4 20,6 21,1

Determinar: los cinco números de resumen, el rango intercuartil y los límites


(inferior y superior). Es importante destacar que el cálculo de los cuartiles se
debe realizar utilizando los pasos descritos en el apartado correspondiente a
percentiles. En la siguiente tabla se presentan estos resultados:
Medida Ciudad Campo

Xmínimo 13,2 17,2

Xmáximo 16,8 21,1

Q1 Q1 = P25 = 15,3 Q1 = P25 = 18,5

Q2 Q2 = P50 = 15,9 Q2 = P50 = 18,7

Q3 Q3 = P75 = 16,2 Q3 = P75 = 19,4

RI = Q3 - Q1 0,9 0,9

1,5 * RI 1,35 1,35

LI (límite inferior) = Q1 - 1,5 * RI 13,95 17,15

LS (límite superior) = Q3 + 1,5 * RI 17,55 20,75

Una vez completada la etapa previa, para realizar la construcción del gráfico se
debe escoger una escala adecuada, la cual dependerá del espacio con el cual se cuente.
Gráficamente (generado por medio de un programa estadístico), los boxplot tendrían la
siguiente forma:
Estadística I 41

De aquí se puede concluir lo siguiente:


En el campo el consumo medio de gasolina resultó mayor al de la ciudad, lo que
se aprecia en los valores de las medianas (Ciudad:15,9 litros ; Campo:18,7 litros ).
La variabilidad de ambos grupos es semejante, lo que se observa en el ancho de
las cajas, que representa el rango intercuantil.
En cuanto a la simetría se tiene que para el grupo del campo la distribución es
asimétrica positiva mientras que para el grupo de la ciudad se observa asimetría
negativa.
Por otra parte se observa un dato atípico en el campo (un vehículo cuyo
consumo resultó ser superior al de los demás, al inspeccionar los datos, es aquel cuyo
consumo fue de 21,1 litros) y otro en la ciudad (un vehículo cuyo consumo resultó ser
menor al de los demás, al inspeccionar los datos, es aquel cuyo consumo fue de 13,2
litros).

Вам также может понравиться