Академический Документы
Профессиональный Документы
Культура Документы
La afirmación “una imagen vale más que mil palabras” se puede aplicar al
ámbito de la estadística descriptiva diciendo que “un gráfico bien elaborado vale más
que mil tablas de frecuencia”. Cada vez es más habitual el uso de diagramas, gráficos o
imágenes, para representar la información obtenida; de todas maneras, debemos ser
prudentes al confeccionar o interpretar gráficos, puesto que una misma información se
puede representar de formas muy diversas y no todas ellas son pertinentes, correctas o
válidas.
- Pictogramas
Son presentaciones gráficas que se hacen por medio de dibujos, que en la
mayoría de los casos son semejantes al fenómeno que se quiere representar. Por
ejemplo, si se quisiera representar el crecimiento de la población de un determinado país
según los años, se identifica a esta población a través de figuras humanas y la
presentación gráfica pudiera ser una como esta:
Cabe destacar que por medio de estos dibujos, se expresan las frecuencias de las
modalidades de la variable. También estos gráficos se hacen representando en diferentes
escalas un mismo dibujo, aunque se debe prestar atención ya que la escala de los dibujos
debe ser tal que el área de cada uno de ellos sea proporcional a la frecuencia de la
modalidad que representa. Veamos un ejemplo para clarificar esto:
Supongamos que se quiere representar mediante un pictograma la cantidad de botellas
de cerveza recogidas de la calle en un fin de semana en dos ciudades A y B:
Ejemplo: Suponga que se tienen los valores de la bolsa correspondientes a tres días del
mes de junio, tal y como se muestra a continuación:
3. Por último, se traza una pequeña línea horizontal a nivel del valor con el cual
cerró ese día el índice (para los efectos de la representación sólo se indicó el
valor para el 11 de junio). La representación final será entonces:
Nike Nike Nike Skechers Nike Addidas Nike Addidas Skechers Skechers
Skecher Skechers Addidas Nike Skechers Nike Nike Nike Addidas Nike
s
Nike Addidas Addidas Reebok Nike Nike Nike Skechers Nike Skechers
Nike Nike Skechers Skechers Nike Nike Addidas Skechers Skechers Skechers
Skecher Nike Nike Addidas Nike Skechers Nike Skechers Nike Nike
s
2,00%
16,00% Nike
Skechers
Addidas
50,00%
Reebok
32,00%
Note que no se indican los valores de los ángulos centrales, pero es conveniente
identificar los elementos de alguna manera. En el caso del gráfico anterior, se diferenció
por colores, además de indicar el porcentaje que representa cada marca (también se
podría señalar el valor de la frecuencia absoluta).
- Gráfico de trazos.
Es un tipo de gráfico en donde se localizan los puntos en un sistema de
coordenadas y luego se conectan los puntos sucesivos con trazos rectos.
Ejemplo: La tabla siguiente muestra la población de un país (en millones de habitantes)
para los años de 1860 a 1900:
Luego se ubican los pares de puntos formados, es decir: (1860 ; 31,4) , (1870 ;
39,8) y así sucesivamente, tal como se hace en matemáticas. La gráfica sería:
Por último, se unen los puntos mediante trazos continuos, la gráfica final sería:
Se debe indicar el cero siempre que sea posible; en caso de que no lo sea, y si tal
omisión pudiera provocar alguna conclusión errónea, es aconsejable advertirlo de algún
modo (por lo general, con un corte en el eje), esa es la ruptura que aparece en el eje
horizontal.
- Gráfico de barras.
Consiste en una serie o conjunto de rectángulos que de acuerdo a su longitud y
anchura representan un fenómeno, generalmente se utilizan para representar datos
cualitativos, aunque también se utiliza para datos cuantitativos.
Observaciones con respecto a la construcción de estos gráficos:
En el eje donde irá la base del rectángulo se especifican los indicadores o
nombres que se usan para cada una de las bases.
La escala que se debe tomar para la base debe ser la misma para cada rectángulo.
La separación que exista entre las barras debe ser la misma y dependerá de: el
número de barras a construir y del espacio con que se cuente.
Estadística I 6
En el eje donde no esté la base del rectángulo se puede representar una escala de
frecuencias, frecuencias relativas o de porcentajes.
a. Gráficos de barras simples: son aquellos que representan una sola característica.
Ejemplo: La tabla muestra el número de toneladas de trigo producidos por una
cooperativa durante los años 1995 al 1999.
Región Europa Oceanía América del sur América del norte Asia
Como observación: si se trabaja con una variable nominal, el orden de las barras
no importa (aunque la tendencia es a ordenarlas alfabéticamente), en cambio, si se
trabaja con una variable ordinal, es natural ordenar las barras de las categorías desde la
más baja hasta la más alta. Por ejemplo, supongamos que tenemos los datos
correspondientes al nivel de estudio de los empleados de una empresa, el gráfico de
barras ordenando por categorías es:
Nivel de estudio de los empleados
20 19
18
16 15
14
Frecuencia
12
10
8
8
6
6
4 3
2
0
Sin estudios Primaria Secundaria Bachillerato Universitario
Nivel
También es posible que las barras de los rectángulos se puedan colocar una
encima de la otra, tal y como se muestra a continuación:
- Histogramas
Son gráficos de barras en los cuales no hay separación entre los rectángulos que
se forman, se construyen mediante la representación de las clases de una distribución de
frecuencias en el eje horizontal y las frecuencias en el eje vertical. A través de él se
pueden visualizar tres características de los datos: forma, acumulación o tendencia
posicional y la dispersión o variabilidad
Para ir ilustrando los pasos de su construcción, considerar el ejemplo inicial del
investigador que desea determinar cómo varían las estaturas de las obreras de una
empresa. Construir los histogramas correspondientes:
Paso 1: Se trazan dos ejes de coordenadas sobre un plano y se ubican sobre el eje
horizontal a los límites de clase, tal y como se muestra a continuación.
Paso 4: Se unen las dos perpendiculares que representan cada clase. La gráfica
correspondiente al histograma de frecuencias será:
Observaciones:
Los histogramas no se pueden utilizar con respecto a distribuciones de
frecuencias de clases abiertas (a menos que la persona cierre el intervalo de una
manera conveniente).
El histograma representa las frecuencias de los intervalos mediante áreas y no
mediante alturas; sin embargo, Levin y otros (2004) comentan que si las clases
empleadas en la distribución de frecuencias son del mismo ancho, entonces las
barras verticales del histograma también tienen el mismo ancho y como
consecuencia, el área contenida en cada rectángulo ocupa un porcentaje del área
total de todos los rectángulos, la cual es igual a la frecuencia absoluta de esa
clase correspondiente respecto a todas las observaciones hechas. Si los
intervalos de clase no son de igual tamaño, las alturas no representan a las
frecuencias, por lo tanto, es necesario ajustar la altura de los rectángulos (estas
alturas deberán ser calculadas) para que las superficies sean proporcionales a las
frecuencias de clase.
Levin y otros (2004) señalan que los histogramas (de frecuencias, relativo y
porcentual) tienen la misma forma, esto se debe porque en las situaciones
anteriores el tamaño relativo de cada rectángulo es la frecuencia de esa clase
comparada con el número total de observaciones.
- Polígono de frecuencia
Son gráficos de línea trazados sobre las marcas de clase de cada intervalo, y una
de las ventajas de los polígonos es que nos permite hacer la comparación entre dos o
más conjuntos de datos. Para ir ilustrando los pasos de su construcción, considerar la
tabla del ejemplo inicial y construir los polígonos de frecuencias correspondientes:
Paso 1: Se trazan dos ejes de coordenadas sobre un plano y se ubican sobre el eje
horizontal a las marcas de clase.
Estadística I 11
Es importante tomar en cuenta que el polígono debe ser cerrado, es decir, llegar
hasta el eje horizontal. Para hacer esto debemos determinar dos valores: el que va antes
de la primera marca de clase y el que va después de la última marca de clase.
El valor que va antes de la primera marca de clase se obtiene restándole a esta
primera marca de clase el valor de la amplitud, por lo tanto sería: 54,5 – 3 = 51,5.
El valor que va después de la última marca de clase se obtiene sumándole a esta
última marca de clase el valor de la amplitud, por lo tanto sería: 72,5 + 3 = 75,5.
Al ubicar estos dos nuevos valores la gráfica sería la siguiente:
Estadística I 12
Paso 4: Se unen los puntos respectivos mediantes líneas rectas, por lo que la
gráfica del polígono de frecuencias será:
Los polígonos también pueden obtenerse a partir de los histogramas, uniendo los
puntos medios de los techos de los rectángulos que conforman al histograma y tomando
en cuenta que se deben extender ambos extremos del polígono hasta el eje horizontal en
aquellos puntos que serían las marcas de clase adyacentes a cada extremo. En la
siguiente gráfica se muestran tanto el histograma como el polígono de frecuencias, note
que también se deben señalar los valores con los cuales se cierra el polígono.
- Ojiva
Es la gráfica de una distribución de frecuencias acumuladas, se pueden construir
las ojivas “o más” o las ojivas “menor que”, la diferencia entre ambas gráficas es que la
primera tiene pendiente negativa y decrece, mientras que la segunda tiene pendiente
positiva y crece. Una de las ventajas de trabajar con ojivas es la facilidad (con respecto
a otras gráficas) para interpolar entre los puntos trazados.
Para ir ilustrando los pasos de su construcción, se continuarán manejando los
datos dados en la tabla construida con los valores de las estaturas de las obreras,
construir las ojivas correspondientes:
Paso 1: Se trazan dos ejes de coordenadas sobre un plano y se ubican sobre el eje
horizontal a los límites de clase.
Estadística I 14
Paso 4: Se unen los puntos respectivos mediante líneas rectas, por lo que la
gráfica de la ojiva será:
Levin y otros (2004) hacen notar que las ojivas (con frecuencias acumuladas,
relativa acumulada y porcentual) tienen la misma forma. Por lo tanto, si pidieran
graficar la ojiva relativa o la porcentual, los pasos se repiten y la única diferencia sería
que el eje vertical en lugar de reflejar los valores de F i tendría los de Hi o los de %Hi.
Las gráficas serían:
Ojiva relativa:
Ojiva porcentual:
Estadística I 16
- Diagrama de Pareto.
Es un recurso gráfico que permite representar datos categóricos; consiste en un
tipo especial de diagrama de barras verticales, donde las respuestas categorizadas se
grafican en orden descendente de frecuencias y se combinan con un polígono
acumulado en la misma escala.
El principio fundamental que subyace en esta técnica gráfica, según Berenson y
otros (2001), es la posibilidad de separar los “pocos vitales” de los “muchos triviales”,
lo que permite dirigir la atención a las respuestas importantes. Así, el diagrama alcanza
su utilidad máxima cuando la variable categórica de interés contiene muchas categorías.
Esta técnica se utiliza para clasificar la cantidad y tipo de defectos que se
presentan en un producto o en un servicio, por lo que este tipo de gráfico se usa
ampliamente en el control estadístico de procesos y el control estadístico de la calidad
del producto ya que se buscan dos cosas: las magnitudes de las diferencias en las
longitudes de las barras que corresponden a las categorías adyacentes decrecientes y los
porcentajes acumulados de estas categorías adyacentes.
Para ilustrar los pasos para su construcción, se tomará el ejemplo dado en
Berenson y otros (2001):
El gerente de operaciones de una planta empacadora de cereales indicó que, según su
experiencia, casi siempre hay 9 razones que dan como resultado la producción de cajas
de cartón no conformes al final del proceso de empaque: cartón roto (R), cartón
abultado (G), cartón agrietado (C), cartón sucio (D), agujeros en el cartón (H), peso de
empaque inadecuado (I), error de impresión (P), etiqueta ilegible (U) y tapa superior sin
sello (S).
Los datos sin procesar que se muestran a continuación representan una muestra de 50
cajas de cartón no conformes, las cuales se tomaron de la producción de la semana
pasada, las letras indican las razones de no conformidad:
U G U S H D D R I U S U S U G C S U D R S U D U S
S D P R S I S U D G S S U S D G S C U D D S S S U
Σ = 50
En algunos casos, en lugar de tomar dos ejes verticales, sólo toman uno y la
escala en el mismo va de 0% a 100%. Para las alturas de los rectángulos consideran a la
frecuencia porcentual (%hi) y para las líneas rectas el acumulado hasta el 100%.
Para terminar con el ejemplo, se puede decir que: al separar los “pocos vitales”
de los “muchos triviales”, se determina que las tapas sin sello (32,0%), las etiquetas
ilegibles (24,0%) y los cartones sucios (18,0%) representan el 74% de las razones de no
conformidad, las otras seis razones representan el 26,0%
5
0
-5
-10
-15
-20
-25
-30
-40 -30 -20 -10 0 10 20 30 40
X
(1) Considere los siguientes datos (no agrupados) de una muestra de las edades (en
años) en un grupo de jóvenes: 15,2 ; 18,6 ; 12,6 ; 13,2 ; 12,8 ; 13,8 ; 16,3 ; 13,0 ; 12,7 ;
15,8 ; 19,2 ; 12,7 ; 15,6 ; 13,5 ; 12,9; determine el valor de la media aritmética para el
conjunto de datos dados:
La media aritmética de la muestra (aplicando la fórmula para datos no
agrupados) está dada por la suma de todos los valores y dividiendo entre la cantidad de
elementos, es decir:
x
15,2 18,6 12,6 ... 12,9 14,53 años
15
Para visualizar lo que indica este resultado, considere la representación de los
datos en una línea recta.
(2) Del ejemplo utilizado al comienzo de la unidad 4, sobre el investigador que deseaba
determinar cómo variaban las estaturas de las obreras de una empresa y el cual tomaba
una muestra de 50 mujeres para registrar luego sus estaturas en pulgadas, se había
obtenido la tabla de distribución de frecuencia, calcular la media aritmética para el
conjunto de datos.
Estadística I 21
Para calcular la media debemos agregar una nueva columna a la tabla, donde se
establecerá el producto de xi * fi, es decir, el producto de la marca de clase por su
respectiva frecuencia absoluta:
li - li+1 fi xi hi %hi Fi Hi %Hi xi * fi
Σ = 50 Σ = 3184
Ejemplo: Si un examen final de curso se valora como 3 veces los exámenes parciales y
un estudiante tiene una nota de examen final de 85 y notas de exámenes parciales de 70
y 90, calcular su nota final.
Solución: note que para este caso el peso de los exámenes parciales es de 1 y el del
examen final 3, por lo tanto para calcular la nota final debemos usar la media aritmética
ponderada. Al aplicar la fórmula obtenemos:
1 * 70 1 * 90 3 * 85
xw 83 puntos.
11 3
La nota final será de 83 puntos.
1.3 Mediana.
Según Lind, Marchal y Mason (2004) es el valor que corresponde al punto
medio de un conjunto de datos, representando el elemento más central en dicho
conjunto, por lo que deja por encima y por debajo la misma cantidad de datos (una vez
que estos han sido ordenados). Geométricamente es el valor de “x” que corresponde a la
vertical que divide al histograma en dos partes de igual área.
Notación: Med
Fórmulas:
Datos no agrupados Datos agrupados
(2) Sean los números: 7, 5, 5, 9, 15, 18, 11, 12. Determinar la mediana:
Estamos trabajando con datos no agrupados, por lo tanto, seguimos los pasos expuestos
anteriormente
1. Organizamos los datos de manera ascendente: 5, 5, 7, 9, 11, 12, 15, 18
2. Utilizamos la fórmula de posicionamiento de punto y sustituimos los valores:
8 1
4,5
2
Como no hay la posición 4,5 ; entonces determinamos el promedio aritmético de
los dos que se hallan en la mitad, en este caso, los valores que ocupan la posición cuatro
9 11
y la posición cinco: 10 . La mediana entonces será igual a 10.
2
(3) Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban las
estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres
para registrar luego sus estaturas en pulgadas, se había obtenido la tabla de distribución
de frecuencia, determinar el valor de la mediana:
Como los datos están agrupados, procedemos a seguir los pasos dados al
comienzo de este apartado:
n 50
Paso 1: cálculo de 25
2 2
Paso 2: localizar ese valor en Fi, si no está, pasar al inmediato superior. Como 25
no aparece en Fi, pasamos al inmediato superior: 31.
Paso 3: aplicar la fórmula sustituyendo los valores correspondientes. Al
identificar a los elementos tenemos: li es 62; fmed es 12, Fa es 16 y la amplitud es 3.
25 16
Med 62 * 3 63,8 pulgadas
15
Interpretación: El 50% de las obreras tienen una estatura igual o inferior a 63,8
pulgadas aproximadamente.
1.4 Moda
Es el valor de los datos que se presenta con más frecuencia, es decir, el que más
se repite en un conjunto de datos; por lo que representa el punto más alto en la curva de
distribución de un conjunto de datos.
Notación: Mo
Fórmulas:
Datos no agrupados Datos agrupados
Ejemplos:
(1) Hallar la moda de los números: 3, 5, 2, 5, 9, 5, 2, 8, 6.
Como la moda se definió como el elemento que más se repite, en este caso el 5 sería la
moda ya que es el que mayor frecuencia presenta.
(2) Del ejemplo inicial (ver unidad 4) sobre el investigador que deseaba determinar
cómo variaban las estaturas de las obreras de una empresa y el cual tomaba una muestra
de 50 mujeres para registrar luego sus estaturas en pulgadas, se había obtenido la tabla
de distribución de frecuencia, determinar el valor de la moda:
Como los datos están agrupados, procedemos a seguir los pasos datos
estipulados al comienzo de este apartado:
1. Determinar la clase donde se encuentra la mayor frecuencia absoluta (f i): en este caso
se encuentra en la cuarta clase
2. Sustituimos los valores en la fórmula, identificando a los elementos: a = 3 ; l i = 62 ;
∆1 = 15 – 9 ; ∆2 = 15 – 12. Al sustituir los valores, tenemos:
15 9
Mo 62 * 3 64 pulgadas.
15 9 15 12
Estadística I 26
(1) Determinar el P50 y el P85 de los datos siguientes: 2350, 2450, 2550, 2380, 2255,
2210, 2390, 2630, 2440, 2825, 2420, 2380.
Lo primero es ordenar de manera ascendente los datos:
2210, 2255, 2350, 2380, 2380, 2390, 2420, 2440, 2450, 2550, 2630, 2825.
Para determinar el P50:
12 * 50
Calculamos “i”: i = 6
100
Como “i” es entero, el P50 es el promedio de los valores que ocupan los lugares “i” e “i
+ 1” en este caso serían los lugares 6° y 7°, luego nos daría:
2390 2420
P50 2405
2
Para determinar el P85:
12 * 85
Calculamos “i”: i = 10,2
100
Como “i” es decimal buscamos el mayor entero al valor de “i”, en este caso sería 11.
Este número nos indica que debemos buscar el valor que ocupa la posición 11 en
nuestro conjunto de datos. Al llevar a cabo esto, obtenemos que P85 = 2630
(2) Del ejemplo inicial (ver unidad 4) sobre el investigador que deseaba determinar
cómo variaban las estaturas de las obreras de una empresa y el cual tomaba una muestra
de 50 mujeres para registrar luego sus estaturas en pulgadas, se obtuvo la tabla de
distribución de frecuencia; a partir de esa tabla, determinar: P15 ; Q1 ; D3
Para resolver esto, seguiremos los pasos planteados para el cálculo de percentiles
para datos agrupados:
Determinación de P15:
n * p 50 *15
1. Cálculo de 7,5
100 100
2. Se busca ese valor en Fi , como no está, pasamos al inmediato superior. En este
caso, es 16.
Estadística I 28
67 65 *12 31
3. Aplicamos la fórmula: 3
p *100 78%
50
Interpretación: el 78% de las obreras tienen estaturas iguales o inferiores a 67
pulgadas.
3. Medidas de dispersión.
Mientras los estadísticos de tendencia central nos indican los valores alrededor
de los cuales se sitúan un grupo de observaciones, los estadísticos de variabilidad o
dispersión muestran si los valores de las observaciones están próximos entre sí o están
muy separados.
Levin y otros (2004) plantean que dos conjuntos de datos pueden tener la misma
localización central y no obstante, ser muy distintos si uno se halla más disperso que el
otro. Veamos el siguiente ejemplo tomado de Anderson y otros (1999): supongamos que
usted es un agente de compras de una importante empresa manufacturera y con
regularidad coloca pedidos con dos proveedores distintos, ambos le indican que
necesitan alrededor de 10 días hábiles para surtir sus pedidos. Después de varios meses
de trabajar así, encuentra usted que el promedio de días necesarios para surtir los
pedidos es, realmente, unos 10 para cada proveedor. Los gráficos que resumen la
cantidad de días hábiles requeridos para surtir los pedidos son los siguientes:
3.1 Dispersión
Estadística I 30
A través del rango intercuartil podemos ver (aproximadamente) qué tan lejos de
la mediana tenemos que ir en cualquiera de las dos direcciones antes de que podamos
recorrer una mitad de los valores del conjunto de datos. Para los efectos de la situación
que se ha mantenido como ejemplo (el de las estaturas de las obreras), el rango
intercuartil es:
Q3 - Q1 = (66,63 – 60,83) pulgadas = 5,80 pulgadas.
3.2.4 Varianza.
Es la medida del cuadrado de la distancia promedio entre la media y cada
elemento de la población.
Notación:
σ2 cuando sea para una población.
s2 cuando sea para una muestra.
Fórmulas:
Datos no agrupados Datos agrupados
N g
xi μ 2 xi μ 2
*f
i
2 i1 σ 2 i1
σ
N N
g
xi x xi x
n 2 2
2
2
i1
*f
i
S i1 S
n -1 n -1
(1) Considere que se tiene una muestra con los siguientes valores: 5, 8, 7, 10, 15.
Determine la varianza para este grupo de datos:
Lo primero es determinar el valor de la media de la muestra, como los datos no están
agrupados, utilizamos la expresión:
5 8 7 10 15
x 9
5
Una vez determinada la media, aplicamos la fórmula para el cálculo de la
varianza para datos no agrupados:
(5 9) 2 (8 9) 2 ... (15 9) 2
s2 14,5
5 1
2) Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban las
estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres
para registrar luego sus estaturas en pulgadas, se había obtenido la tablade distribución
de frecuencia.
Para calcular la varianza agregamos una nueva columna:
Σ = 871,38
Como se está calculando la varianza de una muestra, la fórmula a utilizar será:
g
i 1 x i x
2
* f
2 i
S
n -1
Al ver la fórmula, el numerador corresponde al valor obtenido al realizar la
sumatoria de los números correspondientes a la última columna de la tabla, por lo que:
871,38
s2= =17,7833 pulg 2
49
Algunas propiedades de la varianza:
La varianza de una constante es cero.
Estadística I 33
N g
xi μ 2
xi μ 2
*f
i
i1 i1
σ σ
N N
g
xi x xi x
n 2 2
i1
i1
*f
i
S S
n -1 n -1
CV * 100% para la población
Observaciones:
El CV es un estadístico útil para comparar la dispersión de conjuntos de datos
que tienen distintas desviaciones estándar y distintos promedios.
El CV es un estadístico útil para comparar la dispersión de conjuntos de datos
que tienen distintas unidades.
El CV pierde su utilidad cuando la media se aproxima a cero.
Para los efectos de la situación que se ha mantenido como ejemplo (el de las
estaturas de las obreras), se había calculado previamente la desviación típica (4,2170
4,22
pulgadas.) y la media (63,68 pulg.). Luego CV = 63,68 *100% 6,62%
Interpretación: la desviación típica de la muestra es el 6,62% del valor de la
media de la muestra.
Estadística I 35
Curvas asimétricas: son aquellas curvas en las cuales al trazar una línea
vertical desde su cumbre al eje horizontal, no se divide su área en dos partes
iguales y pueden ser:
Asimetría positiva (sesgo a la derecha): es una curva que disminuye
gradualmente hacia el extremo superior de la escala. Gráficamente:
De acuerdo con Levin, Rubin, Balderas, Del Valle y Gómez (2004), un ejemplo
de esto podría ser representar la distribución de frecuencias del número de días
que un producto se encuentra en existencia en un negocio de venta de fruta al
mayoreo. La curva estaría sesgada a la derecha, con muchos valores en el
extremo izquierdo y pocos en el extremo derecho, debido a que el inventario
debe agotarse rápidamente.
Estadística I 36
De acuerdo con Levin y otros (2004), un ejemplo de esto podría ser representar
la distribución de frecuencias del número de días que requiere un agente de
bienes raíces para vender una casa. La curva estaría sesgada a la izquierda, con
muchos valores en el extremo derecho y pocos en el extremo izquierdo, debido a
que el inventario de casas se coloca muy lentamente.
3 x Med
SK
s
Coeficiente de curtosis.
Es la medida que nos da una idea acerca del achatamiento o levantamiento de la
curva en relación con la normal.
Notación: K
Para determinar la curtosis de manera empírica, se establece el porcentaje de
valores que se encuentran en el intervalo x s para considerar lo siguiente:
Si el resultado es menor a 68%, es platicúrica
Si el resultado es aproximadamente igual a 68%, es mesocúrtica
Si el resultado es mayor a 68%, es leptocúrtica
Del ejemplo inicial sobre el investigador que deseaba determinar cómo variaban
las estaturas de las obreras de una empresa y el cual tomaba una muestra de 50 mujeres
para registrar luego sus estaturas en pulgadas, se había obtenido: x 63,68 pulgadas y
s = 4,22 pulgadas. Al calcular el porcentaje (con el rango percentil) para el intervalo
x s se obtuvo 68,44%, por lo que la distribución es aproximadamente mesocúrtica.
Una de las ventajas del boxplot consiste en que permite comparar a la vez varios
grupos de datos, sin perder información ni saturarse de ella.
Con respecto a la interpretación del boxplot , la profesora Neyra Peña
recomienda tomar en cuenta las siguientes consideraciones:
Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.
La distancia entre las cinco medidas descritas en el boxplot puede variar, sin
embargo, recuerde que la cantidad de elementos entre una y otra es
aproximadamente la misma. Entre el límite inferior y Q1 hay aproximadamente
igual cantidad de elementos que de Q1 a la mediana, de ésta a Q3 y de Q3 al
límite superior. Se considera aproximado porque pudiera haber valores atípicos,
en cuyo caso la cantidad de elementos se ve levemente modificada.
La línea que representa la mediana indica la simetría. Si está relativamente en el
centro de la caja la distribución es simétrica. Si por el contrario se acerca al
primer o tercer cuartil, la distribución pudiera ser sesgada a la derecha
(asimétrica positiva) o sesgada a la izquierda (asimétrica negativa)
respectivamente. Esto suele suceder cuando los datos tienden a concentrase más
hacia un punto de la escala.
También algunos autores recomiendan considerar visualmente que: en
distribuciones con sesgo a la derecha, la distancia de Q 3 a Xmáximo excede la
distancia de Xmínimo a Q1; y en distribuciones con sesgo a la izquierda, la distancia
de Xmínimo a Q1 excede la distancia de Q3 a Xmáximo.
La mediana puede inclusive coincidir con los cuartiles o con los límites de los
bigotes. Esto sucede cuando se concentran muchos datos en un mismo punto,
pudiera ser este un caso particular de una distribución sesgada o el caso de una
distribución muy homogénea.
Debe estar atento al tamaño de la muestra. Lo que pareciera ser dispersión en los
resultados, en ocasiones podría deberse a un tamaño de muestra muy pequeño,
por lo que debe ser cauteloso a la hora de interpretar. En estos casos se sugiere
remitirse al reporte numérico.
Para ilustrar las ideas con respecto al boxplot, consideremos la siguiente
situación:
En un estudio para determinar el consumo de gasolina, se probaron 13 vehículos
durante 300 kilómetros, en condiciones de tránsito tanto en la ciudad como en el campo;
de lo anterior se obtuvieron los siguientes datos del consumo de la gasolina en litros:
Ciudad: 16,2 16,7 15,9 14,4 13,2 15,3 16,8 16,0 16,1 15,3 15,2 15,3 16,2
Campo: 19,4 20,6 18,3 18,6 19,2 17,4 17,2 18,6 19,0 21,1 19,4 18,5 18,7
Realice un análisis descriptivo de los datos que incluya un gráfico y las medidas
descriptivas adecuadas para determinar el consumo de gasolina comparando entre la
ciudad y el campo.
Estadística I 40
Solución:
En este caso lo más apropiado para realizar el análisis es construir un boxplot
para cada conjunto de datos, ya que el mismo nos permite visualizar en un solo dibujo
una serie de medidas descriptivas básicas para describir el comportamiento de los
mismos. Es importante destacar que las unidades de medición de los grupos deben ser
las mismas para poder efectuar las comparaciones.
Antes de poder construir el boxplot se debe:
Ordenar los valores de menor a mayor en cada grupo de datos.
Ciudad: 13,2 14,4 15,2 15,3 15,3 15,3 15,9 16,0 16,1 16,2 16,2 16,7 16,8
Campo: 17,2 17,4 18,3 18,5 18,6 18,6 18,7 19,0 19,2 19,4 19,4 20,6 21,1
RI = Q3 - Q1 0,9 0,9
Una vez completada la etapa previa, para realizar la construcción del gráfico se
debe escoger una escala adecuada, la cual dependerá del espacio con el cual se cuente.
Gráficamente (generado por medio de un programa estadístico), los boxplot tendrían la
siguiente forma:
Estadística I 41