Вы находитесь на странице: 1из 16

Unidad II Funciones estadísticas básicas para datos no agrupados

II. Funciones Estadísticas Básicas para Datos no Agrupados.

Estadística

Podemos usar una serie de números conocidos como estadística sumaria para describir
las características del conjunto de datos. Dos de estas características son de particular impor-
tancia para los responsables de tomar decisiones: la de tendencia central y la de dispersión.

Tendencia central: la tendencia central se refiere al punto medio de una distribución.


Las medidas de tendencia central se conocen como medidas de posición.

Dispersión: se refiere a la extensión de los datos en una distribución, es decir, al gra-


do en que las observaciones se distribuyen.

2.1. La media aritmética.

Cuando nos referimos al "promedio" de algo, estamos hablando de la media aritméti-


ca.

Para encontrar la media aritmética, sumamos los valores y el resultado lo dividimos


entre el número de observaciones.

Símbolos convencionales. x

Una muestra de una población consiste en n observaciones, con una media de


(léase equis testada). Las medidas que calculamos para una muestra se conocen como esta-
dística.

La notación es diferente cuando calculamos medidas para la población entera, es de-


cir, para el grupo que contiene a todos los elementos que estamos describiendo. La media de
una población se simboliza con µ (letra griega mi). El número de elementos de una población
se denota con la letra mayúscula cursiva N. Por lo general, en estadística utilizamos letras del
alfabeto latino para simbolizar la información sobre las muestras y letras del griego para refe-
rirnos a la información sobre poblaciones.

Por: L.A. Carlos A. Rodríguez Garza ® 20


Unidad II Funciones estadísticas básicas para datos no agrupados

Cálculo de la media a partir de datos no agrupados.

Media de la población:

µ = ∑x / N

Media de la Muestra:

= ∑x / n

Para calcular esta media, sumamos todas las observaciones. Los estadísticos se refie-
ren a este tipo de datos como datos no agrupados.

Ventajas y desventajas de la media aritmética.

La media aritmética, en su carácter de un sólo número que representa a un conjunto


de datos completo, tiene importantes ventajas:

1. Se trata de un concepto familiar para la mayoría de las personas y es in-


tuitivamente claro.

2. Cada conjunto de datos tiene una media, es una medida que puede cal-
cularse y es única debido a que cada conjunto de datos posee una y sólo
una media.

3. Es útil para llevar a cabo procedimientos estadísticos como la compara-


ción de medias de varios conjuntos de datos.

Desventajas:

Puede verse afectada por valores extremos que no son representativos del resto de
los datos.

1. Resulta tedioso calcular la media debido a que utilizamos cada uno de los
puntos de dato de nuestro cálculo.

Por: L.A. Carlos A. Rodríguez Garza ® 21


Unidad II Funciones estadísticas básicas para datos no agrupados

2. Somos incapaces de calcular la media para un conjunto de datos que tie-


ne clases de extremo abierto, ya sea en el inferior o en el superior de la
escala.

SUGERENCIA:

La media aritmética, a menudo, puede mal interpretarse si los datos no entran en un


grupo homogéneo.

En Excel

PROMEDIO

Devuelve el promedio (media aritmética) de los argumentos.

Sintaxis

PROMEDIO(número1;número2;...)

Número1, número2, ... son entre 1 y 30 argumentos numéricos cuyo promedio desea obte-
ner.

Observaciones

• Los argumentos deben ser números o nombres, matrices o referencias que contengan
números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas vací-
as, estos valores se pasan por alto; sin embargo, se incluirán las celdas con el valor
cero.

Por: L.A. Carlos A. Rodríguez Garza ® 22


Unidad II Funciones estadísticas básicas para datos no agrupados

2.2. La mediana.

La mediana es un sólo valor calculado a partir del conjunto de datos que mide la ob-
servación central de éstos. Esta sola observación es la más central o la que está más en me-
dio en el conjunto de números. La mitad de los elementos están por encima de este punto y
la otra mitad está por debajo.

Cálculo de la mediana a partir de datos no agrupados:

Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en or-
den descendente o ascendente. Si el conjunto de datos contiene un número impar de ele-
mentos, el de en medio en el arreglo es la mediana. Si hay un número par de observaciones,
la mediana es el promedio de los dos elementos de en medio.

Mediana = (n + 1) / 2

Ventajas y desventajas de la mediana:

Los valores extremos no afectan a la mediana tan intensamente como a la media. La


mediana es fácil de entender y se puede calcular a partir de cualquier tipo de datos – incluso
a partir de datos agrupados con clases de extremo abierto – a menos que la mediana entre
en una clase de extremo abierto.

Podemos encontrar la mediana incluso cuando nuestros datos son descripciones cuali-
tativas, en lugar de números.

Ciertos procedimientos estadísticos que utilizan la mediana son más complejos que
aquellos que utilizan la media. Debido a que la mediana es una posición promedio, debemos
ordenar los datos antes de llevar a cabo cualquier cálculo. Esto implica consumo de tiempo
para cualquier conjunto de datos que contenga un gran número de elementos. Por consi-
guiente, si deseamos utilizar una estadística de muestra para estimar un parámetro de pobla-
ción, la media es más fácil de usar que la mediana.

Por: L.A. Carlos A. Rodríguez Garza ® 23


Unidad II Funciones estadísticas básicas para datos no agrupados

EN EXCEL

MEDIANA

Devuelve la mediana de los números. La mediana es el número que se encuentra en medio


de un conjunto de números, es decir, la mitad de los números es mayor que la mediana y la
otra mitad es menor.

Sintaxis

MEDIANA(número1;número2; ...)

Número1, número2, ... son entre 1 y 30 números cuya mediana desea obtener.

Observaciones

• Los argumentos deben ser números o nombres, matrices o referencias que contengan
números. Microsoft Excel examina todos los números en cada argumento matricial o
de referencia.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas vací-
as, estos valores se pasan por alto; sin embargo, se incluirán las celdas con el valor
cero.
• Si la cantidad de números en el conjunto es par, MEDIANA calcula el promedio de los
números centrales. Vea la segunda fórmula del ejemplo.

2.3. La moda.

La moda es una medida de tendencia central diferente de la media, pero un tanto pa-
recida a la mediana, pues en realidad no se calcula mediante algún proceso aritmético ordina-
rio. La moda es aquel valor que más se repite en el conjunto de datos.

Por: L.A. Carlos A. Rodríguez Garza ® 24


Unidad II Funciones estadísticas básicas para datos no agrupados

En ocasiones, el azar hace que un sólo elemento no representativo se repita lo sufi-


ciente para ser el valor más frecuente del conjunto de datos. Es por esta razón que rara vez
utilizamos la moda de un conjunto de datos no agrupados como medida de tendencia central.

Por esta razón, siempre que utilizamos la moda como medida de tendencia central de
un conjunto de datos, debemos calcular la moda de datos agrupados (buscar la clase modal).

Ventajas y desventajas de la moda:

La moda, al igual que la mediana, se puede utilizar como una posición central para
datos tanto cualitativos como cuantitativos.

También, al igual que la mediana, la moda no se ve mayormente afectada por los va-
lores extremos. Incluso si los valores extremos son muy altos o muy bajos, nosotros escoge-
mos el valor más frecuente del conjunto de datos como el valor modal. Podemos utilizar la
moda sin importar qué tan grandes o qué tan pequeños sean los valores del conjunto de da-
tos, e independientemente de cuál sea su dispersión.

La podemos utilizar aun cuando una o más clases sean de extremo abierto.

Muy a menudo, no existe un valor modal debido a que el conjunto de datos no con-
tiene valores que se presenten más de una vez. En otras ocasiones, cada valor es la moda,
pues cada uno de ellos se presenta el mismo número de veces. Otra desventaja consiste en
que cuando los datos contienen dos, tres o más modas, resultan difíciles de interpretar y
comparar.

EN EXCEL

MODA

Devuelve el valor que se repite con más frecuencia en una matriz o rango de datos. Al igual
que MEDIANA, MODA es una medida de posición.

Sintaxis

MODA(número1;número2; ...)

Por: L.A. Carlos A. Rodríguez Garza ® 25


Unidad II Funciones estadísticas básicas para datos no agrupados

Número1, número2, ... son de 1 a 30 argumentos cuya moda desea calcular. También pue-
de utilizar una matriz única o una referencia matricial en lugar de argumentos separados con
punto y coma.

Observaciones

• Los argumentos deben ser números, nombres, matrices o referencias que contengan
números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas vací-
as, estos valores se pasan por alto; sin embargo, se incluirán las celdas con el valor
cero.
• Si el conjunto de datos no contiene puntos de datos duplicados, MODA devuelve el va-
lor de error #N/A.

En un conjunto de valores, la moda es el valor que se repite con mayor frecuencia; la media-
na es el valor central y la media es el valor promedio. Ninguna de estas medidas de la ten-
dencia central tomada individualmente proporciona una imagen completa de los datos. Su-
pongamos que los datos están agrupados en tres áreas, la mitad de las cuales es un valor
bajo que se repite y la otra mitad consiste en dos valores elevados. Tanto PROMEDIO como
MEDIANA devolverán un valor situado en una zona central relativamente vacía, y MODA de-
volverá el valor bajo dominante.

Comparación entre la media, la mediana y la moda.

Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar la


media, la mediana o la moda como medidas de tendencia central. Las distribuciones simétri-
cas que sólo contienen una moda, siempre tienen el mismo valor para la media, la mediana y
la moda. En tales casos, no es necesario escoger la medida de tendencia central, pues ya
está hecha la selección.

Por: L.A. Carlos A. Rodríguez Garza ® 26


Unidad II Funciones estadísticas básicas para datos no agrupados

En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la


moda todavía se encuentra en el punto más alto de la distribución, la mediana está hacia la
derecha de la moda y la media se encuentra todavía más a la derecha de la moda y la me-
diana.

En una distribución negativamente sesgada, la moda sigue siendo el punto más alto
de la distribución, la mediana está hacia la izquierda de ella y la media se encuentra todavía
más a la izquierda de la moda y la mediana.

Cuando la población está sesgada negativa o positivamente, con frecuencia la media-


na resulta ser la mejor medida de posición, debido a que siempre está entre la moda y la
media. La mediana no se ve altamente influida por la frecuencia de aparición de un solo valor
como es el caso de la moda, ni se distorsiona con la presencia de valores extremos como la
media.

SUGERENCIA

La selección de la media, la mediana o la moda, en ocasiones, depende de la práctica


común de una industria en particular (salario medio de los obreros, precio mediano de una
casa, familia modal para el diseño de automóviles).

Medidas de desviación promedio.

Las descripciones más comprensivas de la dispersión son aquellas que tratan con la
desviación promedio con respecto a alguna medida de tendencia central. Dos de tales medi-
das son la varianza y la desviación estándar. Ambas medidas nos dan una distancia promedio
de cualquier observación del conjunto de datos con respecto a la media de la distribución.

2.4. Varianza de la población.

2
Cada población tiene una varianza, que se simboliza con σ (sigma cuadrada). Para
calcular la varianza de una población, dividimos la suma de las distancias al cuadrado entre la
media y cada elemento de la población entre el número total de observaciones de dicha po-
blación.

Por: L.A. Carlos A. Rodríguez Garza ® 27


Unidad II Funciones estadísticas básicas para datos no agrupados

σ 2 = ∑ (x - µ )2 / N

σ 2 = varianza de la población.

x = elemento u observación.

µ = media de la población.

N = número total de elementos de la población.

Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas uni-
dades no son intuitivamente claras o fáciles de interpretar. Por esta razón, tenemos que
hacer un cambio significativo en la varianza para calcular una medida útil de la desviación,
que sea menos confusa. Esta medida se conoce como la desviación estándar, y es la raíz
cuadrada de la varianza. La desviación estándar, entonces, está en las mismas unidades que
los datos originales.

EN EXCEL

VARP

Calcula la varianza en función de toda la población.

Sintaxis

VARP(número1;número2; ...)

Número1, número2, ... son de 1 a 30 argumentos numéricos correspondientes a una pobla-


ción.

Observaciones

• VARP parte de la hipótesis de que los argumentos representan la población total. Si


sus datos representan una muestra de la población, utilice VAR para calcular la varian-
za.
• Se pasan por alto los valores lógicos como VERDADERO y FALSO y el texto. Si los valo-
res lógicos y el texto no se deben pasar por alto, utilice la función de hoja de cálculo
VARPA.

Por: L.A. Carlos A. Rodríguez Garza ® 28


Unidad II Funciones estadísticas básicas para datos no agrupados

2.5. Desviación estándar de la población.

La desviación estándar de la población, o σ, es simplemente la raíz cuadrada de la va-


rianza de la población. Como la varianza es el promedio de las distancias al cuadrado que van
desde las observaciones a la media, la desviación estándar es la raíz cuadrada del promedio
de las distancias al cuadrado que van desde las observaciones a la media. La desviación es-
tándar está en las mismas unidades que las que se usaron para medir los datos.

La raíz cuadrada de un número positivo puede ser tanto positiva como negativa.
Cuando tomamos la raíz cuadrada de la varianza para calcular la desviación estándar, los es-
tadísticos solamente consideran la raíz cuadrada positiva.

Para calcular la varianza o la desviación estándar, construimos una tabla utilizando to-
dos los elementos de la población.

EN EXCEL

DESVESTP

Calcula la desviación estándar de la población total determinada por los argumentos. La des-
viación estándar es la medida de la dispersión de los valores respecto a la media (valor pro-
medio).

Sintaxis

DESVESTP(número1; número2; ...)

Por: L.A. Carlos A. Rodríguez Garza ® 29


Unidad II Funciones estadísticas básicas para datos no agrupados

Número1, número2, ... son de 1 a 30 argumentos numéricos correspondientes a una pobla-


ción. También puede utilizar una matriz única o una referencia matricial en lugar de argu-
mentos separados con punto y coma.

• Se pasan por alto los valores lógicos, como VERDADERO y FALSO, y de texto. Si los
valores lógicos y el texto no se deben pasar por alto, utilice la función de hoja de cál-
culo DESVESTA.

Observaciones

• DESVESTP parte de la hipótesis de que los argumentos representan la población total.


Si sus datos representan una muestra de la población, utilice DESVESTP para calcular
la desviación estándar.
• Cuando el tamaño de las muestras es importante, las funciones DESVEST y DESVESTP
devuelven aproximadamente el mismo valor.

Usos de la desviación estándar.

La desviación estándar nos permite determinar, con un buen grado de precisión, dón-
de están localizados los valores de una distribución de frecuencias con relación a la media. El
teorema de Chebyshev dice que no importa qué forma tenga la distribución, al menos 75%
de los valores caen dentro de + 2 desviaciones estándar a partir de la media de la distribu-
ción, y al menos 89% de los valores caen dentro de + 3 desviaciones estándar a partir de la
media.

Con más precisión:

• Aproximadamente 68% de los valores de la población cae dentro de + 1 desviación


estándar a partir de la media.

Por: L.A. Carlos A. Rodríguez Garza ® 30


Unidad II Funciones estadísticas básicas para datos no agrupados

• Aproximadamente 95% de los valores estará dentro de + 2 desviaciones estándar


a partir de la media.

• Aproximadamente 99% de los valores estará en el intervalo que va desde tres des-
viaciones estándar por debajo de la media hasta tres desviaciones estándar por
arriba de la media.

SUGERENCIAS

Las letras griegas siempre se refieren a parámetros de la población y las letras latinas
se refieren a estadísticas de la muestra.

Recordar utilizar N como denominador cuando se calcula la desviación estándar de la


población, pero n – 1 para calcular la desviación estándar de la muestra.

EN EXCEL

VAR

Calcula la varianza en función de una muestra.

Sintaxis

VAR(número1;número2; ...)

Número1, número2, ... son de 1 a 30 argumentos numéricos correspondientes a una mues-


tra de una población.

Observaciones

• La función VAR parte de la hipótesis de que los argumentos representan una muestra
de la población. Si sus datos representan la población total, utilice VARP para calcular
la varianza.
• Se pasan por alto los valores lógicos, como VERDADERO y FALSO, y el texto. Si los va-
lores lógicos y el texto no se deben pasar por alto, utilice la función de hoja de cálculo
VARA.

Por: L.A. Carlos A. Rodríguez Garza ® 31


Unidad II Funciones estadísticas básicas para datos no agrupados

DESVEST

Calcula la desviación estándar en función de un ejemplo. La desviación estándar es la medida


de la dispersión de los valores respecto a la media (valor promedio).

Sintaxis

DESVEST(número1; número2; ...)

Número1, número2, ... son de 1 a 30 argumentos numéricos correspondientes a una mues-


tra de una población. También puede utilizar una matriz única o una referencia matricial en
lugar de argumentos separados con punto y coma.

Observaciones

• DESVEST parte de la hipótesis de que los argumentos representan la muestra de una


población. Si sus datos representan la población total, utilice DESVESTP para calcular
la desviación estándar.
• La desviación estándar se calcula utilizando los métodos "no sesgada" o "n-1".
• DESVEST utiliza la fórmula siguiente:

Por: L.A. Carlos A. Rodríguez Garza ® 32


Unidad II Funciones estadísticas básicas para datos no agrupados

2.6 Media Geométrica

Útil para encontrar el promedio de porcentajes, razones, índices o tasas de crecimien-


to. Se utiliza ampliamente en los negocios y la economía porque frecuentemente interesa en-
contrar el cambio porcentual en ventas, sueldos o cifras económicas, como el Producto Na-
cional Bruto.

Siempre será menor o igual a (nunca mayor que) la media aritmética. Todos los valo-
res de datos deben ser positivos

Propiedades

• Es única

• Utiliza todos los elementos

• Sólo se puede calcular con variables cuantitativas positivas

• Su logaritmo es la media aritmética de la variable log X

• Es el centro de gravedad de la distribución en términos multiplicativos

• Es más robusta que la media a valores grandes pero no a los pequeños y siem-
pre toma valores más pequeños que la media aritmética

• No es invariante por cambios de origen y escala


Nota: Ver la diferencia entre el resultado de la varianza y la desviación estándar de la población y el de la
muestra.

Por: L.A. Carlos A. Rodríguez Garza ® 33


Unidad II Funciones estadísticas básicas para datos no agrupados

• Es útil para promediar tasas, porcentajes, tipos de interés y, en general, en to-


das aquellas situaciones en las que la variable analizada presente variaciones
acumulativas

• Se toman en cuenta todos los valores de la variable

• Es afectada por valores extremos aunque en menor medida que la media arit-
mética.

• La media geométrica de un número y su recíproco será siempre igual a uno.

• No puede ser calculada en distribuciones con clase abiertas.

• Una segunda aplicación de la media geométrica es encontrar un aumento por-


centual promedio en un intervalo de tiempo

EN EXCEL

MEDIA.GEOM

Devuelve la media geométrica de una matriz o de un rango de datos positivos. Por ejemplo,
es posible utilizar la función MEDIA.GEOM para calcular la tasa de crecimiento promedio, da-
do un interés compuesto por tasas variables.

Sintaxis

MEDIA.GEOM(número1;número2; ...)

Número1, número2, ... son de 1 a 30 argumentos cuya media desea calcular. También pue-
de utilizar una matriz única o una referencia matricial en lugar de argumentos separados con
punto y coma.

Observaciones

• Los argumentos deben ser números o nombres, matrices o referencias que contengan
números.
• Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas vací-
as, estos valores se pasan por alto; sin embargo, se incluirán las celdas con el valor
cero.

Por: L.A. Carlos A. Rodríguez Garza ® 34


Unidad II Funciones estadísticas básicas para datos no agrupados

• Si uno de los puntos de datos ≤ 0, MEDIA.GEOM devuelve el valor de error #¡NUM!

Por: L.A. Carlos A. Rodríguez Garza ® 35