Вы находитесь на странице: 1из 11

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIN EN

DISTRIBUCIONES DE FRECUENCIAS

3.1 estadstica sumaria


Podemos usar los nmeros que constituyen

la estadstica sumaria para

describir las caractersticas de datos. Dos de estas caractersticas son en


particular importancia para los responsables de tomar decisiones: la tendencia
central y la dispersin.
Tendencia central: Se refiere al punto medio de una distribucin.
Dispersin: La dispersin se refiere a la separacin de los datos en una
distribucin.
Existen otras dos caractersticas de los conjuntos de datos que proporciona
informacin til:
Sesgo y los curtosis.
Sesgo: Las curvas que presentan los valores puntuales de un conjunto de
datos pueden ser simtricas o segadas. Las curvas simtricas tienen una
forma tal que una lnea vertical que pase por el punto ms alto de la curva
dividir su rea en dos partes iguales. Cada parte es una imagen de espejo
de la otra.
Curtosis: cuando medimos la curtosis de una distribucin, estamos midiendo
que tan puntiaguda es. Tienen la misma posicin central y la misma dispersin
y ambas son simtricas.

3.2 una media de tendencia central: la media aritmtica


Casi siembre cuando nos referimos al promedio de algo estamos hablando de
la media aritmtica. Para encontrar la media aritmtica sumamos los valores y
dividimos el resultado entre el nmero de observaciones.
Smbolos convencionales
Para escribir ecuaciones de este tipo de medidas de las distribuciones de
frecuencias necesitamos aprender la notacin matemtica que utilizan los
especialistas en estadstica.

Una muestra de

una poblacin

consiste en

observaciones con n minscula con una media de

x (x

barra).recuerde que las medidas calculadas para una muestra se conocen


como estadsticos. La notacin es diferente cuando calculamos medidas para
la poblacin entera, es decir, para el grupo que contiene a todos los elementos
que estamos describiendo. La media de una poblacin se simboliza con u,
que es la letra griega mu. El nmero de elementos de una poblacin se denota
con la letra mayscula cursiva n. por lo general, en estadstica se usan letras
del alfabeto latino para simbolizar la informacin de la muestra y letras griegas
para referirnos a la informacin de las poblaciones.
Calculo de la media a partir de datos no agrupados
Los especialistas en estadsticas se refieren a este tipo de datos no agrupados.
Los calculaos no fueron difciles, era pequeo. Una distribucin de frecuencias
consta de datos agrupados en clases. Cada valor de una observacin cae
dentro de alguna de las clases. Para encontrar la media aritmtica de datos
agrupados, primero calculamos el punto medio de cada clase. Para lograr que
los puntos medios queden en cifras cerradas redondeamos la cantidad.
Despus multiplicamos cada punto medio por la frecuencia de las
observaciones de dicha clase, sumamos todos los resultados y dividimos esta
suma entre el nmero total de observaciones de la muestra. Nuestro resultado
entonces es solo la aproximacin del promedio del saldo mensual real.
Codificacin
En aquellas situaciones en que no se tenga disponible una computadora y sea
necesario realizar las operaciones aritmticas a mano, podemos simplificar an
ms nuestro clculo de la media de datos agrupados. Mediante una tcnica
conocida como codificacin, podemos eliminar el problema de tener puntos
medios muy grandes o inconvenientes. En lugar de utilizar los puntos medios
reales en los clculos podemos asignar enteros consecutivos de valor pequeo
llamados cdigos a cada uno de los puntos medios. El entero cero puede
asignarse a cualquier punto medio pero para que los enteros sean pequeos
asignaremos el cero al punto medio de la mitad de la distribucin o el ms
cercano a la mitad entonces podemos asignar enteros negativos o valores
menores que ese punto medio y enteros positivos a los valores ms grandes.

Ventajas y desventajas de la media aritmtica


La media aritmtica como un solo nmero que representa a un conjunto de
datos completo tiene importantes ventajas. Primero, se trata de un concepto
familiar para la mayora de las personas y es intuitivamente claro. Segundo,
cada conjunto de datos posee una y solo una media. Por ltimo, la media es til
para llevar a cabo procedimientos estadsticos como la comparacin de medias
de varios conjunto de datos.
Sin embargo como cualquier madia estadstica la media aritmtica tiene
desventajas que debemos conocer. Primero, aunque la media es confiable en
cuanto a que toma en cuenta todos los valores del conjunto de datos, puede
verse afectada por valores extremos que no son representativos del resto de
los datos. Segundo. Resulta tedioso calcular la media debido a que utilizamos
cada uno de los datos en nuestro calculo (a menos desde luego, que usemos el
mtodo corto que

consiste en utilizar datos agrupados para determinar la

media aproximada). Tercero. Somos incapaces de calcular la media para un


conjunto de datos que tiene clases de extremo abierto en la parte inferior o
superior de la escala.
la media o promedio puede ser una excelente medida de tendencia central (la
manera

en que se agrupan los datos alrededor del punto medio de una

distribucin pero a menos que la media sea en verdad representativa de los


datos con los que se calcul, estaramos violando una suposicin importante.
advertencia: si existen valores muy altos o muy bajos notoriamente distintos a
la mayora de los datos, la media no es representativa. por fortuna, existen
medias que se pueden calcular que no tienen este efecto. una sugerencia til
al elegir qu medidas calcular es observar los datos.

3.3 una segunda medida de tendencia central: la media


ponderada
La media ponderada nos permite calcular un promedio que toma en cuenta la
importancia de cada valor respecto al total. Los promedios ponderados dan el
valor correcto para los costos promedio por hora de mano de obra de los
productos ya se consideran las diferentes cantidades de cada nivel de mano de
obra que requieren los productos. Debe hacerse la distribucin entre valores

diferentes y observaciones individuales en un conjunto de datos ya que varias


observaciones pueden tener el mismo valor. Si los valores ocurren con
frecuencias, diferentes, la media aritmtica de los valores comparada con la
media aritmtica de las observaciones tal vez no sea una medida de tendencia
central exacta. En esos casos, es necesario usar la media ponderada de los
valores. Si se utiliza un valor promedio para tomar una decisin pregunte como
se calcul. Si los valores de la amuestra no aparecen con la misma frecuencia,
insista en que la base correcta para la toma de decisiones es la media
ponderada.

3.4 una tercera medida de tendencia central: la media


geomtrica
Cuando trabajamos con cantidades que cambian en cierto periodo,
necesitamos conocer una tasa promedio de cambio, como la tasa de
crecimiento promedio en un periodo de varios aos. En tales casos la media
aritmtica

simple

equivocados.

resulta

inapropiada,

pues

proporciona

resultados

Para encontrar el factor de crecimiento promedio correcto

podemos multiplicar los factores de crecimiento de los cinco aos y luego


obtener la raz quinta del producto (nmero que al multiplicarlo cuatro veces por
s mismo da como resultado el producto inicial). El resultado es el factor de
crecimiento como media geomtrica que es el promedio adecuado que
debemos utilizar. Se usa la media geomtrica para mostrar los efectos
multiplicativos en el tiempo de los clculos del inters compuesto y la inflacin.
En ciertas situaciones las respuestas obtenidas con la media aritmtica no
difieren mucho de las correspondientes a la media geomtrica pero incluso
diferencias pequeas pueden generar malas decisiones. Una buena sugerencia
de trabajo es usar la media geomtrica siempre que se desee calcular el
cambio porcentual promedio en el tiempo para algunas variables. Cuando vea
el valor del incremento promedio en la inflacin, por ejemplo, pregunte si se
trata de la media geomtrica y tenga cuidado si no lo es pues se est
manejando un valor incorrecto.

3.5 una cuarta medida de tendencia central: la mediana


La mediana es una medida de tendencia central diferente a cualquiera de las
que hemos tratado hasta ahora. La mediana es un solo valor del conjunto de

datos que mide la observacin central del conjunto. Esta sola observacin es el
elemento que est ms al centro que el conjunto de nmeros. La mitad de los
elementos estn por arriba de este punto y la otra mitad est por debajo.
Calculo de la media a partir de datos no agrupados
Para hallar la mediana de un conjunto de datos, primero se organizan en orden
descendente o ascendente. Si el conjunto de datos contiene un nmero impar
de elementos el de en medio en el arreglo es la mediana; si hay un nmero par
de observaciones la mediana es el promedio de dos elementos de en medio
Calculo de la mediana a partir de datos agrupados
Hay buenas y malas noticias respecto al uso de la mediana. La buena noticia
es que calcularla es bastante rpido y evita el efecto de valores muy grandes o
muy pequeos. La mala noticia es que se sacrifica cierta exactitud al elegir un
solo valor para representar una distribucin. Antes de hacer clculos revise los
datos con su propio sentido comn si la distribucin se ve poco usual casi todo
lo que calcule con esos datos tendr defectos o limitaciones.
Ventajas y desventajas de la mediana
La mediana tiene varias ventajas respecto a la media. Los valores extremos no
afectan a la mediana de manera tan grave como a la media. La mediana es
fcil de entender y se puede calcular a partir de cualquier tipo de datos, incluso
a partir de datos agrupados con clases de extremo abierto como la distribucin
de frecuencias a menos que la mediana entre en una clase de extremo abierto.
Podemos

encontrar

la

mediana

incluso

cuando

nuestros

datos

son

descripciones cualitativas como color o nitidez, en lugar de nmeros. Podemos


ordenar los resultados desde mejor hasta peor: extremadamente ntida, muy
ntida, ntida, ligeramente borrosa y muy borrosa. La mediana de las cinco
clasificaciones es decir la tercera. La mediana tambin tiene algunas
desventajas. Ciertos procedimientos estadsticos que utilizan las medianas son
ms complejos que aquellos que utilizan la media. Debido a que la mediana es
una posicin promedio debemos ordenar los datos antes de llevar a cabo
cualquier clculo. Esto implica consumo de tiempo para cualquier conjunto de
datos que contenga un gran nmero de elementos. Si deseamos utilizar un

estadstico de la muestra para estimar un parmetro de la poblacin la media


es ms fcil de usar que la mediana.

3.6 una medida final de tendencia central: moda


La moda es una medida de tendencia central diferente a la media pero un tanto
parecida a la mediana pues en realidad no se calcula mediante algn proceso
aritmtico ordinario. La moda es el valor que ms se repite en el conjunto de
datos. Como en todos los dems aspectos de la vida, el azar puede
desempear un papel importante en la organizacin de datos. En ocasiones el
azar hace que un solo elemento no representativo se repita lo suficiente para
ser el valor ms frecuente del conjunto de datos. Es por esto que rara vez
utilizamos la moda en un conjunto de datos no agrupados como una medida de
tendencia central.
Calculo de la moda de datos agrupados
Cuando los datos ya se encuentran agrupados en una distribucin de
frecuencias podemos suponer que la moda est localizada en la clase que
contiene el mayor nmero de elementos, es decir, en la clase que tiene mayor
frecuencia. Para determinar un solo valor para la moda a partir de esta clase
modal.
Distribuciones multimodales
Que sucede cuando tenemos dos valores diferentes y cada uno parece ser el
mayor nmero de veces que aparece un valor en un conjunto de datos.
Ventajas y desventajas de la moda
La moda igual que la mediana se puede utilizar como una posicin central para
datos tanto cualitativos como cuantitativos. Si una prensa estampa cinco
impresiones que podemos clasificar como muy ntida, ntida y borrosa entonces
el valor modal es ntida de manera analgica podemos hablar de estilos
modales cuando los clientes de una mueblera prefieren muebles tipo colonial
sobre cualquier otro estilo. Al igual que la mediana los valores extremos no
afecta indebidamente a la moda, aun cuando los valores extremos sean muy
altos o muy bajos, escogemos el valor ms frecuente del conjunto de datos

como el valor modal. Podemos utilizar la moda sin importar que tan grandes o
que

tan

pequeos

sean

los

valores

del

conjunto

de

datos

independientemente de cual sea su dispersin. Una tercera ventaja de la moda


es que la podemos utilizar aun cuando una o ms clases sean de extremo
abierto. A pesar de estas ventajas la moda no se utilizan tan a menudo como
medida de tendencia central como se usan la media y la mediana. Muchas
veces no existe un valor modal debido a que el conjunto de datos no contiene
valores que se presenten ms de una vez. En otras ocasiones cada valor es la
moda pues cada uno de ellos representa el mismo nmero de veces. Resulta
claro que la moda es una medida intil en tales casos. Otra desventaja consiste
en que cuando los conjuntos de datos contienen dos o tres o ms modas es
difcil compararlos e interpretarlos.
Comparacin de la media, la mediana y la moda
Cuando trabajamos problemas de estadstica debemos decidir si vamos a
utilizar la media, la mediana o la moda como medidas de tendencia central.
Las distribuciones simtricas que solo contienen una moda siempre tienen el
mismo valor para la media, la mediana y la moda. En esos casos

no es

necesario escoger la medida de tendencia central pues ya que esta echa la


seleccin. En una distribucin con sesgo positivo la moda todava se encentra
en el punto ms alto de la distribucin, la mediana est a la derecha de la moda
y la media se encuentra todava ms a la derecha de la moda y la mediana. En
una distribucin con sesgo negativo es decir sesgada a la izquierda la moda
sigue siendo el punto ms alto de la distribucin, la mediana est a la izquierda
y la media se encuentra todava ms a la izquierda de la moda y la mediana.
Cuando la poblacin esta sesgada negativa o positivamente, la mediana suele
ser la mejor medida de posicin debido a que siempre est entre la media y la
moda. La frecuencia de ocurrencia de un solo valor no influye mucho en la
mediana como es el caso de la moda ni la distorsionan los valores extremos
como la media.

3.7 dispersin: porque es importante


Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la
moda solo nos revelan una parte de la informacin que debemos conocer

acerca de las caractersticas de los datos.

Para aumentar nuestro

entendimiento del patrn de los datos debemos medir tambin su dispersin


separacin o variabilidad.
Por qu es tan importante entender y medir la dispersin de la distribucin?
primero. Nos proporciona informacin adicional que nos permite juzgar la
confiabilidad de nuestra medida de tendencia central. Si los datos se
encuentran muy dispersos la posicin central es menos representativa de los
datos como un todo que cuando estos se agrupan ms cerca alrededor de la
media. Segundo. Ya que existen problemas caractersticos para datos muy
dispersos debemos ser capaces de reconocer esa dispersin amplia para
poder abordar esos problemas. Tercero. Quiz se desee comparar las
dispersiones de diferentes muestras. Si no se desea tener una amplia
dispersin de valores con respecto del centro de distribucin o esto presenta
riesgos

inaceptables,

necesitamos

poder

reconocerla

evitar

elegir

distribuciones que tengan las dispersiones ms grandes.

3.8 medidas de dispersin tiles


La dispersin puede medirse en trminos de la diferencia entre dos valores
seleccionados del conjunto de datos. Hay tres medidas de distancia: el rango,
el rango interfractil y el rango intercuartil.
Rango
El rango es la diferencia entre el ms alto y el ms pequeo de los valores
observados. Como resultado ignora la naturaleza de la variacin entre todas las
dems observaciones y tiene una gran influencia de los valores extremos.
Debido a que solo mide dos valores, el rango tiene muchas posibilidades de
cambiar drsticamente de una muestra a la siguiente en una poblacin dada
aunque los valores que caen entre el ms alto y el ms bajo sean bastante
parecidos. Recuerde tambin que las distribuciones de extremo abierto no
tienen rango, pues no existe un valor ms alto o ms bajo en la clase extremo
abierto.
Rango interfractil

En una distribucin de frecuencias, una fraccin o proporcin dada de los datos


cae en un Fractil debajo de este. La mediana por ejemplo es el Fractil 0.5
porque la mitad del conjunto de datos es menor o igual que este valor. Se dar
cuenta que los fractiles son parecidos a los porcentajes. El rango interfractil es
una medida

de la dispersin entre dos fractiles de una distribucin de

frecuencias, es decir, la diferencia entre valores de los dos fractiles. Los


fractiles tienen nombres especiales, dependiendo del nmero de partes iguales
en que dividen a los datos. Los fractiles que dividen en 10 partes iguales se
llaman Deciles. Los cuartiles dividen los datos en cuatro partes iguales. Los
percentiles dividen el conjunto de datos en 100 partes iguales.
Rango intercuartil
Mide aproximadamente que tan lejos de la mediana debemos ir en cualquiera
de las dos direcciones antes de recorrer una mitad de los valores del conjunto
de datos. Para calcular este rango dividimos nuestros datos en cuatro partes
cada una de las cuales contienen el 25% de los elementos de la distribucin.
Los cuartiles son entonces los valores ms altos de cada una de estas cuatro
partes y el rango intercuartil es la diferencia entre los valores del primero y
tercer cuartiles.

3.9 dispersin: medidas de desviacin promedio


Las descripciones ms completas de la dispersin son aquellos que manejan la
desviacin promedio respecto a alguna medida de tendencia central. Dos de
estas medidas son importantes para nuestro estudio de la estadstica: la
varianza y la desviacin estndar. Ambas medidas nos dan una distancia
promedio de cualquier observacin del conjunto de datos respecto a la media
de distribucin.
Varianza de poblacin
Cada poblacin tiene una varianza. Para calcular la varianza de una poblacin,
la suma de los cuadrados de las distancias entre la media y cada elemento de
la poblacin se divide entre el nmero total de observaciones en la poblacin.
Al elevar al cuadrado cada distancia logramos que toso los nmeros sean

positivos y al mismo tiempo asignamos ms peso a las desviaciones ms


grandes (desviacin es la distancia entre la media y un valor).
Desviacin estndar de la poblacin
La desviacin estndar de la poblacin es simplemente la raz cuadrada de la
varianza de la poblacin. Como la varianza es el promedio de los cuadrados
de las distancias de las observaciones a la media, la desviacin estndar es la
raz cuadrada del promedio de los cuadrados de las distancias entre las
observaciones y la media. Mientras que la varianza se expresa en el cuadrado
de la unidades utilizadas para medir los datos, la desviacin estndar esta en
las mismas unidades que las que se usaron para medir los datos.
Usos de la desviacin estndar
La desviacin estndar nos permite determinar con un buen grado de precisin,
donde estn localizados los valores de una distribucin de frecuencias con
relacin a la media. Podemos hacer esto de acuerdo a un teorema establecido
por p. l. Chebyshev. El teorema establece que independientemente de la forma
de distribucin al menos 75% de los valores can dentro de ms menos 2
desviaciones estndar a partir de la media de la distribucin y al menos 89% de
os valores caen dentro de ms menos 3 desviaciones estndar a partir de la
media. La desviacin estndar til tambin para describir cuanto se apartan las
observaciones individuales de una distribucin de la media de la misma. Una
media que se conoce como resultado estndar nos da el nmero de
desviaciones estndar que una observacin en particular ocupa por debajo o
por encima de la media.
Calculo de la varianza y la desviacin estndar utilizando datos
agrupados
Igual que utilizamos la desviacin estndar de la poblacin para derivar los
resultados estndar de la misma podemos usar la desviacin estndar de la
muestra para calcular los resultados estndar de la muestra. Estos resultados
indican a cuantas desviaciones estndar arriba o debajo de la media de la
muestra se encuentra una observacin dada.

Desviacin estndar de una muestra


Desviacin estndar de la poblacin para derivar los resultados estndar de la
misma podemos usar la desviacin estndar de la muestra para calcular los
resultados estndar de la muestra. Estos resultados indican a cuantas
desviaciones estndar arriba o debajo de la media de la muestra.
Al calcular y usar la desviacin estndar se supone que no hay muchos valores
demasiado grande o demasiado pequeos en el conjunto de datos porque se
sabe que la desviaciones estndar usa todos los valores esos valores extremos
distorsionaran la respuesta.

3.10 dispersin relativa: el coeficiente de variacin.


La desviacin estndar es una medida absoluta de la dispersin que expresa la
variacin en las mismas unidades que los datos originales. La desviacin
estndar no puede ser la nica base para la comparacin de dos
distribuciones. En consecuencia no podemos conocer la dispersin de un
conjunto de datos hasta que conocemos su desviacin estndar, su media y
como se compara la desviacin estndar con la media. Lo que necesitamos es
una media relativa que nos proporciones una estimacin de la magnitud de la
desviacin respecto a la magnitud de la media. El coeficiente de variacin es
una de estas medidas relativas de dispersin. Relaciona la desviacin estndar
y la media expresando la desviacin estndar como porcentaje de la media. La
unidad de medida es el porcentaje en lugar de las unidades de los datos
originales.

3.11 anlisis exploratorio de datos (aes)


Una de las tcnicas ms tiles del anlisis exploratorio, la grfica de tallo y hoja
resuelven este problema de manera muy efectiva. Proporciona el orden de
clasificacin de los elementos del conjunto de datos y la forma de distribucin.
Se hace una lista vertical de los tallos. Despus se dibuja una lnea vertical a la
derecha de estos tallos y se listan las hojas. Por ltimo se ordenan todas las
hojas en cada rengln en orden de clasificacin. Cada rengln en la grfica de
tallo y hoja obtenida corresponde a un tallo y cada valor en ese tallo es una
hoja.

Вам также может понравиться