Вы находитесь на странице: 1из 30

Introduccin

A lo largo de su existencia el ser humano ha llevado a cabo anlisis de una gran cantidad

de datos o informacin, referentes a los problemas o actividades de sus comunidades. Por


ejemplo, desde comienzos de la civilizacin se hacan representaciones grficas y otros
smbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el nmero
de personas, animales o cosas. Hacia el ao 3000 a. C., los babilonios usaban pequeas
tablillas de arcilla para recopilar datos sobre la produccin agrcola y los gneros
vendidos o cambiados mediante el trueque. Mucho antes de construir las pirmides, los
egipcios analizaban los datos de la poblacin y la renta del pas.
Otro ejemplo de recopilacin y anlisis de datos es el del imperio romano, cuyo
primer gobierno, al verse en la necesidad de mantener control sobre sus esclavos y riquezas,
recopil datos sobre la poblacin, superficie y renta de todos los territorios bajo su control.
Siguiendo con la historia de la recopilacin de datos, a mediados del primer
milenio, por el gran crecimiento de las poblaciones y para poder tener control sobre stas,
se comenzaron a efectuar censos poblacionales, como los de la Edad Media en Europa.
Por ejemplo, los reyes caloringios1 Pipino el Breve y Carlomagno ordenaron hacer estudios
minuciosos de las propiedades de la Iglesia en los aos 758 y 762, respectivamente.
Conforme pasaba el tiempo, la recopilacin y anlisis de datos comenzaban a tener
otro fin adems de los censos y conocimiento de diferentes propiedades. Por ejemplo, en
Inglaterra a principios del siglo xvi se realiz el registro de nacimientos y defunciones, con
el cual en 1662 apareci el primer estudio de datos poblacionales, titulado Observations on
the London Bills of Mortality (Comentarios sobre las partidas de defuncin en Londres).
Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania,
realizado en 1691, fue utilizado por el astrnomo ingls Edmund Halley como base para
la primera tabla de mortalidad. En el siglo xix, con la generalizacin del mtodo cientfico
para estudiar todos los fenmenos de las ciencias naturales y sociales, los investigadores
aceptaron la necesidad de reducir la informacin a valores numricos para evitar la
ambigedad de las descripciones verbales.

1.1 Estadstica
Qu entendemos por estadstica?

Como se explic, el ser humano tuvo la necesidad de crear una ciencia que redujera la
informacin a valores numricos para la mejor interpretacin de los fenmenos; se le
llam estadstica.

Definicin 1.1

La estadstica es una rama de las matemticas aplicadas que proporciona mtodos para reunir,
organizar, analizar e interpretar informacin, y usarla para obtener diversas conclusiones que
ayuden a tomar decisiones en la solucin de problemas y en el diseo de experimentos.

Carolingia tambin llamada Carlovingia, fue una dinasta de reyes francos que gobernaron un vasto territorio de Europa Occidental desde el siglo vii hasta el siglo x d. C.; su nombre fue tomado de su ms renombrado
miembro, Carlomagno.

20

E stadstica y probabilidad

Cul es la funcin de la estadstica?

Actualmente la estadstica es un mtodo efectivo para describir con precisin los valores
de datos econmicos, polticos, sociales, psicolgicos, biolgicos o fsicos, y una herramienta para
relacionar y analizar dichos datos. Por esta razn, la estadstica se divide en diferentes
ramas, entre las ms aplicadas y que analizaremos estn la estadstica descriptiva y la
inferencial.
La primera de ellas se aborda en la presente unidad y ser descrita ms adelante,
mientras que la segunda ser estudiada en las unidades 9 y 10. Por ahora se vern dos
conceptos fundamentales en el estudio de la estadstica.

1.2 Poblacin y muestra


Cmo se obtiene un conjunto
de datos en estadstica?

La materia prima de la estadstica son los conjuntos de nmeros obtenidos al contar o


medir elementos. Por tanto, al recopilar datos estadsticos se debe tener especial cuidado
para garantizar que la informacin sea completa y correcta; de este modo, el primer paso
es determinar qu informacin y en qu cantidad se ha de reunir. Por ejemplo, en un
censo es importante obtener el nmero de habitantes de forma completa y exacta; de
la misma manera, cuando un fsico quiere contar el nmero de colisiones por segundo
entre las molculas de un gas, debe empezar por determinar con precisin la naturaleza
de los objetos a contar. Dado que la naturaleza de los fenmenos en estudio es muy
variada, es necesario proporcionar una serie de definiciones referentes a los conjuntos de
datos que se han de estudiar.

Definicin 1.2
La poblacin es el conjunto que incluye el total de elementos o datos cuyo conocimiento es de
inters particular.

Cada uno de los elementos que intervienen en la definicin de poblacin es un


individuo u objeto; se denominaron de esta manera, ya que originalmente el campo de
actuacin de la estadstica fue el demogrfico.
Dado que la informacin disponible consta frecuentemente de una porcin o
subconjunto de la poblacin, introducimos un segundo concepto, el de muestra de una
poblacin.
Definicin 1.3

Ejemplo 1

La muestra es cualquier subconjunto de la poblacin.

1. Si el conjunto de datos de inters est constituido por todos los promedios de un grupo
de estudiantes de licenciatura de una universidad, cada uno de los estudiantes ser
un individuo estadstico, mientras que el conjunto de todos estos estudiantes ser
la poblacin y una muestra podra ser el conjunto de todos los estudiantes del tercer
cuatrimestre de ingeniera.
2. Si el conjunto de datos de inters est constituido por todos los promedios de los grupos
de licenciatura, cada uno de los grupos ser un individuo estadstico, mientras que el
conjunto de todos estos grupos ser la poblacin y una muestra podra ser el conjunto
de todos los grupos del tercer cuatrimestre de ingeniera.

U nidad 1 E stadstica descriptiva

21

3. Si se est estudiando el resultado de ciertos experimentos qumicos, cada uno de


esos experimentos ser un individuo estadstico y el conjunto de todos los posibles
experimentos en esas condiciones ser la poblacin, mientras que una muestra podra
ser un conjunto de resultados experimentales posibles en ciertas condiciones.
Ms adelante se ver que el problema de muestreo no es tan simple, porque este
concepto tiene mayor importancia dentro de la estadstica inferencial; se profundizar
en l en su momento.

1.2.1 Caracteres y variables estadsticas


Cuando se defini el concepto poblacin, se mencionaron sus elementos, tambin
llamados individuos; adems, en el ejemplo 1 se observ que stos pueden ser descritos
por una o varias de sus propiedades o caractersticas.
Definicin 1.4
El caracter de un elemento, individuo u objeto es cualquier caracterstica por medio de la cual se
puede clasificar y estudiar.

Ejemplo 2

1. Si los individuos son personas, el sexo, el estado civil, el nmero de hermanos o su


estatura son caracteres.
2. Si el individuo es una reaccin qumica, el tiempo de reaccin, la cantidad de producto
obtenido o si ste es cido o bsico, son caracteres que pueden analizarse.

Qu es un caracter cuantitativo?

Un caracter es cuantitativo si es posible medirlo numricamente o cualitativo si


no admite medicin. Por ejemplo, el nmero de hermanos y la estatura son caracteres
cuantitativos, mientras que el sexo y el estado civil son caracteres cualitativos.
Los distintos valores que puede tomar un caracter cuantitativo configuran una
variable estadstica. Las variables estadsticas se clasifican en discretas y continuas.

Qu es una variable estadstica?

Definicin 1.5

Una variable estadstica es discreta slo cuando permite valores aislados, como nmeros enteros.

Por ejemplo, la variable nmero de hermanos toma los valores 0, 1, 2, 3, 4 y 5. Este tipo
de variables se caracterizan por obtenerse mediante un proceso de conteo (ver semejanza
con las variables aleatorias discretas en la unidad 5).
Definicin 1.6
Una variable estadstica es continua cuando admite todos los valores de un intervalo.

Por ejemplo, la variable estatura, en cierta poblacin estadstica, toma cualquier


valor en el intervalo 158-205 cm. Otro ms es la temperatura de una persona. Este tipo

22

E stadstica y probabilidad

de variables se caracteriza por obtenerse mediante mediciones (ver semejanzas con las
variables aleatorias continuas en la unidad 7).
Las variable cualitativas pueden ser nominales si se trata de categorias (sexo, raza,
etc.) y ordinales si implican orden (clase social, grado de preferencia).

1.2.2 Estadstica descriptiva


Como ya se dijo, la estadstica se divide en varias ramas, una de ellas es la estadstica
descriptiva. Despus de haber estudiado los conceptos de poblacin y muestra es posible
definirla.
Definicin 1.7
La estadstica descriptiva es la parte de la estadstica que organiza, resume y analiza la totalidad
de elementos de una poblacin o muestra.

Cul es la finalidad
de la estadstica descriptiva?

Su finalidad es obtener informacin, organizarla, resumirla y analizarla, lo necesario


para que pueda ser interpretada fcil y rpidamente y, por tanto, pueda utilizarse
eficazmente.
El proceso que sigue la estadstica descriptiva para el estudio de una cierta poblacin
o muestra consta de los siguientes pasos:
1. Seleccin de caracteres factibles de ser estudiados.
2. Mediante encuesta o medicin, obtencin del valor de cada elemento en los
caracteres seleccionados.
3. Obtencin de nmeros que sintetizan los aspectos ms relevantes de una
distribucin estadstica (ms adelante a dichos nmeros los llamaremos
parmetros para el caso de la poblacin y estadsticos en las muestras).
4. Elaboracin de tablas de frecuencias, mediante la adecuada clasificacin de los
individuos dentro de cada carcter (esto lo estudiaremos ms adelante en el
tema Clases de frecuencias).
5. Representacin grfica de los resultados (elaboracin de grficas estadsticas, a
las que llamaremos histogramas).

1.3 Tipos de muestreo


Los especialistas en estadstica se enfrentan a un complejo problema cuando, por ejemplo,
toman una muestra para un sondeo de opinin o una encuesta electoral; seleccionar una
muestra capaz de representar con exactitud las preferencias del total de la poblacin no
es tarea fcil, para tal efecto existen diferentes tipos de muestreo, los ms conocidos se
mencionan enseguida.

Muestreo aleatorio simple


Este tipo de muestreo se caracteriza porque cualquier elemento de la poblacin en estudio
tiene la misma posibilidad de ser seleccionado.

U nidad 1 E stadstica descriptiva

23

Por ejemplo, de la poblacin estudiantil de una universidad se puede seleccionar


una muestra aleatoria de 50 estudiantes para aplicar una encuesta y obtener cierto tipo
de informacin. En estos casos, existen distintos mtodos para respetar la aleatoriedad,
el ms comn es asignarle un nmero diferente a cada estudiante y luego, con la ayuda
de una tabla de nmeros aleatorios, elegir un bloque de tamao 50 de sta y realizar las
entrevistas a los alumnos seleccionados.

Muestreo estratificado
En este tipo de muestreo se divide la poblacin en grupos que no se traslapen es decir,
que no tengan elementos en comn y se procede a realizar un muestreo aleatorio simple
en cada uno de los grupos.
Por ejemplo, la poblacin estudiantil de una universidad se puede dividir en grupos
formados por diferentes especialidades (ingeniera industrial, ingeniera en sistemas,
administracin, etc.) y despus de cada una de ellas se procede a seleccionar una muestra
aleatoria para llevar a cabo una entrevista y obtener la informacin deseada.
Adems de los dos tipos de muestreo mencionados, existe el muestreo sistemtico
y el muestreo por conglomerados. El problema de muestreo es ms complejo de lo que
parece; para un estudio ms detallado del tema, el estudiante puede consultar el libro
Elementos de muestreo, de Richard L. Scheaffer y William Mendenhall, de Grupo Editorial
Iberoamrica.

1.3.1 Uso de tablas de nmeros aleatorios


Como se mencion, las muestras aleatorias se pueden obtener a partir de una tabla de
nmeros aleatorios. Se supone que se tiene una poblacin de mil individuos y se quiere
hacer un muestreo de diez de ellos. En este caso, primero se asigna un nmero del 000
al 999 a cada miembro de la poblacin y luego se elige de la tabla de nmeros aleatorios
un punto de arranque y se hace el recorrido hasta obtener el tamao de la muestra de
diez. Debido a que el tamao de la poblacin es mil, de los nmeros que aparecen en la
tabla se consideran slo sus tres ltimas cifras. Por ejemplo, sean los siguientes nmeros
aleatorios elegidos de una tabla.

Cmo se lleva a cabo un muestreo


aleatorio de diez personas
con poblacin de 650 individuos?

9173061

7392108

4757975

8122135

1321499

0746897

0015542

0195093

7996818

0559605

Al elegir sus tres ltimas cifras se obtienen los nmeros que formarn la muestra:
061, 897, 108, 542, 975, 093, 135, 818, 499 y 605. Despus se procede a seleccionar de la
poblacin a los individuos que les corresponden estos nmeros.
De forma similar que en el caso de las mil personas, primero se asigna un nmero
a cada elemento de la poblacin desde 000 hasta 649 y posteriormente se elige un bloque
de nmeros aleatorios donde las tres primeras cifras sean menores a 649.

24

E stadstica y probabilidad

1.4 Parmetros y estadsticos


Qu es un parmetro
y qu es un estadstico
o estimador?

Los nmeros que sintetizan los aspectos ms relevantes de una distribucin estadstica
pueden obtenerse tanto de una poblacin como de una muestra y por consiguiente deben
clasificarse: los primeros, obtenidos de la poblacin, reciben el nombre de parmetros y los
obtenidos de una muestra se llaman estadsticos o estimadores.
Los parmetros y estadsticos ms comunes de la estadstica descriptiva que se
estudiarn en esta unidad se dividen, a su vez, en dos tipos:
1. Medidas centrales: media, mediana, moda, media geomtrica, media armnica,
media ponderada.
2. Medidas de dispersin: rango, varianza, desviacin estndar, error estndar,
coeficiente de variacin, percentiles, rango intercuartil.

1.5 Medidas centrales


Si el conjunto de datos numricos de una muestra de tamao n (o poblacin de tamao N)
es de la forma x1, x2,. . ., xn (o para la poblacin x1, x2,. . ., xN), nos podemos preguntar por las
caractersticas del conjunto de nmeros que son de inters. En est seccin se estudiarn
los mtodos para describir su localizacin y, en particular, el centro de los datos.

1.5.1 La media
Cuando una persona tiene en sus manos un conjunto de datos para analizarlos,
generalmente calcula, en primera instancia, un promedio de stos. Por ejemplo, dicha
persona tiene las cantidades mensuales que ha ganado en los ltimos seis meses (10 800,
9 700, 11 100, 8 950, 9 750 y 10 500) y desea conocer el valor que representa su salario
promedio. En este caso, obtendr su ingreso promedio al sumar las cantidades y dividir
entre el nmero de meses que trabaj

10 800 + 9 700 + 11 100 + 8 950 + 9 750 + 10 500


= 10 133.33



6

El sueldo promedio es $10 133.33.


Como el caso anterior, existe una infinidad de problemas o casos prcticos en los
que de un conjunto de datos se quiere conocer un valor central que refleje la influencia
que tiene cada uno de los datos en l. La medida central ms propicia para tales fines se
define a continuacin.
Definicin 1.8
Dado el conjunto finito de datos muestrales x , x ,..., x , la media muestral (promedio aritmtico)
1 2
n
o estadstico media del conjunto es el estadstico que representa el promedio de los datos
simbolizado por x (x barra), y se calcula

x=

x1 + x2 + + x n 1 n
= xi
n
n i = 1

U nidad 1 E stadstica descriptiva

25

De forma similar se define el parmetro media para las poblaciones finitas.


Definicin 1.9

Dado el conjunto de datos poblacionales x , x ,. . ., x , se llama media poblacional o parmetro


1 2
N
media del conjunto al parmetro representado por (miu o mu), y se calcula

Ejemplo 3

x1 + x2 + + x N 1 N
= xi
N
N i = 1

Un fabricante de pistones toma una muestra aleatoria de 20 de stos, para medir su


dimetro interno promedio. Con la informacin que el fabricante obtuvo dada en
centmetros, se calcula su dimetro medio
10.1

10.1

9.8

9.7

10.3

9.9

10.0

9.9

10.2

10.1

9.9

9.9

10.1

10.3

9.8

9.7

9.9

10.0

10.0

9.8

Como se trata de una muestra, se calcula su estadstico


x=

1
[10.1 + 10.1 + 9.8 + 9.7 + 10.3 + 9.9 + 10 + 9.9 + 10.2 + 10.1 + 9.9 +
20
9.9 + 10.1 + 10.3 + 9.8 + 9.7 + 9.9 + 10 + 10 + 9.8] = 9.975

La media representa el valor promedio de todas las observaciones y por consiguiente


cada uno de los datos influye de igual manera en el resultado; en ocasiones, cuando se
tienen pocos datos que se alejan considerablemente del resto, el valor promedio encontrado no refleja la realidad del caso.
Ejemplo 4

Se quiere calcular el sueldo promedio de los trabajadores de una fbrica, eligiendo


aleatoriamente a diez de ellos, con las siguientes cantidades:
Dato

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

Sueldo 2 000 2 200 2 500 2 200 1 800 25 000 2 400 2 300 2 800 2 400

Se calcula el sueldo promedio, y se tiene


x=

1
[2 000 + 2 200 + 2 500 + 2 200 + 1 800 + 25 000 + 2 400 + 2 300 + 2 800 + 2 400] = 4 560
10

donde el estadstico no refleja la realidad de los datos, puesto que el sueldo de 25 000 es
mucho mayor a los dems e influye considerablemente en el valor promedio.

1.5.2 La mediana
Por lo expuesto al final de la subseccin es necesario presentar otro tipo de medida central en
la que valores muy extremosos, con respecto al resto, no tengan una influencia tan marcada
como en la media. A dicha medida se le conoce, debido a su naturaleza, como mediana.
Definicin 1.10
La mediana de un conjunto de datos es el valor medio de los datos cuando stos se han ordenado
en forma no decreciente en cuanto a su magnitud.

26

E stadstica y probabilidad

Clculo de la mediana
Dado el conjunto de datos muestrales x1, x2,. . ., xn, la mediana muestral o estadstico mediana
del conjunto se representa por x (x tilde) y se obtiene ordenando primero en forma no
decreciente estos n datos, los que se renombrarn segn su posicin por medio de tildes
de la siguiente forma
x1 x 2 x n
Posteriormente se localiza el punto medio de los datos ordenados, con dos casos:
1. Cuando la cantidad de observaciones es impar, el valor medio del
ordenamiento es el dato que se encuentre en la posicin (n + 1)/2.
2. Cuando la cantidad de datos es par, de tal manera que resultan dos datos
medios localizados en las posiciones n/2 y n/2 + 1, la mediana se considera el
promedio de stos.
Finalmente, se puede resumir el clculo de la mediana con las siguientes frmulas
x n + 1 , cuando la cantidad de datos es impar
2

x = x n + x n
+ 1
2
2
, cuando la cantidad de datos es par

2
De forma similar se define el parmetro mediana.
Dado el conjunto de datos poblacionales x1, x2,. . ., xN, la mediana poblacional o
parmetro mediana del conjunto es el parmetro representando por , y se calcula
x N + 1 , cuando la cantidad de datos es impar
2

= x N + x N
+ 1
2
2
, cuando la cantidad de datos es par

2
Ejemplo 5

Dado el conjunto muestral de datos del ejemplo anterior, referente al sueldo promedio,
se calcula su mediana.
La siguiente tabla muestra el conjunto de los diez datos
Dato

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

Sueldo 2 000 2 200 2 500 2 200 1 800 25 000 2 400 2 300 2 800 2 400

Ordenando los sueldos de menor a mayor y renombrndolos se obtiene


Dato original
Sueldo
Dato
ordenado

x5

x1

x2

x4

x8

x7

x10

x3

x9

x6

1 800 2 000 2 200 2 200 2 300 2 400 2 400 2 500 2 800 25 000

x1
~

x2
~

x3
~

x4
~

x5
~

~x6

x7
~

~x8

x9
~

x10
~

U nidad 1 E stadstica descriptiva

27

La cantidad de datos es diez y ste es un nmero par, por consiguiente la mediana


muestral se encuentra con el promedio de los datos ordenados en las posiciones n/2 y
n/2 + 1. Es decir, en las posiciones 10/2 = 5 y 10/2 + 1 = 6
x =

x 5 + x 6
2

2 300 + 2 400
2

= 2 350

En la mediana se puede observar que el valor $25 000, el cual sobresala con
respecto a todos los dems, a diferencia de la media, no influye en el resultado de la
mediana. Puesto que si en lugar de $25 000 se elige $5 000 o $100 000, el sueldo medio
de los diez trabajadores seguir siendo $2 350. Por lo cual se dice que la mediana es una
medida central insensible de los datos.

1.5.3 La moda
Para algunos estudios es necesario encontrar el valor central de un conjunto de datos,
en donde la medida de inters est basada en la repeticin de stos; por tanto, ninguna
de las dos medidas analizadas es conveniente en este caso. Debido a su naturaleza, a esta
medida se le da el nombre de moda y se define a continuacin.
Definicin 1.11
La moda de un conjunto de datos es el valor que se presenta en su distribucin con mayor
frecuencia.

La moda se simboliza por Mo para las muestras y para las poblaciones.


Ejemplo 6

En la siguiente lista se muestran las calificaciones de 20 exmenes


de l
ingstica. Se calcula
la calificacin que ms se repite, es decir, la moda de la distribucin de las calificaciones.
5

10

10

10

10

Despus del conteo de los datos, se tiene





cinco datos con valor 5


un dato con valor 6 y otro con valor 7
tres datos con valor 8
seis datos con valor 9
cuatro datos con valor 10
Por tanto, la moda es igual a 9; ya que es la calificacin de mayor frecuencia.

Al calcular la moda es posible observar que es una medida completamente opuesta


a la mediana en cuanto a su sensibilidad. Por ejemplo, si en el caso de las calificaciones un
alumno con calificacin 9 hubiese obtenido 5, la moda cambiara a 5 (seran seis 5 y cinco
9). As que con la sola alteracin de un dato cambia completamente la moda, por tanto,
se dice que sta es sumamente sensible.

28

E stadstica y probabilidad

La moda tambin presenta los siguientes dos problemas:


1. La moda puede no existir. Por ejemplo, se tienen las siguientes series de datos:

Cundo se considera
a un conjunto de datos amodal?

Cundo se considera
a un conjunto de datos multimodal?

6, 7, 34, 4, 8
6, 3, 8, 9, 3, 8, 6 y 9

En ambas series de datos la frecuencia es la misma, es decir, no tienen moda.


A los conjuntos de datos como los anteriores se les llama amodales o sin moda.

2. La moda puede no ser nica. Por ejemplo, se tiene la siguiente serie de datos

6, 7, 9, 4, 8, 6, 6, 8, 9, 6, 8, 6, 9, 3, 9 y 9

En esta serie estn los valores 6 y 9 como los de mayor frecuencia, ambos
se repiten cinco veces. Al conjunto de datos que tiene ms de una moda se le
llama
multimodal; bimodal si son dos modas, y trimodal si son tres, etctera.

1.5.4 Otros valores medios


Ya se han analizado los tres valores centrales ms conocidos y utilizados en la estadstica
descriptiva. El primero de ellos fue el definido en la seccin 1.5.1 como una media
aritmtica, sin embargo, existen distribuciones de datos para las cuales esta medida no es
muy propicia, por lo que se definen y utilizan otro tipo de medidas centrales, la mediana
y la moda. A continuacin se vern otros tipos de promedios que son de utilidad en la
estadstica descriptiva.

Valor geomtrico o media geomtrica


La media geomtrica de los datos x1, x2,. . ., xn se simboliza por MG y est definida como
la raz n-sima del producto de las n mediciones.

MG = n x1 x2 x n

Ejemplo 7

Se calcula la media geomtrica de 20 calificaciones de exmenes psicolgicos


5

10

10

10

10

MG = 20 5 8 9 9 8 10 9 5 10 5 6 5 10 10 8 9 7 9 5 9 = 7.5446868
Observacin

De la definicin de media geomtrica se deduce que sta no se puede aplicar cuando


algn dato vale cero o la cantidad de datos es par y existe una cantidad impar negativa.

U nidad 1 E stadstica descriptiva

29

Valor medio armnico o media armnica


La media armnica de los datos x1, x2,. . ., xn se simboliza por MA y est definida como el
recproco de la media aritmtica de los recprocos.

MA =

1
n

1
1

n i = 1 x i

1
11 1
1
+ + +
n x1 x2
xn

n
1 1
1
+ + +
x1 x2
xn

La principal aplicacin de sta es promediar las variaciones respecto del tiempo, es


decir, cuando la misma distancia se recorre a diferentes tiempos.
Ejemplo 8

Si se viaja de una ciudad a otra recorriendo los primeros 100 km a 80 kmph, los siguientes
100 km a 100 kmph y finalmente otros 100 km a 120 kmph, se calcula la velocidad media
utilizando la media armnica y se compara con las medias aritmtica y geomtrica.
MA =

1 1

3 80

1
1
100

1
120

= 97.2973

300

x = [80 + 100 + 120] =

= 100

MG = 3 80 100 120 = 98.6485


Observacin

Para tomar la decisin de qu media parece la ms correcta, se calcula la velocidad


promedio
Velocidad promedio =

distancia total recorrida


tiempo total

La distancia total recorrida es igual a 100 + 100 + 100 = 300 km.


El tiempo total de recorrido es

100 100 100


+
+
= 3.0833 h.
80 100 120

Ahora se compara con la distancia total real recorrida las distancias que recorrera
el automvil con cada una de las velocidades promedio calculadas

Media aritmtica: 3.0833 100 = 308.33 km


Media geomtrica: 3.0833 98.6485 = 304.166 km
Media armnica: 3.0833 97.2973 =300 km
(Ntese que el mejor resultado se obtiene con la media armnica).

30

E stadstica y probabilidad

Valor medio ponderado o media ponderada


Para los casos en que cada dato tiene una importancia relativa en su distribucin la cual
se denomina peso, la media correspondiente ms apropiada se obtiene sumando los
productos de cada dato por su peso, llamando a dicha medida media ponderada.
Definicin 1.12

En un conjunto de datos x , x ,. .
1 2
datos a las cantidades w , w ,. . .,
1
2
a)
b)

., xn se llama pesos o ponderaciones respectivas de estos


wn que cumplen

w i [0,1] , para todo valor de i


w1 + w2 + . . . + wn = 1

La media ponderada del conjunto de datos x1, x 2 ,. . ., xn, con pesos respectivos w1,
w2 ,. . ., wn, se simboliza por MP y se calcula con la siguiente frmula:
n

wi x i

MP =

i = 1

Ejemplo 9

Se calcula la calificacin promedio de un estudiante. La calificacin est ponderada de la


siguiente forma: 10% tareas, 40% del primer examen bimestral y 50% del examen final.
Las calificaciones del estudiante son 8, 9 y 4, respectivamente.
La calificacin est ponderada, por tanto
MP = 0.1 8 + 0.4 9 + 0.5 4 = 6.4

Nota

En el caso de poblaciones, los parmetros correspondientes se calculan con las mismas


formulas cambiando n por N.
Al analizar un conjunto de datos surge una duda: tener las medidas centrales es
suficiente para conocer su distribucin? Despus de estudiar la siguiente seccin esto
quedar claro.

Ejercicio 1
1. Calcula la media, mediana y moda del siguiente conjunto de datos
145

150

165

155

155

145

150

140

145

150

160

175

150

160

2. Calcula la media y mediana de los tiempos de llegada de seis aviones que aterrizan
en un aeropuerto. Los tiempos (en minutos) son
3.5

4.2

2.9

3.8

4.0

2.8

U nidad 1 E stadstica descriptiva

31

3. Calcula la media geomtrica del conjunto de datos del ejercicio anterior.


4. Calcula la media armnica del viaje redondo que realiza un chofer de una lnea de
camiones cuya ruta es de 520 km, si de ida lo recorri por una autopista a 101 kmph
y de regreso por otra a velocidad promedio de 75 kmph.
5. En una muestra de 100 pistones se encontr que 55 tenan un dimetro interno
de 10.5 cm, 25 de 10.0 y el restante de 10.75. Utiliza las frecuencias relativas de los
pistones para calcular la media ponderada de su dimetro interno.

1.6 Medidas de dispersin


Para un anlisis ms completo de la distribucin de los datos, el estudio de sus medidas
centrales no es suficiente, puesto que en diferentes conjuntos de datos puede haber
medidas centrales iguales, por tanto, no se tendra conocimiento de la forma de su
distribucin.
Por ejemplo, se tienen dos conjunto de datos, uno contiene los valores 20, 12, 15,
16, 13 y 14, y el segundo 5, 0, 50, 17, 8 y 10; se calcula su media.
Como se puede verificar en ambos casos se obtiene 15. Pero si se representan los
valores en una recta, es notable que las observaciones del segundo conjunto tienen una
distribucin (variacin) mucho mayor.

Por tanto, es necesario realizar un estudio de la distribucin de los datos con


respecto a su valor central, es decir, se necesita un valor que indique una medida para
comparar las dispersiones de datos entre diferentes conjuntos; estas medidas son valores
de dispersin o variabilidad del conjunto de datos.

1.6.1 Rango
Es el primer valor que nos muestra cmo estn distribuidos (dispersos) los datos. El rango
de las observaciones est simbolizado por r para la muestra y R para la poblacin.
El rango es una medida de variacin de los datos que lo nico que muestra es el tamao
o longitud del intervalo en el que los datos se encuentran distribuidos y es:
Definicin 1.13
El rango es igual a el valor mayor menos el valor menor de los datos.

32

E stadstica y probabilidad

Por ejemplo, para los datos muestrales de los dos conjuntos de datos anteriores
en el primer conjunto su rango vale r1 = 20 12 = 8, es decir, los datos de este
conjunto estn distribuidos a lo largo de un intervalo de longitud 8
en el segundo conjunto su rango vale, r2 = 50 0 = 50, es decir, los datos de este
conjunto estn distribuidos a lo largo de un intervalo de longitud 50
Los elementos del segundo conjunto tienen una separacin mayor entre ellos, pero
el resultado no muestra el comportamiento de los datos con respecto a su media.

1.6.2 Varianza y desviacin estndar


Otra medida de dispersin de los datos que est relacionada directamente con la media del
conjunto es la varianza.
Definicin 1.14
Se llama varianza de un conjunto de datos al promedio de los cuadrados de las desviaciones de
cada uno de los datos con respecto a su valor medio.

Si se tienen n datos muestrales, x1, x2,. . ., xn con valor medio igual a x , los cuadrados
de las desviaciones de cada uno de los datos con respecto a su valor medio sern ( x1 x )2,
( x2 x )2, etctera.
Al igual que en los valores medios, la varianza puede definirse con respecto a la
muestra o a la poblacin.

Respecto a la muestra
Definicin 1.15

La varianza muestral o estadstico varianza del conjunto de datos x , x ,. . ., x , se representa


1 2
n
2
por s , y se define como el valor medio de los cuadrados de las desviaciones de cada uno de los
datos con respecto a x , y se calcula

s2 =

1 n
( x i x )2
n i = 1

Sobre la definicin anterior podemos decir que denota la intencin de una medida
variacional de un conjunto de datos, slo que ms adelante (unidades 9 y 10) se ver que
es conveniente definir el estadstico varianza dividiendo entre n 1 en lugar de n. Para
distinguirlas, se les asignan nombres diferentes, los cuales se justificarn hasta la unidad
9, cuando se analice el tema Estimadores puntuales. Mientras tanto se define

La varianza sesgada como

s2n =

1 n
( x i x )2

n i = 1

U nidad 1 E stadstica descriptiva

La varianza insesgada como

s2n 1 =

33

1 n
( x i x )2
n 1 i = 1

Pero, por qu dos definiciones diferentes en lugar de una? Porque la varianza


sesgada refleja perfectamente el significado de una medida de dispersin y por consiguiente
tiene una gran aplicacin en el estudio de las probabilidades. Mientras que la varianza
insesgada, es ms propicia para los clculos estadsticos y se emplea generalmente para
las muestras.

Respecto a la poblacin
De forma similar para poblaciones finitas se define el parmetro varianza poblacional, el
cual est representado por 2.
Dado el conjunto de datos poblacionales x1, x2,. . ., xn, con valor medio , se define
la varianza poblacional

Varianza poblacional

2 =

1 N
( x i )2
N i = 1

La varianza se calcula con los cuadrados de las desviaciones y, por tanto, no est en
las mismas unidades que los datos. Por consiguiente, se introduce una nueva medida de
dispersin de la siguiente forma:
Definicin 1.16
Se llama desviacin estndar de un conjunto de datos a la raz cuadrada positiva de la varianza,
es decir

= 2
Ejemplo 10

s = s2

Se calcula la varianza insesgada y la desviacin estndar de cada uno de los dos conjuntos
de la seccin 1.6:
Primer conjunto: 20, 12, 15, 16, 13 y 14. Anteriormente se encontr que x = 15.
s2n 1 =
=

1 n
( x i x )2 =
n 1 i = 1
1
(20 15)2 + (12 15)2 + (15 15)2 + (16 15)2 + (13 15)2 + (14 15)2
6 1

1
= [25 + 9 + 0 + 1 + 4 + 1] = 8
5

La desviacin estndar es snsn


=
.
11 = 8 2.8284
*

En las unidades 5 y 7 se presenta una definicin ms general, la cual se puede aplicar tanto a poblaciones
finitas como infinitas.

34

E stadstica y probabilidad

Segundo conjunto: 5, 0, 50, 17, 8 y 10. Anteriormente se encontr que x = 15.


s2n 1 =
=

1 n
( x i x )2 =
n 1 i = 1
1
( 5 15)2 + ( 0 15)2 + ( 50 15)2 + (117 15)2 + (8 15)2 + (10 15)2
6 1

1
= [100 + 225 + 1225 + 4 + 49 + 25] = 325.6
5

La desviacin estndar es snsn


=
.
11 = 325.6 18.0444

Clculo de las varianzas


Para los clculos se acostumbra emplear otra representacin equivalente a la de varianza,
determinada por las siguientes frmulas:

Varianza sesgada

Varianza insesgada

Ejemplo 11

s2n =

1 n 2
xi x 2
n i = 1

s2n 1 =

1 n 2
n 2
xi
x

n 1 i = 1
n 1

Se calcula la varianza insesgada para los conjuntos de datos del ejemplo 10, empleando
las ltimas frmulas para la varianza, y se verifica que coincidan los resultados.
Primer conjunto: 20, 12, 15, 16, 13 y 14.
s2n 1 =

1 n 2
n 2
1 2
6
xi
x =
20 + 122 + 152 + 162 + 132 + 142
(15)2

n 1 i = 1
n 1
6 1
6 1

1
6
= [400 + 144 + 225 + 256 + 169 + 196 ] 225 = 278 270 = 8
5
5

Segundo conjunto: 5, 0, 50, 17, 8 y 10.


s2n 1 =

1 n 2
n
1
6
x i n 1 x 2 = 6 1 52 + 02 + 502 + 172 + 82 + 102 6 1 (15)2
n 1 i = 1

1
6
= [25 + 0 + 2500 + 289 + 64 + 100 ] 225 = 595.6 270 = 325.66
5
5

En los clculos anteriores se observa que en ambos casos coinciden los resultados
con los del ejemplo 10.

U nidad 1 E stadstica descriptiva

35

Ejercicio 2
1. Calcula el rango y la varianza insesgada del siguiente conjunto de datos:
145

150

165

155

155

145

150

140

145

150

160

175

150

160

2. Calcula la desviacin estndar de los tiempos de llegada de ocho aviones que


aterrizan en un aeropuerto. Los tiempos en minutos son 3.5, 4.2, 2.9, 3.8, 4.0 y 2.8.
3. En los envases de leche, la cantidad de lquido no es siempre un litro, por lo que se
toma una muestra de diez envases, y se obtienen los siguientes valores:
0.95

1.01

0.97

0.95

1.0

0.97

0.95

1.01

0.95

0.98

Calcula la varianza.

1.7 Clases de frecuencia

Qu es un intervalo de frecuencias
y qu condiciones debe cumplir?

Hasta ahora se ha trabajado slo con muestras o poblaciones menores de 30 elementos,


cuyos clculos no han sido tan laboriosos; pero qu pasa cuando la cantidad de datos es
considerable o stos provienen de mediciones que hagan ms laborioso el clculo de sus
medidas centrales o de variacin. Adems de lo anterior, puede ser que slo necesitemos un
resumen ms compacto del conjunto de datos o incluso tener una representacin grfica
del comportamiento de su distribucin, por lo que siendo un conjunto con gran cantidad
de datos (por ejemplo, 200) visualizarlos todos, para poder estudiar su distribucin, no
es factible, por consiguiente, es necesario emplear alguna otra estrategia de anlisis.
El problema mencionado se puede resolver fcilmente distribuyendo los datos por
medio de intervalos, lo que da origen a la siguiente definicin:

Definicin 1.17
Dado un conjunto de datos, se llama intervalos de clase o clases de frecuencia o simplemente
clases a los intervalos que por parejas son ajenos o disjuntos y contienen todos los datos del
conjunto.

Una pareja de intervalos son disjuntos si no tienen elementos en comn. Con


respecto a la cantidad de intervalos de clase, se pide que no sea una cantidad excesiva
o insuficiente. No existe una regla determinante para obtener la cantidad de intervalos
cuando se tienen n datos. Algunos especialistas en estadstica emplean el entero ms
cercano a la raz de n, otros el entero ms cercano a log(n), o bien la llamada regla de
Sturges, en la cual se toma como el tamao de la muestra el entero ms cercano a
3.3logn + 1 con n cantidad de datos correspondientes a las observaciones. Para efectos
de este libro, se emplear una cantidad de intervalos que, dependiendo del valor de n, se
encuentre entre cinco y veinte.
Nota

Con respecto a los intervalos de clase, no es un requisito que sean de igual longitud, sin
embargo, aqu habr restriccin a clases de igual longitud.

36

E stadstica y probabilidad

1.7.1 Construccin de clases de frecuencia


Para la construccin de los intervalos de clase o clases de frecuencia existen diferentes
tcnicas, al igual que en la eleccin de la cantidad de clases no existe un mtodo
determinante o una frmula general. Lo nico que debe respetarse es:
un mismo dato no debe de pertenecer a dos intervalos diferentes
todos los datos deben de estar distribuidos en los intervalos formados
Aqu se construirn los intervalos de clase de un conjunto de datos {x1, x2,. . ., xn}, de
acuerdo con los siguientes puntos:
1. Se calcula el rango del conjunto de datos.
2. Se divide el rango entre la cantidad de clases o intervalos que queremos tener y
el valor calculado ser la longitud de cada una de stas en las que se distribuirn
los datos.
3. Para formar las clases o intervalos se consideran cerrados los extremos izquierdos
de los intervalos y los derechos se consideran abiertos, tomando a la ltima clase
en ambos extremos cerrada.
Ejemplo 12

Dado un conjunto de datos donde el valor ms pequeo es 5 y el ms grande 75. Construye


diez intervalos de clase para dicho conjunto de datos.
El rango del conjunto es: r = 75 5 = 70. Como queremos tener diez intervalos de
clase dividimos el rango 70 entre diez y obtenemos siete. Este valor ser la longitud de
cada una de las clases de frecuencia. Por tanto, las diez clases son
[5,12), [12,19), [19,26), [26,33), [33,40), [40,47), [47,54), [54,61), [61,68), [68,75]

Recurdese que un intervalo de la forma [26,33) indica que se consideran todos los
valores que estn entre 26 y 33, incluyendo el 26 y excluyendo el 33.

1.7.2 Frecuencias relativas


Dado un conjunto de datos,
qu son las frecuencias de clase?

Empleamos la construccin de los intervalos de clase para estudiar de forma simplificada


la distribucin de los datos, por tanto, despus de construir los intervalos de clase,
contamos la cantidad de datos que caen en cada uno. A dicha cantidad se le llama
frecuencia de la clase o frecuencia de clase o frecuencia absoluta y se simboliza por fi, donde i
representa el nmero de la clase y
n

fi = n

i = 1

Definicin 1.18
Se llama frecuencia relativa de una clase i al cociente de la cantidad de datos que se encuentran
en sta con respecto del total de datos en el conjunto y se simboliza por

fr =
donde

n representa la cantidad total de datos.

fi
n

U nidad 1 E stadstica descriptiva

Ejemplo 13

37

Se consideran las calificaciones (con escala de cero a 100) de 80 estudiantes en la materia


fsica experimental, se distribuyen en siete clases de frecuencias y se calculan las frecuencias
relativas de las clases:
30

88

68
30
36

100
86
76

96 100

98

90

30

67

78

98

89
99

78
91

65
100

60
48

69
68

100
85
78

68
89
81

100 100

45

38

78

89

68

88

69
94
80

79
99
40

98
100
67

94
45
58

30
30
89

46
35
58

68

70

83

85

68

56

100

86

69

79

52

45

76
84

78
67

77
69

89
46

98
79

Lo primero es construir las siete clases de frecuencia, encontrando el valor ms


grande 100 y el ms pequeo 30, por tanto, el rango vale r = 100 30 = 70.
Como se piden siete clases de frecuencias, se divide 70 entre siete y el resultado es
diez. Es decir, la longitud de las clases de frecuencia ser de diez unidades.
El primer intervalo es [30, 40), es decir, todos los datos que sean mayores o iguales
a 30 pero menores a 40; los datos son 30, 38, 30, 30, 30, 35, 36 y 30, ocho en total.
Este proceso de conteo se contina hasta llegar a la ltima clase.
Al realizar el conteo de elementos por clase se recomienda que los datos contados
se marquen para evitar una equivocacin. Por ejemplo, despus del primer conteo la tabla
queda de la siguiente forma
30

88

96

100

45

38

78

89

68

88

68

100

100

68

69

79

98

94

30

46

30

86

85

89

94

99

100

45

30

35

36

76

78

81

80

40

67

58

89

58

98

90

100 100

68

70

83

85

68

56

30

67

78

98

100

86

69

79

52

45

89

78

65

60

69

76

78

77

89

98

99

91

100

48

68

84

67

69

46

79

Finalmente, se calculan las frecuencias relativas por clase, dividiendo las frecuencias
entre la cantidad total de datos, en este caso 80, y se obtiene
Tabla 1.1

38

E stadstica y probabilidad

Tanto en estadstica como en probabilidad tiene un inters particular la acumulacin


de frecuencias, por lo que se definen dos nuevas medidas en las clases de frecuencia:
frecuencia acumulada y la frecuencia relativa acumulada.
Definicin 1.19
Se llama frecuencia acumulada a la funcin que representa la suma de las frecuencias por clase,
y se simboliza por F .
i

Definicin 1.20
Se llama frecuencia relativa acumulada a la funcin que representa la suma de las frecuencias
relativas por clase y se simboliza por F .
r

Clculo de las frecuencias acumuladas


Dado un conjunto con n datos, se divide en m intervalos de clase con frecuencias
f1, f2, . . ., fm, tales que f1 + f2 + . . . + fm = n (cantidad total de datos).
Bajo estas condiciones la frecuencia acumulada est dada por

F( x) =

xi x

fi

i = 1

Mientras que para el caso de la frecuencia relativa acumulada, las frecuencias


relativas por clase son
f1 f2
f
, ,..., m ;
n n
n
se cumple

f1 f2
f
+ + + m = 1 y, por tanto, se tiene
n n
n

Frecuencia relativa acumulada de una clase i es el cociente de la frecuencia acumulada de clase


i entre la cantidad total de datos n, es decir

Fr =

Fi
n

Debido a que en las frecuencias por clase no es de inters el valor de cada elemento
sino slo la cantidad de estos en la clase, se acostumbra realizar el conteo por medio de
las barras como antiguamente se llevaba a cabo; es decir, se pone una barra vertical por
elemento contado y cada vez que se llega a cuatro barras la quinta se coloca en diagonal.
Por ejemplo, para contar ocho elementos:

U nidad 1 E stadstica descriptiva

39

Con esta forma de conteo se puede construir, a partir de la tabla 1.1, una tabla
similar que contenga las frecuencias acumuladas
Tabla 1.2

1.7.3 Media, mediana y moda en clases de frecuencia


Al igual que se realiz con un conjunto de datos del cual se obtuvieron sus medidas
centrales y de desviacin, stas se pueden obtener para las clases de frecuencia empleando
los puntos medios de las clases y sus frecuencias de clase.
Definicin 1.21
Sea k el nmero de clases, x el punto medio de la i-sima clase y f la frecuencia de la i-sima
i
i
clase, entonces el valor de la media aritmtica se calcula con la frmula

x=

fi x i
i = 1 n

Otro valor promedio importante es la mediana (Md ), que divide la distribucin en


dos reas iguales; numricamente se compara con la media aritmtica x.
Se puede obtener el clculo de la mediana con la siguiente frmula:

donde

L = lmite inferior de clase mediana


l = longitud del intervalo de clase mediana
n
= mitad de las observaciones
2
C = frecuencia acumulada anterior a la clase mediana
f = frecuencia del intervalo de clase mediana

2 C
Md = L + l

40

E stadstica y probabilidad

La clase mediana es el intervalo que incluye la mitad de las observaciones; es posible


definirla al calcular la frecuencia acumulada F.
Ejemplo 14
Solucin

Con los datos del ejemplo 13, se calcula la mediana Md.


El intervalo de clase mediana es [70, 80), ya que F5 = 46 incluye a la mitad de las observaciones n/2 = 80/2 = 40; l = 80 70 = 10.
n

2 C
40 34
6
Md = L + l
= 70 + 10
= 70 + 10 = 70 + 5 = 75
f
12

12

El valor promedio moda (Mo ), que se comparar con los valores numricos de la
media aritmtica x y la mediana Md, se calcula con la frmula:

donde

L = lmite inferior de la clase modal

l = longitud del intervalo de clase modal


d1
d1 = diferencia en frecuencia del intervalo de clase modal
Mo = L + l


con el anterior
d1 + d2

d2 = diferencia en frecuencia del intervalo de clase modal
con el posterior

La clase modal es el intervalo que tiene en su frecuencia el nmero mayor.


Ejemplo 15
Solucin

Con los datos del ejemplo 13, se calcula el valor promedio moda (Mo ).
El intervalo de clase modal es [90, 100] ya que la mayor frecuencia est en F7 = 19 con
L = 90, l = 10, d1 = 19 15 = 4 y d2 = 19 0 = 19.
d1
4
4
Mo = L + l
= 90 + 10
= 90 + 10 = 90 + 10(..1739) = 90 + 1.739
d
+
d
19
+
4

23
1 2
= 91.74 92

1.7.4 Varianza en clases de frecuencia


De forma similar a la media de clases de frecuencia se pueden definir las varianzas sesgada
e insesgada de las clases de frecuencia.
Definicin 1.22
Si f y x son la frecuencia y el punto medio de la i-sima clase, respectivamente, y n es la suma
i
i
de las frecuencias, entonces la varianza sesgada s2 se calcula con la frmula
k

s2 =

1
fi ( x i x )2
n i = 1

U nidad 1 E stadstica descriptiva

Definicin 1.23

41

La varianza insesgada s2 se calcula con la frmula


1 k
2

s =

fi ( x i x )2

n 1 i = 1

La desviacin estndar por clases de frecuencia seguir siendo la raz cuadrada positiva
de la varianza correspondiente.
Nota

La media y varianza por clases de frecuencia generalmente se emplean para observar la


distribucin de datos muestrales, pero en caso de querer definir estas medidas para datos
poblacionales se realiza de forma similar, sustituyendo la n por N, x por y s por , como
se hizo en las secciones 1.5 y 1.6.

Ejemplo 16

Se calcula la varianza sesgada de las clases de frecuencia con los datos del ejemplo 13.
Para realizar los clculos ms fcilmente se utilizar l
a tabla 1.2,
tan slo introduciendo algunas columnas:

Tabla 1.3

La suma de la quinta columna dividida entre 80 corresponde al valor promedio de


la media aritmtica.
x=

5 770
= 72.125 72
80

Por la definicin de varianza sesgada se tiene


s2 =

1
( 30 640 ) = 382.984 383
80

Mientras que la desviacin estndar correspondiente es


s = s2 = 383 19.57

42

E stadstica y probabilidad

Ejercicio 3
1. En la siguiente tabla se dan los tiempos de llegada en minutos de 60 aviones a un
aeropuerto.
2.6

3.9

4.5

4.0

3.7

3.2

5.7

4.3

3.8

3.6

4.7

6.1

6.0

5.0

4.5

6.2

3.4

2.9

3.6

4.1

2.5

2.8

3.2

3.1

4.6

5.2

6.1

4.5

4.1

3.8

7.2

3.4

7.9

3.6

3.6

4.8

5.2

6.3

8.2

5.3

3.9

4.6

4.5

5.7

4.8

6.9

6.3

2.6

2.5

6.8

8.0

5.6

3.9

4.6

4.8

5.9

6.2

3.2

4.5

5.0


a) distribuye los datos en cinco clases de frecuencia
b) calcula su media y varianza sesgada por medio de las clases anteriores
2. Una mquina despachadora de refrescos de un centro comercial parece estar
fallando, puesto que el encargado ha recibido varias quejas en la ltima semana; l
decide registrar la cantidad de contenido en 40 vasos despachados por dicha

mquina y dividirlos en tres clases de igual longitud, si 70% o ms de los refrescos
despachados se encuentra en la clase media, el encargado seguir trabajando con la
mquina, en caso contrario la mandar reparar. Los valores (en mililitros) medidos son:
245.6 236.9 240.7 235.9 247.8 246.5 230.8 250.6 248.0 247.4
238.6 240.0 246.9 258.9 245.6 248.5 246.8 245.6 247.8 256.0
243.0 243.3 240.6 250.2 249.6 243.8 246.9 247.8 243.0 246.4
230.5 228.9 235.7 248.9 248.9 245.7 240.8 246.8 246.2 250.0

a) divide los valores en tres clases de frecuencia de igual longitud, calcula sus
frecuencias relativas e indica si el encargado tendr que reparar la mquina o no
b) calcula la cantidad de lquido promedio que despacha la mquina, empleando
las clases de frecuencia del inciso anterior

3. Si en el ejercicio anterior, adems de la consideracin del porcentaje, se toma en


cuenta la desviacin estndar de las clases de frecuencia, por medio del criterio
la mquina se reparar en caso de que la desviacin estndar sea mayor a seis,
determina si el fabricante, segn los datos observados, tendr que reparar la

mquina.
4. Se estudi el tiempo de vida de 90 personas con sida y se anot su duracin en
meses, y se obtuvo

34.0

28.5

18.0

34.9

25.8

16.9

15.8

19.0

11.5

25.9

38.9

34.0

16.8

27.8

24.6

22.8

16.8

39.0

42.0

48.0

34.8

33.0

23.9

27.5

35.8

36.9

26.7

26.8

26.5
34.7

35.9

25.8

24.8

45.8

18.9

35.8

35.8

46.9

36.8

35.9

52.0

33.6

24.8

25.9

26.8

26.8

29.4

37.8

35.9

10.8

25.8

35.8

26.8

25.7

26.9

27.9

38.5

35.8

30.2

28.6

33.1

34.7

45.9

56.8

45.8

25.8

50.2

42.9

46.8

48.9

47.5

48.2

42.5

40.8

27.9

24.8

46.8

40.7

18.9

22.0

29.5

31.9

48.2

34.8

47.2

27.0

39.8

45.8

40.4

38.2

Ordena en diez clases de frecuencia y calcula la media y varianza de los datos.

U nidad 1 E stadstica descriptiva

43

1.8 Grficas
Las grficas a las que se hace referencia en estadstica descriptiva deben mostrar la
distribucin de las frecuencias o frecuencias acumuladas del conjunto de datos, con lo
cual se podr entender e interpretar fcilmente su comportamiento.
Por tanto, es necesario introducir un nuevo mtodo grfico para la interpretacin
de datos, entre los grficos ms comunes estn
diagrama de barras
polgono de frecuencias
diagrama circular o de pastel

1.8.1 Diagrama de barras


Uno de los grficos que ms se emplean para representar un conjunto de datos es el
diagrama de barras, donde se grafican una serie de rectngulos sobre un sistema de
referencia. Cuando se construyen los rectngulos con sus bases sobre cada uno de los
intervalos de clase y con sus alturas las frecuencias correspondientes de clase, el grfico
se llama histograma.
Definicin 1.24
Un histograma es un grfico de barras utilizado para representar la forma en que estn distribuidas
las frecuencias; permite identificar el centro y la variabilidad de los datos.

La construccin de histogramas comienza prcticamente igual que en las clases de


frecuencia:
1. Se construyen los intervalos de clase.
2. Se encuentra el punto medio de cada intervalo de clase.
3. En el plano cartesiano, en el eje de las abscisas, se distribuirn los puntos
medios de las clases de frecuencia, mientras que en el eje de las ordenadas
se distribuirn las frecuencias de los datos. Finalmente, se construye el
histograma graficando una barra por cada clase, y cuyo centro ser el punto
medio de sta, de tal manera que la altura de la barra es la frecuencia o fre
cuencia relativa y la base de los rectngulos est definida por los lmites de
cada clase.
Para facilitar la construccin de un histograma es recomendable emplear slo
intervalos de clase de igual longitud, ya que en dado caso las frecuencias de las clases se
grafican de manera proporcional a las alturas de los rectngulos y adems es mucho ms
fcil comparar las diferencias entre frecuencias cuando los rectngulos tienen la misma base.
Ejemplo 17

Se construye un histograma para las clases de frecuencia y la frecuencia acumulada del


ejemplo 13.

44

E stadstica y probabilidad

Empleando la tabla 1.2:


Tabla 1.4

Se grafican los puntos medios de los intervalos (tercera columna) y se trazan los
rectngulos con sus bases iguales a la longitud de la clase y con las alturas correspondientes a su frecuencia, como se muestra en las siguientes figuras:
Figura 1.1
a) histogramas para las clases
de frecuencia y b) histogramas para
las frecuencias acumuladas.

F(x)
80

19
15

61

12

46

8
7
4
0

34

25

35

45

55

65

75

85

95

105

19
15
8
0

a)

Nota

25

35

45

55

65

75

85

95

105

b)

Para las frecuencias relativas el histograma es el mismo, slo se divide cada frecuencia
entre el total de datos.

Modelos de distribucin de datos


Los histogramas no slo nos ayudan a ubicar el centro y visualizar la variabilidad de los
datos, sino tambin la forma en que se distribuyen; por tanto, los podemos clasificar en
simtricos
sesgados hacia la izquierda o la derecha
multimodales

U nidad 1 E stadstica descriptiva

45

Histogramas simtricos
Presentan la distribucin en forma de campana, es decir, la mitad izquierda es una imagen
reflejada de la mitad derecha. Como muestra la figura 1.2a, se cumple x = Md = Mo.
Histogramas sesgados
En una distribucin de datos
qu significa sesgo? Qu forma tienen
los histogramas sesgados?

Presentan una distribucin en la que alguna de las colas est ms alargada en comparacin
con la otra. Se llaman sesgados a la derecha o positivamente sesgados si la cola derecha es la
que est ms alargada. Como lo muestra la figura 1.2b, se cumple Mo < Md < x. Se les
llama sesgados a la izquierda o negativamente cuando la cola izquierda es la ms alargada.
Como lo muestra la figura 1.2c, se cumple x < Md < Mo.
Histogramas multimodales
Tienen en su distribucin ms de un pico (ver figura 1.2d). En caso de dos picos bimodal,
en caso de tres, trimodal etctera.

Figura 1.2
Histogramas para las clases de frecuencia
a) simtrico; b) sesgado a la derecha;
c) sesgado a la izquierda,
y d) multimodal (bimodal).

Ejemplo 18

a)

b)

c)

d)

Retomando los datos del ejemplo 13 y comparando los valores promedio calculados x =
72, Md = 75, Mo = 92, el modelo asociado con las 80 calificaciones de fsica experimental
es sesgado a la izquierda.

46

E stadstica y probabilidad

1.8.2 Polgono de frecuencias


En ciertas reas de estudio se requiere que las representaciones grficas de la distribucin
de las frecuencias de datos sean hechas por lneas en lugar de barras. Por ejemplo, al
realizar un estudio sobre los pronsticos de algn evento se visualiza mejor la distribucin
de sus frecuencias y sus tendencias si se unen sus puntos medios con segmentos rectilneos
en lugar de trazar barras.
Definicin 1.25
Un polgono de frecuencias es un grfico de lnea que representa las frecuencias de los datos,
uniendo por lneas los puntos medios de cada intervalo, donde x es el punto medio de clase i y f
i
i
su frecuencia. Debido a su forma tambin se le suele llamar grfico poligonal.

Construccin de un grfico poligonal


1. Se crean los intervalos de clase.
2. Se encuentra el punto medio de cada intervalo de clase.
3. En el plano cartesiano, en el eje de las abscisas, se distribuirn los puntos
medios de las clases de frecuencia, mientras que en el eje de las ordenadas se
distribuirn las frecuencias de los datos. Finalmente, se construye el grfico
poligonal uniendo los puntos obtenidos.
Ejemplo 19

Se construye un polgono de frecuencias para las clases del ejemplo 13. Por medio de la
tabla 1.4, si se grafican los puntos obtenidos de la tercera y la cuarta columnas:
f

Figura 1.3
Polgono de frecuencias.
19
15
12
8
7
4
0

35

45

55

65

75

85

95

Los polgonos de frecuencia se emplean frecuentemente en el estudio de las series


de tiempo, pues es comn querer conocer la tendencia de la distribucin de los datos
con respecto al tiempo. Adems, en ciertas situaciones, cuando se quieren comparar las
distribuciones de dos o ms conjuntos de datos, es mejor hacerlo por medio de los polgonos
de frecuencias que mediante las barras, puesto que los primeros se pueden sobreponer y
realizar una observacin mucho mejor, lo que no es aplicable con los histogramas.

U nidad 1 E stadstica descriptiva

47

Definicin 1.26
A los polgonos de frecuencia que se elaboran con las frecuencias acumuladas o las frecuencias
relativas acumuladas se les llama ojivas.

Ejemplo 20
Figura 1.4
Ojiva de frecuencias relativas acumuladas.

Se construye la ojiva para las frecuencias relativas acumuladas del ejemplo 13.
1

0.7625
0.5750
0.4250
0.2375
0.1875
0.10
0

1.8.3 Diagrama circular o de pastel


En qu casos graficamos datos
con los diagramas circulares?

Otro tipo de representacin grfica de la distribucin de datos muy empleado, cuando


se quieren ilustrar las proporciones de los datos de tal forma que llamen la atencin, son
los diagramas circulares.

Definicin 1.28
Un diagrama circular es un grfico que divide en sectores un crculo, los cuales representan las
frecuencias relativas del conjunto de datos. Por su forma tambin se le suele llamar diagrama de pastel.

Construccin de un diagrama circular


1. Se crean los intervalos de clase.
2. Se calculan las frecuencias relativas por clase.
3. A partir del centro de un crculo se trazan sectores proporcionales al rea que
representen la frecuencia relativa por clase.
Ejemplo 21

Se construye un diagrama circular que represente la distribucin por clases de frecuencias


relativas para las estaturas (en centmetros) de la siguiente muestra de 50 personas.

48

E stadstica y probabilidad

Como son 50 datos y se van a distribuir en siete clases, primero se calcula el rango
del conjunto r = 186.4 158.4 = 28
Se quieren obtener siete clases, por tanto, se divide el rango 28 entre siete y el resultado
es cuatro. Este valor ser la longitud de cada una de las clases de frecuencia. Es decir
[158.4,162.4), [162.4,166.4), [166.4,170.4), [170.4,174.4),
[174.4,178.4), [178.4,182.4), [182.4,186.4)

Para obtener el rea que representa la frecuencia relativa en el digrama circular, se


multiplica la frecuencia relativa por 360.
Tabla 1.5

Figura 1.5
a) diagrama circular o de pastel
del ejemplo 21 en su forma plana;
b) representacin tridimensional.

Clase

Intervalo

[158.4, 162.4)

0.04

[162.4, 166.4)

0.10

[166.4, 170.4)

0.16

[170.4, 174.4)

12

0.24

[174.4, 178.4)

12

0.24

[178.4, 182.4)

0.18

[182.4, 186.4]

0.04

12
24%

12
24%

8
16%
5
10%

Conteo

9
18%

Frecuencia Frecuencia
fi
relativa

24%

16%

10%

24%

4% 4%

18%

2 2
4% 4%

a)

b)

Con el avance de la informtica y la creacin de software, han aumentado las


representaciones grficas para las distribuciones de los datos; en esta unidad slo se han
ilustrado algunas de ellas. A continuacin se mencionan otros tipos de diagramas:
anillos
superficies
cotizaciones
cilndricas
cnicas
piramidales
Todas stas se pueden encontrar en software estadstico para computadora.

Вам также может понравиться