Вы находитесь на странице: 1из 57

INSTITUTO TECNOLOGICO SUPERIOR DE MISANTLA

Probabilidad y Estadística
(ESTADÍSTICA DESCRIPTIVA)

Guía d i d á c t i ca

Agosto de 2011

1
VARIABLES Y REPRESENTACIONES
INTRODUCCIÓN

Estadística: Es un método científico que recopila, organiza, analiza e interpreta los datos
obtenidos para tener conocimiento de los hechos pasados, para prever situaciones futuras y tomar
decisiones en base a la experiencia.

En el estudio de la estadística, se diferencian dos tipos de estadísticas:

Estadística descriptiva o deductiva y Estadística inferencial o inductiva.

Estadística Descriptiva: Es aquella cuyo objetivo es describir cuantitativamente una serie de


personas, animales o cosas, su estudio incluye las técnicas de colectar, presentar, analizar e
interpretar datos.

Esta parte de la estadística es la que estudiaremos en el presente curso de probabilidad y


estadística 1, será la que nos auxilie a resolver preguntas de investigaciones como las siguientes:
¿Cómo ordenar los datos y analizarlos adecuadamente? ¿Qué tipo de representación gráfica es
más conveniente utilizar para presentar los datos? ¿Cuál es la media aritmética o promedio de los
datos obtenidos? ¿Qué tan dispersos están los datos con respecto a otra muestra?

Estadística Inferencial: Es aquella cuyo objetivo es obtener información sobre una


población o grupo grande de personas o cosas, mediante un metódico procedimiento de los
datos de una muestra tomada de él.

Este último tipo de estadística no la utilizaremos en éste curso, pero hagamos un ejercicio para
analizar cuál es la diferencia entre estos dos tipos de estadística:

A un grupo de 50 alumnos del CBTA 107 extensión Xalisco le preguntamos ¿Cuál es la materia
que les gusta más? Los datos arrojados por ésta encuesta, en éste grupo en particular, es
incumbencia de la Estadística Descriptiva, ya que ordenamos los datos, los analizamos obteniendo
sus parámetros como la media, la desviación, los graficamos y hasta los interpretamos Pero…
Si queremos hacer conclusiones a nivel estatal de todos los alumnos de los CBTAs del estado de
Nayarit, éste grupo de 50 encuestados sería una parte de las diferentes muestras que nos servirían
para saber la tendencia de toda la población estudiantil respecto a la materia que les gusta mas, y
debemos tomar más muestras de estudiantes de otros CBTAs, por lo cual ya entraríamos en el
campo de la Estadística Inferencial y sus datos deberán de analizarse de otra manera más
profunda, haciendo pruebas de hipótesis para obtener las inferencias o conclusiones a futuro.

Con tus propias palabras escribe

¿CUAL ES LA DIFERENCIA ENTRE ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA


INFERENCIAL?
_______________________________________________________________________________
_______________________________________________________________________________
_______________________________________________________________________________

2
Población: Es el conjunto de todos los elementos, medidas, individuos y objetos que tienen una
característica en común, pero en muchas ocasiones debido a limitaciones de tiempo o de recursos
no se puede trabajar con la totalidad de la población.

Muestra: Es la parte de una población que podemos utilizar para obtener conclusiones de toda una
población sin tener que analizar su totalidad.

La muestra elegida debe cumplir con ciertos requisitos indispensables:

a) Validez. Debe representar a la población, esto es, ha de pertenecer a ésta y ser elegida al azar
o en forma aleatoria, para que todos los elementos de la población tengan la misma probabilidad
de ser considerados.

b) Confiable. Los resultados que se obtengan deben poder generalizarse a toda la población con
cierto grado de precisión.

c) Práctica. Debe ser sencilla de llevar acabo.

d) Eficiente. Debe proporcionar la mayor información con el menor costo.

DATOS: Son las medidas, valores o características susceptibles de ser observadas y contadas.

VARIABLES: Es una propiedad o característica de algún evento, objeto o persona, que puede
tener diversos valores en diferentes instantes, según las condiciones. La altura, el peso, el tiempo
de reacción y la dosis de un medicamento, son ejemplos de variables.
Las variables son las herramientas fundamentales de la estadística y se clasifican de la siguiente
manera:

En las VARIABLES CATEGÓRICAS los valores pueden ser EXPRESIONES y también estas
expresiones pueden ser sustituidas por SÍMBOLOS que nos permiten diferenciar la categoría a la
que pertenece cada individuo, la cual está determinada por el valor de la variable.

Hagamos unos ejemplos:

Si queremos saber la forma en que se trasladan los estudiantes del CBTA-XALISCO para recibir
sus clases grupales; preguntaremos a cada estudiante del grupo, si usualmente se trasladan de su
casa a la escuela CAMINANDO o EN ALGÚN VEHICULO, por lo tanto los valores de la variable
serán (C) "caminando" o (V) " Vehículo" y se clasifican a los alumnos en éstas dos categorías.

3
Otro ejemplo:
Si quisiéramos conocer la materia que prefieren los estudiantes de una lista de 4 materias en
donde se incluyen Ciencias Sociales, Matemáticas, Ciencias Naturales y Español; En este caso la
materia de preferencia puede tomar cuatro valores: (CS) que es Ciencias Sociales; (M) que es
Matemáticas, (CN) Ciencias Naturales y (E) será Español. Es claro pues que la variable , materia
de preferencia clasifica a los estudiantes en cuatro categorías.

Observa que los valores que pueden tomar las variables en los ejemplos anteriores son
EXPRESIONES y que estas expresiones han sido sustituidas por SÍMBOLOS que nos permiten
diferenciar la categoría a la que pertenece cada individuo, la cual está determinada por el valor de
la variable. Los ejemplos anteriores son VARIABLES CATEGÓRICAS NOMINALES.

Veamos ahora otros ejemplos de VARIABLES CATEGÓRICAS:

Si deseamos saber si el contenido de la materia de Procesos de Producción Pecuaria tiene


relación con las prácticas de campo que se realizaron el semestre pasado y le pedimos la opinión a
cada estudiante, los valores que puede tomar la variable pueden ser: "Nunca" (A), "Raras veces"
(B), "Algunas veces" (C), Casi siempre" (D) y "Siempre" (E). Observe que esta variable clasifica a
cada uno de los estudiantes que contestaron la pregunta, según la opinión que haya elegido.

Otro ejemplo:
Si queremos saber cómo se alimentan los estudiantes del CBTA-XALISCO, para relacionarlo con
el aprovechamiento escolar, preguntaremos cada semana a todos los estudiante del grupo, cuáles
alimentos ingirieron durante la semana y clasificamos la variable calidad de la alimentación de la
siguiente manera: “MD” al alumno que se alimentó muy deficientemente, “D” el de alimentación
deficiente, “R” el de alimentación regular, “B” el de alimentación buena y “MB” el de alimentación
muy buena. Con esto todos los estudiantes del grupo, quedarán distribuidos en cinco posibles
categorías.

Observa que los valores de las variables también son EXPRESIONES, sin embargo, entre los
valores de estos dos ejemplos últimos hay UN ORDEN. Los ejemplos anteriores SON VARIABLES
CATEGÓRICAS ORDINALES.

Si comprendiste, escribe con tus propias palabras:

¿Cuándo es variable Categórica nominal?

______________________________________________________________________

¿Cuándo es una variable Categórica Ordinal?

______________________________________________________________________

4
Ahora con las VARIABLES NUMÉRICAS.

En las variables numéricas, sus valores no son expresiones sino NUMEROS y es en donde
además tiene sentido efectuar operaciones aritméticas con ellos y compararlos.

Si los valores de la variable son NÚMEROS ENTEROS, se llamará NUMÉRICA DISCRETA, pero
si los valores de la variable pueden tomar CUALQUIER VALOR NUMÉRICO en algún intervalo de
números reales (con decimales o fracciones), la variable será NUMÉRICA CONTINUA.

Hagamos unos ejemplos:

Si queremos saber el número de hermanos de los alumnos del CBTA-XALISCO. Serán desde cero
en adelante y como es lógico no puede haber medio hermano o tres cuartos de hermano, por lo
tanto la variable número de hermanos es una variable numérica discreta.

Otro ejemplo será el número de preguntas acertadas en un examen de conocimientos; los años
cumplidos de los estudiantes, el número de materias que cursan en el quinto semestre, etc.... Ya
que son variables numéricas que pueden tomar sólo valores enteros.

Veamos por último los ejemplos de las variables numéricas continuas:

Si queremos saber la estatura de los alumnos del quinto semestre con una aproximación a
milímetros, tendríamos que utilizar una regla de dos metros y dividida en centímetros y milímetros.
Los valores posibles de la variable serán todos los números pertenecientes a algún intervalo.

Otro ejemplo es El peso que tienen las personas que asisten a un evento será también una
variable numérica continua, pues podrán pesar kilos, con gramos y hasta miligramos, dependiendo
de la precisión que queramos los resultados.

Si observas estas variables numéricas pueden tomar cualquier valor en algún intervalo.

AHORA TE TOCA PRACTICAR LOS SIGUIENTES EJERCICIOS:


ACTIVIDADES DE APRENDIZAJE:
Describe los valores que pueden tomar las siguientes variables y escribe si ésta es, una variable
categórica nominal, categórica ordinal, numérica discreta o numérica continua:

a) El Género (sexo) de cada alumno del grupo de quinto semestre.


Variable: __________________________________________

b) La cantidad de estudiantes en cada grupo de una escuela:


Variable: _________________________________________

5
c) El Peso de los niños mexicanos de 6 años.
Variable: ________________________________________

d) El daño causado a los pulmones de los jóvenes que fuman.


Variable: _______________________________________

e) Tipo de material con el que se construyen los techos de las viviendas de una localidad.
Variable: ________________________________

f) El número de naranjas producidas por cada naranjo en una huerta.

Variable: _______________________________________

g) La cantidad de afecto o amor que siente un niño por su mamá.

Variable: ______________________________________

h) El tiempo de reacción de una sustancia química en el laboratorio.

Variable: ______________________________________

REDONDEO DE DATOS
Dado que estaremos dando nuestras respuestas finales con dos decimales y en ciertas ocasiones
hasta con cuatro cifras decimales, necesitamos decidir cómo determinar el valor de los últimos
dígitos.

Si nuestro resultado final tiene ENTEROS redondearemos a DOS DECIMALES

Primer ejemplo cuando el residuo es menor que 0.5: 34.01350 = 34.01 es la respuesta potencial y .
350 el residuo; como .350 es menor que 0.5, el último dígito de la respuesta potencial permanece
sin cambio y la respuesta final es 34.01

Segundo ejemplo cuando el residuo es mayor que 0.5: 34.01761 34.01 es la respuesta potencial
y .761 el residuo; como .761 es mayor que 0.5, al último dígito de la respuesta potencial debemos
sumar 1 al último dígito, por lo que la respuesta correcta es 34.02

Tercer ejemplo cuando el residuo es igual a 0.5 y el último dígito de la respuesta potencial es
impar: 43.07500 43.07 es la respuesta potencial y .500 el residuo; como es impar el último dígito
de la respuesta potencial se AUMENTA 1, por lo que la respuesta correcta es 43.08

Cuarto ejemplo cuando el residuo es igual a 0.5 y el último dígito de la respuesta potencial es par:
17.06500 17.06 es la respuesta potencial y .500 el residuo; como es par el último dígito de la
respuesta potencial NO se aumenta 1, por lo que la respuesta correcta es 17.06

Si nuestro resultado final tiene puras DECIMALES redondeamos a CUATRO DECIMALES

6
Siguiendo los mismos principios anteriores, si tenemos una cifra de 0.7544762 su respuesta
correcta es 0.7545; en cambio si es 0.1136211 la respuesta correcta es 0.1136; si tenemos que
0.3463500 lo correcto será 0.3464; finalmente si tenemos 0.7728500 lo correcto será 0.7728.

ACTIVIDADES DE APRENDIZAJE DE “REDONDEO”.


Redondea las siguientes cifras:

22.666666 = __________________ 0.7654598 = ___________________

57.87754 = ____________________ 0.0663597= ___________________

3876.2255 = ___________________ 0.3877865 = ___________________

99.7156 = _____________________ 0.005329 = _____________________

NOTACIÓN SISTEMATIZADA
En estadística, por lo general, trabajamos con datos agrupados resultantes de medir una o más
variables. Con gran frecuencia, los datos se obtienen de las muestras y en ocasiones de las
poblaciones. Para fines matemáticos, generalmente se utiliza la letra mayúscula X y a veces la Y,
para representar la(s) variable(s). Así, si estuviéramos midiendo la edad de los sujetos, haríamos
que X represente la variable “edad”. Si existen muchos valores de la variable agregamos un
subíndice al símbolo X. Ilustramos este proceso en la siguiente tabla, la cual contiene las edades
de seis sujetos:

Número Símbolo Valor del dato,


de sujeto del dato Edades
1 X1 8
2 X2 10
3 X3 7
4 X4 6
5 X5 10
6 X6 12

En este ejemplo representamos la variable “edad” mediante el símbolo X, además, N representa el


número total de datos que hay en la distribución. En este ejemplo, N = 6, Cada uno de los seis
datos representa un valor específico de X. Distinguimos los seis datos diferentes, al agregar un
subíndice a X, correspondiente al número de sujeto que tiene el valor dado. Así, el símbolo X 1
corresponde al valor del dato 8, X 2 al valor del dato 10 hasta el X 6 al 12. En general, podemos
referirnos a un único dato de la distribución X como X i, donde i puede asumir cualquier valor de 1 a
N, según el dato que queramos designar. En resumen:

X o Y representa la variable medida.


N representa el número total de sujetos o datos.
Xi es el i-ésimo dato, donde i puede variar de 1 a N

CIFRAS SIGNIFICATIVAS:
En la estadística analizamos datos; este análisis implica muchos cálculos matemáticos. Con mucha
frecuencia tenemos un residuo decimal, por ejemplo, después de realizar una división. Cuando
esto ocurre, necesitamos decidir la cantidad de cifras decimales que utilizaremos para el residuo.
En las ciencias físicas, por lo general, se utiliza el mismo número de cifras significativas que tienen
los datos en bruto, Por ejemplo, si medimos el peso de cinco sujetos hasta tres cifras significativas

7
(173, 156, 162, 165, y 175 libras) y queremos calcular el promedio de estos pesos, nuestra
respuesta debe contener sólo tres cifras significativas. Así

X 
X 
173  156  162  165  175 831
  166.2  166
N 5 5

La respuesta de 166.2 se redondea a tres cifras significativas, dando un resultado final de 166
libras. Por varias razones y mas por continuar una tradición, en el presente curso de estadística
utilizaremos DOS cifras decimales redondeadas cuando el resultado tenga ENTEROS y CUATRO
cifras decimales cuando NO EXISTAN ENTEROS, sin importar las cifras significativas de los datos
en bruto. Así cuando se pida que el resultado tenga dos cifras decimales, debemos realizar los
cálculos intermedios con al menos CUATRO cifras decimales y redondear la respuesta final a dos
cifras.

CÁLCULOS
Una de las operaciones que se realizan con más frecuencia en estadística consiste en sumar todos
o una parte de los datos que pertenecen a una distribución. Como no es práctico escribir “suma de
todos los datos” cada vez que se necesite emplear esta operación, particularmente en las
ecuaciones, se utiliza una abreviatura simbólica. La letra griega mayúscula sigma ( ∑ ) indica la
operación de sumatoria. La frase algebraica utilizada para la sumatoria es:
N

X
i 1
i

Esta expresión se lee como “la suma de la variable X de i = 1 a N”. Las notaciones que aparecen
arriba y debajo del signo de la sumatoria indican los datos que deben incluirse en la operación. El
término que aparece debajo del signo de la sumatoria nos indica el primer dato en esta operación,
y el término que se encuentra arriba de dicho signo indica el último dato. Así, esta frase señala que
debemos sumar los datos X, comenzando con el primero y concluyendo con el N-ésimo dato.

Así.
N
Ecuación de una sumatoria
X
i 1
i  X 1  X 2  X 3  ...  X N

Al “aplicar la sumatoria” a los datos de las edades de la tabla anterior, tenemos que:
N

X
i 1
i  X1  X 2  X 3  X 4  X 5  X 6
=
8 + 10 + 7 + 6 + 10 + 12 = 53

Cuando la sumatoria se realiza con todos los datos (de 1 a N), es frecuente que la propia frase de
esta operación se abrevie, omitiendo las notaciones arriba y abajo del signo de la suma, al igual
que el subíndice i. Así. N


X i Se abrevia con frecuencia como X 
i 1

En el ejemplo anterior,  X= 53 Esta expresión indica que la suma de todos los datos X es 53.

Observa que no es necesario que la sumatoria se realice de 1 a N, Por ejemplo, podríamos querer
sumar sólo el segundo, tercer, cuarto y quinto dato. Recuerda que la notación debajo del signo
de la sumatoria nos dice dónde comenzar la suma, y el término arriba de dicho signo nos dice
dónde terminarla. 5
Utilizaríamos el símbolo 
X i Para los datos anteriores, tenemos que:
i 2

X
i 1
i  X 2  X 3  X 4  X 5  10  7  6  10  33

8
3

Resolvamos algunos ejemplos: X


i 1
i

Para los siguientes datos, determine X1= 10, X2 = 12, X3 = 13, X4= 18

3
Por lo tanto: X
i 1
i  10  12  13  35

4
Para los siguientes datos, determine X
i2
i  3 : X1=20, X2=24, X3=25, X4=28, X5=30, X6=31

4
Por lo tanto: X
i 2
i  3  (24  25  28)  3  80
4

Para los siguientes datos, determine (X


i 2
i  3) X 1=20, X2=24, X3=25, X4=28, X5=30,
X6=31

4
Por lo tanto: (X
i 2
i  3)  (24  3)  (25  3)  (28  3)  86

Existen otros dos tipos de sumatorias que veremos con frecuencia en estadística y son: ∑X 2 y
(∑X)2. Aunque se parecen, son distintos y, en general, proporcionan diferentes respuestas.

El símbolo ∑X2 (suma de los cuadrados de los datos X) indica que primero debemos elevar el
cuadrado de los datos X y luego sumarlos. Así:,

X 2
 X 12  X 22  X 32  ... X N2

El símbolo (∑X)2, o (el cuadrado de la suma de los datos X), indica que primero debemos sumar los
datos X y luego elevar al cuadrado la suma resultante. Así,

( X ) 2  ( X 1  X 2  X 3  ... X N ) 2

La confusión es muy común cometerlo, sobre todo cuando se calculan las desviaciones estándar,
eso lo analizaremos un poco mas adelante.
ACTIVIDADES DE APRENDIZAJE “CÁLCULO”

Primer ejercicio si X1=3; X2=6; X3=8; X4=2; X5=9; X6=1; X7=5

X
i 3
i 

(X
i 1
i  12) 

9
4

X
i2
i  205 

Segundo ejercicio si X1=10; X2=7; X3=3; X4=16; X5=2; X6=22;

6
( X i )  8 
2

i2

5
( X i ) 2  510 
i 1

10
DISTRIBUCIONES DE FRECUENCIAS

La Tabla de Distribución de Datos o Tabla de Distribución de Frecuencias, además de ser un


instrumento útil para resumir un conjunto de datos obtenidos en una investigación, es una
herramienta muy importante con que cuenta la estadística para realizar las observaciones de
manera rápida y sencilla.
Para construir dicha Tabla realizaremos siete pasos y para tu mejor aprendizaje, desarrollaremos
un ejemplo con una variable numérica continua, ya que deseamos conocer el “tiempo en minutos
que emplearon para estudiar” 50 estudiantes del CBTA en la materia de estadística 1.

PASO UNO: TOMA Y ORDENACIÓN DE DATOS:

La recopilación de los datos consiste en asistir al grupo de estudiantes y obtener los valores
mediante una pregunta abierta sobre el tiempo en minutos que emplearon para estudiar el tema de
estadística o si desconfiamos, podemos medir directamente el tiempo durante las asesorías que
emplearon cada uno de los alumnos al estudiar estadística. En resumen para recopilar los datos
debemos "asistir" al lugar donde vamos a 'tomar" o "levantar" los datos. Esto puede ser mediante
entrevistas, cuestionarios, observaciones o mediciones directas a los individuos o cosas que
corresponda nuestra variable.
Supongamos que los 50 datos obtenidos en nuestra variable: tiempo de estudio de la materia de
estadística en minutos fueron los siguientes y que corresponden a los 50 estudiantes:

75 60 80 67 81 71 74 63 72 70

76 62 82 63 81 66 78 68 80 74

67 74 84 70 63 77 68 82 74 72

76 64 75 80 69 85 71 79 60 74

83 75 67 72 78 64 77 81 76 70

La Ordenación de los datos consiste en colocar los datos tomados en orden creciente (de menor a
mayor) o decreciente (de mayor a menor). Nosotros los vamos a ordenar en forma creciente y
sobre todo "contando" y "anotando" los que se repitan, que será la frecuencia.
Ordenación de datos:

DISTRIBUCIÓN DE FRECUENCIAS

Tiempo empleado en minutos Conteo Frecuencia

60 // 2
62 / 1
63 /// 3
64 // 2
66 / 1
67 /// 3
68 // 2
69 / 1
70 /// 3
71 // 2
72 /// 3

11
74 ///// 5
75 /// 3
76 /// 3
77 // 2
78 // 2
79 / 1
80 /// 3
81 /// 3
82 // 2
83 / 1
84 / 1
85 / 1
Total 50

Es importante que la suma total sea igual al número de datos que tomamos en la investigación.

PASO DOS: RANGO.


El rango o recorrido es la diferencia que hay entre el dato mayor y el menor. Una vez que se
ordenaron los datos en forma creciente obtenemos el rango

85 que es el dato mayor


-60 que es el dato menor
25 será el rango o recorrido

PASO TRES: INTERVALOS DE CLASE.


Cuando se tiene un gran número de datos, se recomienda distribuirlos en clases o categorías
llamadas intervalos de clase o celdas. Para decidir la cantidad de intervalos de clase que se van a
utilizar (o número de clases) y la amplitud de los intervalos (o ancho del intervalo) se siguen las
siguientes operaciones:
Primero el NÚMERO DE CLASES o INTERVALOS se obtienen con la fórmula:
Q = 1 + 3.322 (log. n) donde n es el número de datos y log. Es el logaritmo de dicho número.
Siguiendo el ejemplo tenemos:

Q = 1+ 3.322 (log. 50) observa que obtendremos el logaritmo de 50. En una calculadora el
logaritmo de 50 es 1.69897... Redondeando su valor será 1.70 Este valor lo multiplicamos por
3.322 y nos da en la calculadora 5.64... Que redondeado será 5.64 y finalmente le sumamos 1 a
dicha cantidad arrojándonos = 6.64 Si el número que nos arroje la formula tiene su primera decimal
igual o mayor que .5 se aumenta el entero. Así en nuestro ejemplo tenemos que 6.6 seria igual a 7.
En resumen y de acuerdo a la formula el número de intervalos será de 7

Resulta claro que si lo ancho del intervalo es de 4 y el número de intervalos son 7; (4 ) (7) = 28 se
cubrirá todo el rango que es de 25.

Debemos hacer uso de los Límites reales Inferiores (L.R.I.), quitando 0.5 al dato más chico que
en nuestro caso es de 60 minutos. Por lo tanto será de 59.5 el L.R.I. Luego a este se le suma lo
ancho del intervalo que es de 4 resultando 63.5 que es el Límite Real Superior (L.R.S.) por lo
que ahora si podemos decir que los dos datos 64 se deberán anotarse en el 2do. Intervalo que
iniciaría en 63.5 hasta 67.5 como límite real superior.

Ahora si podemos construir cada uno de los intervalos con sus límites reales inferiores y limites
reales superiores.

ADELANTE AYÚDANOS A COMPLETAR EL SIGUIENTE CUADRO,

12
Recuerda que el ancho de cada intervalo es de 4 y que en total son siete (7) intervalos de acuerdo
a las operaciones realizadas anteriormente:

INTERVALOS DE CLASE
Límite Real Inferior Límite Real Superior
59.5 63.5
63.5
71.5
71.5

79.5
87.5

PASO CUATRO: TAMAÑO DEL INTERVALO DE CLASE.


Con los datos del ejemplo, el dato más bajo es el 60 y como el ancho del intervalo es de 4, su
límite superior será de 64. El siguiente intervalo sería 64 más 4 del ancho del intervalo nos da 68
como limite superior y así sucesivamente. ...

60 a 64
64 a 68
Intervalos 68 a 72
72 a etc…

Observación Importante: Si te fijas detenidamente en los intervalos y los datos ordenados del
cuadro anterior; los dos datos de 64 quedarían comprendidos en el 1er. y 2do. Intervalo, es decir,
pueden anotarse en el primero o en el segundo intervalo, también los 72 en el 3er o 4to intervalo;
pero se sabe que una observación dada (los 64 y 72) deben colocarse en uno y solamente uno de
los intervalos de clase.
Ahora para el ANCHO DEL INTERVALO: Se divide el rango entre el número de intervalos para
obtener la anchura de cada intervalo o celda.

Rango = 25 = 3.57 redondeando será igual a 4


Número de intervalos = 7

Por lo tanto el ancho del intervalo será de 4

13
PASO CINCO: MARCA DE CLASE.

La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los límites reales
inferiores más los límites reales superiores, dividiendo el resultado entre dos.

Hagámoslo practicando...Llena los espacios que faltan. Se suma 59.5 + 63.5 = 123 = 61.5
2

Intervalos de Clase
L.R. Inferior L.R. Superior MARCA DE CLASE
59.5 63.5 61.5
63.5 67.5
67.5 71.5
71.5 75.5
75.5 79.5
79.5 83.5
83.5 87.5 85.5

¿Como voy hacerle


aceboman?

PERO SI UNA GRÁFICA O DIBUJO DICE MAS QUE 100 PALABRAS

¿CÓMO PODEMOS PRESENTAR LOS DATOS DE UNA


VARIABLE NUMÉRICA EN UNA GRÁFICAS?

14
HISTOGRAMA y POLÍGONO DE FRECUENCIAS.

Cuando las variables son cuantitativas o numéricas sean discretas o continuas la representación
gráfica más común es el HISTOGRAMA DE FRECUENCIAS y el POLÍGONO DE FRECUENCIAS.

HISTOGRAMA DE FRECUENCIAS:
Este tipo de gráfica consiste en una serie de rectángulos trazados en un sistema de coordenadas
cartesianas o rectangulares. Para realizar el histograma es necesario agrupar los datos en
intervalos de clase, con sus límites reales inferiores y superiores, además de su frecuencia
absoluta.

Los rectángulos tienen sus bases sobre el eje horizontal con centros en las marcas de clase y su
longitud es igual a la anchura de los intervalos de clase. La altura de cada rectángulo corresponde
al valor de la frecuencia que tenga el intervalo que representa. En éstos histogramas los
rectángulos se trazan adyacentes entre si.

¡¡¡ VAMOS A PRACTICARLO PARA APRENDER MEJOR!!!


De acuerdo a los datos de la "Tabla de distribución de frecuencias" del ejemplo (pag.16), donde
analizamos el tiempo que dedican a estudiar la materia de estadística 50 estudiantes, vamos a
construir su Histograma de Frecuencias.

Histograma: Tiempo en minutos dedicados a estudiar


Estadística por 50 estudiantes

F
R 14 -
E
C 12 -
U
10 -
E
N 8 -
C
I 6 -
A
S 4 -

2 -

0 -

59.5 63.5 67.5 71.5 75.5 79.5 83.5 87.5


61.5

INTERVALOS DE CLASE (con sus L.R.I. y L.R.S.)

15
Si observas en el eje vertical de las "Y", se ubican las frecuencias absolutas, mientras que en el eje
horizontal de las "X" se ubican los intervalos de clase en donde cada límite real superior
corresponde al límite real inferior del siguiente intervalo. Las marcas de clase (61.5) aunque es
permitido no escribirse en el histograma, se pueden ubicar ya que corresponde al punto medio de
cada intervalo.

Como habrás observado, el histograma nos ayuda a mostrar la frecuencia absoluta con que se
presentan algunos datos; otra forma de gráfica son los…

F
R 14 -
E
C 12 -
U
E 10 -
N
C 8 -
I
6 -
A
S 4 -

2 -

61.5 65.5 69.5 73.5 77.5 81.5 85.5


MARCAS DE CLASE (puntos medios)

POLÍGONOS DE FRECUENCIA.
Los polígonos de frecuencia también se construyen a partir de datos con variables cuantitativas o
numéricas y se puede realizar a partir de un histograma si se desea.

Una vez trazado el histograma, se localizan los puntos medios o marcas de clase en la parte
superior de cada uno de los rectángulos o intervalos de clase. Se trazan segmentos de recta que
unen cada punto medio de cada uno de los intervalos.

Este polígono se encierra uniendo con el eje horizontal en el punto que corresponde al punto medio
de un rectángulo imaginario y adyacente al histograma, esto se hace en los extremos izquierdos y
derechos del polígono.

¡¡¡VAMOS HACIÉNDOLO CON EL MISMO EJEMPLO!!!

16
En el histograma se localizan los puntos medios en la parte superior de cada intervalo de clase y
en el eje horizontal, se indican las marcas de clase o puntos medios de cada intervalo.

Construyamos un polígono....

14 - Polígono de Frecuencia: Tiempo en minutos dedicados a estudiar


F Estadística por 50 estudiantes
R 12 -
E
10 -
C
U 8 -
E
N 6 -
C
I 4 -
A
S 2 -

61.5 65.5 69.5 73.5 77.5 81.5 85.5


MARCAS DE CLASE (Puntos medios)

Para trazar el polígono de frecuencia unimos con rectas los puntos medios o marcas de clase con
su frecuencia absoluta respectiva, en donde estaban la parte alta de los rectángulos del
histograma.
ACTIVIDADES DE APRENDIZAJE: Dibuja en ésta hoja el HISTOGRAMA y el POLIGONO DE
FRECUENCIAS del ejercicio de la página 16.

HISTOGRÁMA: “Estatura de 55 estudiantes”

POLÍGONO DE FRECUENCIAS. “Estatura de 55 estudiantes”

Escribe las conclusiones más importantes que nos indican las gráficas anteriores:
______________________________________________________________________

______________________________________________________________________

17
PASO SEIS: FRECUENCIA RELATIVA.

La Frecuencia Relativa, es la frecuencia que se representa con un Tanto por Ciento ( % ) y se


obtiene al dividir la frecuencia de un intervalo de clase entre el total de frecuencias de todas las
celdas por cien. La frecuencia Relativa se emplea para mostrar la proporción o porcentajes de los
valores incluidos en los intervalos de clase, por lo que también se le llama Distribución Porcentual.
SIGAMOS PRACTICANDO Y APRENDIENDO.
Del 1er. y 2do Intervalos; Frecuencia Relativa de clase = 6 = 0.12 x 100 = 12 %
50
Del 6to intervalo; La Frecuencia Relativa = 9 = 0.18 x 100 = 18 %
50
Con todos los datos anteriores, finalmente construyamos nuestra…

Tabla de distribución de frecuencias de una variable numérica


“Tiempo dedicado a estudiar la materia de estadística”
Intervalos de Clase Marca de Clase Frecuencia Frecuencia
L.R.I. L.R.S. Absoluta Relativa (%)
59.5 - 63.5 61.5 6 12
63.5 - 67.5 65.5 6 12
67.5 - 71.5 69.5 8 16
71.5 - 75.5 73.5 11 22
75.5 - 79.5 77.5 8 16
79.5 - 83.5 81.5 9 18
83.5 - 87.5 85.5 2 4
TOTAL = 50 100%

PASO SIETE: DISTRIBUCIÓN DE FRECUENCIAS ACUMULADAS


Así se llama al número de observaciones que pertenecen aun determinado intervalo. Para obtener
las frecuencias de cada clase es necesario contabilizar las observaciones, valores o casos
pertenecientes a cada intervalo, utilizando el cuadro donde ordenamos los datos que está en la
página 13. .
Sigamos Practicando
INTERVALOS DE CLASE
L.R. Inferior L.R. Superior MARCA DE FRECUENCIA
CLASE ABSOLUTA
59.5 63.5 61.5 6 (2+1+3)
63.5 67.5 65.5
67.5 71.5 69.5
71.5 75.5 73.5 11 (3+5+3)
75.5 79.5 77.5
79.5 83.5 81.5
83.5 87.5 85.5 2 (1+1)
TOTAL = 50

Con los datos anteriores terminamos los componentes principales del cuadro que también recibe el
nombre de... "TABLA DE DISTRIBUCIÓN DE FRECUENCIAS" por lo que...
Ya podemos obtener algunas CONCLUSIONES de nuestra investigación.

EJEMPLO DE ALGUNAS CONCLUSIONES…

Te recordamos que los 50 datos son del tiempo en minutos dedicado a estudiar estadística por los
estudiantes. Si analizamos detenidamente sus datos, podemos ver que el mayor número de casos
(frecuencia absoluta) es 11 y dedican de 71.5 a 75.5 minutos en estudiar (su intervalo) pero
además representan el mayor porcentaje con un 22% del total.

18
Caso contrario, son lo que dedican de 83.5 a 87.5 minutos en estudiar pues únicamente son 2 y
representan un 4 % del total.

Si observamos en global el cuadro, podemos decir que la mayoría de los estudiantes (Los
intervalos 3,4 y 5) dedican de 67.5 a 79.5 minutos en estudiar y representan el 54 % del total.

Analizando otros datos podremos obtener más conclusiones de nuestro trabajo e ir descubriendo lo
importante de nuestra investigación. Mas adelante aprenderás a realizar GRÁFICAS con los datos
obtenidos de la tabla de frecuencias. Quedamos pendientes. .. ,

AHORA REALIZA LA SIGUIENTE ACTIVIDAD DE APRENDIZAJE:

1) siguiendo los siete pasos para una variable numérica, ordena los datos de la siguiente variable y
realiza las operaciones correspondientes hasta obtener completa la "tabla de distribución de
frecuencias" de las “Estaturas de 55 estudiantes” con aproximación de un centímetro. Datos:

154 165 156 160 159 170 151 163 166 166 153
160 173 160 161 166 162 153 163 156 170 165
159 168 149 163 169 157 162 159 168 155 163
161 161 174 160 168 152 169 165 156 166 166
162 160 170 163 168 157 165 159 163 160 160

Aquí realiza los siete pasos y tus cálculos correctamente hasta llenar tu Tabla de distribución de
frecuencias
Paso 1 Ordenación de datos.

Paso 2 Rango... etc

Tabla de distribución de frecuencias de una variable numérica


“______________________________________________________”

Intervalos de Clase L.R.I. Marca de Clase Frecuencia Frecuencia


L.R.S. Absoluta Relativa (%)

TOTAL =

PRINCIPALES CONCLUSIONES:

1.____________________________________________________________________

2.____________________________________________________________________

3_____________________________________________________________________

19
DISTRIBUCIÓN DE FRECUENCIA RELATIVA ACUMULADA

Ahora estudiemos como se construye la DISTRIBUCIÓN DE FRECUENCIA ACUMULADA y su gráfica


LA OJIVA además de la FRECUENCIA RELATIVA ACUMULADA.

La frecuencia total de todos los valores menores que el límite real superior de un determinado intervalo de
clase, es conocida como frecuencia acumulada incluyendo hasta este intervalo. Lo anterior lo comprenderás
mejor si nos ayudas a resolver el ejemplo que sigue:

Si tomamos los datos obtenidos al medir el “tiempo en minutos que emplearon los estudiantes en ir de su casa
a la escuela”. Se construye la siguiente tabla de distribución de frecuencias y una columna que corresponde a
la distribución de frecuencia acumulada y otra a la frecuencia relativa acumulada.

Concluyen los datos que faltan en la frecuencia acumulada de clase, de tal forma que sumen un total de 243.
En la columna de frecuencia acumulada relativa, también calcula los espacios que faltan hasta que obtengas el
100%

INTERVALO MARCA FRECUENCIA FRECUENCIA FRECUENCIA


DE CLASE DE FRECUENCIA RELATIVA ACUMULADA RELATIVA
CLASE ABSOLUTA % ACUMULADA
9.5 – 12.5 11 3 6.38% 3 3/47X 100= 6.38%
12.5 –15.5 14 4 8.51% 7 (3+4 ) 7/47X100=14.89%
15.5 – 18.5 17 6 12.77% 13 (7+6)
18.5 – 21.5 20 7 14.89% 20 ( )
21.5 – 24.5 23 9 19.15%
24.5 – 27.5 26 8 17.02%
27.5 – 30.5 29 5 10.64%
30.5 – 33.5 32 3 6.38%
33.5 – 36.5 35 2 4.26% 100%
T O T A L: 47 100% 243

LA OJIVA O POLÍGONO DE FRECUENCIA ACUMULADA.

Se le llama ojiva o polígono de frecuencia acumulada, a la gráfica que muestra la distribución de frecuencia
acumulada. Al construirla, los intervalos de clase se disponen en el eje horizontal, y las frecuencias
acumuladas se representan en el eje vertical. Luego se unen los puntos localizados mediante segmentos.

Para entender la forma en que se traza una ojiva, considere el ejemplo de los datos obtenidos al registrar el
tiempo empleado por los estudiantes para ir de su casa a la escuela.

Primero se coloca un punto sobre el eje horizontal donde está el 9.5, puesto que no hay observaciones de ésta
o de inferior magnitud. Luego se traza el siguiente punto en el 12.5 a la altura del 3, esto se puede hacer
porque hay 3 registros iguales o menores de 12.5 de esta manera se continúan representando el resto de los
puntos.

Ejemplo: Tomando como base la distribución de frecuencia acumulada del ejemplo anterior, y el tiempo en
minutos que emplean los integrantes de un grupo de estudiantes de ir de su casa a la escuela, construyamos la
ojiva correspondiente:

20
50

45

40
FRECUENCIA ACUMULADA

35

30

25

20

15

10

0
9.5 12.5 15.5 18.5 21.5 24.5 27.5 30.5 33.5
INTERVALO DE CLASE

¿Esto es una ojiva Aceboman?

Yo creía que era la carga


explosiva de un misil de USA

21
En esta página transfiere los datos de la tabla de distribución de frecuencias del ejercicio de la
página 16 y en las dos columnas últimas obtén la FRECUENCIA ACUMULADA y la FRECUENCIA
RELATIVA ACUMULADA, además construye su gráfica llamada OJIVA.

TABLA DE DISTRIBUCIÓN DE FRECUENCIAS

INTERVALO MARCA FRECUENCIA FRECUENCIA FRECUENCIA


DE CLASE DE CLASE ABSOLUTA ACUMULADA RELATIVA
ACUMULADA

100%
T O T A L: 55 227

DIBUJA LA OJIVA O POLIGONO DE FRECUENCIA ACUMULADA

22
ME D IDAS D E T EN D E N CIA CE N TRAL
PROMEDIOS
En estadística al promedio se le conoce como medida de tendencia central, ya que está localizado hacia el
medio o centro de una distribución, en la que la mayoría de los valores tenderán a concentrarse. Entre los más
comunes se pueden mencionar: la media aritmética, la mediana y la moda

Media Aritmética

MEDIDAS DE TENDENCIA CENTRAL Mediana

Moda

LA MEDIA ( X ).

La media aritmética o simplemente media, es el promedio aritmético de un conjunto de observaciones y “se


obtiene al sumar todos los datos y dividir dicha suma entre el total de datos”.

MEDIA ARITMÉTICA PARA DATOS NO AGRUPADOS.

Algebraicamente se representa como:

X = X 1  X 2  X 3  ...  Xn
n
Donde:

X es la media aritmética de la muestra

X1 , X2, X3, ... Xn son los datos de la muestra y

“n” es el total de los datos de la muestra.

Ejemplo: En la muestra siguiente la media aritmética es:

X= 30  32  32  32  32  34  34  34  34  34  34  36  36  36  36  36  38  38  38  40
20
696
X= = 34.8
20

Obsérvese que la “media” no necesariamente tiene que ser uno de los valores de la muestra.

Una manera más sencilla de encontrar esta “media aritmética” es multiplicando cada dato por su frecuencia y
continuar el proceso respectivo, como se ilustra a continuación:

X=
1(30)  4(32)  6(34)  5(36)  3(38)  1(40)
20
30  128  204  180  114  40 696
X= X= X = 34.8
20 20

23
Principales características de la media aritmética:

1. El cálculo de la media aritmética está basado en todos los valores de un conjunto de datos. El valor
de cada elemento en los datos afecta el valor de la media.

2. Cuando algunos valores extremos son incluidos en los datos, la media puede llegar a ser menos
representativa del conjunto de valores.

3. La media tienen dos propiedades matemáticas importantes que proporcionan un análisis matemático
adicional, haciéndola más popular que cualquier otro tipo de promedio.
a. La suma algebraica de las desviaciones de los valores individuales respecto a la media, es
cero.
b. La suma del cuadrado de las desviaciones con respecto a la media es mínima.
~
LA MEDIANA ( X ) (Me)
~
La mediana ( X ) de una muestra de “n” datos, se localiza en la mitad de la muestra o del conjunto de
elementos ordenados de mayor a menor o viceversa.

Su característica principal es dividir el conjunto ordenado en 2 grupos iguales; la mitad de los números tendrá
valores que son “menores que” la mediana y la otra mitad alcanza “valores mayores” que ésta.

MEDIANA PARA DATOS NO AGRUPADOS


Si el número de elementos es impar, se toma el dato central; si es par la mediana está dada por el promedio de
los datos centrales, pudiéndose obtener un valor no dado en la muestra.

Ejemplo: ¿Cuál es la mediana aritmética de 3, 4, 4, 5, 6, 8, 8, 10?

Como los números están ya ordenados, la mediana es Me = 5+6 / 2 = “5.5“,

Otro ejemplo: 5.1, 6.5, 8.1, 9.1, 10.1, 15.5,

Como los números están ordenados, la mediana es Me = 8.1+9.1 / 2 = 8.6

Principales características de la mediana

1. La mediana es un promedio de posición y por su forma de cálculo no es afectada por valores


extremos.

2. La mediana no está definida algebraicamente como lo está la media aritmética.

3. La mediana en algunos casos, no puede ser calculada exactamente como sí puede serlo la media.

4. Cuando el número de elementos incluidos en una serie de datos es par, la mediana es


aproximadamente el punto medio de los elementos centrales en una serie de datos.

^
LA MODA ( ) (Mo)
X
La moda se define como el valor que tiene la mayor frecuencia (o que se repite mas) en un grupo de datos,

24
Hay casos en que la moda no es única, esto es, puede ser bimodal con dos modas, o trimodal con tres modas.
También hay casos en que la moda no existe.

MODA PARA DATOS NO AGRUPADOS.

Ejemplo: ¿Cuál es la moda de la serie: 4, 5, 5, 6, 7, 7, 7, 8, 9, 1

La Moda es Mo = 7 porque es el número que más se repite.

Otro ejemplo: 60, 74, 82, 85, 90, 95,

La moda no existe.

Otro ejemplo: 10,12, 14, 16, 17, 17, 18, 19, 20, 20, 21.

La moda es bimodal o sea, Mo = 17 y 20

Principales características de la Moda.

1. La moda representa más elementos que cualquier otro valor dentro de un conjunto de datos.

2. La moda no se calcula incluyendo todos los valores y no está definida algebraicamente como si lo
está la media.

3. La moda no es afectada por valores extremos.

4. Para una distribución de frecuencias, la moda no puede ser calculada exactamente, como si puede
serlo la media.

En resumen, hagamos una comparación de estas tres medidas de tendencia central.

COMPARACIÓN DE LA MEDIA, MEDIANA Y MODA.

En comparación con la media y la mediana, la moda es la menos útil para la mayoría de los problemas
estadísticos, ya que no se inclina por un análisis matemático, en el mismo sentido que lo hacen las otras dos.
Sin embargo, desde un punto de vista puramente descriptivo, la moda es indicativa del valor típico en
términos del valor que se presenta con mayor frecuencia. La moda es más útil cuando uno o dos valores, o un
grupo de éstos, ocurren con mayores frecuencias que otros. Por el contrario, cuando la mayoría o todos los
valores se presentan casi con la misma frecuencia, la moda no sirve para describir datos.

Comparación entre la media, mediana y moda para datos no agrupados.

Medida Definición Ventajas Limitaciones

25
1. Refleja cada valor.
Es la suma de los valores de 2. Tiene propiedades 1. Puede ser
Media cierto número de cantidades, matemáticas atractivas. excesivamente influida
Aritmética dividido entre su número. 3. Todos los valores afectan su por los valores
resultado. extremos.
4 Si se quiere calcular los
totales, es mejor usar la media.

1. La mitad de los valores son 1. Difícil de determinar


mayores, la otra mitad son si hay gran cantidad de
Es el valor que divide un menores. datos.
Mediana conjunto de datos 2. Es menos sensible a valores
previamente ordenados. extremos que la media. 2. Puede resultar falsa
3. Si se quiere ubicar las si los datos son
condiciones de una variable irregulares y si hay
categórica es mejor usar la lagunas en los valores.
mediana.
1. No se presta para
1. Es la de menor sensibilidad a análisis matemático.
los valores extremos. 2. Puede no haber un
Es el valor que ocurre con 2. Tiene más valores reunidos valor modal para
Moda mayor frecuencia. en este punto que en cualquier algunos conjuntos de
otro. datos.
3. Puede tener varias
modas.

Finalmente, la medida de tendencia central que se debe utilizar depende de la información disponible y el
objetivo que se desea alcanzar.

ACTIVIDADES DE APRENDIZAJE:
1) Calcula la media aritmética, la mediana y la moda de las series de valores siguientes:

a) 2, 3, 7, 4, 5, 4, 8.

Media Aritmética =___________________________________________= ________

Mediana = _________________________________________________ = ________

Moda = ___________________________________________________ = ________

b) 1, 9, 9, 4, 3, 5, 2, 7, 6.

Media Aritmética =___________________________________________= ________

Mediana = _________________________________________________ = ________

Moda = ___________________________________________________ = ________

2) Obtén la mediana y la moda de la siguiente variable categórica.

Variable categórica “Actividad Económica de 16 alumnos del 5to. Semestre”

26
Trabajo en hogar (TH); Trabajo albañil (TA); Trabajo en campo (TC); Trabajo en Tiendas (TT)

TH, TH, TC, TA, TC, TA, TT, TT, TC, TH, TC, TA, TT, TC, TC, TA.

Ordenación de los datos;

Media aritmética = No se puede utilizar

Mediana = _________________ Moda = ___________________

Ahora analicemos la media, mediana y moda pero con “DATOS AGRUPADOS” o también se llaman de
distribución de frecuencias agrupadas.
Empecemos con la…

MEDIA ARITMÉTICA PARA DATOS AGRUPADOS

Si los datos o valores han sido agrupados en intervalos de clase, entonces se considera que todos los valores
incluidos dentro de un determinado intervalo son iguales o están representados por el punto medio del
intervalo o la marca de clase. En este caso se procede a multiplicar cada punto medio por su respectiva
frecuencia. Luego se suman estos productos, para finalmente dividir este resultado entre el total de datos.

Es importante señalar que el valor de la media de la frecuencia agrupada es suficientemente aproximado para
trabajos de estadística y que el valor de la media no será suficientemente aproximado si la distribución de
frecuencias agrupadas es muy irregular o demasiado asimétrica.

La fórmula para la media aritmética en datos agrupados es la siguiente:

X 
 ( f )( X )
n
Donde
f = Frecuencias absolutas de los intervalos.
X = Marca de clase o punto medio.
n = La suma de las frecuencias.

27
MEDIANA PARA DATOS AGRUPADOS

Cuando Los datos simples son agrupados en una distribución de frecuencias, cada uno de los valores pierde su
identidad en la tabla, significando que la mediana de los datos simples puede no ser igual a la mediana
obtenida de una distribución de frecuencias del mismo conjunto de datos. Es importante mencionar, que la
mediana de los datos agrupados es una aproximación de la verdadera mediana. La aproximación puede ser
obtenida mediante el uso de la siguiente fórmula:

n 
 2 c
Me  Li    (i )
 Fme 
 

n 
 2  c
Me  Li    (i )
Donde:  fme 
Me = Mediana  

Li = Límite real inferior de la clase que contiene la mediana.

n = El número de datos o frecuencia total.

c = La frecuencia acumulada precisamente hasta la clase anterior a la clase mediana o la suma de las
frecuencias de los intervalos por debajo de la mediana.

fme = La frecuencia de la clase mediana.

i = Tamaño del intervalo o amplitud de la clase mediana.

MODA PARA DATOS AGRUPADOS.

Cuando la moda se calcula a través de la fórmula para datos agrupados, los valores y frecuencia en la clase
modal y las frecuencias en las clases inmediatamente antes y después de la clase modal, son también
empleadas. Por lo tanto se aplica la siguiente fórmula.

 d1 
Mo  Li    (i )
 d1  d 2 
Donde:
Mo = Moda

L1 = Límite real inferior de la clase que contiene la moda

d1 = Diferencia de la frecuencia de la clase modal y la frecuencia de la clase contigua inferior.

d2 = diferencia de la frecuencia de la clase modal y la frecuencia de la clase contigua superior.

i = Tamaño del intervalo o amplitud del intervalo de la clase modal.


A continuación resolveremos un ejercicio para utilizar las fórmulas de la media, la mediana y la moda de
datos agrupados.

28
Ejemplo: En la siguiente tabla se resumen los datos de los pesos en kilogramos de 50 estudiantes.

Con base a la siguiente tabla de distribución de frecuencias, calculemos los valores de la media, la mediana y
la moda, recordando cómo se conforman las columnas de Intervalos de clase ( I ), Marca de clase o punto
medio ( X ), Frecuencia absoluta( f ), Frecuencia relativa % ( f’ ) y la Frecuencia acumulada ( F ).

Marca de clase Frecuencia Frecuencia relativa Frecuencia acumulada


Intervalos de clase ( I ) (X) Absoluta ( f’ ) (F)
(f )
30.5 – 33.5 32 1 .02 1
33.5 – 36.5 35 2 .04 3
36.5 – 39.5 38 6 .12 9
39.5 – 42.5 41 11 .22 20
42.5 – 45.5 44 16 .32 36
45.5 – 48.5 47 9 .18 45
48.5 – 51.5 50 4 .08 49
51.5 – 54.5 53 1 .02 50
TOTAL = 50 1.0 o 100%

CALCULO DE LA MEDIA ARITMÉTICA para datos agrupados

Su fórmula es… X 
 ( f )( X )
n
Esta expresión no se puede aplicar directamente, ya que únicamente se cuenta con el dato del denominador,
esto es n = 50, pero no se tiene el dato del numerador. Para ello se agrega una columna a la tabla, donde se
proporcionan los datos agrupados en intervalos. Esta columna se construye multiplicando el punto medio de
cada intervalo por su respectiva frecuencia y cuando se tengan todos los productos, se procede a obtener la
suma de ellos. La tabla original ya con la columna Fx y la suma de ésta queda de la siguiente manera.

I x f f’ F fx
30.5 – 33.5 32 1 .02 1 32
33.5 – 36.5 35 2 .04 3 70
36.5 – 39.5 38 6 .12 9 228
39.5 – 42.5 41 11 .22 20 451
42.5 – 45.5 44 16 .32 36 704
45.5 – 48.5 47 9 .18 45 423
48.5 – 51.5 50 4 .08 49 200
51.5 – 54.5 53 1 .02 50 53
TOTAL = 50 1 o 100 2161
Entonces:
_ 2161
X = 50 = 43.22 será el resultado de la media aritmética

29
MÁS ACTIVIDADES DE APRENDIZAJE:
Calcula la media aritmética de los tres ejercicios siguientes.

De la página 16…

Intervalos de Clase Marca de Frecuencia (f)(x)


L.R.I. L.R.S. Clase (x ) Absoluta (f )

59.5 - 63.5 61.5 6


63.5 - 67.5 65.5 6
67.5 - 71.5 69.5 8
71.5 - 75.5 73.5 11
75.5 - 79.5 77.5 8
79.5 - 83.5 81.5 9
83.5 - 87.5 85.5 2
TOTAL = 50

De la pagina 18…

Intervalos de Clase Marca de Frecuencia (f)(x)


L.R.I. L.R.S. Clase (x) Absoluta (f)

148.5 152.5 150.5 3

TOTAL = 55

De la página 23…

Intervalo de clase Marca Frecuencia (f)(x)


L.R.I. L.R.S de clase (x) de clase (f)

9.5 – 12.5 11 3
12.5 – 15.5 14 4

T O T A L: 47

30
CALCULO DE LA MEDIANA para datos agrupados.

I x F f’’ F
30.5 – 33.5 32 1 .02 1
33.5 – 36.5 35 2 .04 3
36.5 – 39.5 38 6 .12 9
39.5 – 42.5 41 11 .22 20
42.5 – 45.5 44 16 .32 36
45.5 – 48.5 47 9 .18 45
48.5 – 51.5 50 4 .08 49
51.5 – 54.5 53 1 .02 50
TOTAL = 50 1

Si partimos de la definición, la mediana es el dato central, como hay OCHO INTERVALOS estará entre el
cuarto y quinto intervalo; entonces, debe estar comprendida en el intervalo 42.5 – 45.5, ya que observando la
columna “F”, a este intervalo le corresponde una frecuencia acumulada de 36. Note Usted que si se toma el
intervalo inmediato inferior, 39.5 – 42.5 se observa en la columna “F”, que hasta esta celda hay 20 VEINTE
casos y como se tiene un total de 50 datos, el caso central es el número 25. Así pues el intervalo donde está la
mediana es:

42.5 – 45.5 44 16 32 36

Algunos autores efectúan el siguiente razonamiento, sin utilizar la fórmula, pero si interpolando una relación
proporcional: ANALIZA DETENIDAMENTE

n = 50 por lo tanto la media está en 50/2 = 25 El L.R.I. de la mediana = 42.5

Como 20 casos (1+2+6+11) caen por debajo del L.R.I. de la mediana, necesitamos 5 datos más, para llegar a
25. Dado que existen 16 casos (frecuencia) en el intervalo y éste tiene 3 de amplitud o ancho, hacemos una
regla de tres.

16 es a 3 como 5 es a x

16 : 3 :: 5 : x x= (3)(5) = 15 = 0.9375
16 16

Al L.R.I. le sumamos el resultado Me = 42.5 + 0.9735 = 43.4375

Finalmente mediana = 43.44 Kg.


Ahora utilicemos la fórmula para determinar la mediana en datos agrupados:
n 
 2 c
Me  Li    (i )
 Fme 
 

Li = Límite real inferior de la clase que contiene la mediana.


n = El número de datos o frecuencia total.
c = La frecuencia acumulada precisamente hasta la clase anterior a la clase mediana o la suma de las
frecuencias de los intervalos por debajo de la mediana.
fme = La frecuencia de la clase mediana.

31
i = Tamaño del intervalo o amplitud de la clase mediana.

39.5 -- 42.5 41 11 .22 20 .40 451

42.5 – 45.5 44 16 .32 36 .72 704

Analizando estos dos intervalos se pueden obtener los siguientes valores:

L1 = 42.5 límite real inferior que contiene la mediana


n
n = 50 es el número total de frecuencias de donde:  25
2
c = 20 es la frecuencia acumulada hasta la clase anterior a la clase mediana

fme = 16 es la frecuencia de la clase mediana

i = 3 es el tamaño del intervalo o amplitud de la clase mediana.

Sustituyendo estos datos en la fórmula se tiene:

 25  20  5  15   15 
Me = 42.5+   ( 3 ) = 42.5 +   ( 3 ) = 42.5 +   = 42.5 +  
 16  16   16   16 

Me = 42.5 + 0.9375+ = 43.4375

Finalmente mediana = 43.44 Kg


MÁS ACTIVIDADES DE APRENDIZAJE:
Calcula la MEDIANA de los tres ejercicios que se han presentado.

De la página 16…

Intervalos de Clase Marca de Clase Frecuencia


L.R.I. L.R.S. (x ) Absoluta (f )

59.5 - 63.5 61.5 6


63.5 - 67.5 65.5 6
67.5 - 71.5 69.5 8
71.5 - 75.5 73.5 11
75.5 - 79.5 77.5 8
79.5 - 83.5 81.5 9
83.5 - 87.5 85.5 2
TOTAL = 50

32
De la pagina 18…

Intervalos de Clase Marca de Clase Frecuencia


L.R.I. L.R.S. (x) Absoluta (f)

148.5 152.5 150.5 3


152.5 156.5 154.5 7
156.5 160.5 158.5 13
160.5 164.5 162.5 12
164.5 168.5 166.5 13
168.5 172.5 170.5 5
172.5 176.5 174.5 2
TOTAL = 55

De la página 23…

Intervalo de clase Marca Frecuencia


L.R.I. L.R.S. De clase (x) de clase (f)

9.5 – 12.5 11 3
12.5 –15.5 14 4
15.5 – 18.5 17 6
18.5 – 21.5 20 7
21.5 – 24.5 23 9
24.5 – 27.5 26 8
27.5 – 30.5 29 5
30.5 – 33.5 32 3
33.5 – 36.5 35 2
T O T A L: 47

CALCULO DE LA MODA para datos agrupados.


Para determinar el valor de la moda, habrá que observar las columnas “ f ” y seleccionar el intervalo que
presenta la mayor frecuencia. En este caso, el intervalo que donde está incluida la moda es:

42.5 – 45.5 44 16 .32 36 .72 704

La fórmula que se utiliza para encontrar el valor de la moda es:

 d1 
Mo  Li    (i )
 d1  d 2 
L1 = Límite real inferior de la clase que contiene la moda

d1 = Diferencia de la frecuencia de la clase modal y la frecuencia de la clase contigua inferior.

d2 = diferencia de la frecuencia de la clase modal y la frecuencia de la clase contigua superior.

i = Tamaño del intervalo o amplitud del intervalo de la clase modal.

Para determinar los valores de cada término en esta expresión, se requiere además del intervalo donde está
localizada la moda, de las celdas inmediata inferior y superior que queda como sigue:

33
39.5 - 42.5 41 11 .22 20 .40 451
42.5 - 45.5 44 16 .32 36 .72 704
45.5 - 48.5 47 9 .18 45 .90 423

A partir de estos intervalos se adquieren los valores requeridos y que son:

Li = 42.5
d1 = 16 - 11 = 5
d2 = 16 – 9 = 7
i =3

Sustituyendo estos datos en la formula se obtiene:

 5   5 
Mo = 42.5 +   (3) Mo = 42.5 +   ( 3 )
5  7   12 

15
Mo = 42.5 + = 42.5 + 1.25 = 43.75
12

Finalmente la Moda = 43.75

MÁS ACTIVIDADES DE APRENDIZAJE:


Calcula la MODA de los tres ejercicios que se han presentado.
De la página 16…
Intervalos de Clase Marca de Frecuencia
L.R.I. L.R.S. Clase (x ) Absoluta (f )
59.5 - 63.5 61.5 6
63.5 - 67.5 65.5 6
67.5 - 71.5 69.5 8
71.5 - 75.5 73.5 11
75.5 - 79.5 77.5 8
79.5 - 83.5 81.5 9
83.5 - 87.5 85.5 2
TOTAL = 50

De la pagina 18…

Intervalos de Clase Marca de Frecuencia


L.R.I. L.R.S. Clase (x) Absoluta (f)

148.5 152.5 150.5 3


152.5 156.5 154.5 7
156.5 160.5 158.5 13
160.5 164.5 162.5 12
164.5 168.5 166.5 13
168.5 172.5 170.5 5
172.5 176.5 174.5 2
TOTAL = 55

De la página 23…

Intervalo de clase Marca Frecuencia

34
L.R.I. L.R.S. de clase (x) de clase (f)

9.5 – 12.5 11 3
12.5 –15.5 14 4
15.5 – 18.5 17 6
18.5 – 21.5 20 7
21.5 – 24.5 23 9
24.5 – 27.5 26 8
27.5 – 30.5 29 5
30.5 – 33.5 32 3
33.5 – 36.5 35 2
T O T A L: 47

TAREA

REALIZA LA SIGUIENTE ACTIVIDAD DE APRENDIZAJE:

De las edades de 40 maestros de los C.B.T.a s, calcula las MEDIDAS DE TENDENCIA CENTRAL
(MEDIA, MEDIANA Y MODA) Tanto de los datos sin agrupar como agrupados.

Edades:

36, 53, 35, 28, 30, 36, 45, 29, 43, 28,

30, 46, 39, 54, 47, 44, 34, 40, 50, 38,

47, 56, 48, 42, 39, 47, 53, 51, 38, 29,

48, 52, 47, 46, 41, 40, 45, 39, 47, 38.

CALCULA PRIMERO LA MEDIA ARITMETICA, MEDIANA Y MODA DE LOS


DATOS SIN AGRUPAR.

Media Aritmética = _____________________________________________________

Ordena los datos:

______________________________________________________________________

______________________________________________________________________

Cual es la Mediana =____________________

Cual es la Moda = ___________________

35
AHORA PARA DATOS AGRUPADOS. Realiza la Tabla de distribución de frecuencias con los 7
pasos:
PASO 1. Ordenación de datos:

EDAD DE CONTEO FRECUENCIA


LOS MAESTROS

PASO DOS: Rango o recorrido:

PASO TRES: Intervalos de Clase:

Número de intervalos o clases: Ancho del Intervalo o clase:

PASO CUATRO: Límites reales inferiores y límites reales superiores:

PASO CINCO: Marca de Clase

PASO SEIS: Frecuencia Absoluta

PASO SIETE: Frecuencia Relativa (%)

36
Realiza tus operaciones en orden y limpieza hasta llenar la tabla de frecuencias
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS
“Edades de los maestros del C.B.T.a.”
Intervalos de Clase Marca de Frecuencia Frecuencia Frecuencia (f )(x)
L.R.I. L.R.S Clase Absoluta (f) Relativa (f’) Acumulada (F)
(X)

AHORA UTILIZA LAS FORMULAS PARA DATOS AGRUPADOS Y CALCULA…..


MEDIA ARITMETICA:

Resultado Media
=__________

MEDIANA:

Resultado Mediana =_______

MODA:

Resultado Moda
=__________

37
FINALMENTE REALIZA UNA COMPARACIÓN DE LOS TRES EJERCICIOS ANTERIORES,
COMPARANDO SU MEDIA MEDIANA Y MODA DE CADA UNO

De la página 16
Intervalos de Clase Marca de Frecuencia
L.R.I. L.R.S. Clase (x ) Absoluta (f )
59.5 - 63.5 61.5 6
63.5 - 67.5 65.5 6
67.5 - 71.5 69.5 8 Media = ____________
71.5 - 75.5 73.5 11
75.5 - 79.5 77.5 8 Mediana=:___________
79.5 - 83.5 81.5 9
83.5 - 87.5 85.5 2 Moda=_____________
TOTAL = 50

De la pagina 18
Intervalos de Clase Marca de Clase Frecuencia
L.R.I. L.R.S. (x) Absoluta (f)
148.5 152.5 150.5 3
152.5 156.5 154.5 7 Media = ____________
156.5 160.5 158.5 13
160.5 164.5 162.5 12 Mediana=:___________
164.5 168.5 166.5 13
168.5 172.5 170.5 5 Moda=_____________
172.5 176.5 174.5 2
TOTAL = 55

De la página 29…
Intervalo de clase Marca Frecuencia
de clase (x) de clase (f)
9.5 – 12.5 11 3
12.5 –15.5 14 4
15.5 – 18.5 17 6 Media = ____________
18.5 – 21.5 20 7
21.5 – 24.5 23 9 Mediana=:___________
24.5 – 27.5 26 8
27.5 – 30.5 29 5 Moda=_____________
30.5 – 33.5 32 3
33.5 – 36.5 35 2
T O T A L: 47

38
CUARTILES, DECILES Y PERCENTILES:
La mediana no es más que uno de muchos fractiles; éstos dividen los datos en dos o más partes,
tan iguales “como sea posible”. Entre ellos también encontramos los cuartiles, deciles y
percentiles, que pretenden dividir los datos en cuatro, diez, y cien partes. Hasta hace poco, los
fractiles se manejaban principalmente para distribuciones de conjuntos numerosos de datos.
El cuartil se utiliza a fin de conocer los intervalos dentro de los cuales quedan representados
proporcionalmente los términos de una distribución, para esto, se divide la distribución de
frecuencias en 4 partes iguales, cada una contiene IGUAL NÚMERO DE OBSERVACIONES (el
25% del total). Los puntos de separación de los valores de X se llaman CUARTILES.
 El primer cuartil corresponde al 25% y se designa con Q 1.
 El segundo cuartil se designa con Q 2 que representa el valor de 50% y coincide con la
mediana.
 El tercer cuartil es Q3 representa el 75% de las observaciones.

Si en lugar de dividir en 4 partes iguales se hace con 10 partes, se tienen 9 puntos de división,
CORRESPONDIENDO A CADA PUNTO UN DECIL, de donde, el primer decil es el valor por
debajo del cual está el 10% de las observaciones, para el segundo decil el 20% y así
sucesivamente.
PRIMER EJEMPLO:
Consideremos las siguientes lecturas de temperaturas altas en doce ciudades Europeas en un día
de junio:
90, 75, 86, 77, 85, 72, 78, 79, 94, 82, 74, y 93 grados.

Ordenando estas cifras de acuerdo con su tamaño, tenemos:


72 74 75 77 78 79 82 85 86 90 93 94 observa que son 12 datos

Para el cálculo de los cuartiles dividimos los datos en CUATRO PARTES IGUALES. Para ilustrar
dicho procedimiento tenemos la siguiente figura:

n = 1272 74 75 77 78 79 82 85 86 90 93 94

Se puede apreciar que las líneas punteadas dividen los datos en cuatro partes iguales. Si
determinamos que los puntos centrales entre 75 y 77, 79 y 82, y 86 y 90 sean los tres cuartiles,
tenemos:
75  77 79  82 86  90
Q1   76 Q2   80.5 Q3   88
2 2 2

Es evidente que Q2 = 80.5, también es la mediana y se puede verificar con facilidad que se
satisfacen las tres propiedades de los cuartiles. Todo lo anterior funcionó muy bien porque los doce
datos resultó ser múltiplo de 4. No obstante ¿Qué podemos hacer si fueran 11 datos? Como los
siguientes.

72 74 75 78 79 82 85 86 90 93 94 observa que son 11 datos

39
Una solución es n = 11, la posición de la mediana es 11 + 1 = 12 = 6 o sea el sexto dato
2 2

La mediana o Q2 ahora es 82.

n = 11 72 74 75 78 79 82 85 86 90 93 94

El cuartil inferior (Q1) es la mediana de los cinco valores por debajo de la mediana,
esto es, 75.
Y el cuartil superior (Q3) es la mediana de los cinco valores por arriba de la mediana, o sea, 90.

AHORA TE TOCA REALIZAR LAS ACTIVIDADES DE APRENDIZAJE:


Realiza un esquema o dibujo de cada uno de los ejercicios, aun lado de la página

a) Calcula a mediana (Q 2) y los cuartiles (Q 1) y (Q3) de las siguientes calificaciones de nueve


alumnos en una prueba de matemáticas.

86, 82, 73, 94, 88, 66, 79, 90, y 74

b) Calcula los tres cuartiles de las siguientes lecturas de presión de nueve personas después de
haber efectuado ejercicios de esfuerzo;
104, 100, 98, 111, 191, 94, 103, 96, 108 y 99.

40
ME D I DAS D E DI S PE R SI Ó N
A menudo escuchamos que en los países latinoamericanos existe mucha DIFERENCIA entre los
ingresos que perciben por ejemplo los políticos y los trabajadores de otra clase social de la
población. Esas diferencias tienen sus raíces en distintos fenómenos sociales, políticos y
económicos; sin embargo, un economista diría “el ingreso per cápita en los países
latinoamericanos está más DISPERSO que el ingreso per cápita de los países
desarrollados”.

El concepto de DISPERSIÓN resulta importante en casi todos los estudios, ya que puede darse el
caso de poblaciones con igual valor central (Media aritmética, Mediana o Moda), pero una puede
estar más DISPERSA que la otra, es decir, los promedios nos sirven para describir los datos
representados por la tendencia central del conjunto. Por lo tanto, el promedio no logra por si
mismo describir completamente a una colección de datos; se necesitan otros valores que nos
indiquen el grado en que las observaciones estudiadas se apartan o VARÍAN con respecto al valor
central, es decir, el GRADO DE VARIACIÓN O DISPERSIÓN.

ANALIZA CON DETENIMIENTO EL SIGUIENTE EJEMPLO…

Con los siguientes datos de dos poblaciones, analicemos primeramente sus medias aritméticas:

Población A) : 1 (7) , 2 (11), 3 (13), 4 (9), 5 (5), 6( 3), 7( 2), 8(1) = 169 = 3.31

51

n = 51

15 --
13 -- Histograma de los datos de la población A
11 --
Frecuencia 9 -- Media aritmética (promedio) = 3.31
7 --
5 --
3 --
1 --

1 2 3 4 5 6 7 8
Población B) : 1 ( 3 ), 2 ( 9 ), 3 ( 15 ), 4 ( 12 ), 5 ( 9 ) = 159 = 3.31 igual que la población A

41
48

n = 48
15--
13-- Histograma de los datos de la población B
11--
Frecuencia 9--
7-- Media aritmética (promedio) = 3.31
5--
3--
1--

1 2 3 4 5

No obstante que en las dos poblaciones se obtuvo una media aritmética igual de 3.31; al observar
los dos histogramas nos damos cuenta que no son iguales PERO...

¿EN CUÁL HISTOGRAMA ESTÁN MÁS DISPERSOS LOS DATOS?

En la población “A”____________ o en la población “B”_____________

Explica porque? ________________________________________________________

______________________________________________________________________
Por tal motivo las medidas de tendencia central, no dicen nada por sí mismas, por lo que se deben
calcular las MEDIDAS DE DISPERSIÓN o LAS VARIACIONES de los datos. Por su cálculo las
MEDIDAS DE DISPERSIÓN se dividen en absolutas y relativas, aún que existen mas,
estudiaremos las siguientes:

DISPERSIÓN ABSOLUTA: Rango o recorrido


Rango intercuartilico o desviación cuartil
Desviación Media
Varianza
Desviación Estándar

DISPERSIÓN RELATIVA: Coeficiente de variación

RANGO O RECORRIDO:

Como se ha indicado con anterioridad, el rango o recorrido es la diferencia entre el valor


mayor y el valor menor de un grupo de datos o sea:
RANGO = Dato mayor – Dato menor
El rango es una medida de dispersión que no se utiliza mucho, aunque su cálculo es muy rápido.
Si analizamos el rango de los histogramas anteriores tenemos que;

En la primera población A su rango es:


R=8–1=7 (su rango o recorrido es 7)

42
En la segunda población B se rango es:
R=5–1=4 (su rango o recorrido es 4 )

Por lo tanto y como 7 > 4, podemos señalar con seguridad que los datos de la primera población
A), está más dispersa o desviados que los datos de la segunda población B).

AHORA ESTUDIAREMOS OTRAS

MEDIDAS DE DISPERSIÓN PARA DATOS NO AGRUPADOS

DESVIACIÓN MEDIA, VARIANZA, DESVIACIÓN ESTANDAR O TÍPICA Y COEFICIENTE DE


VARIACIÓN, que son medidas de dispersión que tienen relación con la media
aritmética, y por sus propiedades algebraicas son las de más frecuente aplicación y de
mayor importancia.

PERO ANTES QUE NADA …

¿QUE ES EL DESVÍO O DESVIACIÓN ?

El desvío de cada observación (o dato) es la DIFERENCIA ENTRE LA OBSERVACIÓN (o el dato)


Y LA MEDIA ARITMÉTICA. El desvío es un concepto fundamental que nos permitirá comprender
posteriormente otras medidas de dispersión. Por lo tanto.

Desvío ( d ) = x1 – x Pero hagamos un ejemplo…

Si el conjunto de datos son: 4, 2, 5, 8, 2, 1, 7, 8, 5, y 7 su media aritmética es = 4.9


¿Cuál es la dispersión de cada dato? ¿Cuál es el dato que está mas disperso? ¿Cuál es el dato
menos disperso?

Ordenamos los datos de menor a mayor 1, 2, 2, 4, 5, 5, 7, 7, 8, 8 y grafiquemos

1 2 4 4.9 7 8 9
x
Según la fórmula anterior, desvío es igual al dato menos la media aritmética por lo tanto tenemos:

43
La desviación de cada dato será:
Calculo del desvío
x Datos d = X1 - desvío =
1 1 – 4.9 = - 3.9
2 2 – 4.9 = -2.9 Suman
2 2 – 4.9 = -2.9 – 10.6
4 4 – 4.9 = -0.9
5 5 – 4.9 = 0.1
5 5 – 4.9 = 0.1
7 7 – 4.9 = 2.1
Suman
7 7 – 4.9 = 2.1 + 10.6
8 8 – 4.9 = 3.1
8 8 – 4.9 = 3.1
49/10= -10.6
4.9 +10.6= 0.0

De acuerdo a los resultados de la tabla ¿Cuál es el dato que está más disperso?
Es el número 1, porque independientemente de su signo, su valor absoluto es el mas alto y es de –
3.9 de desvío.

Ahora ¿Cuál es el dato menos disperso?. Es el número 5 porque está más cerca de la media
aritmética y tiene un desvío de 0.1.

Si observas la tabla anterior en muy importante obtener primero el valor de la media aritmética que
en nuestro caso fue de 49 / 10 = 4.9 para después restarle al valor de cada dato, dicha media.

Por otro lado, al sumar los resultados NEGATIVOS de los desvíos nos arroja un valor de – 10.6 y al
sumar los resultados POSITIVOS de los desvíos también nos da un valor de + 10.6 por lo tanto, se
comprueba que la diferencia de los desvíos negativos y los positivos, nos da cero o en su defecto
tiende a ser cero.

Ahora resolvamos un problema para utilizar las medidas de dispersión

DESVIACIÓN MEDIA, VARIANZA, DESVIACIÓN ESTANDAR O TÍPICA Y COEFICIENTE DE


VARIACIÓN
CON D A T O S N O A G R U P A D O S

Número de DATOS de la Un constructor, para asegurarse de la calidad de su


muestra resistencia del obra, tomó seis muestras de concreto y obtuvo los
concreto kg/cm2 resultados del cuadro.
1 358
2 369 Al preguntarle uno de sus colaboradores ¿Cuál de
3 363 todas las muestras del grupo era la más dispersa?
4 358
5 336
6 341

44
El constructor elaboró la siguiente tabla:

Número de Resistencia desvíos


x muestra Kg/cm2 d = x1 –
1 358 358 – 354.17 = 3.83
2 369 369 – 354.17 = 14.83
3 363 363 – 354.17 = 8.83
4 358 358 – 354.17 = 3.83
5 336 336 – 354.17 = -18.17
6 341 341 – 354.17 = - 13.17
Suma Diferencia = 0.02
=2125
2125/6=
Media
=354.17

Finalmente el constructor en base a la tabla y a los cálculos realizados le indicó a su colaborador:

LA MUESTRA NÚMERO 5 ES LA MÁS DISPERSA, DEBIDO A QUE OBTUVO EL MAYOR VALOR


ABSOLUTO DE DESVÍO CON -18.17.

En este caso particular, el mayor valor tuvo el signo negativo lo que significa que la observación es
menor que el valor de la media.

Calculemos ahora la…

DESVIACIÓN MEDIA.:

La desviación media es la media aritmética de los valores absolutos (ignorando el signo) de las
desviaciones de cada elemento del conjunto de datos, es decir, hay que restar a la media
aritmética cada valor del conjunto de datos, ignorando el signo, y sumamos todas las diferencias
para dividirlo entre el número total de datos.

Su formula es
x 1 x Suma de los valores absolutos
dm  i 1
N Número de datos

45
Sigamos el mismo ejemplo y AUMENTEMOS UNA COLUMNA para los valores absolutos al
cuadro anterior:

Número de Datos de Desvío Valor absoluto


xx muestra resistencia x- |x- |
1 358 3.83 3.83
2 369 14.83 14.83
3 363 8.83 8.83
4 358 3.83 3.83
5 336 -18.17 18.17
6 341 -13.17 13.17
2125 0.02 Suma = 62.66

6
x = 354.17

Desviación media es igual a... La suma de los valores absolutos entre el número de muestras

Desviación Media ( dm ) = 62.66 = 10.44


6
Como se ve en el ejemplo anterior,
La Desviación Media MIDE LA DISPERSIÓN ALREDEDOR DEL PROMEDIO, mas que la
dispersión de ciertos valores, ya que el concepto de desviación media se origina cuando los
desvíos se toman en valor absolutos, eliminando así el efecto de que la suma de los desvíos (x 1 – x
= 0 ) que es igual a cero (o tiende a cero).

Otra forma de hacerlo, es elevar al cuadrado los desvíos, por lo que surge la...

VARIANZA (S2) : Que es la media aritmética (promedio) de los cuadrados de los desvíos y su
fórmula es la siguiente: N

(x 1  x )2
S2  i 1
Suma de desvíos al cuadrado
N
Número de datos

Sigamos el mismo ejemplo para calcular la varianza ( S2 ):


AUMENTAMOS OTRA COLUMNA a la tabla, ahora para los desvíos al cuadrado

Número de Datos de Desvío Valor absoluto Desvíos al cuadrado


xxx
muestra resistencia x- |x- | (x - ) 2
1 358 3.83 3.83 14.67
2 369 14.83 14.83 219.93
3 363 8.83 8.83 77.97
4 358 3.83 3.83 14.67
5 336 -18.17 18.17 330.15
6 341 -13.17 13.17 173.45
2125/6 Se tiende a Suma= 62.66 Suma = 830.83
x = 354.17 0.02

Calculamos la varianza según la fórmula anterior y tenemos:

Varianza (S2) = Suma de desvíos al cuadrado = 830.83 = 138.


Número de datos 6

46
DESVIACIÓN ESTÁNDAR o TÍPICA ( S ): Es la raíz cuadrada de la varianza (S2 )
También se puede definir como la raíz cuadrada de la media aritmética de los cuadrados de los
desvíos.

S
(x 1 x )2
N
En el mismo ejemplo tendríamos lo siguiente:

Varianza (S2) fue igual a = 138.47 por lo tanto…

Desviación Estándar ( S ) = 138.47 = 11.77

Finalmente analicemos la medida de dispersión relativa llamada

COEFICIENTE DE VARIACIÓN ( C.V ): Es el resultado de la división de la desviación estándar


entre la media aritmética.

Este tipo de coeficiente es muy útil para medir la DISPERSIÓN RELATIVA en base a la desviación
estándar y la media y sirve básicamente para comparar muestras distintas en términos
numéricos adimensionales, es decir, que mientras las demás medidas de dispersión tienen
unidades, el coeficiente de variación carece de ellas.

Su formula es... C. V. = S ( Desviación Estándar) .


X ( Media Aritmética)

En el mismo ejemplo que estamos analizando, el coeficiente de variación será:

C. V = 11.77 . = 0.033
354.17
También se puede expresar en porcentaje al multiplicar por 100 esto es, (0.033) (100) = 3.30%

C.V. = 3.30 %

47
RANGO INTERCUARTIL

El rango intercuartil es el resultado de la diferencia entre el tercer cuartil Q 3 y el primero Q1, se


expresa:
Rango intercuartil Q = Q3 - Q1

Cuando habiéndose aplicado la media aritmética se quiere evitar la influencia de los valores
extremos, se analiza únicamente la situación intermedia de la distribución de frecuencias aplicando
el RANGO INTERCUARTIL.

El RANGO SEMIINTERCUARTIL o DESVIACIÓN CUARTIL, es la mitad del rango intercuartil, se


designa con QD

Rango semiintercuartil QD = Q3 - Q1
2
Hagamos un ejemplo:

Calcular el rango intercuartil y la desviación cuartil de los siguientes datos.

n = 12 72 74 75 77 78 79 82 85 86 90 93 94

75  77 79  82 86  90
Q1   76 Q2   80.5 Q3   88
2 2 2
Rango intercuartil Q = Q3 – Q1

Q =88 – 76 = 12

Rango semiintrecuartil o Desviación cuartil QD = Q3 – Q1


2

QD = 12 = 6
2
El rango semiintercuartil (desviación cuartil) mide la dispersión con mayor precisión que el rango,
sin embargo, presenta las limitaciones siguientes:

a) No toma en consideración todos los valores de la distribución de frecuencias y puede


suceder que los valores menores a Q 1 o superiores a Q3 estén muy compactos o muy
dispersos, y el valor de Q sería el mismo.

b) No es posible, conociendo únicamente Q, hacer la ubicación precisa de una


observación dentro de la distribución de frecuencias.

c) Igual que la mediana, no tiene propiedades que permitan su uso en las relaciones
matemáticas que utiliza la estadística

Percentiles

Percentil, en estadística, parámetro que indica el porcentaje de individuos de una distribución que
tienen un valor inferior a él. Es una medida de posición.

Por ejemplo, el percentil 80, p 80, es un número que supera al 80% de los datos de la distribución.
Los percentiles también se llaman centiles.

48
UN RESUMEN DE LAS MEDIDAS DE DISPERSIÓN

ESTUDIADAS Y SU USO ADECUADO

RANGO ( R )= Es la diferencia del valor mayor menos el valor menor en un


conjunto de datos y se emplea de manera muy limitada, ya que es sólo una
apreciación de la amplitud de los datos, y presenta poca estabilidad; se usa,
casi siempre que se requiera rapidez.

RANGO INTERCUARTIL ( Q ): es el resultado de la diferencia entre el


tercer cuartil Q3 y el primero Q1. Su utilidad es baja y su valoración respecto a
la cantidad de datos que incluye en su aplicación en una distribución normal es
del 50 %

DESVIACIÓN MEDIA ( dm )= Es el promedio de los valores absolutos


(ignorando signos) de las desviaciones de cada dato; En ésta prueba se pueden
calcular los desvíos tanto con la media aritmética como la mediana, según
convenga. Actualmente ésta prueba casi no se usa. En una distribución normal,
la cantidad de datos que incluye en su aplicación es de aproximadamente el
58%.

VARIANZA ( S2 ) = Es el promedio de los cuadrados de los desvíos y se


utiliza en análisis estadístico avanzado, pero tiene el inconveniente de que sus
unidades son las mismas de la variable al cuadrado.

DESVIACIÓN ESTÁNDAR ( S ) = Es la raíz cuadrada de la varianza o del


promedio de los cuadrados de los desvíos. Es la más importante de todas las
medidas de dispersión ya que incluye más o menos el 68% de los términos de
una distribución normal, además por sus propiedades algebraicas se utiliza con
facilidad en el análisis estadístico

COEFICIENTE DE VARIACIÓN ( CV ) = Es el cociente entre la


desviación estándar y la media aritmética. Generalmente se utiliza para
comparar muestras distintas y saber cuál tiene mayor o menor dispersión en
sus datos.

49
SIGAMOS PRACTICANDO PARA OBTENER LAS MEDIDAS DE DISPERSIÓN
PARA DAT O S NO AG RUPADOS

Los siguientes datos son las edades de dos grupos de estudiantes del SAETA-XALISCO, de la
generación Agosto -2001. A cada uno de los grupos le obtendrás las medidas de dispersión
siguientes:

DESVIOS de cada edad, DESVIACIÓN MEDIA, VARIANZA,


DESVIACIÓN ESTÁNDAR Y COEFICIENTE DE VARIACIÓN

¡¡¡ Claro que puedo!!!


GRUPO “D” GRUPO “F”
20 ESTUDIANTES 25 ESTUDIANTES

16 16 18 19 19 15 15 15 16 16
19 19 20 21 21 17 17 17 18 18
22 22 22 22 23 18 18 19 19 19
27 29 29 30 32 19 20 20 21 21
21 22 22 29 30

Valor Desvíos al Valor Desvíos al


Edad Desvíos absoluto cuadrado Edad Desvíos absoluto cuadrado
16 - 6.3 6.3 39.69 15
16 15
18 15
19 16
19 16
19 17
19 17
20 17
21 18
21 18
22 18
22 18
22 19
22 19
23 19
27 19
29 20
29 20
30 21
32 21
21
22
22
29
30

En la siguiente página…

50
REALIZA TUS CÁLCULOS DE ACUERDO A LAS FÓRMULAS CORRESPONDIENTES, HASTA
OBTENER SUS RESULTADOS PARA CADA GRUPO.

Cálculos para el grupo “D” Cálculos para el grupo “F”

RESULTADOS DEL GRUPO “D” RESULTADOS DEL GRUPO “F”

DESVIACIÓN MEDIA (dm) = ____________________ DESVIACIÓN MEDIA (dm) = ____________________

VARIANZA (S2) = ______________________________ VARIANZA (S2) = _____________________________

DESVIACIÓN ESTÁNDAR ( S ) = _________________ DESVIACIÓN ESTÁNDAR (S) = _________________

COEFICIENTE DE VARIACIÓN ( CV ) = ____________ COEFICIENTE DE VARIACIÓN (CV) = ___________

51
AHORA CONTESTA ¿CUÁL DE LOS DOS GRUPOS TIENE SUS DATOS MÁS DISPERSOS?

Respuesta: _______________ Porque?


___________________________________________________

FINALMENTE OBTENGAMOS LAS MEDIADAS DE DISPERSIÓN


PARA DATOS AGRUPAD OS

OBTENER LA DESVIACIÓN MEDIA (dm), VARIANZA (S2),


DESVIACIÓN ESTANDAR (S) Y COEFICIENTE DE VARIACIÓN (C.V.)

Completa las siguientes filas de las columnas para que calcules la Desviación media (dm), la
Varianza (S2) la Desviación estándar o típica ( S ).
Intervalo clase Marca Frecuenci Frecuenci Valor Frecuenci Desvíos Frec. por
de a a por absoluto a por al desvíos al
(estaturas )
clase marca de del desvío desvíos cuadrado cuadrado
(alumnos)
(X) clase
X1  X f X1  X
2
f X X
(f)
(f)(X) X1  X 2

121.5 – 126.5 124 2 248 20.62


126.5—13.1.5 3 46.86
131.5—136.5 134 8 112.78
136.5—141.5 23
141.5—146.5 144 27 0.62
146.5—151.5 20 383.60
151.5—156.5 16
156.5—161.5 159 3 477 14.38 206.78
161.5—166.5 2
Totales n = 104 15041 638.64 6383.92
Media aritmética = 15041/ 104 = 144.625 = 144.62
Aquí o aun lado de la página, realiza tus cálculos con orden y limpieza; y utilizando las formulas
correspondientes hasta que obtengas la Desviación media, Varianza y Desviación estándar.
N

f x
i 1
1 x
Formula para obtener la desviación media = dm 
N
N

 f (x
i 1
1  x)2
Formula para obtener la varianza = S2 
N

 f (x 1  X )2
Formula para obtener la desviación estandar (S) = S i 1

N
S
C .V .  (100)
X
52
Formula para obtener el coeficiente de variación en porcentaje

RESULTADOS
Desviación media =_______________

Varianza = ____________________

Desviación estándar = ______________

ACTIVIDADES DE APRENDIZAJE:
Calcula las medidas de dispersión (desviación media, varianza, desviación estándar y
coeficiente de variación) de los siguientes dos ejercicios.

De la página 16…
Intervalos de Marca de Frecuencia
Clase Clase Absoluta
(x) (f )
59.5 - 63.5 61.5 6
63.5 - 67.5 65.5 6
67.5 - 71.5 69.5 8
71.5 - 75.5 73.5 11
75.5 - 79.5 77.5 8
79.5 - 83.5 81.5 9
83.5 - 87.5 85.5 2
TOTAL = 50

RESULTADOS
Desviación media
=_______________

Varianza = ____________________

Desviación estándar =

53
De la pagina …18
Intervalos de Marca de Frecuencia
Clase Clase (x) Absoluta (f)
148.5 152.5 150.5 3
152.5 156.5 154.5 7
156.5 160.5 158.5 13
160.5 164.5 162.5 12
164.5 168.5 166.5 13
168.5 172.5 170.5 5
172.5 176.5 174.5 2
TOTAL = 55

RESULTADOS
Desviación media
=_______________

Varianza = ____________________

Desviación estándar =

54
GLOSARIO

CENSO. Medición o examen de cada elemento de la población.

CLASE. Intervalo en el cual se agrupan los datos en una tabla de distribución de frecuencias.

CLASE DE LA MEDIANA. Clase de distribución de frecuencias que contiene el valor medio de


(MEDIANA DE CLASE) un conjunto de datos

COEFICIENTE DE VARIACIÓN. Medida de dispersión relativa de un conjunto de datos, se calcula


dividiendo la dispersión estándar entre la media y multiplicando el cociente por cien.

CONJUNTO DE DATOS. Todos los datos reunidos en determinado estudio.

CUARTILES. Los percentiles 25%, 50% y 75% se llaman primer cuartil, segundo cuartil
(mediana) y tercer cuartil respectivamente. Se pueden usar los cuartiles para dividir al conjunto de
datos en cuatro partes, cada una de las cuales contiene aproximadamente el 25% de los datos.

DATOS. Los hechos y números que se reúnen, analizan e interpretan

DATOS CUALITATIVOS. Datos que indican etiquetas o nombres de categorías, para artículos
semejantes.

DATOS CUANTITATIVOS. Datos que indican cuánto o cuántos de algo. Los datos cuantitativos
siempre son numéricos.

DECILES. Fractiles que dividen los datos en diez partes iguales.

DESVIACIÓN ESTANDAR. Medida de la dispersión de un conjunto de datos; se calcula sacando la


raíz cuadrada positiva de la varianza.

DESVIACIÓN MEDIA. También se llama Desviación promedio o desviación media absoluta. Es


la media aritmética de las desviaciones con respecto a la media aritmética en términos absolutos.

DISPERSIÓN. Esparcimiento o variabilidad de un conjunto de datos.

DISTRIBUCIÓN DE FRECUENCIAS. Representación organizada de los datos que muestra el


número de observaciones del conjunto de datos que caen dentro de cada clase mutuamente
excluyentes.

ESTADÍSTICA. Ciencia de la recopilación, organización, análisis e interpretación de datos


numéricos con objeto de tomar decisiones más efectivas.

FRACTIL. En una distribución de frecuencias, la localización de un valor en determinada fracción


de los datos o arriba de ellos.

HISTOGRAMAS. Es la representación gráfica de una distribución de frecuencia.

INFERENCIA ESTADÍSTICA. El proceso de reunir datos obtenidos de una muestra para hacer
estimaciones o probar hipótesis acerca de las características de una población.

INTERVALO. Distancia existente entre el valor máximo y el más bajo en un conjunto de datos.

MEDIA ARITMÉTICA. Suma de los valores dividida entre el número total de ellos.

55
MEDIA GEOMÉTRICA. Medida de tendencia central que se usa para medir la tasa promedio de
cambio o crecimiento de alguna cantidad; se calcula tomando la enésima raíz del producto de n
valores que representan el cambio.

MEDIA PONDERADA. Promedio que se calcula a fin de tener en cuenta la importancia de cada
valor para el total global; es decir, un promedio donde el valor de cada observación se pondera
mediante algún índice de su importancia.

MEDIDA DE TENDENCIA CENTRAL. Es el dato que queda al centro de un ordenamiento de


menor a mayor.

MEDIDA DE DISPERSIÓN. Aquella que describe cómo las observaciones están esparcidas en un
conjunto de datos.

MEDIANA. Es el dato intermedio de un conjunto, ordenado de menor a mayor o viceversa.

a) Si el número de datos es impar, se toma el dato central.


b) Si el número de datos es par, la mediana está dada por el promedio de los datos centrales.
MODA. Es el valor que tiene la mayor frecuencia de un grupo de datos.

OJIVA. Gráfica de una distribución de frecuencias acumulada.

PARÁMETRO. Una característica numérica de una población, como la media de población ( µ ),


desviación estándar poblacional ( ), proporción poblacional ( p ), etc.

PERCENTILES. Fractiles que dividen los datos en 100 partes iguales.

POBLACIÓN. Conjunto de todos los elementos que estamos estudiando y acerca de los cuales
tratamos de sacar conclusiones.

POLIGONO DE FRECUENCIAS. Gráfica lineal que une los puntos medios de cada clase en un
conjunto de datos; se grafica en la altura correspondiente a la frecuencia de cada clase.

PROMEDIO. Número que describe la centralización o tendencia central de los datos. Existe un
cierto número de promedios especializados, entre los que se incluye la media aritmética, la media
ponderada, la mediana, la moda, y la media geométrica.

RANGO. Medida de dispersión definida como el valor máximo menos el valor mínimo.

VARIABLE. Una característica de interés de los elementos.

VARIANZA. Medida de dispersión para un conjunto de datos, en las desviaciones de los valores de
los datos respecto a la media, elevadas al cuadrado.

56
BIBLIOGRAFÍA CONSULTADA.

1. FREUND John E. y Gary A. Simón. Estadística Elemental. Octava edición. México. D.F. Editorial
Prentice Hall. Traducción José Julián Díaz Díaz. 1994. pp. 566

2. FUENLABRADA De la Vega Trucíos Samuel. Probabilidad y Estadística. México. D.F. Editorial


MvGraw-Hill Interamericana. 2002. pp.255.

3. PAGANO, Roberto R. Estadística para las ciencias del comportamiento. Quinta edición. Edit.
Internacional Thomson Editores. México. 1999. pp. 548

4. PASTOR Guillermo. Estadística Básica. México D.F. Editorial Trillas. SEP-CONALEP. 1998. (reimp.
2003). Pp.198.

5. PÉREZ SEGUÍ María Luisa. Combinatoria. Instituto de Matemáticas, UNAM. Cuadernos de


olimpiadas. 2000.

6. REYNOSO Tirado Héctor Francisco. Lecturas seleccionadas de Estadística Básica. Universidad


Autónoma de Nayarit. México. Facultad de Economía. Septiembre de 2001. pp129.

7. REYNOSO Tirado Héctor Francisco. Glosario de estadística. Universidad Autónoma de Nayarit.


México. Facultad de Economía. Abril del 2002. pp.75.

8. REYNOSO Tirado Héctor Francisco. Técnicas de conteo y espacios maestrales sin maestro.
Universidad Autónoma de Nayarit. México. Facultad de Economía. Verano de 2003. pp.89.

9. SEP-SEIT-DGETA. Antología para el módulo 4 “Formación Matemática Básica” Bachillerato


Tecnológico Agropecuario. México. D.F. Sistema Abierto de Educación Tecnológica Agropecuaria.
SAETA. 1997. pp. 426.

10. SEP, CINVESTAB del IPN, Sección de matemática educativa “probabilidad “ ( Programa Nacional de
Formación y Actualización de Profesores), México 1990

ENCICLOPEDIAS DIGITALES

Microsoft ® Encarta ® 2006. © 1993-2005 Microsoft Corporation. Reservados todos los derechos.

http://es.wikipedia.org/wiki/Portada

57

Вам также может понравиться