Академический Документы
Профессиональный Документы
Культура Документы
Probabilidad y Estadística
(ESTADÍSTICA DESCRIPTIVA)
Guía d i d á c t i ca
Agosto de 2011
1
VARIABLES Y REPRESENTACIONES
INTRODUCCIÓN
Estadística: Es un método científico que recopila, organiza, analiza e interpreta los datos
obtenidos para tener conocimiento de los hechos pasados, para prever situaciones futuras y tomar
decisiones en base a la experiencia.
Este último tipo de estadística no la utilizaremos en éste curso, pero hagamos un ejercicio para
analizar cuál es la diferencia entre estos dos tipos de estadística:
A un grupo de 50 alumnos del CBTA 107 extensión Xalisco le preguntamos ¿Cuál es la materia
que les gusta más? Los datos arrojados por ésta encuesta, en éste grupo en particular, es
incumbencia de la Estadística Descriptiva, ya que ordenamos los datos, los analizamos obteniendo
sus parámetros como la media, la desviación, los graficamos y hasta los interpretamos Pero…
Si queremos hacer conclusiones a nivel estatal de todos los alumnos de los CBTAs del estado de
Nayarit, éste grupo de 50 encuestados sería una parte de las diferentes muestras que nos servirían
para saber la tendencia de toda la población estudiantil respecto a la materia que les gusta mas, y
debemos tomar más muestras de estudiantes de otros CBTAs, por lo cual ya entraríamos en el
campo de la Estadística Inferencial y sus datos deberán de analizarse de otra manera más
profunda, haciendo pruebas de hipótesis para obtener las inferencias o conclusiones a futuro.
2
Población: Es el conjunto de todos los elementos, medidas, individuos y objetos que tienen una
característica en común, pero en muchas ocasiones debido a limitaciones de tiempo o de recursos
no se puede trabajar con la totalidad de la población.
Muestra: Es la parte de una población que podemos utilizar para obtener conclusiones de toda una
población sin tener que analizar su totalidad.
a) Validez. Debe representar a la población, esto es, ha de pertenecer a ésta y ser elegida al azar
o en forma aleatoria, para que todos los elementos de la población tengan la misma probabilidad
de ser considerados.
b) Confiable. Los resultados que se obtengan deben poder generalizarse a toda la población con
cierto grado de precisión.
DATOS: Son las medidas, valores o características susceptibles de ser observadas y contadas.
VARIABLES: Es una propiedad o característica de algún evento, objeto o persona, que puede
tener diversos valores en diferentes instantes, según las condiciones. La altura, el peso, el tiempo
de reacción y la dosis de un medicamento, son ejemplos de variables.
Las variables son las herramientas fundamentales de la estadística y se clasifican de la siguiente
manera:
En las VARIABLES CATEGÓRICAS los valores pueden ser EXPRESIONES y también estas
expresiones pueden ser sustituidas por SÍMBOLOS que nos permiten diferenciar la categoría a la
que pertenece cada individuo, la cual está determinada por el valor de la variable.
Si queremos saber la forma en que se trasladan los estudiantes del CBTA-XALISCO para recibir
sus clases grupales; preguntaremos a cada estudiante del grupo, si usualmente se trasladan de su
casa a la escuela CAMINANDO o EN ALGÚN VEHICULO, por lo tanto los valores de la variable
serán (C) "caminando" o (V) " Vehículo" y se clasifican a los alumnos en éstas dos categorías.
3
Otro ejemplo:
Si quisiéramos conocer la materia que prefieren los estudiantes de una lista de 4 materias en
donde se incluyen Ciencias Sociales, Matemáticas, Ciencias Naturales y Español; En este caso la
materia de preferencia puede tomar cuatro valores: (CS) que es Ciencias Sociales; (M) que es
Matemáticas, (CN) Ciencias Naturales y (E) será Español. Es claro pues que la variable , materia
de preferencia clasifica a los estudiantes en cuatro categorías.
Observa que los valores que pueden tomar las variables en los ejemplos anteriores son
EXPRESIONES y que estas expresiones han sido sustituidas por SÍMBOLOS que nos permiten
diferenciar la categoría a la que pertenece cada individuo, la cual está determinada por el valor de
la variable. Los ejemplos anteriores son VARIABLES CATEGÓRICAS NOMINALES.
Otro ejemplo:
Si queremos saber cómo se alimentan los estudiantes del CBTA-XALISCO, para relacionarlo con
el aprovechamiento escolar, preguntaremos cada semana a todos los estudiante del grupo, cuáles
alimentos ingirieron durante la semana y clasificamos la variable calidad de la alimentación de la
siguiente manera: “MD” al alumno que se alimentó muy deficientemente, “D” el de alimentación
deficiente, “R” el de alimentación regular, “B” el de alimentación buena y “MB” el de alimentación
muy buena. Con esto todos los estudiantes del grupo, quedarán distribuidos en cinco posibles
categorías.
Observa que los valores de las variables también son EXPRESIONES, sin embargo, entre los
valores de estos dos ejemplos últimos hay UN ORDEN. Los ejemplos anteriores SON VARIABLES
CATEGÓRICAS ORDINALES.
______________________________________________________________________
______________________________________________________________________
4
Ahora con las VARIABLES NUMÉRICAS.
En las variables numéricas, sus valores no son expresiones sino NUMEROS y es en donde
además tiene sentido efectuar operaciones aritméticas con ellos y compararlos.
Si los valores de la variable son NÚMEROS ENTEROS, se llamará NUMÉRICA DISCRETA, pero
si los valores de la variable pueden tomar CUALQUIER VALOR NUMÉRICO en algún intervalo de
números reales (con decimales o fracciones), la variable será NUMÉRICA CONTINUA.
Si queremos saber el número de hermanos de los alumnos del CBTA-XALISCO. Serán desde cero
en adelante y como es lógico no puede haber medio hermano o tres cuartos de hermano, por lo
tanto la variable número de hermanos es una variable numérica discreta.
Otro ejemplo será el número de preguntas acertadas en un examen de conocimientos; los años
cumplidos de los estudiantes, el número de materias que cursan en el quinto semestre, etc.... Ya
que son variables numéricas que pueden tomar sólo valores enteros.
Si queremos saber la estatura de los alumnos del quinto semestre con una aproximación a
milímetros, tendríamos que utilizar una regla de dos metros y dividida en centímetros y milímetros.
Los valores posibles de la variable serán todos los números pertenecientes a algún intervalo.
Otro ejemplo es El peso que tienen las personas que asisten a un evento será también una
variable numérica continua, pues podrán pesar kilos, con gramos y hasta miligramos, dependiendo
de la precisión que queramos los resultados.
Si observas estas variables numéricas pueden tomar cualquier valor en algún intervalo.
5
c) El Peso de los niños mexicanos de 6 años.
Variable: ________________________________________
e) Tipo de material con el que se construyen los techos de las viviendas de una localidad.
Variable: ________________________________
Variable: _______________________________________
Variable: ______________________________________
Variable: ______________________________________
REDONDEO DE DATOS
Dado que estaremos dando nuestras respuestas finales con dos decimales y en ciertas ocasiones
hasta con cuatro cifras decimales, necesitamos decidir cómo determinar el valor de los últimos
dígitos.
Primer ejemplo cuando el residuo es menor que 0.5: 34.01350 = 34.01 es la respuesta potencial y .
350 el residuo; como .350 es menor que 0.5, el último dígito de la respuesta potencial permanece
sin cambio y la respuesta final es 34.01
Segundo ejemplo cuando el residuo es mayor que 0.5: 34.01761 34.01 es la respuesta potencial
y .761 el residuo; como .761 es mayor que 0.5, al último dígito de la respuesta potencial debemos
sumar 1 al último dígito, por lo que la respuesta correcta es 34.02
Tercer ejemplo cuando el residuo es igual a 0.5 y el último dígito de la respuesta potencial es
impar: 43.07500 43.07 es la respuesta potencial y .500 el residuo; como es impar el último dígito
de la respuesta potencial se AUMENTA 1, por lo que la respuesta correcta es 43.08
Cuarto ejemplo cuando el residuo es igual a 0.5 y el último dígito de la respuesta potencial es par:
17.06500 17.06 es la respuesta potencial y .500 el residuo; como es par el último dígito de la
respuesta potencial NO se aumenta 1, por lo que la respuesta correcta es 17.06
6
Siguiendo los mismos principios anteriores, si tenemos una cifra de 0.7544762 su respuesta
correcta es 0.7545; en cambio si es 0.1136211 la respuesta correcta es 0.1136; si tenemos que
0.3463500 lo correcto será 0.3464; finalmente si tenemos 0.7728500 lo correcto será 0.7728.
NOTACIÓN SISTEMATIZADA
En estadística, por lo general, trabajamos con datos agrupados resultantes de medir una o más
variables. Con gran frecuencia, los datos se obtienen de las muestras y en ocasiones de las
poblaciones. Para fines matemáticos, generalmente se utiliza la letra mayúscula X y a veces la Y,
para representar la(s) variable(s). Así, si estuviéramos midiendo la edad de los sujetos, haríamos
que X represente la variable “edad”. Si existen muchos valores de la variable agregamos un
subíndice al símbolo X. Ilustramos este proceso en la siguiente tabla, la cual contiene las edades
de seis sujetos:
CIFRAS SIGNIFICATIVAS:
En la estadística analizamos datos; este análisis implica muchos cálculos matemáticos. Con mucha
frecuencia tenemos un residuo decimal, por ejemplo, después de realizar una división. Cuando
esto ocurre, necesitamos decidir la cantidad de cifras decimales que utilizaremos para el residuo.
En las ciencias físicas, por lo general, se utiliza el mismo número de cifras significativas que tienen
los datos en bruto, Por ejemplo, si medimos el peso de cinco sujetos hasta tres cifras significativas
7
(173, 156, 162, 165, y 175 libras) y queremos calcular el promedio de estos pesos, nuestra
respuesta debe contener sólo tres cifras significativas. Así
X
X
173 156 162 165 175 831
166.2 166
N 5 5
La respuesta de 166.2 se redondea a tres cifras significativas, dando un resultado final de 166
libras. Por varias razones y mas por continuar una tradición, en el presente curso de estadística
utilizaremos DOS cifras decimales redondeadas cuando el resultado tenga ENTEROS y CUATRO
cifras decimales cuando NO EXISTAN ENTEROS, sin importar las cifras significativas de los datos
en bruto. Así cuando se pida que el resultado tenga dos cifras decimales, debemos realizar los
cálculos intermedios con al menos CUATRO cifras decimales y redondear la respuesta final a dos
cifras.
CÁLCULOS
Una de las operaciones que se realizan con más frecuencia en estadística consiste en sumar todos
o una parte de los datos que pertenecen a una distribución. Como no es práctico escribir “suma de
todos los datos” cada vez que se necesite emplear esta operación, particularmente en las
ecuaciones, se utiliza una abreviatura simbólica. La letra griega mayúscula sigma ( ∑ ) indica la
operación de sumatoria. La frase algebraica utilizada para la sumatoria es:
N
X
i 1
i
Esta expresión se lee como “la suma de la variable X de i = 1 a N”. Las notaciones que aparecen
arriba y debajo del signo de la sumatoria indican los datos que deben incluirse en la operación. El
término que aparece debajo del signo de la sumatoria nos indica el primer dato en esta operación,
y el término que se encuentra arriba de dicho signo indica el último dato. Así, esta frase señala que
debemos sumar los datos X, comenzando con el primero y concluyendo con el N-ésimo dato.
Así.
N
Ecuación de una sumatoria
X
i 1
i X 1 X 2 X 3 ... X N
Al “aplicar la sumatoria” a los datos de las edades de la tabla anterior, tenemos que:
N
X
i 1
i X1 X 2 X 3 X 4 X 5 X 6
=
8 + 10 + 7 + 6 + 10 + 12 = 53
Cuando la sumatoria se realiza con todos los datos (de 1 a N), es frecuente que la propia frase de
esta operación se abrevie, omitiendo las notaciones arriba y abajo del signo de la suma, al igual
que el subíndice i. Así. N
X i Se abrevia con frecuencia como X
i 1
En el ejemplo anterior, X= 53 Esta expresión indica que la suma de todos los datos X es 53.
Observa que no es necesario que la sumatoria se realice de 1 a N, Por ejemplo, podríamos querer
sumar sólo el segundo, tercer, cuarto y quinto dato. Recuerda que la notación debajo del signo
de la sumatoria nos dice dónde comenzar la suma, y el término arriba de dicho signo nos dice
dónde terminarla. 5
Utilizaríamos el símbolo
X i Para los datos anteriores, tenemos que:
i 2
X
i 1
i X 2 X 3 X 4 X 5 10 7 6 10 33
8
3
Para los siguientes datos, determine X1= 10, X2 = 12, X3 = 13, X4= 18
3
Por lo tanto: X
i 1
i 10 12 13 35
4
Para los siguientes datos, determine X
i2
i 3 : X1=20, X2=24, X3=25, X4=28, X5=30, X6=31
4
Por lo tanto: X
i 2
i 3 (24 25 28) 3 80
4
4
Por lo tanto: (X
i 2
i 3) (24 3) (25 3) (28 3) 86
Existen otros dos tipos de sumatorias que veremos con frecuencia en estadística y son: ∑X 2 y
(∑X)2. Aunque se parecen, son distintos y, en general, proporcionan diferentes respuestas.
El símbolo ∑X2 (suma de los cuadrados de los datos X) indica que primero debemos elevar el
cuadrado de los datos X y luego sumarlos. Así:,
X 2
X 12 X 22 X 32 ... X N2
El símbolo (∑X)2, o (el cuadrado de la suma de los datos X), indica que primero debemos sumar los
datos X y luego elevar al cuadrado la suma resultante. Así,
( X ) 2 ( X 1 X 2 X 3 ... X N ) 2
La confusión es muy común cometerlo, sobre todo cuando se calculan las desviaciones estándar,
eso lo analizaremos un poco mas adelante.
ACTIVIDADES DE APRENDIZAJE “CÁLCULO”
X
i 3
i
(X
i 1
i 12)
9
4
X
i2
i 205
6
( X i ) 8
2
i2
5
( X i ) 2 510
i 1
10
DISTRIBUCIONES DE FRECUENCIAS
La recopilación de los datos consiste en asistir al grupo de estudiantes y obtener los valores
mediante una pregunta abierta sobre el tiempo en minutos que emplearon para estudiar el tema de
estadística o si desconfiamos, podemos medir directamente el tiempo durante las asesorías que
emplearon cada uno de los alumnos al estudiar estadística. En resumen para recopilar los datos
debemos "asistir" al lugar donde vamos a 'tomar" o "levantar" los datos. Esto puede ser mediante
entrevistas, cuestionarios, observaciones o mediciones directas a los individuos o cosas que
corresponda nuestra variable.
Supongamos que los 50 datos obtenidos en nuestra variable: tiempo de estudio de la materia de
estadística en minutos fueron los siguientes y que corresponden a los 50 estudiantes:
75 60 80 67 81 71 74 63 72 70
76 62 82 63 81 66 78 68 80 74
67 74 84 70 63 77 68 82 74 72
76 64 75 80 69 85 71 79 60 74
83 75 67 72 78 64 77 81 76 70
La Ordenación de los datos consiste en colocar los datos tomados en orden creciente (de menor a
mayor) o decreciente (de mayor a menor). Nosotros los vamos a ordenar en forma creciente y
sobre todo "contando" y "anotando" los que se repitan, que será la frecuencia.
Ordenación de datos:
DISTRIBUCIÓN DE FRECUENCIAS
60 // 2
62 / 1
63 /// 3
64 // 2
66 / 1
67 /// 3
68 // 2
69 / 1
70 /// 3
71 // 2
72 /// 3
11
74 ///// 5
75 /// 3
76 /// 3
77 // 2
78 // 2
79 / 1
80 /// 3
81 /// 3
82 // 2
83 / 1
84 / 1
85 / 1
Total 50
Es importante que la suma total sea igual al número de datos que tomamos en la investigación.
Q = 1+ 3.322 (log. 50) observa que obtendremos el logaritmo de 50. En una calculadora el
logaritmo de 50 es 1.69897... Redondeando su valor será 1.70 Este valor lo multiplicamos por
3.322 y nos da en la calculadora 5.64... Que redondeado será 5.64 y finalmente le sumamos 1 a
dicha cantidad arrojándonos = 6.64 Si el número que nos arroje la formula tiene su primera decimal
igual o mayor que .5 se aumenta el entero. Así en nuestro ejemplo tenemos que 6.6 seria igual a 7.
En resumen y de acuerdo a la formula el número de intervalos será de 7
Resulta claro que si lo ancho del intervalo es de 4 y el número de intervalos son 7; (4 ) (7) = 28 se
cubrirá todo el rango que es de 25.
Debemos hacer uso de los Límites reales Inferiores (L.R.I.), quitando 0.5 al dato más chico que
en nuestro caso es de 60 minutos. Por lo tanto será de 59.5 el L.R.I. Luego a este se le suma lo
ancho del intervalo que es de 4 resultando 63.5 que es el Límite Real Superior (L.R.S.) por lo
que ahora si podemos decir que los dos datos 64 se deberán anotarse en el 2do. Intervalo que
iniciaría en 63.5 hasta 67.5 como límite real superior.
Ahora si podemos construir cada uno de los intervalos con sus límites reales inferiores y limites
reales superiores.
12
Recuerda que el ancho de cada intervalo es de 4 y que en total son siete (7) intervalos de acuerdo
a las operaciones realizadas anteriormente:
INTERVALOS DE CLASE
Límite Real Inferior Límite Real Superior
59.5 63.5
63.5
71.5
71.5
79.5
87.5
60 a 64
64 a 68
Intervalos 68 a 72
72 a etc…
Observación Importante: Si te fijas detenidamente en los intervalos y los datos ordenados del
cuadro anterior; los dos datos de 64 quedarían comprendidos en el 1er. y 2do. Intervalo, es decir,
pueden anotarse en el primero o en el segundo intervalo, también los 72 en el 3er o 4to intervalo;
pero se sabe que una observación dada (los 64 y 72) deben colocarse en uno y solamente uno de
los intervalos de clase.
Ahora para el ANCHO DEL INTERVALO: Se divide el rango entre el número de intervalos para
obtener la anchura de cada intervalo o celda.
13
PASO CINCO: MARCA DE CLASE.
La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los límites reales
inferiores más los límites reales superiores, dividiendo el resultado entre dos.
Hagámoslo practicando...Llena los espacios que faltan. Se suma 59.5 + 63.5 = 123 = 61.5
2
Intervalos de Clase
L.R. Inferior L.R. Superior MARCA DE CLASE
59.5 63.5 61.5
63.5 67.5
67.5 71.5
71.5 75.5
75.5 79.5
79.5 83.5
83.5 87.5 85.5
14
HISTOGRAMA y POLÍGONO DE FRECUENCIAS.
Cuando las variables son cuantitativas o numéricas sean discretas o continuas la representación
gráfica más común es el HISTOGRAMA DE FRECUENCIAS y el POLÍGONO DE FRECUENCIAS.
HISTOGRAMA DE FRECUENCIAS:
Este tipo de gráfica consiste en una serie de rectángulos trazados en un sistema de coordenadas
cartesianas o rectangulares. Para realizar el histograma es necesario agrupar los datos en
intervalos de clase, con sus límites reales inferiores y superiores, además de su frecuencia
absoluta.
Los rectángulos tienen sus bases sobre el eje horizontal con centros en las marcas de clase y su
longitud es igual a la anchura de los intervalos de clase. La altura de cada rectángulo corresponde
al valor de la frecuencia que tenga el intervalo que representa. En éstos histogramas los
rectángulos se trazan adyacentes entre si.
F
R 14 -
E
C 12 -
U
10 -
E
N 8 -
C
I 6 -
A
S 4 -
2 -
0 -
15
Si observas en el eje vertical de las "Y", se ubican las frecuencias absolutas, mientras que en el eje
horizontal de las "X" se ubican los intervalos de clase en donde cada límite real superior
corresponde al límite real inferior del siguiente intervalo. Las marcas de clase (61.5) aunque es
permitido no escribirse en el histograma, se pueden ubicar ya que corresponde al punto medio de
cada intervalo.
Como habrás observado, el histograma nos ayuda a mostrar la frecuencia absoluta con que se
presentan algunos datos; otra forma de gráfica son los…
F
R 14 -
E
C 12 -
U
E 10 -
N
C 8 -
I
6 -
A
S 4 -
2 -
POLÍGONOS DE FRECUENCIA.
Los polígonos de frecuencia también se construyen a partir de datos con variables cuantitativas o
numéricas y se puede realizar a partir de un histograma si se desea.
Una vez trazado el histograma, se localizan los puntos medios o marcas de clase en la parte
superior de cada uno de los rectángulos o intervalos de clase. Se trazan segmentos de recta que
unen cada punto medio de cada uno de los intervalos.
Este polígono se encierra uniendo con el eje horizontal en el punto que corresponde al punto medio
de un rectángulo imaginario y adyacente al histograma, esto se hace en los extremos izquierdos y
derechos del polígono.
16
En el histograma se localizan los puntos medios en la parte superior de cada intervalo de clase y
en el eje horizontal, se indican las marcas de clase o puntos medios de cada intervalo.
Construyamos un polígono....
Para trazar el polígono de frecuencia unimos con rectas los puntos medios o marcas de clase con
su frecuencia absoluta respectiva, en donde estaban la parte alta de los rectángulos del
histograma.
ACTIVIDADES DE APRENDIZAJE: Dibuja en ésta hoja el HISTOGRAMA y el POLIGONO DE
FRECUENCIAS del ejercicio de la página 16.
Escribe las conclusiones más importantes que nos indican las gráficas anteriores:
______________________________________________________________________
______________________________________________________________________
17
PASO SEIS: FRECUENCIA RELATIVA.
Con los datos anteriores terminamos los componentes principales del cuadro que también recibe el
nombre de... "TABLA DE DISTRIBUCIÓN DE FRECUENCIAS" por lo que...
Ya podemos obtener algunas CONCLUSIONES de nuestra investigación.
Te recordamos que los 50 datos son del tiempo en minutos dedicado a estudiar estadística por los
estudiantes. Si analizamos detenidamente sus datos, podemos ver que el mayor número de casos
(frecuencia absoluta) es 11 y dedican de 71.5 a 75.5 minutos en estudiar (su intervalo) pero
además representan el mayor porcentaje con un 22% del total.
18
Caso contrario, son lo que dedican de 83.5 a 87.5 minutos en estudiar pues únicamente son 2 y
representan un 4 % del total.
Si observamos en global el cuadro, podemos decir que la mayoría de los estudiantes (Los
intervalos 3,4 y 5) dedican de 67.5 a 79.5 minutos en estudiar y representan el 54 % del total.
Analizando otros datos podremos obtener más conclusiones de nuestro trabajo e ir descubriendo lo
importante de nuestra investigación. Mas adelante aprenderás a realizar GRÁFICAS con los datos
obtenidos de la tabla de frecuencias. Quedamos pendientes. .. ,
1) siguiendo los siete pasos para una variable numérica, ordena los datos de la siguiente variable y
realiza las operaciones correspondientes hasta obtener completa la "tabla de distribución de
frecuencias" de las “Estaturas de 55 estudiantes” con aproximación de un centímetro. Datos:
154 165 156 160 159 170 151 163 166 166 153
160 173 160 161 166 162 153 163 156 170 165
159 168 149 163 169 157 162 159 168 155 163
161 161 174 160 168 152 169 165 156 166 166
162 160 170 163 168 157 165 159 163 160 160
Aquí realiza los siete pasos y tus cálculos correctamente hasta llenar tu Tabla de distribución de
frecuencias
Paso 1 Ordenación de datos.
TOTAL =
PRINCIPALES CONCLUSIONES:
1.____________________________________________________________________
2.____________________________________________________________________
3_____________________________________________________________________
19
DISTRIBUCIÓN DE FRECUENCIA RELATIVA ACUMULADA
La frecuencia total de todos los valores menores que el límite real superior de un determinado intervalo de
clase, es conocida como frecuencia acumulada incluyendo hasta este intervalo. Lo anterior lo comprenderás
mejor si nos ayudas a resolver el ejemplo que sigue:
Si tomamos los datos obtenidos al medir el “tiempo en minutos que emplearon los estudiantes en ir de su casa
a la escuela”. Se construye la siguiente tabla de distribución de frecuencias y una columna que corresponde a
la distribución de frecuencia acumulada y otra a la frecuencia relativa acumulada.
Concluyen los datos que faltan en la frecuencia acumulada de clase, de tal forma que sumen un total de 243.
En la columna de frecuencia acumulada relativa, también calcula los espacios que faltan hasta que obtengas el
100%
Se le llama ojiva o polígono de frecuencia acumulada, a la gráfica que muestra la distribución de frecuencia
acumulada. Al construirla, los intervalos de clase se disponen en el eje horizontal, y las frecuencias
acumuladas se representan en el eje vertical. Luego se unen los puntos localizados mediante segmentos.
Para entender la forma en que se traza una ojiva, considere el ejemplo de los datos obtenidos al registrar el
tiempo empleado por los estudiantes para ir de su casa a la escuela.
Primero se coloca un punto sobre el eje horizontal donde está el 9.5, puesto que no hay observaciones de ésta
o de inferior magnitud. Luego se traza el siguiente punto en el 12.5 a la altura del 3, esto se puede hacer
porque hay 3 registros iguales o menores de 12.5 de esta manera se continúan representando el resto de los
puntos.
Ejemplo: Tomando como base la distribución de frecuencia acumulada del ejemplo anterior, y el tiempo en
minutos que emplean los integrantes de un grupo de estudiantes de ir de su casa a la escuela, construyamos la
ojiva correspondiente:
20
50
45
40
FRECUENCIA ACUMULADA
35
30
25
20
15
10
0
9.5 12.5 15.5 18.5 21.5 24.5 27.5 30.5 33.5
INTERVALO DE CLASE
21
En esta página transfiere los datos de la tabla de distribución de frecuencias del ejercicio de la
página 16 y en las dos columnas últimas obtén la FRECUENCIA ACUMULADA y la FRECUENCIA
RELATIVA ACUMULADA, además construye su gráfica llamada OJIVA.
100%
T O T A L: 55 227
22
ME D IDAS D E T EN D E N CIA CE N TRAL
PROMEDIOS
En estadística al promedio se le conoce como medida de tendencia central, ya que está localizado hacia el
medio o centro de una distribución, en la que la mayoría de los valores tenderán a concentrarse. Entre los más
comunes se pueden mencionar: la media aritmética, la mediana y la moda
Media Aritmética
Moda
LA MEDIA ( X ).
X = X 1 X 2 X 3 ... Xn
n
Donde:
X= 30 32 32 32 32 34 34 34 34 34 34 36 36 36 36 36 38 38 38 40
20
696
X= = 34.8
20
Obsérvese que la “media” no necesariamente tiene que ser uno de los valores de la muestra.
Una manera más sencilla de encontrar esta “media aritmética” es multiplicando cada dato por su frecuencia y
continuar el proceso respectivo, como se ilustra a continuación:
X=
1(30) 4(32) 6(34) 5(36) 3(38) 1(40)
20
30 128 204 180 114 40 696
X= X= X = 34.8
20 20
23
Principales características de la media aritmética:
1. El cálculo de la media aritmética está basado en todos los valores de un conjunto de datos. El valor
de cada elemento en los datos afecta el valor de la media.
2. Cuando algunos valores extremos son incluidos en los datos, la media puede llegar a ser menos
representativa del conjunto de valores.
3. La media tienen dos propiedades matemáticas importantes que proporcionan un análisis matemático
adicional, haciéndola más popular que cualquier otro tipo de promedio.
a. La suma algebraica de las desviaciones de los valores individuales respecto a la media, es
cero.
b. La suma del cuadrado de las desviaciones con respecto a la media es mínima.
~
LA MEDIANA ( X ) (Me)
~
La mediana ( X ) de una muestra de “n” datos, se localiza en la mitad de la muestra o del conjunto de
elementos ordenados de mayor a menor o viceversa.
Su característica principal es dividir el conjunto ordenado en 2 grupos iguales; la mitad de los números tendrá
valores que son “menores que” la mediana y la otra mitad alcanza “valores mayores” que ésta.
3. La mediana en algunos casos, no puede ser calculada exactamente como sí puede serlo la media.
^
LA MODA ( ) (Mo)
X
La moda se define como el valor que tiene la mayor frecuencia (o que se repite mas) en un grupo de datos,
24
Hay casos en que la moda no es única, esto es, puede ser bimodal con dos modas, o trimodal con tres modas.
También hay casos en que la moda no existe.
La moda no existe.
Otro ejemplo: 10,12, 14, 16, 17, 17, 18, 19, 20, 20, 21.
1. La moda representa más elementos que cualquier otro valor dentro de un conjunto de datos.
2. La moda no se calcula incluyendo todos los valores y no está definida algebraicamente como si lo
está la media.
4. Para una distribución de frecuencias, la moda no puede ser calculada exactamente, como si puede
serlo la media.
En comparación con la media y la mediana, la moda es la menos útil para la mayoría de los problemas
estadísticos, ya que no se inclina por un análisis matemático, en el mismo sentido que lo hacen las otras dos.
Sin embargo, desde un punto de vista puramente descriptivo, la moda es indicativa del valor típico en
términos del valor que se presenta con mayor frecuencia. La moda es más útil cuando uno o dos valores, o un
grupo de éstos, ocurren con mayores frecuencias que otros. Por el contrario, cuando la mayoría o todos los
valores se presentan casi con la misma frecuencia, la moda no sirve para describir datos.
25
1. Refleja cada valor.
Es la suma de los valores de 2. Tiene propiedades 1. Puede ser
Media cierto número de cantidades, matemáticas atractivas. excesivamente influida
Aritmética dividido entre su número. 3. Todos los valores afectan su por los valores
resultado. extremos.
4 Si se quiere calcular los
totales, es mejor usar la media.
Finalmente, la medida de tendencia central que se debe utilizar depende de la información disponible y el
objetivo que se desea alcanzar.
ACTIVIDADES DE APRENDIZAJE:
1) Calcula la media aritmética, la mediana y la moda de las series de valores siguientes:
a) 2, 3, 7, 4, 5, 4, 8.
b) 1, 9, 9, 4, 3, 5, 2, 7, 6.
26
Trabajo en hogar (TH); Trabajo albañil (TA); Trabajo en campo (TC); Trabajo en Tiendas (TT)
TH, TH, TC, TA, TC, TA, TT, TT, TC, TH, TC, TA, TT, TC, TC, TA.
Ahora analicemos la media, mediana y moda pero con “DATOS AGRUPADOS” o también se llaman de
distribución de frecuencias agrupadas.
Empecemos con la…
Si los datos o valores han sido agrupados en intervalos de clase, entonces se considera que todos los valores
incluidos dentro de un determinado intervalo son iguales o están representados por el punto medio del
intervalo o la marca de clase. En este caso se procede a multiplicar cada punto medio por su respectiva
frecuencia. Luego se suman estos productos, para finalmente dividir este resultado entre el total de datos.
Es importante señalar que el valor de la media de la frecuencia agrupada es suficientemente aproximado para
trabajos de estadística y que el valor de la media no será suficientemente aproximado si la distribución de
frecuencias agrupadas es muy irregular o demasiado asimétrica.
X
( f )( X )
n
Donde
f = Frecuencias absolutas de los intervalos.
X = Marca de clase o punto medio.
n = La suma de las frecuencias.
27
MEDIANA PARA DATOS AGRUPADOS
Cuando Los datos simples son agrupados en una distribución de frecuencias, cada uno de los valores pierde su
identidad en la tabla, significando que la mediana de los datos simples puede no ser igual a la mediana
obtenida de una distribución de frecuencias del mismo conjunto de datos. Es importante mencionar, que la
mediana de los datos agrupados es una aproximación de la verdadera mediana. La aproximación puede ser
obtenida mediante el uso de la siguiente fórmula:
n
2 c
Me Li (i )
Fme
n
2 c
Me Li (i )
Donde: fme
Me = Mediana
c = La frecuencia acumulada precisamente hasta la clase anterior a la clase mediana o la suma de las
frecuencias de los intervalos por debajo de la mediana.
Cuando la moda se calcula a través de la fórmula para datos agrupados, los valores y frecuencia en la clase
modal y las frecuencias en las clases inmediatamente antes y después de la clase modal, son también
empleadas. Por lo tanto se aplica la siguiente fórmula.
d1
Mo Li (i )
d1 d 2
Donde:
Mo = Moda
28
Ejemplo: En la siguiente tabla se resumen los datos de los pesos en kilogramos de 50 estudiantes.
Con base a la siguiente tabla de distribución de frecuencias, calculemos los valores de la media, la mediana y
la moda, recordando cómo se conforman las columnas de Intervalos de clase ( I ), Marca de clase o punto
medio ( X ), Frecuencia absoluta( f ), Frecuencia relativa % ( f’ ) y la Frecuencia acumulada ( F ).
Su fórmula es… X
( f )( X )
n
Esta expresión no se puede aplicar directamente, ya que únicamente se cuenta con el dato del denominador,
esto es n = 50, pero no se tiene el dato del numerador. Para ello se agrega una columna a la tabla, donde se
proporcionan los datos agrupados en intervalos. Esta columna se construye multiplicando el punto medio de
cada intervalo por su respectiva frecuencia y cuando se tengan todos los productos, se procede a obtener la
suma de ellos. La tabla original ya con la columna Fx y la suma de ésta queda de la siguiente manera.
I x f f’ F fx
30.5 – 33.5 32 1 .02 1 32
33.5 – 36.5 35 2 .04 3 70
36.5 – 39.5 38 6 .12 9 228
39.5 – 42.5 41 11 .22 20 451
42.5 – 45.5 44 16 .32 36 704
45.5 – 48.5 47 9 .18 45 423
48.5 – 51.5 50 4 .08 49 200
51.5 – 54.5 53 1 .02 50 53
TOTAL = 50 1 o 100 2161
Entonces:
_ 2161
X = 50 = 43.22 será el resultado de la media aritmética
29
MÁS ACTIVIDADES DE APRENDIZAJE:
Calcula la media aritmética de los tres ejercicios siguientes.
De la página 16…
De la pagina 18…
TOTAL = 55
De la página 23…
9.5 – 12.5 11 3
12.5 – 15.5 14 4
T O T A L: 47
30
CALCULO DE LA MEDIANA para datos agrupados.
I x F f’’ F
30.5 – 33.5 32 1 .02 1
33.5 – 36.5 35 2 .04 3
36.5 – 39.5 38 6 .12 9
39.5 – 42.5 41 11 .22 20
42.5 – 45.5 44 16 .32 36
45.5 – 48.5 47 9 .18 45
48.5 – 51.5 50 4 .08 49
51.5 – 54.5 53 1 .02 50
TOTAL = 50 1
Si partimos de la definición, la mediana es el dato central, como hay OCHO INTERVALOS estará entre el
cuarto y quinto intervalo; entonces, debe estar comprendida en el intervalo 42.5 – 45.5, ya que observando la
columna “F”, a este intervalo le corresponde una frecuencia acumulada de 36. Note Usted que si se toma el
intervalo inmediato inferior, 39.5 – 42.5 se observa en la columna “F”, que hasta esta celda hay 20 VEINTE
casos y como se tiene un total de 50 datos, el caso central es el número 25. Así pues el intervalo donde está la
mediana es:
42.5 – 45.5 44 16 32 36
Algunos autores efectúan el siguiente razonamiento, sin utilizar la fórmula, pero si interpolando una relación
proporcional: ANALIZA DETENIDAMENTE
Como 20 casos (1+2+6+11) caen por debajo del L.R.I. de la mediana, necesitamos 5 datos más, para llegar a
25. Dado que existen 16 casos (frecuencia) en el intervalo y éste tiene 3 de amplitud o ancho, hacemos una
regla de tres.
16 es a 3 como 5 es a x
16 : 3 :: 5 : x x= (3)(5) = 15 = 0.9375
16 16
31
i = Tamaño del intervalo o amplitud de la clase mediana.
25 20 5 15 15
Me = 42.5+ ( 3 ) = 42.5 + ( 3 ) = 42.5 + = 42.5 +
16 16 16 16
De la página 16…
32
De la pagina 18…
De la página 23…
9.5 – 12.5 11 3
12.5 –15.5 14 4
15.5 – 18.5 17 6
18.5 – 21.5 20 7
21.5 – 24.5 23 9
24.5 – 27.5 26 8
27.5 – 30.5 29 5
30.5 – 33.5 32 3
33.5 – 36.5 35 2
T O T A L: 47
d1
Mo Li (i )
d1 d 2
L1 = Límite real inferior de la clase que contiene la moda
Para determinar los valores de cada término en esta expresión, se requiere además del intervalo donde está
localizada la moda, de las celdas inmediata inferior y superior que queda como sigue:
33
39.5 - 42.5 41 11 .22 20 .40 451
42.5 - 45.5 44 16 .32 36 .72 704
45.5 - 48.5 47 9 .18 45 .90 423
Li = 42.5
d1 = 16 - 11 = 5
d2 = 16 – 9 = 7
i =3
5 5
Mo = 42.5 + (3) Mo = 42.5 + ( 3 )
5 7 12
15
Mo = 42.5 + = 42.5 + 1.25 = 43.75
12
De la pagina 18…
De la página 23…
34
L.R.I. L.R.S. de clase (x) de clase (f)
9.5 – 12.5 11 3
12.5 –15.5 14 4
15.5 – 18.5 17 6
18.5 – 21.5 20 7
21.5 – 24.5 23 9
24.5 – 27.5 26 8
27.5 – 30.5 29 5
30.5 – 33.5 32 3
33.5 – 36.5 35 2
T O T A L: 47
TAREA
De las edades de 40 maestros de los C.B.T.a s, calcula las MEDIDAS DE TENDENCIA CENTRAL
(MEDIA, MEDIANA Y MODA) Tanto de los datos sin agrupar como agrupados.
Edades:
36, 53, 35, 28, 30, 36, 45, 29, 43, 28,
30, 46, 39, 54, 47, 44, 34, 40, 50, 38,
47, 56, 48, 42, 39, 47, 53, 51, 38, 29,
48, 52, 47, 46, 41, 40, 45, 39, 47, 38.
______________________________________________________________________
______________________________________________________________________
35
AHORA PARA DATOS AGRUPADOS. Realiza la Tabla de distribución de frecuencias con los 7
pasos:
PASO 1. Ordenación de datos:
36
Realiza tus operaciones en orden y limpieza hasta llenar la tabla de frecuencias
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS
“Edades de los maestros del C.B.T.a.”
Intervalos de Clase Marca de Frecuencia Frecuencia Frecuencia (f )(x)
L.R.I. L.R.S Clase Absoluta (f) Relativa (f’) Acumulada (F)
(X)
Resultado Media
=__________
MEDIANA:
MODA:
Resultado Moda
=__________
37
FINALMENTE REALIZA UNA COMPARACIÓN DE LOS TRES EJERCICIOS ANTERIORES,
COMPARANDO SU MEDIA MEDIANA Y MODA DE CADA UNO
De la página 16
Intervalos de Clase Marca de Frecuencia
L.R.I. L.R.S. Clase (x ) Absoluta (f )
59.5 - 63.5 61.5 6
63.5 - 67.5 65.5 6
67.5 - 71.5 69.5 8 Media = ____________
71.5 - 75.5 73.5 11
75.5 - 79.5 77.5 8 Mediana=:___________
79.5 - 83.5 81.5 9
83.5 - 87.5 85.5 2 Moda=_____________
TOTAL = 50
De la pagina 18
Intervalos de Clase Marca de Clase Frecuencia
L.R.I. L.R.S. (x) Absoluta (f)
148.5 152.5 150.5 3
152.5 156.5 154.5 7 Media = ____________
156.5 160.5 158.5 13
160.5 164.5 162.5 12 Mediana=:___________
164.5 168.5 166.5 13
168.5 172.5 170.5 5 Moda=_____________
172.5 176.5 174.5 2
TOTAL = 55
De la página 29…
Intervalo de clase Marca Frecuencia
de clase (x) de clase (f)
9.5 – 12.5 11 3
12.5 –15.5 14 4
15.5 – 18.5 17 6 Media = ____________
18.5 – 21.5 20 7
21.5 – 24.5 23 9 Mediana=:___________
24.5 – 27.5 26 8
27.5 – 30.5 29 5 Moda=_____________
30.5 – 33.5 32 3
33.5 – 36.5 35 2
T O T A L: 47
38
CUARTILES, DECILES Y PERCENTILES:
La mediana no es más que uno de muchos fractiles; éstos dividen los datos en dos o más partes,
tan iguales “como sea posible”. Entre ellos también encontramos los cuartiles, deciles y
percentiles, que pretenden dividir los datos en cuatro, diez, y cien partes. Hasta hace poco, los
fractiles se manejaban principalmente para distribuciones de conjuntos numerosos de datos.
El cuartil se utiliza a fin de conocer los intervalos dentro de los cuales quedan representados
proporcionalmente los términos de una distribución, para esto, se divide la distribución de
frecuencias en 4 partes iguales, cada una contiene IGUAL NÚMERO DE OBSERVACIONES (el
25% del total). Los puntos de separación de los valores de X se llaman CUARTILES.
El primer cuartil corresponde al 25% y se designa con Q 1.
El segundo cuartil se designa con Q 2 que representa el valor de 50% y coincide con la
mediana.
El tercer cuartil es Q3 representa el 75% de las observaciones.
Si en lugar de dividir en 4 partes iguales se hace con 10 partes, se tienen 9 puntos de división,
CORRESPONDIENDO A CADA PUNTO UN DECIL, de donde, el primer decil es el valor por
debajo del cual está el 10% de las observaciones, para el segundo decil el 20% y así
sucesivamente.
PRIMER EJEMPLO:
Consideremos las siguientes lecturas de temperaturas altas en doce ciudades Europeas en un día
de junio:
90, 75, 86, 77, 85, 72, 78, 79, 94, 82, 74, y 93 grados.
Para el cálculo de los cuartiles dividimos los datos en CUATRO PARTES IGUALES. Para ilustrar
dicho procedimiento tenemos la siguiente figura:
n = 1272 74 75 77 78 79 82 85 86 90 93 94
Se puede apreciar que las líneas punteadas dividen los datos en cuatro partes iguales. Si
determinamos que los puntos centrales entre 75 y 77, 79 y 82, y 86 y 90 sean los tres cuartiles,
tenemos:
75 77 79 82 86 90
Q1 76 Q2 80.5 Q3 88
2 2 2
Es evidente que Q2 = 80.5, también es la mediana y se puede verificar con facilidad que se
satisfacen las tres propiedades de los cuartiles. Todo lo anterior funcionó muy bien porque los doce
datos resultó ser múltiplo de 4. No obstante ¿Qué podemos hacer si fueran 11 datos? Como los
siguientes.
39
Una solución es n = 11, la posición de la mediana es 11 + 1 = 12 = 6 o sea el sexto dato
2 2
n = 11 72 74 75 78 79 82 85 86 90 93 94
El cuartil inferior (Q1) es la mediana de los cinco valores por debajo de la mediana,
esto es, 75.
Y el cuartil superior (Q3) es la mediana de los cinco valores por arriba de la mediana, o sea, 90.
b) Calcula los tres cuartiles de las siguientes lecturas de presión de nueve personas después de
haber efectuado ejercicios de esfuerzo;
104, 100, 98, 111, 191, 94, 103, 96, 108 y 99.
40
ME D I DAS D E DI S PE R SI Ó N
A menudo escuchamos que en los países latinoamericanos existe mucha DIFERENCIA entre los
ingresos que perciben por ejemplo los políticos y los trabajadores de otra clase social de la
población. Esas diferencias tienen sus raíces en distintos fenómenos sociales, políticos y
económicos; sin embargo, un economista diría “el ingreso per cápita en los países
latinoamericanos está más DISPERSO que el ingreso per cápita de los países
desarrollados”.
El concepto de DISPERSIÓN resulta importante en casi todos los estudios, ya que puede darse el
caso de poblaciones con igual valor central (Media aritmética, Mediana o Moda), pero una puede
estar más DISPERSA que la otra, es decir, los promedios nos sirven para describir los datos
representados por la tendencia central del conjunto. Por lo tanto, el promedio no logra por si
mismo describir completamente a una colección de datos; se necesitan otros valores que nos
indiquen el grado en que las observaciones estudiadas se apartan o VARÍAN con respecto al valor
central, es decir, el GRADO DE VARIACIÓN O DISPERSIÓN.
Con los siguientes datos de dos poblaciones, analicemos primeramente sus medias aritméticas:
Población A) : 1 (7) , 2 (11), 3 (13), 4 (9), 5 (5), 6( 3), 7( 2), 8(1) = 169 = 3.31
51
n = 51
15 --
13 -- Histograma de los datos de la población A
11 --
Frecuencia 9 -- Media aritmética (promedio) = 3.31
7 --
5 --
3 --
1 --
1 2 3 4 5 6 7 8
Población B) : 1 ( 3 ), 2 ( 9 ), 3 ( 15 ), 4 ( 12 ), 5 ( 9 ) = 159 = 3.31 igual que la población A
41
48
n = 48
15--
13-- Histograma de los datos de la población B
11--
Frecuencia 9--
7-- Media aritmética (promedio) = 3.31
5--
3--
1--
1 2 3 4 5
No obstante que en las dos poblaciones se obtuvo una media aritmética igual de 3.31; al observar
los dos histogramas nos damos cuenta que no son iguales PERO...
______________________________________________________________________
Por tal motivo las medidas de tendencia central, no dicen nada por sí mismas, por lo que se deben
calcular las MEDIDAS DE DISPERSIÓN o LAS VARIACIONES de los datos. Por su cálculo las
MEDIDAS DE DISPERSIÓN se dividen en absolutas y relativas, aún que existen mas,
estudiaremos las siguientes:
RANGO O RECORRIDO:
42
En la segunda población B se rango es:
R=5–1=4 (su rango o recorrido es 4 )
Por lo tanto y como 7 > 4, podemos señalar con seguridad que los datos de la primera población
A), está más dispersa o desviados que los datos de la segunda población B).
1 2 4 4.9 7 8 9
x
Según la fórmula anterior, desvío es igual al dato menos la media aritmética por lo tanto tenemos:
43
La desviación de cada dato será:
Calculo del desvío
x Datos d = X1 - desvío =
1 1 – 4.9 = - 3.9
2 2 – 4.9 = -2.9 Suman
2 2 – 4.9 = -2.9 – 10.6
4 4 – 4.9 = -0.9
5 5 – 4.9 = 0.1
5 5 – 4.9 = 0.1
7 7 – 4.9 = 2.1
Suman
7 7 – 4.9 = 2.1 + 10.6
8 8 – 4.9 = 3.1
8 8 – 4.9 = 3.1
49/10= -10.6
4.9 +10.6= 0.0
De acuerdo a los resultados de la tabla ¿Cuál es el dato que está más disperso?
Es el número 1, porque independientemente de su signo, su valor absoluto es el mas alto y es de –
3.9 de desvío.
Ahora ¿Cuál es el dato menos disperso?. Es el número 5 porque está más cerca de la media
aritmética y tiene un desvío de 0.1.
Si observas la tabla anterior en muy importante obtener primero el valor de la media aritmética que
en nuestro caso fue de 49 / 10 = 4.9 para después restarle al valor de cada dato, dicha media.
Por otro lado, al sumar los resultados NEGATIVOS de los desvíos nos arroja un valor de – 10.6 y al
sumar los resultados POSITIVOS de los desvíos también nos da un valor de + 10.6 por lo tanto, se
comprueba que la diferencia de los desvíos negativos y los positivos, nos da cero o en su defecto
tiende a ser cero.
44
El constructor elaboró la siguiente tabla:
En este caso particular, el mayor valor tuvo el signo negativo lo que significa que la observación es
menor que el valor de la media.
DESVIACIÓN MEDIA.:
La desviación media es la media aritmética de los valores absolutos (ignorando el signo) de las
desviaciones de cada elemento del conjunto de datos, es decir, hay que restar a la media
aritmética cada valor del conjunto de datos, ignorando el signo, y sumamos todas las diferencias
para dividirlo entre el número total de datos.
Su formula es
x 1 x Suma de los valores absolutos
dm i 1
N Número de datos
45
Sigamos el mismo ejemplo y AUMENTEMOS UNA COLUMNA para los valores absolutos al
cuadro anterior:
Desviación media es igual a... La suma de los valores absolutos entre el número de muestras
Otra forma de hacerlo, es elevar al cuadrado los desvíos, por lo que surge la...
VARIANZA (S2) : Que es la media aritmética (promedio) de los cuadrados de los desvíos y su
fórmula es la siguiente: N
(x 1 x )2
S2 i 1
Suma de desvíos al cuadrado
N
Número de datos
46
DESVIACIÓN ESTÁNDAR o TÍPICA ( S ): Es la raíz cuadrada de la varianza (S2 )
También se puede definir como la raíz cuadrada de la media aritmética de los cuadrados de los
desvíos.
S
(x 1 x )2
N
En el mismo ejemplo tendríamos lo siguiente:
Este tipo de coeficiente es muy útil para medir la DISPERSIÓN RELATIVA en base a la desviación
estándar y la media y sirve básicamente para comparar muestras distintas en términos
numéricos adimensionales, es decir, que mientras las demás medidas de dispersión tienen
unidades, el coeficiente de variación carece de ellas.
C. V = 11.77 . = 0.033
354.17
También se puede expresar en porcentaje al multiplicar por 100 esto es, (0.033) (100) = 3.30%
C.V. = 3.30 %
47
RANGO INTERCUARTIL
Cuando habiéndose aplicado la media aritmética se quiere evitar la influencia de los valores
extremos, se analiza únicamente la situación intermedia de la distribución de frecuencias aplicando
el RANGO INTERCUARTIL.
Rango semiintercuartil QD = Q3 - Q1
2
Hagamos un ejemplo:
n = 12 72 74 75 77 78 79 82 85 86 90 93 94
75 77 79 82 86 90
Q1 76 Q2 80.5 Q3 88
2 2 2
Rango intercuartil Q = Q3 – Q1
Q =88 – 76 = 12
QD = 12 = 6
2
El rango semiintercuartil (desviación cuartil) mide la dispersión con mayor precisión que el rango,
sin embargo, presenta las limitaciones siguientes:
c) Igual que la mediana, no tiene propiedades que permitan su uso en las relaciones
matemáticas que utiliza la estadística
Percentiles
Percentil, en estadística, parámetro que indica el porcentaje de individuos de una distribución que
tienen un valor inferior a él. Es una medida de posición.
Por ejemplo, el percentil 80, p 80, es un número que supera al 80% de los datos de la distribución.
Los percentiles también se llaman centiles.
48
UN RESUMEN DE LAS MEDIDAS DE DISPERSIÓN
49
SIGAMOS PRACTICANDO PARA OBTENER LAS MEDIDAS DE DISPERSIÓN
PARA DAT O S NO AG RUPADOS
Los siguientes datos son las edades de dos grupos de estudiantes del SAETA-XALISCO, de la
generación Agosto -2001. A cada uno de los grupos le obtendrás las medidas de dispersión
siguientes:
16 16 18 19 19 15 15 15 16 16
19 19 20 21 21 17 17 17 18 18
22 22 22 22 23 18 18 19 19 19
27 29 29 30 32 19 20 20 21 21
21 22 22 29 30
En la siguiente página…
50
REALIZA TUS CÁLCULOS DE ACUERDO A LAS FÓRMULAS CORRESPONDIENTES, HASTA
OBTENER SUS RESULTADOS PARA CADA GRUPO.
51
AHORA CONTESTA ¿CUÁL DE LOS DOS GRUPOS TIENE SUS DATOS MÁS DISPERSOS?
Completa las siguientes filas de las columnas para que calcules la Desviación media (dm), la
Varianza (S2) la Desviación estándar o típica ( S ).
Intervalo clase Marca Frecuenci Frecuenci Valor Frecuenci Desvíos Frec. por
de a a por absoluto a por al desvíos al
(estaturas )
clase marca de del desvío desvíos cuadrado cuadrado
(alumnos)
(X) clase
X1 X f X1 X
2
f X X
(f)
(f)(X) X1 X 2
f x
i 1
1 x
Formula para obtener la desviación media = dm
N
N
f (x
i 1
1 x)2
Formula para obtener la varianza = S2
N
f (x 1 X )2
Formula para obtener la desviación estandar (S) = S i 1
N
S
C .V . (100)
X
52
Formula para obtener el coeficiente de variación en porcentaje
RESULTADOS
Desviación media =_______________
Varianza = ____________________
ACTIVIDADES DE APRENDIZAJE:
Calcula las medidas de dispersión (desviación media, varianza, desviación estándar y
coeficiente de variación) de los siguientes dos ejercicios.
De la página 16…
Intervalos de Marca de Frecuencia
Clase Clase Absoluta
(x) (f )
59.5 - 63.5 61.5 6
63.5 - 67.5 65.5 6
67.5 - 71.5 69.5 8
71.5 - 75.5 73.5 11
75.5 - 79.5 77.5 8
79.5 - 83.5 81.5 9
83.5 - 87.5 85.5 2
TOTAL = 50
RESULTADOS
Desviación media
=_______________
Varianza = ____________________
Desviación estándar =
53
De la pagina …18
Intervalos de Marca de Frecuencia
Clase Clase (x) Absoluta (f)
148.5 152.5 150.5 3
152.5 156.5 154.5 7
156.5 160.5 158.5 13
160.5 164.5 162.5 12
164.5 168.5 166.5 13
168.5 172.5 170.5 5
172.5 176.5 174.5 2
TOTAL = 55
RESULTADOS
Desviación media
=_______________
Varianza = ____________________
Desviación estándar =
54
GLOSARIO
CLASE. Intervalo en el cual se agrupan los datos en una tabla de distribución de frecuencias.
CUARTILES. Los percentiles 25%, 50% y 75% se llaman primer cuartil, segundo cuartil
(mediana) y tercer cuartil respectivamente. Se pueden usar los cuartiles para dividir al conjunto de
datos en cuatro partes, cada una de las cuales contiene aproximadamente el 25% de los datos.
DATOS CUALITATIVOS. Datos que indican etiquetas o nombres de categorías, para artículos
semejantes.
DATOS CUANTITATIVOS. Datos que indican cuánto o cuántos de algo. Los datos cuantitativos
siempre son numéricos.
INFERENCIA ESTADÍSTICA. El proceso de reunir datos obtenidos de una muestra para hacer
estimaciones o probar hipótesis acerca de las características de una población.
INTERVALO. Distancia existente entre el valor máximo y el más bajo en un conjunto de datos.
MEDIA ARITMÉTICA. Suma de los valores dividida entre el número total de ellos.
55
MEDIA GEOMÉTRICA. Medida de tendencia central que se usa para medir la tasa promedio de
cambio o crecimiento de alguna cantidad; se calcula tomando la enésima raíz del producto de n
valores que representan el cambio.
MEDIA PONDERADA. Promedio que se calcula a fin de tener en cuenta la importancia de cada
valor para el total global; es decir, un promedio donde el valor de cada observación se pondera
mediante algún índice de su importancia.
MEDIDA DE DISPERSIÓN. Aquella que describe cómo las observaciones están esparcidas en un
conjunto de datos.
POBLACIÓN. Conjunto de todos los elementos que estamos estudiando y acerca de los cuales
tratamos de sacar conclusiones.
POLIGONO DE FRECUENCIAS. Gráfica lineal que une los puntos medios de cada clase en un
conjunto de datos; se grafica en la altura correspondiente a la frecuencia de cada clase.
PROMEDIO. Número que describe la centralización o tendencia central de los datos. Existe un
cierto número de promedios especializados, entre los que se incluye la media aritmética, la media
ponderada, la mediana, la moda, y la media geométrica.
RANGO. Medida de dispersión definida como el valor máximo menos el valor mínimo.
VARIANZA. Medida de dispersión para un conjunto de datos, en las desviaciones de los valores de
los datos respecto a la media, elevadas al cuadrado.
56
BIBLIOGRAFÍA CONSULTADA.
1. FREUND John E. y Gary A. Simón. Estadística Elemental. Octava edición. México. D.F. Editorial
Prentice Hall. Traducción José Julián Díaz Díaz. 1994. pp. 566
3. PAGANO, Roberto R. Estadística para las ciencias del comportamiento. Quinta edición. Edit.
Internacional Thomson Editores. México. 1999. pp. 548
4. PASTOR Guillermo. Estadística Básica. México D.F. Editorial Trillas. SEP-CONALEP. 1998. (reimp.
2003). Pp.198.
8. REYNOSO Tirado Héctor Francisco. Técnicas de conteo y espacios maestrales sin maestro.
Universidad Autónoma de Nayarit. México. Facultad de Economía. Verano de 2003. pp.89.
10. SEP, CINVESTAB del IPN, Sección de matemática educativa “probabilidad “ ( Programa Nacional de
Formación y Actualización de Profesores), México 1990
ENCICLOPEDIAS DIGITALES
Microsoft ® Encarta ® 2006. © 1993-2005 Microsoft Corporation. Reservados todos los derechos.
http://es.wikipedia.org/wiki/Portada
57