Академический Документы
Профессиональный Документы
Культура Документы
ÍNDICE
1. ESTADÍSTICA 4
1.1. Definición .................................................................................................................................................... 4
1.2. Utilidad ....................................................................................................................................................... 4
1.3. Campos de la estadística ....................................................................................................................... 4
1.4. Terminología de un estudio estadístico ............................................................................................ 4
1.5. Pasos que se dan en un estudio estadístico ..................................................................................... 6
1.6. Tipos de variables estadísticas ........................................................................................................... 7
2. TABLA DE FRECUENCIAS 8
2.1. Utilidad ....................................................................................................................................................... 8
2.2. Recuento de datos .................................................................................................................................. 8
2.2.1. Definición .....................................................................................................................................................8
2.2.2. Construcción de una tabla de recuento de datos con datos aislados .............................................9
2.2.3. Construcción de una tabla de recuento de datos con datos agrupados en intervalos ................9
3. GRÁFICOS ESTADÍSTICOS 17
3.1. Utilidad ..................................................................................................................................................... 17
3.2. Tipos de gráficas estadísticas .......................................................................................................... 17
3.2.1. Diagrama de barras ................................................................................................................................. 17
3.2.2. Histograma ................................................................................................................................................ 18
3.2.3. Polígono de frecuencias .......................................................................................................................... 19
4. PARÁMETROS ESTADÍSTICOS 28
4.1. Utilidad .................................................................................................................................................... 28
4.2. Tipos de parámetros estadísticos................................................................................................... 28
4.2.1. Medidas de centralización ..................................................................................................................... 28
1. ESTADÍSTICA
1.1. DEFINICIÓN
La estadística es la ciencia que estudia la forma de recopilar, ordenar y analizar datos.
La estadística es la ciencia que se ocupa de recoger y ordenar los datos referidos a diversos
fenómenos, para su posterior análisis e interpretación.
La estadística es la ciencia cuya finalidad es estudiar los procedimientos destinados a la
recogida, resumen, análisis e interpretación de un conjunto de datos .
La estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a
individuos, grupos, series de hechos, etc. y deducir de ellos gracias al análisis de estos datos unos
significados precisos o unas previsiones para el futuro .
La estadística tiene por objeto el desarrollo de técnicas para el conocimiento numérico de un
conjunto de datos empíricos (recogidos mediante experimentos o encuestas).
1.2. UTILIDAD
La estadística se ha convertido en un método efectivo para describir y, sobre todo, para
interpretar con exactitud los valores de los datos económicos, políticos, sociales, psicológicos,
biológicos y físicos, y sirve como herramienta para relacionar, analizar dichos datos y obtener
conclusiones.
La estadística descriptiva es una parte de la estadística cuyo objetivo es examinar a todos los
individuos de un conjunto para luego describir e interpretar numéricamente la información obtenida .
Sus métodos están basados en la observación y el recuento. Se pretende, una vez realizados,
poder simplificar los datos observados para obtener de ellos una información lo más completa posible
del total de la población.
En estadística descriptiva el material de trabajo lo constituyen los datos, que son los
resultados de las observaciones. Una vez obtenidos los datos, hay que ordenarlos y clasificarlos
mediante algún criterio racional de modo que sea posible una visión crítica de los mismos.
Población: es el conjunto formado por todos los elementos del estudio estadístico.
Muestra: es la parte de la población que estudiamos y que nos sirve para deducir las
características de la población. La muestra se toma cuando la población es muy grande y no
puede realizarse un estudio de todos los individuos. Para que el estudio sea válido, la muestra ha
de representar al conjunto de la población, tiene que ser una muestra representativa.
Individuo: es cada uno de los elementos que forman la población o la muestra.
Tamaño de la población: es el número de individuos que componen una población.
Tamaño de la muestra: es el número de individuos que componen una muestra.
Ejemplo: Los alumnos/as de 4º ESO matriculados en España son un total de 136.559. Para
realizar un estudio estadístico sobre su peso, altura y edad, se seleccionan 300 alumnos/as de
diferentes centros escolares. Determina los 6 términos de un estudio estadístico.
Población: Los 136.559 alumnos/as de 4º ESO matriculados en España.
Muestra: 300 alumnos/as seleccionados de diferentes centros.
Individuo: Cada alumno/a matriculado en 4º ESO. 1 alumno/a.
Tamaño de la población: 136.559 alumnos/as matriculados.
Tamaño de la muestra: 300 alumnos/as.
Variables estadísticas: el peso, la altura y la edad.
Ejemplo: Se quiere realizar una encuesta entre los alumnos/as de 3º ESO de una ciudad, en
total 6.578 alumnos/as. Para ello, se elige a los 63 alumnos/as de 3º ESO del IES Cervantes. Determina
los 6 términos de un estudio estadístico.
Población: Todos los alumnos/as de 3º ESO de la ciudad.
Muestra: Los alumnos/as de 3º ESO del IES Cervantes.
Individuo: Cada alumno/a de 3º ESO de la ciudad es un individuo de la población. Y cada
alumno/a de 3º ESO del IES Cervantes es un individuo de la muestra. 1 alumno/a.
Tamaño de la población: 6.578 alumnos/as.
Tamaño de la muestra: 63 alumnos/as.
Ejemplo: Para comprobar si las 10.000 bombillas funcionan correctamente, se proponen dos
alternativas para realizar el control de calidad.
Ejemplo: En una editorial se quiere hacer una encuesta a 50 editores sobre su comida
preferida. Si en total trabajan 360 mujeres y 240 hombres, ¿cuántos hombres y mujeres deben formar
la muestra para que sea representativa?
Solución:
Para que la muestra sea representativa, el porcentaje de mujeres y hombres deber ser igual
que en la población.
360
Mujeres: 100 60%
600
240
Hombres: 100 40%
600
Por tanto, en una muestra de 50 personas habrá:
60 % de 50 = 0,6 50 30 mujeres
40 % de 50 = 0,4 50 20 hombres
Las variables estadísticas se clasifican según los valores que pueden tomar.
- Discretas: sólo pueden tomar valores aislados o determinados. En cada tramo, la variable
sólo puede tomar un número determinado de valores. Ejemplo: el número de hermanos, el
número de veces que los chicos y chicas de una localidad van al cine. 0, 1, 2, 3, …
- Continuas: pueden tomar todos los valores de un intervalo. En cada tramo, la variable puede
tomar infinitos valores. Ejemplo: la altura, la longitud de los tornillos que fabrica una
máquina. 1,2; 0,5; 2; 4,98; …
Ejemplos
Tipos de Valor de la
Variable Valores
variables variable
Cualitativas Color preferido Blanco, rojo, azul, …
Cualidad
o atributos Sexo Hombre, mujer
Nº de libros leídos en un mes 0, 1, 2, 3, …
Discretas Número
Número de páginas de un libro 210, 211, 22, 309, …
Cuantitativas Entre 60 kg y 67 kg,
Peso
Continuas Infinitos números …
Altura Entre 1,50 y 1,80, …
2. TABLA DE FRECUENCIAS
2.1. UTILIDAD
Cuando se estudia una variable estadística, lo primero que hay que hacer es organizar los datos
en una tabla de frecuencias.
En un estudio estadístico, después de recoger los datos, hay que contarlos y agruparlos. Esto
generalmente se hace en forma de tabla de frecuencias.
El conjunto de datos obtenidos al hacer el estudio se organiza mediante tablas donde ponemos
las frecuencias.
Una vez que se han recogido los datos de una experiencia estadística, hay que tabularlos, es
decir, hay que construir con estos datos una tabla (tabla de frecuencias) en la cual se presentan de
manera ordenada:
En los estudios estadísticos es necesario organizar los datos para poder trabajar con ellos y
sacar conclusiones. Para ello, se utilizan las tablas de frecuencias y a partir de ellas se construyen
diferentes representaciones gráficas de esos datos.
2.2.1. Definición
El recuento de datos se hará según sea el tipo de variable estadística.
Si la variable es cualitativa, se escribe cada valor (modalidad) y se anota el número de veces
que aparece cada uno de ellos.
Ejemplo: Anotamos el número de hermanos que tienen los 50 alumnos/as de dos clases de 2º
ESO. Construye una tabla de frecuencias.
2.2.3. Construcción de una tabla de recuento de datos con datos agrupados en intervalos
La distribución de frecuencias agrupadas o tabla de frecuencias con datos agrupados se
emplea si las variables cuantitativas discretas toman un número grande de valores o la variable es
cuantitativa continua.
Cuando en una distribución estadística el número de valores que toma la variable es demasiado
grande, conviene hacer una tabla de frecuencias agrupándolos en intervalos.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada
clase se le asigna su frecuencia correspondiente.
Cada clase está delimitada por el límite inferior de la clase (va con un corchete, significa que el
número entra) y el límite superior de la clase (va con un paréntesis, significa que el número no entra).
NOTA:
En una tabla de frecuencias con datos agrupados en intervalos , hay libertad para elegir el
número de clases y los extremos de las mismas (límites inferior y superior de las clases).
Se forman los intervalos, de modo que el límite inferior del primero sea algo menor que el dato
extremo inferior y el límite superior del último sea algo superior al dato extremo superior. Es
deseable que los extremos de los intervalos no coincidan con ninguno de los datos. Para ello,
conviene que los extremos de los intervalos tengan una cifra decimal más que los datos.
Cuando no nos dan la tabla de frecuencias con los datos agrupados en intervalos , los podemos
agrupar en intervalos. Hay varias formas para calcular el número de intervalos, que son:
1) Hallamos la raíz cuadrada entera del número total de datos y, además, no debe ser
inferior a 6 ni superior a 15. O bien, el número de intervalos que tomaremos será el
redondeo hasta las unidades de N.
2) Utilizamos la fórmula empírica debida a Sturges: k = 1 + 3,3 log N
Ejemplo: Como los valores extremos de una lista de 30 números son 47,3 y 96,3, calcula el
número de clases aconsejado para estos datos.
N = 30
1) 30 5,48 6
2) Fórmula de Sturges: k = 1 + 3,3 log 30 = 5,87 6
Hay varias formas para calcular la amplitud del intervalo, que son:
1) Conocido el número de intervalos, hallamos el número de elementos que tenemos entre el
dato inferior y el dato mayor, esto es, el rango de elementos. Después, dividimos el rango
de elementos entre el número de intervalos y obtenemos la amplitud del intervalo.
Rango = dato mayor – dato menor
Amplitud = rango / número de intervalos
Ejemplo: Dada una lista de números del 300 al 3.000, me piden que los agrupe en 7 intervalos,
¿cuál es la amplitud?
Rango = 3.000 – 300 = 2.700
Número de intervalos = 7
Ejemplo: Como los valores extremos de una lista de 40 números son 149 y 178, calcula la
amplitud.
N = 40
Los intervalos son: 148 – 153 , 153 – 158 , 158 – 163 , 163 – 168 , 168 – 173 , 173 – 178 ,
178 – 183
Li Li 1
xi
2
Donde Li es el límite inferior del intervalo y Li 1 es el límite superior.
Una vez que se calcula la primera marca de clase, las siguientes se obtienen de sumar a la
marca de clase anterior la amplitud de la clase. marca de clase anterior + amplitud de la clase
O también la marca de clase se podría calcular sumando al límite inferior de la clase la mitad
de la amplitud de la clase. límite inferior de la clase + mitad de la amplitud de la clase
Número de intervalos = 6
Distribución de frecuencias
Porcentaje
xi fi Fi f ri Fri
f ri 100 (%)
f1 F1
x1 Valor 1 f1 F1 Fr1 f r1 100
N N
f2 F
x2 Valor 2 f2 F2 Fr 2 2 f r 2 100
N N
f3 F
x3 Valor 3 f3 F3 Fr 3 3 f r 3 100
N N
f4 F
x4 Valor 4 f4 F4 Fr 4 4 f r 4 100
N N
… … … … … …
fn Fn
xn Valor n fn Fn Frn f rn 100
N N
Total N 1 100 %
i
Fi f j frecuencia acumulada absoluta (o frecuencia absoluta acumulada) de un dato.
j 1
Es la suma de la frecuencia absoluta de ese dato con las frecuencias absolutas de todos los anteriores.
fi
f ri frecuencia relativa de un dato o suceso. Es el cociente entre la frecuencia
N
absoluta y N.
fi
N
i
1 f
i
ri 1 suma de todas las f ri coincide con la unidad. Representa la
unidad. 100 %.
i
Fi
Fri f rj Fri frecuencia acumulada relativa (o frecuencia relativa acumulada)
j 1 N
de un dato. Es la suma de la frecuencia relativa de ese dato con las frecuencias relativas de todos
los anteriores. O bien es el cociente entre la frecuencia acumulada absoluta de ese dato y N.
f
i
ri 100 100 suma de todas las f ri 100 Representa el 100 %.
Frecuencia Frecuencia
Deportes Porcentaje
absoluta relativa
xi f ri 100 (%)
fi f ri
10
Fútbol 10 0,20 20 %
50
14
Baloncesto 14 0,28 28 %
50
8
Tenis 8 0,16 16 %
50
12
Atletismo 12 0,24 24 %
50
6
Balonmano 6 0,12 12 %
50
50
Total N = 50 1 100 %
50
43 42 41 39 41 38 40 43 44 40
39 39 38 41 40 39 38 39 39 40
Frecuencia Frecuencia
Talla de Frecuencia Frecuencia
absoluta relativa Porcentaje
calzado absoluta relativa
acumulada acumulada Fri 100 (%)
xi fi f ri
Fi Fri
3
38 3 3 0,15 0,15 15 %
20
6
39 6 9 0,30 0,45 45 %
20
4
40 4 13 0,20 0,65 65 %
20
3
41 3 16 0,15 0,80 80 %
20
1
42 1 17 0,05 0,85 85 %
20
2
43 2 19 0,10 0,95 95 %
20
1
44 1 20 0,05 1 100 %
20
20
Total N = 20 1
20
F4 16 , Fr 4 0,80 , 16 personas o el 80 % de las personas tienen menos de un 41 de
talla de calzado.
Frecuencia Frecuencia
Marca Frecuencia Frecuencia
absoluta relativa Porcentaje
Peso de clase absoluta relativa
acumulada acumulada Fri 100 (%)
xi fi f ri
Fi Fri
6
[35, 40) 37,5 6 6 0,30 0,30 30 %
20
3
[40, 45) 42,5 3 9 0,15 0,45 45 %
20
5
[45, 50) 47,5 5 14 0,25 0,70 70 %
20
3
[50, 55) 52,5 3 17 0,15 0,85 85 %
20
3
[55, 60) 57,5 3 20 0,15 1 100 %
20
20
Total N = 20 1
20
Número de intervalos = 5
Amplitud = 22,7 / 5 = 4,54 5
Podemos tomar 5 intervalos de amplitud 5. amplitud = 5
3. GRÁFICOS ESTADÍSTICOS
3.1. UTILIDAD
Las gráficas estadísticas permiten visualizar la información contenida en las tablas de
frecuencias de manera rápida y sencilla.
Cada día en los telediarios o en los periódicos tienes ocasión de encontrar gráficas. Y es que por
medio de un gráfico puedes representar muchos datos y ofrecer una visión más global de todos ellos. A
continuación, vas a ver los más usuales.
Pueden ser:
Diagrama de barras.
Histograma.
Polígonos de frecuencias.
Diagrama de sectores.
Pictograma.
Cartograma.
Serie cronológica.
Pirámide de población.
Ejemplo:
Ejemplo:
3.2.2. Histograma
El histograma se emplea para representar variables cuantitativas (continuas) que tomen muchos
valores. Está formado por rectángulos anchos que se adosan unos a otros.
Ejemplo:
Ejemplo:
Ejemplo:
Los datos se representan en un círculo, dividido en sectores. Cada sector representa un valor
de la variable. Y la amplitud de un sector, su ángulo, es proporcional a la frecuencia absoluta del dato
que representa o a la frecuencia relativa.
360 f
Ángulo del sector circular: f i 360 i f ri 360
N N
O aplicando la regla de 3 directa:
N 360 N 360 f 360
; x i f ri 360
fi x fi x N
En el diagrama de sectores, se escriben los valores de la variable y a veces el tanto por ciento
que representa.
Ejemplo:
Ejemplo:
El gráfico que representa las notas obtenidas en un examen sobre Estadística que realizó un
grupo de 3º ESO.
Esta representación permite darse cuenta enseguida de muchas características de la
distribución de notas aunque no se conozcan exactamente los datos.
Aquí se ve que suspendieron menos de la mitad del curso. También que más de la mitad obtuvo
notas superiores a suficiente. Y que, exactamente, la cuarta parte fue puntuada con un bien.
Ejemplo:
3.2.5. Pictograma
El pictograma es un gráfico en el que se emplean figuras cuyas dimensiones son proporcionales
al dato que representan, es decir, la imagen es proporcional a su frecuencia. La figura que se utiliza es
un dibujo relacionado con el tema. Se emplea para representar variables cualitativas o cuantitativas
(discretas y continuas).
Ejemplo:
En la figura ves que las longitudes de los lápices son proporcionales a las cantidades de dinero
que quieren representar.
3.2.6. Cartograma
El cartograma es un gráfico que se emplea cuando se realiza un estudio donde quieren
manifestarse las diferencias entre regiones geográficas. Representan variables geográficas,
económicas, demográficas, etc. Se trata de un mapa en el que por medio de colores o tramas se marcan
los distintos valores de una cierta característica. Se emplea para representar variables cualitativas o
cuantitativas (discretas y continuas).
Ejemplo:
Cada color indica un nivel de renta diferente. Con esta representación percibimos de forma muy
rápida multitud de informaciones, como:
Andalucía y Murcia son las comunidades con menos ingresos por familia.
Baleares presenta la mejor renta familiar del país.
Ejemplo: El valor de un euro en dólares ha sufrido muchas variaciones desde que se implantó. Su
evolución durante 1999 puedes verla en el siguiente gráfico.
Observamos que su valor al comienzo del año estaba en torno alas 1,13 dólares, que fue bajando
durante el primer semestre hasta Julio, cuando se cambiaba por 1,02 dólares. Se recuperó durante los
meses de Agosto y Septiembre llegando a alcanzar el valor de 1,09 dólares. Pero el final del año fue
muy malo para nuestra moneda, el 13 de Diciembre tuvo el peor cambio del año: 1 euro por 1,0128
dólares.
Observamos que, sin disponer de una excesiva cantidad de números, seríamos capaces de
describir muchas características de ese conjunto de personas. Así, interpretamos que la mayoría son
hombres, que el mayor número de federados se da entre los 10 y los 29 años, que es raro encontrar
personas con más de 40 años que tengan carnet de la Federación de Fútbol, etc.
Diagrama de barras
16
Frecuencia absoluta
14
12
10
8
6
4
2
0
Fútbol Baloncesto Tenis Atletismo Balonmano
Deportes
16
Frecuencias absolutas
14
12
10
8
6
4
2
0
Fútbol Baloncesto Tenis Atletismo Balonmano
Deportes
Diagrama de sectores
12%
20%
Fútbol
Baloncesto
24% Tenis
Atletismo
Balonmano
28%
16%
Diagrama de barras
7
Frecuencia absoluta
6
5
3
2
1
0
38 39 40 41 42 43 44
Talla de calzado
6
Frecuencia absoluta
0
38 39 40 41 42 43 44
Talla de calzado
Diagrama de sectores
5%
10% 15%
38
5% 39
40
41
15%
42
30%
43
44
20%
Histograma
6
Frecuencia absoluta
0
[35, 40) [40, 45) [45, 50) [50, 55) [55, 60)
Peso (kg)
6
Frecuencia absoluta
0
[35, 40) [40, 45) [45, 50) [50, 55) [55, 60)
Peso (kg)
Diagrama de sectores
15%
30%
[35, 40)
[40, 45)
15%
[45, 50)
[50, 55)
[55, 60)
15%
25%
4. PARÁMETROS ESTADÍSTICOS
4.1. UTILIDAD
Las variables cuantitativas se pueden resumir mediante las medidas estadísticas o parámetros
estadísticos.
Las medidas estadísticas o parámetros estadísticos son un conjunto de números que resumen
las características más importantes de los individuos de una población.
Por tanto, los parámetros estadísticos son números que resumen datos.
Medidas de posición.
Medidas de dispersión.
4.2.1.1. Utilidad
Las medidas de centralización nos permiten conocer el valor alrededor del cual se agrupan
todos los datos. Se utilizan para resumir la información de la muestra.
4.2.1.2. Tipos
Las más utilizadas son la media aritmética, la mediana y la moda.
x f ...... xn f n xi f i x i fi
x 1 1 i 1
i 1
f1 ...... f n n
f
N
i
i 1
Mediana: es el valor xi de la variable que ocupa el lugar central cuando se ordenan los datos. Es
el valor que ocupa la posición central una vez ordenados los datos, de menor a mayor. Se denota
por Me.
xc xc 1
Me
2
Otra forma de calcular, es observando la frecuencia absoluta acumulada Fi . Para ello,
tomamos aquel valor de la variable xi cuyo primer valor de la variable Fi sea mayor o igual que
N
. En resumen,
2
N
Buscamos la primera Fi que es Fi nº Me xi
2
Esta medida es única y puede no coincidir con ninguno de los datos de estudio. Sólo se
puede calcular para variables cuantitativas (discretas y continuas).
Buscamos la f i mayor Mo xi
Cuando existen 2 valores con máxima frecuencia absoluta, se llama bimodal; con 3
valores, se llama trimodal, etc. Así cuando existen varias modas, se llama multimodal.
Esta medida puede no ser única y coincide siempre con alguno de los datos de estudio.
Se puede calcular para variables de cualquier tipo, cualitativas o cuantitativas (discretas y
continuas).
D1
Mo Li c
D1 D2
Donde Li es el límite inferior de la clase mediana, “c” es la amplitud de los intervalos,
c Li 1 Li , D1 es la diferencia entre la frecuencia absoluta de la clase modal f i y la de la
clase anterior f i 1 , D1 f i f i 1 , y D2 es la diferencia entre la frecuencia absoluta de la
clase modal f i y la de la clase siguiente f i 1 , D2 f i f i 1 .
Frecuencia
Talla de Frecuencia
absoluta
calzado absoluta
acumulada
xi f i
xi fi
Fi
38 3 3 114
39 6 9 234
40 4 13 160
41 3 16 123
42 1 17 42
43 2 19 86
44 1 20 44
Total N = 20 803
803
Media aritmética: x 40,15
20
Con este dato podemos deducir que la talla de calzado “normal” perteneciente a este
grupo de personas es 40.
N 20
10
2 2
Como N = 20 es par, cogemos los dos valores centrales 40 y 40 y calculamos la media de
40 40 80
estos dos: 40 .
2 2
Con este dato podemos deducir que el valor central para la talla de calzado
perteneciente a este grupo de personas es 40.
Moda: Mo = 39 porque la frecuencia absoluta mayor es f 2 6 (es el valor que más se repite).
Con este dato podemos deducir que la talla de calzado más usada por este grupo de
personas es 39.
Ejemplo. Datos impares: Calcula las medidas de centralización para el número de hermanos/as
de 7 personas.
1 3 2 4 3 2 3
Frecuencia
Nº de Frecuencia
absoluta
hermanos/as absoluta
acumulada
xi f i
xi fi
Fi
1 1 1 1
2 2 3 4
3 3 6 9
4 1 7 4
Total N = 7 18
18
Media aritmética: x 2,57
7
Con este dato podemos deducir que el número de hermanos “normal” perteneciente a
este grupo de personas es 3.
N 7
3,5
2 2
Como N = 7 es impar, cogemos el valor central 3.
Moda: Mo = 3 porque la frecuencia absoluta mayor es f 3 3 (es el valor que más se repite).
Con este dato podemos deducir que el número de hermanos más usado por este grupo de
personas es 3.
Ejemplo. Datos pares: La siguiente tabla resume los resultados obtenidos en una encuesta
realizada entre 10 parejas a las que se les preguntaba sobre el número de hijos que tenían. Calcula las
medidas de centralización e interprétalas.
Frecuencia
Nº de Frecuencia
absoluta
hijos/as absoluta
acumulada
xi f i
xi fi
Fi
0 2 2 0
1 4 6 4
2 3 9 6
3 1 10 3
Total N = 10 13
13
Media aritmética: x 1,3
10
Con este dato podemos deducir que por término medio las parejas tienen entre 1 y 2
hijos/as.
0 0 1 1 1 1 2 2 2 3
N 10
5
2 2
Como N = 10 es par, cogemos los dos valores centrales 1 y 1 y calculamos la media de
11 2
estos dos: 1.
2 2
Moda: Mo = 1 porque la frecuencia absoluta mayor es f 2 4 (es el valor que más se repite).
Con este dato podemos deducir que lo más frecuente es tener 1 hijo.
Ejemplo. Datos pares: Calcula las medidas de centralización para las notas de Alberto a lo
largo de una evaluación que han sido:
3 4 6 5 6 7 5 6 8 5
Frecuencia
Frecuencia
Notas absoluta
absoluta
acumulada
xi f i
xi
fi
Fi
3 1 1 3
4 1 2 4
5 3 5 15
6 3 8 18
7 1 9 7
8 1 10 8
Total N = 10 55
55
Media aritmética: x 5,5
10
Con este dato podemos deducir que por término medio las notas están entre 5 y 6.
N 10
5
2 2
Como N = 10 es par, cogemos los dos valores centrales 5 y 6 y calculamos la media de
5 6 11
estos dos: 5,5 .
2 2
Me = 5,5 que es el valor central exacto.
Frecuencia
Marca Frecuencia
absoluta
Peso de clase absoluta
acumulada
xi f i
xi fi
Fi
[35, 40) 37,5 6 6 225
[40, 45) 42,5 3 9 127,5
[45, 50) 47,5 5 14 237,5
[50, 55) 52,5 3 17 157,5
[55, 60) 57,5 3 20 172,5
Total N = 20 920
920
Media aritmética: x 46
20
Con este dato podemos deducir que el peso “normal” perteneciente a este grupo de
alumnos/as es 46 kg.
N 20
10
2 2
Como N = 20 es par, cogemos los dos valores centrales 45 y 46 y calculamos la media de
45 46 91
estos dos: 45,5
2 2
10 9
Me 45 5 45 1 46
5
Con este dato podemos deducir que el valor central para el peso perteneciente a este
grupo de alumnos/as es 46 kg.
Moda: Mo = [45, 50) porque la frecuencia absoluta mayor es f 3 5 (es el valor que más se
repite).
Con este dato podemos deducir que el peso más usado por este grupo de alumnos/as
está entre 45 y 50 kg.
53 2 5 90
Mo 45 5 45 5 45 45
5 3 5 3 4 2 2
Frecuencia
Nº de Marca Frecuencia
absoluta
trabajadores de clase absoluta
acumulada
xi f i
xi xi fi
Fi
[10, 20) 15 3 3 45
[20, 30) 25 8 11 200
[30, 40) 35 12 23 420
[40, 50) 45 7 30 315
Total N = 30 965
980
Media aritmética: x 32,67
30
Con este dato podemos deducir que por término medio el número de trabajadores está
entre 32 y 33.
15 15 15 25 25 25 25 25 25 25 25 35 35 35 35
35 35 35 35 35 35 35 35 45 45 45 45 45 45 45
N 30
15
2 2
Como N = 30 es par, cogemos los dos valores centrales 35 y 35 y calculamos la media de
35 35 70
estos dos: 35
2 2
15 11 4 40 400
Me 30 10 30 10 30 33,3
12 12 12 12
Con este dato podemos deducir que el valor central para el número de trabajadores es
33,3.
Moda: Mo = [30, 40) porque la frecuencia absoluta mayor es f 3 12 (es el valor que más se
repite).
Con este dato podemos deducir que el número de trabajadores más usado está entre 30
y 40.
12 8 4 40 310
Mo 30 10 30 10 30 34,4
12 8 12 7 9 9 9
Media aritmética
x i fi
xi marca de clase de cada intervalo.
x i 1
N
Me xi [ Li , Li 1 ) clase mediana o
intervalo mediana.
1) Ordenamos los datos de menor Valor aproximado Me xi marca de
a mayor. clase del intervalo.
Si N es impar Me xc 1 N
Fi 1
xc xc 1 Valor exacto Me Li c 2
Si N es par Me
2 fi
Mediana
N Donde:
Donde: c
2 Li límite inferior.
N c amplitud de los intervalos.
2) Buscamos la primera Fi
2 c Li 1 Li
que es Fi nº Me xi Fi 1 frecuencia absoluta acumulada de
la clase anterior.
f i frecuencia absoluta.
Mo xi [ Li , Li 1 ) clase modal o
Moda Buscamos la f i mayor Mo xi
intervalo modal.
4.2.2.1. Utilidad
Las medidas de posición dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
Las medidas de posición son valores de la variable que informan del lugar que ocupa un dato
dentro del conjunto ordenado de valores.
4.2.2.2. Tipos
Las más utilizadas son los cuartiles, los deciles y los percentiles.
Cuartiles: son tres valores Q1, Q2 y Q3 de la variable estadística que dividen a los individuos de
la población en 4 partes iguales, es decir, en cada tramo está el 25 % de los datos recogidos en
el estudio. Los cuartiles son los puntos de separación.
25 % 25 % 25 % 25 %
Q1 Q2 Q3
N k
Qk : k N con k = 1, 2, 3
4 4
N
Buscamos la primera Fi k que es Fi nº Qk xi
4
- Primer cuartil Q1: es el valor de la variable que deja la cuarta parte de las observaciones
menores o iguales a él y las tres cuartas partes superiores a él . Es decir, deja por debajo
de él al 25 % de la población y por encima al 75 %. Es el dato que es mayor que el 25 % de
los datos.
1 N
Q1 : 25% N 0,25 N N Q1 : 1
4 4
N
Buscamos la primera Fi 1 que es Fi nº Q1 xi
4
- Segundo cuartil Q2: es el valor de la variable que deja las dos cuartas partes inferiores o
iguales a él, es decir, la mitad de las observaciones. Es decir, deja por debajo de él al 50 %
de la población y por encima al 50 %. Es el dato que es mayor que el 50 % de los datos. Este
cuartil coincide con la mediana.
1 N
Q2 : 50% N 0,50 N N Q2 : 2
2 4
N
Buscamos la primera Fi 2 que es Fi nº Q2 xi
4
- Tercer cuartil Q3: es el valor de la variable que deja las tres cuartas partes de las
observaciones inferiores o iguales a él y la cuarta parte de éstas superior a él . Es decir,
deja por debajo de él al 75 % de la población y por encima al 25 %. Es el dato que es mayor
que el 75 % de los datos.
3 N
Q3 : 75% N 0,75 N N Q3 : 3
4 4
N
Buscamos la primera Fi 3 que es Fi nº Q3 xi
4
- Recorrido intercuartílico RIQ: es la diferencia entre el tercer y el primer cuartil de una
distribución.
RIQ Q3 Q1
Así pues,
Q1 25 % Q2 = Me 50 % Q3 75 %
Deciles: son 9 valores de la variable estadística que dividen a los individuos de la población en
10 partes iguales, es decir, en cada tramo está el 10 % de los datos recogidos en el estudio. Los
deciles son los puntos de separación.
Decil k (Dk) es el valor de la variable estadística que deja k·10 observaciones por debajo.
10 % 10 % 10 % 10 % 10 % 10 % 10 % 10 % 10 % 10 %
D1 D2 D3 D4 D5 D6 D7 D8 D9
N k
Dk : k N con k = 1, 2, 3, …, 9
10 10
N
Buscamos la primera Fi k que es Fi nº Dk xi
10
Así pues, la relación entre los cuartiles y los deciles es:
D1 10 % D2 20 % D5 = Q2 = Me 50 % ……… D9 90 %
Percentiles: son 99 valores de la variable estadística que dividen a los individuos de la población
en 100 partes iguales, es decir, en cada tramo está el 1 % de los datos recogidos en el estudio.
Los percentiles son los puntos de separación.
Percentil k (Pk) es el valor de la variable estadística que deja k observaciones por debajo .
También se denomina centil k.
1% 1% 1%
k N
Pk : k % N N k con k = 1, 2, 3, …, 99
100 100
N
Buscamos la primera Fi k que es Fi nº Pk xi
100
Los percentiles más usados son:
15 N
P15 : 15% N 0,15 N N P15 : 15
100 100
N
Buscamos la primera Fi 15 que es Fi nº P15 xi
100
- Percentil 50 (P50) es la mediana y el segundo cuartil Q2, que deja por debajo al 50 % de las
observaciones y por encima al 50 %.
- Percentil 25 (P25) es el primer cuartil Q1, que deja por debajo al 25 % de las observaciones
y por encima al 75 %.
- Percentil 75 (P75) es el tercer cuartil Q3, que deja por debajo al 75 % de las observaciones
y por encima al 25 %.
4.2.2.3. Relación
La relación entre los cuartiles, los deciles y los percentiles es:
P1 1 %
D1 = P10 10 %
Q1 = P25 25 % P2 2 %
D2 = P20 20 %
Q2 = D5 = P50 = Me 50 % P30 30 %
………
Q3 = P75 75 % ………
D9 = P90 90 %
P99 99 %
NOTA:
Cuando se calculan los cuartiles, percentiles y deciles, hay que tener en cuenta si el número de
datos es impar o par.
Si el número de datos es impar, el cuartil, percentil y decil es el valor que ocupa el lugar k%·N.
Q1, 2,3 xc1 , P1, 2,3,...,99 xc1 , D10, 20,30,...,90 xc 1 donde “c” el cociente entero que
resulta al dividir N entre 4, 10 y 100 para cuartiles, deciles y percentiles respectivamente, y “c+1” es el
valor de la variable que ocupa el lugar “c+1”.
Y si el número de datos es par, el cuartil, percentil y decil es el promedio de los dos valores
centrales.
xc xc 1 x xc 1 x xc 1
Q1, 2,3 , P1, 2,3,...,99 c , D1, 2,3,...,9 c
2 2 2
Hay dos formas para calcular los cuartiles, los deciles y los percentiles:
Tomamos aquel valor de la variable xi cuyo primer valor de la variable Fri sea mayor o
igual que el porcentaje del cuartil, decil o percentil pedido.
Ejemplo. Datos pares: Para comprar zapatillas a los miembros de una peña de bolos, se les ha
preguntado por la talla de calzado que usan y los resultados se presentan en esta tabla. Calcula las
medidas de posición.
Frecuencia Frecuencia
Talla de Frecuencia Frecuencia
absoluta relativa Porcentaje
calzado absoluta relativa
acumulada acumulada Fri 100 (%)
xi fi f ri
Fi Fri
7
35 7 7 0,035 0,035 3,5 %
200
13
36 13 20 0,065 0,10 10 %
200
20
37 20 40 0,10 0,20 20 %
200
37
38 37 77 0,185 0,385 38,5 %
200
42
39 42 119 0,21 0,595 59,5 %
200
50
40 50 169 0,25 0,845 84,5 %
200
23
41 23 192 0,115 0,96 96 %
200
8
42 8 200 0,04 1 100 %
200
Total N = 200 1
Cuartiles:
Para calcular el primer cuartil Q1 , tendremos que calcular el 25 % del número total de
datos, 200 200 · 0,25 = 50
Luego, Q1 tiene 50 datos por debajo y el resto por encima. En la columna de frecuencias
absolutas acumuladas, el primer número mayor o igual que 50 es 77, que corresponde al dato 38.
Por tanto, Q1 = 38. Es decir, la cuarta parte de los miembros de la peña utilizan una talla de
calzado menor o igual que 38.
1 200
Q1 : 25% 200 0,25 200 200 Q1 : 1 Q1 : 50
4 4
Buscamos la primera Fi 50 que es F4 77 Q1 x4 Q1 38
Como el primer número mayor o igual que 100 en las frecuencias absolutas acumuladas es
119, entonces Q2 = 39. Es decir, la mitad de los miembros de la peña utilizan una talla de
calzado menor o igual que 39.
1 200
Q2 : 50% 200 0,50 200 200 Q2 : 2 Q2 : 100
2 4
Buscamos la primera Fi 100 que es F5 119 Q2 x5 Q2 39
Como el primer número mayor o igual que 150 en las frecuencias absolutas acumuladas es
169, entonces Q3 = 40. Es decir, las tres cuartas partes de los miembros de la peña utilizan una
talla de calzado menor o igual que 40.
3 200
Q3 : 75% 200 0,75 200 200 Q3 : 3 Q3 : 150
4 4
Buscamos la primera Fi 150 que es F6 169 Q3 x6 Q3 40
Deciles:
Para calcular el decil D1 , tendremos que calcular el 10 % del número total de datos, 200
200 · 0,10 = 20
Luego, D1 tiene 20 datos por debajo y el resto por encima. En la columna de frecuencias
absolutas acumuladas, el primer número mayor o igual que 20 es 20, que corresponde al dato 36.
Por tanto, D1 = 36. Es decir, la décima parte de los miembros de la peña utilizan una talla de
calzado menor o igual que 36.
1 200
D1 : 10% 200 200 D1 : 1 D1 : 20
10 10
Buscamos la primera Fi 20 que es F2 20 D1 x2 D1 36
Percentiles:
Luego, P15 tiene 30 datos por debajo y el resto por encima. En la columna de
frecuencias absolutas acumuladas, el primer número mayor o igual que 30 es 40, que
corresponde al dato 37. Por tanto, P15 = 37. Es decir, el 15 % de los miembros de la peña
utilizan una talla de calzado menor o igual que 37.
15 200
P15 : 15% 200 0,15 200 200 P15 : 15 P15 : 30
100 100
Buscamos la primera Fi 30 que es F3 40 P15 x3 P15 37
Otra forma de calcular es observando la frecuencia relativa acumulada porcentual Fri (%).
Primer cuartil Q1
Decil D1
En resumen,
D1 = 36
P15 = 37
P25 = Q1 = 38
P50 = D5 = Q2 = Me = 39
P75 = Q3= 40
Ejemplo (continuación). Datos pares: Calcula las medidas de posición para las notas de Alberto
a lo largo de una evaluación que han sido:
3 4 6 5 6 7 5 6 8 5
Frecuencia Frecuencia
Frecuencia Frecuencia
Notas absoluta relativa Porcentaje
absoluta relativa
xi acumulada acumulada Fri 100 (%)
fi f ri
Fi Fri
1
3 1 1 0,1 0,1 10 %
10
1
4 1 2 0,1 0,2 20 %
10
3
5 3 5 0,3 0,5 50 %
10
3
6 3 8 0,3 0,8 80 %
10
1
7 1 9 0,1 0,9 90 %
10
1
8 1 10 0,1 1 100 %
10
Total N = 10 1
Cuartiles:
1 10
Primer cuartil Q1 : 25% 10 0,25 10 10 Q1 : 1 Q1 : 2,5
4 4
Buscamos la primera Fi 2,5 que es F3 5 Q1 x3 Q1 5
1 10
Segundo cuartil Q2 : 50% 10 0,50 10 10 Q2 : 2 Q2 : 5
2 4
Buscamos la primera Fi 5 que es F3 5 Q2 x3 Q2 5
3 10
Tercer cuartil Q3 : 75% 10 0,75 10 10 Q3 : 3 Q3 : 7,5
4 4
Buscamos la primera Fi 7,5 que es F4 8 Q3 x4 Q3 6
Deciles:
1 10
Decil D1 : 10% 10 10 D1 : 1 D1 : 1
10 10
Buscamos la primera Fi 1 que es F1 1 D1 x1 D1 3
Percentiles:
15 10
Percentil P15 : 15% 10 0,15 10 10 P15 : 15 P15 : 1,5
100 100
Buscamos la primera Fi 1,5 que es F2 2 P15 x2 P15 4
Otra forma de calcular es observando la frecuencia relativa acumulada porcentual Fri (%).
Primer cuartil Q1
En resumen,
D1 = 3
P15 = 4
P25 = Q1 = 5
P50 = D5 = Q2 = Me = 5
P75 = Q3= 6
3 4 5 5 5 6 6 6 7 8
D1 P15 Q1 Q2 Q3
Ejemplo (continuación). Datos impares: Calcula las medidas de posición para el número de
hermanos/as de 7 personas.
1 3 2 4 3 2 3
Frecuencia Frecuencia
Nº de Frecuencia Frecuencia
absoluta relativa Porcentaje
hermanos/as absoluta relativa
acumulada acumulada Fri 100 (%)
xi fi f ri
Fi Fri
1
1 1 1 0,14 0,14 14 %
7
2
2 2 3 0,29 0,43 43 %
7
3
3 3 6 0,43 0,86 86 %
7
1
4 1 7 0,14 1 100 %
7
Total N = 7 1
Cuartiles:
1 7
Primer cuartil Q1 : 25% 7 0,25 7 7 Q1 : 1 Q1 : 1,75
4 4
Buscamos la primera Fi 1,75 que es F2 3 Q1 x2 Q1 2
1 7
Segundo cuartil Q2 : 50% 7 0,50 7 7 Q2 : 2 Q2 : 3,5
2 4
Buscamos la primera Fi 3,5 que es F3 6 Q2 x3 Q2 3
3 7
Tercer cuartil Q3 : 75% 7 0,75 7 7 Q3 : 3 Q3 : 5,25
4 4
Buscamos la primera Fi 5,25 que es F3 6 Q3 x3 Q3 3
Deciles:
1 7
Decil D1 : 10% 7 7 D1 : 1 D1 : 0,7
10 10
Buscamos la primera Fi 0,7 que es F1 1 D1 x1 D1 1
Percentiles:
15 7
Percentil P15 : 15% 7 0,15 7 7 P15 : 15 P15 : 1,05
100 100
Buscamos la primera Fi 1,05 que es F2 3 P15 x2 P15 2
Otra forma de calcular es observando la frecuencia relativa acumulada porcentual Fri (%).
Primer cuartil Q1
En resumen,
D1 = 1
P15 = 2
P25 = Q1 = 2
P50 = D5 = Q2 = Me = 3
P75 = Q3= 3
1 2 2 3 3 3 4
D1 P15 Q1 Q2 Q3
Frecuencia Frecuencia
Nº de Marca Frecuencia Frecuencia
absoluta relativa Porcentaje
trabajadores de clase absoluta relativa
acumulada acumulada Fri 100 (%)
xi xi fi f ri
Fi Fri
3
[10, 20) 15 3 3 0,1 0,1 10 %
30
8
[20, 30) 25 8 11 0,27 0,37 37 %
30
12
[30, 40) 35 12 23 0,4 0,77 77 %
30
7
[40, 50) 45 7 30 0,23 1 100 %
30
Total N = 30 1
Cuartiles:
1 30
Primer cuartil Q1 : 25% 30 0,25 30 30 Q1 : 1 Q1 : 7,5
4 4
Buscamos la primera Fi 7,5 que es F2 11 Q1 x2 Q1 25
1 30
Segundo cuartil Q2 : 50% 30 0,50 30 30 Q2 : 2 Q2 : 15
2 4
Buscamos la primera Fi 15 que es F3 23 Q2 x3 Q2 35
3 30
Tercer cuartil Q3 : 75% 30 0,75 30 30 Q3 : 3 Q3 : 22,5
4 4
Buscamos la primera Fi 22,5 que es F3 23 Q3 x3 Q3 35
Deciles:
1 30
Decil D1 : 10% 30 30 D1 : 1 D1 : 3
10 10
Buscamos la primera Fi 3 que es F1 3 D1 x1 D1 15
Percentiles:
15 30
Percentil P15 : 15% 30 0,15 30 30 P15 : 15 P15 : 4,5
100 100
Buscamos la primera Fi 4,5 que es F2 11 P15 x2 P15 25
Otra forma de calcular es observando la frecuencia relativa acumulada porcentual Fri (%).
Primer cuartil Q1
En resumen,
D1 = 15
P15 = 25
P25 = Q1 = 25
P50 = D5 = Q2 = Me = 35
P75 = Q3= 35
Variables cuantitativas
Tipos Cómo se calcula
continuas
Q1 xi [ Li , Li 1 )
Valor aproximado
1 N
Q1 : 25% N 0,25 N N Q1 : 1 Q1 xi = marca de clase
Primer 4 4
del intervalo.
cuartil N
Buscamos la primera Fi 1 que es Valor exacto
Q1
4 N
1 Fi 1
Fi nº Q1 xi 4
Q1 Li c
fi
Segundo Q2 xi [ Li , Li 1 )
1 N
cuartil Q2 : 50% N 0,50 N N Q2 : 2 Valor aproximado
Q2 = Me 2 4
Q2 xi = marca de clase
N del intervalo.
Buscamos la primera Fi 2 que es Valor exacto
4
Fi nº Q2 xi
N
2 Fi 1
Q2 Li c 4
fi
Q3 xi [ Li , Li 1 )
Valor aproximado
3 N
Q3 : 75% N 0,75 N N Q3 : 3 Q3 xi = marca de clase
Tercer 4 4 del intervalo.
cuartil N Valor exacto
Q3 Buscamos la primera Fi 3 que es
4
N
Fi nº Q3 xi 3 Fi 1
Q3 Li c 4
fi
Recorrido
intercuartílico RIQ Q3 Q1
RIQ
Dk xi [ Li , Li 1 )
Valor aproximado
k N Dk xi = marca de clase
Dk : k % N N Dk : k
10 10 del intervalo.
Decil k
N Valor exacto
Dk Buscamos la primera Fi k que es
100
Fi nº Pk xi k
N
Fi 1
Dk Li c 10
fi
Pk xi [ Li , Li 1 )
Valor aproximado
k N Pk xi = marca de clase
Pk : k % N N Pk : k
100 100 del intervalo.
Percentil k
N Valor exacto
Pk Buscamos la primera Fi k que es
100
Fi nº Pk xi k
N
Fi 1
Pk Li c 100
fi
4.2.3.1. Utilidad
Dos distribuciones pueden tener las mismas medidas de centralización y ser muy diferentes si
los valores de las variables se distribuyen o dispersan de forma diferente.
Las medidas de dispersión pretenden medir lo agrupados que se encuentran los datos en torno
a la media aritmética. Es decir, se utilizan para conocer en qué medida los datos de una muestra se
encuentran más o menos alejados de su media.
Las medidas de dispersión permiten conocer el grado de agrupamiento de los datos en torno a
las medidas de centralización, fundamentalmente, la media aritmética.
4.2.3.2. Tipos
Las más utilizadas son el rango, la desviación media, la varianza, la desviación típica y el
coeficiente de variación.
R xn x1
Indica el grado de dispersión de los datos. Cuanto mayor es el rango, más dispersos están los
datos.
Desviación media: es la media aritmética de los valores absolutos de las desviaciones de cada
dato. Es el promedio de las desviaciones a la media. Se halla calculando el promedio de todas las
diferencias de los valores con la media.
n n
xi x f i x i x fi
DM i 1
n
i 1
f
N
i
i 1
Desviación absoluta media: es la media aritmética de los valores absolutos de las desviaciones
de cada dato. Se halla calculando el promedio de todas las diferencias de los valores con la
media.
n n
xi x x i x
DM i 1
n
i 1
f
N
i
i 1
x
n n n
xi2 f i xi2 f i
2
x fi
x f1 ...... x f n
2 2
2 2 2
i
2 1 n
x i 1
x i 1
x i 1
f1 ...... f n n
f
N N
i
i 1
2
Mide el grado de dispersión. Dice cómo de alejados de la media, cómo de dispersos, se
encuentran los datos.
CV
x
El coeficiente de variación no se puede calcular si x 0.
Se suele dar en porcentajes.
Indica la variación relativa. Cuanto mayor sea el coeficiente de variación, menos representativa
será la media. Si el coeficiente de variación es 0 (valor mínimo), la media es totalmente representativa.
NOTA:
En las variables cuantitativas continuas, tomamos como valor xi la marca de clase de cada
intervalo.
Para comparar la dispersión de dos poblaciones heterogéneas (con distinta media aritmética), se
utiliza el coeficiente de variación, pues indica la variación relativa.
Cuanto menor es el coeficiente de variación, mayor es el grado de representatividad de los
valores centrales y la distribución es menos dispersa.
Cuando dos distribuciones tienen la misma media aritmética, la diferencia entre ambas viene
dada a través de la desviación típica, que nos indica lo alejados que se encuentran los datos con
respecto de la media.
La varianza y la desviación típica de una distribución son siempre positivas o nulas. Es nula
cuando todos los datos son iguales a la media.
Si las medidas de dispersión son “pequeñas”, se puede concluir que los datos están agrupados
alrededor de la media aritmética. Es decir, cuanto menores son las medidas de dispersión, más
concentrados están los datos.
Y si las medidas de dispersión son “grandes”, significa que los datos están bastante dispersos.
Notas de Frecuencia
alumnos/as absoluta xi f i xi x xi x f i x i x
2
x i 2
x fi
xi fi
1 2 2 4 8 16 32
5 1 5 0 0 0 0
9 2 18 4 8 16 32
Total N = 5 25 16 64
25
Media aritmética: x 5
5
Rango o recorrido: R 9 1 8
16
Desviación media: DM 3,2
5
64
Varianza: 2 12,8
5
Desviación típica: 12,8 3,578
3,578
Coeficiente de variación: CV 0,716 71,6%
5
En este caso, las medidas de dispersión son bastante grandes. Esto indica que, aunque la media
aritmética sea 5, este valor no es muy representativo de los datos, ya que los datos están bastante
dispersos.
Ejemplo. Datos impares: Calcula las medidas de dispersión de las notas de un curso de 3º ESO.
Notas de Frecuencia
alumnos/as absoluta xi f i xi x xi x f i xi2 xi2 f i
xi fi
3 6 18 2,36 14,16 9 54
4 4 16 1,36 5,44 16 64
5 4 20 0,36 1,44 25 100
6 2 12 0,64 1,28 36 72
7 4 28 1,64 6,56 49 196
8 5 40 2,64 13,2 64 320
Total N = 25 134 42,08 806
134
Media aritmética: x 5,36
25
Rango o recorrido: R 8 3 5
42,08
Desviación media: DM 1,6832
25
806
Varianza: 2 5,36 2 3,51
25
Desviación típica: 3,51 1,87
1,87
Coeficiente de variación: CV 0,35 35%
5,36
En este caso, las medidas de dispersión son bastante pequeñas. Esto indica que los datos están
agrupados alrededor de la media aritmética 6, por lo que este valor es muy representativo de los datos.
Ejemplo. Datos pares: El número de libros solicitados en una biblioteca se presentan en esta
tabla. Calcula las medidas de dispersión.
Número de Frecuencia
libros absoluta xi f i xi x xi x f i xi2 xi2 f i
xi fi
1 8 8 1,75 14 1 8
2 12 24 0,75 9 4 48
3 9 27 0,25 2,25 9 81
4 6 24 1,25 7,5 16 96
5 3 15 2,25 6,75 25 75
6 2 12 3,25 6,5 36 72
Total N = 40 110 46 380
110
Media aritmética: x 2,75
40
Rango o recorrido: R 6 1 5
46
Desviación media: DM 1,15
40
380
Varianza: 2 2,75 2 1,94
40
Desviación típica: 1,94 1,39
1,39
Coeficiente de variación: CV 0,51 51%
2,75
En este caso, las medidas de dispersión son bastante pequeñas. Esto indica que los datos están
agrupados alrededor de la media aritmética 3, por lo que este valor es muy representativo de los datos.
Ejemplo. Datos pares: Calcula las medidas de dispersión de las notas de un de 1º ESO.
102
Desviación media: DM 1,7
60
2.236
Varianza: 2 5,77 2 3,98
60
Desviación típica: 3,98 1,99 2
2
Coeficiente de variación: CV 0,35 35%
5,77
En este caso, las medidas de dispersión son bastante pequeñas. Esto indica que los datos están
agrupados alrededor de la media aritmética 6, por lo que este valor es muy representativo de los datos.
Ejemplo. Datos pares: Calcula las medidas de dispersión de los profesores de un centro
recogidas en la siguiente tabla.
408
Desviación media: DM 8,16
50
116.000
Varianza: 2 47,2 2 92,16
50
Desviación típica: 92,16 9,6
9,6
Coeficiente de variación: CV 0,203 20,3%
47,2
En este caso, las medidas de dispersión son algo grandes. Esto indica que, aunque la media
aritmética sea 48, este valor es poco representativo de los datos, ya que los datos están un poco
dispersos.
10
Distribución A: x A 58 , A 10 , CV A 0,17 17%
58
10
Distribución B: x B 258 , B 10 , CVB 0,038 3,8%
258
Aunque el valor de la desviación típica es igual en ambas distribuciones, la media de A es menor
que la de B. Por tanto, la distribución A es más dispersa.
Ejemplo: Observa las puntuaciones medias que han obtenido en una prueba los dos grupos de
alumnos/as que tiene Enrique. La media del primero es 100 y la del segundo es 500. La desviación típica
del primero es 5 y la del segundo es 30. ¿En qué grupo ha habido mayor dispersión relativa?
Solución:
Calculamos los coeficientes de variación de ambas pruebas.
5
1er grupo: x1 100 , 1 5 , CV1 0,05 5%
100
30
2º grupo: x 2 500 , 2 30 , CV2 0,06 6%
500
Por tanto, ha obtenido mayor dispersión relativa el segundo grupo porque su coeficiente de
variación es mayor.
Ejemplo: En una oposición, se han realizado dos pruebas de 200 preguntas tipo test.
En la prueba A, la media ha sido de 120 puntos y la desviación típica de 32 puntos.
Solución:
Calculamos los coeficientes de variación de ambas pruebas.
32
Prueba A: x A 120 , A 32 , CV A 0,267 26,7%
120
27
Prueba B: x B 90 , B 27 , CVB 0,30 30%
90
Por tanto, la dispersión relativa de la prueba B es mayor que la de la prueba A porque su
coeficiente de variación es mayor.
Ejemplo: La media de la edad de los profesores en un centro es 47,2 años y la desviación típica
es 9,6 años. En otro centro, la media es 38,9 años y la desviación típica es 13,7 años. ¿En qué centro es
más representativa la media?
Solución:
Calculamos los coeficientes de variación de ambos centros.
47,2
Centro A: x A 47,2 , A 9,6 , CV A 0,2034 20,34%
9,6
38,9
Centro B: x B 38,9 , B 13,7 , CVB 0,3816 38,16%
13,7
Como 20,34 % < 38,16 %, la media es más representativa en el centro A.
Frecuencia
Nota
absoluta xi f i xi2 xi2 f i
xi
fi
1 0 0 1 0
2 1 2 4 4
3 2 6 9 18
4 3 12 16 48
5 6 30 25 150
6 4 24 36 144
7 2 14 49 98
8 1 8 64 64
9 0 0 81 0
10 1 10 100 100
Total N = 20 106 626
106
Media aritmética: x 5,3
20
626
Varianza: 2 5,32 3,21
20
Desviación típica: 3,21 1,79
Intervalo: x ,
x 3,51 ; 7,09
x 5,3 1,79 3,51
Entre las dos líneas verticales, se encuentran un poco más de las dos terceras partes de las
notas.
Ejemplo: Una encuesta sobre el número de teléfonos móviles realizada a 200 familias ha dado
los siguientes resultados ordenados en la siguiente tabla. Indica si la distribución se aproxima a una
distribución normal.
Número de Frecuencia
libros absoluta xi f i xi2 xi2 f i
xi fi
0 2 0 0 0
1 8 8 1 8
2 20 40 4 80
3 60 180 9 540
4 90 360 16 1.440
5 20 100 25 500
Total N = 200 688 2.568
688
Media aritmética: x 3,44
200
2.568
Varianza: 2 3,44 2 1,0064
200
Desviación típica: 1,0064 1,0032
Intervalo: x ,
x 2,4368 ; 4,4432
x 3,44 1,0032 2,4368
Nota xi 3 4 5 6 7 8 9
Frecuencia absoluta fi 2 3 6 4 2 2 1
b) Si se supone que se aproxima a una distribución normal, ¿entre qué valores se encuentra
aproximadamente el 68 % de los datos?
Frecuencia
Nota
absoluta xi f i xi2 xi2 f i
xi
fi
3 2 6 9 18
4 3 12 16 48
5 6 30 25 150
6 4 24 36 144
7 2 14 49 98
8 2 16 64 128
9 1 9 81 81
Total N = 20 111 667
111
a) Media aritmética: x 5,55
20
667
Varianza: 2 5,55 2 2,5475
20
Desviación típica: 2,5475 1,6
b) Como se trata de una variable cuantitativa discreta, se construye un diagrama de barras de
las notas.
Intervalo: x ,
x 3,95 ; 7,15
x 5,55 1,6 3,95
15
0,75 75% de los datos
20
Entre 3,95 y 7,15 se encuentran un poco más de las dos terceras partes de las notas.
c) Intervalo: x 2 ,
x 2 2,35 ; 8,75
x 2 5,55 2 1,6 2,35
d) Intervalo: x 3 ,
x 3 0,75 ; 10,35
x 3 5,55 3 1,6 0,75
Ejemplo: Se pregunta a 200 personas que den una valoración, de 0 a 5, sobre las actividades
culturales que realiza su ayuntamiento. Los resultados obtenidos se presentan en la siguiente tabla:
Frecuencia
Nota
absoluta xi f i xi2 xi2 f i
xi
fi
0 14 0 0 0
1 26 26 1 26
2 23 46 4 92
3 38 114 9 342
4 57 228 16 912
5 42 210 25 1.050
Total N = 200 624 2.422
a) Haz el diagrama de barras.
a) Diagrama de barras:
60
50
40
30
20
10
0
0 1 2 3 4 5
Nota
624
b) Media aritmética: x 3,12
200
2.422
Varianza: 2 3,12 2 2,37
200
Desviación típica: 2,37 1,54
Intervalo: x ,
x 1,58 ; 4,64
x 3,12 1,54 1,58
Desviación media
x i x fi
DM i 1
x
2
2
fi x fi
Varianza i
2
i
2 i 1
x i 1
N N
Desviación típica 2
Coeficiente de
CV
variación x
5.1. UTILIDAD
El diagrama de caja y bigotes es una gráfico estadístico que describe al mismo tiempo varias
características importantes de un conjunto de datos, tales como el centro, la dispersión, la simetría o
asimetría, y la identificación de observaciones atípicas.
Permite estudiar la simetría de los datos de una distribución a partir de cinco parámetros: valor
mínimo, primer cuartil, segundo cuartil o mediana, tercer cuartil y valor máximo. Además, son
especialmente útiles para comparar varias distribuciones.
Está compuesto por un rectángulo, la “caja”, y dos brazos, los “bigotes”. La caja representa el
cuerpo de la distribución y los bigotes sus colas.
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q 1,
Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.
Permite ver cómo es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y los
valores mínimo y máximo.
Un valor de una variable estadística es atípico cuando se encuentra muy separado del resto de
los valores que toma esa variable o dsitribución.
Cuando los datos se extienden más allá de la longitud de los bigotes, significa que hay valores
atípicos en la distribución. Es decir, si los datos quedaran por debajo o por encima de esta
longitud, el correspondiente bigote se dibujará con esa limitación y se añadiría, mediante
asterisco, el dato en el lugar que le corresponde. Por lo que se marcan como atípicos todos los
datos que están fuera del intervalo (Li, Ls). Así pues, “x es atípico por la izquierda” si
x < Li=Q1–1,5·RIQ y “x es atípico por la derecha” si x > Ls=Q3+1,5·RIQ.
En resumen,
25 % 25 % 25 % 25 %
Li Q1 Q2=Me Q3 Ls
El primer cuartil (Q1) informa de que por debajo de este valor se encuentra como máximo el
25 % de las observaciones de la población.
La mediana coincide con el segundo cuartil (Q2) que divide a la distribución en dos partes
iguales. De este modo, el 50 % de las observaciones están por debajo de la mediana y el otro 50 % está
por encima.
El tercer cuartil (Q3) indica que por debajo de este valor se encentran como máximo el 75 %
de las observaciones de la población.
El límite inferior es el extremo inferior del bigote. Las observaciones por debajo de este valor
se consideran atípicas.
El límite superior es el extremo superior del bigote. Las observaciones por encima de este
límite se consideran atípicas.
Los valores atípicos son las observaciones que están apartadas del cuerpo principal de datos.
Pueden representar efectos de causas extrañas, observaciones extremas o bien errores de medición o
registro.
La caja representa el 50 % de los datos que particularmente están ubicados en la zona central
de la distribución.
Los diagramas de caja y bigotes permiten una fácil lectura e interpretación del tipo de simetría
de una distribución:
Es simétrica cuando la media, mediana y moda de la distribución coinciden y los datos se
distribuyen de igual forma a ambos lados de esas medidas.
Es asimétrica positiva o sesgada a la derecha, cuando los datos tienden a concentrarse hacia
la parte inferior de la distribución. La media se situaría a la derecha de la mediana.
Es asimétrica negativa o sesgada hacia la izquierda cuando los datos tienden a concentrarse
hacia la parte superior de la distribución. La media se situaría a la izquierda de la mediana.
La mediana puede coincidir con los cuartiles o con los límites de los bigotes. Esto sucede cuando
se concentran muchos datos en un mismo punto, en este caso, cuando muchas observaciones toman el
mismo valor. Pudiera ser éste un caso particular de una distribución sesgada o el caso de una
distribución muy homogénea.
Si la distribución es asimétrica o sesgada, se estudia los cinco parámetros: valor mínimo, primer
cuartil, mediana, tercer cuartil y valor máximo.
5.2.4. Ejemplos
Ejemplo (continuación). Datos impares: Construye el diagrama de caja y bigotes para las notas
de un curso de 3º ESO.
Frecuencia
Notas de Frecuencia
absoluta
alumnos/as absoluta
acumulada
xi fi
Fi
3 6 6
4 4 10
5 4 14
6 2 16
7 4 20
8 5 25
Total N = 25
Cuartiles:
- Valor máximo=8
Bigotes:
Valores atípicos: No hay ningún dato fuera del intervalo (3, 8).
25 % 25 % 25 % 25 %
La parte derecha de la caja es mayor que la de la izquierda; ello quiere decir que las notas
comprendidas entre el 50 % y el 75 % de la población están más dispersas que entre el 25 % y el 50 %.
Ejemplo. Datos pares: Las respuestas correctas obtenidas por 20 personas en un test de 110
preguntas han sido las siguientes:
63, 62, 60, 20, 65, 80, 82, 110, 70, 75, 73, 72, 108, 84, 78, 67, 19, 60, 61, 63
Calcula los valores atípicos de la distribución y representa el diagrama de caja y bigotes.
Cuartiles:
19, 20, 60, 60, 61, 62, 63, 63, 65, 67, 70, 72, 73, 75, 78, 80, 82, 84, 108, 110
67 70
Q1 61 Q2 Me 68,5 Q3 80
2
Recorrido intercuartílico: RIQ 80 61 19
- Valor mínimo=19
- Valor máximo=80
Bigotes:
25 % 25 % 25 % 25 %
* * *
19 20 32,5 Q1=61 Q2=Me=68,5 Q3=80 108,5 110
En este caso, el 50 % central de las respuestas de un test está entre 61 y 80. Como la
mediana no está centrada en la caja, la distribución no es simétrica, ya que las respuestas de las
personas tienden a concentrase más hacia un lado de la caja.
El bigote de la izquierda es más corto que el de la derecha; por ello, el 25 % de las respuestas
correctas está más concentrado que el 25 % superior.
La parte derecha de la caja es mayor que la de la izquierda; ello quiere decir que las respuestas
correctas comprendidas entre el 50 % y el 75 % de la población están más dispersas que entre el 25 %
y el 50 %.
Ejemplo. Datos pares: Representa mediante un diagrama de caja y bigotes la siguiente
distribución:
Frecuencia
Nº de Frecuencia
absoluta
hijos/as absoluta
acumulada
xi fi
Fi
0 10 10
1 20 30
2 41 71
3 29 100
4 14 114
5 5 119
6 1 120
Total N = 120
Cuartiles:
1 2
Q1 : 25% 120 30 Fi 30 F2 30 Q1 1,5
2
Q2 : 50% 120 60 Fi 60 F3 71 Q2 Me 2
- Valor mínimo=0
- Valor máximo=6
Bigotes:
- Tamaño máximo de los bigotes: 1,5·RI=1,5·1,5=2,25
- Límite inferior: Li=Q1–1,5·RIQ=1,5-2,25=-0,75 Como -0,75 < 0 Li=0
Valores atípicos: Hay un dato fuera del intervalo (0; 5,25) que es: 6.
25 % 25 % 25 % 25 %
*
0 Q1=1,5 Q2=Me=2 Q3=3 5,25 6
En este caso, el 50 % central de las familias tienen entre 1,5 y 3 hijos/as. Como la mediana no
está centrada en la caja, la distribución no es simétrica, ya que los hijos/as de las familias tienden a
concentrase más hacia un lado de la caja.
El bigote de la izquierda es más corto que el de la derecha; por ello, el 25 % de los hijos/as está
más concentrado que el 25 % superior.
La parte derecha de la caja es mayor que la de la izquierda; ello quiere decir que los hijos/as
comprendidos entre el 50 % y el 75 % de la población están más dispersos que entre el 25 % y el 50 %.
Ejemplo: Se presentan los diagramas de caja y bigotes comparativos para la variable peso de
los estudiantes de Métodos Estadísticos I clasificados por sexo.
El análisis comparativo de estos diagramas revela que el peso de los varones es mayor que el de
las hembras. También se observa que la variabilidad de los pesos de las hembras es mayor a la de los
varones. Sin embargo, la variabilidad en la parte central de la distribución de los pesos tanto de las
féminas como de los masculinos es muy similar.
Se nota la existencia de un valor atípico en la distribución de las mujeres, que es un peso muy
alto (el valor máximo de todos los pesos) en comparación a los pesos del resto de las muchachas.
La distribución del peso de los varones es asimétrico por la izquierda mientras que las hembras
presentan una distribución asimétrica por la derecha influenciada por el valor atípico.