Вы находитесь на странице: 1из 70

Tema 1: Estadística.

ÍNDICE

1. ESTADÍSTICA 4
1.1. Definición .................................................................................................................................................... 4
1.2. Utilidad ....................................................................................................................................................... 4
1.3. Campos de la estadística ....................................................................................................................... 4
1.4. Terminología de un estudio estadístico ............................................................................................ 4
1.5. Pasos que se dan en un estudio estadístico ..................................................................................... 6
1.6. Tipos de variables estadísticas ........................................................................................................... 7

2. TABLA DE FRECUENCIAS 8
2.1. Utilidad ....................................................................................................................................................... 8
2.2. Recuento de datos .................................................................................................................................. 8
2.2.1. Definición .....................................................................................................................................................8
2.2.2. Construcción de una tabla de recuento de datos con datos aislados .............................................9

2.2.3. Construcción de una tabla de recuento de datos con datos agrupados en intervalos ................9

2.3. Construcción de una tabla de frecuencias..................................................................................... 12


2.4. Terminología de una tabla de frecuencias ..................................................................................... 12
2.5. Construcción de una tabla de frecuencias absoluta y relativa ................................................ 13
2.5.1. Con datos aislados .................................................................................................................................... 13

2.5.2. Con datos agrupados en intervalos ...................................................................................................... 14

2.6. Construcción de una tabla de frecuencias absoluta y relativa acumuladas ......................... 15


2.6.1. Con datos aislados .................................................................................................................................... 15

2.6.2. Con datos agrupados en intervalos ...................................................................................................... 16

3. GRÁFICOS ESTADÍSTICOS 17
3.1. Utilidad ..................................................................................................................................................... 17
3.2. Tipos de gráficas estadísticas .......................................................................................................... 17
3.2.1. Diagrama de barras ................................................................................................................................. 17
3.2.2. Histograma ................................................................................................................................................ 18
3.2.3. Polígono de frecuencias .......................................................................................................................... 19

3.2.4. Diagrama de sectores ............................................................................................................................. 19

3.2.5. Pictograma ................................................................................................................................................. 21

3.2.6. Cartograma ................................................................................................................................................ 21


3.2.7. Serie cronológica .................................................................................................................................... 22
3.2.8. Pirámide de población ............................................................................................................................ 22

Gema Isabel Marín Caballero Página 1 de 70


Tema 1: Estadística.

3.2.9. Resumen de gráficas estadísticas ...................................................................................................... 23

3.3. Ejemplos de gráficas estadísticas .................................................................................................. 24


3.4. Construcción de gráficos estadísticos con datos aislados ...................................................... 25
3.5. Construcción de gráficos estadísticos con datos agrupados en intervalos ........................ 27

4. PARÁMETROS ESTADÍSTICOS 28
4.1. Utilidad .................................................................................................................................................... 28
4.2. Tipos de parámetros estadísticos................................................................................................... 28
4.2.1. Medidas de centralización ..................................................................................................................... 28

4.2.1.1. Utilidad .............................................................................................................................................. 28


4.2.1.2. Tipos ................................................................................................................................................... 28
4.2.1.3. Con datos aislados ........................................................................................................................... 30
4.2.1.4. Con datos agrupados en intervalos .............................................................................................. 34
4.2.1.5. Resumen de medidas de centralización ...................................................................................... 36
4.2.2. Medidas de posición ............................................................................................................................... 37

4.2.2.1. Utilidad .............................................................................................................................................. 37


4.2.2.2. Tipos .................................................................................................................................................. 37
4.2.2.3. Relación ............................................................................................................................................. 39
4.2.2.4. Con datos aislados .......................................................................................................................... 40
4.2.2.5. Con datos agrupados en intervalos ............................................................................................. 47
4.2.2.6. Resumen de medidas de posición ................................................................................................. 48
4.2.3. Medidas de dispersión ........................................................................................................................... 49

4.2.3.1. Utilidad .............................................................................................................................................. 49


4.2.3.2. Tipos .................................................................................................................................................. 50
4.2.3.3. Con datos aislados ........................................................................................................................... 51
4.2.3.4. Con datos agrupados en intervalos ............................................................................................. 53
4.2.3.5. Interpretación conjunta de la media, desviación típica y coeficiente de variación ........ 55
4.2.3.6. Interpretación conjunta de la media y desviación típica ....................................................... 56
4.2.3.7. Resumen de medidas de dispersión ............................................................................................ 62

5. DIAGRAMA DE CAJA Y BIGOTES 62


5.1. Utilidad .................................................................................................................................................... 62
5.2. Construcción de un diagrama de caja y bigotes .......................................................................... 63
5.2.1. Gráfica del diagrama de caja y bigotes .............................................................................................. 63
5.2.2. Identificación de los elementos del diagrama de caja y bigotes ................................................. 63

5.2.3. Interpretación del diagrama de caja y bigotes ............................................................................... 64


5.2.4. Ejemplos ................................................................................................................................................... 65

Gema Isabel Marín Caballero Página 2 de 70


Tema 1: Estadística.

5.3. Comparación de distribuciones ........................................................................................................ 69


5.4. Comparación del diagrama de caja y bigotes con el histograma ............................................ 69

Gema Isabel Marín Caballero Página 3 de 70


Tema 1: Estadística.

1. ESTADÍSTICA

1.1. DEFINICIÓN
La estadística es la ciencia que estudia la forma de recopilar, ordenar y analizar datos.

La estadística es la ciencia que se ocupa de recoger y ordenar los datos referidos a diversos
fenómenos, para su posterior análisis e interpretación.
La estadística es la ciencia cuya finalidad es estudiar los procedimientos destinados a la
recogida, resumen, análisis e interpretación de un conjunto de datos .
La estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a
individuos, grupos, series de hechos, etc. y deducir de ellos gracias al análisis de estos datos unos
significados precisos o unas previsiones para el futuro .
La estadística tiene por objeto el desarrollo de técnicas para el conocimiento numérico de un
conjunto de datos empíricos (recogidos mediante experimentos o encuestas).

1.2. UTILIDAD
La estadística se ha convertido en un método efectivo para describir y, sobre todo, para
interpretar con exactitud los valores de los datos económicos, políticos, sociales, psicológicos,
biológicos y físicos, y sirve como herramienta para relacionar, analizar dichos datos y obtener
conclusiones.

1.3. CAMPOS DE LA ESTADÍSTICA


Los tres temas que destacan en la estadística son:
 Estadística descriptiva: se ocupa del tratamiento sistemático de sucesos ya acaecidos y su
funcionalidad es recoger información, resumirla e interpretarla.
 Inferencia estadística: generaliza a toda una población, la información obtenida a partir del
conocimiento de una muestra reducida.
 Cálculo de probabilidades: se trata de una rama a caballo entre la estadística descriptiva y la
inferencia estadística.

La estadística descriptiva es una parte de la estadística cuyo objetivo es examinar a todos los
individuos de un conjunto para luego describir e interpretar numéricamente la información obtenida .
Sus métodos están basados en la observación y el recuento. Se pretende, una vez realizados,
poder simplificar los datos observados para obtener de ellos una información lo más completa posible
del total de la población.

En estadística descriptiva el material de trabajo lo constituyen los datos, que son los
resultados de las observaciones. Una vez obtenidos los datos, hay que ordenarlos y clasificarlos
mediante algún criterio racional de modo que sea posible una visión crítica de los mismos.

1.4. TERMINOLOGÍA DE UN ESTUDIO ESTADÍSTICO


Los términos utilizados más frecuentemente en los estudios estadísticos son:

 Población: es el conjunto formado por todos los elementos del estudio estadístico.

Gema Isabel Marín Caballero Página 4 de 70


Tema 1: Estadística.

 Muestra: es la parte de la población que estudiamos y que nos sirve para deducir las
características de la población. La muestra se toma cuando la población es muy grande y no
puede realizarse un estudio de todos los individuos. Para que el estudio sea válido, la muestra ha
de representar al conjunto de la población, tiene que ser una muestra representativa.
 Individuo: es cada uno de los elementos que forman la población o la muestra.
 Tamaño de la población: es el número de individuos que componen una población.
 Tamaño de la muestra: es el número de individuos que componen una muestra.

 Variable estadística: es cualquier cualidad que estudiamos en los individuos de la muestra o


población.

Ejemplo: Los alumnos/as de 4º ESO matriculados en España son un total de 136.559. Para
realizar un estudio estadístico sobre su peso, altura y edad, se seleccionan 300 alumnos/as de
diferentes centros escolares. Determina los 6 términos de un estudio estadístico.
Población: Los 136.559 alumnos/as de 4º ESO matriculados en España.
Muestra: 300 alumnos/as seleccionados de diferentes centros.
Individuo: Cada alumno/a matriculado en 4º ESO.  1 alumno/a.
Tamaño de la población: 136.559 alumnos/as matriculados.
Tamaño de la muestra: 300 alumnos/as.
Variables estadísticas: el peso, la altura y la edad.

Ejemplo: Se va a realizar un estudio estadístico sobre el porcentaje de personas casadas en


una localidad de 122.594 habitantes. Para ello, se eligen 2.325 habitantes y se extienden las
conclusiones a toda la población. Determina los 6 términos de un estudio estadístico.
Población: Los 122.594 habitantes de la localidad.
Muestra: 2.325 habitantes elegidos aleatoriamente de la localidad.
Individuo: Cada persona a la que se pregunta es un individuo de la muestra. Y cada habitante es
un individuo de la población.  1 habitante.

Tamaño de la población: 122.594 habitantes.


Tamaño de la muestra: 2.325 personas.
Variable estadística: si una persona está casada o no.

Ejemplo: Se quiere realizar una encuesta entre los alumnos/as de 3º ESO de una ciudad, en
total 6.578 alumnos/as. Para ello, se elige a los 63 alumnos/as de 3º ESO del IES Cervantes. Determina
los 6 términos de un estudio estadístico.
Población: Todos los alumnos/as de 3º ESO de la ciudad.
Muestra: Los alumnos/as de 3º ESO del IES Cervantes.
Individuo: Cada alumno/a de 3º ESO de la ciudad es un individuo de la población. Y cada
alumno/a de 3º ESO del IES Cervantes es un individuo de la muestra.  1 alumno/a.
Tamaño de la población: 6.578 alumnos/as.
Tamaño de la muestra: 63 alumnos/as.

Gema Isabel Marín Caballero Página 5 de 70


Tema 1: Estadística.

Ejemplo: Para comprobar si las 10.000 bombillas funcionan correctamente, se proponen dos
alternativas para realizar el control de calidad.

1ª Comprobar si las 100 primeras bombillas de cada día funcionan correctamente.

2º Comprobar una bombilla elegida al azar de cada centena fabricada.


Solución:
La población está formada por las 10.000 bombillas fabricadas.
En las dos alternativas, la muestra la forman 100 bombillas.

En la 1ª alternativa puede que la máquina funcione perfectamente y, luego, se averíe sin


posibilidad de descubrirlo.

La 2ª opción permite detectar anomalías en la fabricación en cualquier momento. Por tanto,


proporciona una muestra más representativa de la población.

Ejemplo: En una editorial se quiere hacer una encuesta a 50 editores sobre su comida
preferida. Si en total trabajan 360 mujeres y 240 hombres, ¿cuántos hombres y mujeres deben formar
la muestra para que sea representativa?

Solución:

Para que la muestra sea representativa, el porcentaje de mujeres y hombres deber ser igual
que en la población.

Total de la población = Mujeres + Hombres = 360 + 240 = 600

360
Mujeres:  100  60%
600
240
Hombres:  100  40%
600
Por tanto, en una muestra de 50 personas habrá:
60 % de 50 = 0,6  50  30 mujeres
40 % de 50 = 0,4  50  20 hombres

1.5. PASOS QUE SE DAN EN UN ESTUDIO ESTADÍSTICO


En un proceso estadístico, se siguen los siguientes pasos:
1. Elaboración de la encuesta, de modo que el encuestado tenga claro lo que se le pregunta y
cuáles son las posibles respuestas. Elegimos la población que va a ser objeto del análisis.
Ejemplo: los habitantes de un país.

2. Recogida de datos. Es decir, se pasa la encuesta y se anotan las respuestas. La recogida de


datos se suele realizar mediante encuestas o cuestionarios. Obtenemos los datos a partir de
una muestra de individuos de la población.

3. Organización y clasificación de las respuestas. El conjunto de los valores que vamos a


estudiar se llama variable estadística (ejemplos: estatura, color de ojos, número de zapatos,
etc.).

4. Elaboración de tablas de frecuencias. Es decir, se elaboran tablas de frecuencias absolutas,


relativas y porcentuales con el recuento de los resultados obtenidos en la encuesta.

5. Confección de gráficas estadísticas con los datos de la tabla de frecuencias.

Gema Isabel Marín Caballero Página 6 de 70


Tema 1: Estadística.

6. Obtención de parámetros estadísticos. Es decir, se obtienen valores numéricos que resumen la


información obtenida.

7. Extracción de conclusiones. Es decir, se obtienen conclusiones a partir de las gráficas o de los


parámetros.

1.6. TIPOS DE VARIABLES ESTADÍSTICAS


Llamamos variable estadística a cada una de las propiedades o características que podemos
observar en los individuos de una población, es decir, la información que nos aportan los datos. Ejemplo:
en el conjunto de los alumnos de 1º ESO, podemos estudiar su altura, su edad, su color de pelo, su
número de calzado, etc.

Las variables estadísticas se clasifican según los valores que pueden tomar.

Las variables estadísticas se pueden clasificar en:


 Variables cualitativas: toma valores no numéricos. No pueden expresarse mediante números.
Los valores de la variable son cualidades. Ejemplos: la afición, el color de ojos, el deporte, etc.
 Variables cuantitativas: toma valores numéricos. Se expresan mediante números. Ejemplos: el
número de hermanos, la altura, etc. Éstas pueden ser a su vez de dos tipos:

- Discretas: sólo pueden tomar valores aislados o determinados. En cada tramo, la variable
sólo puede tomar un número determinado de valores. Ejemplo: el número de hermanos, el
número de veces que los chicos y chicas de una localidad van al cine.  0, 1, 2, 3, …

- Continuas: pueden tomar todos los valores de un intervalo. En cada tramo, la variable puede
tomar infinitos valores. Ejemplo: la altura, la longitud de los tornillos que fabrica una
máquina.  1,2; 0,5; 2; 4,98; …

Ejemplos
Tipos de Valor de la
Variable Valores
variables variable
Cualitativas Color preferido Blanco, rojo, azul, …
Cualidad
o atributos Sexo Hombre, mujer
Nº de libros leídos en un mes 0, 1, 2, 3, …
Discretas Número
Número de páginas de un libro 210, 211, 22, 309, …
Cuantitativas Entre 60 kg y 67 kg,
Peso
Continuas Infinitos números …
Altura Entre 1,50 y 1,80, …

Las variables estadísticas también se pueden clasificar en:

 Variables unidimensionales: se tiene una única variable.  Estadística unidimensional: recopila,


ordena y analiza los datos de una variable. Ejemplo: Calcula el peso medio de la selección de
España.
 Variables bidimensionales: se tienen dos variables.  Estadística bidimensional: recopila,
ordena y analiza los datos de dos variables. Ejemplo: Un jugador de España que pesara 80 kg,
¿qué edad tendría?

 Variables pluridimensionales: se tienen más de dos variables.  Estadística pluridimensional:


recopila, ordena y analiza los datos de más de dos variables.

Gema Isabel Marín Caballero Página 7 de 70


Tema 1: Estadística.

2. TABLA DE FRECUENCIAS

2.1. UTILIDAD
Cuando se estudia una variable estadística, lo primero que hay que hacer es organizar los datos
en una tabla de frecuencias.
En un estudio estadístico, después de recoger los datos, hay que contarlos y agruparlos. Esto
generalmente se hace en forma de tabla de frecuencias.

La recogida de datos se suele realizar mediante encuestas o cuestionarios.


Después de recopilar los datos, se procede a su recuento para expresarlos de manera ordenada,
generalmente en forma de tablas.

El conjunto de datos obtenidos al hacer el estudio se organiza mediante tablas donde ponemos
las frecuencias.

Una vez que se han recogido los datos de una experiencia estadística, hay que tabularlos, es
decir, hay que construir con estos datos una tabla (tabla de frecuencias) en la cual se presentan de
manera ordenada:

 Los valores de la variable que se está estudiando.  variable estadística


 El número de veces que aparece cada valor. Recuento de datos.  frecuencia

En los estudios estadísticos es necesario organizar los datos para poder trabajar con ellos y
sacar conclusiones. Para ello, se utilizan las tablas de frecuencias y a partir de ellas se construyen
diferentes representaciones gráficas de esos datos.

2.2. RECUENTO DE DATOS

2.2.1. Definición
El recuento de datos se hará según sea el tipo de variable estadística.
Si la variable es cualitativa, se escribe cada valor (modalidad) y se anota el número de veces
que aparece cada uno de ellos.

Si la variable es cuantitativa discreta, se ordenan los valores en orden creciente y se anota el


número de veces que aparece cada uno.

Y si la variable es cuantitativa continua, se ordenan los valores en intervalos o clases,


usualmente de la misma amplitud, y como mínimo, 4 intervalos. Para facilitar los cálculos, se toma el
punto medio del intervalo, que se llama marca de clase.
Las marcas de clase son los puntos medios de cada intervalo.

El recuento de datos según sean:


Datos aislados:
Variables cualitativas.
Se anota el número de veces que aparece cada dato.
Variables cuantitativas discretas.
Datos agrupados en intervalos:
Se ordenan los valores en intervalos y se anota el
Variables cuantitativas continuas.
número de veces que aparece cada dato.

Gema Isabel Marín Caballero Página 8 de 70


Tema 1: Estadística.

2.2.2. Construcción de una tabla de recuento de datos con datos aislados


Ejemplo: Después de preguntar a 40 alumnos/as sobre su deporte favorito, obtenemos estos
resultados. Construye una tabla de frecuencias.

F = fútbol T = tenis Bm = balonmano


B = baloncesto A = atletismo

Deporte favorito (Datos) Deporte favorito Recuento


F F F B B T T Bm F 8
A B B B Bm T A F B 12
F B B Bm A Bm B B  T 6
F F T A A A A A A 10
T A B B A F B T Bm 4
Total 40

El deporte favorito es una variable cualitativa.

Ejemplo: Anotamos el número de hermanos que tienen los 50 alumnos/as de dos clases de 2º
ESO. Construye una tabla de frecuencias.

Nº de hermanos (Datos) Nº de hermanos Recuento


1 3 1 4 2 1 2 1 3 2 0 6
2 1 3 1 0 2 3 2 1 1 1 16
3 2 0 4 2 1 0 1 2 3  2 15
1 1 4 2 1 3 1 2 3 2 3 10
0 1 0 2 3 2 1 0 3 2 4 3
Total 50

El número de hermanos es una variable cuantitativa discreta.

2.2.3. Construcción de una tabla de recuento de datos con datos agrupados en intervalos
La distribución de frecuencias agrupadas o tabla de frecuencias con datos agrupados se
emplea si las variables cuantitativas discretas toman un número grande de valores o la variable es
cuantitativa continua.
Cuando en una distribución estadística el número de valores que toma la variable es demasiado
grande, conviene hacer una tabla de frecuencias agrupándolos en intervalos.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada
clase se le asigna su frecuencia correspondiente.

Cada clase está delimitada por el límite inferior de la clase (va con un corchete, significa que el
número entra) y el límite superior de la clase (va con un paréntesis, significa que el número no entra).
NOTA:

 En una tabla de frecuencias con datos agrupados en intervalos , hay libertad para elegir el
número de clases y los extremos de las mismas (límites inferior y superior de las clases).

 Se forman los intervalos, de modo que el límite inferior del primero sea algo menor que el dato
extremo inferior y el límite superior del último sea algo superior al dato extremo superior. Es
deseable que los extremos de los intervalos no coincidan con ninguno de los datos. Para ello,
conviene que los extremos de los intervalos tengan una cifra decimal más que los datos.

Gema Isabel Marín Caballero Página 9 de 70


Tema 1: Estadística.

Cuando no nos dan la tabla de frecuencias con los datos agrupados en intervalos , los podemos
agrupar en intervalos. Hay varias formas para calcular el número de intervalos, que son:

1) Hallamos la raíz cuadrada entera del número total de datos y, además, no debe ser
inferior a 6 ni superior a 15. O bien, el número de intervalos que tomaremos será el
redondeo hasta las unidades de N.
2) Utilizamos la fórmula empírica debida a Sturges: k = 1 + 3,3 log N

Ejemplo: Como los valores extremos de una lista de 30 números son 47,3 y 96,3, calcula el
número de clases aconsejado para estos datos.

N = 30

1) 30  5,48  6
2) Fórmula de Sturges: k = 1 + 3,3 log 30 = 5,87  6

La amplitud de la clase o la amplitud del intervalo es el tamaño del intervalo.

Si la amplitud del intervalo es un número grande, el número de intervalos es menor . Pero si la


amplitud del intervalo es un número pequeño, el número de intervalos es mayor .

Hay varias formas para calcular la amplitud del intervalo, que son:
1) Conocido el número de intervalos, hallamos el número de elementos que tenemos entre el
dato inferior y el dato mayor, esto es, el rango de elementos. Después, dividimos el rango
de elementos entre el número de intervalos y obtenemos la amplitud del intervalo.
Rango = dato mayor – dato menor
Amplitud = rango / número de intervalos

2) Conocido el número de intervalos, hallamos el número de elementos que tenemos entre el


dato inferior y el dato mayor, esto es, el rango de elementos. Después, tomamos el primer
múltiplo del número de intervalos que sea mayor o igual que el rango de elementos . Por
último, dividimos el primer múltiplo del número de intervalos entre el número de intervalos y
obtenemos la amplitud del intervalo.

Rango = dato mayor – dato menor


pm = Primer múltiplo del número de intervalos  rango
Amplitud = pm / número de intervalos

Ejemplo: Dada una lista de números del 300 al 3.000, me piden que los agrupe en 7 intervalos,
¿cuál es la amplitud?
Rango = 3.000 – 300 = 2.700

Número de intervalos = 7

Amplitud = 2.700 / 7 = 386


Los intervalos son: 300 – 686 , 686 – 1.072 , 1.072 – 1.458 , 1.458 – 1.844 ,
1.844 – 2.230 , 2.230 – 2.6216 , 2.616 – 3.002

Gema Isabel Marín Caballero Página 10 de 70


Tema 1: Estadística.

Ejemplo: Como los valores extremos de una lista de 40 números son 149 y 178, calcula la
amplitud.

N = 40

Rango = 178 – 149 = 29

Número de intervalos = 40  6,32  6


1) Amplitud = 29 / 6 = 4,83  5
2) Primer múltiplo de 6  29  6 x 5 = 30  Amplitud = 5

Los intervalos son: 148 – 153 , 153 – 158 , 158 – 163 , 163 – 168 , 168 – 173 , 173 – 178 ,
178 – 183

La marca de clase es el punto medio de cada intervalo [ Li , Li 1 ) y es el valor que representa a


todo el intervalo para el cálculo de algunos parámetros estadísticos.

Li  Li 1
xi 
2
Donde Li es el límite inferior del intervalo y Li 1 es el límite superior.
Una vez que se calcula la primera marca de clase, las siguientes se obtienen de sumar a la
marca de clase anterior la amplitud de la clase.  marca de clase anterior + amplitud de la clase

O también la marca de clase se podría calcular sumando al límite inferior de la clase la mitad
de la amplitud de la clase.  límite inferior de la clase + mitad de la amplitud de la clase

Ejemplo: Construye la tabla de frecuencias del peso, en kg, de 20 alumnos/as.

Peso (Datos) Peso Marca de clase Recuento


66,5 59,2 60,1 64,2 70 [36, 42) 39 4
52,2 50,3 42,2 61,9 52,4 [42, 48) 45 4
50 41,6 47,9 42,8 55  [48, 54) 51 5
49,2 41,6 38,7 36,5 45 [54, 60) 57 2
[60, 66) 63 3
[66, 72) 69 2
Total 20

El peso es una variable cuantitativa continua.


Podemos ver que solo dos de los alumnos/as tienen el mismo peso (41,6 kg). Si con estos
datos hacemos una tabla de frecuencias como la anterior, resultaría muy poco ilustrativa (19 valores
diferentes, los cuales tendrían todos frecuencia 1 excepto el 41,6 que tendría frecuencia 2). Por eso,
en casos como éste, es preferible hacer una tabla de frecuencias acumulando los datos en intervalos.

La amplitud de la clase o la amplitud del intervalo se calcula como:


Rango = 70 – 36,5 = 33,5

Número de intervalos = 6

Amplitud = 33,5 / 6 = 5,58  6


Podemos tomar 6 intervalos de amplitud 6.  amplitud = 6

Gema Isabel Marín Caballero Página 11 de 70


Tema 1: Estadística.

2.3. CONSTRUCCIÓN DE UNA TABLA DE FRECUENCIAS


Las tablas de frecuencias sirven para ordenar y organizar los datos estadísticos. Con ellas, una
masa amorfa de datos pasa a ser una colección ordenada y perfectamente inteligible.

La tabla de frecuencia o distribución de frecuencias es el conjunto de los valores de la


variable estadística X acompañados de sus respectivas frecuencias.
Para construir una tabla de frecuencias para variables cuantitativas (discretas o continuas), se
colocan los datos ordenados, de menor a mayor, en la primera columna (variable estadística), las
frecuencias absolutas en la segunda y las frecuencias relativas en la tercera.
Y en el caso de variables cualitativas, colocamos en la tabla aquellos valores que son
independientes del lugar en que se pongan las modalidades.

Distribución de frecuencias
Porcentaje
xi fi Fi f ri Fri
f ri  100 (%)
f1 F1
x1  Valor 1 f1 F1 Fr1  f r1  100
N N
f2 F
x2  Valor 2 f2 F2 Fr 2  2 f r 2  100
N N
f3 F
x3  Valor 3 f3 F3 Fr 3  3 f r 3  100
N N
f4 F
x4  Valor 4 f4 F4 Fr 4  4 f r 4  100
N N
… … … … … …
fn Fn
xn  Valor n fn Fn Frn  f rn  100
N N
Total N 1 100 %

2.4. TERMINOLOGÍA DE UNA TABLA DE FRECUENCIAS


Los términos utilizados más frecuentemente en una tabla de frecuencias son:

X  variable estadística. Puede tomar n valores.

xi  valores que puede tomar la variable X.

Para cada xi le corresponde un f i , Fi , f ri y Fri .


f i  frecuencia absoluta de un dato, suceso o valor.  Es el número de veces que se repite
un valor x i .  Número de individuos correspondiente a cada valor de la variable estadística.
n
N   f i  suma de todas las f i coincide con el tamaño de la población.  Es el tamaño del
i 1
colectivo o de la población o de la muestra. Total de individuos.  Número total de elementos de la
población o de la muestra.

Gema Isabel Marín Caballero Página 12 de 70


Tema 1: Estadística.

i
Fi   f j  frecuencia acumulada absoluta (o frecuencia absoluta acumulada) de un dato. 
j 1

Es la suma de la frecuencia absoluta de ese dato con las frecuencias absolutas de todos los anteriores.

fi
f ri   frecuencia relativa de un dato o suceso.  Es el cociente entre la frecuencia
N
absoluta y N.

fi
N
i
1  f
i
ri  1  suma de todas las f ri coincide con la unidad.  Representa la

unidad.  100 %.
i
Fi
Fri   f rj  Fri   frecuencia acumulada relativa (o frecuencia relativa acumulada)
j 1 N
de un dato.  Es la suma de la frecuencia relativa de ese dato con las frecuencias relativas de todos
los anteriores. O bien es el cociente entre la frecuencia acumulada absoluta de ese dato y N.

f ri  100 (%)  frecuencia porcentual de un dato.  Es la frecuencia relativa de ese dato


multiplicada por 100.

f
i
ri  100  100  suma de todas las f ri  100  Representa el 100 %.

2.5. CONSTRUCCIÓN DE UNA TABLA DE FRECUENCIAS ABSOLUTA Y RELATIVA

2.5.1. Con datos aislados


Ejemplo: En el curso de 2º ESO, los deportes favoritos de los alumnos/as son:

Deportes Fútbol Baloncesto Tenis Atletismo Balonmano


Frecuencia 10 14 8 12 6

Construye una tabla de frecuencias.

Frecuencia Frecuencia
Deportes Porcentaje
absoluta relativa
xi f ri  100 (%)
fi f ri
10
Fútbol 10  0,20 20 %
50
14
Baloncesto 14  0,28 28 %
50
8
Tenis 8  0,16 16 %
50
12
Atletismo 12  0,24 24 %
50
6
Balonmano 6  0,12 12 %
50
50
Total N = 50 1 100 %
50

Gema Isabel Marín Caballero Página 13 de 70


Tema 1: Estadística.

El deporte favorito es una variable cualitativa.

f 5  6 , f r 5  0,12 ,  6 alumnos/as o el 12 % de los alumnos/as tiene como deporte favorito


el balonmano.

Ejemplo: Construye una tabla de frecuencias con la talla de calzado de 20 personas.


43 42 41 39 41 38 40 43 44 40
39 39 38 41 40 39 38 39 39 40

Talla de Frecuencia Frecuencia


Porcentaje
calzado absoluta relativa
f ri  100 (%)
xi fi f ri
3
38 3  0,15 15 %
20
6
39 6  0,30 30 %
20
4
40 4  0,20 20 %
20
3
41 3  0,15 15 %
20
1
42 1  0,05 5%
20
2
43 2  0,10 10 %
20
1
44 1  0,05 5%
20
20
Total N = 20 1 100 %
20
La talla de calzado es una variable cuantitativa discreta.

f 3  4 , f r 3  0,20 ,  4 personas o el 20 % de las personas tiene un 40 de talla de


calzado.

2.5.2. Con datos agrupados en intervalos


Ejemplo: Obtén la tabla de las frecuencias de los pesos, en kg, de 20 alumnos/as.

36,5 46,2 41,6 55 42,2 49,2 36,5


59,2 46 47,9 52,2 55,9 36,6 45

39,1 38 42,8 50,3 52,4 38,7

Gema Isabel Marín Caballero Página 14 de 70


Tema 1: Estadística.

Marca Frecuencia Frecuencia


Porcentaje
Peso de clase absoluta relativa
Fri 100 (%)
xi fi f ri
6
[35, 40) 37,5 6  0,30 30 %
20
3
[40, 45) 42,5 3  0,15 45 %
20
5
[45, 50) 47,5 5  0,25 70 %
20
3
[50, 55) 52,5 3  0,15 85 %
20
3
[55, 60) 57,5 3  0,15 100 %
20
20
Total N = 20 1
20
El peso es una variable cuantitativa continua.

La amplitud de la clase o la amplitud del intervalo se calcula como:


Rango = 59,2 – 36,5 = 22,7
Número de intervalos = 5

Amplitud = 22,7 / 5 = 4,54  5

Podemos tomar 5 intervalos de amplitud 5.  amplitud = 5

[35, 40) , f1  6 , f r1  0,30 ,  6 alumnos/as o el 30 % de los alumnos/as pesan entre 35


y 40 kg.

2.6. CONSTRUCCIÓN DE UNA TABLA DE FRECUENCIAS ABSOLUTA Y RELATIVA ACUMULADAS


Las frecuencias acumuladas sólo se pueden calcular en variables cuantitativas (discretas o
continuas), ya que es necesario que los datos puedan ordenarse de menor a mayor; pero no en las
variables cualitativas porque es imposible ordenar de menor a mayor datos no numéricos.

En el caso de variables cualitativas no se pueden calcular las frecuencias acumuladas pues no es


posible establecer un orden en las clases dentro de la modalidad.

2.6.1. Con datos aislados


Ejemplo (continuación): Construye una tabla de frecuencias acumuladas con la talla de calzado
de 20 personas.

43 42 41 39 41 38 40 43 44 40
39 39 38 41 40 39 38 39 39 40

Gema Isabel Marín Caballero Página 15 de 70


Tema 1: Estadística.

Frecuencia Frecuencia
Talla de Frecuencia Frecuencia
absoluta relativa Porcentaje
calzado absoluta relativa
acumulada acumulada Fri 100 (%)
xi fi f ri
Fi Fri
3
38 3 3  0,15 0,15 15 %
20
6
39 6 9  0,30 0,45 45 %
20
4
40 4 13  0,20 0,65 65 %
20
3
41 3 16  0,15 0,80 80 %
20
1
42 1 17  0,05 0,85 85 %
20
2
43 2 19  0,10 0,95 95 %
20
1
44 1 20  0,05 1 100 %
20
20
Total N = 20 1
20
F4  16 , Fr 4  0,80 ,  16 personas o el 80 % de las personas tienen menos de un 41 de
talla de calzado.

2.6.2. Con datos agrupados en intervalos


Ejemplo (continuación): Obtén la tabla de las frecuencias acumuladas de los pesos, en kg, de 20
alumnos/as.
36,5 46,2 41,6 55 42,2 49,2 36,5

59,2 46 47,9 52,2 55,9 36,6 45


39,1 38 42,8 50,3 52,4 38,7

Frecuencia Frecuencia
Marca Frecuencia Frecuencia
absoluta relativa Porcentaje
Peso de clase absoluta relativa
acumulada acumulada Fri 100 (%)
xi fi f ri
Fi Fri
6
[35, 40) 37,5 6 6  0,30 0,30 30 %
20
3
[40, 45) 42,5 3 9  0,15 0,45 45 %
20
5
[45, 50) 47,5 5 14  0,25 0,70 70 %
20
3
[50, 55) 52,5 3 17  0,15 0,85 85 %
20
3
[55, 60) 57,5 3 20  0,15 1 100 %
20
20
Total N = 20 1
20

Gema Isabel Marín Caballero Página 16 de 70


Tema 1: Estadística.

El peso es una variable cuantitativa continua.

La amplitud de la clase o la amplitud del intervalo se calcula como:

Rango = 59,2 – 36,5 = 22,7

Número de intervalos = 5
Amplitud = 22,7 / 5 = 4,54  5
Podemos tomar 5 intervalos de amplitud 5.  amplitud = 5

[45, 50) , F3  5 , Fr 3  0,70 ,  14 alumnos/as o el 70 % de los alumnos/as pesan menos


de 50 kg.

3. GRÁFICOS ESTADÍSTICOS

3.1. UTILIDAD
Las gráficas estadísticas permiten visualizar la información contenida en las tablas de
frecuencias de manera rápida y sencilla.

Cada día en los telediarios o en los periódicos tienes ocasión de encontrar gráficas. Y es que por
medio de un gráfico puedes representar muchos datos y ofrecer una visión más global de todos ellos. A
continuación, vas a ver los más usuales.

3.2. TIPOS DE GRÁFICAS ESTADÍSTICAS


Existen muchos tipos de gráficas estadísticas. Unas se emplean con variables cuantitativas y
otras con variables cualitativas.

Pueden ser:

 Diagrama de barras.

 Histograma.
 Polígonos de frecuencias.

 Diagrama de sectores.

 Pictograma.

 Cartograma.
 Serie cronológica.

 Pirámide de población.

3.2.1. Diagrama de barras


El diagrama de barras se emplea para representar tablas de frecuencias de variables,
cualitativas o cuantitativas (discretas), que tomen pocos valores. Está formado por barras cuya altura
es proporcional a la frecuencia absoluta correspondiente.
En el eje horizontal, representamos los valores de la variable, y en el eje vertical, las
frecuencias absolutas.

Gema Isabel Marín Caballero Página 17 de 70


Tema 1: Estadística.

Ejemplo:

Ejemplo:

3.2.2. Histograma
El histograma se emplea para representar variables cuantitativas (continuas) que tomen muchos
valores. Está formado por rectángulos anchos que se adosan unos a otros.

Ejemplo:

Ejemplo:

Gema Isabel Marín Caballero Página 18 de 70


Tema 1: Estadística.

3.2.3. Polígono de frecuencias


El polígono de frecuencias es una línea poligonal que se construye uniendo los puntos medios de
los lados superiores de las barras o de los rectángulos en un diagrama de barras o en un histograma. Se
emplea para representar variables cualitativas o cuantitativas (discretas y continuas).
Ejemplo:

Ejemplo:

3.2.4. Diagrama de sectores


El diagrama de sectores se emplea para representar variables de cualquier tipo, cualitativas o
cuantitativas (discretas y continuas). La superficie total de un círculo se reparte en tantos sectores
circulares como modalidades (valores) tiene la variable, correspondiente a cada sector un número de
grados directamente.

Los datos se representan en un círculo, dividido en sectores. Cada sector representa un valor
de la variable. Y la amplitud de un sector, su ángulo, es proporcional a la frecuencia absoluta del dato
que representa o a la frecuencia relativa.

El ángulo del sector circular se obtiene aplicando la siguiente fórmula:

360 f
Ángulo del sector circular:  f i  360  i  f ri  360
N N
O aplicando la regla de 3 directa:
N  360 N 360 f  360
 ; x i  f ri  360
fi  x fi x N

En el diagrama de sectores, se escriben los valores de la variable y a veces el tanto por ciento
que representa.

Gema Isabel Marín Caballero Página 19 de 70


Tema 1: Estadística.

Ejemplo:

Ejemplo:

El gráfico que representa las notas obtenidas en un examen sobre Estadística que realizó un
grupo de 3º ESO.
Esta representación permite darse cuenta enseguida de muchas características de la
distribución de notas aunque no se conozcan exactamente los datos.

Aquí se ve que suspendieron menos de la mitad del curso. También que más de la mitad obtuvo
notas superiores a suficiente. Y que, exactamente, la cuarta parte fue puntuada con un bien.
Ejemplo:

Gema Isabel Marín Caballero Página 20 de 70


Tema 1: Estadística.

3.2.5. Pictograma
El pictograma es un gráfico en el que se emplean figuras cuyas dimensiones son proporcionales
al dato que representan, es decir, la imagen es proporcional a su frecuencia. La figura que se utiliza es
un dibujo relacionado con el tema. Se emplea para representar variables cualitativas o cuantitativas
(discretas y continuas).

Ejemplo:

En la figura ves que las longitudes de los lápices son proporcionales a las cantidades de dinero
que quieren representar.

3.2.6. Cartograma
El cartograma es un gráfico que se emplea cuando se realiza un estudio donde quieren
manifestarse las diferencias entre regiones geográficas. Representan variables geográficas,
económicas, demográficas, etc. Se trata de un mapa en el que por medio de colores o tramas se marcan
los distintos valores de una cierta característica. Se emplea para representar variables cualitativas o
cuantitativas (discretas y continuas).

Ejemplo:

Gema Isabel Marín Caballero Página 21 de 70


Tema 1: Estadística.

En este mapa se ha representado la renta familiar disponible en España.

Cada color indica un nivel de renta diferente. Con esta representación percibimos de forma muy
rápida multitud de informaciones, como:
 Andalucía y Murcia son las comunidades con menos ingresos por familia.
 Baleares presenta la mejor renta familiar del país.

Además, podemos plantearnos las siguientes preguntas:

 ¿Cuál es la renta familiar en Melilla?

 ¿Cuál es la diferencia de renta familiar entre el País Vasco y Cantabria?

 ¿Cuál es la renta media de tu comunidad?

3.2.7. Serie cronológica


La serie cronológica se emplea cuando se quiere destacar la evolución en el tiempo de cierto
dato, que suele llamarse series temporales. Permiten comparar los cambios de una variable a través del
tiempo. Se emplea para representar variables cualitativas o cuantitativas (discretas y continuas).

Ejemplo: El valor de un euro en dólares ha sufrido muchas variaciones desde que se implantó. Su
evolución durante 1999 puedes verla en el siguiente gráfico.

Observamos que su valor al comienzo del año estaba en torno alas 1,13 dólares, que fue bajando
durante el primer semestre hasta Julio, cuando se cambiaba por 1,02 dólares. Se recuperó durante los
meses de Agosto y Septiembre llegando a alcanzar el valor de 1,09 dólares. Pero el final del año fue
muy malo para nuestra moneda, el 13 de Diciembre tuvo el peor cambio del año: 1 euro por 1,0128
dólares.

3.2.8. Pirámide de población


La pirámide de población es muy utilizada en Economía, Geografía, Sociología, etc. Se emplea
para representar variables cualitativas o cuantitativas (discretas y continuas).

Gema Isabel Marín Caballero Página 22 de 70


Tema 1: Estadística.

Ejemplo: El concejal de cultura y deportes de un ayuntamiento presentó el siguiente gráfico


sobre las edades de los vecinos del pueblo que se hallaban inscritos en la Federación de Fútbol.

Observamos que, sin disponer de una excesiva cantidad de números, seríamos capaces de
describir muchas características de ese conjunto de personas. Así, interpretamos que la mayoría son
hombres, que el mayor número de federados se da entre los 10 y los 29 años, que es raro encontrar
personas con más de 40 años que tengan carnet de la Federación de Fútbol, etc.

3.2.9. Resumen de gráficas estadísticas


En la tabla siguiente, se presentan los tipos de gráficas estadísticas con las variables
estadísticas que se suelen usar.

Tipos de gráficas estadísticas Tipos de variables


Variables cualitativas.
Diagrama de barras
Variables cuantitativas discretas.
Histograma Variables cuantitativas continuas.
Variables cualitativas.
Polígonos de frecuencias
Variables cuantitativas discretas y continuas.
Variables cualitativas.
Diagrama de sectores
Variables cuantitativas discretas y continuas.
Variables cualitativas.
Pictograma
Variables cuantitativas discretas y continuas.
Variables cualitativas.
Cartograma
Variables cuantitativas discretas y continuas.
Variables cualitativas.
Serie cronológica
Variables cuantitativas discretas y continuas.
Variables cualitativas.
Pirámide de población
Variables cuantitativas discretas y continuas.

Gema Isabel Marín Caballero Página 23 de 70


Tema 1: Estadística.

3.3. EJEMPLOS DE GRÁFICAS ESTADÍSTICAS

Gema Isabel Marín Caballero Página 24 de 70


Tema 1: Estadística.

3.4. CONSTRUCCIÓN DE GRÁFICOS ESTADÍSTICOS CON DATOS AISLADOS


Ejemplo (continuación): Representa los datos mediante un diagrama de barras, un polígono de
frecuencias y un diagrama de sectores para los deportes favoritos de los alumnos/as.

Diagrama de barras

16
Frecuencia absoluta

14
12
10
8
6
4
2
0
Fútbol Baloncesto Tenis Atletismo Balonmano
Deportes

Diagrama de barras y Polígono de frecuencias

16
Frecuencias absolutas

14
12
10
8
6
4
2
0
Fútbol Baloncesto Tenis Atletismo Balonmano
Deportes

Diagrama de sectores

12%
20%

Fútbol
Baloncesto
24% Tenis
Atletismo
Balonmano
28%

16%

Gema Isabel Marín Caballero Página 25 de 70


Tema 1: Estadística.

Ejemplo (continuación): Representa los datos mediante un diagrama de barras, un polígono de


frecuencias y un diagrama de sectores para la talla de calzado de 20 personas.

Diagrama de barras

7
Frecuencia absoluta
6
5

3
2
1

0
38 39 40 41 42 43 44
Talla de calzado

Diagrama de barras y Polígono de frecuencias

6
Frecuencia absoluta

0
38 39 40 41 42 43 44
Talla de calzado

Diagrama de sectores

5%
10% 15%
38
5% 39
40
41
15%
42
30%
43
44
20%

Gema Isabel Marín Caballero Página 26 de 70


Tema 1: Estadística.

3.5. CONSTRUCCIÓN DE GRÁFICOS ESTADÍSTICOS CON DATOS AGRUPADOS EN INTERVALOS


Ejemplo (continuación): Representa los datos mediante un histograma, un polígono de
frecuencias y un diagrama de sectores para los pesos, en kg, de 20 alumnos/as.

Histograma

6
Frecuencia absoluta

0
[35, 40) [40, 45) [45, 50) [50, 55) [55, 60)
Peso (kg)

Histograma y Polígono de frecuencias

6
Frecuencia absoluta

0
[35, 40) [40, 45) [45, 50) [50, 55) [55, 60)
Peso (kg)

Diagrama de sectores

15%

30%
[35, 40)
[40, 45)
15%
[45, 50)
[50, 55)
[55, 60)
15%
25%

Gema Isabel Marín Caballero Página 27 de 70


Tema 1: Estadística.

4. PARÁMETROS ESTADÍSTICOS

4.1. UTILIDAD
Las variables cuantitativas se pueden resumir mediante las medidas estadísticas o parámetros
estadísticos.
Las medidas estadísticas o parámetros estadísticos son un conjunto de números que resumen
las características más importantes de los individuos de una población.

Por tanto, los parámetros estadísticos son números que resumen datos.

4.2. TIPOS DE PARÁMETROS ESTADÍSTICOS


Pueden ser de tres tipos:
 Medidas de centralización.

 Medidas de posición.
 Medidas de dispersión.

4.2.1. Medidas de centralización

4.2.1.1. Utilidad
Las medidas de centralización nos permiten conocer el valor alrededor del cual se agrupan
todos los datos. Se utilizan para resumir la información de la muestra.

4.2.1.2. Tipos
Las más utilizadas son la media aritmética, la mediana y la moda.

 Media aritmética: es el cociente de la suma de todos los valores y el número de datos. Es la


suma de todos los datos divididos por el número total de datos. Se denota por x.
Cuando el número de datos es grande, la media aritmética se obtiene a partir de la
tabla de frecuencias absolutas y se calcula como:
n n

x  f  ......  xn  f n  xi  f i x i  fi
x 1 1  i 1
 i 1

f1  ......  f n n

f
N
i
i 1

La media de una distribución representa el centro de gravedad de los datos.


Esta medida es única y puede no coincidir con ninguno de los datos de estudio. Sólo se
puede calcular para variables cuantitativas (discretas y continuas).

En las variables cuantitativas continuas, tomamos como valor xi la marca de clase de


cada intervalo.

 Mediana: es el valor xi de la variable que ocupa el lugar central cuando se ordenan los datos. Es
el valor que ocupa la posición central una vez ordenados los datos, de menor a mayor. Se denota
por Me.

Para calcular la mediana, ordenamos los datos de menor a mayor.

Gema Isabel Marín Caballero Página 28 de 70


Tema 1: Estadística.

Si el número de datos es impar, la mediana es el valor que ocupa el lugar central.

Me  xc1 donde “c” es el cociente entero que resulta al dividir N entre 2,


N
c , y “c+1” es el valor de la variable que ocupa el lugar “c+1”.
2
Y si el número de datos es par, la mediana es el promedio de los dos valores centrales.

xc  xc 1
Me 
2
Otra forma de calcular, es observando la frecuencia absoluta acumulada Fi . Para ello,
tomamos aquel valor de la variable xi cuyo primer valor de la variable Fi sea mayor o igual que
N
. En resumen,
2
N
Buscamos la primera Fi  que es Fi  nº  Me  xi
2
Esta medida es única y puede no coincidir con ninguno de los datos de estudio. Sólo se
puede calcular para variables cuantitativas (discretas y continuas).

En las variables cuantitativas continuas, tomamos como valor xi la clase mediana o


intervalo mediana, que corresponde al intervalo que contiene al valor central si N es impar y a
los dos valores centrales si N es par. Luego, el valor aproximado de la clase mediana será la
marca de clase del intervalo, Me  xi  [ Li , Li 1 ) . Para calcular el valor exacto, usamos la
fórmula siguiente:
N
 Fi 1
Me  Li  c  2
fi
Donde Li es el límite inferior de la clase mediana, “c” es la amplitud de los intervalos,
c  Li 1  Li , “N” es el número total de datos, Fi 1 es la frecuencia absoluta acumulada de la
clase anterior a la clase mediana y f i es la frecuencia absoluta de la clase mediana.

 Moda: es el valor xi de mayor frecuencia absoluta. Es el valor de la variable con más


frecuencia, es decir, el valor xi más repetido. Un conjunto de datos puede tener una moda (se
llama unimodal) o más de una. Se denota por Mo. En resumen,

Buscamos la f i mayor  Mo  xi
Cuando existen 2 valores con máxima frecuencia absoluta, se llama bimodal; con 3
valores, se llama trimodal, etc. Así cuando existen varias modas, se llama multimodal.
Esta medida puede no ser única y coincide siempre con alguno de los datos de estudio.
Se puede calcular para variables de cualquier tipo, cualitativas o cuantitativas (discretas y
continuas).

En un diagrama de barras, la moda es el dato correspondiente a la barra de mayor


altura.
Y en un diagrama de sectores, la moda es el dato correspondiente al sector de mayor
amplitud.

Gema Isabel Marín Caballero Página 29 de 70


Tema 1: Estadística.

En las variables cuantitativas continuas, tomamos como valor xi la clase modal o


intervalo modal, que corresponde al intervalo de mayor frecuencia absoluta. Luego, el valor
aproximado de la clase modal será la marca de clase del intervalo, Mo  xi  [ Li , Li 1 ) . Para
calcular el valor exacto, usamos la fórmula siguiente:

D1
Mo  Li  c 
D1  D2
Donde Li es el límite inferior de la clase mediana, “c” es la amplitud de los intervalos,
c  Li 1  Li , D1 es la diferencia entre la frecuencia absoluta de la clase modal f i y la de la
clase anterior f i 1 , D1  f i  f i 1 , y D2 es la diferencia entre la frecuencia absoluta de la
clase modal f i y la de la clase siguiente f i 1 , D2  f i  f i 1 .

4.2.1.3. Con datos aislados


A continuación, presentamos varios ejemplos para variables cuantitativas discretas.
Ejemplo (continuación). Datos pares: Calcula las medidas de centralización para la talla de
calzado de 20 personas.

Frecuencia
Talla de Frecuencia
absoluta
calzado absoluta
acumulada
xi  f i
xi fi
Fi
38 3 3 114
39 6 9 234
40 4 13 160
41 3 16 123
42 1 17 42
43 2 19 86
44 1 20 44
Total N = 20   803
803
Media aritmética: x  40,15
20
Con este dato podemos deducir que la talla de calzado “normal” perteneciente a este
grupo de personas es 40.

Mediana: Hay dos formas:


1) Ordenamos los datos de menor a mayor.
38 38 38 39 39 39 39 39 39 40 40 40 40 41 41 41 42 43 43 44

N 20
  10
2 2
Como N = 20 es par, cogemos los dos valores centrales 40 y 40 y calculamos la media de
40  40 80
estos dos:   40 .
2 2

Gema Isabel Marín Caballero Página 30 de 70


Tema 1: Estadística.

2) Buscamos en la frecuencia absoluta acumulada el valor inmediatamente superior a


N 20
  10 . Por lo que es F3  13 , que se corresponde con la talla de calzado 40.
2 2
Me = 40 porque la talla de calzado es 40, que es el valor central.

Con este dato podemos deducir que el valor central para la talla de calzado
perteneciente a este grupo de personas es 40.

Moda: Mo = 39 porque la frecuencia absoluta mayor es f 2  6 (es el valor que más se repite).
Con este dato podemos deducir que la talla de calzado más usada por este grupo de
personas es 39.

Ejemplo. Datos impares: Calcula las medidas de centralización para el número de hermanos/as
de 7 personas.

1 3 2 4 3 2 3

Frecuencia
Nº de Frecuencia
absoluta
hermanos/as absoluta
acumulada
xi  f i
xi fi
Fi
1 1 1 1
2 2 3 4
3 3 6 9
4 1 7 4
Total N = 7   18
18
Media aritmética: x  2,57
7
Con este dato podemos deducir que el número de hermanos “normal” perteneciente a
este grupo de personas es 3.

Mediana: Hay dos formas:

1) Ordenamos los datos de menor a mayor.


1 2 2 3 3 3 4

N 7
  3,5
2 2
Como N = 7 es impar, cogemos el valor central 3.

2) Buscamos en la frecuencia absoluta acumulada el valor inmediatamente superior a


N 7
  3,5 . Por lo que es F3  6 , que se corresponde con el número de hermanos 3.
2 2
Me = 3 porque el número de hermanos es 3, que es el valor central.
Con este dato podemos deducir que el valor central para el número de hermanos
perteneciente a este grupo de personas es 3.

Gema Isabel Marín Caballero Página 31 de 70


Tema 1: Estadística.

Moda: Mo = 3 porque la frecuencia absoluta mayor es f 3  3 (es el valor que más se repite).
Con este dato podemos deducir que el número de hermanos más usado por este grupo de
personas es 3.

Ejemplo. Datos pares: La siguiente tabla resume los resultados obtenidos en una encuesta
realizada entre 10 parejas a las que se les preguntaba sobre el número de hijos que tenían. Calcula las
medidas de centralización e interprétalas.

Frecuencia
Nº de Frecuencia
absoluta
hijos/as absoluta
acumulada
xi  f i
xi fi
Fi
0 2 2 0
1 4 6 4
2 3 9 6
3 1 10 3
Total N = 10   13
13
Media aritmética: x  1,3
10
Con este dato podemos deducir que por término medio las parejas tienen entre 1 y 2
hijos/as.

Mediana: Hay dos formas:

1) Ordenamos los datos de menor a mayor.

0 0 1 1 1 1 2 2 2 3

N 10
 5
2 2
Como N = 10 es par, cogemos los dos valores centrales 1 y 1 y calculamos la media de
11 2
estos dos:   1.
2 2

2) Buscamos en la frecuencia absoluta acumulada el valor inmediatamente superior a


N 10
  5 . Por lo que es F2  6 , que se corresponde con el número de hijos/as 1.
2 2
Me = 1 porque el número de hijos/as es 1, que es el valor central.
Con este dato podemos deducir que el valor central para el número de hijos/as
perteneciente a este grupo de personas es 1. Esto es, la mediana indica que hay tantas parejas
que tienen 1 ó más hijos/as como parejas que tienen 1 hijo/a o menos.

Moda: Mo = 1 porque la frecuencia absoluta mayor es f 2  4 (es el valor que más se repite).
Con este dato podemos deducir que lo más frecuente es tener 1 hijo.

Gema Isabel Marín Caballero Página 32 de 70


Tema 1: Estadística.

Ejemplo. Datos pares: Calcula las medidas de centralización para las notas de Alberto a lo
largo de una evaluación que han sido:

3 4 6 5 6 7 5 6 8 5

Frecuencia
Frecuencia
Notas absoluta
absoluta
acumulada
xi  f i
xi
fi
Fi
3 1 1 3
4 1 2 4
5 3 5 15
6 3 8 18
7 1 9 7
8 1 10 8
Total N = 10   55
55
Media aritmética: x  5,5
10
Con este dato podemos deducir que por término medio las notas están entre 5 y 6.

Mediana: Hay dos formas:

1) Ordenamos los datos de menor a mayor.


3 4 5 5 5 6 6 6 7 8

N 10
 5
2 2
Como N = 10 es par, cogemos los dos valores centrales 5 y 6 y calculamos la media de
5  6 11
estos dos:   5,5 .
2 2
Me = 5,5 que es el valor central exacto.

2) Buscamos en la frecuencia absoluta acumulada el valor inmediatamente superior a


N 10
  5 . Por lo que es F3  5 , que se corresponde con la nota 5.
2 2
Me = 5 porque la nota es 5, que es el valor central.
Con este dato podemos deducir que el valor central para la nota perteneciente a este
persona es 5.

Moda: Mo = 5 y Mo = 6 (bimodal) porque la frecuencia absoluta mayor es f 3  f 4  3 (es el


valor que más se repite).
Con este dato podemos deducir que lo más frecuente es tener 5 ó 6 de nota.
Poner en los ejemplos la tercera forma para calcular los parámetros estadísticos con la Fri · 100 %. A
partir de la gráfica obtener la tabla de frecuencias.

Gema Isabel Marín Caballero Página 33 de 70


Tema 1: Estadística.

4.2.1.4. Con datos agrupados en intervalos


A continuación, presentamos varios ejemplos para variables cuantitativas continuas.
Ejemplo (continuación). Datos pares: Calcula las medidas de centralización para los pesos, en
kg, de 20 alumnos/as.

Frecuencia
Marca Frecuencia
absoluta
Peso de clase absoluta
acumulada
xi  f i
xi fi
Fi
[35, 40) 37,5 6 6 225
[40, 45) 42,5 3 9 127,5
[45, 50) 47,5 5 14 237,5
[50, 55) 52,5 3 17 157,5
[55, 60) 57,5 3 20 172,5
Total N = 20   920
920
Media aritmética: x  46
20
Con este dato podemos deducir que el peso “normal” perteneciente a este grupo de
alumnos/as es 46 kg.

Mediana: Hay dos formas:

1) Ordenamos los datos de menor a mayor.

36,5 36,5 36,6 38 38,7 39,1 41,6 42,2 42,8 45


46 46,2 47,9 49,2 50,3 52,2 52,4 55 55,9 59,2

N 20
  10
2 2
Como N = 20 es par, cogemos los dos valores centrales 45 y 46 y calculamos la media de
45  46 91
estos dos:   45,5
2 2

2) Buscamos en la frecuencia absoluta acumulada el valor inmediatamente superior a


N 20
  10 . Por lo que es F3  14 , que se corresponde con el peso entre 45 y 50 kg.
2 2
Me = [45, 50)
Luego, el valor aproximado de la clase mediana es Me = 47,5.

Para calcular el valor exacto, usamos la fórmula siguiente:

10  9
Me  45  5   45  1  46
5
Con este dato podemos deducir que el valor central para el peso perteneciente a este
grupo de alumnos/as es 46 kg.

Gema Isabel Marín Caballero Página 34 de 70


Tema 1: Estadística.

Moda: Mo = [45, 50) porque la frecuencia absoluta mayor es f 3  5 (es el valor que más se
repite).

Con este dato podemos deducir que el peso más usado por este grupo de alumnos/as
está entre 45 y 50 kg.

Luego, el valor aproximado de la clase modal es Mo = 47,5.


Para calcular el valor exacto, usamos la fórmula siguiente:

53 2 5 90
Mo  45  5   45  5   45    45
5  3  5  3 4 2 2

Ejemplo. Datos pares: El número de trabajadores de 30 empresas se distribuye según la tabla.


Calcula las medidas de centralización.

Frecuencia
Nº de Marca Frecuencia
absoluta
trabajadores de clase absoluta
acumulada
xi  f i
xi xi fi
Fi
[10, 20) 15 3 3 45
[20, 30) 25 8 11 200
[30, 40) 35 12 23 420
[40, 50) 45 7 30 315
Total N = 30 965

980
Media aritmética: x  32,67
30
Con este dato podemos deducir que por término medio el número de trabajadores está
entre 32 y 33.

Mediana: Hay dos formas:

1) Ordenamos los datos de menor a mayor.

15 15 15 25 25 25 25 25 25 25 25 35 35 35 35

35 35 35 35 35 35 35 35 45 45 45 45 45 45 45

N 30
  15
2 2
Como N = 30 es par, cogemos los dos valores centrales 35 y 35 y calculamos la media de
35  35 70
estos dos:   35
2 2

2) Buscamos en la frecuencia absoluta acumulada el valor inmediatamente superior a


N 30
  15 . Por lo que es F3  23 , que se corresponde con el peso entre 30 y 40.
2 2
Me = [30, 40)
Luego, el valor aproximado de la clase mediana es Me = 35.

Para calcular el valor exacto, usamos la fórmula siguiente:

Gema Isabel Marín Caballero Página 35 de 70


Tema 1: Estadística.

15  11 4 40 400
Me  30  10   30  10   30    33,3
12 12 12 12
Con este dato podemos deducir que el valor central para el número de trabajadores es
33,3.

Moda: Mo = [30, 40) porque la frecuencia absoluta mayor es f 3  12 (es el valor que más se
repite).

Con este dato podemos deducir que el número de trabajadores más usado está entre 30
y 40.

Luego, el valor aproximado de la clase modal es Mo = 35.

Para calcular el valor exacto, usamos la fórmula siguiente:

12  8 4 40 310
Mo  30  10   30  10   30    34,4
12  8  12  7 9 9 9

4.2.1.5. Resumen de medidas de centralización


En la tabla siguiente, se presentan los tipos de medidas de centralización con las variables
estadísticas que se suelen usar.

Tipos de medidas de centralización Tipos de variables


Media aritmética Variables cuantitativas discretas y continuas.
Mediana Variables cuantitativas discretas y continuas.
Variables cualitativas.
Moda
Variables cuantitativas discretas y continuas.

En la tabla siguiente, se presenta un resumen de los tipos de medidas de centralización.

Tipos Cómo se calcula Variables cuantitativas continuas


n

Media aritmética
x i  fi
xi  marca de clase de cada intervalo.
x i 1

N
Me  xi  [ Li , Li 1 )  clase mediana o
intervalo mediana.
1) Ordenamos los datos de menor Valor aproximado  Me  xi marca de
a mayor. clase del intervalo.
Si N es impar  Me  xc 1 N
 Fi 1
xc  xc 1 Valor exacto  Me  Li  c  2
Si N es par  Me 
2 fi
Mediana
N Donde:
Donde: c
2 Li  límite inferior.
N c  amplitud de los intervalos.
2) Buscamos la primera Fi 
2 c  Li 1  Li
que es Fi  nº  Me  xi Fi 1  frecuencia absoluta acumulada de
la clase anterior.
f i  frecuencia absoluta.
Mo  xi  [ Li , Li 1 )  clase modal o
Moda Buscamos la f i mayor  Mo  xi
intervalo modal.

Gema Isabel Marín Caballero Página 36 de 70


Tema 1: Estadística.

Valor aproximado  Mo  xi marca de


clase del intervalo.
Valor exacto 
f i  f i 1
Mo  Li  c 
 f i  f i 1    f i  f i 1 
Donde:
Li  límite inferior.
c  amplitud de los intervalos.
c  Li 1  Li

4.2.2. Medidas de posición

4.2.2.1. Utilidad
Las medidas de posición dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.

Las medidas de posición son valores de la variable que informan del lugar que ocupa un dato
dentro del conjunto ordenado de valores.

Sólo se puede calcular para variables cuantitativas (discretas y continuas).

4.2.2.2. Tipos
Las más utilizadas son los cuartiles, los deciles y los percentiles.

 Cuartiles: son tres valores Q1, Q2 y Q3 de la variable estadística que dividen a los individuos de
la población en 4 partes iguales, es decir, en cada tramo está el 25 % de los datos recogidos en
el estudio. Los cuartiles son los puntos de separación.

25 % 25 % 25 % 25 %

Q1 Q2 Q3

N k
Qk : k  N  con k = 1, 2, 3
4 4
N
Buscamos la primera Fi   k que es Fi  nº  Qk  xi
4
- Primer cuartil Q1: es el valor de la variable que deja la cuarta parte de las observaciones
menores o iguales a él y las tres cuartas partes superiores a él . Es decir, deja por debajo
de él al 25 % de la población y por encima al 75 %. Es el dato que es mayor que el 25 % de
los datos.

1 N
Q1 : 25%  N  0,25  N   N  Q1 :  1
4 4
N
Buscamos la primera Fi   1 que es Fi  nº  Q1  xi
4

Gema Isabel Marín Caballero Página 37 de 70


Tema 1: Estadística.

- Segundo cuartil Q2: es el valor de la variable que deja las dos cuartas partes inferiores o
iguales a él, es decir, la mitad de las observaciones. Es decir, deja por debajo de él al 50 %
de la población y por encima al 50 %. Es el dato que es mayor que el 50 % de los datos. Este
cuartil coincide con la mediana.

1 N
Q2 : 50%  N  0,50  N   N  Q2 :  2
2 4
N
Buscamos la primera Fi   2 que es Fi  nº  Q2  xi
4
- Tercer cuartil Q3: es el valor de la variable que deja las tres cuartas partes de las
observaciones inferiores o iguales a él y la cuarta parte de éstas superior a él . Es decir,
deja por debajo de él al 75 % de la población y por encima al 25 %. Es el dato que es mayor
que el 75 % de los datos.

3 N
Q3 : 75%  N  0,75  N   N  Q3 :  3
4 4
N
Buscamos la primera Fi   3 que es Fi  nº  Q3  xi
4
- Recorrido intercuartílico RIQ: es la diferencia entre el tercer y el primer cuartil de una
distribución.

RIQ  Q3  Q1

Así pues,

Q1  25 % Q2 = Me  50 % Q3  75 %

 Deciles: son 9 valores de la variable estadística que dividen a los individuos de la población en
10 partes iguales, es decir, en cada tramo está el 10 % de los datos recogidos en el estudio. Los
deciles son los puntos de separación.
Decil k (Dk) es el valor de la variable estadística que deja k·10 observaciones por debajo.

10 % 10 % 10 % 10 % 10 % 10 % 10 % 10 % 10 % 10 %

D1 D2 D3 D4 D5 D6 D7 D8 D9

N k
Dk : k   N con k = 1, 2, 3, …, 9
10 10
N
Buscamos la primera Fi   k que es Fi  nº  Dk  xi
10
Así pues, la relación entre los cuartiles y los deciles es:
D1  10 % D2  20 % D5 = Q2 = Me  50 % ……… D9  90 %

Gema Isabel Marín Caballero Página 38 de 70


Tema 1: Estadística.

 Percentiles: son 99 valores de la variable estadística que dividen a los individuos de la población
en 100 partes iguales, es decir, en cada tramo está el 1 % de los datos recogidos en el estudio.
Los percentiles son los puntos de separación.

Percentil k (Pk) es el valor de la variable estadística que deja k observaciones por debajo .
También se denomina centil k.

1% 1% 1%

P1 P2 P30 P50 P80 P90 P99

k N
Pk : k %  N  N  k con k = 1, 2, 3, …, 99
100 100
N
Buscamos la primera Fi   k que es Fi  nº  Pk  xi
100
Los percentiles más usados son:

- Percentil 15 (P15) deja por debajo al 15 % de las observaciones y por encima al 85 %.

15 N
P15 : 15%  N  0,15  N   N  P15 :  15
100 100
N
Buscamos la primera Fi   15 que es Fi  nº  P15  xi
100
- Percentil 50 (P50) es la mediana y el segundo cuartil Q2, que deja por debajo al 50 % de las
observaciones y por encima al 50 %.

- Percentil 25 (P25) es el primer cuartil Q1, que deja por debajo al 25 % de las observaciones
y por encima al 75 %.
- Percentil 75 (P75) es el tercer cuartil Q3, que deja por debajo al 75 % de las observaciones
y por encima al 25 %.

4.2.2.3. Relación
La relación entre los cuartiles, los deciles y los percentiles es:

P1  1 %
D1 = P10  10 %
Q1 = P25  25 % P2  2 %
D2 = P20  20 %
Q2 = D5 = P50 = Me  50 % P30  30 %
………
Q3 = P75  75 % ………
D9 = P90  90 %
P99  99 %

Gema Isabel Marín Caballero Página 39 de 70


Tema 1: Estadística.

NOTA:

Cuando se calculan los cuartiles, percentiles y deciles, hay que tener en cuenta si el número de
datos es impar o par.

Si el número de datos es impar, el cuartil, percentil y decil es el valor que ocupa el lugar k%·N.

Q1, 2,3  xc1 , P1, 2,3,...,99  xc1 , D10, 20,30,...,90  xc 1 donde “c” el cociente entero que
resulta al dividir N entre 4, 10 y 100 para cuartiles, deciles y percentiles respectivamente, y “c+1” es el
valor de la variable que ocupa el lugar “c+1”.

Y si el número de datos es par, el cuartil, percentil y decil es el promedio de los dos valores
centrales.

xc  xc 1 x  xc 1 x  xc 1
Q1, 2,3  , P1, 2,3,...,99  c , D1, 2,3,...,9  c
2 2 2

Hay dos formas para calcular los cuartiles, los deciles y los percentiles:

1) Se construye la tabla de frecuencias absolutas acumuladas, pues se necesita la columna


de la frecuencia absoluta acumulada Fi .
Tomamos aquel valor de la variable xi cuyo primer valor de la variable Fi sea mayor o
igual que el cuartil, el decil o el percentil pedido.

Buscamos la primera Fi  k %  N que es Fi  nº  Q1, 2 , 3  D1, 2, 3,..., 9  Pk  xi

2) Se construye la tabla de frecuencias absolutas y relativas acumuladas, pues se necesita


la columna de la frecuencia relativa acumulada porcentual Fri (%).

Tomamos aquel valor de la variable xi cuyo primer valor de la variable Fri sea mayor o
igual que el porcentaje del cuartil, decil o percentil pedido.

Buscamos la primera Fri  k % que es Fri  nº  Q1, 2, 3  D1, 2 , 3,..., 9  Pk  xi

4.2.2.4. Con datos aislados


A continuación, presentamos varios ejemplos para variables cuantitativas discretas.

Ejemplo. Datos pares: Para comprar zapatillas a los miembros de una peña de bolos, se les ha
preguntado por la talla de calzado que usan y los resultados se presentan en esta tabla. Calcula las
medidas de posición.

Gema Isabel Marín Caballero Página 40 de 70


Tema 1: Estadística.

Frecuencia Frecuencia
Talla de Frecuencia Frecuencia
absoluta relativa Porcentaje
calzado absoluta relativa
acumulada acumulada Fri 100 (%)
xi fi f ri
Fi Fri
7
35 7 7  0,035 0,035 3,5 %
200
13
36 13 20  0,065 0,10 10 %
200
20
37 20 40  0,10 0,20 20 %
200
37
38 37 77  0,185 0,385 38,5 %
200
42
39 42 119  0,21 0,595 59,5 %
200
50
40 50 169  0,25 0,845 84,5 %
200
23
41 23 192  0,115 0,96 96 %
200
8
42 8 200  0,04 1 100 %
200
Total N = 200 1

Cuartiles:

Para calcular el primer cuartil Q1 , tendremos que calcular el 25 % del número total de
datos, 200  200 · 0,25 = 50

Luego, Q1 tiene 50 datos por debajo y el resto por encima. En la columna de frecuencias
absolutas acumuladas, el primer número mayor o igual que 50 es 77, que corresponde al dato 38.
Por tanto, Q1 = 38. Es decir, la cuarta parte de los miembros de la peña utilizan una talla de
calzado menor o igual que 38.

1 200
Q1 : 25%  200  0,25  200   200  Q1 :  1  Q1 : 50
4 4
Buscamos la primera Fi  50 que es F4  77  Q1  x4  Q1  38

El segundo cuartil Q2 , tiene el 50 % de los datos por debajo y el 50 % por encima. Es


decir, coincide con la mediana. Tendremos que calcular el 50 % del número total de datos, 200
 200 · 0,50 = 100

Como el primer número mayor o igual que 100 en las frecuencias absolutas acumuladas es
119, entonces Q2 = 39. Es decir, la mitad de los miembros de la peña utilizan una talla de
calzado menor o igual que 39.

1 200
Q2 : 50%  200  0,50  200   200  Q2 :  2  Q2 : 100
2 4
Buscamos la primera Fi  100 que es F5  119  Q2  x5  Q2  39

Gema Isabel Marín Caballero Página 41 de 70


Tema 1: Estadística.

Y el tercer cuartil Q3 , tiene el 75 % de los datos por debajo y el 25 % por encima,


tendremos que calcular el 75 % del número total de datos, 200  200 · 0,75 = 150

Como el primer número mayor o igual que 150 en las frecuencias absolutas acumuladas es
169, entonces Q3 = 40. Es decir, las tres cuartas partes de los miembros de la peña utilizan una
talla de calzado menor o igual que 40.

3 200
Q3 : 75%  200  0,75  200   200  Q3 :  3  Q3 : 150
4 4
Buscamos la primera Fi  150 que es F6  169  Q3  x6  Q3  40

Deciles:

Para calcular el decil D1 , tendremos que calcular el 10 % del número total de datos, 200
 200 · 0,10 = 20
Luego, D1 tiene 20 datos por debajo y el resto por encima. En la columna de frecuencias
absolutas acumuladas, el primer número mayor o igual que 20 es 20, que corresponde al dato 36.
Por tanto, D1 = 36. Es decir, la décima parte de los miembros de la peña utilizan una talla de
calzado menor o igual que 36.

1 200
D1 : 10%  200   200  D1 :  1  D1 : 20
10 10
Buscamos la primera Fi  20 que es F2  20  D1  x2  D1  36

Percentiles:

Para calcular los percentiles, se haría lo mismo:


P15 tiene el 15 % de los datos por debajo y el 85 % por encima, tendremos que
calcular el 15 % del número total de datos, 200  200 · 0,15 = 30

Luego, P15 tiene 30 datos por debajo y el resto por encima. En la columna de
frecuencias absolutas acumuladas, el primer número mayor o igual que 30 es 40, que
corresponde al dato 37. Por tanto, P15 = 37. Es decir, el 15 % de los miembros de la peña
utilizan una talla de calzado menor o igual que 37.

15 200
P15 : 15%  200  0,15  200   200  P15 :  15  P15 : 30
100 100
Buscamos la primera Fi  30 que es F3  40  P15  x3  P15  37

Otra forma de calcular es observando la frecuencia relativa acumulada porcentual Fri (%).
Primer cuartil Q1

Buscamos la primera Fri  25% que es Fr 4  38,5%  Q1  x4  Q1  38


Segundo cuartil Q2

Buscamos la primera Fri  50% que es Fr 5  59,5%  Q2  x5  Q2  39


Tercer cuartil Q3

Buscamos la primera Fri  75% que es Fr 6  84,5%  Q3  x6  Q3  40

Gema Isabel Marín Caballero Página 42 de 70


Tema 1: Estadística.

Decil D1

Buscamos la primera Fri  10% que es Fr 2  10%  D1  x2  D1  36


Percentil P15

Buscamos la primera Fri  15% que es Fr 3  20%  P15  x3  P15  37

En resumen,
D1 = 36
P15 = 37

P25 = Q1 = 38
P50 = D5 = Q2 = Me = 39

P75 = Q3= 40

Ejemplo (continuación). Datos pares: Calcula las medidas de posición para las notas de Alberto
a lo largo de una evaluación que han sido:
3 4 6 5 6 7 5 6 8 5

Frecuencia Frecuencia
Frecuencia Frecuencia
Notas absoluta relativa Porcentaje
absoluta relativa
xi acumulada acumulada Fri 100 (%)
fi f ri
Fi Fri
1
3 1 1  0,1 0,1 10 %
10
1
4 1 2  0,1 0,2 20 %
10
3
5 3 5  0,3 0,5 50 %
10
3
6 3 8  0,3 0,8 80 %
10
1
7 1 9  0,1 0,9 90 %
10
1
8 1 10  0,1 1 100 %
10
Total N = 10 1

Cuartiles:

1 10
Primer cuartil Q1 : 25%  10  0,25  10   10  Q1 :  1  Q1 : 2,5
4 4
Buscamos la primera Fi  2,5 que es F3  5  Q1  x3  Q1  5
1 10
Segundo cuartil Q2 : 50%  10  0,50  10   10  Q2 :  2  Q2 : 5
2 4
Buscamos la primera Fi  5 que es F3  5  Q2  x3  Q2  5

Gema Isabel Marín Caballero Página 43 de 70


Tema 1: Estadística.

3 10
Tercer cuartil Q3 : 75%  10  0,75  10   10  Q3 :  3  Q3 : 7,5
4 4
Buscamos la primera Fi  7,5 que es F4  8  Q3  x4  Q3  6
Deciles:

1 10
Decil D1 : 10%  10   10  D1 :  1  D1 : 1
10 10
Buscamos la primera Fi  1 que es F1  1  D1  x1  D1  3
Percentiles:

15 10
Percentil P15 : 15%  10  0,15  10   10  P15 :  15  P15 : 1,5
100 100
Buscamos la primera Fi  1,5 que es F2  2  P15  x2  P15  4

Otra forma de calcular es observando la frecuencia relativa acumulada porcentual Fri (%).
Primer cuartil Q1

Buscamos la primera Fri  25% que es Fr 3  50%  Q1  x3  Q1  5


Segundo cuartil Q2

Buscamos la primera Fri  50% que es Fr 3  50%  Q2  x3  Q2  5


Tercer cuartil Q3

Buscamos la primera Fri  75% que es Fr 4  80%  Q3  x4  Q3  6


Decil D1

Buscamos la primera Fri  10% que es Fr1  10%  D1  x1  D1  3


Percentil P15

Buscamos la primera Fri  15% que es Fr 2  20%  P15  x2  P15  4

En resumen,

D1 = 3
P15 = 4
P25 = Q1 = 5

P50 = D5 = Q2 = Me = 5
P75 = Q3= 6

Otra forma de calcular es ordenando los datos de menor a mayor.

3 4 5 5 5 6 6 6 7 8

D1 P15 Q1 Q2 Q3

Gema Isabel Marín Caballero Página 44 de 70


Tema 1: Estadística.

Primer cuartil Q1 : 2,5  3  Q1  5


5  6 11
Segundo cuartil Q2 : 5 y 6  Q2    5,5 Valor exacto
2 2
Tercer cuartil Q3 : 7,5  8  Q3  6
Decil D1 : 1  D1  3
Percentil P15 : 1,5  P15  4

Ejemplo (continuación). Datos impares: Calcula las medidas de posición para el número de
hermanos/as de 7 personas.

1 3 2 4 3 2 3

Frecuencia Frecuencia
Nº de Frecuencia Frecuencia
absoluta relativa Porcentaje
hermanos/as absoluta relativa
acumulada acumulada Fri 100 (%)
xi fi f ri
Fi Fri
1
1 1 1  0,14 0,14 14 %
7
2
2 2 3  0,29 0,43 43 %
7
3
3 3 6  0,43 0,86 86 %
7
1
4 1 7  0,14 1 100 %
7
Total N = 7 1

Cuartiles:

1 7
Primer cuartil Q1 : 25%  7  0,25  7   7  Q1 :  1  Q1 : 1,75
4 4
Buscamos la primera Fi  1,75 que es F2  3  Q1  x2  Q1  2
1 7
Segundo cuartil Q2 : 50%  7  0,50  7   7  Q2 :  2  Q2 : 3,5
2 4
Buscamos la primera Fi  3,5 que es F3  6  Q2  x3  Q2  3
3 7
Tercer cuartil Q3 : 75%  7  0,75  7   7  Q3 :  3  Q3 : 5,25
4 4
Buscamos la primera Fi  5,25 que es F3  6  Q3  x3  Q3  3
Deciles:

1 7
Decil D1 : 10%  7   7  D1 :  1  D1 : 0,7
10 10
Buscamos la primera Fi  0,7 que es F1  1  D1  x1  D1  1

Gema Isabel Marín Caballero Página 45 de 70


Tema 1: Estadística.

Percentiles:

15 7
Percentil P15 : 15%  7  0,15  7   7  P15 :  15  P15 : 1,05
100 100
Buscamos la primera Fi  1,05 que es F2  3  P15  x2  P15  2

Otra forma de calcular es observando la frecuencia relativa acumulada porcentual Fri (%).
Primer cuartil Q1

Buscamos la primera Fri  25% que es Fr 2  43%  Q1  x2  Q1  2


Segundo cuartil Q2

Buscamos la primera Fri  50% que es Fr 3  86%  Q2  x3  Q2  3


Tercer cuartil Q3

Buscamos la primera Fri  75% que es Fr 3  86%  Q3  x3  Q3  3


Decil D1

Buscamos la primera Fri  10% que es Fr1  14%  D1  x1  D1  1


Percentil P15

Buscamos la primera Fri  15% que es Fr 2  43%  P15  x2  P15  2

En resumen,

D1 = 1

P15 = 2
P25 = Q1 = 2

P50 = D5 = Q2 = Me = 3

P75 = Q3= 3

Otra forma de calcular es ordenando los datos de menor a mayor.

1 2 2 3 3 3 4

D1 P15 Q1 Q2 Q3

Primer cuartil Q1 : 1,75  2  Q1  2


Segundo cuartil Q2 : 3,5  4  Q2  3 Valor exacto
Tercer cuartil Q3 : 5,25  6  Q3  3
Decil D1 : 0,7  1  D1  1
Percentil P15 : 1,05  2  P15  2

Gema Isabel Marín Caballero Página 46 de 70


Tema 1: Estadística.

4.2.2.5. Con datos agrupados en intervalos


A continuación, presentamos varios ejemplos para variables cuantitativas continuas.
Ejemplo (continuación). Datos pares: El número de trabajadores se distribuye según la tabla.
Calcula las medidas de posición.

Frecuencia Frecuencia
Nº de Marca Frecuencia Frecuencia
absoluta relativa Porcentaje
trabajadores de clase absoluta relativa
acumulada acumulada Fri 100 (%)
xi xi fi f ri
Fi Fri
3
[10, 20) 15 3 3  0,1 0,1 10 %
30
8
[20, 30) 25 8 11  0,27 0,37 37 %
30
12
[30, 40) 35 12 23  0,4 0,77 77 %
30
7
[40, 50) 45 7 30  0,23 1 100 %
30
Total N = 30 1

Cuartiles:

1 30
Primer cuartil Q1 : 25%  30  0,25  30   30  Q1 :  1  Q1 : 7,5
4 4
Buscamos la primera Fi  7,5 que es F2  11  Q1  x2  Q1  25
1 30
Segundo cuartil Q2 : 50%  30  0,50  30   30  Q2 :  2  Q2 : 15
2 4
Buscamos la primera Fi  15 que es F3  23  Q2  x3  Q2  35
3 30
Tercer cuartil Q3 : 75%  30  0,75  30   30  Q3 :  3  Q3 : 22,5
4 4
Buscamos la primera Fi  22,5 que es F3  23  Q3  x3  Q3  35
Deciles:

1 30
Decil D1 : 10%  30   30  D1 :  1  D1 : 3
10 10
Buscamos la primera Fi  3 que es F1  3  D1  x1  D1  15
Percentiles:

15 30
Percentil P15 : 15%  30  0,15  30   30  P15 :  15  P15 : 4,5
100 100
Buscamos la primera Fi  4,5 que es F2  11  P15  x2  P15  25

Otra forma de calcular es observando la frecuencia relativa acumulada porcentual Fri (%).
Primer cuartil Q1

Gema Isabel Marín Caballero Página 47 de 70


Tema 1: Estadística.

Buscamos la primera Fri  25% que es Fr 2  37%  Q1  x2  Q1  25


Segundo cuartil Q2

Buscamos la primera Fri  50% que es Fr 3  77%  Q2  x3  Q2  35


Tercer cuartil Q3

Buscamos la primera Fri  75% que es Fr 3  77%  Q3  x3  Q3  35


Decil D1

Buscamos la primera Fri  10% que es Fr1  10%  D1  x1  D1  15


Percentil P15

Buscamos la primera Fri  15% que es Fr 2  37%  P15  x2  P15  25

En resumen,

D1 = 15
P15 = 25

P25 = Q1 = 25
P50 = D5 = Q2 = Me = 35

P75 = Q3= 35

4.2.2.6. Resumen de medidas de posición


En la tabla siguiente, se presentan los tipos de medidas de posición con las variables
estadísticas que se suelen usar.

Tipos de medidas de posición Tipos de variables


Primer cuartil Q1 Variables cuantitativas discretas y continuas.
Segundo cuartil Q2 Variables cuantitativas discretas y continuas.
Tercer cuartil Q3 Variables cuantitativas discretas y continuas.
Decil k (Dk) Variables cuantitativas discretas y continuas.
Percentil k (Pk) Variables cuantitativas discretas y continuas.

En la tabla siguiente, se presenta un resumen de los tipos de medidas de posición.

Variables cuantitativas
Tipos Cómo se calcula
continuas
Q1  xi  [ Li , Li 1 )
Valor aproximado 
1 N
Q1 : 25%  N  0,25  N   N  Q1 :  1 Q1  xi = marca de clase
Primer 4 4
del intervalo.
cuartil N
Buscamos la primera Fi   1 que es Valor exacto 
Q1
4 N
1  Fi 1
Fi  nº  Q1  xi 4
Q1  Li  c 
fi
Segundo Q2  xi  [ Li , Li 1 )
1 N
cuartil Q2 : 50%  N  0,50  N   N  Q2 :  2 Valor aproximado 
Q2 = Me 2 4
Q2  xi = marca de clase

Gema Isabel Marín Caballero Página 48 de 70


Tema 1: Estadística.

N del intervalo.
Buscamos la primera Fi   2 que es Valor exacto 
4
Fi  nº  Q2  xi
N
2  Fi 1
Q2  Li  c  4
fi
Q3  xi  [ Li , Li 1 )
Valor aproximado 
3 N
Q3 : 75%  N  0,75  N   N  Q3 :  3 Q3  xi = marca de clase
Tercer 4 4 del intervalo.
cuartil N Valor exacto 
Q3 Buscamos la primera Fi   3 que es
4
N
Fi  nº  Q3  xi 3  Fi 1
Q3  Li  c  4
fi
Recorrido
intercuartílico RIQ  Q3  Q1
RIQ
Dk  xi  [ Li , Li 1 )
Valor aproximado 
k N Dk  xi = marca de clase
Dk : k %  N   N  Dk :  k
10 10 del intervalo.
Decil k
N Valor exacto 
Dk Buscamos la primera Fi   k que es
100
Fi  nº  Pk  xi k
N
 Fi 1
Dk  Li  c  10
fi
Pk  xi  [ Li , Li 1 )
Valor aproximado 
k N Pk  xi = marca de clase
Pk : k %  N   N  Pk : k
100 100 del intervalo.
Percentil k
N Valor exacto 
Pk Buscamos la primera Fi   k que es
100
Fi  nº  Pk  xi k
N
 Fi 1
Pk  Li  c  100
fi

4.2.3. Medidas de dispersión

4.2.3.1. Utilidad
Dos distribuciones pueden tener las mismas medidas de centralización y ser muy diferentes si
los valores de las variables se distribuyen o dispersan de forma diferente.
Las medidas de dispersión pretenden medir lo agrupados que se encuentran los datos en torno
a la media aritmética. Es decir, se utilizan para conocer en qué medida los datos de una muestra se
encuentran más o menos alejados de su media.
Las medidas de dispersión permiten conocer el grado de agrupamiento de los datos en torno a
las medidas de centralización, fundamentalmente, la media aritmética.

Gema Isabel Marín Caballero Página 49 de 70


Tema 1: Estadística.

4.2.3.2. Tipos
Las más utilizadas son el rango, la desviación media, la varianza, la desviación típica y el
coeficiente de variación.

 Rango o recorrido: es la diferencia entre el mayor y el menor valor de la variable xi . Se denota


por R.

R  xn  x1
Indica el grado de dispersión de los datos. Cuanto mayor es el rango, más dispersos están los
datos.

 Desviación media: es la media aritmética de los valores absolutos de las desviaciones de cada
dato. Es el promedio de las desviaciones a la media. Se halla calculando el promedio de todas las
diferencias de los valores con la media.
n n

 xi  x  f i x i  x  fi
DM  i 1
n
 i 1

f
N
i
i 1

Indica el grado de dispersión (alejamiento) de los datos respecto a su media.

 Desviación absoluta media: es la media aritmética de los valores absolutos de las desviaciones
de cada dato. Se halla calculando el promedio de todas las diferencias de los valores con la
media.
n n

 xi  x x i x
DM  i 1
n
 i 1

f
N
i
i 1

 Varianza: es la media aritmética de los cuadrados de las desviaciones respecto a la media. Se


denota por 2 o s2.

 x 
n n n

 xi2  f i  xi2  f i
2
 x  fi
x  f1  ......  x  f n
2 2
2 2 2
i
2  1 n
x  i 1
x  i 1
x  i 1
f1  ......  f n n

f
N N
i
i 1

 Desviación típica: es la raíz cuadrada positiva de la varianza. Se denota por  o s.

   2
Mide el grado de dispersión. Dice cómo de alejados de la media, cómo de dispersos, se
encuentran los datos.

Gema Isabel Marín Caballero Página 50 de 70


Tema 1: Estadística.

 Coeficiente de variación de Pearson: es el cociente de la desviación típica y la media


aritmética. Se denota por CV.


CV 
x
El coeficiente de variación no se puede calcular si x  0.
Se suele dar en porcentajes.
Indica la variación relativa. Cuanto mayor sea el coeficiente de variación, menos representativa
será la media. Si el coeficiente de variación es 0 (valor mínimo), la media es totalmente representativa.

NOTA:

 En las variables cuantitativas continuas, tomamos como valor xi la marca de clase de cada
intervalo.

 Para comparar la dispersión de dos poblaciones heterogéneas (con distinta media aritmética), se
utiliza el coeficiente de variación, pues indica la variación relativa.
 Cuanto menor es el coeficiente de variación, mayor es el grado de representatividad de los
valores centrales y la distribución es menos dispersa.

 Cuando dos distribuciones tienen la misma media aritmética, la diferencia entre ambas viene
dada a través de la desviación típica, que nos indica lo alejados que se encuentran los datos con
respecto de la media.
 La varianza y la desviación típica de una distribución son siempre positivas o nulas. Es nula
cuando todos los datos son iguales a la media.

 Cuanto menor es la varianza o la desviación típica, mayor es el grado de representatividad de


los valores centrales.
 Cuando la desviación típica toma valores mayores que uno, hay bastante dispersión.

 Si las medidas de dispersión son “pequeñas”, se puede concluir que los datos están agrupados
alrededor de la media aritmética. Es decir, cuanto menores son las medidas de dispersión, más
concentrados están los datos.

 Y si las medidas de dispersión son “grandes”, significa que los datos están bastante dispersos.

4.2.3.3. Con datos aislados


A continuación, presentamos varios ejemplos para variables cuantitativas discretas.
Ejemplo. Datos impares: Calcula las medidas de dispersión del grupo para las notas de 5
alumnos/as de 3º ESO.
1 1 5 9 9

Notas de Frecuencia
alumnos/as absoluta xi  f i xi  x xi  x  f i x i x 
2
x i  2
 x  fi
xi fi
1 2 2 4 8 16 32
5 1 5 0 0 0 0
9 2 18 4 8 16 32
Total N = 5   25   16   64

Gema Isabel Marín Caballero Página 51 de 70


Tema 1: Estadística.

25
Media aritmética: x 5
5
Rango o recorrido: R  9 1  8
16
Desviación media: DM   3,2
5
64
Varianza: 2   12,8
5
Desviación típica:   12,8  3,578
3,578
Coeficiente de variación: CV   0,716  71,6%
5
En este caso, las medidas de dispersión son bastante grandes. Esto indica que, aunque la media
aritmética sea 5, este valor no es muy representativo de los datos, ya que los datos están bastante
dispersos.

Ejemplo. Datos impares: Calcula las medidas de dispersión de las notas de un curso de 3º ESO.

Notas de Frecuencia
alumnos/as absoluta xi  f i xi  x xi  x  f i xi2 xi2  f i
xi fi
3 6 18 2,36 14,16 9 54
4 4 16 1,36 5,44 16 64
5 4 20 0,36 1,44 25 100
6 2 12 0,64 1,28 36 72
7 4 28 1,64 6,56 49 196
8 5 40 2,64 13,2 64 320
Total N = 25   134   42,08   806
134
Media aritmética: x  5,36
25
Rango o recorrido: R  8  3  5

42,08
Desviación media: DM   1,6832
25
806
Varianza: 2   5,36 2  3,51
25
Desviación típica:   3,51  1,87
1,87
Coeficiente de variación: CV   0,35  35%
5,36
En este caso, las medidas de dispersión son bastante pequeñas. Esto indica que los datos están
agrupados alrededor de la media aritmética 6, por lo que este valor es muy representativo de los datos.

Gema Isabel Marín Caballero Página 52 de 70


Tema 1: Estadística.

Ejemplo. Datos pares: El número de libros solicitados en una biblioteca se presentan en esta
tabla. Calcula las medidas de dispersión.

Número de Frecuencia
libros absoluta xi  f i xi  x xi  x  f i xi2 xi2  f i
xi fi
1 8 8 1,75 14 1 8
2 12 24 0,75 9 4 48
3 9 27 0,25 2,25 9 81
4 6 24 1,25 7,5 16 96
5 3 15 2,25 6,75 25 75
6 2 12 3,25 6,5 36 72
Total N = 40   110   46   380
110
Media aritmética: x  2,75
40
Rango o recorrido: R  6 1  5
46
Desviación media: DM   1,15
40
380
Varianza: 2   2,75 2  1,94
40
Desviación típica:   1,94  1,39
1,39
Coeficiente de variación: CV   0,51  51%
2,75
En este caso, las medidas de dispersión son bastante pequeñas. Esto indica que los datos están
agrupados alrededor de la media aritmética 3, por lo que este valor es muy representativo de los datos.

4.2.3.4. Con datos agrupados en intervalos


A continuación, presentamos varios ejemplos para variables cuantitativas continuas.

Ejemplo. Datos pares: Calcula las medidas de dispersión de las notas de un de 1º ESO.

Notas de Marca Frecuencia


alumnos/as de clase absoluta xi  f i xi  x xi  x  f i xi2 xi2  f i
xi xi fi
[0, 2) 1 2 2 4,77 9,54 1 2
[2, 4) 3 10 30 2,77 27,7 9 90
[4, 6) 5 18 90 0,77 13,86 25 450
[6, 8) 7 23 161 1,23 28,29 49 1.127
[8, 10) 9 7 63 3,23 22,61 81 567
Total N = 60   346   102   2.236
346
Media aritmética: x  5,77
60
Rango o recorrido: R  10  0  10

102
Desviación media: DM   1,7
60

Gema Isabel Marín Caballero Página 53 de 70


Tema 1: Estadística.

2.236
Varianza: 2   5,77 2  3,98
60
Desviación típica:   3,98  1,99  2
2
Coeficiente de variación: CV   0,35  35%
5,77
En este caso, las medidas de dispersión son bastante pequeñas. Esto indica que los datos están
agrupados alrededor de la media aritmética 6, por lo que este valor es muy representativo de los datos.

Ejemplo. Datos pares: Calcula las medidas de dispersión de los profesores de un centro
recogidas en la siguiente tabla.

Edad de Marca Frecuencia


profesores de clase absoluta xi  f i xi  x xi  x  f i xi2 xi2  f i
xi xi fi
[25, 35) 30 6 180 17,2 103,2 900 5.400
[35, 45) 40 14 560 7,2 100,8 1.600 22.400
[45, 55) 50 18 900 2,8 50,4 2.500 45.000
[55, 65) 60 12 720 12,8 153,6 3.600 43.200
Total N = 50   2.360   408   116.000
2.360
Media aritmética: x  47,2
50
Rango o recorrido: R  65  25  40

408
Desviación media: DM   8,16
50
116.000
Varianza: 2   47,2 2  92,16
50
Desviación típica:   92,16  9,6
9,6
Coeficiente de variación: CV   0,203  20,3%
47,2
En este caso, las medidas de dispersión son algo grandes. Esto indica que, aunque la media
aritmética sea 48, este valor es poco representativo de los datos, ya que los datos están un poco
dispersos.

Gema Isabel Marín Caballero Página 54 de 70


Tema 1: Estadística.

4.2.3.5. Interpretación conjunta de la media, desviación típica y coeficiente de variación


Los gráficos estadísticos permiten estudiar de manera global los datos de una distribución,
pero para analizar cómo se comportan de una forma numérica, se recurre a la interpretación conjunta
de la media y de la desviación típica.
La desviación típica proporciona una medida de la dispersión de los datos, ya que la dispersión
global está condicionada por el valor de la media.
Ejemplo: La desviación típica de dos distribuciones, A y B, es 10. En cambio, la media de la
distribución A es 58 y la media de la distribución B es 258. ¿Qué distribución tiene una dispersión
mayor?
Solución:

Calculamos los coeficientes de variación de ambas pruebas.

10
Distribución A: x A  58 ,  A  10 , CV A   0,17  17%
58
10
Distribución B: x B  258 ,  B  10 , CVB   0,038  3,8%
258
Aunque el valor de la desviación típica es igual en ambas distribuciones, la media de A es menor
que la de B. Por tanto, la distribución A es más dispersa.

Ejemplo: Observa las puntuaciones medias que han obtenido en una prueba los dos grupos de
alumnos/as que tiene Enrique. La media del primero es 100 y la del segundo es 500. La desviación típica
del primero es 5 y la del segundo es 30. ¿En qué grupo ha habido mayor dispersión relativa?

Solución:
Calculamos los coeficientes de variación de ambas pruebas.

5
1er grupo: x1  100 ,  1  5 , CV1   0,05  5%
100
30
2º grupo: x 2  500 ,  2  30 , CV2   0,06  6%
500
Por tanto, ha obtenido mayor dispersión relativa el segundo grupo porque su coeficiente de
variación es mayor.

Ejemplo: En una oposición, se han realizado dos pruebas de 200 preguntas tipo test.
En la prueba A, la media ha sido de 120 puntos y la desviación típica de 32 puntos.

En la prueba B, la media ha sido de 90 puntos y la desviación típica de 27 puntos.


¿En qué prueba ha habido mayor dispersión relativa?

Solución:
Calculamos los coeficientes de variación de ambas pruebas.

32
Prueba A: x A  120 ,  A  32 , CV A   0,267  26,7%
120
27
Prueba B: x B  90 ,  B  27 , CVB   0,30  30%
90
Por tanto, la dispersión relativa de la prueba B es mayor que la de la prueba A porque su
coeficiente de variación es mayor.

Gema Isabel Marín Caballero Página 55 de 70


Tema 1: Estadística.

Ejemplo: La media de la edad de los profesores en un centro es 47,2 años y la desviación típica
es 9,6 años. En otro centro, la media es 38,9 años y la desviación típica es 13,7 años. ¿En qué centro es
más representativa la media?

Solución:
Calculamos los coeficientes de variación de ambos centros.

47,2
Centro A: x A  47,2 ,  A  9,6 , CV A   0,2034  20,34%
9,6
38,9
Centro B: x B  38,9 ,  B  13,7 , CVB   0,3816  38,16%
13,7
Como 20,34 % < 38,16 %, la media es más representativa en el centro A.

4.2.3.6. Interpretación conjunta de la media y desviación típica


Se puede resumir toda la información de cualquier distribución estadística con sólo dos
números: la media y la desviación típica. La media indica el centro y la desviación típica el grado de
dispersión de los datos.
Muchas distribuciones estadísticas se ajustan a un modelo conocido como distribución normal.
Es una distribución simétrica y con una sola moda. Por lo que son distribuciones unimodales y simétricas.

Si el número de datos es lo suficientemente grande y la distribución es simétrica, con una sola


moda y se aproxima a la distribución normal, aproximadamente:

 El 68 % de los datos está entre x  y x  .


 El 95 % de los datos está entre x  2 y x  2 .
 El 99 % de los datos está entre x  3 y x  3 .

Ejemplo: Las notas de un grupo de 20 alumnos/as están en la siguiente tabla. Indica si la


distribución se aproxima a una distribución normal.

Frecuencia
Nota
absoluta xi  f i xi2 xi2  f i
xi
fi
1 0 0 1 0
2 1 2 4 4
3 2 6 9 18
4 3 12 16 48
5 6 30 25 150
6 4 24 36 144
7 2 14 49 98
8 1 8 64 64
9 0 0 81 0
10 1 10 100 100
Total N = 20   106   626

Gema Isabel Marín Caballero Página 56 de 70


Tema 1: Estadística.

106
Media aritmética: x  5,3
20
626
Varianza: 2   5,32  3,21
20
Desviación típica:   3,21  1,79

Intervalo: x   ,  
x    3,51 ; 7,09 
x    5,3  1,79  3,51

x    5,3  1,79  7,09


3  6  4  2  15  Hay 15 datos.
15
 0,75  75% de los datos
20
Intervalo: x  2 ,  
x  2  1,72 ; 8,88 
x  2  5,3  2  1,79  1,72

x  2  5,3  2  1,79  8,88


1  2  3  6  4  2  1  19  Hay 19 datos.
19
 0,95  95% de los datos
20
Intervalo: x  3 ,  
x  3   0,07 ; 10,67 
x  3  5,3  3  1,79  0,07

x  3  5,3  3  1,79  10,67


0  1  2  3  6  4  2  1  1  20  Hay 20 datos.
20
 1  100% de los datos
20
Por tanto, la distribución se aproxima a una distribución normal.
Como se trata de una variable cuantitativa discreta, se elige un diagrama de barras para
representar los datos.

Entre las dos líneas verticales, se encuentran un poco más de las dos terceras partes de las
notas.

Gema Isabel Marín Caballero Página 57 de 70


Tema 1: Estadística.

Ejemplo: Una encuesta sobre el número de teléfonos móviles realizada a 200 familias ha dado
los siguientes resultados ordenados en la siguiente tabla. Indica si la distribución se aproxima a una
distribución normal.

Número de Frecuencia
libros absoluta xi  f i xi2 xi2  f i
xi fi
0 2 0 0 0
1 8 8 1 8
2 20 40 4 80
3 60 180 9 540
4 90 360 16 1.440
5 20 100 25 500
Total N = 200   688   2.568
688
Media aritmética: x  3,44
200
2.568
Varianza: 2   3,44 2  1,0064
200
Desviación típica:   1,0064  1,0032

Intervalo: x   ,  
x    2,4368 ; 4,4432 
x    3,44  1,0032  2,4368

x    3,44  1,0032  4,4432


60  90  150  Hay 150 datos.
150
 0,75  75% de los datos
200
Intervalo: x  2 ,  
x  2  1,4336 ; 5,4464 
x  2  3,44  2  1,0032  1,4336

x  2  3,44  2  1,0032  5,4464


20  60  90  20  190  Hay 190 datos.
190
 0,95  95% de los datos
200
Intervalo: x  3 ,  
x  3  0,4304 ; 6,4496 
x  3  3,44  3  1,0032  0,4304

x  3  3,44  3  1,0032  6,4496


8  20  60  90  20  198  Hay 198 datos.
198
 0,99  99% de los datos
200
Por tanto, la distribución se aproxima a una distribución normal.

Gema Isabel Marín Caballero Página 58 de 70


Tema 1: Estadística.

Ejemplo: Las notas de un grupo de 20 alumnos/as están en la siguiente tabla.

Nota xi 3 4 5 6 7 8 9
Frecuencia absoluta fi 2 3 6 4 2 2 1

a) Halla la media y la desviación típica.

b) Si se supone que se aproxima a una distribución normal, ¿entre qué valores se encuentra
aproximadamente el 68 % de los datos?

c) ¿Y entre el 95 % de los datos?


d) ¿Y entre el 99 % de los datos?

Frecuencia
Nota
absoluta xi  f i xi2 xi2  f i
xi
fi
3 2 6 9 18
4 3 12 16 48
5 6 30 25 150
6 4 24 36 144
7 2 14 49 98
8 2 16 64 128
9 1 9 81 81
Total N = 20   111   667
111
a) Media aritmética: x  5,55
20
667
Varianza: 2   5,55 2  2,5475
20
Desviación típica:   2,5475  1,6
b) Como se trata de una variable cuantitativa discreta, se construye un diagrama de barras de
las notas.

El 68 % de los datos está entre las dos líneas verticales:

Intervalo: x   ,  
x    3,95 ; 7,15 
x    5,55  1,6  3,95

x    5,55  1,6  7,15


3  6  4  2  15  Hay 15 datos.

Gema Isabel Marín Caballero Página 59 de 70


Tema 1: Estadística.

15
 0,75  75% de los datos
20
Entre 3,95 y 7,15 se encuentran un poco más de las dos terceras partes de las notas.

c) Intervalo: x  2 ,  
x  2  2,35 ; 8,75 
x  2  5,55  2  1,6  2,35

x  2  5,55  2  1,6  8,75


2  3  6  4  2  2  1  20  Hay 20 datos.
20
 1  100% de los datos
20
Entre 2,35 y 8,75 se encuentran todas las notas.

d) Intervalo: x  3 ,  
x  3  0,75 ; 10,35 
x  3  5,55  3  1,6  0,75

x  3  5,55  3  1,6  10,35


2  3  6  4  2  2  1  20  Hay 20 datos.
20
 1  100% de los datos
20
Entre 0,75 y 10,35 se encuentran todas las notas.

Ejemplo: Se pregunta a 200 personas que den una valoración, de 0 a 5, sobre las actividades
culturales que realiza su ayuntamiento. Los resultados obtenidos se presentan en la siguiente tabla:

Frecuencia
Nota
absoluta xi  f i xi2 xi2  f i
xi
fi
0 14 0 0 0
1 26 26 1 26
2 23 46 4 92
3 38 114 9 342
4 57 228 16 912
5 42 210 25 1.050
Total N = 200   624   2.422
a) Haz el diagrama de barras.

b) Calcula el porcentaje de datos y el número de datos en los intervalos: x   , x  , 


x  2 , 
x  2 , x  3 , x  3 . 
c) Indica si la distribución se aproxima a una distribución normal.

Gema Isabel Marín Caballero Página 60 de 70


Tema 1: Estadística.

a) Diagrama de barras:

60

50

40

30

20

10

0
0 1 2 3 4 5
Nota

624
b) Media aritmética: x  3,12
200
2.422
Varianza: 2   3,12 2  2,37
200
Desviación típica:   2,37  1,54

Intervalo: x   ,  
x    1,58 ; 4,64 
x    3,12  1,54  1,58

x    3,12  1,54  4,64


23  38  57  118  Hay 118 datos.
118
 0,59  59% de los datos
200
Intervalo: x  2 ,  
x  2  0,04 ; 6,2 
x  2  3,12  2  1,54  0,04

x  2  3,12  2  1,54  6,2


26  23  38  57  42  186  Hay 186 datos.
186
 0,93  93% de los datos
200
Intervalo: x  3 ,  
x  3   1,5 ; 7,74 
x  3  3,12  3  1,54  1,5

x  3  3,12  3  1,54  7,74


14  26  23  38  57  42  200  Hay 200 datos.
200
 1  100% de los datos
200
c) La distribución se aproxima a una distribución normal.

Gema Isabel Marín Caballero Página 61 de 70


Tema 1: Estadística.

4.2.3.7. Resumen de medidas de dispersión


En la tabla siguiente, se presentan los tipos de medidas de dispersión con las variables
estadísticas que se suelen usar.

Tipos de medidas de dispersión Tipos de variables


Rango o recorrido Variables cuantitativas discretas y continuas.
Desviación media Variables cuantitativas discretas y continuas.
Varianza Variables cuantitativas discretas y continuas.
Desviación típica Variables cuantitativas discretas y continuas.
Coeficiente de variación Variables cuantitativas discretas y continuas.

En la tabla siguiente, se presenta un resumen de los tipos de medidas de dispersión.

Tipos Cómo se calcula Variables cuantitativas continuas


Rango o recorrido R  xn  x1 R  Ln  L1
n

Desviación media
x i  x  fi
DM  i 1

N xi = marca de clase del intervalo.


 x 
n n

x
2
2
 fi  x  fi
Varianza i
2
i
 
2 i 1
x  i 1

N N
Desviación típica   2

Coeficiente de 
CV 
variación x

5. DIAGRAMA DE CAJA Y BIGOTES

5.1. UTILIDAD
El diagrama de caja y bigotes es una gráfico estadístico que describe al mismo tiempo varias
características importantes de un conjunto de datos, tales como el centro, la dispersión, la simetría o
asimetría, y la identificación de observaciones atípicas.
Permite estudiar la simetría de los datos de una distribución a partir de cinco parámetros: valor
mínimo, primer cuartil, segundo cuartil o mediana, tercer cuartil y valor máximo. Además, son
especialmente útiles para comparar varias distribuciones.

Está compuesto por un rectángulo, la “caja”, y dos brazos, los “bigotes”. La caja representa el
cuerpo de la distribución y los bigotes sus colas.

Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q 1,
Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.

Permite ver cómo es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y los
valores mínimo y máximo.

Proporcionan una visión general de la simetría de la distribución de los datos. Si la mediana no


está en el centro del rectángulo o no está centrada en la caja, la distribución no es simétrica.
Son útiles para ver la presencia de valores atípicos también llamados outliers.

Gema Isabel Marín Caballero Página 62 de 70


Tema 1: Estadística.

Un valor de una variable estadística es atípico cuando se encuentra muy separado del resto de
los valores que toma esa variable o dsitribución.

5.2. CONSTRUCCIÓN DE UN DIAGRAMA DE CAJA Y BIGOTES


El diagrama de caja y bigotes se construye del siguiente modo:
 La caja es un rectángulo que abarca el intervalo Q1, Q3 (llamado recorrido intercuartílico
RIQ=Q3-Q1) y en ella se señala expresamente el valor de la mediana Me con una línea.
 Los bigotes son las líneas que se extienden desde la caja y se trazan hasta los valores mínimo
y máximo de la distribución o hasta 1,5 veces la longitud de la caja, es decir, 1,5 veces el RIQ.
 Se calculan los límites inferior y superior de la caja como Li=Q1–1,5·RIQ y Ls=Q3+1,5·RIQ.

 Cuando los datos se extienden más allá de la longitud de los bigotes, significa que hay valores
atípicos en la distribución. Es decir, si los datos quedaran por debajo o por encima de esta
longitud, el correspondiente bigote se dibujará con esa limitación y se añadiría, mediante
asterisco, el dato en el lugar que le corresponde. Por lo que se marcan como atípicos todos los
datos que están fuera del intervalo (Li, Ls). Así pues, “x es atípico por la izquierda” si
x < Li=Q1–1,5·RIQ y “x es atípico por la derecha” si x > Ls=Q3+1,5·RIQ.

En resumen,

 Caja tiene tamaño RIQ=Q3-Q1 y en ella se señala Me.


 Bigotes:

- Tamaño máximo de los bigotes: 1,5·RIQ

- Límite inferior: Li=Q1–1,5·RIQ

- Límite superior: Ls=Q3+1,5·RIQ


- Se dibujan las líneas hasta los valores mínimo y máximo de la distribución o hasta el
intervalo (Li, Ls).

 Valores atípicos marcarlos con asterisco.

- “x es atípico por la izquierda” si x < Li=Q1–1,5·RIQ


- “x es atípico por la derecha” si x > Ls=Q3+1,5·RIQ

5.2.1. Gráfica del diagrama de caja y bigotes

25 % 25 % 25 % 25 %

Li Q1 Q2=Me Q3 Ls

1,5·RIQ RIQ 1,5·RIQ

5.2.2. Identificación de los elementos del diagrama de caja y bigotes


El bigote de la izquierda representa al intervalo (Xmín, Q1).
La 1ª parte de la caja al intervalo (Q1, Q2).

La 2ª parte de la caja al intervalo (Q2, Q3).

El bigote de la derecha viene dado por el intervalo (Q3, Xmáx).

Gema Isabel Marín Caballero Página 63 de 70


Tema 1: Estadística.

El primer cuartil (Q1) informa de que por debajo de este valor se encuentra como máximo el
25 % de las observaciones de la población.

La mediana coincide con el segundo cuartil (Q2) que divide a la distribución en dos partes
iguales. De este modo, el 50 % de las observaciones están por debajo de la mediana y el otro 50 % está
por encima.
El tercer cuartil (Q3) indica que por debajo de este valor se encentran como máximo el 75 %
de las observaciones de la población.

El límite inferior es el extremo inferior del bigote. Las observaciones por debajo de este valor
se consideran atípicas.
El límite superior es el extremo superior del bigote. Las observaciones por encima de este
límite se consideran atípicas.

Los valores atípicos son las observaciones que están apartadas del cuerpo principal de datos.
Pueden representar efectos de causas extrañas, observaciones extremas o bien errores de medición o
registro.

5.2.3. Interpretación del diagrama de caja y bigotes


Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.

La caja representa el 50 % de los datos que particularmente están ubicados en la zona central
de la distribución.

Los diagramas de caja y bigotes permiten una fácil lectura e interpretación del tipo de simetría
de una distribución:
 Es simétrica cuando la media, mediana y moda de la distribución coinciden y los datos se
distribuyen de igual forma a ambos lados de esas medidas.

 Es asimétrica positiva o sesgada a la derecha, cuando los datos tienden a concentrarse hacia
la parte inferior de la distribución. La media se situaría a la derecha de la mediana.

 Es asimétrica negativa o sesgada hacia la izquierda cuando los datos tienden a concentrarse
hacia la parte superior de la distribución. La media se situaría a la izquierda de la mediana.

Gema Isabel Marín Caballero Página 64 de 70


Tema 1: Estadística.

La mediana puede coincidir con los cuartiles o con los límites de los bigotes. Esto sucede cuando
se concentran muchos datos en un mismo punto, en este caso, cuando muchas observaciones toman el
mismo valor. Pudiera ser éste un caso particular de una distribución sesgada o el caso de una
distribución muy homogénea.

Para describir el centro y la dispersión de un conjunto de datos, hay dos opciones:


 Si la distribución es más o menos simétrica, se estudia la media aritmética y la desviación típica.

 Si la distribución es asimétrica o sesgada, se estudia los cinco parámetros: valor mínimo, primer
cuartil, mediana, tercer cuartil y valor máximo.

5.2.4. Ejemplos
Ejemplo (continuación). Datos impares: Construye el diagrama de caja y bigotes para las notas
de un curso de 3º ESO.

Frecuencia
Notas de Frecuencia
absoluta
alumnos/as absoluta
acumulada
xi fi
Fi
3 6 6
4 4 10
5 4 14
6 2 16
7 4 20
8 5 25
Total N = 25

Cuartiles:

Q1 : 25%  25  6,25  Fi  6,25  F2  10  Q1  4

Q2 : 50%  25  12,5  Fi  12,5  F3  14  Q2  Me  5

Q3 : 75%  25  18,75  Fi  18,75  F5  20  Q3  7

Recorrido intercuartílico: RIQ  7  4  3

Caja: tiene tamaño RIQ=3 y en ella se señala Me.


Datos de la variable estadística:
- Valor mínimo=3

- Valor máximo=8
Bigotes:

- Tamaño máximo de los bigotes: 1,5·RI=1,5·3=4,5


- Límite inferior: Li=Q1–1,5·RIQ=4-4,5=-0,5  Como -0,5 < 3  Li=3

- Límite superior: Ls=Q3+1,5·RIQ=7+4,5=11,5  Como 11,5 > 8  Ls=8

Valores atípicos: No hay ningún dato fuera del intervalo (3, 8).

Gema Isabel Marín Caballero Página 65 de 70


Tema 1: Estadística.

Gráficamente el diagrama de caja y bigotes es:

25 % 25 % 25 % 25 %

3 Q1=4 Q2=Me=5 6 Q3=7 8

1,5·RIQ RIQ=4,5 1,5·RIQ

Interpretación del diagrama de caja y bigotes es:


En este caso, el 50 % central de las notas de los alumnos/as de un 3º ESO está entre 4 y 7.
Como la mediana no está centrada en la caja, la distribución no es simétrica, ya que las notas de los
estudiantes tienden a concentrase más hacia un lado de la caja.
El rango intercuartílico es 4,5, por lo que el 50 % de la población tiene como nota un 4,5.

El bigote de la izquierda representa al intervalo (3,4).

La 1ª parte de la caja al intervalo (4,5).

La 2ª parte de la caja al intervalo (5,7).

El bigote de la derecha viene dado por el intervalo (7,8).


Los dos bigotes (izquierdo y derecho) tienen igual tamaño; ello quiere decir que las notas
comprendidas entre el 25 % y el 50 % de la población están igual de dispersas que entre el 50 % y el
75 %.

La parte derecha de la caja es mayor que la de la izquierda; ello quiere decir que las notas
comprendidas entre el 50 % y el 75 % de la población están más dispersas que entre el 25 % y el 50 %.

Ejemplo. Datos pares: Las respuestas correctas obtenidas por 20 personas en un test de 110
preguntas han sido las siguientes:

63, 62, 60, 20, 65, 80, 82, 110, 70, 75, 73, 72, 108, 84, 78, 67, 19, 60, 61, 63
Calcula los valores atípicos de la distribución y representa el diagrama de caja y bigotes.
Cuartiles:

Ordenamos los datos de menor a mayor:

19, 20, 60, 60, 61, 62, 63, 63, 65, 67, 70, 72, 73, 75, 78, 80, 82, 84, 108, 110

67  70
Q1  61 Q2  Me   68,5 Q3  80
2
Recorrido intercuartílico: RIQ  80  61  19

Caja: tiene tamaño RIQ=19 y en ella se señala Me.


Datos de la variable estadística:

- Valor mínimo=19
- Valor máximo=80

Gema Isabel Marín Caballero Página 66 de 70


Tema 1: Estadística.

Bigotes:

- Tamaño máximo de los bigotes: 1,5·RI=1,5·19=28,5

- Límite inferior: Li=Q1–1,5·RIQ=61-28,5=32,5  Como 32,5 > 19  Li=32,5

- Límite superior: Ls=Q3+1,5·RIQ=80+28,5=108,5  Como 108,5 > 80  Ls=108,5


Valores atípicos: Hay datos fuera del intervalo (32,5; 108,5) que son: 19, 20, 110.

Gráficamente el diagrama de caja y bigotes es:

25 % 25 % 25 % 25 %

* * *
19 20 32,5 Q1=61 Q2=Me=68,5 Q3=80 108,5 110

1,5·19=28,5 RIQ=19 1,5·19=28,5


Interpretación del diagrama de caja y bigotes es:

En este caso, el 50 % central de las respuestas de un test está entre 61 y 80. Como la
mediana no está centrada en la caja, la distribución no es simétrica, ya que las respuestas de las
personas tienden a concentrase más hacia un lado de la caja.

El rango intercuartílico es 19, por lo que el 50 % de la población tiene 19 respuestas correctas.

El bigote de la izquierda representa al intervalo (32,5;61).


La 1ª parte de la caja al intervalo (61;68,5).

La 2ª parte de la caja al intervalo (68,5;80).


El bigote de la derecha viene dado por el intervalo (80;108,5).

El bigote de la izquierda es más corto que el de la derecha; por ello, el 25 % de las respuestas
correctas está más concentrado que el 25 % superior.

La parte derecha de la caja es mayor que la de la izquierda; ello quiere decir que las respuestas
correctas comprendidas entre el 50 % y el 75 % de la población están más dispersas que entre el 25 %
y el 50 %.
Ejemplo. Datos pares: Representa mediante un diagrama de caja y bigotes la siguiente
distribución:

Frecuencia
Nº de Frecuencia
absoluta
hijos/as absoluta
acumulada
xi fi
Fi
0 10 10
1 20 30
2 41 71
3 29 100
4 14 114
5 5 119
6 1 120
Total N = 120

Gema Isabel Marín Caballero Página 67 de 70


Tema 1: Estadística.

Cuartiles:

1 2
Q1 : 25%  120  30  Fi  30  F2  30  Q1   1,5
2
Q2 : 50%  120  60  Fi  60  F3  71  Q2  Me  2

Q3 : 75%  120  90  Fi  90  F4  100  Q3  3


Recorrido intercuartílico: RIQ  3  1,5  1,5

Caja: tiene tamaño RIQ=3 y en ella se señala Me.

Datos de la variable estadística:

- Valor mínimo=0

- Valor máximo=6
Bigotes:
- Tamaño máximo de los bigotes: 1,5·RI=1,5·1,5=2,25
- Límite inferior: Li=Q1–1,5·RIQ=1,5-2,25=-0,75  Como -0,75 < 0  Li=0

- Límite superior: Ls=Q3+1,5·RIQ=3+2,25=5,25  Como 5,25 < 6  Ls=5,25

Valores atípicos: Hay un dato fuera del intervalo (0; 5,25) que es: 6.

Gráficamente el diagrama de caja y bigotes es:

25 % 25 % 25 % 25 %

*
0 Q1=1,5 Q2=Me=2 Q3=3 5,25 6

1,5·1,5=2,25 RIQ=2,25 1,5·1,5=2,25

Interpretación del diagrama de caja y bigotes es:

En este caso, el 50 % central de las familias tienen entre 1,5 y 3 hijos/as. Como la mediana no
está centrada en la caja, la distribución no es simétrica, ya que los hijos/as de las familias tienden a
concentrase más hacia un lado de la caja.

El rango intercuartílico es 2,25, por lo que el 50 % de la población tiene 2,25 hijos/as.


El bigote de la izquierda representa al intervalo (0,1).
La 1ª parte de la caja al intervalo (1,2).

La 2ª parte de la caja al intervalo (2,3).

El bigote de la derecha viene dado por el intervalo (3;5,25).

El bigote de la izquierda es más corto que el de la derecha; por ello, el 25 % de los hijos/as está
más concentrado que el 25 % superior.
La parte derecha de la caja es mayor que la de la izquierda; ello quiere decir que los hijos/as
comprendidos entre el 50 % y el 75 % de la población están más dispersos que entre el 25 % y el 50 %.

Gema Isabel Marín Caballero Página 68 de 70


Tema 1: Estadística.

5.3. COMPARACIÓN DE DISTRIBUCIONES


Los diagramas de caja y bigotes son muy útiles al hacer comparaciones gráficas entre
conjuntos de datos, ya que tienen un gran impacto visual y son fáciles de comprender.

Ejemplo: Se presentan los diagramas de caja y bigotes comparativos para la variable peso de
los estudiantes de Métodos Estadísticos I clasificados por sexo.

El análisis comparativo de estos diagramas revela que el peso de los varones es mayor que el de
las hembras. También se observa que la variabilidad de los pesos de las hembras es mayor a la de los
varones. Sin embargo, la variabilidad en la parte central de la distribución de los pesos tanto de las
féminas como de los masculinos es muy similar.

Se nota la existencia de un valor atípico en la distribución de las mujeres, que es un peso muy
alto (el valor máximo de todos los pesos) en comparación a los pesos del resto de las muchachas.

La distribución del peso de los varones es asimétrico por la izquierda mientras que las hembras
presentan una distribución asimétrica por la derecha influenciada por el valor atípico.

5.4. COMPARACIÓN DEL DIAGRAMA DE CAJA Y BIGOTES CON EL HISTOGRAMA


A continuación, se muestran diferentes tipos de distribuciones. Se colocan de manera
comparativa los diagramas de caja y bigotes con los histogramas del mismo conjunto de datos.

Gema Isabel Marín Caballero Página 69 de 70


Tema 1: Estadística.

Gema Isabel Marín Caballero Página 70 de 70

Вам также может понравиться