Вы находитесь на странице: 1из 25

ESTADÍSTICA

Un poco de historia El origen de la estadística se encuentra en el término Estado, pues fueron los

gobernantes los que primero se preocuparon de elaborar y clasificar las interminables listas de los recursos humanos y materiales que constituían el patrimonio estatal. La información más antigua sobre la elaboración de una estadística la proporciona el historiador griego Herodoto (484-420a.C.), al relatar que en el año 3050 a.C. el faraón de Egipto ordenó un recuento de los bienes que poseía el país para llevar a cabo una gran obra: la construcción de las pirámides. Desde hace tiempo las estadísticas no son patrimonio exclusivo del Estado. También las

simplemente personas

interesadas en obtener y organizar determinada información para analizarla e interpretarla Concepto de Estadística La Estadística es la parte de las Matemáticas que estudia métodos para interpretar datos obtenidos de investigaciones o experimentos aleatorios (aquellos en los que no se puede predecir el resultado aunque se realicen siempre en las mismas condiciones), con el fin de extraer de ellos unas conclusiones. La Estadística puede ser:

elaboran compañías de seguros, bancos, investigadores

o

a) Descriptiva.-Trata de obtener unas conclusiones a partir de ciertos datos mediante el empleo de gráficos o la obtención de unos ciertos valores que los representen a todos. b) Inferencial.-Trata de determinar los valores que adoptarán una serie de datos muy numerosos, que forman una población mediante el estudio de unos cuantos de ellos extraídos de la población de una manera significativa y que forman una muestra. Estadística descriptiva Es una parte de las matemáticas que nos enseña a:

Recoger datos de manera ordenada

Representar datos mediante gráficas o tablas comprensibles

Calcular valores numéricos representativos, que permitan sintetizar, analizar y comparar diferentes colecciones de datos En este curso solo nos dedicaremos a la descriptiva (en 2ºcurso veremos la inferencial). Conceptos generales Población: es el conjunto de todos los elementos objeto de nuestro estudio

Muestra: es un subconjunto, extraído de la población, cuyo estudio sirve para inferir características de toda la población

Individuo: es cada uno de los elementos de la población o de la muestra.

El tamaño de la población o de la muestra es el número de elementos que componen una u otra, y se suele designar con N Se llama variable estadística a cada uno de los caracteres que se desean observar en los individuos de una población. Las variables estadísticas pueden ser:

cuantitativas: si sus valores son números

cualitativas: si sus valores no son números

1

Se denomina recorrido o rango de una variable cuantitativa a la diferencia entre el mayor y el menor de sus valores posibles. Para las variables cualitativas no se define el recorrido

Las variables estadísticas cuantitativas pueden ser discretas o continuas

Variable estadística

 

continua

Variable cuantitativa

 

discreta

Variable cualitativa

Variables discretas son las que toman valores que se pueden enumerar, fáciles de precisar porque están separados, es decir, las que solo pueden tomar valores aislados.

Variables continuas son las que pueden tomar todos los valores de un intervalo

Los valores de la variable estadística se representan por x 1 , x 2 , x 3 , Se llama distribución estadística al conjunto de datos estadísticos.

,x

n

Ejemplo1

Una profesora de educación física, rellena las fichas de sus alumnos y alumnas de 3º de E.S.O. Y pide, entre otros datos, la edad, la talla y los deportes favoritos de cada uno Población: los alumnos-as de 3º de E.S.O. Variables estadísticas: la edad, la talla, los deportes favoritos La variable “deporte favorito” es cualitativa Las variables “edad y talla” son cuantitativas La edad sería una variable cuantitativa discreta La talla sería una variable cuantitativa continua.

Ejemplo2

En el departamento de control de calidad de una fábrica de bombillas, se desea hacer un estudio sobre el número de horas de duración; sería imposible hacer el estudio sobre todas las bombillas fabricadas, de ahí la necesidad de tomar una muestra. Cuanto mayor sea la muestra, más representativa es de la población.

Frecuencias Frecuencia absoluta de cada valor, es el nº de veces que éste se repite, y se representa por fi (f 1 es la frecuencia absoluta del primer valor, f 2 es la frecuencia absoluta del segundo valor, y así sucesivamente). La suma de las frecuencias absolutas debe coincidir con el tamaño de la población o, en su caso, de la muestra Frecuencia absoluta acumulada n i es la suma de la frecuencia absoluta de un valor con las de los que le preceden. Frecuencia relativa, Fi, es el cociente entre la frecuencia absoluta y el nº total de individuos que componen la población o la muestra observada. Frecuencia relativa acumulada, Ni es la suma de la frecuencia relativa de un valor con las de los que le preceden. Frecuencia porcentual, %, es el tanto por ciento con el que aparece cada valor de la variable respecto del tamaño de la muestra. Se obtiene multiplicando por 100 cada frecuencia relativa

Proceso seguido en Estadística

2

La información estadística nos llega mediante gráficas o tablas muy bien construidas, con las que resulta muy sencillo entender la información que se nos da. Sin embargo, esas tablas y gráficas son el resultado de un largo proceso. Veamos sus principales pasos:

1) Elegir una muestra representativa de la población (si es que la población es muy grande), de manera que los resultados que obtengamos para la muestra los podremos suponer válidos para la población 2) Seleccionar las variables que se van a analizar. Debe quedar muy claro cuál es la variable y cuáles sus posibles valores. 3) Recolección de datos 4) Organización de datos 5) Elaboración de tablas 6) Elaboración de gráficas 7) Cálculo de parámetros A estos tres últimos pasos es a lo que a continuación nos vamos a dedicar. La organización de los datos Una vez obtenidos los datos, es conveniente ordenarlos según algún criterio con la finalidad de obtener el máximo posible de información de los datos.

En la Estadística descriptiva trataremos de observar sistemáticamente los datos para lo cual es conveniente ordenarlos en una tabla y resumirlos en un gráfico que facilite su interpretación. En efecto, supongamos el experimento aleatorio consistente en anotar las calificaciones de matemáticas de un colectivo de 50 alumnos. Los resultados han sido:

1-6-8-8-2-2-3-4-5-10-3-4-5-6-7-8-9-7-7-6-5-5-5-4-4-5-6-7-10-4-1-2-5-5-6-6-7-4-5-6-5-

4-6-7-6-5-4-3-4-5

Realizamos un recuento de los resultados obtenidos marcando una raya vertical por cada uno de ellos y agrupándolos en grupos de 5 para facilitar el conteo:

1 II 2

2 III 3

3 III 3

4 IIIII IIII 9

5 IIIII IIIII II 12

6 IIIII IIII 9

7 IIIII I 6

8 III 3

9 I 1 10 II 2

CONFECCIÓN DE UNA TABLA DE FRECUENCIAS Una vez recogidos los datos, hay que tabularlos; es decir, hay que confeccionar una tabla en la que aparezcan bien organizados los valores de la variable que se está estudiando y el número de individuos que toma cada valor o cada intervalo de valores. Es lo que se llama una tabla de frecuencias. En estas tablas deben aparecer

los valores de la variable. Si se encuentran agrupadas en clases, deben aparecer los extremos superior e inferior, así como la marca de clase (que son los puntos medios de cada clase). Es aconsejable escoger los extremos inferior y superior

3

de cada intervalo de modo que se sitúen en números “redondos”; por ejemplo, múltiplos de 5, de 10, etc. Las clases deben tener la misma amplitud. El nº de clases que debemos formar es de libre elección, pero existe un criterio muy general en el que se aconseja formar, aproximadamente, tantas clases como la raíz cuadrada del número total de datos.

las frecuencias absolutas

las frecuencias relativas y a veces es conveniente incluir

las frecuencias absolutas y relativas acumuladas, y

las porcentuales

Ejemplo de confección de una tabla con datos aislados:

Con las definiciones dadas anteriormente, podemos organizar los datos de nuestro experimento en una tabla de frecuencias de la siguiente manera.

x f n F N n% i i i i i 1 2 0,04 2
x
f
n
F
N
n%
i
i
i
i
i
1
2
0,04
2
0,04
4
2
3
0,06
5
0,1
6
3
3
0,06
8
0,16
6
4
9
0,18
17
0,34
18
5
12
0,24
29
0,58
24
6
9
0,18
38
0,76
18
7
6
0,12
44
0,88
12
8
3
0,06
47
0,94
6
9
1
0,02
48
0,96
2
10
2
0,04
50
1
4
Totales
50
1
100

Tabla con datos agrupados

Ejemplo:

Tenemos un grupo de 120 individuos adultos mayores de 18 años y menores de 75, y queremos distribuirlos según su edad.

Distribución de frecuencias:

4

EDAD (en años)

f i

(18, 20]

10

(20, 25]

14

(25, 35]

23

(35, 45]

20

(45, 60]

29

(60, 75]

24

Los datos, tal como han sido ordenados y resumidos, se suelen denominar datos agrupados. Aunque con el proceso de agrupamiento se pierde algo de información que contiene los datos originales (por ej. en la categoría de 18 a 20 años no sabemos cuantos individuos de 18 y de 19 hay, sin embargo ofrece la ventaja de presentar todos los datos

de una forma sencilla en un pequeño cuadro, lo que facilita su estudio. En este ejemplo observamos que la amplitud de cada clase es variable. El mayor inconveniente que presenta este tipo de distribución es el llamado error de agrupamiento.

Distribución Porcentual o de frecuencias relativas

EDAD (en años)

(18, 20] 10 0,0833 8,33

f i

n i

n%

(20, 25]

14 0,1166 11,66

(25, 35]

23 0,1916 19,16

(35, 45]

20 0,1666 16,66

(45, 60]

29

0,2416

24,16

(60, 75]

24 0,20 20,00

Observemos que la suma de los porcentajes no es exactamente 100 debido a los decimales. Se suele tomar un único decimal redondeándolo.

Distribución Acumulada EDAD (en años)

 

f i

n%

frec acumulada

Porc. acumulado

(18, 20]

10

8,3

10

8,3

(20, 25]

14

11,7

24

20,0

(25, 35]

23 19,2 47 39,2 20 16,7 67 55.9 29 24,1 96 80,1

(35, 45]

(45, 60]

(60, 75]

24

20,0

120

100,1

 

5

ELABORACIÓN DE GRÁFICOS ESTADÍSTICOS

Los resultados de cualquier experimento, se podrían ver con mucha mayor claridad si los datos tabulados (de una tabla), estuviesen representados gráficamente. Los principales tipos de representaciones gráficas que con ellos podemos hacer son (vamos a representar únicamente las frecuencias absolutas, pero podríamos hacerlo también con cualesquiera otro tipo de las frecuencias definidas):

a) Diagramas de barras.- Colocamos en el eje de abscisas los valores de la variable

x i y en el eje de ordenadas los valores de las frecuencias y dibujamos barras de igual anchura cuya altura sea exactamente la frecuencia. Por ejemplo:

Carreras que piensan hacer los alumnos de un Centro de Enseñanza

que piensan hacer los alumnos de un Centro de Enseñanza Se usa el diagrama de barras

Se usa el diagrama de barras para variables cualitativas (como en este ejemplo) o cuantitativas discretas.

b) Histogramas

en este ejemplo) o cuantitativas discretas. b) Histogramas Se usan los histogramas para las variables cuantitativas

Se usan los histogramas para las variables cuantitativas continuas. El eje vertical suele representar la frecuencia. Sin embargo, cuando el ancho de las barras no es el mismo, lo que marca la frecuencia no es la altura de cada barra, sino el área de la misma.

6

c)

Polígonos de frecuencias.- Se obtienen si unimos los puntos medios de las bases

superiores de las barras en el diagrama anterior:

las bases superiores de las barras en el diagrama anterior: d) Diagramas de sectores.- Se obtienen

d) Diagramas de sectores.- Se obtienen dividiendo la circunferencia en tantas partes

como valores tenga la variable de manera que el área de cada sector obtenido sea

proporcional a la respectiva frecuencia

sector obtenido sea proporcional a la respectiva frecuencia d) Pictogramas.- Es como el diagrama de barras

d) Pictogramas.- Es como el diagrama de barras donde se sustituyen las mismas por un

dibujo de altura proporcional a las frecuencias y que hace más intuitiva la interpretación de los resultados

7

e) Pirámides de población.- Se utiliza este procedimiento para comparar las características más relevantes de

e) Pirámides de población.-

Se utiliza este procedimiento para comparar las características más relevantes de la

población de un Estado, provincia, tiempo.

y sus variaciones en un determinado periodo de

,

tiempo. y sus variaciones en un determinado periodo de , f) Cartogramas.- Son representaciones gráficas de

f) Cartogramas.-

Son representaciones gráficas de unidades geográficas, diferenciadas por colores, rayas o puntos:

geográficas, diferenciadas por colores, rayas o puntos: g) Series cronológicas o diagramas lineales.- Se usan para

g) Series cronológicas o diagramas lineales.-

Se usan para mostrar las variaciones de uno o varios caracteres estadísticos con el paso del tiempo:

8

PARÁMETROS ESTADÍSTICOS

Puesto que las representaciones gráficas no siempre consiguen ofrecer una información completa de una serie de datos, es necesario analizar procedimientos numéricos que permitan resumir toda la información del fenómeno en estudio en unos números llamados parámetros estadísticos. Los parámetros estadísticos se pueden clasificar en:

a) Medidas de centralización.- Que representan a toda la distribución. Buscan

características del centro de la distribución. Los más importantes son la media aritmética, la mediana y la moda.

b) Medidas de posición.- Indican, una vez ordenados los datos, cuantos elementos

quedan a la izquierda o derecha de uno dado: cuartiles, deciles, centiles o percentiles.

c) Medidas de dispersión.- Que indican si los valores están agrupados o dispersos. Los más importantes son rango o recorrido, desviación media, la varianza y la desviación típica.

MEDIDAS DE CENTRALIZACIÓN

MEDIA:

x

=

x

1

+

x

2

+

x

3

+

+

x

N

 

N

 

=

N

i = 1

x

i

N

Cuando los datos vienen dados por una tabla de frecuencias:

x

=

x f

1

1

+

x

2

f

2

+

x

3

f

3

+

+

x

N

f

N

 

N

=

N

i = 1

x f

i

i

N

Cuando los datos están agrupados en intervalos, el valor central de cada intervalo (marca de clase), es el que se asigna a todos los individuos que están en dicho intervalo.

Ejemplo 1:Se ha preguntado a un grupo de 70 alumnos sobre el número de zapatos que calzan, obteniendo los resultados de la siguiente tabla:

9

N. de calzado

N. de alumnos

35

4

36

15

37

17

38

20

40

10

42

4

En este caso, la media aritmética sería:

x

=

35.4

+

36.15

+

37.17

+

38.20

+

40.10

+

42.4

70

=

2637

70

=

37.67

Ejemplo 2 El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

Consumo

Camiones

(0,10]

8

(10,20]

12

(20,30]

10

(30,40]

14

(40,50]

21

(50,60]

16

(60,70]

9

Como la variable está agrupada en intervalos, tomamos la marca de clase. La media sería:

=

5.8

+

15.20

+

25.10

+

35.14

+

45.21

+

55.16

+

65.9

=

3370

=

37.44

x

90

90

MODA

Es el valor de la distribución que se repite con mayor frecuencia. Puede no existir o puede no ser única. Las distribuciones que contienen una sola moda se llaman unimodales y las que contienen dos, bimodales. En general, cuando contiene varias modas se denomina multimodal.

En una representación gráfica, la moda será el rectángulo más alto, en el caso del histograma, y el pico más alto, en el caso del polígono. Ejemplo:

En la distribución de cifras: 2, 3, 3, 3, 5, 5 En la distribución de cifras: 2, 2, 4, 5, 5, 6

la moda es 3

las modas son 2 y 5.

En el caso de los datos agrupados en intervalos, la moda es aproximadamente el

punto medio de la clase que contiene la mayor frecuencia de casos (a la que se le llamaría clase modal) Ejemplo:

De 1 a 3

6

De 4 a 6

15

De 7 a 8

10

De 9 a 11

6

10

En este ejemplo, la clase modal es 4-6 y la moda valdrá 5. Pero si queremos calcular más exactamente la moda (y no de forma aproximada),se

busca el intervalo de mayor frecuencia (intervalo o clase modal) y se aplica la

fórmula:

f

f

 

i

i-1

Mo=L i-1 +C. (f

i

f

i-1

)

+

(f

i

f

i

+ 1

)

Donde:

L i-1 es el límite inferior del intervalo modal C es la amplitud del intervalo f i es la frecuencia del intervalo modal f i-1 es la frecuencia del intervalo anterior al modal f i+1 es la frecuencia del intervalo posterior al modal En el ejemplo puesto, sería el intervalo (4,6], y aplicando la fórmula:

Otro ejemplo:

15

6

Mo=4+3. (15

6)

+

(15

10)

=5.93

El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

 

Consumo

Camiones

 

(0,10]

 

8

 

(10,20]

 

12

 

(20,30]

 

10

 

(30,40]

 

14

 

(40,50]

 

21

 

(50,60]

 

16

 

(60,70]

 

9

Solución:

El intervalo modal sería el (40,50]

 
 

21

14

= 45.83

Mo=40+ (21

14)

+

(21

16)

MEDIANA Si los individuos de una población están colocados en orden creciente según la variable que estudiamos, el que ocupa el valor central se llama individuo mediano, y su valor la mediana. La mediana Me, está situada de modo que antes de ella está el 50% de la población y, detrás, el otro 50%. Por ejemplo, en la distribución:

6,7,7,7,8,9,10,12,15

M e =8

Si el número de individuos fuera par, la mediana sería el valor medio de los dos centrales. Por ejemplo, en la distribución:

11

6,7,7,7,8,9,10,12,15,16

M e =8.5

Si los datos están agrupados en intervalos, suponemos que los datos de cada intervalo se reparten uniformemente en él, hemos de buscar el intervalo central (en el que se encuentre el o los valores centrales) y aplicar la fórmula:

N

f

i

F

Me= L i-1 + C.

2 i

1

Donde L i-1 es el límite inferior del intervalo N es el número total de casos o datos F i-1 es la frecuencia acumulada del intervalo anterior f i es la frecuencia absoluta del intervalo C es la amplitud del intervalo

Ejemplo:

El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

Consumo

Camiones

(0,10]

8

(10,20]

12

(20,30]

10

(30,40]

14

(40,50]

21

(50,60]

16

(60,70]

9

Calcular la mediana. Solución:

Hemos de buscar el intervalo en el que estén los elementos centrales. Como hay 90 elementos, el intervalo es (40,50]. Aplicamos la fórmula:

Me=40+10.

90

2

44

21

=40.48

MEDIDAS DE POSICIÓN

CENTILES O PERCENTILES

Mediana:

Si los individuos de una población están colocados en orden creciente según la variable que estudiamos, el que ocupa e valor central se llama individuo mediano, y su valor la “mediana”.

La mediana, M e , está situada de modo que antes de ella está el 50% de la población y, detrás, el otro 50%. Por ejemplo, en la distribución:

6,7,7,7,8,9,10,12,15

M e =8

Si el número de individuos fuera par, la mediana sería el valor medio de los dos centrales. Por ejemplo, en la distribución:

12

Cuartiles:

6,7,7,7,8,9,10,12,15,16

M e =8.5

Si en vez de partir la totalidad de los individuos en dos mitades, lo hacemos en cuatro partes iguales (todas ellas con el mismo número de individuos), los dos nuevos puntos de separación se llaman “cuartiles”. Cuartil inferior Q 1 es un valor de la variable que deja por debajo de él al 25% de la población, y por encima la 75%.

Cuartil superior Q 3 es un valor de la variable que deja por debajo de él al 75% de la población, y por encima la 25%. Q 2 sería la mediana. Por ejemplo, en la distribución:

1, 2, 2

25%

,

la mediana. Por ejemplo, en la distribución: 1, 2, 2 25% , 3, 4, 5 ,

3, 4, 5

,

25% 25%

en la distribución: 1, 2, 2 25% , 3, 4, 5 , 25% 25% 5, 5,

5, 5, 6

25%

,

distribución: 1, 2, 2 25% , 3, 4, 5 , 25% 25% 5, 5, 6 25%

8, 9, 10

Q 1

M e

Q 3

Q 1 = 2.5;

M e = 5;

Q 3 = 7

Centiles o Percentiles:

Si partimos la población en 100 partes y señalamos el lugar que deja debajo k de

ellas, el valor de la variable correspondiente a ese lugar se designa por p k y se denomina centil k o percentil k. La mediana es M e = p 50 A la mediana, cuartiles y centiles, se les llama medidas de posición. Veamos unos ejemplos de estas medidas de posición Ejemplo 1: Calcular M e , Q 1 , Q 3 , P 10 y P 80 en la distribución:

1, 1, 2, 3, 4, 4, 5, 5, 5, 5, 6, 7, 7, 7, 8, 9, 10 Solución: Hay 17 individuos;

17/2 = 8.5

la

mediana es el valor del individuo 9º

M

e =5

17/4 = 4.25

lugar

Q

1 =4

17. 3/4 = 12.75

13º

lugar

Q

3 =7

17/100 . 10 = 1.7

lugar

P

10

=1

17/100 . 80 = 13.6

14º

lugar

P

80

=7

Ejemplo 2: En la siguiente distribución de número de hijos de 110 parejas , halla M e , Q 1 , Q 3 , P 20 y P 99

Nº hijos (x i)

0

1

2

3

4

5

6

f

i

4

18

41

32

11

3

1

Para calcular la mediana, cuartiles y Percentiles en distribuciones dadas por tablas de frecuencias , necesitamos las frecuencias acumuladas y los %

x

i

f

i

F

i

En %

 

0 4

4

3.6

 

1 18

22

20

 

2 41

63

57.3

 

3 32

95

86.4

13

4

11

106

96.4

5

3

109

99.1

6

1

110

100

M e = P 50 =2 porque para x i =2 la F i supera el 50%

Q

1 = P 25 =2 porque para x i =2 la F i supera el 25%

Q

3 = P 75 =3 porque para x i =3 la F i supera el 75%

P 99 =5 porque para x i =5 la F i supera el 99% P 20 =1.5 porque para x i =1 la F i iguala el 20%. Por tanto el valor 1.5 es superior al 20% de la población, e inferior al 80% restante.

Ejemplo 3:

En la fabricación de cierto tipo de bombillas, se han detectado algunas defectuosas. Se han estudiado 200 cajas de 100 bombillas cada una, obteniéndose la siguiente tabla:

Defectuosas

Nº de cajas

1

5

2

15

3

38

4

42

5

49

6

32

7

17

8

2

Calcula la mediana, el cuartil superior y el percentil 20.

Solución: Formemos la tabla de frecuencias acumuladas:

X

i

f

i

F

i

%

1

5

5

2.5

 

2 15

20

10

 

3 38

58

29

 

4 42

100

50

 

5 49

149

74.5

 

6 32

181

90.5

 

7 17

198

99

8 2

 

200

100

Mediana: Se han ordenado las cajas según el nº de bombillas defectuosas, de menor a mayor. La mediana será la caja que ocupe el lugar central. Como el nº de cajas es par (200), la mediana es el valor medio entre los dos centrales. La caja nº 100 tiene 4 bombillas defectuosas y la nº 101 tiene 5 bombillas defectuosas. Por tanto, M e = (4+5)/2 = 4.5 El cuartil superior: corresponde al 75% del total : 0.75.200=150. La caja que ocupa el

lugar nº 150 tiene 6 bombillas defectuosas. Por tanto, Q 3 = 6. El 25% de las cajas tiene 6

o más bombillas defectuosas.

El percentil 20: corresponde al 20% del total: 0.20 . 200 = 40. La caja que ocupa el lugar 40 tiene 3 bombillas defectuosas. Por tanto, P 20 =3. El 20% de las cajas tiene 3 o menos bombillas defectuosas.

14

En caso de una variable agrupada, las fórmulas para hallar centiles, deciles y cuartiles son:

C

h

=

L

i

1

+

h.

n

N

100 i

1

.c

i

n

donde cada elemento tiene el mismo significado que en el cálculo de la mediana.

i

Para hallar los cuarteles en este caso, nada más que hay que tener en cuenta que:

Q 1 =C 25

Q 2 =C 50 =M e

Q 3 =C 75

Para hallar los deciles, tendremos en cuenta que:

D 1 =C 10 D 2 =C 20 D 3 =C 30 …………. D 9 =C 90

Veamos algunos ejemplos:

Ejemplo:

El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

Consumo

Camiones

(0,10]

8

(10,20]

12

(20,30]

10

(30,40]

14

(40,50]

21

(50,60]

16

(60,70]

9

Calcular el cuartil superior Q 3 , el centil 45, C 45 y el decil tercero, D 3

Busquemos el intervalo donde se encuentra el Q 3 , que será en el que se encuentre el elemento que deja a su izquierda un 75% de la población (el 75% de 90 es 67,5).

Haciendo la tabla de las frecuencias absolutas acumuladas:

Consumo

Frec. Abs.

F. Ab. acum

(0,10]

8

8

(10,20]

12

20

(20,30]

10

30

(30,40]

14

44

(40,50]

21

65

(50,60]

16

81

(60,70]

9

90

Observamos que el intervalo que buscamos es el (50,60]. Aplicando la fórmula:

Q

3 =50+

3.90

4

65 25

10

=

50

+

=

16 16

50

+

1,5625

=

51,5625

Busquemos ahora el intervalo donde queda el elemento que deja a su izquierda al 45% de la población: (45% de 90 es 40,5). Observando la columna de las frecuencias absolutas acumuladas, el intervalo (30,40] contiene el C 45 . Aplicando la fórmula:

15

C

45 =30+

45.

90

100

30

14

10

=

30

+

7,5

=

37,5

Calculemos el D 3 =P 30

Busquemos el intervalo donde se encuentra el elemento que deja a su izquierda el 30% de la población (30% de 90 es 27). Observando la tabla de frecuencias, el intervalo (20,30] contiene al individuo que ocupa el lugar 27, y aplicando la fórmula de los percentiles:

D 3 =P 30 =20+

30.

90

100

20

10

=27

MEDIDAS DE DISPERSIÓN

RANGO O RECORRIDO Es la diferencia entre el valor mayor y el menor si la variable es no agrupada. Si la variable es agrupada, se calcula la diferencia entre el límite superior del último intervalo y el límite inferior del primer intervalo. El valor del recorrido sólo tiene en cuenta los valores extremos; en su valor no influyen los demás elementos de la distribución. Cuanto menor es el rango o recorrido de una distribución, mayor es el grado de representatividad de los valores centrales Ejemplo: Mercedes y Paco miden 169 y 171 respectivamente. Ana y Luís es otra pareja que miden 145 y 195 respectivamente.

Ambas distribuciones tienen la misma media: 170, pero evidentemente nadie los confundirían por la calle. El rango de la pareja Mercedes y Paco: 171-169=2 El rango de la pareja Ana y Luís:195-145=50 Diremos por tanto que la 2ª pareja está más dispersa que la 1ª

Ejemplo 1:

Se ha preguntado a un grupo de 70 alumnos sobre el número de zapatos que calzan, obteniendo los resultados de la siguiente tabla:

N. de calzado

N. de alumnos

35

4

36

15

37

17

38

20

40

10

42

4

El rango o recorrido será 42-35 = 7 Ejemplo 2:

El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

16

Consumo

Camiones

(0,10]

8

(10,20]

12

(20,30]

10

(30,40]

14

(40,50]

21

(50,60]

16

(60,70]

9

Al ser agrupada, el rango o recorrido es 70-0 = 70

DESVIACIÓN MEDIA Es la media de las desviaciones de los valores de la variable respecto a la media de la

distribución (siendo la desviación respecto de la media: |x i - x | ):

DM=

x

1

x

.f

1

+

x

2

x

.f

2

+

+

x

k

x

.f

k

 

N

k

x x .f i i i = 1
x
x
.f
i
i
i
= 1

=

N

Es una medida muy poco utilizada por la complicación de su cálculo. Si la DM es muy pequeña, indica que hay una gran concentración de valores en torno a

la media. Si la variable está agrupada en intervalos, tomamos x i la marca de la clase.

VARIANZA Es la media aritmética de los cuadrados de las desviaciones respecto de la media. Se representa por σ 2 , y viene dada por la expresión:

n n 2 2 (x x) .f (x x) .f 2 2 2 i i
n
n
2
2
(x
x)
.f
(x
x)
.f
2
2
2
i
i
i
i
(x
x)
.f
+
(x
x)
.f
+ ◊◊◊◊◊◊+
(x
x)
.f
2
1
1
2
2
n
n
i
=
1
i
=
1
=
=
=
n
f
+
f
+
+
f
N
1
2
n
f
i
i
=
1
(vamos a obtener una segunda expresión para σ 2 que vamos a utilizar con frecuencia)
(
x
x
)
2
(
)
2
(
)
2
2
2
2
2
2
2
f
+
x
x
f
+
+
x
x
f
x
.f
+
x
.f
+
+
x
.f
x
f
+
x
f
+
+
x
f
1
1
2
2
n
n
1
1
2
2
n
n
1
2
n
=
+
f
+
f
+
+
f
f
+
f
+
+
f
f
+
f
+
+
f
1
2
n
1
2
n
1
2
n
2
2
2
2x xf
+
2x xf
+
+
2x xf
x
.f
x f
x
.f
x
.f
1
1
2
2
n
n
i
i
2
i
i
i
i
2
2
i
i
2
=
+
x
2x
=
+
x
2x
=
x
f
+
f
+
+
f
f
f
f
f
1
2
n
i
i
i
i

17

DESVIACIÓN TÍPICA Es la raíz cuadrada de la varianza. Se representa por S S =

DESVIACIÓN TÍPICA Es la raíz cuadrada de la varianza. Se representa por S

S =

(x

1

x)

2

.f

1

+

(x

2

 

x)

2

.f

2

+ ◊◊◊◊◊◊+

(x

n

x)

2

.f

n

=

 

f

1

+

f

2

+

+

f

n

n =   f 1 + f 2 + + f n n n (x x)
n n (x x) 2 .f i (x x) 2 .f i i i i
n
n
(x
x)
2 .f
i
(x
x)
2 .f
i
i
i
i = 1
i = 1
=
n
N
f
i
i
=
1

Es la unidad de dispersión más usada. Es siempre positiva. Se calcula directamente en las calculadoras científicas.

Ejemplo 1:

Se ha preguntado a un grupo de 70 alumnos sobre el número de zapatos que calzan, obteniendo los resultados de la siguiente tabla:

N. de calzado

N. de alumnos

35

4

36

15

37

17

38

20

40

10

42

4

Haced un cuadro donde aparezca la desviación media, la desviación típica y la varianza.

x

i

f i

|x i - x |

|x i - x |.f i

(x i - x ) 2

(x i - x ) 2 .f i

35

4

|35-37.67|=2.67

10.68

7.1298

28.5192

36

15

|36-37.67|=1.67

25.05

2.7889

41.8335

37

17

|37-37.67|=0.67

11.39

0.4489

7.6313

38

20

|38-37.67|=0.33

6.6

0.1089

2.178

40

10

|40-37.67|=2.33

23.3

5.4289

54.289

42

4

|42-37.67|=4.33

17.32

18.7489

74.9956

 

70

94.34

34.6543

209.4466

Por tanto:

 

La desviación media DM = 94.34/70 = 1.348

18

La varianza S 2 = 209.4466/70 = 2.992 La desviación típica S = 1.72973

Ejemplo 2:

El consumo de carburantes, en litros, de una flota de camiones a lo largo de un día está tabulado en la siguiente tabla de frecuencias:

Consumo

Camiones

(0,10]

8

(10,20]

12

(20,30]

10

(30,40]

14

(40,50]

21

(50,60]

16

(60,70]

9

Haced un cuadro donde aparezca la desviación media, la desviación típica y la varianza.

Calculamos x = 37.44

Consumo

x

i

Camiones=f i

|x i - x |

|x i - x |.f i

(x i - x ) 2

(x i - x ) 2 .f i

(0,10]

5

8

32.44

259.52

1052.3536

8418.848

(10,20]

15

12

22.44

269.28

503.5536

6042.6432

(20,30]

25

10

12.44

124.4

154.7536

1547.536

(30,40]

35

14

2.44

34.16

5.9536

83.3504

(40,50]

45

21

7.56

158.78

57.1536

1200.2256

(50,60]

55

16

17.56

280.96

308.3536

4933.6576

(60,70]

65

9

27.56

248.04

759.5536

6835.9824

   

90

 

1375.12

 

29062.241

Ejemplo 3:

DM = 1375.12 / 90 = 15.279 S 2 = 29062.241 / 90 = 322.9138 S = 17.9698

 

Se ha anotado el peso de 88 personas, obteniéndose los siguientes resultados:

Peso (Kg)

[38,44) [44,50) [50,56) [56,62) [62,68) [68,74) [74,80)

Nº personas

7

8

15

25

18

9

6

Calcula el rango, la desviación media, la varianza y la desviación típica.

Calculemos primeramente la media aritmética:

= 5204/88 = 59,14

19

Rango: rango=80 - 38 = 42 Kg Desviación media: D = 639,08/88 = 7,26 Kg

Rango: rango=80 - 38 = 42 Kg Desviación media: D = 639,08/88 = 7,26 Kg Varianza: s 2 = 7846,23/88 = 89,16 Kg 2 Desviación típica: s = 9,44 Kg

20

EJERCICIOS RESUELTOS

1) Un inspector de autobuses toma nota de los minutos de retraso con que llegan los autobuses a una parada. Su trabajo queda reflejado en el siguiente diagrama de barras:

trabajo queda reflejado en el siguiente diagrama de barras: Halla la varianza y el rango. Resolución:

Halla la varianza y el rango. Resolución: Formemos la siguiente tabla:

y el rango. Resolución: Formemos la siguiente tabla: Media, x = 445/42 = 10.6 minutos Rango

Media, x = 445/42 = 10.6 minutos Rango = 30 – 0 = 30 minutos S 2 = 1910.12 / 42 = 45.47 min 2

2) Elaborad una tabla de frecuencias con las estaturas de 40 adolescentes:

168

160

167

175

175

167

168 158 149 160

178

166

158

163

171

162

165 163 156 174

160

165

154

163

165

161

162 166 163 159

170

165

150

167

164

165

173 164 169 170

Resolución: El nº de valores distintos que hay es grande (mayor que 20), por eso lo adecuado es clasificarlos en intervalos. Para ello procedemos así:

- localizamos los valores extremos: el menor 149 y el mayor 178. Hallamos su diferencia: 178-149=29 (este es el valor del recorrido).

- Puesto que el nº de datos es pequeño (solo 40), decidimos que el nº de intevalos sea pequeño (por ej, 6). Buscamos un nº mayor que el recorrido y que sea múltiplo de 6, por ej. 30 (el recorrido era 29). De este modo, cada uno de los seis intevalos tendrá una longitud igual a 5

21

- Formamos los intervalos comenzando por un nº algo menor que el 149 y de modo que los seis intervalos abarquen a la totalidad de los datos.

- Repartimos los cuarenta datos en los seis intervalos. (Es conveniente tomar los intervalos con extremos no enteros para que no haya duda de si un valor pertenece a un intervalo o al siguiente.

Intervalos

frecuencias

(148.5, 153.5]

2

(153.5, 158.5]

4

(158.5, 163.5]

11

(163.5, 168.5]

14

(168.5, 173.5]

5

(173.5, 178.5]

4

3) Calcula la media y la desviación típica del ejercicio anterior. Resolución: construyamos la siguiente tabla

Intervalos

(148.5, 153.5]

x

151

i

f

i

2

f

i x i

302

i x i 2

f

45602

(153.5, 158.5]

156

4

624

97344

(158.5, 163.5]

161

11

1771

285131

(163.5, 168.5]

166

14

2324

385784

(168.5, 173.5]

171

5

855

146205

(173.5, 178.5]

176

4

704

123904

 

40

6580

1083970

f .x 6580 i i Media: x = = = f 40 i 2 f
f .x
6580
i
i
Media:
x =
=
=
f
40
i
2
f .x
2
i
i
2
Varianza:
=
x
f
i

164.5cm

1083970

=

40

164.5

2

=

39

2 Varianza: = x f i 164.5cm 1083970 = 40 164.5 2 = 39 Desviación Típica:

Desviación Típica: = 39 = 6.24cm Vemos en este ejemplo la ventaja de la segunda expresión de σ 2 para hallar su valor numérico a partir de una tabla de frecuencias.

4) . Construir la tabla estadística de las edades de las personas que acuden a un logopeda a lo largo de un mes, sabiendo que son:

3,

2,

11,

13,

4,

3,

2,

4,

5,

6,

7,

3,

4,

5,

3,

2,

5,

6,

27,

15,

4,

21,

12,

4,

3,

6,

29,

13,

6,

17,

6,

13,

6,

5,

12,

26

Como hay 36 datos, el número de clases que debemos formar puede ser aproximadamente la raíz cuadrada de 36, es decir 6 clases. Si el intervalo los extendemos de 0 hasta 30, al dividir por 6 se tiene que la amplitud de cada clase debe ser 5.

Este sería un ejemplo de tabla estadística para una variable estadística continua (la edad de una persona no tiene por qué ser un número entero).

22

Clases

Marcas

f i

h i

F i

H

i

de clase

[0, 5)

2’5

13

13

13

13

36

36

[5, 10)

7’5

11

11

24

24

36

36

[10, 15)

12’5

6

6

30

30

36

36

[15, 20)

17’5

2

2

32

32

36

36

[20, 25)

22’5

1

1

33

33

36

36

[25, 30)

27’5

3

3

36

1

36

   

36

1

   

5- Las calificaciones en la asignatura de historia de los/as 40 alumnos/as de una clase viene dada por la siguiente tabla:

Calificaciones

1 2

3

5

4 6

7

8

9

Nº de alumnos/as

2 2

4

8

5 9

3

4

3

Calcula la mediana.

x i

f i

 

F i

 

1 2

2

2 2

4

3 4

8

4 5

13

< 20

5 8

21

> 20

6 9

30

7 3

33

8 4

37

9 3

40

 

40

 

La mediana es

M e = 5 ,

dado que es

el primer

valor de la variable cuya

frecuencia absoluta acumulada, 21, excede la mitad del número de datos, 20.

6- Consideremos la siguiente tabla de frecuencias:

x

i

3

6

7

8

9

f

i

15

20

15

40

10

Calcula la mediana.

x i

f i

F i

23

3

15

15

6

20

35

7

15

50

50

8

40

90

> 50

9

10

100

 

100

 

Como 50 coincide con la frecuencia acumulada del valor 7, la mediana vendrá

dada por la semisuma de 7 y el valor siguiente, 8. Por tanto M e =

7

+

8

2

=

7'5.

7- Se ha aplicado un test sobre satisfacción en el trabajo a 88 empleados/as de una fábrica, obteniéndose los siguientes resultados:

Calcula la mediana.

Nº de trabajadores/as

7

8

15

25

18

9

6

Puntuaciones

[38, 44)

[44, 50)

[50, 56)

[56, 62)

[62, 68)

[68, 74)

[74, 80)

x i

f i

 

F i

[38, 44)

7

7

[44, 50)

8

15

[50, 56)

15

30

<

44

[56, 62)

25

55

>

44

[62, 68)

18

73

[68, 74)

9

82

[74, 80)

6

88

 

88

 

La clase mediana es el intervalo [56, 62) .

M e = 56 + 6

88

2

- 30

25

=

59'36

Observaciones 1. La mediana es particularmente útil en los siguientes casos:

24

a) Cuando entre los datos existe alguno muy extremo que afecta a la

media.

b) Cuando los datos están agrupados en clases y alguna de ellas es

abierta.

2. Como consecuencia de definición de mediana, se tiene que el 50% de los datos son menores o iguales que ella y el 50% restante son mayores o iguales. 3. La mediana depende del orden de los datos y no de su valor.

8- Las calificaciones en la asignatura de historia del arte de los 40 alumnos/as de una clase viene dada por la siguiente tabla:

Calificaciones

 

1

 

2

 

3

 

5

4 6

7

8

   

9

Nº de alumnos/as

 

2

 

2

 

4

 

8

5 9

3

4

   

3

x i

 

f i

     

x f

i

i

 

x

i

2

f

i

1

 

2

   

2

2

 

2

2

4

8

 

3

4

 

12

 

36

 

4

5

20

80

5

8

40

 

200

6

9

54

324

7

3

21

147

8

4

32

256

9

3

27

243

   

40

     

212

 

1296

Media: x = 5'3

 

Varianza: s

2

=

1296

(

5'3

)

2

= 4'31

 

40

Rango: 9-1=8 Varianza y desviación típica:

Desviación típica: s =

40 Rango: 9-1=8 Varianza y desviación típica: Desviación típica: s = 4 ' 3 1 =

4'31 = 2'08

25