You are on page 1of 9

2 ANALISIS EXPLORATORIO DE DATOS 2

Ejemplos y ejercicios de 2 Descripcion estadstica de una variable.


Ejemplos y ejercicios.
2.1 Ejemplos.
Analisis Exploratorio de Datos Ejemplo 2.1 Se ha medido el grupo sanguneo de 40 individuos y se han observado
las siguientes frecuencias absolutas para cada categora: 12 para x1 = A, 11 para
x2 = B, 8 para x3 = AB y 9 para x4 = O.
a) De que tipo es la variable estudiada? Construir la tabla de frecuencias corre-
spondiente.
b) Que porcentaje de individuos son del grupo A?
c) Que porcentaje de individuos no son del grupo O?
d) Cuantos individuos no son del grupo B?

Respuestas: a) Categorica nominal.

grupo ni fi
A 12 0.3
B 11 0.275
AB 8 0.2
O 9 0.225
Total 40 1

b) El 30%, c) el 100 22.5 = 77.5%, d) 40 11 = 29 o bien 12 + 8 + 9 = 29.

Ejemplo 2.2 La siguiente tabla muestra la clasicacion de 901 individuos segun la


Grado en Estadstica y Empresa. Curso 2009/10 variable satisfaccion en el trabajo

xi ni
muy insatisfecho 62
moderamademte insatisfecho 108
moderadamente satisfecho 319
muy satisfecho 412
Aurea Grane Total 901
Dpto. Estadstica, Universidad Carlos III de Madrid a) De que tipo es la variable de estudio? Calcular la tabla de frecuencias corre-
spondiente.
b) Que porcentaje de individuos estan moderadamente satisfechos?
c) Cuantos individuos estan a lo sumo moderadamente insatisfechos? Que por-
centaje representan?
d) Cuantos individuos estan por lo menos moderadamente satisfechos? Que
porcentaje representan?

Respuestas: a) Categorica ordinal,


2 ANALISIS EXPLORATORIO DE DATOS 3 2 ANALISIS EXPLORATORIO DE DATOS 4

xi ni fi Ni Fi b) el 16%, c) 36, d) 3 + 1 + 1 = 5 o bien 50 45 = 5, e) el 16 + 10 + 8 = 34% o bien


muy insatisfecho 62 0.07 62 0.07 (8 + 5 + 4)/50 100 = 34%, f ) el 2 + 2 = 4% o bien 100 96 = 4%, g) el 56%.
moderamademte insatisfecho 108 0.12 170 0.19
moderadamente satisfecho 319 0.35 489 0.54
muy satisfecho 412 0.46 901 1 Ejemplo 2.4 En veinte vuelos de Barcelona a Madrid se han contado el numero de
Total 901 1 asientos vacos en cada vuelo. Se han agrupado los datos en intervalos de longitud 4.

b) El 35%, c) 170 y representan el 19%, d) 319 + 412 = 731 o bien 901 170 = 731, asientos vacos ni
que representan el 35 + 46 = 81% (o bien 100 19 = 81%). 03 9
47 5
8 11 4
Ejemplo 2.3 Se quiere estudiar la ecacia de un nuevo insecticida para plantas de 12 16 2
interior. Se seleccionan 50 plantas y se cuenta el numero de hojas que han sido
atacadas despues de haber tratado la planta con el nuevo producto. Los resultados a) De que tipo es la variable estudiada? Construir la tabla de frecuencias corre-
son: spondiente.
Hojas atacadas ni b) En cuantos vuelos hay menos de 8 asientos vacos? Que porcentaje repre-
0 6 sentan?
1 10 c) En cuantos vuelos hay como mnimo 10 asientos vacos? Que porcentaje
2 12 representan?
3 8
4 5
5 4 Respuestas: a) Cuantitativa discreta,
6 3
intervalos xi ni fi Ni Fi
8 1
10 1 [0, 4) 2 9 0,45 9 0,45
[4, 8) 6 5 0,25 14 0,70
a) De que tipo es la variable de estudio? Construir la tabla de frecuencias corre- [8, 12) 10 4 0,20 18 0,90
spondiente. [12, 16] 14 2 0,10 20 1,00
b) Que porcentaje de plantas tienen solo 3 hojas atacadas? Total 20 1
c) Cuantas plantas tienen como maximo 3 hojas atacadas? b) En 14 vuelos, y representan el 70% de los vuelos, c) Aproximadamente en 2 + 4
d) Cuantas plantas tienen como mnimo 6 hojas atacadas? (10 8)/(12 8) = 4 vuelos, que representan el 4/20 100 = 20% de los vuelos.
e) Que porcentaje de plantas tienen entre 3 y 5 hojas atacadas?
f ) Que porcentaje de plantas tienen al menos 8 hojas atacadas?
g) Que porcentaje de plantas tienen a lo sumo 2 hojas atacadas?

Respuestas: a) Cuantitativa discreta,


Hojas atacadas ni fi Ni Fi
0 6 0,12 6 0,12
1 10 0,20 16 0,32
2 12 0,24 28 0,56
3 8 0,16 36 0,72
4 5 0,10 41 0,82
5 4 0,08 45 0,90
6 3 0,06 48 0,96
8 1 0,02 49 0,98
10 1 0,02 50 1
2 ANALISIS EXPLORATORIO DE DATOS 5 2 ANALISIS EXPLORATORIO DE DATOS 6

Ejemplos de representaciones gracas Figura 3: Histograma y polgono de frecuencias. Datos del ejemplo 2.4.

Figura 1: (a) Diagrama de sectores. Datos del ejemplo 2.1, (b) Graco de Pareto.
2.5
Datos del ejemplo 2.2.
polgono de frecuencias
900 100% 2 histograma
23% 800 89%
30%
700 78%
1.5
600 67%

A 500 55%
B
AB 1
O 400 44%

300 33%
20%
200 22%
0.5
100 11%
28%
0 0%
muy satisfecho mod. satisfecho mod. insatisfecho muy insatisfecho
0 4 8 12 16
(a) (b)

Ejemplo 2.5 Con los siguientes datos construir un diagrama de tallo y hojas.
Datos recogidos (en cm):
11.357, 12.542, 11.384, 12.431, 14.212, 15.213, 13.300, 11.300, 17.206, 12.710,
13.455, 16.143, 12.162, 12.721, 13.420, 14.698. Respuesta:
Datos redondeados y expresados en mm:
Figura 2: Diagrama de barras y polgono de frecuencias. Datos del ejemplo 2.3. 114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135, 161, 122, 127, 134, 147.
Diagrama de tallo y hojas (datos en mm):
11 344
12 polgono de frecuencias
12 24577
diagrama de barras
13 345
10 14 27
15 2
8 16 1
17 2
6

4
Ejemplo 2.6 Un inversor tiene ahorros repartidos en 3 depositos con 2000, 5000 y
2
10000 euros, respectivamente. si el primero le rinde un 5% anual, el segundo un 4%
anual y el tercero un 2% anual, cual es el tipo de interes medio que recibe?
0 1 2 3 4 5 6 7 8 9 10
Respuesta: La variable de estudio es el interes anual. Los valores que toma esta
variable son 5, 4, 2 con pesos 2000, 5000, 10000, respectivamente. El interes medio es
5 2000 + 4 5000 + 2 10000 50000
xP = = = 2.94.
2000 + 5000 + 10000 17000

Ejemplo 2.7 Calcular la mediana y la moda de los conjuntos de datos siguientes:


a) 18, 18, 19, 17, 23, 20, 21, 18
2 ANALISIS EXPLORATORIO DE DATOS 7 2 ANALISIS EXPLORATORIO DE DATOS 8

b) 20, 21, 18, 19, 18, 17, 18 Para el calculo de la moda, buscamos primero el intervalo modal, que es el que pre-
senta mayor ni /Li . Este inetrvalo es [100000, 250000). Aplicando la formula de la
moda:
Respuestas: a) Ordenados los datos en orden creciente, 5.2 105
M o = 100000 + 150000 = 195121.95,
3 10 + 5.2 105
5
17, 18, 18, 18, 19, 20, 21, 23,
esto signica que el numero de habitantes mas frecuente en las provincias espanolas
el valor de la mediana es M e = (18 + 19)/2 = 18.5 y la moda es M o = 18. es de 195122 habitantes, aproximadamente.
b) Ordenados los datos en orden creciente,
Ejemplo 2.9 Con los datos del ejemplo 2.7, calcular la moda.
17, 18, 18, 18, 19, 20, 21,

el valor de la mediana es M e = 18 y la moda es M o = 18. Respuestas: a) M o = 18, b) M o = 18.

Ejemplo 2.10 Calcular la media aritmetica, la mediana, la moda, el primer y tercer


Ejemplo 2.8 Con los datos del ejercicio 2.2 (habitantes de las provincias espanolas) cuartiles, los percentiles 35%, 80% y 95%, la varianza y la desviacion tpica mues-
calcular la media aritmetica, la mediana y la moda. trales, el rango, el rango intercuartlico y la MEDA con los datos del ejemplo 2.3.

hojas atacadas ni Ni xi ni x2i ni


Respuestas: Utilizando la tabla de frecuencias calculada en el apartado b) del ejer-
0 6 6 0 0
cicio 2.2,
1 10 16 10 10
intervalos xi ni fi Ni Fi ni /Li 2 12 28 24 48
[0, 100000) 50000 3 0.058 3 0.058 3 105 3 8 36 24 72
[100000, 250000) 175000 8 0.154 11 0.212 5.3 105 4 5 41 20 80
[250000, 500000) 375000 13 0.250 24 0.462 5.2 105 5 4 45 20 100
[500000, 750000) 600000 10 0.192 34 0.654 4 105 6 3 48 18 108
[750000, 1000000) 875000 7 0.135 41 0.789 2.8 105 8 1 49 8 64
[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 105 10 1 50 10 100
[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 105 Total 50 134 582
[3000000, 4000000) 3500000 0 0 50 0.962 0
[4000000, 6000000) 5000000 2 0.038 52 1 0.1 105
Medidas de tendencia central:
total 52 1
134
tenemos que x= = 2.68, M e = 2, M o = 2.
50
k
1 43050000
x= xi ni = = 827884.62, Medidas de posicion:
n 52 Q1 = 1, Q3 = 4,
i=1
que signica que, en promedio, hay 827884.62 habitantes por provincia. P35 = 2, P80 = 4, P95 = 6.
Para el calculo de la mediana, buscamos primero el intervalo mediano. Puesto que Medidas de dispersion:
n/2 = 26, el intervalo mediano es [500000, 750000). Aplicando la formula de la
582
mediana:
26 24 s2n = 2.682 = 4.46, sn = 4.46 = 2.11,
M e = 500000 + 250000 = 550000, 50
34 24
R = 10 0 = 10, RI = 4 1 = 3.
esto signica que el 50% de las provincias espanolas tienen menos de 550000 habi-
tantes. La mediana de desviaciones absolutas, M EDA, se obtiene calculando la mediana de
los valores absolutos de xi M e(X). Empezamos calculando estas diferencias:
Recordemos que la distribucion de esta variable es bastante asimetrica como muestra
el histograma de frecuencias de la gura 5 (vease el ejercicio 2.2), por tanto, resultara xi M e(X) -2 -1 0 1 2 3 4 6 8
mas able utilizar la mediana y no la media como medida de tendencia central. ni 6 10 12 8 5 4 3 1 1
2 ANALISIS EXPLORATORIO DE DATOS 9 2 ANALISIS EXPLORATORIO DE DATOS 10

yi = |xi M e(X)| ni (y) Ni (y) 2.2 Ejercicios.


0 12 12
1 10+8=18 30 Ejercicio 2.1 Con los datos del ejemplo 2.4 trazar la curva de frecuencias relativas
2 6+5=11 41 acumuladas. Determinar el numero de vuelos que tienen como maximo 10 asientos
3 4 45 vacos.
4 3 48
6 1 49 Respuesta: La gura 4 contiene la curva de frecuencias acumuladas. En el eje
8 1 50 horizontal se representan los valores que toma la variable, en este caso el numero de
asientos vacos, y en el eje vertical se representan las frecuencias relativas acumu-
Puesto que n = 50 es par, la M EDA es la media aritmetica entre el dato 25 y el ladas. Utilizando esta gura vemos que al valor 10 le corresponde una altura de 0.8.
dato 26, es decir: Por tanto, el 80% de los vuelos tienen como maximo 10 asientos vacos. Puesto que
y(25) + y(26) en total hay 20 vuelos, el 80% de los vuelos son 20 (0.8) = 16 vuelos. Este mismo
M EDA = =1
2
Figura 4: Curva de frecuencias acumuladas o polgono de frecuencias acumuladas.
Ejemplo 2.11 Calcular la media aritmetica, la mediana, la moda, el primer y tercer Datos del ejemplo 2.4.
cuartiles, los percentiles 30% y 57%, la varianza y la desviacion tpica muestrales, el
rango y el rango intercuartlico con los datos del ejemplo 2.4.
1
intervalo xi ni Ni xi ni x2i ni ni /Li
[0, 4) 2 9 9 18 36 2.25 0.8
0.75
[4, 8) 6 5 14 30 180 1.25
[8, 12) 10 4 18 40 400 1
[12, 16) 14 2 20 28 392 0.5 0.5
Total 20 116 1008
0.25

Medidas de tendencia central:


116 10 9 0 4 8 10 12 16
x= = 5.8, M e = 4 + (4 0) = 4.8,
20 14 9
1.25 calculo puede realizarse utilizando la tabla de frecuencias del ejemplo 2.4. Recordemos
M o = 0 + (4 0) = 4.
0 + 1.25 como era la tabla:
Medidas de posicion:
Intervalo xi ni fi Ni Fi
4(5 0) 4(15 14) [0, 4) 2 9 0,45 9 0,45
Q1 = 0 + = 2.22, Q3 = 8 + = 9,
90 18 14 [4, 8) 6 5 0,25 14 0,70
4(6 0) 4(11.4 9) [8, 12) 10 4 0,20 18 0,90
P30 = 0 + = 2.67, P57 = 4 + = 5.92. [12, 16] 14 2 0,10 20 1,00
90 14 9
Medidas de dispersion: Total 20 1

1008
s2n = 5.82 = 16.76, sn = 16.76 = 4.09, El numero de vuelos que tienen a lo sumo 10 asientos vacos lo obtendremos sumando
20
las frecuencias observadas en el intervalo [0, 4) mas las frecuencias observadas en el
R = 16 0 = 16, RI = 9 2.22 = 6.78. intervalo [4, 8) mas una parte de las frecuencias observadas en el intervalo [8, 12). Es
decir,
10 8
9+5+ 4 = 16.
12 8
2 ANALISIS EXPLORATORIO DE DATOS 11 2 ANALISIS EXPLORATORIO DE DATOS 12

Ejercicio 2.2 Clasicadas las provincias espanolas por su numero de habitantes en Por tanto, el numero de provincias que tienen entre 800000 y 1300000 habitantes es
2001, se obtuvieron los siguientes datos: aproximadamente

Num. habitantes Num. provincias 1000000 800000 1300000 1000000


7+ 8
de 1 a 100 000 3 1000000 750000 2000000 1000000
de 100 000 a 250 000 8 = 0.8 7 + 0.3 8 = 8 provincias.
de 250 000 a 500 000 13
de 500 000 a 750 000 10 d) La gura 5 contiene el histograma de frecuencias absolutas.
de 750 000 a 1 000 000 7
de 1 000 000 a 2 000 000 8 Figura 5: Histograma de frecuencias absolutas. Datos del ejercicio 2.2.
de 2 000 000 a 3 000 000 1
de 3 000 000 a 4 000 000 0
de 4 000 000 a 6 000 000 2
5 105
a) Constuir una tabla estadstica con las marcas de clase, las frecuencias absolutas
y las frecuencias relativas.
4 105
b) Cuantas provincias tienen menos de 500 000 habitantes? Que porcentaje
representan? 3 105
c) Cuantas provincias tienen entre 800 000 y 1 300 000 habitantes?
d) Construir el histograma de frecuencias absolutas. 2 105

Respuestas: a) La tabla de frecuencias con una columna adicional que sera util para 105
la construccion del histograma es la siguiente:

intervalos xi ni fi Ni Fi ni /Li 0 1 2 3 4 5 6
[0, 100000) 50000 3 0.058 3 0.058 3 105 millones de habitantes
[100000, 250000) 175000 8 0.154 11 0.212 5.3 105
[250000, 500000) 375000 13 0.250 24 0.462 5.2 105
[500000, 750000) 600000 10 0.192 34 0.654 4 105
[750000, 1000000) 875000 7 0.135 41 0.789 2.8 105 Ejercicio 2.3 Los siguientes datos corresponden a las medidas de 15 individuos sobre
[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 105 la variable cuantitativa peso:
[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 105
62, 74, 86, 53, 49, 71, 68, 67, 69, 70, 58, 59, 73, 74, 78.
[3000000, 4000000) 3500000 0 0 50 0.962 0
[4000000, 6000000) 5000000 2 0.038 52 1 0.1 105 a) Construid una tabla de frecuencias absolutas, relativas, absolutas acumuladas y
b) 24 provincias, que representan el 46.2%. relativas acumuladas.
c) El intervalo [800000, 1300000] esta situado encima de dos intervalos de clase: b) Realizad un diagrama de tallo y hojas.


Respuestas: a) Agrupamos los datos en k = 15 4 intervalos de clase:
800000 1300000
 
  intervalos xi ni fi Ni Fi
[ ] [49, 59) 54 3 0.2 3 0.2
[59, 69) 64 4 0.267 7 0.467
750000 106 2 106 [69, 79) 74 7 0.467 14 0.934
[79, 89] 84 1 0.067 15 1.001

b) El diagrama de tallo y hojas es:


2 ANALISIS EXPLORATORIO DE DATOS 13 2 ANALISIS EXPLORATORIO DE DATOS 14

4 9 Ejercicio 2.6 Dada la siguiente distribucion en el numero de hijos de cien familias,


5 389 calcular sus cuartiles.
6 2789
7 013448 xi ni Ni
8 6 0 14 14
1 10 24
2 15 39
Ejercicio 2.4 Obtener las desviaciones con respecto a la media en la siguiente dis- 3 26 65
tribucion y comprobar que su suma es cero. 4 20 85
5 15 100
intervalo frecuencia
0-10 1
10-20 2 Respuesta: Puesto que n = 100 es par,
20-30 4
30-40 3 x(50) + x(51)
Me = = 3,
2
Respuesta: Primeramente construimos la tabla de frecuencias. Con la tercera que coincide con Q2 . Para calcular Q1 y Q3 debemos buscar los valores n/4 y 3 n/4
columna de la tabla calculamos la media aritmetica, que es x = 240/10 = 24. En en la columna de las frecuencias acumuladas:
la cuarta columna obtenemos las desviaciones respecto de la media, y en la quinta
n 3n
ponderamos por la frecuencia observada en cada intervalo. = 25 Q1 = 2, = 75 Q3 = 4.
4 4
[li1 , li ) xi ni xi ni xi x (xi x) ni
[0, 10) 5 1 5 -19 -19
Ejercicio 2.7 Calcular la varianza y la desviacion tpica de las siguientes cantidades
[10, 20) 15 2 30 -9 -18
en metros: 3, 3, 4, 4, 5.
[20, 30) 25 4 100 1 4
[30, 40] 35 3 105 11 33
Respuesta:
Total 10 240 0
xi ni xi ni x2i x2i ni
3 2 6 9 18
Ejercicio 2.5 Una empresa esta interesada en seleccionar entre dos candidatos para 4 2 8 18 32
un puesto de trabajo. Las valoraciones que han obtenido en las entrevistas y pruebas 5 1 5 25 25
a que han sido sometidos son las siguiente:
total 5 19 75
Aspecto Candidato A Candidato B
experiencia 8 7 La media aritmetica es x = 19/5 = 3.8 m, la media de cuadrados es x2 = 75/5 =
conocimientos 6 7 15 m2 , la varianza muestral 2 2 2 2 2
es sn = x x = 15 (3.8) = 0.56 m y la desviacion
psicontecnico 4 5 tpica muestral es sn = 0.56 = 0.75 m.
Si la empresa da una importancia del 60% a la experiencia, del 25% a los conocimien- Puesto que hay pocos valores, los calculos de la media y de la varianza se podan
tos y del 15% a la habilidad psicotecnica, cual de los dos candidatos va a escoger? haber hecho directamente:
n
1 3+3+4+4+5
Respuesta: Calculamos las medias ponderadas para cada candidato, con pesos 60, x= xi = = 3.8,
n 5
25 y 15, respectivamente para cada categora. El candidato que obtenga una media i=1

poderada mayor sera el candidato escogido. n



1 9 + 9 + 16 + 16 + 25
8 60 + 6 25 + 4 15 s2n = x2i x2 = (3.8)2 = 0.56.
xP (A) = = 6.9, n 5
i=1
100
7 60 + 7 25 + 5 15
xP (B) = = 6.7
100
2 ANALISIS EXPLORATORIO DE DATOS 15 2 ANALISIS EXPLORATORIO DE DATOS 16

Ejercicio 2.8 De los ocho empleados de una ocina, se han considerado las distribu- a) Obtener el alquiler medio por apartamento, el precio mas frecuente y el precio
ciones de sus edades y sus anos de antiguedad en la empresa: que se situa en medio de la oferta.
b) Si una persona esta dispuesta a gastarse en alquiler entre 1250 y 1350 euros al
Edad 40 22 19 30 62 32 45 51
mes, a que porcentaje de apartamentos tiene opcion?
Antiguedad 15 3 1 8 39 13 17 24
c) Por debajo de que precio estan el 80% de los apartamentos?
Calcular lor rangos de estas dos distribuciones. Cual de las dos tiene mayor grado d) Entre que precios estan el 50% central de los apartamentos?
de dispresion?
Respuestas: a) Empezamos construyendo la tabla de frecuencias, y las columnas
Respuesta: auxiliares para realizar los calculos:
R(edad) = 62 19 = 43, R(antiguedad) = 39 1 = 38.
[li1 , li ) xi ni Ni fi xi ni ni /Li
Aunque el rango de la variable edad sea mayor que el rango de la variable antiguedad, [700, 1000) 850 21 21 0.168 17850 0.07
esto no signica que el grado de dispersion de edad sea tambien mayor. Para decidir [1000, 1100) 1050 27 48 0.216 28350 0.27
que variable tiene un mayor grado de dispersion debemos calcular el coeciente de [1100, 1300) 1200 34 82 0.272 40800 0.17
variacion. As, para la variable edad tenemos que: [1300, 1500) 1400 14 96 0.112 19600 0.07
n [1500, 1800) 1650 8 104 0.064 13200 0.027
1 301
x = xi = = 37.6, [1800, 2000) 1900 11 115 0.088 20900 0.055
n 8 [2000, 2100] 2050 10 125 0.08 20500 0.1
i=1
12839 Total 125 1 161200
s2n = x2 x2 = (37.6)2 = 189.23,
8
sn = 189.23 = 13.8, El alquiler medio por apartamento lo obtendremos mediante el calculo de la media
sn 13.8 aritmetica:
CV = 100 = 100 = 36.7%, 1
n
161200
x 37.6 x= xi ni = = 1289.6 euros/mes
mientras que para la variable antiguedad: n 125
i=1
n
1 120 El precio mas frecuente lo obtendremos mediante el intervalo modal, o bien, si quere-
x = xi = = 15, mos ser mas precisos, mediante la moda. Puesto que todos los intervalos no tienen la
n 8
i=1 misma amplitud, para saber cual es el intervalo modal debemos jarnos en la columna
2854 que contiene los valores de ni /Li y no en la de las ni . As pues, el intervalo modal es
s2n = x2 x2 = (15)2 = 131.75,
8 [1000, 1100), o sea que el precio mas frecuente de los apartamentos esta entre 1000 y
sn = 131.75 = 11.48, 1100 euros mensuales. La siguiente formula permite situar el valor de la moda dentro
sn 11.48 del intervalo modal [li1 , li ):
CV = 100 = 100 = 76.5%.
x 15 ni+1
Li+1
Por tanto, la variable antiguedad tiene una mayor dispresion, a pesar de que su rango M o = li1 + Li ni1 ni+1 .
es menor. Li1 + Li+1

En nuestro caso, el intervalo modal es [1000, 1100) y substituyendo obtenemos:


Ejercicio 2.9 Una empresa inmobiliaria ofrece apartamentos en regimen de alquiler 0.17
con los siguientes precios (en euors): M o = 1000 + 100 = 1070.83 euros/mes.
0.07 + 0.17
precio alquiler (mensual) numero de apartamentos El precio que se situa en medio de la oferta viene dado por la mediana. El intervalo
700-1000 21 mediano es [1100, 1300), puesto que en el se situa n/2 = 125/2 = 62.5. Utilizando la
1000-1100 27 formula de la mediana, obtenemos:
1100-1300 34 62.5 48
1300-1500 14 M e = 1100 + (1300 1100) = 1185.29 euros/mes.
82 48
1500-1800 8
1800-2000 11 b) Primero debemos ver dentro de que intervalos de clase se situa el intervalo de
2000-2100 10 precios que nos piden, esto es, [1250, 1350].
2 ANALISIS EXPLORATORIO DE DATOS 17 2 ANALISIS EXPLORATORIO DE DATOS 18

[li1 , li ) xi ni Ni fi xi ni ni /Li Ejercicio 2.10 Con los datos del ejemplo 2.3, calcular los coecientes de asimetra
[1100, 1300) 1200 34 82 0.272 40800 0.17 de Pearson y de Fisher.
[1300, 1500) 1400 14 96 0.112 19600 0.07
Respuesta:
Observando la tabla vemos que el extremo inferior del intervalo [1250, 1350] esta hojas atacadas ni xi x (xi x)3 ni
dentro de [1100, 1300) y el extremo superior dentro de [1300, 1500). As pues, el
0 6 -2.68 -115.49
numero de apartamentos con un precio entre 1250 y 1350 euros es
1 10 -1.68 -47.42
1300 1250 1350 1300 1 1 2 12 -0.68 -3.77
34 + 14 = 34 + 14 = 12, 3 8 0.32 0.26
1300 1100 1500 1300 4 4
4 5 1.32 11.50
12
que representa el 125 100 = 9.6% del total de apartamentos. 5 4 2.32 49.95
c) El precio por debajo del cual estan el 80% de los apartamentos viene dado por el 6 3 3.32 109.78
percentil P80 . Este percentil esta dentro del intervalo [1500, 1800), puesto que en el 8 1 5.32 150.57
se encuentra el valor 80 n/100 = 80 125/100 = 100. Utilizando la formula para el 10 1 7.32 392.22
calculo de los percentiles, obtenemos: 50 547.61
100 96
P80 = 1500 + (1800 1500) = 1650 euros/mes. En el ejemplo 2.10 hemos calculado
104 96
d) El 50% central de los apartamentos viene determinado por el primer y tercer x = 2.68, sn = 2.11, M o = 2,
cuartiles.
n 125 por tanto, el coeciente de asimetra de Pearson es:
= = 31.25 Q1 [1000, 1100),
4 4
x Mo 2.68 2
31.25 21 AsP = = = 0.3223.
Q1 = 1000 + (1100 1000) = 1037.96 euros/mes. sn 2.11
48 21
3n 3 125 A partir de la tabla anterior podemos obtener el coeciente de asimetra de Fisher:
= = 93.75 Q3 [1300, 1500),
4 4 1 n
(xi x)3 ni 547.61/50
93.75 82 AsF = n i=1 3 = = 1.1659.
Q3 = 1300 + (1500 1300) = 1467.86 euros/mes. sn 2.113
96 82
En este caso, el uso de AsP no es muy recomendable, puesto que el polgono de
frecuencias de esta distribucion no tiene forma acampanada (vease gura 2). En
cambio, el coeciente AsF indica que hay una mayor asimetra positiva.