Академический Документы
Профессиональный Документы
Культура Документы
ESTADISTICA DESCRIPTIVA
M. J. Rubio
Un poco de Historia
Una de las mas bellas leyendas de las mil y una noches cuenta que el califa Har
un
al Rasid sala disfrazado de mercader de su palacio para conocer la opinion de los
habitantes de Bagdad. Tambien el escritor estadounidense Mark Twain, muchos a
nos
despues, hace del prncipe Eduardo un mendigo, que de este modo llegar a conocer
como vivan y pensaban sus s
ubditos.
El estudio estadstico mas antiguo que se conoce se realizo en China cuando el
emperador Yao encargo la confeccion de un censo del imperio. Esto suceda a finales del
tercer milenio antes de Cristo. Tambien se tienen noticias de que en el antiguo Egipto se
realizaron estadsticas y trabajos censales de tipo agrcola. Otro censo famoso, seg
un
relataba el historiador Tacito, fue el que recoga las propiedades y los ejercitos del
imperio de Roma en tiempos del emperador Octavio Augusto. No obstante, hemos de
esperar alg
un tiempo hasta que aparezcan los trabajos de John Graunt, un comerciante
de mercera ingles, considerado como el precursor de la actual estadstica. Graunt, entre
los a
nos 1604 y 1661, realizo un estudio sobre los nacimientos y defunciones de Londres
y, a partir de los datos obtenidos, extrajo consecuencias formulando leyes demograficas
y comportamientos sociologicos. Treinta a
nos mas tarde publica el astronomo Halley
un estudio sobre las tasas de mortalidad, sentandose las bases de los estudios sobre
esperanza de vida.
Hoy, en el siglo XXI, los metodos han cambiado de manera radical y en la actualidad
la importancia de la estadstica es enorme: los metodos estadsticos son fundamentales
para estimar, planificar, predecir y decidir en problemas relacionados con la poltica, la
sociologa, la investigacion, la industria, la economa y una larga lista de actividades.
1.
Conceptos b
asicos
La Estadstica se puede definir como la ciencia que tiene por objeto dar metodos para el tratamiento de los datos de observacion y su aplicacion para la toma de
decisiones.
Tambien se dice que es la ciencia que estudia el comportamiento de los fenomenos
de masas. Es decir, la ciencia encargada de la
1. Observacion y analisis de los datos.
2. Interpretacion y obtencion de conclusiones y previsiones.
La rama de la Estadstica que se ocupa de la organizacion, sntesis y descripcion
de los datos es la Estadstica descriptiva mientras que la rama que utiliza los datos
de la muestra para inferir algo acerca de una poblacion, se denomina Estadstica
inferencial.
A continuacion introduciremos las nociones generales basicas que utilizaremos:
Definici
on 1 Universo, Colectivo o smplemente Poblaci
on es el conjunto o coleccion
de elementos que son objeto de estudio.
Definici
on 2 Se dice unidad estadstica o individuo a cada uno de los elementos de
la poblacion.
Definici
on 3 Se denomina tama
no de la poblaci
on al n
umero de elementos que la
componen y se acostumbra a distinguir entre poblaci
on finita e infinita.
Definici
on 4 Una muestra es un subconjunto de elementos de la poblacion.
A veces el estudio estadstico no se puede realizar observando todos los elementos de
la poblacion. Pueden ser cuestiones de tipo economico, de tiempo o por ser la poblacion
muy grande. Esto hace que sea preferible un muestreo.
La muestra no puede ser cualquier subconjunto, sino que debe ser representativo
de toda la poblacion. Ello se estudia en la llamada Teora de Muestras.
Definici
on 5 Los caracteres son las cualidades de los individuos de la poblacion que
son objeto de estudio. Se clasifican en dos, seg
un sean medibles o no:
2
Cuantitativos o variables (m de vivienda, edad): son aquellos caracteres susceptibles de ser cuantificados, es decir, que se pueden describir mediante n
umeros.
Cualitativos o atributos (color de ojos, nacionalidad): son aquellos que por su
naturaleza no se pueden cuantificar y por lo tanto se describen mediante palabras.
Definici
on 6 Los diferentes valores que puede tomar un caracter se denominan mo
dalidades. Estas
deben estar bien definidas de tal manera que cada individuo pertenezca a una u
nica modalidad.
Definici
on 7 A los valores numericos de las distintas modalidades que toma un caracter cuantitativo se llama Variable estadstica. Distinguimos dos tipos de variables:
Variable discreta: (n de hijos, n de acciones vendidas un da en la Bolsa) es
aquella que solo puede tomar valores determinados o aislados. Es decir, aquella para la
2
que entre dos valores, por muy alejados que esten, no puede tomar mas que un n
umero
finito de valores.
Variable continua: (temperaturas tomadas en un observatorio cada hora) si puede
tomar infinitos valores entre dos valores dados, por proximos que esten estos.
2.
Distribuciones de Frecuencias
Uno de los conceptos que utilizaremos en las definiciones posteriores es el de frecuencia que no es sino el n
umero de veces que aparece una determinada modalidad de
un caracter. La utilizacion de las frecuencias en tablas estadsticas permite organizar
y resumir el conjunto de datos de manera que sea mas comprensible y significativo.
2.1.
Definiciones
2) Nk =
k
X
ni = N
3) ni = Ni Ni1
i=1
4)
0 fi 1
5)
Fk =
k
X
i=1
fi = 1
6)
fi = Fi Fi1
2.2.
Una vez recogidos los datos de la muestra, se efectua una primera clasificacion,
llamada distribucion de frecuencias, donde aparecen las modalidades observadas junto
a su frecuencia. La presentacion se hace en forma de tabla, donde se agrupan y ordenan
los datos.
Las distribuciones de frecuencias se clasifican en tres tipos atendiendo al n
umero
de observaciones y al n
umero de valores distintos que toma la variable:
i) Cuando hay muy pocas observaciones y, en consecuencia, un n
umero reducido de
valores distintos que toma la variable.
ii) Cuando el n
umero de observaciones es grande, pero el n
umero de valores distintos
que toma la variable es peque
no.
iii) Cuando el n
umero de observaciones es grande y el n
umero de valores distintos
que toma la variable es tambien grande.
En los dos primeros casos se actua de igual forma, es decir, para construir la tabla
estadstica correspondiente basta con poner en una primera columna los pocos valores
distintos de la variable, y en la segunda, las frecuencias que estemos interesados en
mostrar. Si los valores estan ordenados de menor a mayor, se disponen como en la
tabla siguiente:
xi
x1
x2
..
.
ni
n1
n2
..
.
fi
f1
f2
..
.
Ni
N1
N2
..
.
Fi
F1
F2
..
.
xk
nk
fk
Nk
Fk
2
3
1
2
1
3
4
6
5
3
2
1
5
4
2
4
3
6
4
1
6
5
1
2
3
1
4
3
5
6
5
2
1
3
4
3
6
4
3
5
1
2
3
6
5
ni
9
8
11
7
7
8
fi
9/50
8/50
11/50
7/50
7/50
8/50
Ni
9
17
28
35
42
50
Fi
9/50
17/50
28/50
35/50
42/50
50/50 = 1
xi
x1
x2
..
.
ni
n1
n2
..
.
fi
f1
f2
..
.
Ni
N1
N2
..
.
Fi
F1
F2
..
.
[Lk1 , Lk ]
xk
nk
fk
Nk
Fk
ni
2
9
11
6
2
Nia
2
11
22
28
30
5
Nid
30
28
19
8
2
2.3.
Representaciones gr
aficas
Las graficas ayudan a visualizar la informacion obtenida. Las frecuencias (absolutas, relativas o acumuladas) se representan mediante distintos tipos de graficos. A
continuacion se relacionan algunos de los mas utilizados.
2.3.1.
Caracteres cualitativos
Diagrama de rect
angulos. Para cada modalidad se presenta un rectangulo
cuya altura coincide con la frecuencia absoluta (o relativa).
Diagrama de sectores. Consiste en dividir un crculo en sectores circulares cuyas
areas sean proporcionales a las frecuencias de cada modalidad. El angulo (en grados)
del sector circular correspondiente a la modalidad i-esima es i = 360.fi
Pictograma. Consiste en efectuar dibujos alusivos, de tama
no proporcional a la
frecuencia de cada modalidad (similar a un diagrama de rectangulos, cambiando estos
por dibujos). Tambien se suele tomar un dibujo como unidad y repetirlo tantas veces
como indique su frecuencia.
Cartograma. Se utiliza cuando la poblacion estudiada pertenece a una zona geografica. Entonces, sobre el mismo plano se representan las distintas modalidades mediante
rayas, puntos, colores, etc.
Ejercicio 1 Durante un determinado perodo la ditribucion de clientes de un hotel
seg
un su nacionalidad fue la siguiente: espa
noles (500), franceses (120), otros (100).
Representarlos graficamente.
2.3.2.
Caracteres cuantitativos
En este caso las representaciones graficas se realizan sobre los ejes coordenados y a
veces, para que sea mas significativa , se realiza un cambio de escala en los ejes.
Diagrama de barras. Se utilizan para representar variables discretas y es similar
al de rectangulos. Se asigna a cada valor de la variable una barra o rectangulo (todos
de igual base) de marnera que su altura sea proporcional a la frecuencia que representa.
Diagrama de sectores. Se utiliza generalmente en variables sin agrupar en intervalos. Consiste en dividir un crculo en sectores proporcionales a las frecuencias de
cada modalidad.
Histograma. Se utiliza en variables agrupadas en intervalos. Para cada intervalo,
se dibuja un rectangulo apoyado sobre el eje X cuya base es el intervalo y cuya area es
proporcional a la frecuencia a representar. Por tanto, la altura del rectangulo i-esimo
(hi ) sera proporcional a su densidad de frecuencia.
En particular, si los intervalos son de igual amplitud, las alturas de los rectangulos
seran iguales a las frecuencias respectivas, ya que al ser las bases de los rectangulos
iguales, las areas solo dependeran de las alturas.
Polgono de frecuencias. Se obtiene uniendo los extremos de las barras en el
diagrama de barras o los puntos medios superiores de los rectangulos en el histograma
Polgono de frecuencias acumuladas. Igual que el polgono de frecuencias pero
utilizando las correspondientes frecuencias acumuladas.
Ejercicio 2 Representar el diagrama de barras, polgono de frecuencias, diagrama de
barras acumulativo y grafico de sectores con los datos del ejemplo1.
Ejercicio 3 Construir el histograma y el polgono de frecuencias absolutas del ejemplo 2
Ejercicio 4 Realizar el histograma de la siguiente distribucion:
Valores Frecuencias
2-4
25
4-6
36
6-9
48
9 - 13
61
3.
Medidas de Posici
on
Las medidas de posicion central o promedios, son valores alrededor de los cuales se
agrupan los valores de la variable. Estos valores pueden ser mas o menos representativos
y nos permiten comparar distintas muestras.
Las medidas de posicion central mas utilizadas son la media aritmetica, la mediana
y la moda.
3.1.
Media aritm
etica
Consideramos una variable X que toma los valores distintos x1 , x2 , ...xk con frecuencias n1 , n2 , ..., nk respectivamente haciendo un total de N datos.
La media aritm
etica se define como la suma de todos los valores de la distribucion,
dividida por el n
umero total de observaciones. Se denota x:
k
X
x1 n1 + x2 n2 + + xk nk
x=
=
N
xi n i
i=1
k
X
xi f i
i=1
3.2.
Moda
hi
G
D
B
hi+1
F
E
hi1
Li1
Mo
Li
1
ai ,
1 + 2
donde 1 = hi hi1
y 2 = hi hi+1
Ejercicio 8 Calcula de dos formas distintas (datos agrupados y sin agrupar) la moda
del ejercicio 2.
Ejercicio 9 Calcula la moda de la distribucion dada en el ejercicio 4
3.3.
Mediana
Ni
N/2
Ni1
Li1
Me
Li
En el caso de valores agrupados en intervalos, se contempla primero el intervalo que contenga a la mediana (Intervalo mediano: [Li1 , Li ]), para posteriormente
interpolar en el mediante la formula
Me = Li1 +
N/2 Ni1
ai
ni
Esta medida tiene la ventaja respecto de la media aritmetica de ser menos sensible
a los valores extremos de las observaciones.
Ejercicio 10 Calcula de dos formas distintas (datos agrupados y sin agrupar) la mediana del ejemplo 2.
3.4.
Cuantiles
Los cuantiles son medidas no centrales, que dividen a la poblacion en partes y nos
permiten conocer la posicion de un valor de la variable respecto de los demas.
Los cuantiles de orden q son q 1 valores (Q1/q , Q2/q , ..., Qq1/q ) que dividen la
distribucion en q partes con el mismo n
umero de observaciones. En general un cuantil
divide a la poblacion en dos partes de tal manera que una proporcion de la poblacion
es menor que el y el resto mayor.
9
k
N 100
Ni1
ai
ni
Ni
E
k
N 100
Ni1
Li1
Pk
Li
4.
Medidas de dispersi
on
En lo que sigue consideraremos la variable X que toma los valores distintos x1 , x2 , ...xk
con frecuencias respectivas n1 , n2 , ..., nk haciendo un total de N datos.
Ejemplo 3 La edad de dos grupos de individuos representados por las distribuciones
unitarias X e Y se dan en la siguiente tabla
xi
Individuo 1
14 a
nos
Individuo 2
16 a
nos
Individuo 3
18 a
nos
Individuo 4
20 a
nos
Individuo 5
22 a
nos
Suma de edades
90 a
nos
Media aritmetica x = 18 a
nos
yi
2 a
nos
4 a
nos
5 a
nos
39 a
nos
40 a
nos
90 a
nos
y = 18 a
nos
Evidentemente los dos grupos son muy diferentes entre s; uno corresponde a un grupo
de jovenes, mientras que el otro podra ser una familia con 3 hijos. Medidas de posicion
como la media de edad, mediana, moda o cuantiles, no aportan suficiente informacion
para conocer adecuadamente la distribucion.
4.1.
Rango
4.2.
Desviaci
on media
Una medida de la dispersion de los datos de una muestra se puede obtener calculando las distancias de cada uno de los datos a un valor p elegido previamente.
Generalmente tomaremos como parametro p una medida de tendencia central (media o mediana).
La desviacion media respecto a un parametro p es la media aritmetica de las distancias de las observaciones a dicho parametro p.
k
k
X
1 X
|xi p|ni =
|xi p|fi
DM (p) =
N i=1
i=1
11
k
X
|xi M e|fi
i=1
Cuando los valores estan agrupados en intervalos xi seran las marcas de clase.
Ejercicio 14 Calcula la desviacion media en los ejemplos 1 y 2.
Ejercicio 15 Calcula la desviacion mediana en el ejercicio 4.
4.3.
Varianza y desviaci
on tpica
2
t
t
2
(xi x) ni =
x2 n i x2
= =
N i=1
N i=1 i
Como se desprede de su definicion, la varianza y desviacion tpica son n
umeros
positivos. Si = 0 significa que las observaciones son iguales a la media. Luego, la
representatividad de la media sera mayor cuanto mas peque
na sea la desviacion tpica.
Ejercicio 16 Calcula la desviacion tpica de las dos distribuciones X e Y del ejemplo
3
12
Cuasivarianza y cuasidesviaci
on tpica
1 X
S =
(xi x)2 ni
N 1 i=1
2
S = S2
4.3.2.
Variable tipificada
X x
,
es decir,
zi =
xi x
4.4.
Coeficiente de variaci
on
Coeficiente de variaci
on de Pearson es el cociente entre la desviacion tpica y
la media:
CV =
|x|
Este coeficiente pierde representatividad cuando la media se acerca a cero. Mide la
dispersion relativa de la poblacion y es independiente de la unidad de medida o cambio
13
de escala; por tanto, permite establecer comparacion entre las dispersiones de muestras
que vengan expresadas en distintas unidades.
En ocasiones, para poder trabajar con porcentajes, este coeficiente es multiplicado
por 100.
En general, se define el coeficiente de variacion media respecto un promedio p como
sigue:
DM (p)
CV M (p) =
|p|
Analogamente a lo dicho en la desviacion media, se suele elegir como parametro p la
media o la mediana.
Ejercicio 18 Calcula el coeficiente de variacion de Pearson de las dos distribuciones
X e Y del ejemplo 3. Que puede decirse de la representatividad de la media en cada
uno de los dos grupo?
Ejercicio 19 Se ha aplicado un mismo test a dos grupos de alumnos A y B. Los
resultados obtenidos han sido respectivamente xA = 38, A = 7 y xB = 38, B = 7.
Que grupo tiene mayor dispersion?
5.
Medidas de forma
Estas medidas nos dan una idea de la forma de la distribucion sin necesidad de
realizar su representacion grafica (diagrama de barras o histograma).
Dichas medidas comparan aspectos de la representacion grafica de la variable (simetra y apuntamiento) con la curva normal o campana de Gauss que nos sirve como
modelo.
5.1.
Medidas de simetra
14
x Mo
15
m3
3
siendo m3 =
k
1 X
(xi x)3 ni
N i=1
5.2.
k
1 X
siendo m4 =
(xi x)4 ni
N i=1
urtica
g2 > 3 Mas apuntamiento que la normal : leptoc
g2 = 3 Igual apuntamiento que la normal : mesoc
urtica
6.
1.
Relaci
on de ejercicios
Responde a las siguientes preguntas:
a) Sobre la base de una encuesta se llego a la conclusion que el 10 % de los
espa
noles que viajaron al extranjero durante el a
no 2005 prefirieron no contratar ning
un seguro de viaje. Se llego a esa conclusion a partir de una
muestra o de una poblacion?
b) El 15 % de las matriculaciones realizadas en Espa
na durante los u
ltimos cinco
a
nos fueron de una determinada marca comercial. Se llego a esa conclusion
a partir de una muestra o de una poblacion?
2.
Para cada uno de los siguientes conjuntos de datos, indica si son cualitativos o
cuantitativos y describe las distintas modalidades.
a) Superficie de los cincos continentes
b) N
umero de miembros de una familia
c) Estado civil de una persona
d) Marcas de ordenadores utilizados por 100 estudiantes de Ingeniera
e) Precio medio por metro cuadrado de la vivienda en cuatro ciudades espa
nolas:
Madrid, Barcelona, Santander, Logro
no.
3.
0
4
1
5
2
6
3
9
4
12
5
15
6
10
7 8 9 10
8 5 4 2
Se pide
a) Frecuencias absolutas, relativas y acumuladas.
b) Porcentaje de alumnos suspensos.
c) Porcentaje de alumnos con calificacion de notable.
d) N
umero de alumnos aprobados.
e) Diagrama de barras y polgono de frecuencias.
4.
50
36
38
58
42
49
48
46
55
50
52
49
51
52
36
38
47
41
52
55
53
48
57
59
56
49
ni
4
4
7
5
Ni
fi
0,08
16
0,16
0,14
28
38
45
Fi
0,14
Se pide:
a) Rellenar la tabla estadstica.
b) N
umero de alumnos que se han examinado.
c) N
umero de alumnos que han obtenido una nota superior a 3.
d) Porcentaje de alumnos que han sacado una nota igual a 6.
e) Porcentaje de alumnos que han sacado una nota inferior a 4.
f ) N
umero de alumnos que han obtenido una nota superior a 2 e inferior a 5.
g) Diagrama de frecuencias relativas acumuladas.
6.
1
5
2
7
18
3
4
4
1
5
8
7.
Los siguientes valores corresponden al tiempo que esperan para ser atendidos 15
clientes de una compa
na aerea (en minutos):
20,
25,
22,
20,
25,
20,
21,
22,
22,
24,
23,
20,
23,
20,
23
Obtener:
a) El tiempo medio de espera.
b) El tiempo maximo que espero el 50 % de los clientes.
c) El tiempo mas frecuente de espera.
8.
Los viajes en avion realizados por los gerentes comerciales de 50 cadenas hoteleras
distribuidas por Europa durante un mes se recogen en la siguiente tabla:
Li1 Li
[40, 100)
[100, 200)
[200, 500)
[500, 1000]
ni
10
20
15
5
Cien peque
nos agentes de viaje se agrupan de acuerdo con su n
umero de clientes
en la siguiente distribucion:
Li1 Li
ni
ni
Ni
6
11
Porcentaje
12,5
9
27
10
25
7,5
C. I.
61 69 69 77 77 85 85 93 93 101 101 109 109 117
N alum.
2
10
12
20
25
18
9
0
Se pide calcular.
a) La media, la mediana y la moda.
b) Percentil correspondiente al coeficiente 90. Idem con 105.
c) Que tanto por ciento del total representan los alumnos con coeficiente intelectual comprendido en el intervalo (90, 105)?
13.
Se ha medido el n
umero de pulsaciones que tienen los jugadores de las plantillas
de dos equipos de f
utbol antes de un entrenamiento. Los resultados obtenidos se
reflejan en la tabla siguiente:
N 0 de pulsaciones
N 0 de jugadores
45 49 49 53 53 57 57 61 61 65 165 69
3
3
8
10
12
8
Se pide calcular:
a) La media, la mediana y la moda.
b) Valor correspondiente al percentil 24 y percentil 79.
20
117 125
4
c) N
umero de jugadores con pulsaciones comprendidas entre 50 y 64.
d) Porcentaje de jugadores que superan las 60 pulsaciones.
14.
15.
0
1
2 3
600 310 75 13
4
2
17.
18.
19.
20.
16 55 28 62 32 48
21 56 68 70 72 38
Los vecinos de una finca urbana se han tallado y pesado, obteniendo los siguientes resultados
Talla
Peso
x = 1,68 m y = 68,5 kgr
x = 0,5 m y = 6,5 kgr
Donde existe mayor dispersion?
21.
En la siguiente tabla se presentan las puntuaciones obtenidas por los 8 participantes en las pruebas de paralelas y por 6 participantes en la prueba anillas en
una competicion gimnastica.
Paralelas 9, 45 9, 55 9, 05
Anillas
9,50 9, 60 9, 10
21
En cual de las dos pruebas tiene mejor nivel el participante con puntuaciones
representadas en negrita? En que grupo de puntuaciones existe mayor variacion?
22.
1 2 3
1 2 4
4 5
10 3
23.
Determinar los valores de la media aritmetica y de la desviacion tpica de un conjunto de observaciones con moda Mo = 2, 3, coeficiente de asimetra de Pearson
Ap = 0, 2 y coeficiente de variacion CV = 0, 4
24.
25.
01 12 23
10
11
12
34
9
45
8
en la figura. Se pide:
a) Realiza una tabla estadstica con los distintos valores, frecuencias absolutas
y frecuencias acumuladas.
b) Halla el tercer cuartil, as como el porcentaje de valores que estan en el intervalo (x , x + ).
c) Valora la simetra de la distribucion mediante un coeficiente apropiado.
22
26.
70 74 74 78 78 82 82 86 86 90 90 94
3
3
7
10
12
5
a) Realiza una tabla estadstica con los distintos intervalos, frecuencias absolutas,
frecuencias acumuladas y densidad de frecuencia en cada intervalo.
b) Calcula la mediana y moda. Halla el valor correspondiente al primer cuartil
c) Cuantos clientes tienen una estancia entre 5 y 15 das? En que percentil
esta un cliente con una estancia de 7 das? Que porcentaje de clientes
tienen una estancia superior a 15 das?
28.
0 5 5 10 10 15 15 20 20 25
1
10
4
4
1
23
24