Вы находитесь на странице: 1из 24

Tema 1.

ESTADISTICA DESCRIPTIVA
M. J. Rubio

Un poco de Historia
Una de las mas bellas leyendas de las mil y una noches cuenta que el califa Har
un
al Rasid sala disfrazado de mercader de su palacio para conocer la opinion de los
habitantes de Bagdad. Tambien el escritor estadounidense Mark Twain, muchos a
nos
despues, hace del prncipe Eduardo un mendigo, que de este modo llegar a conocer
como vivan y pensaban sus s
ubditos.
El estudio estadstico mas antiguo que se conoce se realizo en China cuando el
emperador Yao encargo la confeccion de un censo del imperio. Esto suceda a finales del
tercer milenio antes de Cristo. Tambien se tienen noticias de que en el antiguo Egipto se
realizaron estadsticas y trabajos censales de tipo agrcola. Otro censo famoso, seg
un
relataba el historiador Tacito, fue el que recoga las propiedades y los ejercitos del
imperio de Roma en tiempos del emperador Octavio Augusto. No obstante, hemos de
esperar alg
un tiempo hasta que aparezcan los trabajos de John Graunt, un comerciante
de mercera ingles, considerado como el precursor de la actual estadstica. Graunt, entre
los a
nos 1604 y 1661, realizo un estudio sobre los nacimientos y defunciones de Londres
y, a partir de los datos obtenidos, extrajo consecuencias formulando leyes demograficas
y comportamientos sociologicos. Treinta a
nos mas tarde publica el astronomo Halley
un estudio sobre las tasas de mortalidad, sentandose las bases de los estudios sobre
esperanza de vida.
Hoy, en el siglo XXI, los metodos han cambiado de manera radical y en la actualidad
la importancia de la estadstica es enorme: los metodos estadsticos son fundamentales
para estimar, planificar, predecir y decidir en problemas relacionados con la poltica, la
sociologa, la investigacion, la industria, la economa y una larga lista de actividades.

1.

Conceptos b
asicos

La Estadstica se puede definir como la ciencia que tiene por objeto dar metodos para el tratamiento de los datos de observacion y su aplicacion para la toma de
decisiones.
Tambien se dice que es la ciencia que estudia el comportamiento de los fenomenos
de masas. Es decir, la ciencia encargada de la
1. Observacion y analisis de los datos.
2. Interpretacion y obtencion de conclusiones y previsiones.
La rama de la Estadstica que se ocupa de la organizacion, sntesis y descripcion
de los datos es la Estadstica descriptiva mientras que la rama que utiliza los datos
de la muestra para inferir algo acerca de una poblacion, se denomina Estadstica
inferencial.
A continuacion introduciremos las nociones generales basicas que utilizaremos:
Definici
on 1 Universo, Colectivo o smplemente Poblaci
on es el conjunto o coleccion
de elementos que son objeto de estudio.
Definici
on 2 Se dice unidad estadstica o individuo a cada uno de los elementos de
la poblacion.
Definici
on 3 Se denomina tama
no de la poblaci
on al n
umero de elementos que la
componen y se acostumbra a distinguir entre poblaci
on finita e infinita.
Definici
on 4 Una muestra es un subconjunto de elementos de la poblacion.
A veces el estudio estadstico no se puede realizar observando todos los elementos de
la poblacion. Pueden ser cuestiones de tipo economico, de tiempo o por ser la poblacion
muy grande. Esto hace que sea preferible un muestreo.
La muestra no puede ser cualquier subconjunto, sino que debe ser representativo
de toda la poblacion. Ello se estudia en la llamada Teora de Muestras.
Definici
on 5 Los caracteres son las cualidades de los individuos de la poblacion que
son objeto de estudio. Se clasifican en dos, seg
un sean medibles o no:
2
Cuantitativos o variables (m de vivienda, edad): son aquellos caracteres susceptibles de ser cuantificados, es decir, que se pueden describir mediante n
umeros.
Cualitativos o atributos (color de ojos, nacionalidad): son aquellos que por su
naturaleza no se pueden cuantificar y por lo tanto se describen mediante palabras.
Definici
on 6 Los diferentes valores que puede tomar un caracter se denominan mo
dalidades. Estas
deben estar bien definidas de tal manera que cada individuo pertenezca a una u
nica modalidad.
Definici
on 7 A los valores numericos de las distintas modalidades que toma un caracter cuantitativo se llama Variable estadstica. Distinguimos dos tipos de variables:
Variable discreta: (n de hijos, n de acciones vendidas un da en la Bolsa) es
aquella que solo puede tomar valores determinados o aislados. Es decir, aquella para la
2

que entre dos valores, por muy alejados que esten, no puede tomar mas que un n
umero
finito de valores.
Variable continua: (temperaturas tomadas en un observatorio cada hora) si puede
tomar infinitos valores entre dos valores dados, por proximos que esten estos.

2.

Distribuciones de Frecuencias

Uno de los conceptos que utilizaremos en las definiciones posteriores es el de frecuencia que no es sino el n
umero de veces que aparece una determinada modalidad de
un caracter. La utilizacion de las frecuencias en tablas estadsticas permite organizar
y resumir el conjunto de datos de manera que sea mas comprensible y significativo.

2.1.

Definiciones

En adelante consideraremos una poblacion o muestra de tama


no N y la variable
estadstica X que presenta las modalidades x1 , x2 , ..., xk .
Las siguientes definiciones son tambien validas para caracteres cualitativos.
Frecuencia absoluta de xi (ni ): n
umero de veces que se presenta ese valor xi en
el conjunto de las observaciones.
Frecuencia relativa de xi (fi ): es el cociente entre la frecuencia absoluta y el total
de individuos. Representa la proporcion de individuos que presentan una determinada
modalidad.
ni
i = 1, 2, ..., k
fi =
N
Frecuencias acumuladas de xi absolutas (Ni ) o relativas (Fi ). Llamamos
frecuencia acumulada de un valor xi a la suma de todas las frecuencias de los valores
que sean inferiores o iguales a el. Si los valores estan ordenados de forma creciente,
entonces
i
i
X
X
Ni
i = 1, 2, ..., k
Ni =
nj
Fi =
fj =
N
j=1
j=1
Si los datos estan ordenados de forma decreciente, entonces se definen las frecuencias
acumuladas descendentes de xi como la suma de las frecuencias (absolutas o relativas)
de todos los valores que sean mayores o iguales que xi .
Propiedades de las frecuencias. De las definiciones anteriores se deducen las
siguientes propiedades:
1) 0 ni N

2) Nk =

k
X

ni = N

3) ni = Ni Ni1

i=1

4)

0 fi 1

5)

Fk =

k
X
i=1

fi = 1

6)

fi = Fi Fi1

2.2.

Distribuciones y tablas de frecuencias

Una vez recogidos los datos de la muestra, se efectua una primera clasificacion,
llamada distribucion de frecuencias, donde aparecen las modalidades observadas junto
a su frecuencia. La presentacion se hace en forma de tabla, donde se agrupan y ordenan
los datos.
Las distribuciones de frecuencias se clasifican en tres tipos atendiendo al n
umero
de observaciones y al n
umero de valores distintos que toma la variable:
i) Cuando hay muy pocas observaciones y, en consecuencia, un n
umero reducido de
valores distintos que toma la variable.
ii) Cuando el n
umero de observaciones es grande, pero el n
umero de valores distintos
que toma la variable es peque
no.
iii) Cuando el n
umero de observaciones es grande y el n
umero de valores distintos
que toma la variable es tambien grande.
En los dos primeros casos se actua de igual forma, es decir, para construir la tabla
estadstica correspondiente basta con poner en una primera columna los pocos valores
distintos de la variable, y en la segunda, las frecuencias que estemos interesados en
mostrar. Si los valores estan ordenados de menor a mayor, se disponen como en la
tabla siguiente:
xi
x1
x2
..
.

ni
n1
n2
..
.

fi
f1
f2
..
.

Ni
N1
N2
..
.

Fi
F1
F2
..
.

xk

nk

fk

Nk

Fk

Ejemplo 1 Se ha lanzado un dado al aire 50 veces, obteniendose los siguientes resultados:


6
6
2
3
1

2
3
1
2
1

3
4
6
5
3

2
1
5
4
2

4
3
6
4
1

6
5
1
2
3

1
4
3
5
6

5
2
1
3
4

3
6
4
3
5

1
2
3
6
5

Construir la tabla de frecuencias absolutas, absolutas acumuladas, relativas y relativas


acumulas.
xi
1
2
3
4
5
6

ni
9
8
11
7
7
8

fi
9/50
8/50
11/50
7/50
7/50
8/50

Ni
9
17
28
35
42
50

Fi
9/50
17/50
28/50
35/50
42/50
50/50 = 1

En el tercer caso, cuando el n


umero de observaciones es grande as como el de valores
distintos de la variable, evidentemente, no es aconsejable realizar una tabla como la
anterior. Por tanto, lo que se hace es agrupar los valores de la variable en intervalos,
que pueden ser de amplitud constante o no, y calcular las frecuencias en cada intervalo.
En estos casos las frecuencias no mediran el n
umero o porcentaje de veces que se repite
un valor sino un intervalo.
Tomar el intervalo como unidad de estudio, en lugar de cada valor de la variable,
supone una simplificacion pero tambien se pierde informacion. Por tanto, es importante
elegir un n
umero adecuado de intervalos que equilibre estos dos aspectos.
Cada intervalo o clase queda especificado por sus extremos. En general para el iesimo intervalo, se denota por (Li ) al extremo superior y por (Li1 ) al extremo inferior.
Se llama amplitud del intervalo y se denota por (ai ) a la distancia entre los
extremos del interval: ai = Li Li1
La union de todos los intervalos ha de recubrir a todos los valores de la variable
(axhaustivo) pero sin solaparse (excluyente).
Para facilitar el manejo matematico de los intervalos, es preciso considerar un valor
como representante de cada intervalo al que se denomina marca de clase y se denota
por (xi ). En general se toma como tal, el punto medio del intervalo.
En el caso de que los intervalos tengan distinta amplitud, un valor a tener en cuenta
es la densidad de frecuencia absoluta (hi ) que es el n
umero de observaciones del
ni
i-esimo intervalo por unidad de longitud: hi =
ai
Para consruir la tabla estadstica se colocan ordenadamente los intervalos,las marcas
de clase y las frecuencias correspondientes, como se muestra en la siguiente tabla:
[Li1 , Li )
[L0 , L1 )
[L1 , L2 )
..
.

xi
x1
x2
..
.

ni
n1
n2
..
.

fi
f1
f2
..
.

Ni
N1
N2
..
.

Fi
F1
F2
..
.

[Lk1 , Lk ]

xk

nk

fk

Nk

Fk

Ejemplo 2 En una central electrica se ha medido cada hora la tension de la corriente


en voltios para regular su salida, obteniendose los siguientes resultados en un periodo
de 30 horas:
226 221 228 216 219 219 227 225 220 220
226 215 221 224 222 218 227 230 222 212
220 215 219 232 219 217 220 211 220 223
Construir la tabla de frecuencias absolutas y acumuladas, agrupando previamente los
valores en intervalos de amplitud 5 voltios y como primer intervalo el 210-215.
Intervalos
210 - 215
215 - 220
220 - 225
225 - 230
230 - 235

ni
2
9
11
6
2

Nia
2
11
22
28
30
5

Nid
30
28
19
8
2

Realizadas las frecuencias acumuladas ascendentes y descendentes podemos decir,


por ejemplo, que el n
umero de horas en que la tension de la corriente es menos de 220
voltios es N220a = 11 y que el n
umero de horas en que la tension de la corriente es mas
de 225 voltios es N225d = 8.

2.3.

Representaciones gr
aficas

Las graficas ayudan a visualizar la informacion obtenida. Las frecuencias (absolutas, relativas o acumuladas) se representan mediante distintos tipos de graficos. A
continuacion se relacionan algunos de los mas utilizados.
2.3.1.

Caracteres cualitativos

Diagrama de rect
angulos. Para cada modalidad se presenta un rectangulo
cuya altura coincide con la frecuencia absoluta (o relativa).
Diagrama de sectores. Consiste en dividir un crculo en sectores circulares cuyas
areas sean proporcionales a las frecuencias de cada modalidad. El angulo (en grados)
del sector circular correspondiente a la modalidad i-esima es i = 360.fi
Pictograma. Consiste en efectuar dibujos alusivos, de tama
no proporcional a la
frecuencia de cada modalidad (similar a un diagrama de rectangulos, cambiando estos
por dibujos). Tambien se suele tomar un dibujo como unidad y repetirlo tantas veces
como indique su frecuencia.
Cartograma. Se utiliza cuando la poblacion estudiada pertenece a una zona geografica. Entonces, sobre el mismo plano se representan las distintas modalidades mediante
rayas, puntos, colores, etc.
Ejercicio 1 Durante un determinado perodo la ditribucion de clientes de un hotel
seg
un su nacionalidad fue la siguiente: espa
noles (500), franceses (120), otros (100).
Representarlos graficamente.
2.3.2.

Caracteres cuantitativos

En este caso las representaciones graficas se realizan sobre los ejes coordenados y a
veces, para que sea mas significativa , se realiza un cambio de escala en los ejes.
Diagrama de barras. Se utilizan para representar variables discretas y es similar
al de rectangulos. Se asigna a cada valor de la variable una barra o rectangulo (todos
de igual base) de marnera que su altura sea proporcional a la frecuencia que representa.
Diagrama de sectores. Se utiliza generalmente en variables sin agrupar en intervalos. Consiste en dividir un crculo en sectores proporcionales a las frecuencias de
cada modalidad.
Histograma. Se utiliza en variables agrupadas en intervalos. Para cada intervalo,
se dibuja un rectangulo apoyado sobre el eje X cuya base es el intervalo y cuya area es
proporcional a la frecuencia a representar. Por tanto, la altura del rectangulo i-esimo
(hi ) sera proporcional a su densidad de frecuencia.

En particular, si los intervalos son de igual amplitud, las alturas de los rectangulos
seran iguales a las frecuencias respectivas, ya que al ser las bases de los rectangulos
iguales, las areas solo dependeran de las alturas.
Polgono de frecuencias. Se obtiene uniendo los extremos de las barras en el
diagrama de barras o los puntos medios superiores de los rectangulos en el histograma
Polgono de frecuencias acumuladas. Igual que el polgono de frecuencias pero
utilizando las correspondientes frecuencias acumuladas.
Ejercicio 2 Representar el diagrama de barras, polgono de frecuencias, diagrama de
barras acumulativo y grafico de sectores con los datos del ejemplo1.
Ejercicio 3 Construir el histograma y el polgono de frecuencias absolutas del ejemplo 2
Ejercicio 4 Realizar el histograma de la siguiente distribucion:
Valores Frecuencias
2-4
25
4-6
36
6-9
48
9 - 13
61

3.

Medidas de Posici
on

Las medidas de posicion central o promedios, son valores alrededor de los cuales se
agrupan los valores de la variable. Estos valores pueden ser mas o menos representativos
y nos permiten comparar distintas muestras.
Las medidas de posicion central mas utilizadas son la media aritmetica, la mediana
y la moda.

3.1.

Media aritm
etica

Consideramos una variable X que toma los valores distintos x1 , x2 , ...xk con frecuencias n1 , n2 , ..., nk respectivamente haciendo un total de N datos.
La media aritm
etica se define como la suma de todos los valores de la distribucion,
dividida por el n
umero total de observaciones. Se denota x:
k
X

x1 n1 + x2 n2 + + xk nk
x=
=
N

xi n i

i=1

k
X

xi f i

i=1

Es claro que solo es valida para caracteres cuantitativos. La media es un n


umero que
se encuentra siempre entre los valores extremos de la variable y se considera el centro
de gravedad de las observaciones, en el sentido de que la suma de las diferencias de las
observaciones respecto de la media es cero. Por otro lado, tiene como inconveniente la
influencia que, sobre ella, ejercen de los valores extremos de la distribucion. Para evitar
esto, a veces, se utiliza la trimedia o media recortada al 5 %.
7

Ejercicio 5 Calcula la media de la distribucion dada en el ejemplo 1


Ejercicio 6 Calcula la media en el ejercicio 4
Comportamiento de la media respecto a las transformaciones lineales
Si x es la media de la variable X, entonces ax + b es la media aritmetica de la
variable aX + b.
Ejercicio 7 En una empresa los salarios correspondientes a cinco categoras diferentes
son los son los siguientes: 800, 1200, 1600, 2000, 2400. Calcula la media de los mismos.

3.2.

Moda

La moda es el valor de la variable que presenta mayor frecuencia. Puede no ser


u
nica, incluso no existir. Puede usarse incluso con variables cualitativas y viene a
solucionar el problema que tiene la media cuando no coincide con ning
un valor de la
variable o cuando interesa destacar la frecuencia de los valores de la misma.
Ejemplo. Calcula la moda de los siguientes datos: { 2, 2, 5, 7, 7, 7, 9, 9, 10}
Ejemplo. Calcula la moda de los siguientes datos: { 1, 2, 3, 5}
Ejemplo. Calcula la moda de los siguientes datos: { 1, 1, 4, 5, 7, 8, 8, 9}
A

hi

G
D

B
hi+1

F
E

hi1

Li1

Mo

Li

En el caso de valores agrupados en intervalos, se toma como intervalo modal


ni
el de mayor altura (hi = ) en el histograma, y se calcula
ai
Mo = Li1 +

1
ai ,
1 + 2

donde 1 = hi hi1

y 2 = hi hi+1

Ejercicio 8 Calcula de dos formas distintas (datos agrupados y sin agrupar) la moda
del ejercicio 2.
Ejercicio 9 Calcula la moda de la distribucion dada en el ejercicio 4

3.3.

Mediana

La mediana es el valor de la variable que ocupa el centro de las observaciones


cuando estan ordenadas de forma creciente o decreciente. Es decir, deja el mismo
n
umero de obsevaciones por encima que por debajo de el.
Si la variable es discreta y el n
umero de observaciones N es impar, la mediana es
el valor central, mientras que si es par, sera la media aritmetica de los dos valores
centrales.
Ejemplo. La mediana de los siguientes datos: { 1, 2, 4, 5, 7} es Me= 4
4+5
= 4,5
Ejemplo. La mediana de { 1, 2, 3, 4, 5, 6, 7, 8} es Me=
2

Ni

N/2
Ni1

Li1

Me

Li

En el caso de valores agrupados en intervalos, se contempla primero el intervalo que contenga a la mediana (Intervalo mediano: [Li1 , Li ]), para posteriormente
interpolar en el mediante la formula
Me = Li1 +

N/2 Ni1
ai
ni

Esta medida tiene la ventaja respecto de la media aritmetica de ser menos sensible
a los valores extremos de las observaciones.
Ejercicio 10 Calcula de dos formas distintas (datos agrupados y sin agrupar) la mediana del ejemplo 2.

3.4.

Cuantiles

Los cuantiles son medidas no centrales, que dividen a la poblacion en partes y nos
permiten conocer la posicion de un valor de la variable respecto de los demas.
Los cuantiles de orden q son q 1 valores (Q1/q , Q2/q , ..., Qq1/q ) que dividen la
distribucion en q partes con el mismo n
umero de observaciones. En general un cuantil
divide a la poblacion en dos partes de tal manera que una proporcion de la poblacion
es menor que el y el resto mayor.
9

Distinguimos tres tipos de cuantiles:


Cuartiles: son 3 y dividen a la poblacion en 4 partes iguales. El primer cuartil Q1
es el que deja a su izquierda la cuarta parte de la poblacion que es menor que el y el
resto mayor; el segundo cuartil Q2 coincide con la mediana y el tercero Q3 deja a su
izquierda las tres cuartas partes de la poblacion que son menores que el.
Deciles: son 9 y dividen a la poblacion en 10 partes iguales. Se llama d-esimo decil
Dd al valor tal que 10d % de las observaciones son menores o iguales que el y el resto
mayores (d = 1, 2, ..., 9):
D1 , D2 , ..., D5 = Me, ..., D9
Percentiles o Centiles: son 99 y dividen a la poblacion en 100 partes iguales.
Llamamos percentil k-esimo Pk al valor tal que k % de las observaciones son menores
o iguales que el y el resto mayores (k = 1, 2, ..., 99):
P1 , P2 , ..., P10 = D1 , ..., P25 = Q1 , ..., P50 = Me, ..., P99
En el caso de valores agrupados en intervalos, para calcular el percentil k-esimo
k
se elige el intervalo que contiene al valor N
que buscamos y se calcula
100
Pk = Li1 +

k
N 100
Ni1
ai
ni

Ni
E

k
N 100

Ni1

Li1

Pk

Li

Ejercicio 11 Calcula algunos cuantiles para el ejemplo 2.

4.

Medidas de dispersi
on

Una medida de posicion central reduce la informacion de la poblacion a un solo


dato. Sin embargo, no siempre caracteriza perfectamente la distribucion. Sera mas o
menos representativa dependiendo de los valores de la variable y de dicha medida.
Las medidas de dispersion se utilizan para determinar lo agrupada o dispersa que
esta una poblacion y por tanto si la medida de posicion central calculada, es representativa.
10

En lo que sigue consideraremos la variable X que toma los valores distintos x1 , x2 , ...xk
con frecuencias respectivas n1 , n2 , ..., nk haciendo un total de N datos.
Ejemplo 3 La edad de dos grupos de individuos representados por las distribuciones
unitarias X e Y se dan en la siguiente tabla
xi
Individuo 1
14 a
nos
Individuo 2
16 a
nos
Individuo 3
18 a
nos
Individuo 4
20 a
nos
Individuo 5
22 a
nos
Suma de edades
90 a
nos
Media aritmetica x = 18 a
nos

yi
2 a
nos
4 a
nos
5 a
nos
39 a
nos
40 a
nos
90 a
nos
y = 18 a
nos

Evidentemente los dos grupos son muy diferentes entre s; uno corresponde a un grupo
de jovenes, mientras que el otro podra ser una familia con 3 hijos. Medidas de posicion
como la media de edad, mediana, moda o cuantiles, no aportan suficiente informacion
para conocer adecuadamente la distribucion.

4.1.

Rango

El rango o recorrido es la medida de dispersion mas simple y es la diferencia entre


el mayor y menor valor de la variable.
En general, las medidas centrales seran tanto mas representativas cuanto mas peque
no sea el recorrido.
Ejercicio 12 Calcula el rango en los ejemplos 1, 2 y 3.
En ocasiones, con objeto de evitar la influencia de los valores extremos de la variable,
se utilizan otros rangos que corresponden a los distintos cuantiles:
Rango o intercuartlico: Diferencia entre el tercer y primer cuartil.
Rango o interdeclico: Diferencia entre el decil 9 y el primer decil.
Rango o intercentlico: Diferencia entre el percentil 99 y el primero.
Ejercicio 13 Calcula los rangos intercuartlicos en los ejemplos 1 y 2.

4.2.

Desviaci
on media

Una medida de la dispersion de los datos de una muestra se puede obtener calculando las distancias de cada uno de los datos a un valor p elegido previamente.
Generalmente tomaremos como parametro p una medida de tendencia central (media o mediana).
La desviacion media respecto a un parametro p es la media aritmetica de las distancias de las observaciones a dicho parametro p.
k
k
X
1 X
|xi p|ni =
|xi p|fi
DM (p) =
N i=1
i=1

11

Si tomamos como parametro p la media, hablaremos de desviacion media respecto


a la media:
k
X
|xi x|fi
DM (x) =
i=1

Si tomamos como parametro p la mediana, hablaremos de desviacion media respecto


a la mediana o desviacion mediana:
DM (M e) =

k
X

|xi M e|fi

i=1

Cuando los valores estan agrupados en intervalos xi seran las marcas de clase.
Ejercicio 14 Calcula la desviacion media en los ejemplos 1 y 2.
Ejercicio 15 Calcula la desviacion mediana en el ejercicio 4.

4.3.

Varianza y desviaci
on tpica

Son las medidas de dispersion mas utilizadas.


Se define la varianza de un conjunto de datos como la media aritmetica de los
cuadrados de las desviacines de los datos respecto a la media.
k
k
X
1 X
2
=
(xi x) ni =
(xi x)2 fi
N i=1
i=1
2

El calculo de la varianza puede simplificarse mediante la siguiente formula que


consiste en efectuar la diferencia entre la media de los cuadrados y el cuadrado de la
media:
k
k
X
1 X 2
2
2
=
x ni x =
x2i fi x2
N i=1 i
i=1
Al elevar al cuadrado las desviaciones con respecto a la media, las unidades de la
varianza no son las mismas que las de los datos. Para compensar esto de alg
un modo,
se calcula su raiz cuadrada. As, se define la desviacion tpica como la raiz cuadrada
de la varianza.
v
v
u
u
k
k
u1 X
u1 X

2
t
t
2
(xi x) ni =
x2 n i x2
= =
N i=1
N i=1 i
Como se desprede de su definicion, la varianza y desviacion tpica son n
umeros
positivos. Si = 0 significa que las observaciones son iguales a la media. Luego, la
representatividad de la media sera mayor cuanto mas peque
na sea la desviacion tpica.
Ejercicio 16 Calcula la desviacion tpica de las dos distribuciones X e Y del ejemplo
3
12

Para distribuciones cuya forma se aproxima a la distribucion normal, se puede


considerar que en el intervalo (x , x + ) se encuentra entre el 60 % y el 75 % de las
observaciones y hasta el 95 % en el intervalo (x 2, x + 2)
Ambos parametros (varianza y desviacion tpica) son independientes del cambio de
origen, pero no de escala, es decir, si 2 es la varianza de la variable X, entonces a2 2
es la varianza de la variable aX + b.
4.3.1.

Cuasivarianza y cuasidesviaci
on tpica

En ciertas ocasiones se acostumbra a utilizar mas la cuasivarianza y cuasidesviacion


tpica.
La cuasivarianza es:
k

1 X
S =
(xi x)2 ni
N 1 i=1
2

y se verifica que N 2 = (N 1)S 2

La cuasidesviacion tpica se define como la raz cuadrada de la cuasivarianza:

S = S2
4.3.2.

Variable tipificada

Llamaremos variable tipificada o estandarizada a aquella que tiene de media 0 y de


desviacion tpica 1.
Utilizando la media y la desviacion tpica de una variable X dada, podemos considerar una nueva variable:
Z=

X x
,

es decir,

zi =

xi x

Esta nueva variable Z tipificada, es adimensional (independiente de las unidades


utilizadas) y mide la desviacion de la variable X respecto de su media en terminos de
su desviacion tpica. Por ello, resulta muy u
til para comparar distribuciones.
Ejercicio 17 Un estudiante obtubo 84 puntos en el examen final de Estadstica, en el
que la nota media fue 76 y la desviacion tpica 10. En el examen final de Fsica obtuvo
90 puntos, siendo la media 82 y la desviacion tpica 16. Aunque en las dos asignaturas
estuvo muy por encima de la media, en cual sobresalio mas?

4.4.

Coeficiente de variaci
on

Coeficiente de variaci
on de Pearson es el cociente entre la desviacion tpica y
la media:

CV =
|x|
Este coeficiente pierde representatividad cuando la media se acerca a cero. Mide la
dispersion relativa de la poblacion y es independiente de la unidad de medida o cambio
13

de escala; por tanto, permite establecer comparacion entre las dispersiones de muestras
que vengan expresadas en distintas unidades.
En ocasiones, para poder trabajar con porcentajes, este coeficiente es multiplicado
por 100.
En general, se define el coeficiente de variacion media respecto un promedio p como
sigue:
DM (p)
CV M (p) =
|p|
Analogamente a lo dicho en la desviacion media, se suele elegir como parametro p la
media o la mediana.
Ejercicio 18 Calcula el coeficiente de variacion de Pearson de las dos distribuciones
X e Y del ejemplo 3. Que puede decirse de la representatividad de la media en cada
uno de los dos grupo?
Ejercicio 19 Se ha aplicado un mismo test a dos grupos de alumnos A y B. Los
resultados obtenidos han sido respectivamente xA = 38, A = 7 y xB = 38, B = 7.
Que grupo tiene mayor dispersion?

5.

Medidas de forma

Estas medidas nos dan una idea de la forma de la distribucion sin necesidad de
realizar su representacion grafica (diagrama de barras o histograma).
Dichas medidas comparan aspectos de la representacion grafica de la variable (simetra y apuntamiento) con la curva normal o campana de Gauss que nos sirve como
modelo.

Figura 1: Campana de Gauss, variable no agrupada y agrupada en intervalos respectivamente

5.1.

Medidas de simetra

Las medidas de simetra se orientan a establecer un indicador que permita establecer


el grado de simetra o asimetra que presenta la distribucion sin necesidad de llevar a
cabo su representacion grafica.

14

Decimos que una distribucion de frecuencias es sim


etrica cuando los valores de la
variable que equidistan de un valor central tienen las mismas frecuencias. En este caso
se verifica:
x = Me = Mo
En caso de no ser simetrica se dice asim
etrica. La asimetra puede darse a derecha
o a izquierda.
Una distribucion se dice asimetrica a derecha o positiva si las frecuencias presentan
una cola a derecha. Es decir, si descienden mas lentamente por la derecha.
x Me Mo
Una distribucion se dice asimetrica a izquierda o negativa si las frecuencias presentan una cola a izquierda. Es decir, si descienden mas lentamente por la izquierda.
x Me Mo

A continuacion damos dos coeficientes o indicadores del grado de simetra de una


distribucion sin necesidad de representarla.
Coeficiente de asimetra de Pearson
La siguiente formulacion se puede aplicar a las distribuciones con un n
umero impar
de modas, siendo Mo la moda central.
Ap =

x Mo

Ap > 0 Asimetra a derecha o positiva


Ap = 0 Puede ser Simetra

Ap < 0 Asimetra a izquierda o negativa


Ejercicio 20 Utilizar el coeficiente de Pearson para determinar el sesgo en los ejemplos 1 y 2.

15

Coeficiente de asimetra de Fisher


AF =

m3
3

siendo m3 =

k
1 X
(xi x)3 ni
N i=1

AF > 0 Asimetra a derecha o positiva


AF = 0 Puede ser Simetra

AF < 0 Asimetra a izquierda o negativa


Ejercicio 21 Utilizar el coeficiente de Fisher para determinar el sesgo en los ejemplos
1 y 2.
Notar que toda distribucion simetrica tiene nulo el coeficiente de asimetra, pero el
recproco no es cierto, es decir, existen distribuciones asimetricas para las que el ndice
de asimetra, es nulo.

5.2.

Medidas de apuntamiento o curtosis

El apuntamiento o curtosis mide el grado de acumulacion de frecuencias en torno


a la zona central. Es decir, si la grafica de la distribucion es mas o menos apuntada
o aplastada que la de la distribucion normal (Campana de Gauss) con igual media y
varianza.
Coeficiente de curtosis
m4
g2 = 4

k
1 X
siendo m4 =
(xi x)4 ni
N i=1

urtica
g2 > 3 Mas apuntamiento que la normal : leptoc
g2 = 3 Igual apuntamiento que la normal : mesoc
urtica

g2 < 3 Menos apuntamiento que la normal : platic


urtica
A veces se define K = g2 3 para comparar con 0.

Ejercicio 22 Utilizar este coeficiente para determinar la curtosis en los ejercicios 1 y


2.
16

6.
1.

Relaci
on de ejercicios
Responde a las siguientes preguntas:
a) Sobre la base de una encuesta se llego a la conclusion que el 10 % de los
espa
noles que viajaron al extranjero durante el a
no 2005 prefirieron no contratar ning
un seguro de viaje. Se llego a esa conclusion a partir de una
muestra o de una poblacion?
b) El 15 % de las matriculaciones realizadas en Espa
na durante los u
ltimos cinco
a
nos fueron de una determinada marca comercial. Se llego a esa conclusion
a partir de una muestra o de una poblacion?

2.

Para cada uno de los siguientes conjuntos de datos, indica si son cualitativos o
cuantitativos y describe las distintas modalidades.
a) Superficie de los cincos continentes
b) N
umero de miembros de una familia
c) Estado civil de una persona
d) Marcas de ordenadores utilizados por 100 estudiantes de Ingeniera
e) Precio medio por metro cuadrado de la vivienda en cuatro ciudades espa
nolas:
Madrid, Barcelona, Santander, Logro
no.

3.

Las calificaciones obtenidas por 80 alumnos de una clase en la asignatura de


matematicas ha sido las siguientes:
Notas
Alumnos

0
4

1
5

2
6

3
9

4
12

5
15

6
10

7 8 9 10
8 5 4 2

Se pide
a) Frecuencias absolutas, relativas y acumuladas.
b) Porcentaje de alumnos suspensos.
c) Porcentaje de alumnos con calificacion de notable.
d) N
umero de alumnos aprobados.
e) Diagrama de barras y polgono de frecuencias.
4.

Los siguientes datos corresponden al n


umero de pasajeros de 28 autobuses cuando
salen de la terminal del centro de una ciudad con destino a realizar un City Tour.
Los autobuses tienen 49 asientos cada uno y los pasajeros adicionales deben viajar
de pie.
52
35

50
36

38
58

42
49

48
46

55
50

52
49

51
52

36
38

47
41

52
55

53
48

57
59

56
49

a) Sintetiza los datos en una tabla, agrupandolos en intervalos de amplitud 5.


17

b) Calcula las frecuencias acumuladas y acumuladas relativas.


c) Cuantos autobuses llevan pasajeros de pie por no tener asientos disponibles?
d) Cuantos autobuses llevan como maximo 44 pasajeros?
e) Cuantos autobuses llevan al menos 40 pasajeros?
f ) Que porcentaje de autobuses llevan entre 45 y 49 pasajeros?
g) Representa el histograma y el polgono de frecuencias.
5.

De un examen realizado a un grupo de alumnos, cuyas notas se han evaluado del


1 al 8, se ha obtenido el siguiente cuadro estadstico:
xi
1
2
3
4
5
6
7
8

ni
4
4
7
5

Ni

fi
0,08

16

0,16
0,14

28
38
45

Fi

0,14

Se pide:
a) Rellenar la tabla estadstica.
b) N
umero de alumnos que se han examinado.
c) N
umero de alumnos que han obtenido una nota superior a 3.
d) Porcentaje de alumnos que han sacado una nota igual a 6.
e) Porcentaje de alumnos que han sacado una nota inferior a 4.
f ) N
umero de alumnos que han obtenido una nota superior a 2 e inferior a 5.
g) Diagrama de frecuencias relativas acumuladas.
6.

Comprueba que la suma de las desviaciones de todos los valores respecto a su


media aritmetica es cero:
k
k
X
1 X
(xi x)ni =
(xi x)fi = 0
N i=1
i=1

Aplcalo a la siguiente distribucion


xi
ni

1
5

2
7

18

3
4

4
1

5
8

7.

Los siguientes valores corresponden al tiempo que esperan para ser atendidos 15
clientes de una compa
na aerea (en minutos):
20,

25,

22,

20,

25,

20,

21,

22,

22,

24,

23,

20,

23,

20,

23

Obtener:
a) El tiempo medio de espera.
b) El tiempo maximo que espero el 50 % de los clientes.
c) El tiempo mas frecuente de espera.
8.

Los viajes en avion realizados por los gerentes comerciales de 50 cadenas hoteleras
distribuidas por Europa durante un mes se recogen en la siguiente tabla:
Li1 Li
[40, 100)
[100, 200)
[200, 500)
[500, 1000]

ni
10
20
15
5

Realiza el histograma y calcula la mediana y la moda.


9.

Cien peque
nos agentes de viaje se agrupan de acuerdo con su n
umero de clientes
en la siguiente distribucion:
Li1 Li
ni

[0, 2] (2, 3] (3, 5] (5, 7] (7, 10] (10, 15]


20
30
20
15
10
5

Calcula la mediana y la moda.


10.

Dada la siguiente tabla de frecuenias


xi
1
2
3
4
5
6

ni

Ni
6
11

Porcentaje
12,5

9
27
10

25
7,5

Completa la tabla y halla el tercer cuartil, el septimo decil y el percentil 99.


11.

Una variable X tiene por polgono acumulativo de frecuencias absolutas el dado


en la figura. Se pide:
a) Realiza una tabla estadstica con los distintos intervalos, frecuencias absolutas
y relativas y frecuencias acumuladas.
19

b) Percentil en el que esta el valor 182.


12.

Medido el coeficiente intelectual de un grupo de 100 alumnos se han obtenido


los siguientes resultados

C. I.
61 69 69 77 77 85 85 93 93 101 101 109 109 117
N alum.
2
10
12
20
25
18
9
0

Se pide calcular.
a) La media, la mediana y la moda.
b) Percentil correspondiente al coeficiente 90. Idem con 105.
c) Que tanto por ciento del total representan los alumnos con coeficiente intelectual comprendido en el intervalo (90, 105)?
13.

Se ha medido el n
umero de pulsaciones que tienen los jugadores de las plantillas
de dos equipos de f
utbol antes de un entrenamiento. Los resultados obtenidos se
reflejan en la tabla siguiente:
N 0 de pulsaciones
N 0 de jugadores

45 49 49 53 53 57 57 61 61 65 165 69
3
3
8
10
12
8

Se pide calcular:
a) La media, la mediana y la moda.
b) Valor correspondiente al percentil 24 y percentil 79.
20

117 125
4

c) N
umero de jugadores con pulsaciones comprendidas entre 50 y 64.
d) Porcentaje de jugadores que superan las 60 pulsaciones.
14.

Calcula la desviacion media y la desviacion mediana de una distribucion de


frecuencias que toma los siguientes valores: 1, 6, 8 y 9.

15.

Se ha revisado un lote de 1000 piezas esmaltadas, obteniendose el n


umero de
defectos que se indica en la siguiente tabla:
N 0 de defectos
Frecuencia

0
1
2 3
600 310 75 13

4
2

Determina la media, la desviacion media y la desviacion tpica de la distribucion.


16.

Calcula la varianza y la desviacion tpica de los siguientes datos: 4, 6, 10, 16.

17.

Cuales son los datos de una muestra sabiendo que N = 2, x = 2,625 y =


1,125?

18.

Un fabricante de tubos de television tiene dos tipos de tubos, A y B. Los tubos


tienen unas duraciones respectivas de 1495 y 1875 horas, y desviaciones tpicas
de 280 y 310 horas. Que tubo tiene la mayor dispersion absoluta?, y dispersion
relativa?

19.

A un grupo de de 10 alumnos se les hizo una prueba de razonamiento y otra de


habilidad. Calcula en que prueba hubo mayor variabilidad de resultados, sabiendo
que estos fueron:
Razonamiento 40 38 65 56
Habilidad
36 18 54 47

20.

16 55 28 62 32 48
21 56 68 70 72 38

Los vecinos de una finca urbana se han tallado y pesado, obteniendo los siguientes resultados
Talla
Peso
x = 1,68 m y = 68,5 kgr
x = 0,5 m y = 6,5 kgr
Donde existe mayor dispersion?

21.

En la siguiente tabla se presentan las puntuaciones obtenidas por los 8 participantes en las pruebas de paralelas y por 6 participantes en la prueba anillas en
una competicion gimnastica.
Paralelas 9, 45 9, 55 9, 05
Anillas
9,50 9, 60 9, 10
21

9,65 9,25 9,85 9,70 9,40


9,50 9,00 9,05

En cual de las dos pruebas tiene mejor nivel el participante con puntuaciones
representadas en negrita? En que grupo de puntuaciones existe mayor variacion?
22.

Halla el coeficiente de asimetra de Pearson de la siguiente distribucion e interpreta el resultado


xi
ni

1 2 3
1 2 4

4 5
10 3

23.

Determinar los valores de la media aritmetica y de la desviacion tpica de un conjunto de observaciones con moda Mo = 2, 3, coeficiente de asimetra de Pearson
Ap = 0, 2 y coeficiente de variacion CV = 0, 4

24.

En la siguiente distribucion de frecuencias calcula los coeficientes de asimetra


de Fisher y el de curtosis. Interpreta los resultados obtenidos.
Intervalos
ni

25.

01 12 23
10
11
12

34
9

45
8

Una variable X tiene por polgono acumulativo de frecuencias absolutas el dado

en la figura. Se pide:
a) Realiza una tabla estadstica con los distintos valores, frecuencias absolutas
y frecuencias acumuladas.
b) Halla el tercer cuartil, as como el porcentaje de valores que estan en el intervalo (x , x + ).
c) Valora la simetra de la distribucion mediante un coeficiente apropiado.
22

26.

Se han medido los pesos de un conjunto de futbolistas despues de realizar un


partido. Los datos obtenidos son.
Peso (en Kg)
N 0 de jugadores

70 74 74 78 78 82 82 86 86 90 90 94
3
3
7
10
12
5

a) Calcula la mediana y moda. Halla el valor correspondiente al percentil 15.


Interpreta este u
ltimo valor.
b) Cuantos futbolistas tienen un peso entre 79 y 88 Kg? En que percentil
esta un futbolista con un peso de 90 kgs? Que porcentaje de deportistas
tienen un peso superior a este u
ltimo?
27.

En el siguiente histograma se representa el n


umero de das de estancia de los
clientes de un hotel.

a) Realiza una tabla estadstica con los distintos intervalos, frecuencias absolutas,
frecuencias acumuladas y densidad de frecuencia en cada intervalo.
b) Calcula la mediana y moda. Halla el valor correspondiente al primer cuartil
c) Cuantos clientes tienen una estancia entre 5 y 15 das? En que percentil
esta un cliente con una estancia de 7 das? Que porcentaje de clientes
tienen una estancia superior a 15 das?
28.

Del ayuntamiento de un cierto pueblo se han obtenido los resultados siguientes


que dan el n
umero de fincas agrcolas en relacion con su superficie de explotacion
(en Hectareas)
Superficie
N 0 de fincas

0 5 5 10 10 15 15 20 20 25
1
10
4
4
1

23

a) Calcula la superficie media de explotacion y el porcentaje de fincas con una


superficie superior a la media anterior.
b) Calcula la moda y el percentil 70. Interpreta estos valores.
c) Si se esta pensando en edificar el terreno de las fincas que sobrepasan las 16
Hectareas, calcula el porcentaje de fincas que no estan en esta situacion.
En que percentil se encuentra una finca cuya superficie es de 16 Ha.?
29.

Una empresa decide ampliar su actual plantilla de trabajadores y para ello


somete a un tes a 80 aspirantes. Las puntuaciones obtenidas por estos se resumen
en la siguiente tabla:
Puntuaciones
0 20 20 40 40 60 60 80 80 100
0
N de aspirantes
5
15
30
18
12
a) Calcula la media, mediana y moda interpretando los valores obtenidos.
b) Si de momento se decide contratar al 25 % de los aspirantes con mayor puntuacion cual sera la nota mnima requerida para ser contratado?
c) En que percentil se encuentra un aspirante con 70 de puntuacion?
d) Valora la simetra de la distribucion mediante un coeficiente apropiado.
e) Con el fin de tener evaluados a todos los aspirantes de 0 a 10 en vez de 0
a 100 como al principio, se dividen por 10 las calificaciones iniciales. De
que forma afectara este hecho a la media y a la varianza de la distribucion
inicial?

24

Вам также может понравиться