Вы находитесь на странице: 1из 29

2

UNIDAD
DIDCTICA

MEDIDAS CARACTERSTICAS
DE UNA DISTRIBUCIN DE
FRECUENCIAS

OBJETIVOS DE LA UNIDAD
1. Introduccin
2. Medidas de posicin
2.1. Media aritmtica
2.1.1. Propiedades de la media
2.2. Mediana
2.2.1. Mediana para variables discretas
2.2.2. Mediana para variables continuas
2.2.3. Propiedad importante de la mediana
2.3. Comparacin entre media y mediana
2.4. Moda
3. Medidas de dispersin
3.1. Varianza y desviacin tpica
3.1.1. Propiedades de la varianza
3.2. Cuantiles
3.2.1. Cuartiles
3.2.2. Percentiles
3.3. Relacin entre caractersticas de tendencia central y de dispersin. Valores atpicos
4. Medidas de forma
4.1. Momentos
4.1.1. Momento de orden r centrado en el origen
4.1.2. Momento de orden r centrado en la media
4.2. Medidas de asimetra
4.3. Medidas de apuntamiento o curtosis

www.udima.es

2 1

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

5. Medidas de relacin
5.1. Momentos de una variable estadstica bidimensional
5.1.1. Momento de orden (r, h) centrado en el origen
5.1.2. Momento de orden (r, h) centrado en la media
5.2. Covarianza y coeficiente de correlacin lineal
6. Representaciones grficas. Diagrama de caja
7. Transformaciones de datos
7.1. Transformaciones de datos con asimetra positiva
7.2. Transformaciones de datos con asimetra negativa
CONCEPTOS BSICOS A RETENER
ACTIVIDADES DE REPASO
EJERCICIOS VOLUNTARIOS
REFERENCIAS BIBLIOGRFICAS

2 2

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

A. Moreno-Daz

Medidas caractersticas de una distribucin de frecuencias

OBJETIVOS DE LA UNIDAD

En esta Unidad didctica se contina con el propsito general de extraer y sintetizar toda la informacin contenida en un conjunto de datos con el fin de describir sus caractersticas ms relevantes.
Ahora se buscan cantidades que resuman alguna caracterstica de los datos en un solo nmero, por eso
se llaman medidas caractersticas. Los objetivos de esta Unidad didctica son:
Describir una distribucin mediante sus medidas numricas sintetizadoras e interpretarlas.
Saber construir e interpretar un diagrama de caja, detectando datos atpicos.
Regularizar una distribucin mediante transformaciones.

www.udima.es

2 3

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

1. INTRODUCCIN
Cuando se tiene un conjunto de datos homogneo de una variable cuantitativa es conveniente
completar la informacin proporcionada por las tablas de frecuencias y los grficos con ciertas medidas resumen. Ya en las representaciones grficas pueden verse cules son los valores que concentran
mayor frecuencia y cmo se dispersan o colocan el resto de valores respecto de ellos. Esto origina un
tipo de informacin especfica recogida en estas medidas resumen. Estas medidas caractersticas pueden ser:
Medidas de posicin o tendencia central.
Medidas de dispersin.
Medidas o caractersticas de forma.
Medidas de relacin.

2. MEDIDAS DE POSICIN
Tambin se denominan medidas de tendencia central y tienen como objetivo indicar el valor alrededor del cual tienden a concentrarse los datos. Alrededor del valor indicado por la medida de centralizacin, los datos pueden disponerse de mltiples formas.

2.1. MEDIA ARITMTICA


Sea X la variable de inters y sean x1, x2,..., xn las n observaciones que se tienen de dicha variable.
Se define la media aritmtica o simplemente media como:
n

x=

i =1

En el caso de que la variable sea discreta y existan valores repetidos, la media puede calcularse sumando cada valor observado por su frecuencia relativa de aparicin. Si se denota por x1, x2,..., xk cada
uno de los valores distintos de la variable X , n1, n2,..., nk el nmero de veces que se ha observado cada
uno de estos valores y f1,, fk la frecuencia relativa de aparicin, la media se puede calcular como:
k

x=

i =1

x n

i i

xi f i =

i =1

Si los datos estn agrupados en clases, la media se calcula suponiendo que todos los datos que
aparecen en una clase son idnticos al centro de la clase, es decir, a la marca de clase xi. Si la frecuencia relativa de esa clase es fi, la media se define como:
2 4

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Medidas caractersticas de una distribucin de frecuencias

A. Moreno-Daz

xn

i =1

x = xi f i =

i =1

En este caso, se tiene una media aproximada.

EJEMPLO 1
Se da la siguiente tabla de frecuencias para una variable X continua agrupada en cinco intervalos o clases.
Tabla 1

Clase

Marca
de clase

Frecuencia
absoluta ni

[20, 25)

22,5

39

0,3

0,3

[25, 30)

27,5

52

0,4

0,7

[30, 35)

32,5

26

0,2

0,9

[35, 40)

37,5

0,046

0,946

[40, 45)

42,5

0,054

Total

130

Frecuencia
relativa fi

Fi

Si se utilizan las frecuencias absolutas y el total de datos, la media se calcula como:


x=

22 ,5 39 + 27 ,5 52 + 32 ,5 26 + 37 ,5 6 + 42 ,5 7
= 28 ,27
130

Si se utilizan las frecuencias relativas:


x = 22 ,5 0 ,3 + 27 ,5 0 ,4 + 32 ,5 0 ,2 + 37 ,5 0 ,046 + 42 ,5 0 ,054 = 28 ,27

La media puede interpretarse como el centro de gravedad de los datos. Supngase que un histograma fuese un objeto con masa. Entonces, la media aritmtica estar localizada en aquel punto del eje X que deja al
histograma en equilibrio (figura 1).
Figura 1. La media como centro de gravedad de los datos
Distribucin simtrica

Media

www.udima.es

2 5

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

2.1.1. Propiedades de la media


La media aritmtica equilibra las desviaciones positivas y negativas de los datos respecto
de su valor, es decir, la media de las desviaciones a la media es 0:
n

(x

i =1

x)

f (x x) = 0

=0 y

i =1

Por tanto, la media acta como centro de gravedad de los datos, como ya se ha dicho.
La media es el mnimo de la funcin:

g (a) =

f ( x a)
i

i =1

Linealidad de la media: si X es una variable estadstica y a y b dos nmeros reales, se


tiene:

aX + b = aX + b

2.2. MEDIANA
La mediana de un conjunto de observaciones es el valor tal que, cuando las observaciones estn
ordenadas de menor a mayor, deja a ambos lados el mismo nmero de datos. Es aquel valor que divide
en dos partes iguales la distribucin de frecuencias.
Para datos sin agrupar, una vez que estn ordenados, la mediana es el dato central si el nmero de
datos es impar. Es el dato que ocupa la posicin:

n +1
2
Si el nmero de datos es par, la mediana es la media de los dos valores que ocupan la posicin
central, es decir, la media de los valores que ocupan las posiciones:

n
n
y
+1
2
2

EJEMPLO 2
Se tienen los datos ordenados x1 , x2 , x3 , x4 , x5 . La mediana es el dato x 3 que ocupa la posicin central. Si se
tienen los datos x1 , x2 , x3 , x4 , la mediana ser:

x2 + x3
2

2 6

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Medidas caractersticas de una distribucin de frecuencias

A. Moreno-Daz

/
De forma ms general se puede decir que, en funcin del polgono de frecuencias relativas acumuladas, la
mediana es la solucin de la ecuacin:

F ( x) =

1
2

Aunque esta raz puede no existir o no ser nica.

2.2.1. Mediana para variables discretas


Se ilustra con un ejemplo:

EJEMPLO 3
Sea X = Nmero de piezas defectuosas en un circuito. La tabla 2 recoge el nmero de circuitos con un determinado nmero de piezas defectuosas para un total de 100 circuitos.
Tabla 2
X

ni

Ni

0,02

11

0,11

14

25

0,25

20

45

0,45

18

63

0,63

15

78

0,78

87

0,87

93

0,93

97

0,97

10

99

0,99

11

100

Total

Fi

100

Se toma como mediana aquel xi cuya frecuencia absoluta acumulada sea igual o inmediatamente superior
a

n
. En este caso, M e = 5 .
2

www.udima.es

2 7

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

2.2.2. Mediana para variables continuas


En este caso, la ecuacin:

F ( x) =

1
2

tiene una nica solucin que, en general, aparece entre dos extremos de clase. La clase i, con extremos
Li y Li +1 , se llama clase mediana (o intervalo mediano) si:

F ( Li ) <

1
< F ( Li +1 )
2

Para determinar la mediana hay que interpolar linealmente en el polgono de frecuencias relativas
acumuladas en la clase o intervalo mediano. Por tanto, la clase mediana ser aqulla con frecuencia
acumulada igual o inmediatamente superior a:

n
2
Siendo:
N i = La frecuencia absoluta acumulada del intervalo anterior al mediano.

ni +1 = La frecuencia absoluta del intervalo mediano.

Ci +1 = La amplitud del intervalo mediano.

Se tiene:
n
Ni
M e = Li + 2
Ci +1
ni +1

EJEMPLO 4
Se supone la distribucin de salarios en euros del personal de una determinada factora dada en la tabla 3.
Tabla 3
Clase

ni

Ni

[0, 750)

6000

6000

0,48

[750, 1000)

3500

9500

0,76

[1000, 1250)

2800

12300

Total

12300

Fi

2 8

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Medidas caractersticas de una distribucin de frecuencias

A. Moreno-Daz

/
Como el tamao de la muestra es:

n
= 6150
2

n = 12300 ,

Por lo que el intervalo mediano es [750, 1000). Interpolando en el polgono de frecuencias relativas acumuladas o, de forma equivalente, usando la frmula anterior, se obtiene M e = 760 ,71.
La mediana es una medida robusta frente a valores atpicos y es idnea para tratar la informacin de un
conjunto de datos ordinales.

2.2.3. Propiedad importante de la mediana


La mediana es el mnimo de la funcin:

g (a) =

| xi a |

i =1

2.3. COMPARACIN ENTRE MEDIA Y MEDIANA


Como la media utiliza todos los datos para su clculo, su valor puede verse afectado de manera
desproporcionada por los valores extremos, si existe alguno. Es muy sensible a observaciones atpicas,
y un error en la toma de datos o un valor anormal puede modificarla totalmente. Esta sensibilidad ante
datos atpicos la presentan todas las medidas caractersticas basadas en sumas, pues un trmino muy
grande en relacin a los dems dominar la suma total. La mediana tiene solamente en cuenta el orden
de los datos y no su magnitud. Por tanto, no se ve alterada si una pequea parte de las observaciones
contiene errores de medida o de transcripcin. As, si un conjunto de datos contiene algunos valores
extremos, la mediana puede ser una caracterstica ms fiable que la media, aunque siempre es recomendable calcular ambas medidas. Diferirn mucho cuando la distribucin de los datos sea muy asimtrica, lo que puede sugerir heterogeneidad en los datos. En distribuciones asimtricas, la media est
ms desplazada hacia la cola de la distribucin que la mediana.

2.4. MODA
La moda ( ) es el valor que tiene frecuencia mxima en el conjunto de datos (es el ms repetido, el ms frecuente). Este concepto de valor ms repetido slo tendr sentido en un contexto discreto.
En un contexto continuo, con datos agrupados en intervalos o clases, se hablar de intervalo o clase
modal y de marca modal.

www.udima.es

2 9

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

EJEMPLO 5
La moda de los datos 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 es 9.
La moda del conjunto de datos 2, 5, 7, 9, 10, 11, 12 no existe.
Las modas de los datos 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 son 4 y 7.
Si se representa la distribucin de frecuencias mediante un diagrama de barras o un histograma, la moda
se identifica con el mximo de una funcin. La figura 2 muestra el histograma para la variable X = Peso
de una muestra de 93 coches. La clase modal es la de altura mxima, la [2500, 3000). En la tabla de frecuencias del ejemplo 1, el intervalo o clase modal es [25, 30), con una frecuencia absoluta mxima de 52. En la
tabla del ejemplo 3, el valor ms repetido o moda es el 4, con una frecuencia absoluta mxima de 20. A veces la moda no se identifica con un mximo global sino con uno local. De este modo se habla de distribuciones multimodales. Por ejemplo, en el histograma de la figura 2 tambin puede hablarse de dos concentraciones, la ya mencionada y la del intervalo [3500, 4000). En este caso se hablar de distribucin bimodal.
La multimodalidad puede deberse a la composicin de poblaciones o a valores atpicos. De ahora en adelante se considerarn solamente distribuciones o poblaciones unimodales.
Figura 2. Histograma bimodal

3. MEDIDAS DE DISPERSIN
La dispersin media de los datos respecto de una medida de tendencia central define las caractersticas de dispersin. Esta clase de caractersticas est relacionada con el concepto de distancia, que
ha aparecido en las propiedades de media y mediana. Dependiendo de la distancia que se utilice, se
tienen diferentes medidas de dispersin.
Las medidas de tendencia central ya vistas no proporcionan ninguna idea de la variabilidad de las
observaciones en el conjunto. Por ejemplo, si se tienen los siguientes conjuntos de cuatro datos:
0, 25, 75, 100

48, 49, 51, 52

En ambos casos, x = M e = 50 y, sin embargo, los dos conjuntos de datos son muy distintos, pues
en el primer caso, las observaciones estn mucho ms dispersas (espaciadas) que en el segundo. Las
medidas de dispersin van a mostrar cmo se separan, en promedio, los datos respecto de sus valores
centrales.

2 10

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Medidas caractersticas de una distribucin de frecuencias

A. Moreno-Daz

3.1. VARIANZA Y DESVIACIN TPICA


La varianza se define como la distancia euclidea media entre los valores del conjunto de datos y
su media aritmtica. Para datos sin agrupar, se tendr:
n

(x x)

2 =

i =1

Para datos distintos x1,..., xk con frecuencias relativas f1,..., fk, se tiene:
k

2 = f i ( xi x ) 2
i =1

Para datos agrupados en k clases o modalidades, siendo xi la marca de clase:


k

2 = f i ( xi x ) 2
i =1

La unidad de medida de la varianza es la de la media al cuadrado. Por ello, suele utilizarse la raz
cuadrada positiva de la varianza que se conoce con el nombre de desviacin tpica:
n

(x

x)2

i =1

La desviacin tpica sigue siendo una medida con dimensin que, por tanto, no servir cuando se
quiera comparar distribuciones o conjuntos de datos en funcin de su dispersin. Para ello se define el
coeficiente de variacin:

CV =

EJEMPLO 6
Se recoge la variable X = Precio en una muestra de zumos en un supermercado. Se obtiene un precio medio
de 0,25 euros, con una desviacin tpica de 0,01 euros. Por otro lado, en una muestra de pisos en venta, el
precio medio resulta ser 300.000 euros, con una desviacin tpica de 6.000 euros. Cul de las dos variables
est ms dispersa, el precio de los zumos o el de los pisos?
El coeficiente de variacin para el precio de los zumos es 0,04 y para el precio de los pisos 0,02. Por lo tanto, el precio de los pisos est menos disperso.

www.udima.es

2 11

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

3.1.1. Propiedades de la varianza


Si X es una variable estadstica y a y b dos nmeros reales, se tiene:

Var (aX + b) = a 2Var ( X )

3.2. CUANTILES
Son medidas de dispersin basadas en el orden. Los cuantiles dividen la serie ordenada de datos
en partes iguales: la mediana en dos partes iguales, los cuartiles en cuatro partes iguales, los deciles en
diez partes iguales y los percentiles en cien partes iguales. El percentil es el concepto ms amplio,
pues ofrece la particin ms fina de la serie ordenada.

3.2.1. Cuartiles
Son tres valores Q1, Q2 y Q3, que dividen la serie ordenada de datos en cuatro partes iguales. A la
izquierda de Q1 queda el 25% de las observaciones, a la izquierda de Q2 el 50%, por tanto Q2 = M e , y
a la izquierda de Q3 queda el 75% de las observaciones.
Si se tienen datos explcitos x1 , x2 ,, xn y x(1) x( 2) x( n ) representa la serie ordenada de menor a mayor, el cuartil de orden i, i = 1, 2, 3 se representa por Qi y es el valor:

x( j )
Qi =
x( j ) + x( j +1)

si
si

i (n + 1)
4
i (n + 1)
j<
< j +1
4
j=

Cuando los datos estn agrupados y x1 , x2 ,, xk son valores distintos, modalidades o


marcas de clase con sus correspondientes frecuencias acumuladas F1 , F2 ,, Fk , se define
el cuantil Qi , i = 1, 2, 3 como la solucin a la ecuacin funcional:

i
F ( x) = , i = 1, 2, 3
4
A la diferencia Q3 Q1 se la denomina rango intercuartlico. Constituye una medida de dispersin parecida a la desviacin tpica pero en el contexto de la serie de datos ordenada.

3.2.2. Percentiles
Son 99 valores que dividen la serie ordenada de datos en 100 partes iguales.
Si se tienen datos explcitos x1 , x2 ,, xn y x(1) x( 2) x( n ) representa la serie ordenada de menor a mayor, el percentil de orden i, i = 1,, 99 se representa por Pi y es el valor:
2 12

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Medidas caractersticas de una distribucin de frecuencias

A. Moreno-Daz

x( j )
Pi =
x( j ) + x( j +1)

si
si

i (n + 1)
100
i (n + 1)
< j +1
j<
100
j=

Cuando los datos estn agrupados y x1 , x2 ,, xk son valores distintos, modalidades o


marcas de clase con sus correspondientes frecuencias acumuladas F1 , F2 ,, Fk , se define
el percentil Pi , i = 1,, 99 como la solucin a la ecuacin funcional:

F ( x) =

i
, i = 1,, 99
100

Cuando se tienen datos implcitos, agrupados en intervalos, se debe utilizar el polgono de frecuencias acumuladas para encontrar el cuantil deseado, interpolando en el intervalo correspondiente
[ Li , Li +1 ). Esto es equivalente a usar la siguiente frmula:

n
Ni
C r = Li + k
Ci +1
n
i
+
1
k
r

Siendo r el orden del cuantil y k las partes distintas en que dicho cuantil divide la distribucin.
As, en los cuartiles, k = 4 y r = 1, 2, 3. En los deciles, k = 10 y r = 1,, 9. En los percentiles, k = 100
y r = 1,99. Si [ Li , Li +1 ) es el intervalo en el que la frecuencia acumulada contiene el valor:

n
k

Entonces N i es la frecuencia absoluta acumulada del intervalo inmediatamente anterior, ni +1 es


la frecuencia absoluta del intervalo en cuestin y Ci +1 su amplitud.
Se verifican las siguientes relaciones:

C 1 = M e = Q2 = D5 = P50
2

C 1 = Q1 = P25
4

C 3 = Q3 = P75
4

EJEMPLO 7
Se tiene la siguiente tabla de distribucin de salarios (en miles de euros) para los empleados de una empresa. Se pide calcular el salario medio, mediana, moda, Q1 , Q3 , D4 y P88 .
/

www.udima.es

2 13

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

/
Se tienen datos implcitos agrupados en intervalos. La media se calcula como:

x=

22 ,5 100 + 27 ,5 150 + 32 ,5 200 + 37 ,5 180 + 42 ,5 41


= 31,844
671
Tabla 4

Clase

Marca

ni

Ni

Fi

[20, 25)

22,5

100

100

0,149

[25, 30)

27,5

150

250

0,373

[30, 35)

32,5

200

450

0,671

[35, 40)

37,5

180

630

0,939

[40, 45)

42,5

41

671

Total

671

El salario medio es 31.844,26 euros. El intervalo mediano es [30, 35), ya que es el que tiene frecuencia relativa
acumulada inmediatamente superior a 0,5. Para calcular la mediana exactamente se interpola en el polgono
de frecuencias acumuladas que se muestra en la figura 3. Se obtiene M e = 32 ,13 , es decir, 32.130 euros.
Para calcular Q1 , se interpola en el intervalo o clase que contiene la frecuencia acumulada:

n 671
=
= 167 ,75
4
4
que es el [25, 30). Se obtiene Q1 = 27 ,25. Se puede usar tambin la frmula general de cuantiles, con r = 1 ,

k = 4 , Li = 25 , N i = 100 , ni+1 = 150 y Ci+1 = 5 .


Para calcular Q3 , se interpola en el intervalo [35, 40) que es el que contiene la frecuencia absoluta acumulada de:

n
671
=3
= 503 ,25
k
4

Se obtiene Q3 = 36 ,479 .
Figura 3. Polgono de frecuencias relativas acumuladas
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
20

25

30

35

40

45
/

2 14

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Medidas caractersticas de una distribucin de frecuencias

A. Moreno-Daz

/
Para calcular D4 , como:

n
671
=4
= 268 ,4
k
10

Se interpola en el intervalo [30, 35). Se obtiene D4 = 30 ,46 .


Para calcular P88 , como:

n
671
= 88
= 590 ,48
k
100

Se interpola en el intervalo [35, 40). Se obtiene P88 = 38 ,9.

3.3. RELACIN ENTRE CARACTERSTICAS DE TENDENCIA CENTRAL Y DE


DISPERSIN. VALORES ATPICOS
La informacin proporcionada por una caracterstica de tendencia central puede ser engaosa si
no viene acompaada de una medida de dispersin. Si se utiliza la desigualdad de Tchebychev, se
tiene la siguiente informacin:
El 75% de los datos se encuentran entre la media y dos desviaciones tpicas, es decir, en
el intervalo ( x 2 , x + 2 ).
El 89% de los datos se encuentran entre la media y tres desviaciones tpicas, es decir, en
el intervalo ( x 3 , x + 3 ).
1

En general, en el intervalo ( x k , x + k ) se encuentra, como mnimo el: 1001 2 %


k
de las observaciones.

A partir de estas relaciones se establecen criterios para definir datos atpicos basados en la media
y en la desviacin tpica. Un valor atpico es una observacin que es numricamente distante del resto
de los datos. Los valores atpicos pueden ser indicativos de datos que pertenecen a una poblacin diferente del resto de la muestra:
Criterio relajado (basado en media y desviacin tpica). Se dir que un valor x de un
conjunto de datos es:
Un valor atpico por defecto si x < x 2 .
Un valor atpico por exceso si x > x + 2 .
Criterio fuerte (basado en media y desviacin tpica). Se dir que un valor x de un
conjunto de datos es:

www.udima.es

2 15

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

Un valor atpico por defecto si


x < x 3 .
Un valor atpico por exceso si
x > x + 3 .
Criterio basado en el rango intercuartlico.
Se dir que un valor x de un conjunto de
datos es:
Un valor atpico por defecto si
x < Q1 1,5 (Q3 Q1 ).

John Graunt (1620-1674). Puso las bases


de la estadstica cientfica, realizando un trabajo a partir de las Tablas de Mortalidad de
la ciudad de Londres.

Un valor atpico por exceso si


x > Q1 + 1,5 (Q3 Q1 ).

En 1662 publica sus Observations, basadas


en dichas tablas. A partir de las observaciones recogidas durante varios aos Graunt
va emitiendo su opinin sobre diversos aspectos sociales y creencias populares. Todo
para, segn sus palabras, conocer la cifra
de poblacin, el nmero de varones y hembras, la proporcin que muere de cada
causa general y particular, la razn por la
que los entierros superan a los bautizos en
Londres cuando en el campo ocurre lo
contrario, etc.

4. MEDIDAS DE FORMA
Estas medidas valoran de forma cuantitativa ciertos aspectos en la forma o perfil de la distribucin de frecuencias.

El trabajo impresion tanto a Carlos III que


propuso a Graunt como socio fundador de la
recientemente creada Royal Society. La obra
alcanz varias ediciones y Graunt nunca fue
consciente de la importancia que tuvo.

4.1. MOMENTOS
Los momentos son una generalizacin de la media
(momentos centrados respecto del origen) y de la varianza
(momentos centrados respecto de la media).

4.1.1. Momento de orden r centrado en el origen


Si x1 ,..., xn es un conjunto de datos, se define el momento de orden r respecto del origen
como:
n

r
i

ar =

i =1

Para datos tabulados, con distribucin de frecuencias asociada, se define el momento de


orden r respecto del origen como:
k

ar =

f
i =1

xir =

xir

i =1

Por ejemplo, a1 = x.

2 16

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Medidas caractersticas de una distribucin de frecuencias

A. Moreno-Daz

4.1.2. Momento de orden r centrado en la media


Si x1 ,..., xn es un conjunto de datos, se define el momento de orden r respecto de la media
como:
n

(x

x )r

mr =

i =1

Para datos tabulados, con distribucin de frecuencias asociada, se define el momento de


orden r respecto de la media como:
k

m r = f i ( xi x ) r =

n (x
i =1

x)r

i =1

Se verifica que m1 = 0 y m2 = 2 . Adems, m2 = a2 a12 . Se llega as a una frmula ms cmoda para calcular la varianza cuando se tienen todos los datos:
n

2 =

x
i =1

2
i

nx 2
n

4.2. MEDIDAS DE ASIMETRA


Cuando al trazar una vertical por la media en el histograma de una variable, esta vertical se transforma en eje de simetra, decimos que la distribucin es simtrica. En caso contrario, se dir que la distribucin es asimtrica. En la figura 4 se muestran tres distribuciones: la primera, ms a la izquierda,
presenta asimetra positiva, la central es simtrica y la de la derecha presenta asimetra negativa.
Figura 4. Distribucin simtrica y asimtricas

0,4
0,3
0,2
0,1
0
5

Para cuantificar la asimetra se utiliza el coeficiente de Fisher:


n

1 =
www.udima.es

m3
=
3

(x
i =1

x)3

n 3
2 17

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

Se trata de un coeficiente adimensional. Se utilizar la siguiente regla:


Si 1 = 0 la distribucin es simtrica. Adems, si la distribucin es unimodal, x = M e = M O .
Si 1 > 0 la distribucin presenta asimetra positiva. Adems, si la distribucin es unimodal y
con forma de campana, M O < M e < x.
Si 1 < 0 la distribucin presenta asimetra negativa. Adems, si la distribucin es unimodal
y con forma de campana, x < M e < M O .

4.3. MEDIDAS DE APUNTAMIENTO O CURTOSIS


Este coeficiente compara el grado de apuntamiento de una distribucin (lo picuda que es) con el
de la curva normal. Se define el coeficiente de apuntamiento o curtosis como:
n

m
2 = 44 3 =

(x
i =1

x)4

n 4

Es un coeficiente adimensional. El 3 se introduce para que en el caso de la curva normal, que es el


valor de referencia, el coeficiente valga 0. Si una curva tiene un apuntamiento como el de la normal, se
dice que es mesocrtica, si es ms apuntada o picuda que la normal, se dice que es leptocrtica, y si
lo es menos, se dice que es platicrtica (vase figura 5). Con lo que:
Si 2 = 0, la distribucin es mesocrtica.
Si 2 > 0, la distribucin es leptocrtica.
Si 2 < 0, la distribucin es platicrtica.
Figura 5. Apuntamiento en una distribucin

Leptocrtica

2 18

Mesocrtica

Platicrtica

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Medidas caractersticas de una distribucin de frecuencias

A. Moreno-Daz

5. MEDIDAS DE RELACIN
5.1. MOMENTOS DE UNA VARIABLE ESTADSTICA BIDIMENSIONAL
Se definen dos tipos de momentos asociados a la distribucin conjunta de dos variables estadsticas.

5.1.1. Momento de orden (r, h) centrado en el origen


Sean ( x1 , y1 ), ( x2 , y 2 ),..., ( xn , y n ) un conjunto de datos bidimensionales que definen la variable estadstica bidimensional (X, Y). Se define el momento de orden (r, h) centrado en
el origen, arh , como:
n

r h
i yi

arh =

i =1

Para datos tabulados, con modalidades o clases {x1 ,..., xk }, y1 ,..., y p y distribucin de
frecuencias relativas conjunta f ij i =1,...,k ; j =1,... p :

{ }

a rh = xir y hj f ij
i =1 j =1

Se verifica que a10 = x y a01 = y.

5.1.2. Momento de orden (r, h) centrado en la media


Sean ( x1 , y1 ), ( x2 , y 2 ),..., ( xn , y n ) un conjunto de datos bidimensionales que definen la variable estadstica bidimensional (X, Y). Se define el momento de orden (r, h) centrado en
la media, mrh , como:
n

mrh =

(x
i =1

x ) r ( yi y ) h

Para datos tabulados, con modalidades o clases {x1 ,..., xk }, y1 ,..., y p y distribucin de
frecuencias relativas conjunta f ij i =1,..., k ; j = 1,... p :

{ }

mrh =

( x

x ) r ( y j y ) h f ij

i =1 j =1

www.udima.es

2 19

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

Se verifica que m10 = m01 = 0. Se tiene la siguiente relacin entre momentos conjuntos y momentos marginales:

m20 = X2 = Varianza de X

m02 = Y2 = Varianza de Y

Tambin se verifica la siguiente relacin entre ambos tipos de momentos:

m11 = a11 a10 a01

5.2. COVARIANZA Y COEFICIENTE DE CORRELACIN LINEAL


En particular, el momento m11 es muy importante en la valoracin de la relacin lineal existente entre las dos variables. Se llama covarianza y cuando se tienen los datos explcitos, ( x1 , y1 ),..., ( xn , y n ) , se
define como:
n

Cov( X , Y ) =

( xi x ) ( yi y )

i =1

x y

i i

i =1

La covarianza mide cmo varan conjuntamente los valores de X y de Y de la siguiente forma:


Si Cov( X , Y ) > 0, hay mayor tendencia a encontrar valores altos (o bajos) de X con
valores altos (o bajos) de Y.
Si Cov( X , Y ) < 0, la variacin conjunta de ambas variables ser en sentido inverso: a
valores altos (o bajos) de una de las variables se corresponden valores bajos (o altos) de la
otra.
Si Cov( X , Y ) = 0, no existe relacin lineal entre X e Y.
Cuanto mayor sea el valor de la covarianza mayor ser la relacin lineal. Sin embargo, como su
valor depende de las unidades de medida, un valor alto puede deberse a las unidades ms que al grado
de relacin lineal existente entre las variables. Para evitarlo, se define un coeficiente que cuantifique
dicha relacin y que sea adimensional. Surge as el coeficiente de correlacin, que normaliza la covarianza y que se define como:

Cov( X , Y )
X Y

Se verifica que 1 1 . As:


Un valor = 1 indica una relacin inversamente proporcional perfecta entre X e Y. Los
pares de datos ( xi , yi ) se encuentran sobre una recta de pendiente negativa.

2 20

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

A. Moreno-Daz

Medidas caractersticas de una distribucin de frecuencias

Un valor 1 < < 0 indica una relacin


lineal inversamente proporcional entre X e Y y
su grado de intensidad viene dado por .
Un valor = 0 indica que no existe relacin
lineal entre X e Y.
Un valor 0 < < 1 indica una relacin lineal
directamente proporcional entre X e Y y su
grado de intensidad viene dado por .
Un valor = 1 indica una relacin directamente proporcional perfecta entre X e Y. Los
pares de datos ( xi , yi ) se encuentran de una
recta de pendiente positiva.

6. REPRESENTACIONES GRFICAS. DIAGRAMA DE CAJA

L. A. Jacques Qutelet 1796-1874). Fue un


astrnomo y naturalista belga, tambin matemtico, socilogo y estadstico.
Es reconocido como uno de los padres de la
estadstica moderna. Aplic los mtodos estadsticos a las ciencias sociales y fue criticado por ello.
Qutelet es tambin clebre por desarrollar
la nocin de hombre promedio (l'homme
moyen) y por su aplicacin de la estadstica
a la criminologa.
En su obra de la Fsica social concluye que
el delito es un fenmeno social que puede
conocerse y determinarse estadsticamente y que los delitos se cometen cada ao
con absoluta regularidad y precisin.

Dado un conjunto de datos, se llama resumen de las


cinco cifras a los tres cuartiles junto con el mximo y el
mnimo de los datos, es decir, {mnimo, Q1, Q2, Q3,
mximo}. La representacin grfica de este resumen de las cinco cifras se hace a travs del diagrama
de caja o box-plot.
Su construccin se muestra en la figura 6. Sobre la recta real se coloca una caja en la que el extremo izquierdo coincide con Q1 y el extremo derecho con Q3. Dentro de la caja se coloca Q2. Esta
caja encierra el 50% de los datos que ocupan la posicin central. El ancho de la caja representa el rango intercuartlico o RI. A continuacin, se marcan dos zonas: la barrera interna y la barrera externa.
Una vez establecidas las barreras se marcan las observaciones que caen ms all de ellas, con smbolos
diferentes segn la zona. Las observaciones que caen en ambas zonas son datos atpicos. Las que caen
ms all de las barreras externas son datos atpicos extremos. A continuacin se dibujan unos segmentos que salen de ambos lados de la caja hasta la observacin ms alejada pero que se encuentre dentro
de las barreras. Si no hubiese ningn dato atpico, los segmentos llegaran hasta los valores mximos y
mnimos.
Por ejemplo, en el diagrama de caja que se muestra en la figura 7 hay tres datos atpicos, uno de
ellos extremo. La media viene marcada con el smbolo +. Como M e = Q2 < x , la distribucin presenta
asimetra positiva. Al haber asimetra positiva los datos atpicos deben interpretarse con cuidado, ya
que, en este caso, su presencia es compatible con la asimetra que presenta la distribucin.

www.udima.es

2 21

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

Figura 6. Construccin del diagrama de caja

3 RI

3 RI

RI

1,5 RI

1,5 RI

Barrera externa Barrera interna

Barrera interna
Q1 Q2

Barrera externa
X

Q3

En el diagrama de caja hay que fijarse en el rango intercuartlico, en el rango de los datos sin contar los datos atpicos, en la asimetra y en los datos atpicos.
Figura 7. Diagrama de caja

20

40

60

80

7. TRANSFORMACIONES DE DATOS
Muchas de la tcnicas estadsticas que se aplican en conjuntos de datos requieren que su distribucin sea unimodal y simtrica. Aunque esta restriccin pueda parecer muy severa, este tipo de distribuciones es frecuente con datos reales. En este epgrafe se vern algunos ejemplos de transformaciones sobre los datos originales que producen simetra.

2 22

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Medidas caractersticas de una distribucin de frecuencias

A. Moreno-Daz

7.1. TRANSFORMACIONES DE DATOS CON ASIMETRA POSITIVA


Las transformaciones que se utilizan cuando los datos presentan asimetra positiva son del tipo
x , log x, x c , con c < 1. Estas transformaciones reducen mucho los valores altos y menos los valores pequeos. De este conjunto de transformaciones las ms frecuentes son x1 / 2 , log x y x 1. La figura 8 muestra una distribucin con asimetra positiva y las figuras 9 y 10 el efecto de dos de estas transformaciones.

Figura 8. Distribucin asimtrica a la derecha

400
300
200
100
0
0

10

12

Figura 9. Transformacin logartmica aplicada a la figura 8

150
120
90
60
30
0
1

0,5

Figura 10. Transformacin

0,5

1,5

x aplicada a la figura 8

300
250
200
150
100
50
0
0,1

www.udima.es

0,9

1,9

2,9

3,9

2 23

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

7.2. TRANSFORMACIONES DE DATOS CON ASIMETRA NEGATIVA


Las transformaciones que se utilizan cuando los datos presentan asimetra negativa son del tipo
x con c > 1 . La figura 11 muestra un histograma con este tipo de asimetra y la figura 12 el cambio
que sufre con este tipo de transformacin.
c

Figura 11. Distribucin asimtrica a la izquierda

25
20
15
10
5
0
0,38

0,48

0,58

0,68

Figura 12. Transformacin

x2

0,78

0,88

0,98

aplicada a la figura anterior

30
25
20
15
10
5
0
0

2 24

0,3

0,6

0,9

1,2

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Medidas caractersticas de una distribucin de frecuencias

A. Moreno-Daz

CONCEPTOS BSICOS A RETENER


Saber calcular e interpretar las principales medidas de centralizacin, dispersin, forma y
relacin de un conjunto de datos o de una distribucin de frecuencias.
Saber construir e interpretar un diagrama de caja, detectando datos atpicos.
Conocer algunas de las transformaciones ms empleadas para mejorar la asimetra.

ACTIVIDADES DE REPASO

Enunciado 1
Se recuerda la siguiente informacin del importe en euros de las ltimas 200 facturas emitidas por
una empresa, agrupadas en seis intervalos o clases de la misma longitud.
El primer intervalo tiene 75 como extremo superior, frecuencia relativa de 0,075 y una
amplitud de seis unidades.
Hasta el segundo intervalo se acumulan 41 facturas.
El tercer intervalo tiene frecuencia absoluta de 42 facturas, el cuarto, de 69, y el quinto, de 36.
Construir la tabla de distribucin de frecuencias y calcular la media, mediana, moda, coeficiente
de variacin y el percentil 74.
Enunciado 2
Se estudia la variable X = Desgaste (en milmetros) que sufren los neumticos en los coches de
Frmula 1 tras 10 sesiones de entrenamiento. Se obtienen los resultados de la siguiente tabla:
Tabla 5
Clase

ni

[0,5; 1,5)

[1,5; 2,5)

25

[2,5; 3,5)

13

[3,5; 4,5)

Total

51

Construir el diagrama de caja y comentarlo.


www.udima.es

2 25

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

Enunciado 3
Se ha medido el tiempo de procesamiento, en minutos, de un conjunto de 12 tareas similares, obtenindose:
2,45; 1,48; 2,64; 3,21; 1,59; 2,00; 2,80; 3,35; 2,77; 1,89; 2,41; 1,50
Obtener el tiempo medio de procesamiento, el coeficiente de asimetra y el de curtosis y comentarlos.
Enunciado 4
Comentar el siguiente diagrama de caja. Se representan las unidades vendidas mensualmente por
una factora en los ltimos 12 aos y medio. La media se representa por el signo +.
Figura 13. Diagrama de caja

190

210

230

250

270

Enunciado 5
En un curso para aumentar la rapidez de lectura se tiene informacin de la variable X = Nmero
de semanas en el curso e Y = Ganancia en rapidez de lectura medida en palabras por minuto. Calcular
el coeficiente de correlacin y comentarlo.
Tabla 6

2 26

86

118

49

193

164

232

73

109

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Medidas caractersticas de una distribucin de frecuencias

A. Moreno-Daz

EJERCICIOS VOLUNTARIOS
Tras el estudio de esta Unidad didctica, el estudiante puede hacer, por su cuenta, una serie de
ejercicios voluntarios, como los siguientes:
1. Buscad en la bibliografa informacin sobre el significado y la importancia de la propiedad de la mediana mencionada en el texto.
2. En 87 familias se tiene informacin sobre las variables X = Ingresos mensuales e Y = Gasto
mensual en ocio, en euros.
Tabla 7
X|Y

[0, 150)

[150, 300)

[300, 450]

[600, 1000)

[1000, 1500)

[1500, 2000)

25

[2000, 2500)

[2500, 3000]

20

Calcular el gasto medio en ocio por familia.


Calcular los ingresos medios mensuales por familia.
Para familias con ingresos inferiores a 1.500 euros, cul es el gasto medio en
ocio?
Calcular el ingreso mximo que tienen el 25% de las familias que menos ingresos
tienen.
Calcular el coeficiente de correlacin entre ambas variables y comentarlo.
3. Para la variable X del ejercicio anterior, dibujar el diagrama de caja.
4. Se tiene un conjunto de 40 datos. Si se multiplica cada dato por 4 y se le suma 3, qu le
ocurrir a la media del conjunto transformado de datos? Y a su varianza?
5. Asocia a cada diagrama de dispersin una de las frases siguientes sobre el valor del coeficiente de correlacin.

cerca de 0, no existe relacin lineal entre ambas variable.

cercano a 1, existe relacin lineal directamente proporcional entre ambas variables.

cercano a 1, existe relacin inversamente proporcional entre ambas variables.

www.udima.es

2 27

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

ESTADSTICA

Figura 14. Diagramas de dispersin

37

60
57

33

54

29

51
48

25

45
42

21
14

17

20

23

26

29

32

42

45

48

51

54

47

60

REFERENCIAS BIBLIOGRFICAS

Bsica

CALOT, G.: Curso de estadstica descriptiva, Paraninfo, 1988.


ESTEBAN GARCA, J. y et al: Estadstica descriptiva y nociones de probabilidad, Thomson Editores, 2005.
FERNNDEZ CUESTA, C. y FUENTES GARCA, F.: Curso de estadstica descriptiva. Teora y prctica, Editorial Ariel,
1995.
MOORE, D.S. y NOTZ, W.I.: Statistics: Concepts and Controversies. Freeman, 2006.
ROS, S.: Mtodos estadsticos, Ediciciones del Castillo, 1987.
SPIEGEL, MURRAY R.: Estadstica, McGraw-Hill, 2002
TOMEO PERUCHA, V. y UA JUREZ, I.: Lecciones de estadstica descriptiva, Thomson Editores, 2003.

2 28

www.udima.es

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

A. Moreno-Daz

Medidas caractersticas de una distribucin de frecuencias

En la red

NIST/SEMATECH e-Handbook of Statistical Methods: http://www.itl.nist.gov/div898/handbook/index


Material dinmico e interactivo para aprender estadstica: http://cast.massey.ac.nz/core/index.html?collection=Public
Rice Virtual Lab in Statistics: http://onlinestatbook.com/rvls.html
Ejercicios muy sencillos e intuitivos sobre medidas de tendencia central y dispersin: http://www.cimt.plymouth.ac.uk/projects/mepres/book7/book7int.htm

Avanzada

MONTGOMERY, D.C. y RUNGER, G.C.: Applied Statistics and Probability for Engineers, 3. ed.. New York: John Wiley
and Sons, 2003.
TUKEY, J.W.: Exploratory Data Analysis, Addisson Wesley, 1977.

www.udima.es

2 29

"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".

Вам также может понравиться