Вы находитесь на странице: 1из 124

1 Estadstica 1

'
&
$
%
2. Algunas nociones de Estadstica Descriptiva
La Estadstica Descriptiva se ocupa de:
la recopilacion, organizacion y resumen de los datos.
Los DATOS u OBSERVACIONES son la materia prima de los estadsticos.
Los n umeros que utilizamos para interpretar la realidad.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
2 Estadstica 2
'
&
$
%
Ejemplos:
1. Supongamos que estamos desarrollando un nuevo software que queremos
comercializar en breve. Para poder hacerlo necesitamos garantizar un cierto
nivel de calidad en el mismo, para lo que se ha dise nado un perodo de
pruebas.
En base a los errores que observemos, que nivel de calidad podemos
garantizar? Podemos garantizarla de forma determinista?
2. Una cierta empresa que se dedica a fabricar placas base para memorias de
ordenadores personales quiere saber que porcentaje de las mismas tienen
defectos, y cu ales son los distintos tipos de defectos.
C omo podemos conocer el % de placas con defectos?
Grado en IS e IS+MAT c Mara Eugenia Castellanos
3 Estadstica 3
'
&
$
%
Para contestar a estas y a muchas otras preguntas necesitamos DATOS.
Establecer como recoger los datos. (Dise no de Experimentos, Muestreo).
Analizar los datos recogidos.
Analisis descriptivo: para extraer informacion de los datos (Primera parte
de esta asignatura).
Analisis inferencial: para interpretar y sacar conclusiones sobre los datos
(Segunda y tercera parte de esta asignatura).
Grado en IS e IS+MAT c Mara Eugenia Castellanos
4 Estadstica 4
'
&
$
%
Estos datos proceden de observar o medir ciertos atributos correspondientes
a los individuos de una poblaci on.
Estos atributos se denominan: Variables Estadsticas.
Las variables se denotan con letras may usculas (X, Y, A, B, . . .) y pueden
tomar cualquier valor de un conjunto determinado.
El dominio o rango es el conjunto de posibles valores que puede tomar una
variable.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
5 Estadstica 5
'
&
$
%
2.1. Tipos de Variables
Las variables pueden clasicarse en dos grandes tipos: cuantitativas y
cualitativas.
Cuantitativas: sus valores se pueden expresar en cantidades numericas,
como medidas o recuentos.
Ejemplo: el peso, la longitud, el n umero de trabajos que llegan a un
determinado servidor, el tiempo que duran los espacios publicitarios... A su
vez se clasican en
Discretas: toman valores en un conjunto nito o innito numerable de
valores.
Continuas: el conjunto en el que toman valores es un continuo (conjunto
innito no numerable).
Grado en IS e IS+MAT c Mara Eugenia Castellanos
6 Estadstica 6
'
&
$
%
Cualitativas: no tienen una interpretacion cuantitativa, no se pueden
medir, s olo pueden clasicarse.
Ejemplo: el sexo, los distintos sectores en los que se pueden clasicar las
distintas empresas, el grado de satisfaccion con un determinado producto o
poltica, el estado civil ...
Un caso especial de variables cualitativas son:
Ordinales: toman valores de tipo nominal, pero es posible establecer un
orden entre ellas.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
7 Estadstica 7
'
&
$
%
Ejemplos de variables cuantitativas discretas
El n umero de hijos de una familia.
El n umero de pasajeros en un autob us.
El n umero de telespectadores de un programa de TV.
El n umero de caras obtenido en el lanzamiento repetido de una moneda.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
8 Estadstica 8
'
&
$
%
Ejemplos de variables cuantitativas continuas
La altura H de una persona.
El consumo de gasolina de un automovil cada 100 kilometros.
El tiempo que duran los espacios publicitarios.
El peso de un ni no al nacer.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
9 Estadstica 9
'
&
$
%
Ejemplos de variables cualitativas
El sexo es una variable cualitativa que admite dos valores: hombre y mujer.
La opini on (favorable o desfavorable) acerca de la participacion de Espa na
en la guerra de Irak.
El voto en una elecciones.
El estado civil.
El color de pelo.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
10 Estadstica 10
'
&
$
%
Ejemplos de variables ordinales
El grado de satisfacci on de los ciudadanos con la poltica laboral del
gobierno: Muy satisfecho, satisfecho, poco satisfecho, nada satisfecho.
Si estudiamos la llegada a la meta de un corredor en una competicion de 20
participantes, su clasicacion C es tal que C {1
o
, 2
o
, 3
o
, . . . , 20
o
}.
El nivel de dolor, D, que sufre un paciente ante un tratamiento medico: D
{ inexistente, poco intenso, moderado, fuerte}.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
11 Estadstica 11
'
&
$
%
Notas
Muchas veces una variable cuantitativa continua aparece como discreta.
Por ejemplo en los casos en los que hay limitaciones en lo que concierne a la
precision del aparato de medida de la variable de interes.
Por ejemplo, si medimos la altura en metros de personas con una regla que
ofrece dos decimales de precision, podemos obtener C {. . . , 1.50, 1.51,
1.52, 1.53, . . . }.
En realidad lo que ocurre es que con cada una de esas mediciones
expresamos que el verdadero valor de la misma se encuentra en un intervalo
de semiamplitud 0,005.
Por tanto cada una de las observaciones de X representa mas bien un
intervalo que un valor concreto.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
12 Estadstica 12
'
&
$
%
2.2. Descripcion de datos
Supongamos que disponemos de un conjunto de datos,
como podemos sacar conclusiones de el?
- Tablas, gracos y diagramas: comunican r apidamente una imagen visual
de los datos.
- Medidas numericas: describen numericamente caractersticas de los datos
observados.
El procedimiento apropiado en cada caso depende del tipo de datos, o variables,
seg un sean cualitativos o cuantitativos.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
13 Estadstica 13
'
&
$
%
2.2.1. Tablas de Frecuencias
Este tipo de res umenes de datos se puede realizar en cualquier tipo de conjunto
de datos (cualitativos o cuantitativos).
Consideramos:
una poblaci on estadstica de n individuos,
descrita seg un un caracter o variable C
cuyas modalidades han sido agrupadas en un numero k de clases, que
denotamos mediante c
1
, c
2
, . . . , c
k
.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
14 Estadstica 14
'
&
$
%
Frecuencia absoluta: de la clase c
i
es el n umero, n
i
, de observaciones cuya
caracterstica pertenece a esa clase.
Frecuencia relativa de la clase c
i
es el cociente, f
i
, entre las frecuencias
absolutas de dicha clase y el numero total de observaciones, es decir,
f
i
=
n
i
n
Nota: Observese que f
i
es el tanto por uno de observaciones que est an en
clase c
i
. Multiplicado por 100 representa el porcentaje de esa clase.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
15 Estadstica 15
'
&
$
%
Ejemplo:
La tabla recoge el n umero de hijos de 150 matrimonios que llevan casados mas
de 10 a nos:
0 0 1 1 2 0 3 0 2 4 5 3 2 2 1
2 0 6 3 2 1 1 1 0 0 5 1 1 2 3
1 0 4 5 2 1 2 1 1 2 2 2 2 4 1
2 3 4 5 1 3 4 5 2 1 4 1 2 1 2
1 1 1 0 0 2 0 2 0 2 1 3 0 4 1
1 1 0 1 0 2 3 3 1 4 4 1 6 1 0
3 0 0 0 1 1 1 2 3 3 3 1 2 3 0
6 5 1 2 0 0 3 6 2 1 1 1 4 1 2
4 5 1 2 1 2 2 4 2 3 3 3 4 3 1
5 5 2 3 1 3 1 5 0 0 0 4 2 0 5
Grado en IS e IS+MAT c Mara Eugenia Castellanos
16 Estadstica 16
'
&
$
%
En primer lugar, denimos la variable de interes. En este caso X = n umero
de hijos.
Estudiamos el rango de X, para ello buscamos los valores maximo y mnimo
de los datos, observamos que x
min
= 0 y x
max
= 6. Luego el dominio de X es
0, 1, 2, 3, 4, 5, 6.
A continuacion contamos cuantas veces aparece cada uno de los valores del
dominio, y lo expresamos en una tabla.
Las frecuencias relativas se calculan sin mas que dividir las frecuencias
absolutas entre el n umero total de datos, en este caso n = 150.
Obtenemos la tabla:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
17 Estadstica 17
'
&
$
%
Valor Frec. Absoluta Frec. Relativas
0 26 0.173
1 42 0.280
2 32 0.213
3 21 0.140
4 14 0.093
5 11 0.073
6 4 0.027
150 1
Grado en IS e IS+MAT c Mara Eugenia Castellanos
18 Estadstica 18
'
&
$
%
Frecuencia absoluta acumulada, N
i
, es el n umero de observaciones de la
muestra cuya caracterstica es inferior o igual a la categora c
i
.
Frecuencia relativa acumulada, F
i
, es el tanto por uno de los individuos
de la muestra que presentan una caracterstica inferior o igual a c
i
.
F
i
=
N
i
n
=
n
1
+n
2
+. . . + n
i
n
= f
1
+f
2
+ . . . +f
i
=
i

j=1
f
j
Notar que s olo tiene sentido su calculo sobre variables cuantitativas o
variables cualitativas ordinales.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
19 Estadstica 19
'
&
$
%
Continuando con el ejemplo de las familias espa nolas,
El n umero de familias que tienen 1 o menos hijos es igual a 26 + 42 = 68.
Luego la frecuencia absoluta acumulada de 1, ser a N
1
= 68.
Observamos que para calcular N
2
, podramos sumar
N
2
= 26 + 42 + 32 = 100
pero en general es mas sencillo utilizar la frecuencia absoluta acumulada
anterior, es decir N
1
, as
N
2
= 68 + 32 = 100
Las frecuencias relativas acumuladas se calculan dividiendo las acumuladas
absolutas por en n umero total de datos.
La tabla en la que se presentan todas las frecuencias es:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
20 Estadstica 20
'
&
$
%
Valor F. Abs. F. Rel. F. Abs. Acum. F. Rel. Acum
0 26 0.173 26 0.173
1 42 0.280 68 0.453
2 32 0.213 100 0.667
3 21 0.140 121 0.807
4 14 0.093 135 0.900
5 11 0.073 146 0.973
6 4 0.027 150 1
150 1
Grado en IS e IS+MAT c Mara Eugenia Castellanos
21 Estadstica 21
'
&
$
%
Observacion-. Como todas las modalidades son exhaustivas e incompatibles se
tiene que la suma de todas las frecuencias absolutas es n.
k

j=1
n
j
= n
1
+n
2
+. . . + n
k
= n,
y la suma de todas las frecuencias relativas es 1.
k

j=1
f
j
=
k

j=1
n
j
n
=

k
j=1
n
j
n
=
n
n
= 1.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
22 Estadstica 22
'
&
$
%
Distribuci on de Frecuencias
Consiste en representar conjuntamente en una tabla el conjunto de clases y sus
frecuencias correspondientes.
Mod. F. Abs. F. Rel. F. Abs. Acum. F. Rel. Acum
C n
i
f
i
N
i
F
i
c
1
n
1
f
1
=
n
1
n
N
1
= n
1
F
1
=
N
1
n
= f
1

c
j
n
j
f
j
=
n
j
n
N
j
= n
1
+ . . . +n
j
F
j
=
N
j
n
= F
j1
+ f
j

c
k
n
k
f
k
=
n
k
n
N
k
= n F
k
= 1
n 1
Grado en IS e IS+MAT c Mara Eugenia Castellanos
23 Estadstica 23
'
&
$
%
Eleccion de las clases
Las clases se eligen en funci on del tipo de variables que estudiemos:
Variables cualitativas u ordinales: las clases c
i
ser an de tipo nominal.
Variables cuantitativas: existen dos posibilidades.
Variables discretas: las clases ser an valores numericos x
1
, . . . , x
k
.
Variables continuas: las clases vendran denidas mediante intervalos.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
24 Estadstica 24
'
&
$
%
Variables cuantitativas continuas: Eleccion de intervalos
En el caso continuo, las clases est an formadas por todos los valores numericos
contenidos en el intervalo
Notaci on:
l
j1
l
j
def
(l
j1
, l
j
]
amplitud del intervalo: son las cantidades
a
i
= l
i
l
i1
.
marca de clase: c
i
, es un punto representativo del intervalo, por ejemplo el
punto medio,
c
i
=
l
i
+ l
i1
2
.
En el caso continuo la forma de la Distribuci on de Frecuencias es:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
25 Estadstica 25
'
&
$
%
M. clase F. Abs. F. Rel. F. Abs. Ac. F. Rel. Ac.
C n
i
f
i
N
i
F
i
l
0
l
1
c
1
n
1
f
1
= n
1
/n N
1
= n
1
F
1
= f
1
. . . . . . . . . . . . . . . . . .
l
j1
l
j
c
j
n
j
f
j
= n
j
/n N
j
= N
j1
+n
j
F
j
= F
j1
+ f
j
. . . . . . . . . . . . . . . . . .
l
k1
l
k
c
k
n
k
f
k
= n
k
/n N
k
= n F
k
= 1
n 1
Para completar esta tabla debemos elegir dos cosas:
el numero de intervalos k
la amplitud de cada intervalo.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
26 Estadstica 26
'
&
$
%
En cuanto al n umero de intervalos...
Tomaremos una de los siguientes valores aproximados:
N intervalos = k
_

n si n no es muy grande
1 + 3,22 log(n) en otro caso
Por ejemplo,
si el numero de observaciones es n = 100, podemos agrupar las observaciones
en k =

100 = 10 intervalos.
Sin embargo, si tenemos n = 1,000,000, ser a mas razonable elegir
k = 1 + 3,22 log n 20 intervalos, que k =

1000000 = 1000.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
27 Estadstica 27
'
&
$
%
En cuanto a la amplitud de los intervalos...
La amplitud de cada intervalo a
i
se suele tomar constante.
Si l
0
= x
min
y l
k
= x
max
son las observaci ones mnima y maxima de la
poblaci on, entonces la amplitud total, A, es
A = l
k
l
0
de forma que la amplitud de cada intervalo ser a a
i
= A/k y la division en
intervalos podra hacerse tomando:
l
0
= x
min
l
1
= l
0
+a
. . .
l
k
= x
max
= l
0
+ka
Grado en IS e IS+MAT c Mara Eugenia Castellanos
28 Estadstica 28
'
&
$
%
Nota:
Podra ocurrir que la cantidad a fuese un n umero poco comodo (ej.
a = 9,62).
Se recomienda, entonces, variar simetricamente los extremos,
l
0
< x
min
< x
max
< l
k
, de forma que se tenga que a es un n umero mas simple
(ej. a = 10).
Grado en IS e IS+MAT c Mara Eugenia Castellanos
29 Estadstica 29
'
&
$
%
Ejemplo:
Sobre un grupo de n = 21 personas se realizan las siguientes observaciones de
sus pesos, medidos en kilogramos:
X x
1
, x
2
, . . . , x
21
58 42 51 54 40 39 49
56 58 57 59 63 58 66
70 72 71 69 70 68 64
Agrupar los datos en una tabla correspondiente a una distribuci on de
frecuencias.
En primer lugar hay que observar que si denominamos X a la variable peso
de cada persona esta es una variable de tipo cuantitativa y continua.
Por tanto a la hora ordenar los resultados en una tabla estadstica, esto se
ha de hacer agrupandolos en intervalos de longitud conveniente.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
30 Estadstica 30
'
&
$
%
Esto nos lleva a perder cierto grado de precision. Para que la perdida de
informacion no sea muy relevante seguimos el criterio de utilizar k =

21
intervalos (no son demasiadas las observaciones).
Por simplicidad es conveniente tomar bien k = 4 o bien k = 5.
Arbitrariamente se elige una de estas dos posibilidades, por ejemplo, k = 5.
A continuacion determinamos la amplitud de cada intervalo, a
i
i = 1, . . . , 5. Lo mas c omodo es tomar la misma amplitud en todos los
intervalos, a
i
= a, donde
l
0
= x
min
= 39
l
5
= x
max
= 72
A = l
5
l
0
= 72 39 = 33
a =
A
5
=
33
5
= 6,6
Luego tomaremos k = 5 intervalos de amplitud a = 6,6 comenzando por
l
0
= x
min
= 39 y terminando en l
5
= x
max
= 72.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
31 Estadstica 31
'
&
$
%
l
i1
l
i
c
i
n
i
f
i
N
i
F
i
i = 1 39 - 45,6 42,3 3 0,1428 3 0,1428
i = 2 45,6 - 52,2 48,9 2 0,0952 5 0,2381
i = 3 52,2 - 58,8 55,5 6 0,2857 11 0,5238
i = 4 58,8 - 65,4 62,1 3 0,1428 14 0,6667
i = 5 65,4 - 72 68,7 7 0,3333 21 1
21 1
Otra posibilidad a la hora de construir la tabla, y que nos permite trabajar con
cantidades mas sencillas a la hora de construir los intervalos es la siguiente:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
32 Estadstica 32
'
&
$
%
Podemos denir:
a

= 7
A

= a

5 = 35
d = A

A = 35 33 = 2
l
0
= x
min

d
2
= 39 1 = 38
l
5
= x
max
+
d
2
= 72 + 1 = 73
ya que as la tabla estadstica no contiene decimales en la expresion de los
intervalos, y el exceso d, cometido al ampliar el rango de las observaciones
desde A hasta A

, se reparte del mismo modo a los lados de las observaciones


menores y mayores.
La tabla que obtenemos es:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
33 Estadstica 33
'
&
$
%
Intervalos M. clase f.a. f.r. f.a.a. f.r.a.
l
i1
l
i
c
i
n
i
f
i
N
i
F
i
i = 1 38 - 45 41,5 3 0,1428 3 0,1428
i = 2 45 - 52 48,5 2 0,0952 5 0,2381
i = 3 52 - 59 55,5 7 0,3333 12 0,5714
i = 4 59 - 66 62,5 3 0,1428 15 0,7143
i = 5 66 - 73 69,5 6 0,2857 21 1
21 1
Grado en IS e IS+MAT c Mara Eugenia Castellanos
34 Estadstica 34
'
&
$
%
2.2.2. Descripciones Gracas
Los gracos a emplear dependeran de la naturaleza de las variables:
1. Gracos para v. cualitativas
Diagramas de barras
Diagramas de sectores
Pictogramas
2. Gracos para v. cuantitativas
Diagramas de Barra (V. Discretas)
Graco de Tallos y Hojas.
Histogramas (V. Continuas)
Grado en IS e IS+MAT c Mara Eugenia Castellanos
35 Estadstica 35
'
&
$
%
2.2.2.1 Descripciones Gracas para V. Cualitativas
Las mas usadas son:
Diagramas de barras
Diagramas de sectores
Pictogramas
Grado en IS e IS+MAT c Mara Eugenia Castellanos
36 Estadstica 36
'
&
$
%
Diagramas de barras
En estos diagramas se representa:
en el eje de abscisas (eje X) las modalidades y
en el eje de ordenadas (eje Y ) las frecuencias absolutas o las frecuencias
relativas.
Ejemplo:
Supongamos una encuesta en la que se le ha preguntado a 25 personas sobre sus
preferencias a la hora de beber cerveza. Las categoras que se han recogido han
sido: rubia nacional, de importacion, de importacion y negra.
Los datos recogidos son:
3, 2, 1, 1, 3, 1, 3, 3, 1, 2, 3, 3, 2, 2, 1, 3, 1, 1, 1, 2, 3, 3, 2, 1, 1
Grado en IS e IS+MAT c Mara Eugenia Castellanos
37 Estadstica 37
'
&
$
%
Rubia nacional Rubia de importacion Negra
0
2
4
6
8
1
0
Figura 1: Frecuencias absolutas para la categora de cerveza consumida
Grado en IS e IS+MAT c Mara Eugenia Castellanos
38 Estadstica 38
'
&
$
%
Rubia nacional Rubia de importacion Negra
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Figura 2: Frecuencias relativas para la categora de cerveza consumida
Grado en IS e IS+MAT c Mara Eugenia Castellanos
39 Estadstica 39
'
&
$
%
Si, mediante el graco, se intentan comparar varias poblaciones entre s,
existen otras modalidades.
Cuando los tama nos de las dos poblaciones son diferentes, es conveniente
utilizar las frecuencias relativas, ya que en otro caso podran resultar
enga nosas.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
40 Estadstica 40
'
&
$
%
Rubia nacional Rubia de importacion Negra
0
2
4
6
8
1
0
Grupo 1
Grupo 2
Preferencias de cerveza (absoluta) en dos grupos de consumidores
Rubia nacional Rubia de importacion Negra
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Grupo 1
Grupo 2
Preferencias de cerveza (relativa) en dos grupos de consumidores
Figura 3: Diagrama de Barras de dos muestras
Grado en IS e IS+MAT c Mara Eugenia Castellanos
41 Estadstica 41
'
&
$
%
Diagramas de sectores
Se divide un crculo en sectores proporcionales a las frecuencias absolutas o
relativas de cada clase.
El arco de cada porci on se calcula usando la siguiente regla de tres:
n 360
0
n
i
x
i
=
360 n
i
n
Ejemplo:
El diagrama de sectores para los datos de la cerveza es:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
42 Estadstica 42
'
&
$
%
Rubia nacional
Rubia de importacion
Negra
Figura 4: Diagrama de Sectores para para la categora de cerveza consumida
Grado en IS e IS+MAT c Mara Eugenia Castellanos
43 Estadstica 43
'
&
$
%
Pictogramas
Expresan mediante dibujos relacionados con el tema de estudio, las frecuencias
de las distintas categoras de las variables.
Cada dibujo de la Tierra representa 1 vez la masa de la Tierra.
Este tipo de gracos suele usarse mucho en los medios de comunicaci on.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
44 Estadstica 44
'
&
$
%
Ejercicio 1.3
De 300 personas, 175 son franceses, 100 venezolanos y 25 japoneses.
Representar estos datos usando diagramas de barras y de sectores.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
45 Estadstica 45
'
&
$
%
2.2.2.1 Descripciones Gracas para V. Cuantitativas
Consideraremos los siguientes tipos de gracos:
Diagramas de Barras (V. Discretas)
Graco de tallos y hojas
Histogramas (V. Continuas)
Grado en IS e IS+MAT c Mara Eugenia Castellanos
46 Estadstica 46
'
&
$
%
Diagramas de Barras
Se realiza exactamente igual al diagrama de barras para variables cualitativas,
as se representa:
en el eje de abscisas los valores que toma la variable y
en el de ordenadas las frecuencias absolutas o las frecuencias relativas.
Ejemplo: Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el
numero de caras, X, obteniendose los siguientes resultados:
X 2, 1, 0, 1, 3, 2, 1, 2.
Representar gracamente el resultado.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
47 Estadstica 47
'
&
$
%
Solucion: En primer lugar observamos que la variable X es cuantitativa
discreta, presentando las modalidades: X 0, 1, 2, 3.
Ordenamos a continuacion los datos en una tabla de frecuencias,
x
i
n
i
f
i
N
i
F
i
0 1 1/8 1 1/8
1 3 3/8 4 4/8
2 3 3/8 7 7/8
3 1 1/8 8 8/8
n = 8 1
y los mismos datos vienen representados en el diagrama de barras:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
48 Estadstica 48
'
&
$
%
0 1 2 3
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
Grado en IS e IS+MAT c Mara Eugenia Castellanos
49 Estadstica 49
'
&
$
%
Gracos de Tallos y Hojas
Los gracos de barras o de sectores son utiles para representar gracamente
los datos. Pero en algunos casos puede ser util seguir viendo los datos.
Los gracos de tallo y hojas conservan los datos (no los agrupan), pero lo
hacen de forma que preservan algunas caractersticas de los diagramas de
barras.
Esta representaci on se basa en la ordenacion de los datos a manera de
graco, pero sin llegar a ello, utilizando las decenas y las unidades.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
50 Estadstica 50
'
&
$
%
Comentamos su uso a traves del siguiente ejemplo que contiene las calicaciones
obtenidas en una prueba de matematicas:
78, 93, 61, 100, 70, 83, 88, 74, 97, 72, 66, 73, 76, 81, 83, 64, 91, 70, 77, 86
Pensamos en cada uno de los datos separando las decenas de las unidades, es
decir, el n umero 51 se ver a como 5 | 1. De esta manera las decenas se pondran
en una columna, en forma vertical, y las unidades a su derecha:
6 | 146
7 | 00234678
8 | 13368
9 | 137
10 | 0
De donde se deduce que las calicaciones mas frecuentes estuvieron en torno al
70 y 80.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
51 Estadstica 51
'
&
$
%
Histogramas
Se trata de generalizar los gracos de Diagramas de Barras, pero para el caso en
que los datos son continuos.
A partir de la distribuci on de frecuencias, (ya hemos dividido el rango de los
datos en intervalos), se representan las frecuencias absolutas o relativas
mediante rect angulos.
En el caso en que todos los intervalos tengan la misma amplitud, la altura
de cada rect angulo es proporcional a las frecuencias absolutas (o relativas)
de cada intervalo.
En el caso en que los intervalos no tengan la misma amplitud, el area de los
rect angulos debe ser proporcional a la frecuencia relativa. Vemos en un
ejemplo como calcular en este caso las alturas.
Ejemplo: Para los datos de los pesos,
Grado en IS e IS+MAT c Mara Eugenia Castellanos
52 Estadstica 52
'
&
$
%
X x
1
, x
2
, . . . , x
21
58 42 51 54 40 39 49
56 58 57 59 63 58 66
70 72 71 69 70 68 64
ya habamos calculado la distribuci on de frecuencias que es:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
53 Estadstica 53
'
&
$
%
Intervalos M. clase f.a. f.r. f.a.a. f.r.a.
l
i1
l
i
c
i
n
i
f
i
N
i
F
i
i = 1 38 - 45 41,5 3 0,1428 3 0,1428
i = 2 45 - 52 48,5 2 0,0952 5 0,2381
i = 3 52 - 59 55,5 7 0,3333 12 0,5714
i = 4 59 - 66 62,5 3 0,1428 15 0,7143
i = 5 66 - 73 69,5 6 0,2857 21 1
21 1
El histograma obtenido es el siguiente:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
54 Estadstica 54
'
&
$
%
Histograma de Pesos
pesos
F
r
e
q
u
e
n
c
y
40 45 50 55 60 65 70
0
1
2
3
4
5
6
7
Grado en IS e IS+MAT c Mara Eugenia Castellanos
55 Estadstica 55
'
&
$
%
El histograma que obtiene el R por defecto es el siguiente:
Histogram of pesos
pesos
F
r
e
q
u
e
n
c
y
40 50 60 70
0
1
2
3
4
5
6
Grado en IS e IS+MAT c Mara Eugenia Castellanos
56 Estadstica 56
'
&
$
%
Existen muchas propuestas para calcular el n umero de intervalos en el que
dividir los datos:
Regla de Sturges,
k = 1 + log
2
(n)
Regla de Scott,
k = (2n)
1/3
Grado en IS e IS+MAT c Mara Eugenia Castellanos
57 Estadstica 57
'
&
$
%
Cuando la amplitud de los intervalos no es la misma, por ejemplo porque los
datos nos vengan dados as desde la fuente, como en el siguiente ejemplo:
Ejemplo:
Un estudio sobre la supercie de las viviendas en una determinada zona de la
ciudad ha producido los siguientes datos:
Supercie (m2) N
o
viviendas
25-50 18
50-70 32
70-85 54
85-105 68
105-140 20
140-180 8
Los datos vienen recogidos en intervalos que no tienen la misma amplitud, por
Grado en IS e IS+MAT c Mara Eugenia Castellanos
58 Estadstica 58
'
&
$
%
tanto para dibujar el histograma debemos calcular la altura de los rect angulos,
de forma que el area sea igual a la frecuencia absoluta.
n
i
= a
i
h
i
, h
i
=
n
i
a
i
donde a
i
=amplitud del i-esimo intervalo, y h
i
=altura de la barra en el intervalo
i-esimo.
Supercie (m2) N
o
viviendas Amplitud Altura
25-50 18 25 0.72
50-70 32 20 1.6
70-85 54 15 3.6
85-105 68 20 3.4
105-140 20 35 0.6
140-180 8 40 0.2
Grado en IS e IS+MAT c Mara Eugenia Castellanos
59 Estadstica 59
'
&
$
%
40 60 80 100 120 140
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
3
.
5
Metros cuadrados viviendas
Grado en IS e IS+MAT c Mara Eugenia Castellanos
60 Estadstica 60
'
&
$
%
2.2.3. Descripciones Numericas de datos
Los metodos gracos (diagramas de frecuencias, diagramas de sectores,
histogramas, etc.) proporcionan informacion util y comunican esta informacion
r apidamente gracias a su caracter graco.
Ademas de estos metodos tambien interesa dar medidas numericas que
describan los datos (tanto para datos cuantitativos discretos como continuos).
Las medidas que vamos a considerar se dividen en tres tipos de medidas:
1. las que nos ayudan a encontrar los valores centrales de esos datos,
2. las que describen la posicion relativa de una observaci on en el conjunto de
datos,
3. las que miden la dispersion de los datos.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
61 Estadstica 61
'
&
$
%
Medidas de centralizacin
F
r
e
q
u
e
n
c
y
2 1 0 1 2 3 4
0
2
0
4
0
6
0
8
0
1
0
0
Medidas de centralizacin
F
r
e
q
u
e
n
c
y
0 1 2 3 4 5 6
0
2
0
4
0
6
0
8
0
Medidas de posicin
F
r
e
q
u
e
n
c
y
2 1 0 1 2 3 4
0
2
0
4
0
6
0
8
0
1
0
0
Medidas de posicin
F
r
e
q
u
e
n
c
y
0 1 2 3 4 5 6
0
2
0
4
0
6
0
8
0
Grado en IS e IS+MAT c Mara Eugenia Castellanos
62 Estadstica 62
'
&
$
%
Menos dispersin
F
r
e
q
u
e
n
c
y
5 0 5
0
5
1
0
2
0
3
0
Mas dispersin
F
r
e
q
u
e
n
c
y
5 0 5
0
5
1
0
1
5
2
0
Simtrica
F
r
e
q
u
e
n
c
y
5 0 5
0
5
1
0
1
5
2
0
2
5
3
0
No simtrica
F
r
e
q
u
e
n
c
y
0 1 2 3 4 5
0
5
1
0
2
0
3
0
Grado en IS e IS+MAT c Mara Eugenia Castellanos
63 Estadstica 63
'
&
$
%
2.2.3.1 Descripciones Numericas de datos
Medidas de centralizaci on
Estas medidas tratan de decirnos cuales son los valores centrales del conjunto
de datos bajo analisis. Las tres medidas de localizacion mas comunes son:
la media,
la moda y
la mediana.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
64 Estadstica 64
'
&
$
%
Media aritmetica
Dados n valores (los datos) x
1
, x
2
, . . . , x
n
, (no ordenados en
una tabla), se dene la media aritmetica como:
x =

n
i=1
x
i
n
(1)
Si los datos son discretos y est an ordenados en una tabla,
X n
i
x
1
n
1
... ...
x
k
n
k
x =
1
n
(x
1
n
1
+ +x
k
n
k
) =
1
n
k

i=1
x
i
n
i
Grado en IS e IS+MAT c Mara Eugenia Castellanos
65 Estadstica 65
'
&
$
%
Si los datos son continuos y est an ordenados en una tabla,
Intervalos c
i
n
i
l
0
l
1
c
1
n
1
... ... ...
l
k1
l
k
c
k
n
k
podemos obtener la media de las marcas de clase, como sigue:
x =
1
n
(c
1
n
1
+ +c
k
n
k
) =
1
n
k

i=1
c
i
n
i
Observaciones:
En general, la media aritmetica obtenida a partir de las marcas de clase c
i
,
diferir a de la media obtenida con los valores reales, x
i
.
Es decir, habra una perdida de precision que sera tanto mayor cuanto mayor
sean las amplitudes a
i
, de los intervalos.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
66 Estadstica 66
'
&
$
%
Ejemplos:
1. Supongamos que las temperaturas (en grados centgrados) registradas en una
nca a las doce del medioda en los siete das de la semana pasada fueron:
22,5 18,4 17,9 21,2 20,1 23,5 17,8
Por tanto, la temperatura media semanal, en esa nca es:
x =
22,5 + 18,4 + 17,9 + 21,2 + 20,1 + 23,5 + 17,8
7
= 20,2
2. En la encuesta sobre el n umero de hijos por familia, tenamos que los
resultados obtenidos fueron:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
67 Estadstica 67
'
&
$
%
N
o
de Hijos n
i
%
0 5 20.0
1 7 28.0
2 8 32.0
3 4 16.0
4 1 4.0
La media del n umero de hijos por familia sera:
x =
5 0 + 7 1 + 8 2 + 4 3 + 1 4
25
= 1,56
3. En el ejemplo de las supercies de las viviendas, para calcular la supercie
media de las viviendas en este estudio, consideramos la marca de clase:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
68 Estadstica 68
'
&
$
%
Supercie (m2) Marca de clase N
o
viviendas
25-50 37,5 18
50-70 60 32
70-85 77,5 54
85-105 95 68
105-140 122,5 20
140-180 160 8
Total 200
La supercie media por vivienda sera:
x =
37,5 18 + 60 32 + 77,5 54 + 95 68 + 122, 5 20 + 160 8
200
= 84,85
Grado en IS e IS+MAT c Mara Eugenia Castellanos
69 Estadstica 69
'
&
$
%
Ejercicios
1. Las calicaciones de un alumno son: Ingles 6; Matematicas 8; Qumica 5;
Biologa 2; Geologa 4; Dibujo Tecnico 5; Filosofa 7; Lengua Espa nola 6.
Hallar la nota media.
2. Hallar la media aritmetica de los siguientes n umeros 5, 3, 6, 5, 4, 5, 2, 8, 6,
5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4.
3. De un total de 100 n umeros, 20 eran 4, 40 eran 5, 30 eran 6 y el resto eran
7. Hallar la media aritmetica de los n umeros.
4. En una compa na de 80 empleados: 60 ganan $ 30 por hora y 20 ganan $ 20
por hora. Determinar la media del salario por hora.
5. Si la renta anual media de los trabajadores agrcolas y no agrcolas en
EE.UU. son de $ 35000 y $ 45000, respectivamente, sera la renta anual
media para ambos grupos juntos de $ 40000?
6. La tabla muestra la distribuci on de los sueldos de los empleados de una
Grado en IS e IS+MAT c Mara Eugenia Castellanos
70 Estadstica 70
'
&
$
%
empresa. Al director le interesa saber cual es el sueldo medio de su empresa.
Sueldo N umero de empleados
20200 60
30000 20
45000 8
53000 6
65000 2
80000 1
Grado en IS e IS+MAT c Mara Eugenia Castellanos
71 Estadstica 71
'
&
$
%
Linealidad de la media
Si Y = a +bX entonces la correspondiente media de Y es
y = a +bx,
es decir, el operador media es una funci on lineal.
Se puede utilizar la propiedad de la linealidad de la media para simplicar las
operaciones necesarias para su calculo mediante un cambio de origen y de
unidad de medida, en el caso de tener datos con muchos dgitos.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
72 Estadstica 72
'
&
$
%
Observaciones:
Inconvenientes de la media:
No tiene sentido su calculo en variables de tipo cualitativo o nominal.
Es muy sensible a los valores extremos de la variable.
No es recomendable usar la media como medida central en las distribuciones
muy asimetricas.
Si utilizamos tablas estadsticas para calcular la media, esta depende de la
division en intervalos .
Si se considera una variable discreta, el valor de la media puede no
pertenecer al conjunto de posibles valores de la variable.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
73 Estadstica 73
'
&
$
%
Moda Se llama moda de un conjunto de datos x
1
, x
2
, . . . , x
n
al valor que mas se repite, es decir aquel que tiene la mayor fre-
cuencia. A la moda se le denota por Mo.
Ejemplos:
1. Supongamos que las notas obtenidas por 60 alumnos de una clase de
estadstica en el examen son las siguientes:
Nota 1 2 3 4 5 6 7 8 9 10
N
o
de Alumnos 4 6 5 6 10 9 6 7 3 4 60
La moda es el 5 porque es el valor mas frecuente.
2. En el caso de las supercies de las viviendas, tenemos los datos agrupados en
intervalos,
Grado en IS e IS+MAT c Mara Eugenia Castellanos
74 Estadstica 74
'
&
$
%
Supercie (m2) N
o
viviendas
25-50 18
50-70 32
70-85 54
85-105 68
105-140 20
140-180 8
con lo que calcularemos el intervalo modal. Adem as en este caso los intervalos
no tienen todos ellos la misma amplitud, con lo que el intervalo modal ser a el
intervalo con mayor frecuencia por unidad de amplitud.
Para calcular el intervalo L
i
L
i+1
de amplitud a
i
y frecuencia absoluta n
i
.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
75 Estadstica 75
'
&
$
%
Recordemos que la altura de la barra del histograma se calculaba como:
h
i
=
n
i
a
i
,
el intervalo o intervalos modales, ser a el de mayor altura.
En el caso anterior el de mayor altura es el intervalo 70 85.
Esta claro que si todos los intervalos tienen la misma amplitud, el intervalo
modal es el de mayor frecuencia.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
76 Estadstica 76
'
&
$
%
Mediana Se llama mediana de un conjunto de datos,
x
1
, . . . , x
n
, y se designa por Me, al valor tal que, ordenados los
datos de forma creciente o decreciente, deja a cada uno de sus
lados la mitad de las observaciones.
Ejemplos:
1. Calculemos la mediana de las temperaturas que hemos introducido ya:
22,5 18,4 17,9 21,2 20,1 23,5 17,8
Para ello, ordenamos en primer lugar los datos de menor a mayor
17,8 17,9 18,4 20,1 21,2 22,5 23,5
La mediana 20,1 ; es el valor que queda en el centro de la distribuci on.
En este caso ha sido f acil calcular la mediana porque el n umero de datos es
impar, 7 datos. Que pasa si el n umero de datos es par?
Grado en IS e IS+MAT c Mara Eugenia Castellanos
77 Estadstica 77
'
&
$
%
2. Si n es par, entonces existen dos valores centrales, y la mediana se toma, por
convenio, como la media aritmetica de tales valores.
El n umero de coches vendidos en el ultimo trimestre por los ocho comerciales de
un concesionario ha sido:
4 7 12 5 9 6 8 8
Para calcular la mediana, ordenamos los datos de menor a mayor.
4 5 6 7 8 8 9 12
En este caso existen dos valores centrales, y por convenio la mediana es la
media aritmetica de ambos, que resulta igual a 7,5.
3. Veamos c omo calcular la mediana para el caso en que los datos se presentan
en una tabla de frecuencias. En este caso, para calcular la mediana vamos a
calcular lo que es la frecuencia acumulada hasta ese valor:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
78 Estadstica 78
'
&
$
%
Valor Frecuencia Frecuencia acumulada
x
1
n
1
n
1
x
2
n
2
n
1
+n
2
.
.
.
.
.
.
.
.
.
x
K
n
K
n
1
+n
2
+ + n
k
= n
Examinamos la columna de frecuencias absolutas acumuladas. La mediana
ser a el valor cuya frecuencia acumulada sea igual a n/2 si existe, o el primer x
i
cuya frecuencia acumulada supere el valor n/2.
En los datos de las notas de estadstica,
Grado en IS e IS+MAT c Mara Eugenia Castellanos
79 Estadstica 79
'
&
$
%
Nota N
o
Alumnos Frecuencia acumulada
1 4 4
2 6 10
3 5 15
4 6 21
5 10 31
6 9 40
7 6 46
8 7 53
9 3 56
10 4 60
60
Grado en IS e IS+MAT c Mara Eugenia Castellanos
80 Estadstica 80
'
&
$
%
En este caso ning un valor tiene frecuencia absoluta acumulada igual a 60/2=30.
El primer valor cuya frecuencia absoluta acumulada supera 30 es el valor 5. Por
tanto, Me = 5.
En resumen, si n es el numero de observaciones, la mediana correspondera
a la observaci on que ocupa la posicion [n/2] + 1 (donde [] es la parte entera
de un n umero), si el n umero de datos es impar, y
a la semisuma de los valores que ocupan las posiciones n/2 y n/2 + 1, si el
n umero de datos es par.
si los datos se presentan agrupados en una tabla, ser a el ser a el valor cuya
frecuencia acumulada sea igual a n/2 si existe, o el primer x
i
cuya frecuencia
acumulada supere el valor n/2.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
81 Estadstica 81
'
&
$
%
Propiedades de la Mediana
No se ve afectada por las observaciones extremas, ya que no depende de los
valores que toma la variable, sino del orden de las mismas. Por ello es
adecuado su uso en distribuciones asimetricas.
No tiene sentido su calculo en variables de tipo cualitativo o nominal, al
igual que la media.
A diferencia de la media, la mediana de una variable es siempre un valor de
la variable que se estudia.
El mayor defecto de la mediana es que tiene unas propiedades matematicas
complicadas, lo que hace que sea muy difcil de utilizar en Inferencia
Estadstica.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
82 Estadstica 82
'
&
$
%
Medidas de posicion
Percentiles Un percentil de orden p (0 < p < 1) es el valor de
los datos que deja a su izquierda el 100 p % de los datos y a su
derecha el 100 (1 p) % de la muestra.
La mediana es el percentil 0.5, ya que deja el 50 % de los valores
a la derecha y el otro 50 % a la izquierda.
Otros percentiles especiales se denominan cuartiles y son:
Primer Cuartil: Q
1
= P
25
.
Segundo Cuartil: Q
2
= P
50
. Es equivalente a la Mediana.
Tercer Cuartil: Q
3
= P
75
.
De forma analoga se pueden denir los deciles como los valores de la variable
que dividen a las observaciones en 10 grupos de igual tama no.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
83 Estadstica 83
'
&
$
%
Ejercicio 2.12
En una seleccion de personal, se aplic o un test de inteligencia, obteniendose los
siguientes resultados:
71 61 54 50 70 60 54 50 69 59 54
69 58 54 47 69 58 53 40 64 57 52
64 56 52 34 63 55 51 30 49 39
Formar una distribuci on de frecuencias con el intervalo m as adecuado.
Representar el histograma.
Hallar la media usando los datos y usando la tabla.
Hallar la mediana y el primer y tercer cuartil.
Hallar la moda.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
84 Estadstica 84
'
&
$
%
Medidas de dispersion
Las medidas de posicion permiten localizar por donde est an los datos en la
recta real (los valores centrales de esos datos). Pero lo util de la media o
mediana o moda, depende de como de bien representen a los datos.
Si los valores observados est an muy concentrados alrededor de la medida de
centralizaci on (localizacion), esta es bastante representativa; pero si, en cambio,
est an muy dispersos con relacion a la media (o mediana o moda), esta es muy
poco representativa.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
85 Estadstica 85
'
&
$
%
Veamos dos casos diferentes de esta representatividad.
1. Supongamos que el ingreso diario de dos familias es de 54 y 66 euros diarios,
respectivamente.
2. Supongamos que el ingreso diario de dos familias es de 24 y 96 euros diarios,
respectivamente.
En ambos casos el ingreso medio diario de las dos familias es de 60 euros. Sin
embargo, en el primer caso la media es bastante mas representativa que en el
segundo.
Por lo tanto, en muchos casos, las medidas de localizacion no son sucientes
para describir los datos, y necesitamos resumir la informacion de los datos
utilizando otras medidas: las de DISPERSI

ON.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
86 Estadstica 86
'
&
$
%
Una forma de medir la dispersion de los datos, es considerar la desviaci on de
cada valor a la media aritmetica o cualquier otro promedio.
Por ejemplo, la desviaci on con respecto a la media aritmetica de cualquier valor
observado ser a:
x
i
x
Si disponemos de n observaciones, tendremos n desviaciones, as, si los
diferentes valores est an muy concentrados alrededor de la medida de posicion,
las desviaciones ser an peque nas y, al contrario, si est an dispersos.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
87 Estadstica 87
'
&
$
%
Una idea para medir la dispersion total sera obtener un promedio de todas
estas desviaciones.
Que ocurrira si consideramos este promedio?
Esto es consecuencia de que para los valores menores que el promedio, la
desviaci on es de signo negativo, mientras que para los valores superiores la
desviaci on es de signo positivo. Si los sumamos todos, obtenemos 0 como suma
de las desviaciones, por lo tanto no tenemos una medida de la desviaci on!!
Que otra cosa podemos hacer?
Grado en IS e IS+MAT c Mara Eugenia Castellanos
88 Estadstica 88
'
&
$
%
Una forma de medir las desviaciones de los datos respecto de la media es elevar
al cuadrado las diferencias:
Varianza Promedio del cuadrado de las diferencias entre cada
observaci on y la media de las observaciones. Es decir:
S
2
=

n
i=1
(x
i
x)
2
n
El valor de la varianza no esta en las mismas unidades que las
observaciones x
i
, ya que hemos elevado al cuadrado, para trabajar con las
mismas unidades consideramos la raz cuadrada de la varianza:
Desviaci on estandar Raz cuadrada positiva de la varianza.
Es decir:
S =
_

n
i=1
(x
i
x)
2
n
Grado en IS e IS+MAT c Mara Eugenia Castellanos
89 Estadstica 89
'
&
$
%
Sobre el calculo de S
2
S
2
=
1
n
n

i=1
(x
i
x)
2
=
1
n
n

i=1
_
x
2
i
2x
i
x + x
2
_
=
1
n
n

i=1
x
2
i
2x
1
n
n

i=1
x
i
. .
+
1
n
nx
2
=
1
n
n

i=1
x
2
i
2x
2
+ x
2
=
1
n
n

i=1
x
2
i
x
2
.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
90 Estadstica 90
'
&
$
%
Ejemplo:
1. En los datos de los 20 tiempos entre cadas de un servidor (en horas), la
varianza y la desviaci on tpica:
40.2, 29.3, 35.6, 88.2, 42.9, 56.2, 28.7, 99.8, 32.4, 25.1, 45.2, 13.6, 31.7, 46.2,
74.3, 27.3, 24.1, 25.9, 38.1, 43.7.
S
2
= 458,814 S = 21,419
2. En el caso de las notas de los examenes, para calcular la varianza y la
desviaci on tpica, tenemos que multiplicar cada valor por la frecuencia:
S
2
=

K
i=1
(x
i
x)
2
n
i
n
S
2
= 6,307 S = 2,511
Grado en IS e IS+MAT c Mara Eugenia Castellanos
91 Estadstica 91
'
&
$
%
Observaciones:
La varianza y la desviaci on tpica:
Ambas son sensibles a la variacion de cada uno de los valores de los datos.
Su uso no es posible, cuando tampoco lo es el de la media como medida de
tendencia central, por ejemplo, en datos nominales.
La desviaci on tpica tiene la propiedad de que en el intervalo
(x 2S; x + 2S) se encuentran por lo menos el 75 % de las observaciones
(es la llamada regla de Chebychev).
En la gura siguiente podemos ver el porcentaje mnimo de datos (en la
muestra) que, seg un la Regla de Chebychev, est an concentrados en torno a
la media, seg un las desviaciones tpicas.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
92 Estadstica 92
'
&
$
%
Grado en IS e IS+MAT c Mara Eugenia Castellanos
93 Estadstica 93
'
&
$
%
Cuasi-varianza Se calcula como la varianza pero en lugar de
dividir por n, dividimos por n 1, es decir
s
2
=

n
i=1
(x
i
x)
2
n 1
=
nS
2
n 1
Se usa la cuasi-varianza porque tiene mejores propiedades a la hora de hacer
estimaciones, la utilizaremos mas en la parte de Inferencia Estadstica.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
94 Estadstica 94
'
&
$
%
Otras medidas de dispersion:
Rango Se dene el rango o recorrido de unos datos como la
diferencia entre sus valores maximo y mnimo.
R = max{x
1
, . . . , x
n
} min{x
1
, . . . , x
n
}
Caractersticas del Rango:
Muy f acilmente calculable. Ademas viene expresada en las mismas unidades
que la variable.
Cuanto mayor es el recorrido, mayor es el campo de variacion los datos y
tambien su dispersion. Presenta el inconveniente de tener en cuenta
unicamente dos puntuaciones: las dos extremas. Por tanto, esta forma de
medir la dispersion es poco precisa.
Para evitar la dependencia del Rango del maximo y el mnimo, se dene:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
95 Estadstica 95
'
&
$
%
Rango intercuartlico Se dene el rango o recorrido inter-
cuartlico de unos datos como la diferencia entre el tercer y el
primer cuartil.
RI = Q
3
Q
1
Una forma graca de representar unos datos cuantitativos continuos, mostrando
las medidas de localizacion, posicion y dispersion son: los Diagrama de Cajas
Grado en IS e IS+MAT c Mara Eugenia Castellanos
96 Estadstica 96
'
&
$
%
Diagramas de Cajas (Box-Plots)
En los extremos de la caja se representan el primer y el tercer
cuartil (1
o
y 3
o
).
Dentro de la caja se representa la mediana.
En las patas se representan los siguientes valores:
el dato mas extremo (inferiormente) que no es mas pe-
que no que Q
1
1,5 (Q
3
Q
1
) y el dato mas extremo
(superiormente) que no excede Q
3
+ 1,5 (Q
3
Q
1
).
Cuando aparecen observaciones que exceden o bien el lmite
inferior o el superior, se sit uan como puntos aislados despues
de los extremos de las patas.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
97 Estadstica 97
'
&
$
%
20 40 60 80 100
Min Q1 Median Q3 56.2<Q3+1.5 RI Max
Grado en IS e IS+MAT c Mara Eugenia Castellanos
98 Estadstica 98
'
&
$
%
Ejemplo:
Queremos comparar los tiempos entre cadas que se producen en dos servidores, de cara a ver
que datos indican que servidor falla mas a menudo. Los datos que hemos recogido son:
20 tiempos entre cadas para el servidor 1 (en horas): 40.2, 29.3, 35.6, 88.2, 42.9, 56.2,
28.7, 99.8, 32.4, 25.1, 45.2, 13.6, 31.7, 46.2, 74.3, 27.3, 24.1, 25.9, 38.1, 43.7.
25 tiempos entre cadas para el servidor 2 (en horas): 2.40, 6.01, 0.67, 0.37, 13.94, 2.97,
32.98, 10.15, 35.12, 37.25, 21.15, 2.26, 3.66, 30.87, 0.40, 2.23, 0.76, 12.37, 14.40, 1.07,
14.75, 4.21, 12.16, 21.84, 2.14
Que podemos decir en base a los diagramas de cajas?
Grado en IS e IS+MAT c Mara Eugenia Castellanos
99 Estadstica 99
'
&
$
%
Servidor 1 Servidor 2
0
2
0
4
0
6
0
8
0
1
0
0
Grado en IS e IS+MAT c Mara Eugenia Castellanos
100 Estadstica 100
'
&
$
%
Tipicacion
Llamamos tipicacion al proceso de restar la media y dividir entre su
desviaci on tpica a una variable X.
De este modo se obtiene una nueva variable
z =
X x
s
,
de media 0 y desviaci on est andar s
z
= 1, que se denomina variable tipicada.
Esta nueva variable permite hacer comparables dos medidas que en un
principio no lo son.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
101 Estadstica 101
'
&
$
%
Por ejemplo si deseamos comparar el nivel academico de dos estudiantes de
diferentes Universidades para la concesi on de una beca de estudios, en principio
seria injusto concederla directamente al que posea una nota media mas elevada,
ya que la dicultad para conseguir una buena calicacion puede ser mucho
mayor en un centro que en el otro, lo que limita las posibilidades de uno de los
estudiante y favorece al otro.
En este caso, lo mas correcto es comparar las calicaciones de ambos
estudiantes, pero tipicadas cada una de ellas por las medias y desviaciones
tpicas respectivas de las notas de los alumnos de cada Universidad.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
102 Estadstica 102
'
&
$
%
Ejercicios
7. Dada la distribuci on de edades (medidas en a nos) en un colectivo de 100
personas, obtener: La variable tipicada Z, los valores de la media y
varianza de Z.
x
i
n
i
2 47
7 32
15 17
30 4
n = 100
Grado en IS e IS+MAT c Mara Eugenia Castellanos
103 Estadstica 103
'
&
$
%
8. En un examen de estadstica, la media fue 68 y la desviaci on tpica 10.
Determinar las notas estandarizadas Z de los alumnos que obtuvieron
puntuaciones: 60, 82, 93, 48.
9. A dos alumnos con puntuaciones 80 y 60 respectivamente se les comunica
que su graduacion tipicada fue 1,5 y 2,5 respectivamente.
Hallar la desviaci on tpica y la media de las puntuaciones del examen.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
104 Estadstica 104
'
&
$
%
Coeciente de Variaci on Se dene como:
CV =
s
x
Ejemplo: Consideremos dos cartuchos de impresora, uno produce en orden de
imprimir 1000 folios con una desviaci on est andar de 5 folios. El otro produce en
orden de imprimir 10000 folios con una desviaci on est andar de 5 folios.
Cu al de los dos cartuchos de tinta tiene menos mas variabilidad?
Grado en IS e IS+MAT c Mara Eugenia Castellanos
105 Estadstica 105
'
&
$
%
Descripci on de datos bivariantes
En muchos casos nos encontramos conjuntos de datos que consisten en pares de observaciones
realizadas en los mismos individuos.
En estos casos interesa estudiar si ambas variables est an relacionadas entre s.
Supongamos que se observan las variables X e Y en un conjunto de individuos, por ejemplo,
supongamos que:
X = velocidad de impresion de una impresora laser
Y = precio en miles de euros
En cada una de las impresoras analizadas se ha observado el valor de la variable X e Y ,
denotamos a la observaci on en el i-esimo individuo por (x
i
, y
i
).
La tabla siguiente recoge los datos observados en 20 impresoras
n. p ag. 11 9 16 7 9 10 11 8 9 11 10 11 9 7 9 8 5 7 7 7
precio 594 566 781 536 576 592 676 525 631 623 557 653 531 550 624 493 451 533 528 462
Grado en IS e IS+MAT c Mara Eugenia Castellanos
106 Estadstica 106
'
&
$
%
Graco de dispersi on
La mejor forma de describir conjuntamente ambas caractersticas cuantitativas es mediante una
representaci on graca apropiada. En este caso la nube de puntos o graco de dispersi on resultan
muy apropiados.
Cuando se estudia la relaci on entre dos variables,
una puede considerarse causa (variable ex ogena o independiente), y
la otra resultado o efecto de la primera (variable endogena o dependiente).
El graco de dispersi on consiste en representar los valores de (X, Y ) en un graco
bidimensional, de forma que
la variable que se considera independiente aparece en el eje horizontal (abscisas), y
la variable dependiente en el eje vertical (ordenadas).
Grado en IS e IS+MAT c Mara Eugenia Castellanos
107 Estadstica 107
'
&
$
%
6 8 10 12 14 16
4
5
0
5
0
0
5
5
0
6
0
0
6
5
0
7
0
0
7
5
0
n. paginas
p
r
e
c
i
o

e
u
r
o
s
Figura 5: Graco de dispersi on de las variables n umero de paginas impresas y precio para las 20
impresoras analizadas
Grado en IS e IS+MAT c Mara Eugenia Castellanos
108 Estadstica 108
'
&
$
%
Ejemplo: Estudios de Galton sobre la estatura
Sir Francis Galton (16 de febrero de 1822 - 17 de enero de 1911), fue un polmata,
antropologo, ge ografo, explorador, inventor, meteor ologo, estadstico, psic ologo
britanico con un amplio espectro de intereses.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
109 Estadstica 109
'
&
$
%
Ejemplo: Estudios de Galton sobre la estatura (en pulgadas)
En concreto Galton se ocupo de estudios sobre la herencia biol ogica humana. En concreto, en su
libro Natural inheritance (1889) recogio resultados sobre la relaci on de ciertas variables entre
hijos y padres. Por ejemplo, Galton recogio y estudi o datos sobre 928 alturas de hijos y de sus
padres.
En el caso que estudi o Galton,
la variable dependiente es la estatura de los hijos, y
la independiente la de los padres.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
110 Estadstica 110
'
&
$
%
64 66 68 70 72
6
2
6
4
6
6
6
8
7
0
7
2
7
4
jitter(parent, 5)
j
i
t
t
e
r
(
c
h
i
l
d
,

5
)
Nota-. 1 pulgada = 2.54 cm.
Que dirais acerca de la relaci on entre la altura de los hijos y la de los padres?
Grado en IS e IS+MAT c Mara Eugenia Castellanos
111 Estadstica 111
'
&
$
%
Una cuesti on de mucho interes, cuando se analizan dos variables conjuntamente, es saber si los
valores de estas est an relacionadas, y m as concretamente si est an correlacionadas.
Idea intuitiva: correlacion
Las observaciones que tienen un valor elevado de x lo tienen tambien elevado
en y?, o viceversa, tienden a tener valores peque nos de y?
Si a valores grandes de x corresponden valores grandes de y, y a valores
peque nos, valores peque nos, Existe correlacion positiva.
Si a valores grandes de x corresponden valores peque nos de y, y a valores
peque nos de x valores grandes de y, Existe correlacion negativa.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
112 Estadstica 112
'
&
$
%
150 200 250 300 350
2
8
0
3
0
0
3
2
0
No relacin. Independencia
x
y
150 200 250 300 350
3
0
4
0
5
0
6
0
7
0
8
0
Relacin lineal positiva
x
y
150 200 250 300 350

6
0

5
0

4
0

3
0

2
0
Relacin lineal negativa
x
y
150 200 250 300 350
0
5
0
0
0
1
0
0
0
0
1
5
0
0
0
Relacin cuadrtica
x
y
Grado en IS e IS+MAT c Mara Eugenia Castellanos
113 Estadstica 113
'
&
$
%
Correlacion/Covarianza
La relaci on entre variables tambien puede expresarse de forma numerica.
La covarianza es una medida de la relaci on lineal entre dos variables que resume
la informacion existente en un graco de dispersi on.
Vamos a considerar en las dos proximas trasparencias variables con media cero.
La relaci on entre dos variables no se modica
si restamos a cada variable su media.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
114 Estadstica 114
'
&
$
%
Para variables con media cero,
la existencia de una relaci on lineal entre ellas implica que los puntos tenderan a situarse en
cuadrantes opuestos
Grado en IS e IS+MAT c Mara Eugenia Castellanos
115 Estadstica 115
'
&
$
%
En este caso
las dos variables est an muy relacionadas, pero de forma no lineal y
los puntos se distribuyen por los cuatro cuadrantes.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
116 Estadstica 116
'
&
$
%
Si tenemos pares de observaciones
(x
1
, y
1
), (x
2
, y
2
), . . . , (x
n
, y
n
)
llamaremos covarianza entre X e Y a la expresion
cov(x, y) =

n
i=1
(x
i
x) (y
i
y)
n
=
1
n
n

i=1
x
i
y
i
x y
La covarianza representa una medida de la relaci on lineal entre dos variables.
Su signo indica adem as si la relaci on es positiva o negativa.
Si dos variables son independientes la covarianza vale 0.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
117 Estadstica 117
'
&
$
%
Correlacion
La covarianza puede tomar valoren en todo R, y por tanto es difcil interpretar cuando existe
mucha o poco correlacion, ya que el valor depende de las magnitudes de X e Y (de sus unidades
tambien).
Una solucion es tipicar la covarianza dividiendola por las desviaciones tpicas de ambas
variables.
Se dene el coeciente de correlacion lineal por
r = r(x, y) =
cov(x, y)
S
x
S
y
Con esta operacion se consigue una medida adimensional.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
118 Estadstica 118
'
&
$
%
Propiedades del coeciente de correlacion:
Cuando las variables est an relacionadas linealmente de forma exacta, el coeciente de
correlacion es uno en valor absoluto, y
cuando las variables son independientes, es cero.
El coeciente de correlacion no depende del orden en que se consideran las variables, es
decir, r(x, y) = r(y, x), y
es siempre un valor entre 1 y 1.
Valores cercanos a 0 indican ausencia de relaci on lineal. No de relaci on!.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
119 Estadstica 119
'
&
$
%
En cada graco aparece el diagrama de dispersi on mostrando los valores (x
i
, y
i
), en el ttulo
de cada uno aparece el coeciente de regresion lineal. De izquierda a derecha y de arriba a
abajo los valores de correlacion son: 0, 0.40, 0.60, 0.80, 0.90 y 0.95.
Como se observa en los diagramas de dispersi on conforme aumentan los valores de r, la
forma de la nube de puntos se dispone m as en torno a una recta.
En el graco correspondiente a r 0 la nube de puntos no tiene ninguna forma de recta,
indicando nada de asociaci on lineal.
En el resto de casos la nube de puntos va tomando m as forma de recta conforme va
creciendo el valor de r. En todos los casos la forma de la recta es creciente, conforme crece
el valor de x crece el valor de y.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
120 Estadstica 120
'
&
$
%
Gracos de dispersion y rs:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
121 Estadstica 121
'
&
$
%
Mas gracos de dispersion y rs:
Grado en IS e IS+MAT c Mara Eugenia Castellanos
122 Estadstica 122
'
&
$
%
Asocia los coecientes que aqu aparecen con las distintas nubes de puntos
r = 0,85, 0,38, 1, 0,06, 0,97, 0,62
Grado en IS e IS+MAT c Mara Eugenia Castellanos
123 Estadstica 123
'
&
$
%
Importante: r = 0 NO SIGNIFICA que las variables son independientes, podra haber otro tipo
de relaci on NO LINEAL entre las mismas!!.
4 2 0 2 4
0
5
1
0
1
5
2
0
2
5
x
y
r=0.00082
Por ejemplo en este diagrama de dispersi on se muestra un tipo de relacion entre X e Y , cual? Y sin
embargo el valor de r es 0.00082. Este coeciente indica por tanto que NO HAY RELACI

ON LINEAL,
NO QUE NO HAY RELACI

ON.
Grado en IS e IS+MAT c Mara Eugenia Castellanos
124 Estadstica 124
'
&
$
%
Bibliografa
Cao Abad R. y otros (2001) Introduccion a la Estadstica y sus Aplicaciones.
Captulos 1 y 2. (con problemas resueltos y soluciones a problemas
propuestos al nal de cada captulo).
Moore, D.S. (1998) Estadstica Aplicada Basica . Captulos 1 y 2 (con
ejercicios resueltos y soluciones a nal del libro).
Grima, P. (2010) La certeza absoluta y otras cciones. Los secretos de la
estadstica. RBA Captulo 1.
Mas libros de problemas:
Estadstica: Problemas resueltos y aplicaciones. Cesar Perez Lopez (2003)
Estadstica: Problemas resueltos. M.J. Peralta, A. R ua, y otros. (2000)
Grado en IS e IS+MAT c Mara Eugenia Castellanos

Вам также может понравиться