Вы находитесь на странице: 1из 43

ESTADISTICA PARA

ADMINISTRADORES
Tema 2: Medidas de resumen

Lic. Enzo Aldo Bravo Burgos


Parmetros y estadsticos
Parmetro: Es una cantidad numrica calculada sobre una poblacin

La altura media de los individuos de un pas

La idea es resumir toda la informacin que hay en la poblacin en unos pocos nmeros
(parmetros).

Estadstico: dem (cambiar poblacin por muestra)

La altura media de los que estamos en este aula.


Somos una muestra (representativa?) de la poblacin.

Si un estadstico se usa para aproximar un parmetro tambin se le suele llamar


estimador.

Normalmente nos interesa conocer un parmetro, pero por la dificultad que conlleva
estudiar a *TODA* la poblacin, calculamos un estimador sobre una muestra y
confiamos en que sean prximos. Ms adelante veremos como elegir muestras para que
el error sea confiablemente pequeo.
Un brevsimo resumen sobre estadsticos
Centralizacin
Indican valores con respecto a los que los datos parecen agruparse.
Media, mediana, moda, media geomtrica y armnica
Localizacin
Dividen un conjunto ordenado de datos en grupos con la misma cantidad
de individuos.
Cuantiles o Fractiles: cuartiles, deciles, percentiles, ...

Dispersin
Indican la mayor o menor concentracin de los datos con respecto a las
medidas de centralizacin.
Rango, varianza desviacin tpica, coeficiente de variacin,
Forma
Asimetra
Apuntamiento o curtosis
MEDIDAS DE TENDENCIA CENTRAL
Son valores que intentan representar al conjunto de
datos y tienden a ubicarse hacia el centro de la
distribucin.
Frecuentemente se los llama PROMEDIOS.
Observacin: Las medidas de Tendencia Central son
X
tambin Medidas de Posicin.
1. Media Aritmtica
2. Mediana (Me)
3. Moda (Md)
4. Media Geomtrica (G)
5. Media Armnica (H)
Estadsticos de centralizacin
Media: Es la media aritmtica (promedio) de los valores de una variable.
Suma de los valores dividido por el tamao muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simtricamente con
respecto a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos
Mediana: Es un valor que divide a las observaciones en dos grupos con
el mismo nmero de individuos. Si el nmero de datos es par, se elige la
media de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible a
valores extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!
Moda: Es el/los valor/es donde la distribucin de frecuencia alcanza un
mximo.
Altura mediana
Algunas frmulas
Datos sin agrupar: x1, x2, ..., xn
Media
x
x i i

n
Datos organizados en tabla
si est en intervalos usar como xi las marcas de clase. Si no
ignorar la columna de intervalos.

Variable fi Fi
Media
x
x f i i i

n
L0 L 1 x1 f1 F1 Mediana
n 2 F j 1
Me L j 1 a j ( )
L1 L 2 x2 f2 F2 fj
... f j f j 1
moda Md L j 1 a j ( )
Lk-1 Lk xk fk Fk 2 f j f j 1 f j 1
n
Ejemploconvariableenintervalos

Peso M. fi Fi
Clase
40 50 45 5 5
50 60 55 10 15
60 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 130 115 3 58

En el histograma se identifica unidad de rea con


individuo.

Para calcular la media es necesario elegir un punto


representante del intervalo: La marca de clase.

La media se desplaza hacia los valores extremos.


No coincide con la mediana. Es un punto donde el
histograma estara en equilibrio si tuviese masa.
Ejemplo (continuacin)

Peso M.
Clase
fi Fi
x
xf
i i i

45 * 5 55 *10 115 * 3
69,3
(Xi)
n 58
40 50 45 5 5
n F j 1
50 60 55 10 15 Me L j 1 a j ( 2 )
fj
60 70 65 21 36 58 15
Me 60 10( 2 ) 66,6
70 - 80 75 11 47 21
80 - 90 85 5 52 f j f j 1
Md L j 1 a j ( )
90 - 100 95 3 55
2 f j f j 1 f j 1
21 10
100 130 115 3 58 60 (70 60) 65,23
2(21) 10 11
58
Medidas de Tendencia Central
Variable Numrica
Posiciones Relativas
Si la distribucin es simtrica y unimodal, las tres medidas ocuparn la abscisa
correspondiente al mximo central:

Mo Me x
Medidas de Tendencia Central
Variable Numrica
Posiciones Relativas

Si la distribucin es asimtrica, por efecto de la presencia de valores alejados:

Mo Me x
Medidas de Tendencia Central
Variable Numrica
MEDIA GEOMETRICA

Se emplea para promediar variaciones porcentuales, razones y series


logartmicas:

G n x1 x2 ... xn

Tambin puede emplearse:


1 n

G antilog
n
log xi
i1
Medidas de Tendencia Central
Variable Numrica
ELECCION DEL PROMEDIO MAS REPRESENTATIVO
Depende de la naturaleza de la variable y de la forma de la distribucin:
Variable Categrica

Escala Nominal: la CATEGORIA MODAL


Escala Ordinal: la CATEGORIA MODAL o la CATEGORIA MEDIANA
Variable Numrica

- Razones,
Series Logartmicas o Variaciones Porcentuales: la MEDIA
GEOMETRICA
- Componentes con distinto peso: la MEDIA PONDERADA

- Distribuciones de Frecuencias Simtricas: la MEDIA ARITMETICA.

- Distribuciones de Frecuencias Asimtricas: la MEDIANA


Medidas de Tendencia Central
Variable Numrica
Ejemplo de MEDIA GEOMETRICA

El precio de un producto ha tenido la siguiente evolucin en cinco aos:

Calculamos los factores de crecimiento:

Ao 1998 1999 2000 2001 2002


Variacin 5,0% 10,5% 9,0% 6,0% 7,5%
Factor de Crecimiento 1,05 1,105 1,09 1,06 1,075

La media geomtrica es:


G 5
1,05* ... * 1,075 1,0758 7,58%
Estadsticos de Localizacin

Se define el cuantil de orden como un valor de la variable por debajo del


cual se encuentra una frecuencia acumulada

Casos particulares son los cuartiles, deciles, quintiles, percentiles,...


Estadsticos de posicin
Percentil de orden k = cuantil de orden k/100
La mediana es el percentil 50
El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con


frecuencias similares.
Primer cuartil = Percentil 25 = Cuantil 0,25
Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
Tercer cuartil = Percentil 75 = cuantil 0,75
Ejemplos
El 5% de los amas de cada tiene un consumo demasiado bajo de
arroz. Qu peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05

Percentil 5 del peso


25
20
frecuencia

15
10
5
0

1 2 3 4 5

Peso de arroz(Kg)
Ejemplos
Qu peso es superado slo por el 25% de los deportistas?
Percentil 75 o tercer cuartil

Percentil 75 del peso


30
25
20
frecuencia

15
10
5
0

50 55 60 65 70 75 80 85

Peso (Kg) de 100 deportistas


Ejemplos
El colesterol se distribuye simtricamente en la poblacin. Supongamos que
se consideran patolgicos los valores extremos. El 90% de los individuos son
normales Entre qu valores se encuentran los individuos normales?

Percentiles 5 y 95
20
15
frecuencia

10
5
0

180 200 220 240 260

Colesterol en 100 personas


Ejemplos

Entre qu valores se encuentran la mitad de los individuos ms


normales de una poblacin?
Entre el cuartil 1 y 3
Percentiles 25 y 75
20
15
frecuencia

10
5
0

150 160 170 180 190

Altura (cm) en 100 varones


Diagramas de Tukey
Diagrama de cajas de Tukey: Resumen en 5 nmeros

0.08
Resumen con 5 nmeros:
Mnimo, cuartiles y mximo.

0.06
Suelen dar una buena idea de

densidad

0.04
la distribucin.
Mn. P25 P50 P75 Mx.

0.02
La zona central, caja, contiene
al 50% central de las

0.00
observaciones. 40 45 50 55 60 65

Su tamao se llama rango Velocidad (Km/h) de 200 vehculos en ciudad

intercuartlico (R.I.)
Diagrama de cajas de Tukey: Resumen en 5 nmeros

Es costumbre que los bigotes,


no lleguen hasta los extremos,
0.04

sino hasta las observaciones


0.03

que se separan de la caja en


densidad

no ms de 1,5 R.I.
0.02

Ms all de esa distancia se


Mn. P25 P50 P75 Mx.
0.01

consideran anmalas, y as se
marcan.
0.00

80 90 100 110 120 130 140

Velocidad (Km/h) de 200 vehculos en autova


Ejemplo: Determine el P20 y P90 Estadsticos

Nmero de aos de escolarizacin


N Vlidos 1508
Nmero de aos de escolarizacin Perdidos 0
Media 12,90
Porcentaje Mediana 12,00
Frecuencia Porcentaje acumulado Moda 12
3 5 ,3 ,3 Percentiles 10 9,00
20 11,00
4 5 ,3 ,7
25 12,00
5 6 ,4 1,1 30 12,00
6 12 ,8 1,9 40 12,00
7 25 1,7 3,5 50 12,00
60 13,00
8 68 4,5 8,0
70 14,00
9 56 3,7 11,7 75 15,00
10 73 4,8 16,6 80 16,00
11 85 5,6 22,2 20%? 90 16,00
12 461 30,6 52,8
13 130 8,6 61,4
14 175 11,6 73,0
15 73 4,8 77,9
16 194 12,9 90,7 90%?
17 43 2,9 93,6
18 45 3,0 96,6
19 22 1,5 98,0
20 30 2,0 100,0
Total 1508 100,0
Variabilidad o dispersin
Los estudiantes de Estadstica reciben diferentes calificaciones en la
asignatura (variabilidad). A qu puede deberse?

Diferencias individuales en el conocimiento de la materia.

Podra haber otras razones (fuentes de variabilidad)?

Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. Las notas seran las mismas en todos? Seguramente No.

Dormir poco el da del examen, el energizante estaba pasado...


Diferencias individuales en la habilidad para hacer un examen.

El examen no es una medida perfecta del conocimiento.


Variabilidad por error de medida.
En alguna pregunta difcil, se duda entre varias opciones, y al azar se elige la
mala
Variabilidad por azar, aleatoriedad.
Medidas de dispersin
Los promedios no logran captar ciertas caractersticas de un
conjunto de datos. Por ejemplo:
Conjunto 1: 55 60 65

Conjunto 2: 10 60 110

Ambos tienen la misma media (60) pero en el primero las


observaciones son ms homogneas que las del segundo.

Las medidas de dispersin intentan captar el grado de variabilidad


de los datos.
Medidas de dispersin
Los promedios no logran captar ciertas caractersticas de un
conjunto de datos. Por ejemplo:
Conjunto 1: 55 60 65

Conjunto 2: 10 60 110

Ambos tienen la misma media (60) pero en el primero las


observaciones son ms homogneas que las del segundo.

Las medidas de dispersin intentan captar el grado de variabilidad


de los datos.
Medidas de dispersin
Miden el grado de dispersin (variabilidad) de los datos, independientemente

0.05
Mn. P25 P50 P75 Mx.

de su causa.

0.04
0.03
Amplitud o Rango (range): 25% 25% 25% 25%

0.02
Diferencia entre observacines extremas. Rango intercuartlico

2,1,4,3,8,4. El rango es 8-1=7

0.01
Rango

Es muy sensible a los valores extremos.

0.00
150 160 170 180 190

Rango intercuartlico (interquartile range):


Es la distancia entre primer y tercer cuartil.
Rango intercuartlico = P75 - P25
Parecida al rango, pero eliminando las observaciones ms extremas
inferiores y superiores.

No es tan sensible a valores extremos.


MEDIDAS DE DISPERSIN
Varianza S2 : Mide el promedio de las desviaciones (al cuadrado) de las
observaciones con respecto a la media.
1
S ( xi x ) 2
2

n i

Es sensible a valores extremos (alejados de la media).


Si la muestra es menor de 30, reemplazar n por n-1
Para datos agrupados las desviaciones cuadrticas se multiplican por sus
frecuencias
Sus unidades son el cuadrado de las de la variable. De interpretacin difcil
para un principiante.

La expresin es fea, pero de gran belleza natural (fsicamente). Contiene la


informacin geomtrica relevante en muchas situaciones donde la energa
interna de un sistema depende de la posicin de sus partculas.
Varianza S2
Si el siguiente conjunto es una muestra de datos:

32 16 18 27 10 25 19 49 28

V X
1
91

32 24,88 2 ... 28 24,88 2 128,6

Si se trata de una poblacin:

V X
1
9

32 24,88 2 ... 28 24,88 2 114,32
MEDIDAS DE DISPERSIN

Desviacin Estndar o tpica : S S 2

Es la raz cuadrada de la varianza 50

Tiene las misma dimensionalidad (unidades) 40


que la variable. Versin esttica de la
varianza.
30

Cierta distribucin que veremos ms adelante


(normal o gaussiana) quedar completamente 20

determinada por la media y la desviacin


tpica.
10
Desv. tp. = 568,43
A una distancia de una desv. tpica de la media hay Media = 2023

ms de la ms de la mitad. 0 N = 407,00

A una distancia de dos desv. tpica de la media las


Peso recin nacidos en partos gemelares
tendremos casi todas.
Desviacin estndar: S
Si La varianza presenta el inconveniente de quedar expresada en
unidades elevadas al cuadrado, que en ocasiones pierde
significado.
La Desviacin Estndar S es la Raz Cuadrada de la Varianza:
S VX
En el ejemplo anterior:

Si se trata de una Muestra de datos:

S 128,6 11,3
Si se trata de una Poblacin:
S 114,3 10,7
Dispersin en distribuciones normales

0.05
0.04
0.05

0.03
0.04

0.02
0.03

0.01
x 2s
95 %

0.00
0.02

150 160 170 180 190


0.01

xs
68.5 %
0.00

150 160 170 180 190

Centrado en la media y a una desv. tpica de distancia hay


aproximadamente el 68% de las observaciones.
A dos desviaciones tpicas tenemos el 95% (aprox.)
A tres desviaciones tpicas tenemos el 99% (aprox.)
Coeficiente de variacin
Es la razn entre la desviacin tpica y la media. S
Mide la desviacin tpica en forma de
qu tamao tiene con respecto a la media CV
Tambin se la denomina variabilidad relativa.
x
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad
relativa)

Es una cantidad a dimensional. Interesante para comparar la variabilidad de diferentes


variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms
dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una
cantidad fijada arbitrariamente
Por ejemplo 0C 0F
Coeficiente de variacin (CV)
Ejemplo: Un inversor debe decidirse por la Accin A o por la B de
dos compaas de electrnica. Cul debe elegir si desea optar
por la que tiene comportamiento ms homogneo?

Accin Precio Promedio ($) Desvo Estndar ($)


A 15.000 500
B 5.000 300
500
CVA 100 3,3 %
15.000

300
CVB 100 6,0 %
5.000

Debe elegir la Accin A.


MEDIDAS DE FORMA
Asimetra o Sesgo
Una distribucin es simtrica si la
mitad izquierda de su distribucin es
la imagen especular de su mitad
derecha.
En las distribuciones simtricas
media y mediana coinciden. Si slo
hay una moda tambin coincide
La asimetra es positiva o negativa
en funcin de a qu lado se
encuentra la cola de la distribucin.
La media tiende a desplazarse hacia
las valores extremos (colas).
Las discrepancias entre las medidas
de centralizacin son indicacin de
asimetra.
Estadsticos para detectar asimetra
Hay diferentes estadsticos que sirven para detectar asimetra.
Basado en diferencia entre estadsticos de tendencia central.
Basado en la diferencia entre el 1 y 2 cuartiles y 2 y 3.
Basados en desviaciones con signo al cubo con respecto a la media.
Los calculados con ordenador. Es pesado de hacer a mano.

En funcin del signo del estadstico diremos que la asimetra es positiva o


negativa.
Distribucin simtrica asimetra nula.

0.20
0.5
0.20

0.4

0.15
0.15

0.3

0.10
0.10

0.2

0.05
0.05

0.1

xs xs
xs
66 % 78 %
78 %
0.00

0.00
0.0

8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14

x x x
MEDIDAS DE FORMA
SESGO: Medida en que se aparta la Distribucin de datos de la
forma simtrica de la Distribucin Normal
Coeficiente de Sesgo de Pearson:

As1
x Md
S

As 2

3 x Me
S
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribucin
con respecto a la distribucin normal o gaussiana. Es adimensional.

Platicrtica (aplanada): curtosis < 0 En el curso sern de especial


inters las mesocrticas y
Mesocrtica (como la normal): curtosis = 0 simtricas (parecidas a la normal).

Leptocrtica (apuntada): curtosis > 0


Apuntada

0.8
Aplanada Apuntada como la normal
2.0

0.6
0.3
1.5

0.4
0.2
1.0

0.2
x s
0.1

82 %
0.5

0.0

x s
xs
68 %
57 % -2 -1 0 1 2
0.0

0.0

0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3


MEDIDAS DE FORMA
CURTOSIS:

Medida de apuntamiento de la Distribucin de datos tomando


como referencia la forma de la Distribucin Normal
Coeficiente de Curtosis:

k
n f i xi x
4

K i 1
2
3
k

f i xi x
2

i 1
MEDIDAS DE FORMA
Curtosis:

Esta medida es:


Si la distribucin es Leptocrtica (pico alto), C>0

Si la distribucin es Mesocrtica (pico normal), C=0

Si la distribucin es Platicrtica (pico bajo), C<0


Ejercicio: descriptiva con
SPSS Descriptivos para Nmero de hijos
28%

n=419
25%

Estadstico Error tp. n=375


Media 1,90 ,045 25%

Intervalo de Lmite
1,81 17%
confianza para la inferior
20%
media al 95% Lmite n=255 14%
superior 1,99 n=215
15%

Media recortada al 5% 8%

1,75 10%
n=127

4%
Mediana 2,00 n=54 2% 2% 1%
5%
Varianza 3,114 n=24 n=23 n=17
Desv. tp. 1,765
Mnimo 0
0 1 2 3 4 5 6 7 Ocho o ms
Mximo 8
Nmero de hijos
Rango 8
Amplitud intercuartil
3,00 Est sombreado lo que sabemos interpretar hasta ahora.
Verifica que comprendes todo. Qu unidades tiene cada
estadstico? Variabilidad relativa?
Asimetra 1,034 ,063
Curtosis 1,060 ,126 Calcula los estadsticos que puedas basndote slo en el
grfico de barras.
TIPIFICACION DE DATOS
El puntaje Z :

Consiste en transformar cada dato como:

X X
Z
S
Ejemplo:

En el conjunto: 4 ; 2 ; 4 ; 4 ; 3 ; 4 ; 10 ; 2 ; 3 ; 3

10 - 3,9
x 3,9 S 2,16 Z 2,82
2,16
Por lo tanto 10 es un valor alejado
Qu hemos visto?
Parmetros
Estadsticos y estimadores
Clasificacin
Posicin (cuantiles, percentiles,...)
Diagramas de cajas
Medidas de centralizacin: Media, mediana y moda
Diferenciar sus propiedades.
Medidas de dispersin
con unidades: rango, rango intercuartlico, varianza, desv. tpica
sin unidades: coeficiente de variacin
Qu usamos para comparar dispersin de dos poblaciones?
Asimetra
positiva
Negativa
Medidas de apuntamiento (curtosis)
Tipificacin de datos