Академический Документы
Профессиональный Документы
Культура Документы
Estadistica Descriptiva
Poblacin y muestra
Variables
Poblacin (population) es el conjunto de elementos sobre el que estamos interesados en obtener conclusiones (hacer inferencia) Normalmente es demasiado grande para poder abarcarla
Una variable es una caracterstica observable que vara entre los diferentes elementos de una poblacin. La informacin que disponemos de cada elemento es resumida en variables.
grupo sanguneo
Muestra (sample) es un subconjunto de elementos de la poblacin al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debera ser representativo Esta formado por miembros seleccionados de la poblacin (individuos, unidades experimentales)
{A, B, AB, O} Var. Nominal {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal {0,1,2,3,...} Var. Razn {1,62 ; 1,74; ...} Var. Razn {29, 28.5, 30, } Var. Intervalo
nmero de hijos
altura
Temperatura
Estadistica Descriptiva
Estadistica Descriptiva
Es buena idea codificar las variables como nmeros para poder procesarlas con facilidad en un computador. Es conveniente asignar etiquetas a los valores de las variables para recordar qu significan los cdigos numricos.
Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases (intervalos)
Edades:
Hijos:
0 = No sabe 99 = No contesta...
Mal: Cul es su color del pelo: (Rubio, Moreno)? Bien: Cul es su grupo sanguneo?
Estas situaciones debern ser tenidas en cuentas en el anlisis. Datos perdidos (missing data)
Estudio sobre el ocio Mal: De los siguientes, qu le gusta: (deporte, cine) Bien: Le gusta el deporte: (S, No) Bien: Le gusta el cine: (S, No)
Estadistica Descriptiva 6
Estadistica Descriptiva
Ejemplo
En un programa de estudio de la hipertensin se toma una muestra de 30 hombres en edades entre 30 y 40 aos, la distribucin de la presin diastlica (mnima) en mm Hg fue la siguiente:
70 60 80 85 75 90 85 80 95 75 120 90 65 85 95 90 95 110 110 90 100 95 70 85 90 100 80 70 65 75
Tablas de frecuencia
Renen la informacin recogida en la muestra de manera inteligente:
Frecuencias absolutas, ni: Contabilizan el nmero de individuos de cada modalidad Frecuencias relativas (porcentajes unitarios), hi: dem, pero dividido por el total, normalizadas Frecuencias acumuladas absolutas, Ni , y relativas, Hi: Acumulan las frecuencias absolutas y relativas. Son especialmente tiles para calcular cuantiles (como veremos ms adelante)
Estadistica Descriptiva
Estadistica Descriptiva
Intervalo
60 80 90
65 80 95
65 85 95
70 85 95
70 85 95
70 85
75 90
75 90
75 90
80 90
i
[ 60 70 ) [ 70 80 ) [ 80 90 ) [ 90 100) [100 110) [110 120] total
ni
3 6 7 9 2 3 30
hi
0.10 0.20 0.23 0.30 0.07 0.10 1.00
Estadistica Descriptiva
Ni
3 9 16 25 27 30
Hi
0.10 0.30 0.53 0.83 0.90 1.00
n = 30 6
Amplitud de clase o intervalo: se usa el rango Rango = Max-Min, entonces 120-160+60 Amplitud del intervalo es el rango sobre el numero de grupos: 60/6 = 10 es la amplitud
Estadistica Descriptiva
10
Diagramas de barras
Alturas proporcionales a las frecuencias (abs. o rel.) Se pueden aplicar tambin a variables numricas discretas
60
70
80
90
100
110
120
130
mm de Hg
11
Sexo?
Estadistica Descriptiva 12
Estadistica Descriptiva
Variables numricas
deja un hueco entre barras para indicar los valores que no son posibles
Recuento
255 215
200
Recuento
127 54 24 23 17
Discretas: Toman valores en los nmeros enteros. Numero de hijos Numero de estudiantes Numero de .. Continuas: Toman Valores en los nmeros reales Peso del nio al nacer Altura Temperatura
rea que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
419
400
375
250
200
300
150
100
100
50
20
40
60
80
7 Ocho o ms
Nmero de hijos
Estadistica Descriptiva
13
Estadistica Descriptiva
14
Parmetros y estadsticos
Estadsticos de posicin
La altura media de los individuos de un pas La idea es resumir toda la informacin que hay en la poblacin en unos pocos nmeros (parmetros)
Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada . Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
Estadistica Descriptiva
15
Estadistica Descriptiva
16
La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%
Un resumen de esta serie en 5 valores Min = 105 ; Max =179; Q1 = 132.5 ; Q3 = 159 ; Q2 = Me = 149 Recorrido intercuartil Min Max Q1 Me Q3
Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana. Tercer cuartil = Percentil 75 = cuantil 0,75
105
179
Estadistica Descriptiva
17
18
Mediana
Moda
Moda (mode) Es el/los valor/es donde la distribucin de frecuencia alcanza un mximo
Mediana (median) Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50). Si el nmero de datos es par, se elige la media de los dos datos centrales.
Estadistica Descriptiva 19 Estadistica Descriptiva 20
Adems recordemos
i
1 2 3 4 5 6
xi i=1,,6
El valor medio del 65 intervalo 75 85 95 105 115 total
ni
3 6 7 9 2 3 30
hi
0.10 0.20 0.23 0.30 0.07 0.10 1.00
Estadistica Descriptiva
Ni
3 9 16 25 27 30
Hi
0.10 0.30 0.53 0.83 0.90 1.00
[ 60 70 ) [ 70 80 ) [ 80 90 )
[Li-1, Li)
i=5
Estadistica Descriptiva
21
22
[L, Li) es el i-th intervalo que contiene el cuantil de i 1 interes, lo llamaremos p*, donde Hi p* hi= frecuencia relativa del i-th intervalo ci= amplitud del i-th intervalo (=Li-L) i 1 H(L) frecuencia relativa acumulada hasta el valor Li 1 i 1o del intervalo anterior x*= valor del cuantil p* que deseamos estimar
xi
65 75 85 95
p* = H (Li1 ) +
ni
3 6 7 9
hi
0.10 0.20 0.23 0.30
Ni
3 9 16 25
Hi
0.10 0.30 0.53 0.83
h p* = H (Li1 ) + i (x * Li1 ) ci
Estadistica Descriptiva 23
hi 0.23 (x * Li1 ) (x * 80) 0.50 = 0.30+ ci 10 P0.50 = Q2 = (0.50 0.30) 10 + 80 = x * mediana 0.23 x* = 88.7
Estadistica Descriptiva 24
Centralizacin
Datos agrupados,
Son medidas que buscan posiciones (valores) con respecto a los que los datos muestran tendencia a agruparse Media (mean) Es la media aritmtica (promedio) de los valores de una variable. Suma de los valores dividido por el tamao muestral Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5 Conveniente cuando los datos se concentran simtricamente con respecto a ese valor. Muy sensible a valores extremos Centro de gravedad de los datos
Datos sin agrupar Datos agrupados
xi
El valor medio del intervalo 65 75 85 95 105 115 n
hi
0.10 0.20 0.23 0.30 0.07 0.10 30
Estadistica Descriptiva 26
x = hi xi
i =1
x=
x
i =1
x = hi xi
i =1
n
Estadistica Descriptiva 25
Mediana (median) Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50). Si el nmero de datos es par, se elige la media de los dos datos centrales
Mediana de 1, 2, 4, 5, 6, 6, 8 es 5 Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5,5 Es conveniente cuando los datos son asimtricos. No es sensible a valores extremos.
X n +1 si n es impar 2 Me = 1 Xn + Xn * si n es par +1 2 2 2
0.50 = H (Li 1 ) + hi (Me Li 1 ) ci
Estadistica Descriptiva
27
Estadistica Descriptiva
28
Asimetra
Una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen especular de su mitad derecha. En las distribuciones simtricas media y mediana coinciden. Si slo hay una moda tambin coincide. La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de la distribucin. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.
Estadistica Descriptiva
29
Estadistica Descriptiva
30
160
Los grficos poseen la misma media y desviacin tpica, pero diferente grado de apuntamiento o curtosis.
Frecuencia
140
Volvamos a recordar
120
100
xi
El valor medio del intervalo 65 75 85 95 105 115
3 27 16 32 37 42 47 52 57 62 67 72 77 82 87 92 97 108
hi
0.10 0.20 0.23 0.30 0.07 0.10 30
Estadistica Descriptiva 32
80
60
40 45 48 51 54 57 60 63 66 69 72 75 78 81 84
300 400
Platicrtica
200
300
x = hi xi
i =1
200 100
Frecuencia
0 27 32 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 99
Frecuencia
100
0 102 138
n
31
Mesocrtica
Leptocrtica
Estadistica Descriptiva
Coeficiente de apuntamiento
Medidas de dispersin
Miden
CAp =
(x x )
i =1 i
ns
CAp =
h (x x )
i =1 i i
el grado de dispersin (variabilidad) de los datos, independientemente de su causa. o Rango (range): La diferencia entre las observaciones extremas.
s4
Amplitud
Coeficiente de asimetra
25
% 25% 25
25
CA =
(x x )
i =1 i
ns 3
CA =
h (x x )
i =1 i i
Rango
s3
Estadistica Descriptiva
33
Hi
Varianza S2 (Variance): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.
S2 =
1 ( xi x ) 2 n i
S 2 = hi ( xi x ) 2
i
Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable.
Desviacin tpica (standard deviation) Es la raz cuadrada de la varianza. Tiene las misma dimensionalidad (unidades) que la variable.
mediana
P75 Q3
x
35
S = S2
Estadistica Descriptiva 36
Estadistica Descriptiva
Coeficiente de variacin
Mide la desviacin tpica en forma de qu tamao tiene con respecto a la media Tambin se la denomina variabilidad relativa. Es frecuente mostrarla en porcentajes
CV =
S x
Centrados en la media y a una desviacin tpica de distancia tenemos ms de la mitad de las observaciones (izq.) A dos desviaciones tpicas las tenemos a casi todas (dcha.)
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms dispersin en peso que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0C 0F Los ingenieros electrnicos hablan de la razn seal/ruido (su inverso)
Estadistica Descriptiva 38
Estadistica Descriptiva
37
Datos agrupados
Tabla de frecuencias
Frecuencias absolutas
Frecuencia relativa
Calculemos todas las medidas de tendencia central, dispersin, forma y posicin (solo cuartiles: Q1, Q2, Q3)
60 15 5 80
Estadistica Descriptiva
39
Estadistica Descriptiva
40
10
Clase
Intervalo
Intervalo
Frecuencia absoluta
Frecuencia relativa
22 27 32 37 42
30 40 20 5 5
1 2 3 4 5 6 7
4.15 - 7.15 7.15 11.15 11.15 13.15 13.15 16.15 16.15 18.15 18.15 21.15 21.15 27.15
ni
hi
Ni
Hi
2 5 6 15 9 8 5 50
2 7 13 28 37 45 50
11