Академический Документы
Профессиональный Документы
Культура Документы
En
todo lo que hacemos, siempre estamos estimando los
chances de resultados exitosos: en los negocios, en la
medicina, en el clima y principalmente en los juegos
de azar.
Así el estudio de las leyes formales de lo aleatorio es
la Probabilidad
Estadística es la ciencia,
pura y aplicada, de creación,
desarrollo y de aplicación de
técnicas tales que la
incertidumbre de la
inferencia inductiva pueda
ser evaluada
Tomar decisiones es una gran
responsabilidad.
responsabilidad
Población Muestra
Probabilidad
Objetivo de la Estadística Descriptiva
7 8 2
3 5 12
3
7
4
3 9
9
5 17 5
7 6
0 38 05 3 8
2
1 5 7
4 89 4
0
5 6
8
4
3
6
2
3
Población
In
fe
re
nc
ión
ia
pc
cr i
es
D
Muestra
Transformación Análisis
Sumarización Estimación
Ilustración Hipótesis
Tengo un 98% de probabilidad
de hacer algo que tenga sentido
con estos números.
7 8 2
3 5 12
3
7
4
3 9
9
5 17 5
7 6
0 38 05 3 8
2
1
89 7
5
4 4
0
6
5
8
4 6
3
2
3
El conjunto de datos que describen un
fenómeno (nuestro objetivo) constituyen lo
que se llama Población
muestreo ...
muestreo ...
Muestreo Estratificado
- Divide a la población en
grupos homogéneos Muestreo por
Conglomerado
- Se extrae una muestra
aleatoria simple de cada
grupo o estrato - Divide a la población en
grupos
-Se extrae una muestra
aleatoria simple de los grupos
-Se muestrean todos los
elementos del grupo
seleccionado
muestreo ...
Muestreo Sistemático
- Se elige aleatoriamente a
una unidad
- A partir de ésta se selecciona
cada k-ésima unidad que se
encuentra después de la
elegida
Muestreo
Oportunista
Cualitativas:
Cualitativas Son variables que denotan una
cualidad o atributo y solo pueden ser
clasificadas en categorías o clases
mutuamente excluyentes y exhaustivas
Cuantitativas:
Cuantitativas Son aquellas variables que se
obtuvieron de un proceso de conteo
(discretas) o medición (contínuas)
Clasificación de las variables
Cualitativas de acuerdo a su escala de
medición:
Nominal:
Nominal Son clasificadas en categorías, sin
importar el orden. No tiene sentido hacer
operaciones aritméticas con ellas (género, grupo
sanguíneo, Fuma (si/no))
Ordinal:
Ordinal Las categorías se pueden arreglar en
orden, pero las distancias entre las clases no son
iguales (intensidad del dolor, escolaridad, nivel
socioeconómico)
Clasificación de las variables
Cuantitativas de acuerdo a su escala de
medición:
Intervalo:
Intervalo Son medidas en las que las distancias
entre los valores es significativa pero no existe un
cero absoluto (el cero no es ausencia de atributo) . No
tiene sentido hacer cociente o producto (temperatura,
usos horarios)
Razón:
Razón Las proporciones y razones tienen sentido
al determinar cuánto mas tiene una unidad que otra de
alguna característica. (peso, ingreso, rendimiento)
El análisis de cada variable se hace de
acuerdo a su escala de medición
Podemos
hacer
diagramas,
tablas y
resúmenes
numéricos
de los datos
recopilados
¿Cómo presentar los datos?
Histograma
género frecuencia porcentaje 0.75
0 19 0.63 0.50
Frecuencia
1 11 0.37 0.25
Total 30 1 0.00
M F
Género
tabla de distribución de
frecuencias
diagrama de barras
Si las variables son cuantitativas discretas las
tablas de frecuencias se realizan con la creación
de diferentes clases en base a los datos que
toma la variable.
Frecuencia
43 2 0.07
44 4 0.13 3
45 3 0.10 2
46 4 0.13 1
47 0 0.00 0
48 0 0.00 38 39 40 41 42 43 44 45 46 47 48 49
49 1 0.03 Edad
Total 30 1.00
Si las variables son cuantitativas continuas
las tablas de frecuencias se realizan con la
creación de intervalos numéricos que formarán
las diferentes clases.
tie m p o fr e c u e n c ia p o r c e n ta je
H is t o gHistograma
ra m a
9331- 9931 1 0 .0 3
9 9 3 1 -1 0 5 3 1 1 0 .0 3 0.30
1 0 5 3 1 -1 1 1 3 1 3 0 .1 0 0 .2 5
0 .2 0
Frecuencia
0.20
1 1 1 3 1 -1 1 7 3 1 6 0 .2 0
0 .1 5
F r e c u e n c ia
1 1 7 3 1 -1 2 3 3 1 5 0 .1 7 0 .1 0 0.10
1 2 3 3 1 -1 2 9 3 1 5 0 .1 7 0 .0 5 0.00
1 2 9 3 1 -1 3 5 3 1 6 0 .2 0 0 .0 0 9631 10231 10831 11431 12031 12631 13231 13831
1 3 5 3 1 -1 4 1 3 1 3 0 .1 0 Tiem po
T o ta l 30 1 .0 0
1
31
31
31
31
31
31
93
53
11
17
23
29
35
41
-9
-1 0
1 -1
1 -1
1 -1
1 -1
1 -1
1 -1
31
31
53
13
73
33
93
53
93
99
10
11
11
12
12
13
T ie m p o
Podemos completar esta tabla de frecuencias con una
columna que nos de las Frecuencias Acumuladas ¿qué
uso tienen?
ti e m p o ( se g ) fr e c u e n c i a p o r c e n ta j e F rec . A cu m .
9631 1 0.03 3 0 .0 3 3 a) 0.167
H is t o g r a m a
10231 1 0.03 3 0 .0 6 7
10831 3 0.10 0 0 .1 6 7
11431 6 0.20 0 0 .3 6 7
c) 46.7%
F r e c u e n c ia
12031 5 0.16 7 0 .5 3 3
12631 5 0.16 7 0 .7 0 0 e) 12,031 seg
13231 6 0.20 0 0 .9 0 0
13831 3 0.10 0 1 .0 0 0
T o ta l 30 1 .0 0
9631 10231 10831 11431 12031 12631 132
8 1.00
6 0.75
Porcentaje Acumulado
Frecuencia
4 0.50
2 0.25
0 0.00
9000 10000 11000 12000 13000 14000 9000 10000 11000 12000 13000 14000
Tiempo Tiempo
Métodos Numéricos
(válidos solo para datos cuantitativos)
7
7 5 21 5 8 73 2 512 5 5 8
4
0 8
-un número que mida la
0 9 3
4 4
31 5 58 1 0 7 71 5 5
7
3 10 10 85 838 30 0 7 5523 2 8 8
7
8 7 2 52 5
5 4
7
1 9 3 1 31 85 373588
0 4 8
7
07 3 2
5
7
6
83 2 4 82
5
dispersión de la
0
1 3 18 0 997 5 8 3 430 4 3 3
6 06
5 5
4 7 5
7
6
1 7 8 4
6
9 4 2
0
3
5
6
48 9 1 5 3 18 97 97 5 8 3 4 3 08
8 2
06
7
5
0
4 04
6 06
3
4 8 9 7 5
5
6
5 8 9 8 4 0
8 2
23
07
6
3
distribución
8
7
7 448 9 5 5 658 977 8 3 2 5 4
8 2
6
72
7
63
0
3
4 53 4 0
2
3
2
7 54 6 48 9 7 2
8 2
263
7
3
5 6 7
37
7 4 3 2 5
72
2
6 6
6
3
5
4 654
2
3
2
7 7 3 2
2
6
6
3
4
2
6
Medidas de Tendencia Central
Son números que se localizan cerca del centro o cerca
de donde se encuentran los datos con mayor frecuencia:
media, mediana, moda
Polígono de Frecuencia
8
6
Frecuencia
0
9000 10000 11000 12000 13000 14000
Tiempo
Medidas de Dispersión
Son números que indican qué tan separados están los
datos entre si: rango, desviación estándar, rango
intercuartil
Medidas de tendencia central
media X 1
n
n
i 1
xi
fi
X a i 1 mi
k
n
ti e m p o ( se g ) fr e c u e n c i a p o r c e n ta j e F rec . A cu m .
H is t o g r a m a
9631 1 0 .0 3 0 .0 3 X a 9631(0.03) 10231(0.03)
10231 1 0 .0 3 0 .0 7
10831 3 0 .1 0 0 .1 7 10831( 0.10) 13831( 0.10)
11431 6 0 .2 0 0 .3 7
12031 5 0 .1 7 0 .5 3 F r e c u e n c ia
12,187
12631 5 0 .1 7 0 .7 0
13231 6 0 .2 0 0 .9 0
13831 3 0 .1 0 1 .0 0
T o ta l 30 1
9631 10231 10831 11431 12031 12631 13231
T ie m p o
medidas de tendencia central ...
mediana
n 1 y se observa
se localiza el valor central l X
~
el valor que toma 2
3 38 0 0 0
6 39 0 0 0
12 40 0 0 0 0 0 0
30 1
13
(3)
41
42
0
0 0 0 l X
~ 15.5
14 43 0 0 2
12 44 0 0 0 0
8 45 0 0 0
el valor que toma la
5 46 0 0 0 0 variable es 42.0 años
1 47
1 48
1 49 0
medidas de tendencia central ...
X~ a A 0.5pmPm1 B A
F re c u e n c ia
0 .2 0 0
1 1 1 3 1 -1 1 7 3 1 6 0 .2 0 0 0 .3 6 7
0 .1 5 0
1 1 7 3 1 -1 2 3 3 1 5 0 .1 6 7 0 .5 3 3 0 .1 0 0
1 2 3 3 1 -1 2 9 3 1 5 0 .1 6 7 0 .7 0 0 0 .0 5 0
1 2 9 3 1 -1 3 5 3 1 6 0 .2 0 0 0 .9 0 0 0 .0 0 0
1 3 5 3 1 -1 4 1 3 1 3 0 .1 0 0 1 .0 0 0
1
31
1
1
13
73
33
93
53
93
05
T o ta l 30 1
11
11
12
12
13
-9
-1
1-
1-
1-
1-
1-
31
31
53
33
13
73
93
93
99
5
10
11
11
12
12
13
T ie m p o
medidas de tendencia central ...
moda
es el valor con la frecuencia mas alta.
La distribución puede ser unimodar, multimodal
S2 i 1
n 1
un problema de la varianza es que tiene las unidades al
cuadrado y su interpretación no es fácil, por lo que usamos
su raiz: desviación estándar
X X 2
n
i
S i 1
n 1
es sensible a valores extremos.
Si los datos están agrupados en k intervalos, la varianza se
estima como:
fi mi X a
k 2
S 2
i 1 para nuestro ejemplo ¿qué valor toma S a2 ?
a
n 1
medidas de dispersión...
15
Frecuencia
Intervalos 10
alrededor 5
de la media
0
1 3 5 7 9 11 13 15 17 19 21
n = 372 s s
X = 11.66 2s 2s
s = 4.089 3s 3s
X
El porcetil 25 o primer
cuartil Q1 = - 0.675 deja a
su izquierda el 25% de
las observaciones
25000
20000
Tiempo
15000
10000
Análisis Exploratorio de Datos
las frecuencias pueden ser realtivas o absolutas y nos dan una idea de
qué tan frecuente se presentan simultáneamente ambos atributos en
una población
comparación...
¿el hábito de
80.0
tabaquismo
60.0
Frecuencia
difiere si se es
40.0
hombre o
20.0
0.0
Nunca ha fumado Dejó de fumar Fuma actualmente mujer?
Masculino Femenino
comparación...
20000
¿quién tiene
10000
mayor
0 dispersión?
F M
Género
Muchas veces es importante saber si una
variable influye sobre el comportaminto de otra
variable. Con ello estudiamos el problema de
asociación.
asociación
60.00
¿A mayor nivel
45.00
socioeconómico,
30.00 mayor aceptación?
15.00
0.00
Bajo Medio Alto
asociación ...
asociación ...
Habilidad de Lenguaje
297 388
300
200
este diagrama 0
Maternal Kinder I Kinder II
esquemático?
asociación...
X X Yi Y /( n 1)
n
i 1 i S xy
r ( x, y )
i1 X i X /(n 1) i1 Yi Y /(n 1) SxS y
n 2 n 2
asociación ...
100
80
90 70
80 60
50
70
40
60
30
50 20
40 10
0
30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
r = 0.99 r = - 0.7
100 330
90 280
80
230
70
60 180
50 130
40
80
30
140 150 160 170 180 190 200 30
140 150 160 170 180 190 200
r = 0.8 r = 0.1
75
60
45
Edad
30
15
0
0 10000 20000 30000 40000
Tiempo