Вы находитесь на странице: 1из 66

ANALISIS

EXPLORATORIO
DE DATOS
2
1900 1960

AED Inferencia AED


Rudimentario Estadstica Computacional
1900
JOHN SNOW
Mdico. Nace la epidemiologa
cientfica cuando sus observaciones
3 de las epidemias de clera en
Londres en 1849 y 1854 lo llevaron a
concluir que la transmisin del mal
era debida a la contaminacin del
agua por las heces de los enfermos.

FLORENCE NIGHTINGALE
Enfermera, estadstica y epidemiloga Inglesa.
Despus de su experiencia en la guerra de Crimea, donde
recogi datos que la llevaron a concluir que moran ms personas
en los hospitales que en la guerra misma, mejor la prctica de la
enfermera y logr el respeto de las enfermeras como
profesionales de la salud. Fund la escuela de enfermeras 1860.

AED
Rudimentario
1900
ESTADISTICA DESCRIPTIVA
Tabla: Localizacin anatmica de ndulos
en la glndula mamaria.
4 LOCALIZACIN NO. CASOS %

Cuadrantes superiores 164 47.7


Cuadrantes inferiores 30 8.7
Retroareolar 8 2.3
Bilateral 142 41.3

TOTAL 344 100


Tabla 6. Embarazadas hipertensas por grupos
Grupos Total de Total
Total
etreos paridas hipertensas

15-19 1 244 51 1295 Tabla : Hbito de Fumar segn Sexo


20-29 2 626 269 2895 TIPO MASC. FEM. TOTAL

30-39 1 740 215 1955 Fumadores 60 15* 75


40 y ms 204 49 244 No
20 60 80
Fumadores
Total 10 021 957 10968
Total 80 75 115

AED
Rudimentario
5
1900 Diseo
experimental 1960
Muestreo Regresin

Inferencia
Muestras Estadstica Distribucin
pequeas normal
1900 1960
Diseo
experimental
6

Regresin

Muestreo

Inferencia
Muestras Distribucin
pequeas Estadstica normal
1900 1960
Diseo
experimental
7

Regresin

Muestreo

Inferencia
Muestras Distribucin
pequeas Estadstica normal
1900 1960
Diseo
experimental
8

Regresin

Muestreo

Inferencia
Muestras Distribucin
pequeas Estadstica normal
9
1960

AED
Computacional
10
1960

AED
Computacional
Ejemplo: r=0.7 (p=0,04)

11
Ejemplo: r=0.85 (p=0,01)

12
La finalidad del Anlisis Exploratorio de Datos (AED)
es examinar los datos previamente a la aplicacin
de cualquier tcnica estadstica.
De esta forma el analista consigue entendimiento
bsico de sus datos y de las relaciones existentes
entre las variables analizadas.
13
Ejemplo: Los 10 primeros pases en orden alfabtico;
relacionar PNB con datos de salud de cada pas

14
Existe algn tipo de estructura (normalidad, multimodalidad,
asimetra, curtosis, linealidad, homogeneidad entre grupos,
homocedasticidad, etc.) en los datos que voy a analizar?
Existe algn sesgo en los datos recogidos?
Hay errores en la codificacin de los datos?
Cmo se sintetiza y presenta la informacin contenida en un conjunto
de datos?
Existen datos atpicos (outliers)? Cules son? Cmo tratarlos?
Hay datos ausentes (missing)? Tienen algn patrn sistemtico?
Cmo tratarlos?

15

El A.E.D. proporciona mtodos sistemticos sencillos para organizar y
preparar los datos, detectar fallos en el diseo y recogida de los
mismos, tratamiento y evaluacin de datos ausentes (missing),
identificacin de casos atpicos (outliers) y comprobacin de los
supuestos subyacentes en la mayor parte de las tcnicas estadsticas
(normalidad, linealidad, homocedasticidad).
El examen previo de los datos es un paso necesario, que lleva tiempo, y
que habitualmente se descuida por parte de los analistas de datos.

16

17 Pasos del AED
Limpieza de los datos
Preparacin para el anlisis (BDD)
Anlisis grfico univariado y bivariado,
para detectar relaciones
Anlisis descriptivo (medidas, tablas)
univariado y bivariado
Evaluar supuestos (opcional)
Identificar Outliers y definir el tratamiento
Identificar tipo de missing data y definir el
tratamiento
18 Pasos del AED
Limpieza de los datos
DATOS NO CONFIABLES
PROMEDIOS,MXIMOS, MNIMOS,
RELACIONES
19 Pasos del AED
Preparacin para el anlisis (BDD)
PLANILLA
CONCATENACIN
CODIFICACIN
LIBRO DE CDIGOS
DIVISIN
ELIMINACIN DE VARIABLES
ORDENAR
TRANSFORMAR
COMPLETAR
20 Pasos del AED
Anlisis grfico univariado:
SEGN TIPO DE VARIABLE Y ESCALA
TIPOS DE VARIABLES:
Categrica: Nominal Ordinal (menos
compleja)
Numrica: Discreta Continua (ms
compleja)
ESCALAS DE MEDICIN:
Binaria nominal ordinal de intervalo
de razn
Grficos
Herramienta til al momento de presentar
los resultados
El tipo de variable o la escala de medicin
determina el tipo de grficos adecuados
No se presentan grficos y tablas
conteniendo la misma informacin
Los grficos son ms claros a primera vista
Variable Nominal:
Grfico Circular
Variable Nominal:
Grfico de Barras
Variable Ordinal:
Grfico de Barras
EDUCACIN

20
18
NMEROINDIVIDUOS

16
14
12
10
8
6
4
2
0
Bsica Media Superior
Variable Discreta:
Polgono de Frecuencias
TAMAO DEL GRUPO FAMILIAR

16
NMERO DE ALUMNOS
14
12
10
8
6
4
2
0
1 2 3 4 5 6 7
Variable Discreta:
Polgono de Frecuencias
TAMAO DEL GRUPO FAMILIAR

16
NMERO DE ALUMNOS
14
12
10
8
6
4
2
0
1 2 3 4 5 6 7
Variable Discreta:
Histograma
N de hijos vivos
40%
% de mujeres
30%
20%
10%
0%
0 1 2 3 4 5 ms
Variable Continua:
Histograma

Peso de 70 jvenes
35
N de jvenes 30
25
20
15
10
5
0
54.5 59.5 64.5 69.5 74.5 79.5 84.5
Variable Continua:
Histograma

Peso de 70 jvenes
35
N de jvenes 30
25
20
15
10
5
0
54.5 59.5 64.5 69.5 74.5 79.5 84.5
Variable Continua:
Polgono de Frecuencias

IMC
30%
25%
% de pacientes

20%
15%
10%
5%
0%
16 18 20 22 24 26 28 30 32 34
(frecuencia
acumulada)
PAS
% de pacientes 100%

80%

60%

40%

20%

0%
90 100 110 120 130 140 150
PAS menor a PAS mayor a
(frecuencia
acumulada)
PAS
% de pacientes 100%

80%

60%

40%

20%

0%
90 100 110 120 130 140 150
PAS menor a PAS mayor a
33 Pasos del AED
Anlisis grfico bivariado:
SEGN TIPOS DE VARIABLE
Cualitativa Cualitativa
Cualitativa Cuantitativa
Cuantitativa Cuantitativa
34 Pasos del AED
Anlisis grfico bivariado:
Cualitativa Cualitativa
Frecuencias Relativas
70%

60%

50%

40% FUMA
NO FUMA
30%

20%

10%

0%
Femenino Masculino
35 Pasos del AED
Anlisis grfico bivariado:
Cualitativa Cuantitativa
Medias
180
160
140
Presin arterial

120
100
80 PAS promedio
60 PAD prom
40
20
0
SI / Adh SI / No adh NO
HTA / Adherencia al tratamiento
36 Pasos del AED
Anlisis grfico bivariado:
Cualitativa Cuantitativa
Medias
180
160
140
Presin arterial

120
100
SI / Adh
80
SI / No adh
60
NO
40
20
0
PAS promedio PAD prom
HTA / Adherencia al tratamiento
37 Pasos del AED
Anlisis grfico bivariado:
Cuantitativa Cuantitativa
Diagrama de Dispersin
18
16
14
12
10
PAS

8
6
4
2
0
0 1 2 3 4 5 6
Consumo diario de sal (grs)
Pasos del AED: Medidas de inters
Las medidas o caractersticas de la
poblacin que son de inters o tiles
dependen del tipo de variable y su
escala de medicin
Pasos del AED: Medidas de inters
Medidas de Localizacin
Medidas de centro
Cuantiles
Medidas de dispersin
Absoluta
Desviaciones
Rangos
Relativa
Pasos del AED: Medidas de inters
Medidas de Localizacin
Medidas centro media, mediana, moda
Cuantiles percentiles, quintiles,
Medidas de dispersin
Absoluta
Desviaciones estndar, media (na)
Rangos interdecil, cuartil, rango
Relativa CV
Pasos del AED: Medidas de inters
Medidas de Localizacin
Medidas centro media, mediana, moda
qu se entiende por centro de un conjunto?
Media: reparticin equitativa
Mediana: separa en dos grupos, el 50%
presenta valores inferiores y los dems, superiores
Moda: valor ms frecuente
Pasos del AED: Medidas de inters
Medidas de Localizacin
Medidas centro media, mediana, moda
qu se entiende por centro de un conjunto?
Media simetra
Mediana asimetra, valores extremos
Moda datos cualitativos o pocos valores
numricos
Pasos del AED: Medidas de inters
Medidas de Localizacin
Cuantiles percentiles, quintiles,
qu % de la muestra presenta val. superiores /inferiores?
50%: mediana
25%, 50%, 75%: cuartiles
20%, 40%, 60%, 80%: quintiles
10%, , 90%: deciles
1%, , 99%: percentiles
Pasos del AED: Medidas de inters
Medidas de dispersin
Absoluta
Desviaciones estndar, media (na)
Para determinar cun dispersos estn los datos se miden
las distancias desde cada punto a su centro.
Si las distancias se promedian, qu medida centro utiliza?
Media: desviacin media
mediana: desviacin mediana
Pasos del AED: Medidas de inters
Medidas de dispersin
Absoluta
Desviaciones estndar, media (na)
Para determinar cun dispersos estn los datos se miden
las distancias desde cada punto a su centro.
Si las distancias se elevan al cuadrado antes de promediar,
siempre se utiliza como medida centro la media
desviacin estndar
Pasos del AED: Medidas de inters
Medidas de dispersin
Absoluta
Rangos interdecil, cuartil, rango
Para determinar cun dispersos estn los datos se mide la
diferencia entre el mayor y menor valor de un subconjunto
central de la muestra. Si el subconjunto corresponde a:
80%: rango interdecil
50%: rango intercuartil
100%: rango
Medidas de inters
Medidas de dispersin
Relativa CV
Cunto varan porcentualmente los datos en relacin al
valor promedio?
Medidas de inters
Medidas de dispersin
Absoluta No interesa comparar variables
Desviaciones Bastantes datos
Rangos Pocos datos
Relativa CV Interesa comparar
variables diferentes
Medidas de Localizacin
Medidas de centro
Media: promedio X
Mediana: valor que acumula bajo y sobre
l el 50% de los individuos (Me)
Moda: valor ms frecuente (Mo)
Medidas de Localizacin
Cuantiles
Mediana: < 50%
Cuartiles: < 25%, < 50%, < 75%
Quintiles: < 20%, < 40%, < < 80%
Terciles: < 33%, < 67%
Deciles: < 10%, < 20%, , < 90%
Percentiles: < 1%, < 2%, , < 99%
Pasos del AED: Tabulacin
Distribucin de Frecuencias:
Clases Frecuencias

Totales n

En algunos casos es conveniente agregar


otro Tipo de Frecuencias.
Pasos del AED: Tabulacin
Distribucin de Frecuencias:
Variable Nominal
Clases sin orden preestablecido
Variable Ordinal
Clases en su orden lgico
Generalmente creciente
No orden de magnitud de frecuencia
Pasos del AED: Tabulacin
Distribucin de Frecuencias:
Variable Discreta:
Recorrido extenso
Valores agrupados en intervalos
Ejemplo: 10 12, 13 15, 16 18,
Recorrido con pocos valores
Cada clase corresponde a un valor
Pasos del AED: Tabulacin
Distribucin de Frecuencias:
Variable Continua:
Los valores deben agruparse en intervalos
Intervalos Reales aunque se midan en Intervalos
Aparentes:
Ejemplo:
Intervalos Reales Intervalos Aparentes
9.5 12.5 10 12
12.5 15.5 13 15
15.5 18.5 16 18
Pasos del AED: Tabulacin
Clases F. Absoluta F. Rel. F. A. Ac. F. R. Acum.

Estatura I. Apar. N individuos % ind. Frec. Acum. Frec. Rel. Acum.


140.5-150.5 141-150 3 7,7% 3 7,7%
150.5-160.5 151-160 6 15,4% 9 23,1%
160.5-170.5 161-170 15 38,5% 24 61,5%
170.5-180.5 171-180 11 28,2% 35 89,7%
180.5-190.5 181-190 4 10,3% 39 100%
Total 39 100%
Pasos del AED: Tablas bivariadas
Tabla 6. Embarazadas hipertensas por grupos
Grupos Total de Total
Total
Tabla : Hbito de Fumar segn Sexo
etreos paridas hipertensas
TIPO MASC. FEM. TOTAL
15-19 1 244 51 1295
20-29 2 626 269 2895 Fumadores 60 15* 75
30-39 1 740 215 1955 No
20 60 80
40 y ms 204 49 244 Fumadores
Total 10 021 957 10968 Total 80 75 115

Se mide Edad (grupo etrio) en dos grupos: TABLA DE DOBLE ENTRADA


-Paridas Registra frecuencias para dos
- Hipertensas variables cualitativas a la vez
Pasos del AED: Tabulacin
Las Tablas que se adjuntan en un informe
deben aclarar y complementar las ideas
Las Tablas no deben resultar redundantes
Las conclusiones no corresponden a una
lectura de la tabla
Pasos del AED: Evaluar Supuestos Curva Normal
Pasos del AED: Evaluar Supuestos Curva Normal
Pasos del AED: Evaluar Supuestos Simetra con Box Plot
61 Pasos del AED
Limpieza de los datos
Preparacin para el anlisis (BDD)
Anlisis grfico univariado y bivariado,
para detectar relaciones
Anlisis descriptivo (medidas, tablas)
univariado y bivariado
Evaluar supuestos (opcional)
Identificar Outliers y definir el tratamiento
Identificar tipo de missing data y definir el
tratamiento
Pasos del AED: Identificar Outliers y definir tratamiento
62
Es mejor analizar los outliers por separado (sacarlos)
SON INFLUYENTES, alteran la pendiente e interpretacin
Pasos del AED: Identificar Outliers y definir tratamiento
63 NO ES INFLUYENTE, no es necesario quitarlo
Pasos del AED: Identificar tipo de missing data y definir
tratamiento (aleatorio, sistemtico)
64
Cantidad de Contaminante
Ao / mes Estacin 1 Estacin 2 Estacin 3
2010-3 10 39 36
2010-8 200 227 123
2010-12 23 180
2011-3 111 144 20
ALEATORIO 2011-8 85 124 10 IMPUTACIN
2011-12 433 460 385
2012-3 32 69 33
2012-8 208 150
2012-12 415 436 330
2013-3 28 38
2013-8 107 123 52
2013-12 252 275 196
Pasos del AED: Identificar tipo de missing data y definir
tratamiento (aleatorio, sistemtico)
65
Cantidad de Contaminante
Ao / mes Estacin 1 Estacin 2 Estacin 3
2010-3 39 36
2010-8 200 123
2010-12 235 23
2011-3 144 20
SISTEMTICO 2011-8 85 124 10 NO SE PUEDE
2011-12 433 460 385
IMPUTAR
2012-3 69 33
2012-8 208 150
2012-12 415 436 330
2013-3 28 38
2013-8 107 52
2013-12 252 275 196
Pasos del AED: Identificar tipo de missing data y definir
tratamiento (aleatorio, sistemtico)
66
Cantidad de Contaminante
Ao / mes Estacin 1 Estacin 2 Estacin 3
2010-3 10 39
2010-8 200 227
2010-12 235 23
2011-3 111 144
SISTEMTICO 2011-8 85 124 NO SE PUEDE
2011-12 433 460
IMPUTAR
2012-3 32 69 33
2012-8 208 245 150
2012-12 415 436 330
2013-3 28 38
2013-8 107 123 52
2013-12 252 275 196

Вам также может понравиться