Академический Документы
Профессиональный Документы
Культура Документы
EXPLORATORIO
DE DATOS
2
1900 1960
FLORENCE NIGHTINGALE
Enfermera, estadstica y epidemiloga Inglesa.
Despus de su experiencia en la guerra de Crimea, donde
recogi datos que la llevaron a concluir que moran ms personas
en los hospitales que en la guerra misma, mejor la prctica de la
enfermera y logr el respeto de las enfermeras como
profesionales de la salud. Fund la escuela de enfermeras 1860.
AED
Rudimentario
1900
ESTADISTICA DESCRIPTIVA
Tabla: Localizacin anatmica de ndulos
en la glndula mamaria.
4 LOCALIZACIN NO. CASOS %
AED
Rudimentario
5
1900 Diseo
experimental 1960
Muestreo Regresin
Inferencia
Muestras Estadstica Distribucin
pequeas normal
1900 1960
Diseo
experimental
6
Regresin
Muestreo
Inferencia
Muestras Distribucin
pequeas Estadstica normal
1900 1960
Diseo
experimental
7
Regresin
Muestreo
Inferencia
Muestras Distribucin
pequeas Estadstica normal
1900 1960
Diseo
experimental
8
Regresin
Muestreo
Inferencia
Muestras Distribucin
pequeas Estadstica normal
9
1960
AED
Computacional
10
1960
AED
Computacional
Ejemplo: r=0.7 (p=0,04)
11
Ejemplo: r=0.85 (p=0,01)
12
La finalidad del Anlisis Exploratorio de Datos (AED)
es examinar los datos previamente a la aplicacin
de cualquier tcnica estadstica.
De esta forma el analista consigue entendimiento
bsico de sus datos y de las relaciones existentes
entre las variables analizadas.
13
Ejemplo: Los 10 primeros pases en orden alfabtico;
relacionar PNB con datos de salud de cada pas
14
Existe algn tipo de estructura (normalidad, multimodalidad,
asimetra, curtosis, linealidad, homogeneidad entre grupos,
homocedasticidad, etc.) en los datos que voy a analizar?
Existe algn sesgo en los datos recogidos?
Hay errores en la codificacin de los datos?
Cmo se sintetiza y presenta la informacin contenida en un conjunto
de datos?
Existen datos atpicos (outliers)? Cules son? Cmo tratarlos?
Hay datos ausentes (missing)? Tienen algn patrn sistemtico?
Cmo tratarlos?
15
El A.E.D. proporciona mtodos sistemticos sencillos para organizar y
preparar los datos, detectar fallos en el diseo y recogida de los
mismos, tratamiento y evaluacin de datos ausentes (missing),
identificacin de casos atpicos (outliers) y comprobacin de los
supuestos subyacentes en la mayor parte de las tcnicas estadsticas
(normalidad, linealidad, homocedasticidad).
El examen previo de los datos es un paso necesario, que lleva tiempo, y
que habitualmente se descuida por parte de los analistas de datos.
16
17 Pasos del AED
Limpieza de los datos
Preparacin para el anlisis (BDD)
Anlisis grfico univariado y bivariado,
para detectar relaciones
Anlisis descriptivo (medidas, tablas)
univariado y bivariado
Evaluar supuestos (opcional)
Identificar Outliers y definir el tratamiento
Identificar tipo de missing data y definir el
tratamiento
18 Pasos del AED
Limpieza de los datos
DATOS NO CONFIABLES
PROMEDIOS,MXIMOS, MNIMOS,
RELACIONES
19 Pasos del AED
Preparacin para el anlisis (BDD)
PLANILLA
CONCATENACIN
CODIFICACIN
LIBRO DE CDIGOS
DIVISIN
ELIMINACIN DE VARIABLES
ORDENAR
TRANSFORMAR
COMPLETAR
20 Pasos del AED
Anlisis grfico univariado:
SEGN TIPO DE VARIABLE Y ESCALA
TIPOS DE VARIABLES:
Categrica: Nominal Ordinal (menos
compleja)
Numrica: Discreta Continua (ms
compleja)
ESCALAS DE MEDICIN:
Binaria nominal ordinal de intervalo
de razn
Grficos
Herramienta til al momento de presentar
los resultados
El tipo de variable o la escala de medicin
determina el tipo de grficos adecuados
No se presentan grficos y tablas
conteniendo la misma informacin
Los grficos son ms claros a primera vista
Variable Nominal:
Grfico Circular
Variable Nominal:
Grfico de Barras
Variable Ordinal:
Grfico de Barras
EDUCACIN
20
18
NMEROINDIVIDUOS
16
14
12
10
8
6
4
2
0
Bsica Media Superior
Variable Discreta:
Polgono de Frecuencias
TAMAO DEL GRUPO FAMILIAR
16
NMERO DE ALUMNOS
14
12
10
8
6
4
2
0
1 2 3 4 5 6 7
Variable Discreta:
Polgono de Frecuencias
TAMAO DEL GRUPO FAMILIAR
16
NMERO DE ALUMNOS
14
12
10
8
6
4
2
0
1 2 3 4 5 6 7
Variable Discreta:
Histograma
N de hijos vivos
40%
% de mujeres
30%
20%
10%
0%
0 1 2 3 4 5 ms
Variable Continua:
Histograma
Peso de 70 jvenes
35
N de jvenes 30
25
20
15
10
5
0
54.5 59.5 64.5 69.5 74.5 79.5 84.5
Variable Continua:
Histograma
Peso de 70 jvenes
35
N de jvenes 30
25
20
15
10
5
0
54.5 59.5 64.5 69.5 74.5 79.5 84.5
Variable Continua:
Polgono de Frecuencias
IMC
30%
25%
% de pacientes
20%
15%
10%
5%
0%
16 18 20 22 24 26 28 30 32 34
(frecuencia
acumulada)
PAS
% de pacientes 100%
80%
60%
40%
20%
0%
90 100 110 120 130 140 150
PAS menor a PAS mayor a
(frecuencia
acumulada)
PAS
% de pacientes 100%
80%
60%
40%
20%
0%
90 100 110 120 130 140 150
PAS menor a PAS mayor a
33 Pasos del AED
Anlisis grfico bivariado:
SEGN TIPOS DE VARIABLE
Cualitativa Cualitativa
Cualitativa Cuantitativa
Cuantitativa Cuantitativa
34 Pasos del AED
Anlisis grfico bivariado:
Cualitativa Cualitativa
Frecuencias Relativas
70%
60%
50%
40% FUMA
NO FUMA
30%
20%
10%
0%
Femenino Masculino
35 Pasos del AED
Anlisis grfico bivariado:
Cualitativa Cuantitativa
Medias
180
160
140
Presin arterial
120
100
80 PAS promedio
60 PAD prom
40
20
0
SI / Adh SI / No adh NO
HTA / Adherencia al tratamiento
36 Pasos del AED
Anlisis grfico bivariado:
Cualitativa Cuantitativa
Medias
180
160
140
Presin arterial
120
100
SI / Adh
80
SI / No adh
60
NO
40
20
0
PAS promedio PAD prom
HTA / Adherencia al tratamiento
37 Pasos del AED
Anlisis grfico bivariado:
Cuantitativa Cuantitativa
Diagrama de Dispersin
18
16
14
12
10
PAS
8
6
4
2
0
0 1 2 3 4 5 6
Consumo diario de sal (grs)
Pasos del AED: Medidas de inters
Las medidas o caractersticas de la
poblacin que son de inters o tiles
dependen del tipo de variable y su
escala de medicin
Pasos del AED: Medidas de inters
Medidas de Localizacin
Medidas de centro
Cuantiles
Medidas de dispersin
Absoluta
Desviaciones
Rangos
Relativa
Pasos del AED: Medidas de inters
Medidas de Localizacin
Medidas centro media, mediana, moda
Cuantiles percentiles, quintiles,
Medidas de dispersin
Absoluta
Desviaciones estndar, media (na)
Rangos interdecil, cuartil, rango
Relativa CV
Pasos del AED: Medidas de inters
Medidas de Localizacin
Medidas centro media, mediana, moda
qu se entiende por centro de un conjunto?
Media: reparticin equitativa
Mediana: separa en dos grupos, el 50%
presenta valores inferiores y los dems, superiores
Moda: valor ms frecuente
Pasos del AED: Medidas de inters
Medidas de Localizacin
Medidas centro media, mediana, moda
qu se entiende por centro de un conjunto?
Media simetra
Mediana asimetra, valores extremos
Moda datos cualitativos o pocos valores
numricos
Pasos del AED: Medidas de inters
Medidas de Localizacin
Cuantiles percentiles, quintiles,
qu % de la muestra presenta val. superiores /inferiores?
50%: mediana
25%, 50%, 75%: cuartiles
20%, 40%, 60%, 80%: quintiles
10%, , 90%: deciles
1%, , 99%: percentiles
Pasos del AED: Medidas de inters
Medidas de dispersin
Absoluta
Desviaciones estndar, media (na)
Para determinar cun dispersos estn los datos se miden
las distancias desde cada punto a su centro.
Si las distancias se promedian, qu medida centro utiliza?
Media: desviacin media
mediana: desviacin mediana
Pasos del AED: Medidas de inters
Medidas de dispersin
Absoluta
Desviaciones estndar, media (na)
Para determinar cun dispersos estn los datos se miden
las distancias desde cada punto a su centro.
Si las distancias se elevan al cuadrado antes de promediar,
siempre se utiliza como medida centro la media
desviacin estndar
Pasos del AED: Medidas de inters
Medidas de dispersin
Absoluta
Rangos interdecil, cuartil, rango
Para determinar cun dispersos estn los datos se mide la
diferencia entre el mayor y menor valor de un subconjunto
central de la muestra. Si el subconjunto corresponde a:
80%: rango interdecil
50%: rango intercuartil
100%: rango
Medidas de inters
Medidas de dispersin
Relativa CV
Cunto varan porcentualmente los datos en relacin al
valor promedio?
Medidas de inters
Medidas de dispersin
Absoluta No interesa comparar variables
Desviaciones Bastantes datos
Rangos Pocos datos
Relativa CV Interesa comparar
variables diferentes
Medidas de Localizacin
Medidas de centro
Media: promedio X
Mediana: valor que acumula bajo y sobre
l el 50% de los individuos (Me)
Moda: valor ms frecuente (Mo)
Medidas de Localizacin
Cuantiles
Mediana: < 50%
Cuartiles: < 25%, < 50%, < 75%
Quintiles: < 20%, < 40%, < < 80%
Terciles: < 33%, < 67%
Deciles: < 10%, < 20%, , < 90%
Percentiles: < 1%, < 2%, , < 99%
Pasos del AED: Tabulacin
Distribucin de Frecuencias:
Clases Frecuencias
Totales n