Вы находитесь на странице: 1из 35

Limpieza de Base de datos

Dra. Gloria Aguilar


Pediatra- Magister em epidemiologia clinica
Maestra en Salud Publica con concentracion en
sistema de informacion y bioestadistica.
Que conceptos debemos
adquirir
La necesidad de editar los datos antes de emprender un anlisis en
serio y captar los errores lo antes posible.
Opciones para limpiar los datos verificacin de rangos, verificacin
de consistencia y lo que estos pueden (y no pueden) lograr
Qu significa la codificacin de los datos y porqu se realiza
Significado bsico de varios trminos usados para caracterizar los
atributos matemticos de distintos tipos de variables, i.e., nominal,
dicotmica, categrica, ordinal, de medicin,conteo, discreta.

.
Qu significa variable derivada
Trabajo preparatorio Edicin
de datos
En un estudio bien ejecutado, el plan de recoleccin de datos incluye
procedimientos, instrumentos, y formularios, diseados y ensayados
para maximizar su precisin.

Los procedimientos de monitorizacin son establecidos al inicio y


mantenidos durante todo el estudio, dado que cuanto antes se
detecten las irregularidades, mayor la probabilidad de que puedan ser
resueltas de manera satisfactoria y ms precozmente se puedan
establecer medidas preventivas.
LIBRO CODIGO DE LAS
VARIABLES
Abreviatura Cod
Variable Descripcion Cdigo Unidad de Medicin
(Stata) (Cuestionario)

Alguna vez estuviste


Convivencia con 1. S
vivmuj P301 casado o viviste con Lgica
mujer 2. No
una pareja mujer?
Actualmente,
Relacin mantens una relacin 1. S
relmuj P302 Lgica
heterosexual de pareja con alguna 2. No
mujer?
1. Esposa
Relacin
relsent P303 Esta persona es tu 2. Novia Alfabtico
sentimental
3. amante
Durante los ltimos 6
meses, tuviste
Heterosexual 6 1. S
sexmuj P304 relaciones sexuales Lgica
meses 2. No
penetrativas con una
mujer?

La ltima vez que


Relacin tuviste una relacin
1. S
heterosexual con mujcon P305 sexual penetrativa con Lgica
2. No
condn una mujer utilizaron
condn?

Qu edad tenas en tu
Edad primera
edprim P401 primera relacin Numrico Numrico, aos
relacin sexual
sexual?
Cuidados especiales: campos

Usar nmeros sempre que sea posible


Usar fechas

Minsculas

No dejar campos en blanco


codificar nsa (no de aplica), ns (no sabe) o
ig (ignorado)

Cdigos para si/no


Si = 1, no = 2 SPSS
Si = 1, no = 0 Stata
Los formularios deben ser revisados para identificar
irregularidades y problemas que pasaron
desapercibidos o no fueron corregidos durante el
monitoreo.
A continuacin los formularios de datos sern
digitados.

Un programa especfico de entrada de datos a


menudo verifica cada valor en el momento en que es
introducido, de manera de evitar que se ingresen
valores ilegales en la base de datos.
Trabajo preparatorio - limpieza
de datos
Una vez que los datos son introducidos en la
computadora y son verificados (pueden verificarse
por introduccin por dos personas o por verificacin
visual) son sometidos a una serie de verificaciones
por la computadora para limpiarlos.
Verificacin de rangos
La verificacin de rango compara cada dato con un
conjunto de valores permitidos y usuales para esa
variable.
1.Detectar y corregir valores no vlidos
2. Identificar e investigar valores inusuales
3. Sealar valores atpicos o extremos (outliers)
(an si son correctos, su presencia puede influir
sobre los mtodos estadsticos a utilizar)
4. Verificar la lgica de las distribuciones y tambin
apreciar sus formas, dado que esto tambin afectar
la seleccin de procedimientos estadsticos.
Verificacin de rangos

La verificacin de rango compara cada dato con un


conjunto de valores permitidos y usuales paraesa
variable.
1.Detectar y corregir valores no vlidos
2. Identificar e investigar valores inusuales
3. Sealar valores atpicos o extremos (outliers)
(an si son correctos, su presencia puede influir
sobre los mtodos estadsticos a utilizar)
4. Verificar la lgica de las distribuciones y tambin
apreciar sus formas, dado que esto tambin
afectar la seleccin de procedimientos
estadsticos.
Distribucin de la poblacin de estudio segn edad , Ao 2011

200
150
EDAD
100
50
0
Otro ejemplo ...
Frecuencia de las variables
categoricas
Verificacin de la Consistencia
La verificacin de la consistencia examina cada par (a
veces ms) de datos relacionados, en relacin con el
conjunto de valores habituales y permitidos de las
variables como par.

Por ejemplo, los hombres no deben


haber tenido una histerectoma.
1. Detectar y corregir las combinaciones no
permitidas
2. Sealar e investigar combinaciones inusuales
3. Verificar la consistencia de los denominadores y
valores ausentes y no corresponde (i.e.,
4.Verificar que los patrones de salteado de llenado
han sido cumplidos
4. Verificar la lgica de las distribuciones conjuntas
(p.ej., en los grficos de puntos)
Trabajo de preparacin
codificacin de los datos
La codificacin de los datos significa la traduccin de
la informacin en valores adecuados para ser
ingresados en la computadora y para el anlisis
estadstico.
Trabajo preparatorio
reduccin de datos
La reduccin de datos busca reducir el nmero de variables
para el anlisis combinando variables nicas en variables
compuestas que cuantifican mejor el constructo.

Las variables creadas durante el intento de codificacin para


reflejar fielmente los datos originales (p.ej., altura, peso.)

A menudo se pueden utilizar directamente estas variables para


el anlisis, pero tambin es necesario frecuentemente crear
variables adicionales para representar constructos de inters.

Por ejemplo, el constructo sobrepeso se representa a menudo


por una variables que se deriva de los valores para peso y
altura.
Derivacion de
variables
Variveis derivadas
Las variables derivadas (o variables
secundarias ) son nuevas variables que
pueden ser creadas a partir de
operaciones lgicas o matemticas
sobre variables existentes en las bases
de datos (variables primarias)
Variveis derivadas

Exemplo:
Crear classificacion de hipertenso:
aquellos que presenten presion
sistlica mayor o igual a 140 mmHg

Una variable, originalmente contnua


se convierte en categrica
Exemplo de variveis derivadas

Originales
Mdias
Intervalos
Peso
Altura Derivadas
ndice de masa corporal
Cuidados especiales
Colecte las variables de la forma mas basica
posible Por ejemplo: edad en aos

Mantenga los datos originales, no recodifique


sobre la variable

Anote (registre) todo (decisiones, cambios etc.)


Gerenciando archivos

Base de datos
Base original (bruta o sucia)
Base limpia
Base com derivadas
Trabajo preparatorio
Explorando los datos
Observa la forma simetra vs. asimetra,
interrupciones en la forma
Elige medidas de resumen apropiadas para la
distribucin y tipo de variable (nominal,ordinal,
medida)
De posicin media, mediana, porcentaje por
encima del punto de corte
Dispersin desvo estndar, cuantiles
Busca relaciones entre los datos
Mira dentro de los subgrupos importantes
Observa la proporcin de valores faltantes
Plan de anlisis
Primera etapa
Inicialmente debemos realizar un anlise
univariado ( descriptivo) estimando
freucuencias de las variables categricas.
Para las variables cuantitativas debemos
verificar la distribucion y estimar medias,
medianas y
Estatstica descriptiva

Utiliza mtodos numricos y grficos


para mostrar los patrones de
comportamiento de los datos, para
resumir la informacion contenida en
esos datos para presentar la
informacion de forma conveniente.
Tabela 2 - Freqncia de leses orais e indicadores de sade bucal
em indivduos assistidos pelo servio de odontologia do CREAIDS.
Salvador, Brasil.

Leses orais e Indicadores de sade bucal N=993 %

Manifestaes orais
Qualquer leso oral
Sim 55 5,5
No 938 94,5

Candidase
Sim 39 3,9
No 954 96,1

Herpes simplex
Sim 6 0,6
No 987 99,4

Leucoplasia pilosa
Sim 4 0,4
No 989 99,6

Queilite angular
Sim 12 1,2
No 981 98,8

Sarcoma de Kaposi
Segunda etapa
Posteriormente, anlisis bivariado
(associacion bruta) seguido de
anlisis estratificado con
verificacion de los posibles
confundidores y modificadores de
Tabela de trabalho
Tabela 2 - Caractersticas scio-demogrficas e ocorrncia de leses orais em
indivduos infectados pelo HIV-AIDS em Salvador, Brasil.

Leses orais
Caractersticas n=4496 (%) valor p
a
Idade (anos)
At 29 anos 606 14,1 0,03*
Entre 30 e 39 anos 1634 38,0
Entre 40 e 49 anos 1245 28,9
Acima de 50 anos 817 19,0
b
Sexo
Masculino 348 8,0 0,80
Feminino 3994 92,0

Educaoc
Nvel mdio 717 16,3 0,07
Superior em curso 553 12,6
Superior completo 3056 69,5
Mestrado/Doutorado 72 1,6

Estado civild
Solteiros (as) 1677 38,8 0,10
Casados (as) 2048 47,3
Vivos (as) 126 2,9
Separados/Divorciados (as) 475 11,0
Dados ignorados (a)406; (b)154; (c)98; (d)170
(*) valor-p < 0.05 foi considerado estatisticamente significante: teste Pearson
2
Tabela 2 - Caractersticas scio-demogrficas e ocorrncia de
aids em Salvador, Brasil.

Adeso
Caractersticas sim no
a
Idade (anos)
At 29 anos 20,6 14,1
Entre 30 e 39 anos 16,3 38,0
Entre 40 e 49 anos 12,4 28,9
Acima de 50 anos 50,7 19,0
b
Sexo
Masculino 34,8 8,0
Feminino 65,2 92,0
c
Educao
Nvel mdio 7,17 16,3
Superior em curso 55,3 12,6
Superior completo 30,5 69,5
Mestrado/Doutorado 7,53 1,6
Tercera etapa

Finalmente, anlisis multivariado


com modelo de regresion (linear,
logstica, Cox etc) para ajuste de
las co-varibles selecionadas em la
etapa anterior.
Tabela 4 Razes de prevalncia (RP) e intervalos de confiana a 95 % (IC 95%)
de fatores de risco para alterao vocal presente h mais de quatro semanas em
professores da rede municipal de ensino em Salvador, Brasil.

Alterao vocal presente h


Fatores de Risco mais de quatro semanas

N RP IC 95%

Caractersticas scio-demogrficas
Sexo masculino (feminino) 4342 0,61 0,46 0,82

Idade at 29 anos (acima de 29 anos) 4302 0,87 0,77 0,98

Nvel de escolaridade mdio (superior/ps-graduao) 4398 1,15 0,99 1,34

Cor da pele negra (parda/amarela/branca) 4357 1,19 1,05 1,34

Estado civil solteiro (casado/vivo/separado) 4326 1,05 0,93 1,19