Вы находитесь на странице: 1из 16

Calidad de Datos, curso 2013 1 Adriana Marotta

Tratamiento de la calidad en SI
Modelo de Calidad
Medicin y Diagnstico
Correccin
Prevencin
Metadatos de calidad
Medicin Correccin Prevencin Metadatos
Calidad de Datos, curso 2013 2 Adriana Marotta
Limpieza de datos
Identificar y eliminar inconsistencias, discrepancias y
errores en datos, para mejorar la calidad
data cleaning, data cleansing, data scrubbing
En Data Warehousing
Como parte del proceso ETL (extraccin, transformacin y
carga)
Hasta un 80% del costo en proyectos de DW
En sistemas de integracin de datos
on the fly para datos integrados virtualmente
A veces requiere materializacin
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 3 Adriana Marotta
Evitar datos sucios en Manejadores de BD
SE EVITA A TRAVES DE
Tipos de datos incorrectos Def de tipos de datos y restricciones
de dominio
Valores errneos Restricciones tipo Check
Valores faltantes Not null
Referencias invlidas Foreign Key
Duplicados Unique, Primary Key
Inconsistencias Manejo de transacciones
Datos desactualizados Replicacin, Vistas Materializadas
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 4 Adriana Marotta
Por qu hay datos sucios
Fuentes que no son Sistemas de Bases de Datos
Datos que provienen de fuentes externas
Falta de metadatos, de restricciones de integridad
Errores de digitacin
Problemas que se generan cuando hay mltiples
fuentes y heterogeneidades
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 5 Adriana Marotta
!esti"n de la calidad en SI
Medicin de calidad
Estimacin
de Calidad
Anlisis de causas
de mala calidad
Limpieza
Re-estructuracin
del sistema
Monitoreo de la
calidad
Data Profiling
Modelo de Calidad
Anlisis de
procesos de
negocio
involucrados
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 6 Adriana Marotta
Tareas de Limpieza de Datos
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 7 Adriana Marotta
#ormalizaci"n $ estandarizaci"n
En gral. corresponde a la etapa de pre-procesamiento
para luego poder comparar valores y corregir errores.
Conversin de tipo de datos. Ej.: varchar int
Normalizar: llevar a un formato comn
date: 03/01/05 01-MAR-2005
moneda: $
Maysculas / minsculas
tokenizing:
Martnez, Cristina Martnez, Cristina
direcciones: facilita comparaciones
Discretizar valores numricos
Transformaciones especficas del dominio
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 8 Adriana Marotta
Localizaci"n de errores y correcci"n
Si existe una medicin de calidad hecha previamente a
la limpieza, localizacin consistir en recorrer e
interpretar los metadatos de calidad
Si no existe lo anterior, los mtodos dependen de la
dimensin de calidad
Veremos
Localizar y corregir inconsistencias
Localizar y corregir datos incompletos
Localizar outliers (visto anteriormente)
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 9 Adriana Marotta
Localizar y corre%ir inconsistencias
Data editing
Cuando no estamos con una bd relacional. Se detectan
inconsistencias mediante la formulacin de reglas (edits) que
deben ser respetadas por los datos (viene del rea estadstica).
Los edits denotan condiciones de error.
Los edits deben ser consistentes y no redundantes.
Ejemplo de edits inconsistentes:
Salary = FALSE
Has a desk = FALSE
(Salary = TRUE) AND (Has a desk = TRUE)
Ejemplo de edits redundantes:
Role = professor AnnualIncome < 100000
AnnualIncome < 100000
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 10 Adriana Marotta
Localizar y corre%ir inconsistencias
Con el conjunto de edits vlidos se procede a la
localizacin de errores.
Para corregir los errores
Adquisicin de nuevos datos
Refrescar los datos, mejorando la calidad
Muy costoso
Corregir utilizando los edits. Edit-imputation problem.
Modelo propuesto, con los siguientes objetivos
Los datos deben satisfacer todos los edits, cambiando la menor
cantidad de campos posible.
Cuando es necesario imputation, mantener la distribucin de la
frecuencia de los valores en cada campo.
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 11 Adriana Marotta
Edit&imputation
Ejemplo
(Edad, EstadoCivil, TipodeTrabajo)
<68, casado, jubilado> <6, casado, jubilado>
Existe edit: Edad < 15 EstadoCivil = casado
Podemos corregir poniendo 15 en vez de 6, respetando el mnimo
cambio (1er. objetivo), pero si lo hacemos muchas veces vamos a
variar la frecuencia relativa.
Pueden haber edits implcitos
Se derivan lgicamente de los explcitos
Es til considerarlos en la etapa de correccin.
error
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 12 Adriana Marotta
Localizar y corre%ir datos incompletos
Localizacin
Anlisis bsico
Cantidad de valores nulos, promedios, etc.
Comparar con valores esperados
Analizar informacin:
No hay informacin de ventas durante 3/1 .. 3/4 ?
No hay productos con precio > 20 ?
Datos truncados y censurados
Ventas de menos de $100 no se guardan en la base
Ventas de ms de $100000 se guardan como $100000
Deteccin
Siempre se necesita conocimiento del dominio
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 13 Adriana Marotta
Localizar y corre%ir datos incompletos
Correccin
Estimar valores que faltan (imputation) sin cambiar caractersticas
del conjunto de datos (media, varianza, etc.)
Explotar dependencias funcionales
Ej.: nro_dormitorios ingreso
Aplicar tcnicas de estadstica
Regresin lineal
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 14 Adriana Marotta
'l%unas herramientas(
Potters wheel
Estandarizacin, profiling, limpieza para SID (sistemas de integracin de
datos)
Telcordias tool
Estandarizacin, limpieza para SID
Dominio: direcciones, impuestos
Ajax
Normalizacin, limpieza para SID
Dominio: referencias bibliogrficas
Arktos
Estandarizacin, localizacin de errores, limpieza para SID
Dominio: ETL, aplicaciones de salud
Choice Maker
limpieza para SID
Dominio: nombres, direcciones, negocios, datos mdicos, datos financieros
Intelliclean
Normalizacin, limpieza para SID
Referencias en el texto del curso (8.2)
Medicin Prevencin Metadatos Correccin
Calidad de Datos, curso 2013 15 Adriana Marotta
Empresa Productos
Ataccama DQ Analyzer, Data Quality Center, DQ Issue Tracker, DQ Dashboard
Datactics Data Quality Platform, Data Quality Manager, Master Record Manager
DataMentors DataFuse, ValiData, NetEffect
Human Inference
HIquality Suite, HIquality Name Worldwide, HIquality Identify, HIquality Data Improver,
DataCleaner
IBM InfoSphere Information Analyzer, InfoSphere QualityStage, InfoSphere Discovery
Informatica Data Explorer, Data Quality, Identity Resolution, AddressDoctor
Information
Builders/iWay iWay Data Quality Center
Innovative Systems i/Lytics Data Quality, i/Lytics Data Profiling, i/Lytics ProfilerPlus, FinScan
Oracle Oracle Enterprise Dat Quality, Oracle Enterprise Data Quality for Product Data
Pitney Bowes Software Spectrum Technology Platform
RedPoint (DataLever) RedPoint Data Management
SAP Data Quality Management, Information Steward, Data Services
SAS/DataFlux Data Management Platform
Talend Talend Open Studio for Data Quality, Talend Enterprise Data Quality
Trillium Software Trillium Software System, TS Discovery, TS Insight, Trillium Software On-Demand
Uniserv
Data Quality (DQ) Explorer, DQ Batch Suite, DQ Real-Time Suite, DQ Real-Time Services,
DQ Monitor
Melissa Data Contact Zone
Datiris Datiris Profiler
CloverETL Address Doctor
Microsoft Data Quality Services
Medicin Prevencin Metadatos Correccin
'l%unas herramientas(
Calidad de Datos, curso 2013 16 Adriana Marotta
Prevenci"n de errores
Localizacin (o deteccin) y correccin de errores no
previenen errores futuros.
Ej.: Suponer que un proceso crea o reemplaza 1000 registros
nuevos o existentes cada da, cada registro tiene 20 campos y la
tasa de errores del proceso es 2%. 400 nuevos errores se
producen por da. A fin de ao se habrn producido 140000
errores. Enorme tarea de limpieza.
Se busca
identificar causas (root-causes) de los errores
eliminar esas causas
asegurar que se mantendr esa ganancia
Medicin Metadatos Correccin Prevencin
Calidad de Datos, curso 2013 17 Adriana Marotta
Prevenci"n a trav) de manejo de procesos
Manejo de procesos para la creacin de informacin.
Especialmente efectivo para datos que son creados y actualizados
con una alta frecuencia.
Ej.: Billing information chain (Proceso de Facturacin)
Departamentos: Servicio al cliente, Alta de rdenes, Entregas y
Facturacin.
Se detectan muchos problemas, y Facturacin determina que Nro-
stock es el campo ms frecuentemente equivocado. Se investiga y se
ve que hay discrepancias entre Entregas y Alta de rdenes.
Se necesita un gerente de proceso que vea la cadena del proceso en
forma horizontal. Este podra inclur controles para asegurar que no
suceda el problema.
Principales tcnicas: edits y data tracking
Medicin Metadatos Correccin Prevencin
Calidad de Datos, curso 2013 18 Adriana Marotta
Edits para prevenci"n
Los edits pueden ser utilizados para
Correccin (en general son usados solo para esto)
Mejora de procesos
Diseo de procesos menos propensos a errores
Mejora de procesos
Aplicando edits dentro del proceso o de la cadena de procesos, se
pueden detectar ciertos tipos de errores antes de que sean
commiteados en la base.
Se corrigen los errores antes de que produzcan problemas
Ej.: se le podra dar al operador que ingresa las rdenes la oportunidad
de ingresar el nro de stock.
Log de failed edits
Para determinar patrones de errores y eliminar las causas.
Medicin Metadatos Correccin Prevencin
Calidad de Datos, curso 2013 19 Adriana Marotta
Prevenci"n a trav) de dise*o de procesos
Incluir edits en los nuevos procesos y manejadores de
bd.
Bajo costo de implementacin
Desventaja: La gente suele encontrar la forma de saltearlos
Disear la medicin necesaria para controlar y mejorar
el proceso dentro del propio proceso.
Minimizar actividades donde la gente suele cometer
errores, automatizndolas lo ms posible
Ej.: Transcripciones, ingreso de datos, cambios de formatos, etc.
Ej.: Uso de lectores de cdigo de barras
Simplificar procesos tambin evita errores
Asignacin apropiada de responsabilidad del manejo
de los datos
Medicin Metadatos Correccin Prevencin
Calidad de Datos, curso 2013 20 Adriana Marotta
+u datos mejorar
Crear una lista ordenada por prioridad de datos a
mejorar
Consideraciones posibles
Dar ms importancia a la estrategia de negocio de la empresa
Ej.: empresa que est apuntando al marketing directo, debera
priorizar datos de clientes.
Ej.: empresa que est enfocada a mejorar eficiencia de
operaciones, debera priorizar datos logsticos
Asociacin con problemas del negocio ya conocidos
Ej.: reuniones perdidas con clientes: direcciones incorrectas, etc.
Tasas de errores reales vs. requerimientos de nivel de calidad
Econmicas
Hay errores que tienen consecuencias ms costosas que otros.
Medicin Metadatos Correccin Prevencin
Calidad de Datos, curso 2013 21 Adriana Marotta
,esumiendo(
Para mejorar la calidad se debera aplicar
Prevencin a travs de manejo de procesos para datos con alta
frecuencia de creacin y actualizacin.
Localizacin y correccin de errores para datos con baja frecuencia
de creacin y actualizacin.
Cualquier diseo de proceso o reingeniera debera luchar para que
el nuevo proceso sea lo ms libre de errores posible.
Medicin Metadatos Correccin Prevencin
Calidad de Datos, curso 2013 22 Adriana Marotta
Modelos de datos de -alidad
Utilizamos modelos de datos para representar datos
Queremos adems poder representar sus dimensiones
de calidad y sus medidas de calidad. A esto le
llamamos METADATOS DE CALIDAD.
Se proponen extensiones a los modelos tradicionales para bd, para
representar y manejar aspectos relacionados con las dimensiones
de calidad.
Se enriquecen los modelos convencionales con elementos para
representar y analizar la calidad de los datos.
Medicin Correccin Prevencin Metadatos
Calidad de Datos, curso 2013 23 Adriana Marotta
Modelos de datos de -alidad
Modelos de datos
Modelado conceptual
Extensin del MER
Modelado lgico
Extensiones del Modelo Relacional
Extensin del modelo XML
Modelo de proceso
Modelo para el proceso de la produccin de informacin
IP-MAP
Medicin Correccin Prevencin Metadatos
Referencias en el texto del curso (Cap. 3)
Calidad de Datos, curso 2013 24 Adriana Marotta
Otra solucin
Agregamos 2 nuevas entidades:
Data quality dimension
Representa cada dimension y todos sus posibles valores
Data quality measure
Representa las mediciones
E.tensi"n del ME,
Una posible solucin
Desventajas?
Medicin Correccin Prevencin Metadatos
Calidad de Datos, curso 2013 25 Adriana Marotta
E.tensi"n del ME,
Qu cosas falta representar?
Qu construcciones habra que agregarle?
Medicin Correccin Prevencin Metadatos
Calidad de Datos, curso 2013 26 Adriana Marotta
E.tensiones del Modelo ,elacional
Basado en atributos
Medicin Correccin Prevencin Metadatos
Calidad de Datos, curso 2013 27 Adriana Marotta
E.tensiones del Modelo ,elacional
Polygen
Modelo para manipulacin de datos orientado a datos provenientes
de mltiples fuentes
Representacin explcita del origen de los datos y tambin de las
fuentes intermedias (data lineage)
Un valor de un atributo en este modelo es una terna:
Un dato (dominio simple de MR)
Un conjunto de bds origen
Un conjunto de bds intermedias
Se usan annotations para los metadatos en cada atributo
Definen un lgebra que permite la propagacin de las annotations
Primera aproximacin a data provenance
Medicin Correccin Prevencin Metadatos
Calidad de Datos, curso 2013 28 Adriana Marotta
E.tensi"n de /ML
Data and Data Quality (D
2
Q)
Para ser usado en el contexto de sistemas de informacin
cooperativos
Las organizaciones intercambian datos y es fundamental saber la
calidad de estos datos
El modelo es semi-estructurado permitiendo a cada organizacin
exportar la calidad de sus datos con flexibilidad
El modelo se traduce fcilmente a XML
Para consultar este XML se propone una extensin al XQuery, con
un conjunto de funciones llamadas quality selectors.
Medicin Correccin Prevencin Metadatos
Calidad de Datos, curso 2013 29 Adriana Marotta
D
0
+ & Ejemplo
Medicin Correccin Prevencin Metadatos
Calidad de Datos, curso 2013 30 Adriana Marotta
Modelo IP&M'P
Para modelar la construccion (manufacture) de un
producto informacin.
Medicin Correccin Prevencin Metadatos
Calidad de Datos, curso 2013 31 Adriana Marotta
Modelo IP&M'P
(IP-Map, 2000)
Medicin Correccin Prevencin Metadatos
Calidad de Datos, curso 2013 32 Adriana Marotta
Modelo IP&M'P
Existen diversas extensiones del modelo
Diagramas de eventos, diagramas de interaccin, modelos de
datos, etc.
Se propuso el formalismo IP-UML
Extensin del UML con informacin de calidad de datos basada en
IP-MAP
Medicin Correccin Prevencin Metadatos

Вам также может понравиться