Вы находитесь на странице: 1из 8

1

Calidad en Data Warehouses


Andrs Enrique Daza Oyuela
02-256585
Universidad Nacional de Colombia
Maestra en Ingeniera Ingeniera de
Sistemas y Computacin
Bogot, Colombia

aedazao@unal.edu.co

RESUMEN decisiones administrativas en las organizaciones. Pero Cmo


Debido al gran inters que muestran las principales saben las organizaciones que se est haciendo uso de la
organizaciones de hoy en da en cuanto al manejo de la informacin correcta, en el momento preciso?, y Cmo pueden
informacin organizacional que poseen, con el fin de poder tomar de alguna manera evaluar tal informacin? Estas preguntas se
entre otras cosas decisiones competitivas estratgicas para la refieren al problema de calidad de informacin almacenada en los
empresa, se han adoptado sistemas que permitan almacenar tal Data Warehouse. En este trabajo pretendo dar una revisin de los
informacin llamados Data Warehouse (DW). Sin embargo, la estudios que se han hecho en cuanto a la calidad en los Data
calidad de la informacin almacenada en esas grandes bodegas de Warehouse. En la Seccin 2 se define el problema, en la Seccin 3
datos depende en gran manera de los procesos de calidad se habla de manera general sobre lo que es un Data Warehouse, y
pertenecientes a los DW. En este trabajo se revisa de manera sobre la Integracin y el Data Cleansing en un DW, la Seccin 4
general los progresos que se han realizado en los aspectos trata sobre la calidad en los DW en cuanto a su administracin, y
concernientes a la administracin de la calidad de la informacin por ltimo la Seccin 5, especifica los trabajos futuros en este
contenida en los DW. mbito.

Keywords 2. DEFINICIN DEL PROBLEMA


Data Warehouse, Calidad del Dato, Integracin, Data Cleansing, Dado que la informacin es un recurso organizacional, y que es
Dimensin de Calidad usada para generar nuevo conocimiento encaminado hacia la
creacin de mejores estrategias empresariales, es importante
1. INTRODUCCIN analizar la calidad de dicha informacin. En particular, tal
Hace treinta aos, las organizaciones no consideraban al software informacin se encontrar almacenada en Data Warehouses, es
como un recurso valioso para la organizacin, aunque era por esto que presentar un anlisis de la calidad que puede brindar
considerado importante para stas, no era visto como un activo o el Data Warehouse a la informacin es de crucial importancia,
una posesin. Pasaba lo mismo con lo referente a la informacin ms an si se tiene en cuenta los aspectos generales que
que se manejaba, a los datos especficos que manejaban conforman el diseo de estos grandes repositorios.
internamente las empresas. Hoy da, se considera a los datos de En general un DW integra datos provenientes de mltiples fuentes
una organizacin, es decir, a la informacin en general como un heterogneas de informacin [16] y las transforma en una
recurso importante del cual se puede extraer informacin valiosa representacin multidimensional para aplicaciones de soporte a
con el fin de crear ventajas competitivas. Muchas organizaciones decisiones [39]. Sin embargo, esa integracin que es necesaria
saben que contar con la informacin adecuada en el momento para la construccin de los DW, es el principal problema que debe
adecuado, pueden guiarlas a conseguir grandes beneficios. afrontar el proceso de diseo de un DW, ya que aqu se debe tratar
Adems, la informacin tambin posee la gran habilidad de con las posibles inconsistencias y redundancias que presentan los
proporcionar elementos encaminados a mejorar el desempeo de datos de las diversas bases de datos heterogneas, para que
una organizacin, as como ser herramienta principal en soporte a finalmente el DW pueda presentar una vista integrada y
la toma de decisiones para una empresa. reconciliada de toda la informacin requerida por la empresa.
La informacin normalmente se almacena en grandes repositorios Entonces una de las muchas formas en que la calidad final de un
de datos, llamados Bases de Datos pero, a principios de los aos DW es impactada es tal integracin de datos, aunque se han hecho
noventa (1992), Inmon [38] introdujo el trmino Data varias contribuciones a la realizacin de esta integracin de
Warehouse DW como A data warehouse is a subject-oriented, diversas fuentes de datos de origen
integrated, time-variant, nonvolatile collection of data in support [6,7,11,13,14,19,21,22,23,24,27,31,44,47], y tambin en poder
of management's decisions, es decir, un Data Warehouse es una adquirir una buena informacin en presencia de datos ruidosos a
coleccin de datos cuyo principal objetivo es brindar soporte a partir de tcnicas especiales p.e., [49], el problema de poder medir
la calidad de informacin presente en un DW y poder usar estos
Este artculo fue realizado para la materia Seminario de resultados con el fin crear formas o modelos que me ayuden a
Investigacin I, 2006-I, ofrecida por el programa de Maestra en preservar y mejorar la calidad de un DW a travs de su uso y
Ingeniera-Ingeniera de Sistemas y Computacin de la Universidad evolucin es relativamente reciente, y no son muchos los modelos
Nacional de Colombia sede Bogot. realizados para este objetivo.
Andrs Enrique Daza, estudiante de la Maestra en Ingeniera-
Ingeniera de Sistemas y Computacin de la Universidad Nacional
de Colombia sede Bogot, Colombia
2

CONTENIDO Warehouse. La idea es poder resolver los posibles conflictos que


presentan las diferentes fuentes de bases heterogneas. El trabajo
se basa en el Modelo Conceptual del Dato, CDM y permite al
diseador especificar diferentes tipos de correspondencias entre
los datos en fuentes diferentes. Tales correspondencias son usadas
1. INTRODUCCIN
por un algoritmo modificado de bsqueda que realiza la
2. DEFINICIN DEL PROBLEMA especificacin de los mediadores correctos para la carga de las
3. DATA WAREHOUSES vistas materializadas en el Data Warehouse.
3.1 Integracin En [9] se discute la importancia de considerar informacin
incierta cuando se realiza un proceso de integracin de bases de
3.2 Data Cleansing datos heterogneas. En la investigacin se clasifican estas
4. CALIDAD EN DATA WAREHOUSES incertidumbres en tres categoras incertidumbre estructural, de
4.1 Calidad del Dato (Data Quality) asignacin de data objects a clases y, de correspondencia
extensionales entre clases de dos fuentes de datos. Tambin se
4.2 Conceptos Bsicos para Calidad en DW presenta posibles orgenes de incertidumbre de datos que aparecen
4.3 Dimensiones de Calidad en DW en las fuentes de datos, y diversas tcnicas de data mining y
mtodos de matching para la integracin.
4.4 Tcnicas Usadas para Medir la Calidad del DW
En [10] describen un nuevo enfoque para llevar a cabo la
4.5 Modelos usados para Administrar y Mejorar la Calidad ejecucin de la integracin y reconciliacin de los datos en DW
del DW basado en la disponibilidad de un Modelo Conceptual del Dato
4.5.1 Calidad en la Evolucin del Data Warehouse CDM. El modelo permite al diseador especificar varios tipos de
5. TRABAJO FUTURO correspondencias entre los datos de diferentes fuentes, tales
correspondencias las usa un algoritmo el cual soporta la tarea de
6. REFERENCIAS especificar los mediadores correctos para la carga de vistas
materializadas en DW. Adems el modelo permite especificar
operaciones para efectuar conjuntos adecuados de matching,
3. DATA WAREHOUSES conversiones y reconciliaciones con el fin de resolver los posibles
En general las caractersticas de un DW [42] son Orientado a conflictos.
temas, es decir que los datos se organizan por reas presentes en En [3] la idea es relacionar las dos formas de realizar la
una empresa, por ejemplo, rea financiera, rea de sistemas, etc; integracin en una sola. Se presenta primero la nocin de query-
Integrada, la informacin conflictiva y las inconsistencias han preserving transformation y query reducibility entre data
pasado por un proceso de limpiado; No-voltil, la informacin es integration system y se muestra que cuando no se permiten
nicamente de slo lectura, no puede ser modificada por los integrity constraint en el esquema global, el LAV1 y GAV2 (dos
usuarios, maneja Series de Tiempo, es decir, que la informacin formas de disear integracin) son incomparables. Por eso ellos
que se encuentra almacenada no slo es de este ao, sino que consideran la adicin de los integrity contraints en el esquema
tambin presenta los aos anteriores relevantes para la compaa, global y presentan tcnicas para lo que es query-preserving
esto hace que sean muy Grandes; presentan informacin transformation. Por ltimo el trabajo demuestra que pueden crear
Resumida, se encuentra fcilmente compactada y accesible para una tcnica global GLAV en donde se unen las dos, y
los administradores, No est normalizada, ya que las Sistemas de transformarla en una GAV query-preserving
Soporte a Decisiones DSS pueden presentar informacin
redundante, Metadata, o informacin que es guardada por el DW En [18] se pretende manejar los conflictos presentes en las
acerca de ella misma, y presentan entradas de sistemas relaciones pero desde el instante-level, y no en el schema-level.
operacionales no integrados. La investigacin exhibe la integracin de relationships instances
de bases de datos heterogneas. La metodologa propone todas las
3.1 Integracin caractersticas pertenecientes al manejo de los conflictos en el
Dado que la integracin es uno de los principales problemas a la instante-level. Provee una clasificacin de conflictos presentados
hora de construir un DW, ya que se debe lidiar con posibles en instance-level relationships, y presenta un proceso sistemtico
inconsistencias y redundancias entre los datos contenidos en las para detectar y resolver tales conflictos.
fuentes de datos operacionales, y los datos que estn siendo En [30] por ejemplo, se plantea lo que es el uso de tcnicas de
migrados a el DW [15], entonces el proceso de integracin tiene Inteligencia Artificial, y tambin de bases de datos para manejar
un impacto sobre la calidad final de los datos de ste, se han lo referente a la integracin de datos, pero ellos lo dirigen hacia
hecho diversos estudios que me permiten realizar este proceso de cualquier tipo de dato. Se presenta temas relacionados con la
diversas maneras, pero siempre hacia la obtencin de la mejor integracin de datos en cuanto a aplicaciones futuras de
calidad final del DW. Algunos de los trabajos que se han hecho inteligencia artificial.
sobre integracin van desde modelos propuestos, mejoras a
modelos, hasta la creacin de aplicaciones de software. En cuanto a lo que respecta a las aplicaciones de software, por
ejemplo en [34] el paper presenta a CORDS3, el cual es un
Uno de los modelos propuestos se encuentra en [7] en donde se
describe un novedoso mecanismo para realizar la integracin y la 1
reconciliacin de los datos presentes en diferentes fuentes de LAV Local As View
informacin, y que por ejemplo se unificarn hasta llegar a un 2
GAV Global As View
repositorio o bodega final de datos muy grande como un Data 3
Consortium for Research on Distributed Systems
3

sistema para la integracin de esquemas de MDBS (Multy Data 4. CALIDAD EN DATA WAREHOUSES
Base System). En ste se muestran los diferentes modelos de Desafortunadamente por un largo tiempo la calidad del DW se
esquemas de integracin que usa el sistema a la hora de construir dej de lado y no se hizo mucho nfasis en esta parte tan
una Data Warehouse pero al momento de la integracin. Ellos importante para las organizaciones, sin embargo ha empezado a
presentan los posibles conflictos de esquema, y el mtodo usado cobrar importancia tan slo en los ltimos 7 aos, y los aportes
para la construccin del software en cuanto a la integracin, y las que se han hecho no han sido muchos, pero por lo menos ya se
herramientas que utilizaron. tienen algunas cosas en las que se ha aportado y se puede seguir
En [45] se realiza una investigacin que presenta como se efecta avanzando.
la integracin de informacin en una organizacin real. Sujansky La calidad en el DW se ve afectada desde su fase inicial de
describe la gran necesidad de usar tcnicas de integracin debido diseo, hasta los procesos inherentes al mantenimiento y
a las bases de datos heterogneas que se presentan en evolucin. En general el resultado de la calidad final del DW, es
biomedicina, al artculo presenta de una manera descriptiva tales afectado por la calidad de las fuentes de informacin, la calidad
bases de datos heterogneas. Adems trata algunos tpicos del proceso ETL (Extraction Transformation, Loading), y la
referentes a la integracin de dichas bases de datos. mejora a la calidad de los componentes propios del DW (ver
A pesar de que se han hecho muchos esfuerzos para la resolucin Figura 1). Los dos primeros han sido fuertemente considerados
de los conflictos al integrar diferentes bases de datos a un DW, por los investigadores, mientras que el ltimo no presenta muchas
todos estos enfoques no garantizan un 100% de calidad final en el exploraciones.
DW, por esto es necesario la creacin de herramientas o tcnicas
que me permitan de alguna forma evaluar la calidad final del DW
y aplicar dichos resultados a la construccin de modelos Fuentes de
orientados a optimizar la calidad del DW final, a travs de su uso Informacin
y evolucin.
3.2 Data Cleansing Calidad del Data
Otro aspecto importante que repercute en la calidad final del DW Warehouse
se relaciona con el aspecto del Data Cleansing, en el cual se
detectan y eliminan errores e inconsistencias de los datos en las
fuentes de entrada de informacin, de manera tal que se presente
un aumento en su calidad. Tpicamente se presentan las ETL Process Componentes
inconsistencias debido a que en el diseo de un DW, se tienen que del DW
fusionar mltiples fuentes de informacin almacenadas en bases Figura 1. Factores que afectan la Calidad en Data Warehouses
de datos, en las que se presentan registros que poseen diferentes
formatos y, que deben ser de alguna manera integrados. En el ltimo tpico, introducir aspectos de calidad en los
componentes pertenecientes al DW, se ha avanzando
Aunque se ha hecho investigacin acerca de este tema, realmente progresivamente desde los ltimos 7 aos, en temas como, (1)
la que existe no es mucha, por ejemplo en [25] se desarrolla un tcnicas o modelos encaminados a introducir requerimientos de
sistema para llevar a cabo la tarea del Data Cleansing y se calidad relevantes pertenecientes a cada rol de usuario del DW,
demuestra su uso en una aplicacin de mercadera, y en una base (2) tcnicas para medir el comportamiento de dichos
de datos real. Sus resultados muestran ser precisos y efectivos requerimientos, y por ltimo (3) como se comportaran dichos
cuando se procesa los datos diferentes veces usando diferentes requerimientos frente a la evolucin del DW (ver Figura 2). En el
alternativas para el sorting. Su mtodo incorpora un lenguaje ao de 1996 se empezaron a identificar muchos de los contenidos
declarativo de reglas con la cual es posible especificar una que hacan falta por desarrollar en el DW [49], temas
ecuacin terica que permite de manera fcil modificar y concernientes a aspectos en su fase de diseo. Del mismo modo,
experimentar unos criterios para la equivalencia buscada. entre los aos 1996-1999, en cuanto al primer problema, se inici
En [32] se presenta un conjunto de mtodos los cuales tratan del un proyecto de investigacin cooperativo [36] fundado por las
tema de correccin de errores en conjuntos de datos. Estos Comunidades Europeas bajo la Reactive Long Term Research
mtodos detectan dichos errores de forma automtica los mtodos Branch of their ESPRIT IV R&D Program, llamado el DWQ
se implementaron y los resultados muestran que algunos de estos (Foundations of Data Warehouse Quality) en donde participaron
mtodos pueden ser aplicados de forma exitosa en ambientes del varias organismos de investigacin y universidades de Italia,
mundo real, mientras que otros necesitan ser redefinidos y Alemania, Francia y Grecia. Sus tres objetivos eran el de
mejorados. Sin embargo, cada uno de esos mtodos present enriquecer la semntica de los meta bases de datos con modelos
debilidades y fortalezas. formales de informacin de calidad para permitir aspectos
cuantitativos y adaptativos en los diseos de optimizacin del
En [46] se propone una tcnica basada en operaciones que la
DW, enriquecer la semntica de los modelos de recursos de
llaman fuzzy match, la cual est orientada hacia el aumento de la
informacin para permitir de una manera incremental la
calidad en DW. La tcnica se encarga del Data Cleansing de las
resolucin de conflictos y la propagacin de los cambios, la
fuentes de datos provenientes del exterior y que van a ingresar en
creacin de modelos que permitan a los diseadores tomar ventaja
un DW. La tcnica es evaluada en entornos reales, y se presentan
explcita de la naturaleza espacial, temporal de los datos de un
los resultados del algoritmo planteado, con respecto a la mejora de
DW. Entre sus grupos de investigacin tambin se encontraba la
la calidad, evaluados en precisin y eficiencia.
investigacin de herramientas que me permitieran enfrentar el
problema (3) debido al constante cambio de un DW. La gran
mayora de sus resultados fueron publicados en el ao de 1999. A
4

partir de ah, otros investigadores interesados p.e. [17], han Dimensin de Calidad: son los trminos usados para
propuesto mejoras a los modelos propuestos por el DWQ. En definir objetivos de calidad, por ejemplo, completitud,
cuanto al segundo problema, desde el momento en que las consistencia, etc.
organizaciones empezaron a implementar Data Warehouses, se Medidas de Calidad: es la actividad o la relacin
han hecho mediciones experimentales que me contribuyan a saber documentada que existe entre un objeto medible con su
con qu tanta informacin de calidad cuento a la hora de tomar valor de calidad medible.
decisiones empresariales. Dichos estudios han sido conducidos Unidad de mtrica: especifica la dimensin de medida
por institutos de investigacin de universidades. Inicialmente se de un valor de calidad.
contaba slo con los estudios experimentales en organizaciones Dominios de Calidad: son los valores permisibles que
reales, sin embargo, se ha intentado crear modelos formales que puede tomar un objeto medible en cuanto a su medida
me den una informacin ms formal de la calidad que percibe un de calidad.
usuario, aunque en realidad son demasiado pocos. El DWQ, Rango de Calidad: son los valores esperados de calidad
proporcion los datos bsicos de calidad para esto, y p.e. en [8] se despus de una medida.
realiza una investigacin soportada por el Italian FIRB Project Y en [40], se hacer una introduccin nueva a estos conceptos
MAIS en el ao de 2004. Los estudios experimentales an deben bsicos llamada:
continuarse, con el fin de poder determinar, si despus de aplicar Factor de Calidad: es una medida actual de un valor de
modelos que incrementan la calidad en los DW, dicha calidad calidad, y que para su uso en el modelo particular que
realmente mejora o no. proponen se clasifican en tres grupos, Factores de
Calidad Primarios, Factores de Calidad Derivados,
Design Choices
Mtricas Componentes del Modelos Tal introduccin es considerada, extendida, y modificada en otros
de Calidad DW de Calidad trabajos que requieran dichos trminos, ya sea para medir o
mejorar la calidad en DW.

4.3 Dimensiones de Calidad en DW


Figura 2. Factores que intervienen en la mejora de los En general la norma ISO 9126 ha agrupado los modificadores de
Componentes del Data Warehouse los objetivos de calidad en seis dimensiones de alto nivel para el
software en general, y son [39]:
Funcionalidad
4.1 Calidad del Dato (Data Quality) Fiabilidad
Sin duda la calidad de la informacin presente en los DW es un
Usabilidad
factor crucial para las organizaciones. De sta, entre otros factores
Eficiencia
depende el xito o fracaso de una empresa. Diversas definiciones
se han encontrado al tratar de definir calidad del Dato, pero las Mantenibilidad
definiciones ms acertadas y generales apuntan a qu tan Portabilidad
relevante, preciso, til, en contexto, entendible y en tiempo es el Sin embargo, la experiencia hace que prcticamente cada
dato o la informacin [1], y en un caso ms general a la stakeholder modifique esta lista e integre una nueva dimensin de
adaptabilidad para su uso [29], lo que implica que la definicin calidad a la lista de acuerdo a sus necesidades, entre las ms
es relativa, es decir, la informacin de calidad que se emplea para generalmente usadas por estos para DW son [5,40]:
cierto uso, puede no ser de tan buena calidad para otro. Completitud: es el porcentaje de datos almacenados en
una bodega de datos, respecto a la cantidad necesaria de
4.2 Conceptos Bsicos para Calidad en DW datos que debera estar all.
Debido a que es necesario que el DW presente un nivel de calidad Relevancia: cada pieza de informacin almacenada es
en su informacin, es necesario introducir conceptos bsicos de importante para hacer una representacin del mundo
calidad que permitirn la incorporacin, mediante modelos de real.
calidad, de requerimientos de calidad propios a cada rol de Fiabilidad: los datos almacenados son confiables, es
usuario del DW, con el fin de recuperar informacin pertinente de decir se consideran como informacin cierta.
calidad correspondiente a cada rol, desde el repositorio final. Cantidad de Datos: la cantidad de informacin
almacenada
En [33] se resume de manera general los conceptos bsicos que Consistencia: no existe contradiccin alguna entre los
debe considerarse en un DW a la hora de mejorar su calidad, tales datos almacenados.
conceptos son: Correctitud: cada conjunto de los datos almacenados
Objetos Medibles: Es una etiqueta que se le da a representa una situacin del mundo real.
cualquier objeto perteneciente al DW, con el fin de Timeliness: los datos son actualizados en el tiempo, se
poder asignarle uno o algunos objetivos de calidad. recomienda una frecuencia de actualizacin.
Objetivos de Calidad: Son los requerimientos de calidad Precisin: los datos son almacenados con la claridad
en lenguaje natural especificados por los stakeholders requerida para caracterizarlos.
para cada objeto del DW. Exactitud: cada dato almacenado coincide o est
Consulta de Calidad: estas consultas operan sobre relacionado de una manera precisa con un objeto del
medidas de calidad con el fin de poder verificar si un mundo real
objetivo de calidad est siendo logrado o no, o cmo ha Objetividad: los datos son objetivos, no subjetivos.
cambiado su rango de cumplimiento en el tiempo.
5

Conciso: los datos representan el mundo real con la En [20] se discute sobre la calidad de los datos y de la integracin
mnima informacin requerida para tal fin. de los datos. El paper no lo dirige hacia el DW, sin embargo usan
Utilidad: la informacin almacenada es aplicable para la los CRM4, lo cual es una aplicacin para la administracin de las
organizacin relaciones que se tienen con los clientes de la organizacin. Se
Usabilidad: la informacin almacenada es usable para la hace un estudio experimental sobre el impacto de la calidad y la
organizacin. integracin, y se direccionan algunos tpicos importantes en lo
que la organizacin estar interesada con respecto a la calidad de
4.4 Tcnicas Usadas para Medir la Calidad sus datos.
del DW En [28] se presenta un estudio sobre la medida de satisfaccin de
Medir la calidad de la informacin almacenada en los DW es de un usuario final de DW. El estudio propone unos factores de
gran importancia para las organizaciones ya que le permite evaluacin y la forma como esos factores deben ser evaluados,
conocer qu tan valiosa es la informacin y, lo que necesita ser planean una metodologa para la valoracin, se hace el estudio y
mejorado para incrementar su calidad. Adems medir la calidad por ltimo se discuten los resultados. La investigacin es
permite clarificar los objetivos y las metas estratgicas orientadas importante ya que permite mirar desde el punto de vista del
hacia un incremento en la calidad de los procesos del negocio. usuario que tan satisfecho est con la informacin que obtiene del
En general se usan dos tipos de tcnicas, la primera mediante DW.
experimentacin o estudio en organizaciones reales, y la segunda En [41] se realiza una investigacin emprica sobre el uso del DW
mediante modelos de mtricas de calidad. La ms utilizada hasta en lo correspondiente a si la informacin que se obtiene para
ahora, es la primera. sistemas de soporte DSS est a un grado aceptable o no. El
estudio refleja que el uso de DW resulta en un desempeo
En [1], por ejemplo, se presentan aspectos de calidad en un DW
para las organizaciones y se determina cules son las posibles significante cuando se usa a gran escala (full), que cuando se usa
causas por las cuales la calidad de un DW se ve afectada, es decir, en una escala parcial. La idea es reflejar de qu tan buena calidad
la contaminacin de DW, el paper destaca las tres causas es la informacin de la cual se extraen datos importantes para los
sistemas de soporte a decisiones. El estudio es importante ya que
principales en la polucin de la calidad en DW y son, que los
de alguna forma refleja qu tan valiosa es la informacin que se
datos nunca son capturados de forma completa, por eso se
presentan inconsistencias, por lo que se trata de la integracin de tiene al momento de hacer una decisin basada en la informacin
sistemas heterogneos y, la falta de polticas y planeacin de la que se extrae.
parte administrativa, dichas causas salen a flote por medio de un En cuanto a los modelos, en [8] se propone un modelo para
proceso experimental en el cual describen la metodologa y los valorar la calidad de la informacin que presentan las
resultados obtenidos. organizaciones, desde el punto de vista del usuario. En el paper se
presenta la arquitectura del modelo de forma clara pero un poco
En [2] se presenta una investigacin que se hizo con usuarios de
diferentes DW en Australia para medir la calidad de la matemtica. Lo principal del modelo es que permite la
informacin que se obtiene del repositorio, desde la perspectiva personalizacin de los procedimientos de valoracin de la calidad
del usuario. Se presentan los resultados en formas de tabla donde desde los requerimientos del usuario y temas relevantes para la
organizacin. El modelo ha implementado algoritmos para
se concluye que en forma general satisfacen sus necesidades pero
automatizar y evaluar los procesos ms importantes en
que se deja una duda con respecto a si la calidad de los datos
provedos era considerable debido a factores de inconsistencia en organizaciones reales, sin embargo como trabajo futuro falta hacer
estructuras de datos a travs los muchos sistemas que manejan. pruebas ms especficas al respecto.

En [4] el artculo bsicamente est dirigido hacia el anlisis de En [5] se presenta la calidad del dato desde un punto de vista de la
qu tan buena es la calidad de los datos o de la informacin que se ingeniera de software. El paper analiza tres temas importantes
encuentra en un DW. Para ello el paper presenta una metodologa que son, medidas de calidad de la informacin, pruebas de la
informacin y, requerimientos de calidad de la informacin en
que se usa con el objetivo de responder tal pregunta, se realiza el
experimento con fuentes reales y se muestran los resultados con el procesos de desarrollo de software. Se especifica qu es calidad,
fin de dar a conocer y sobretodo discutir cules fueron las posibles se mira el problema de calidad de la informacin, y se proponen
causas, y as llegar a mejorar algn paso del diseo, o tener en tres aspectos para su investigacin, mtricas de calidad del dato,
evaluacin de la calidad del dato, y calidad del dato en los proceso
cuenta algn paso de manera mucho ms profunda. Por ejemplo
de desarrollo de software. Para lo referente a las mtricas de la
algunos de los problemas que tratan es el de desintegridad
semntica es decir, cuando se procesa una bsqueda, pero el calidad del dato, se basan en la metodologa GQM5 la cual
resultado que arroja no es el esperado. considera como primario que una organizacin especifique sus
objetivos, que los caracterice mediante preguntas importantes
En [12] se realiza un estudio real sobre la calidad de los datos en apuntando a sus atributos relevantes, y dar medidas que puedan
tres organizaciones poderosas a nivel financiero. Se evala en las resolver dichas preguntas.
organizaciones la calidad de bases de datos que utilizan teniendo
como referencia unos factores globales de calidad que mencionan
a manera de tabla. Los resultados adoptan la perspectiva del
cliente y reflejan que para las organizaciones es muy importante la
calidad de los datos. Tambin toman en cuenta los problemas que
puede presentar una calidad en los datos no tolerable. El estudio 4
CRM Customer Relationship Management
arroja datos interesantes para poderse enfocar mucho ms en
5
problemas relativos a la calidad de la informacin. GQM Goal Question Metric el cual, es un modelo orientado a la
administracin de la calidad en el software.
6

4.5 Modelos usados para Administrar y consistencia de los datos, en la completitud, y en la concurrencia.
Tambin miran el problema de si una vista seleccionada satisface
Mejorar la Calidad del DW las restricciones dadas para ella. Para ello, su arquitectura se basa
Al mismo tiempo, el DW debe proveer informacin pertinente y en AND/OR dag la cual es una manera de representar mltiples
de buena calidad a diversos sectores de una empresa, es necesario consultas y vistas. El trabajo presenta algunos resultados
que pueda involucrar las diferentes perspectivas de calidad importantes que se pueden llegar a incorporar en los modelos
intrnsecas a cada uno de ellos, y en especial, a cada tipo de sobre calidad de DW.
stakeholder. Tales criterios de calidad no son soportados ni por la
integracin, ni por el Data Cleansing, por lo que es necesario En [17] se ofrece un modelo conceptual o un marco conceptual
introducir dichos criterios en modelos con el fin de obtener una con el fin de mejorar la calidad en entornos de DW. Para ello, se
mejora en la calidad final del DW a partir de cada usuario, y exploran factores que deben ser considerados tales como el nivel
adems poder mantenerla en el proceso de su administracin. actual de la calidad del dato, los niveles de calidad necesitados por
Realmente no es mucho lo que se ha trabajado en este aspecto. los procesos relevantes, y los beneficios potenciales del diseo del
proyecto para mejorar la calidad. En el paper se muestran ideas
La mayora de las tcnicas propuestas para la introduccin de que permiten pensar de una manera sistemtica y comprensiva, de
criterios de calidad provenientes de cada usuario del DW, integran cmo poder soportar una mejora en la calidad del DW, mientras
los conceptos bsicos de calidad citados en el numeral 4.2. Su se resaltan factores relevantes.
idea es mejorar la calidad en el diseo, pero tambin utilizar el
modelo de calidad, para propsitos de anlisis en las medidas de En [35] desarrollan dos contribuciones especiales para mejorar la
calidad, con respecto a los requerimientos de calidad definidos por calidad que se presenta en el DW. La motivacin fue debido a que
cada usuario. con los mtodos que se usaban hasta el momento no era posible
considerar aspectos importantes en la mejora final de calidad de
En [33], se propone un quality meta model, el modelo incorpora un DW. La investigacin aporta la introduccin de una
la calidad en los dos aspectos mencionados anteriormente. El perspectiva explcita de la organizacin en la arquitectura del DW,
modelo est hecho de tal manera que es posible incorporarlo en el con el fin de que la empresa pueda interpretar de una forma ms
sistema de meta database ConceptBase. Entre sus principales apropiada la informacin presente en el repositorio y, mediante la
ventajas est poder soportar cualquier tipo de objeto medible adaptacin del GQM vinculan muchas de las tcnicas que se han
siempre y cuando est representado en el meta database para el realizado para medir y optimizar muchos de los aspectos de
DW, los objetivos de calidad pueden ser presentados desde un calidad en DW, con un marco conceptual general de calidad en
conjunto amplio de stakeholders y cada uno stos puede realizar DW.
consultas de calidad para valorar su objetivos de calidad
especfico, las consultas de calidad son ejecutables en el meta En [39] se hace una extensin al modelo que se present en [33],
database, y permiten ser adicionadas, modificadas, eliminadas; en donde se definen nuevos conceptos pertenecientes a lo que se
por ltimo las medidas de calidad pueden ser almacenadas conoce como dimensiones de calidad. Tambin se explica cmo
explcitamente en el meta database. es posible vincular y utilizar el modelo descrito en [33], con los
procesos de calidad definidos en la administracin de un DW.
En [40] se presenta un modelo de calidad que integra temas ms
interesantes y mucho ms completos. El modelo se basa en el En [29] se desarrolla un modelo de calidad en una organizacin
GQM. El modelo propone un tema novedoso a la hora de real perteneciente al rea de la salud. En la investigacin se tratan
incorporar los aspectos que debe considerar cada usuario con varios temas relacionados con la calidad del dato como lo son, qu
respecto a su criterio de calidad conocidos como factores de es data quality, la importancia y el proceso del data quality; para
calidad. Cada rol de usuario puede definir sus criterios con despus aplicar en la organizacin de salud, un modelo basado en
respecto a cada objeto medible del DW utilizando los factores de una metodologa propuesta con el fin de entender mejor estos
calidad. Para ello se han clasificado los siguientes roles mediante temas relacionados a ambientes de cuidados de salud, de acuerdo
un estudio experimental realizado anteriormente: a sus necesidades especficas, el modelo se evalu en cuanto a su
validez y utilidad.
Tomador de decisiones: Usuario final del DW
Administrador del Data Warehouse: Se encarga de que 4.5.1 Calidad en la Evolucin del Data Warehouse
el DW opere de manera adecuada Una de las caractersticas importantes del DW es que evoluciona
Diseador del Data Warehouse: Se encarga de la en el tiempo. Las investigaciones en este aspecto se refieren a la
construccin del esquema del DW y del diseo de los evolucin de la arquitectura propia del DW, administracin en
procesos del DW cuanto a la actualizacin de la informacin [37,26] pero muy
Programadores de los componentes del Data pocas se especializan en los requerimientos de calidad propios de
Warehouse: las personas que desarrollan las los stakeholders. Tal evolucin entonces, hace necesaria que la
aplicaciones para el DW definicin de los objetivos de calidad propios a cada rol de
Usuarios, administradores y diseadores: son los usuario pueda ser tambin evolucionable. Muy pocas
afectados por la informacin almacenada en el DW contribuciones se tienen al respecto, ya que sta es la
En su metodologa exploran los criterios de calidad en cuatro investigacin en la que menos se ha trabajado, pero que es igual
fases, en la fase de diseo, la fase de evaluacin, la fase de de importante. Sera interesante poder evaluar las propuestas
anlisis y mejora, y la fase de reevaluacin y evolucin. actuales, identificar los errores que puedan presentar y, proponer
mejoras que ayuden a la calidad de la informacin para las
En [48] se presenta una novedosa forma que incorpora alguno de organizaciones.
los problemas concernientes al diseo de DW. Tales
consideraciones toman en cuenta aspectos de factores de calidad. En [40] se presenta la forma en que evolucionan los factores de
Su metodologa soporta factores de calidad en el desempeo, en la calidad y los objetivos de calidad en los cambios constantes del
DW. Los cambios en la arquitectura de un DW, generan cambios
7

en la definicin de factores de calidad para el DW y vicerversa. En [39] se presenta que sera interesante conducir su investigacin
Los cambios que pueden surgir en los factores de calidad, son por de manera que se pueda desarrollar herramientas computacionales
ejemplo, la definicin o agregacin de nuevos y eliminacin de encaminadas a poder brindar asistencia a los stakeholders, en el
existentes, las medidas de calidad tambin pueden cambiar y momento de definir los objetivos de calidad para popular el
entonces es necesario computar de nuevo los valores de factores repositorio con informacin ms relevante.
de calidad. As como cambian los factores de calidad, lo ms
normal, es que los objetivos de calidad demanden una 6. REFERENCIAS
modificacin tambin, debido a la reforma en la estructura. Se [1] Amit Rudra, E.Y, (Amit1999) Key Issues in Achieving
crean nuevos requerimientos, se eliminan los que no requieren ser Data Quality and Consistency in Data Warehousing among
utilizados, el modelo permite adems la insercin de nuevos Large Organizations in Australia Thirty-second Annual
usuarios al igual que sus propias especificaciones. Tambin se Hawaii International Conference on System Sciences, 1999,
mira cmo los cambios en la arquitectura afectan los factores de 7
calidad, y cmo se deben atacar dichos inconvenientes. [2] Amit Rudra, E.Y. (Amit2000) Issues in User Perceptions of
Data Quality and Satisfaction in using a Data Warehouse:
5. TRABAJO FUTURO An Australian Experience 33rd Hawaii International
La calidad en DW es de suma importancia para las Conference on System Sciences, 2000, 7
organizaciones. Las contribuciones que se puedan desarrollar en [3] Andrea Cal, D.C. & Lenzerini, M. (Andrea2002) Andrea
este mbito ayudarn sin duda a que las organizaciones sean ms Cal, D.C. & Lenzerini, M. On the expressive power of data
competitivas en todos sus mbitos. Se han plasmado cules son integration systems Proc. of the 21st Int. Conf. on
los esfuerzos en los que es necesario ocuparse con el fin de Conceptual Modeling (ER 2002), Springer, 2002, 2503 ,
obtener una mejor calidad en la informacin obtenida de parte de 338-350
los DW. [4] Artz, J.M. (Artz1997) How good is that data in the
Por ejemplo en [40], en el GQM, cada objetivo de calidad es warehouse? ACM SIGMIS Database, 1997 , 28
definido a partir de un conjunto de preguntas con el fin de poder [5] Bobrowski, M.; Marr, M. & Yankelevich, D.
generar un mecanismo de ayuda en la transicin de peticiones (Bobrowski1998) A Software Engineering View of Data
muy generales de los usuarios, a un conjunto especfico en que los Quality European Quality Week Conference, 1998
objetivos se puedan medir. Sin embargo, la seleccin de ese [6] Cal, D.C. & Lenzerini, M. (Cal2002) Data Integration under
conjunto especfico de preguntas para un objetivo especfico, o un Integrity Constraints In CAiSE, 2002 , 262-279
tipo especfico de objetivos todava no se ha solucionado. [7] Calvanese, G.D.G. (Calvanese1999) A principled approach
to data integration and reconciliation in data warehousing In
En [5] se expone que se deben definir mtricas especficas para la Proc. Intl. Workshop on Design and Management of Data
medicin de la calidad, ya que segn lo proponen, sin un Warehouses (DMDW'99), Heidelberg, Germany, 1999
conocimiento claro de lo que se espera medir, es difcil poder [8] Cinzia Cappiello, C.F. (Cinzia2004) Data quality
observar las mejoras que se presentan despus de la aplicacin de assessment from the users perspective Proceedings of the
tcnicas de calidad. Otro tpico es tener establecida la nocin del 2004 international workshop on Information quality in
valor de la informacin para una organizacin, es decir, qu tan information systems, 2004, 68 - 73
valiosa es un tipo de la informacin para la organizacin en [9] Conrad, E.A.S. (Conrad2002) Dealing with Uncertainties
trminos de dollar value valor monetario y market value valor during the Data(base) Integration Grundlagen von
comercial. Datenbanken, 2002
En [35] se propone establecer prioridades en los criterios de [10] D. Calvanese, G.D.G. & Rosati, R. (D.1999) Data
calidad a travs de la realizacin de varios casos de estudio, con el integration and reconciliation in data warehousing:
fin de poder ser explicados en tcnicas especficas de medidas y Conceptual modeling and reasoning support Network and
anlisis. As como el desarrollo de estas mismas tcnicas y la Information Systems, 1999, 2, 413-432
manera en la cual sea posible vincularlas al marco general de [11] D. Calvanese, G.D.G. & Rosati, R. (D.1998) Source
desarrollo de un DW a travs de herramientas adecuadas de integration in data warehousing IEEE Computer Society
medidas de calidad, de extensiones al modelo global de diseo, y Press, 1998, 192-197
de tcnicas de optimizacin. Tambin estn desarrollando un [12] D. M. Strong, Y.W.L. & Wang, R.Y. (D.1997) Data
mecanismo con el fin de poder propagar las tcnicas de calidad de Quality in Context. Communications of the ACM, 1997, 40,
DW hacia las fuentes e informacin. 103-110
En [33] se plantea extender el mtodo de calidad aqu utilizado [13] Diego Calvanese, G.D.G. & Rosati, R. (Diego1998)
con el fin de incluir temas como, estrategias para la actualizacin Description logic framework for information integration. In
de las vistas que componen el DW, la seleccin de las fuentes de Proc. of the 6th Int. Conf. on the Principles of Knowledge
bases de datos adecuadas, filtros, transports agents y etc, Representation and Reasoning (KR-98), 1998, 2-13
basados en sus objetivos de calidad, y vincularlo a un modelo de [14] Diego Calvanese, G.D.G. & Rosati., R. (Diego1998b)
calidad orientado a la evolucin del DW, para que se obtenga una Press, A.P.M. (ed.) Knowledge representation approach to
mejora continua de los aspectos de calidad del DW, frente a su information integration In Proc. of AAAI Workshop on AI
constante cambio. and Information Integration, 1998, 58-65
[15] Diego Calvanesea, L.D. (Diego2006) Enterprise modeling
Tambin se deja planteada en [48] la integracin de su and Data Warehousing in TELECOM ITALIA. Information
investigacin con algoritmos de seleccin de vistas en DW, y la Systems, 2006, 31, 132
validacin experimental de un proceso automtico de diseo de
calidad de DW.
8

[16] Dimitri Theodoratos, T.S. (Dimitri1999) Designing data [32] Maletic, J. & Marcus, A. (Maletic2000) Data Cleansing:
warehouses Data & Knowledge Engineering, 1999 , 31, Beyond Integrity Analysis In Proceedings of the
279-301 Conference on Information Quality (IQ2000), 2000
[17] Donald P. Ballou, G.K.T. (Donald1999) Enhancing data [33] Manfred A. Jeusfeld, C.Q. (Manfred1998) Design and
quality in data warehouse environments Communications Analysis of Quality Information for Data Warehouses Proc.
of the ACM,, 1999, 42 17th International Conference on Conceptual Modeling
[18] Ee-Peng Lim, R.H.C. (Ee-Peng2000) The integration of (ER'98), 1998, 349-362
relationship instances from heterogeneous databases [34] Martin, P. & Powley, W. (Martin1995) CORDS Schema
Decision Support Systems, 2000, 29, 153167 Integration Environment Dept. of Computing and
[19] Ee-Peng Lima, R.H.C. (Ee-Peng2004) Accommodating Information Science Queens University at Kingston, 1995
instance heterogeneities in database integration Decision [35] Matthias Jarke, M.A.J. & Vassiliadis, P. (Matthias1999)
Support Systems, 2004, 38, 213 231 Architecture and quality in data warehouses: an extended
[20] Farouk Missi, S.A. (Farouk2005) Why CRM Efforts Fail? repository approach Information Systems, 1999 , 24, 229-
A Study of the Impact of Data Quality and Data Integration 253
Proceedings of the 38th Annual Hawaii International [36] Matthias Jarke, Y.V. (Matthias1997) Data Warehouse
Conference on System Sciences (HICSS'05), 2005 Quality: A Review of the DWQ Project Invited Paper,
[21] Felix Nauman, U.L. (Felix1999) Quality-driven Integration Proc. 2nd Conference on Information Quality, 1997
of Heterogeneous Information Systems Proceeding of the [37] Michael V. Mannino, Z.W. (Michael2004) A framework for
25th Conference, Edimburg Scotland, 1999 data warehouse refresh policies Decision Support Systems,
[22] Giuseppe De Giacomo, D.L. (Giuseppe2004) Information 2004
quality-driven data integration: Tackling inconsistencies in [38] Mora, S.L. & Trujillo, J. (Mora2003) A Comprehensive
data integration through source preferences Proceedings of Method for Data Warehouse Design Proceedings of the 5th
the 2004 international workshop on Information quality in Intl. Workshop DMDW'2003, 2003
information systems ACM Press, 2004 [39] Panos Vassiliadis, C.Q. (Panos2001) Data warehouse
[23] Hepner, P. (Hepner1995) Integrating Heterogeneous process Management Information Systems, 2001 , 26, 205
Databases: An Overview School of Computing and 236
Mathematics Deakin University Geelong, Victoria, [40] Panos Vassiliadis, M.B. & Quix, C. (PANOS2000)
Australia., 1995 Towards quality-oriented data warehouse usage and
[24] Hepner, P. & Zhou, W. (Hepner1997) Integrating evolution Information Systems, 2000, 25, pp. 89 -115
Heterogeneous Databases: A Distributed Model [41] Park, Y. (Park2006) An empirical investigation of the
Proceedings of the IEEE third International Conference on effects of data warehousing on decision performance
Algorithms and Architectures for Parallel Processing Information & Management, 2006, 43, 5161
(ICA3PP'97), 1997, 695-702 [42] Paul Gray, H.J.W. (Paul1998) Present and future directions
[25] Hernandez, M.A. & Stolfo., S.J. (Hernandez1998.) Real- in data warehousing ACM SIGMIS Database,, 1998, 29,
world data is dirty: Data Cleansing and the Merge/Purge 83-90
problem Journal of Data Mining and Knowledge Discovery, [43] Sally McClean, B.S. (Sally2000) Using background
1998., 9-37, knowledge in the aggregation of imprecise evidence in
[26] Jorng-Tzong Horng, C.C. (Jorng-Tzong2001) A mechanism databases Data & Knowledge Engineering, 2000, 32, 131-
for view consistency in a data warehousing system The 143
Journal of Systems and Software, 2001, 56, 23-37 [44] Songting Chen, J.C. & Rundensteiner, E.A. (Songting2004)
[27] L. Miller, X.Y. (L.2002) Integration of Relational Detection and Correction of Conflicting Source Updates for
Databases and Record-Based Legacy Systems for View Maintenance Proceedings of the 20th International
Populating Data Warehouses 35th Annual Hawaii Conference on Data Engineering table of contents, 2004
International Conference on System Sciences (HICSS'02), [45] Sujansky, W. (Sujansky2001) Heterogeneous Database
2002 , 8 Integration in Biomedicina Journal of Biomedical
[28] Lei-da Chena, K.S.S. (Lei-da2000) Measuring user Informatics, 2001, 34, 285298
satisfaction with data warehouses: an exploratory study [46] Surajit Chaudhuri, K.G. (Surajit2003) Similarity queries I:
Information & Management, 2000, 37, 103-110 Robust and efficient fuzzy match for online data cleaning
[29] Leitheiser, B.R. (Leitheiser2001) Data Quality in Health Proceedings of the 2003 ACM SIGMOD international
Care Data Warehouse Environments 34th Annual Hawaii conference on Management of data, ACM Press, 2003
International Conference on System Sciences ( HICSS-34), [47] Susan Davidson, P.B. & Kosky, A. (Susan1998) Semantic
2001, 6 of database transformation Dept. of Computer and Lecture
[30] Levy, A.Y. (Levy1998) Combining Artificial Intelligence Notes in Computer Science, 1998
and Databases for Data Integration Lecture Notes in [48] Theodoratos, D. (Theodoratos1999) Data Currency Quality
Computer Science, 1998, 1600, 249-268 Factors in Data Warehouse Design Proceed. of the
[31] M. Garca-Solaco, F.S. & Castellanos, M. (M.1995) International Workshop on Design and Management of
Extensional Issues in Schema Integration Proc. of the Sixth Data Warehouses (DMDW'99), Heidelberg, Germany, 1999
Int. Hong Kong Computer Society Database Workshop on [49] Wu, M. & Buchmann, A.P. (Wu1997) Research Issues in
Database Reengineering and Interoperability, 1995, 261- Data Warehousing Datenbanksysteme in Buro, Technik
273 und Wissenschaft, Informatik, 1997, 61-82

Вам также может понравиться