Вы находитесь на странице: 1из 7

Metodologa de creacin de bases de datos documentales Modelo Entidad-Relacin Como se vio en la primera parte, este modelo es bastante intuitivo

y resulta de gran utilidad para enfocar el anlisis. El modelo E-R utiliza los siguientes conceptos: Entidad Atributo

Relacin

Segn ello, si las bases de datos representan cosas u objetos del mundo real, stos deber ser identificables (ha de ser posible sealar a uno cualquiera de ellos sin ambigedad) y tener algunas propiedades. A las cosas sobre las cuales una base de datos almacena informacin se las denomina entidades, y pueden ser materiales (libros, personas, etc.) o conceptuales (ideas, teoras cientficas, etc.)... Los atributos, por su parte, son las propiedades relevantes que caracterizan una entidad (relevantes para el problema de informacin que se est considerando). Teniendo en cuenta que, en principio, los atributos de una entidad son virtualmente ilimitados, ser labor del documentalista seleccionar en cada caso cules son los que se consideran ms relevantes. Relacional o documental? En general, la tecnologa relacional es necesaria cuando se trata sobre todo de modelar actividades (relaciones), y los datos de cada entidad son relativamente simples o estn muy estructurados. La mayora de las actividades de gestin administrativa de una empresa son de esa clase y por eso utilizan sistemas relacionales. En cambio, hay que emplear sistemas documentales en la situacin simtricamente opuesta a la anterior, es decir, cuando se trata de modelar depsitos de conocimiento ms que actividades, y los datos no son en realidad datos, sino informacin no estructurada o extremadamente compleja. La mayora de las actividades de la Documentacin responden a ese perfil y por eso utilizan sistemas documentales. 6. Relaciones Volvamos al modelo Entidad-Relacin (E-R). Las entidades del mundo real pueden tener relaciones entre ellas y, mientras que las entidades suelen nombrarse mediante sustantivos, las relaciones se nombran mediante verbos. Por ejemplo, consideremos el caso de una base de datos sobre teatro espaol. Un anlisis intuitivo nos mostrara la existencia de dos entidades relevantes para el sistema: [obras de teatro] y [autores teatrales], y veramos que entre ambas entidades existe la relacin <escriben>, que significa ms explcitamente que [autores teatrales] <escriben> [obras de teatro]. Grficamente, estas relaciones entre entidades se pueden representar as: ----------------------------Autores ----- escriben ----- Obras de teatro ----------------------------N M Un aspecto importante de la relacin es su grado, el cual indica el nmero de elementos que pueden participar en cada uno de los extremos de la relacin, en este caso [autores] y [obras de teatro]. Este grado puede ser de uno a uno (1:1), de uno a muchos (1:N) y de muchos a muchos (N:M). Por ejemplo, la relacin que existe entre el nmero de Isbn y un libro es una relacin de 1:1 porque un nmero de Isbn se asigna a un solo libro, y cada libro tiene un solo nmero de Isbn. En cambio, la relacin entre profesores y universidades es de 1:N, porque cada profesor pertenece a una sola universidad y una universidad tiene muchos profesores.

Finalmente, una relacin de N:M sera la que existe entre autores de teatro y obras de teatro, porque un autor puede escribir diversas obras de teatro, y una obra de teatro puede estar escrita por varios autores y justamente se es el significado de las letras N y M que hemos puesto en el diagrama anterior. Adems, la participacin de la entidad puede o no ser obligatoria en la relacin. Por ejemplo, en la relacin entre Isbn y libros, la participacin de la entidad [libros] es obligatoria, porque siempre que hay un nmero de Isbn hay un libro. En cambio lo contrario no es cierto, porque hay libros que no tienen nmero de Isbn. Esta ltima parte del anlisis entidad-relacin (grado y participacin) es muy importante en el diseo de bases de datos de gestin, que suelen utilizar tecnologa relacional, porque ayuda a modelar los datos de la empresa y a representarlos en tablas normalizadas. En cambio, en sistemas documentales no es tan importante porque stos no suelen utilizar tecnologa relacional, ni necesitan modelar relaciones complejas entre entidades como las que se dan en los sistemas de gestin administrativos. En muchos sistemas documentales, las entidades, de hecho, no mantienen relaciones entre ellas que deban ser reflejadas en el modelo E-R. Por ejemplo, en una tpica base de datos documental sobre literatura cientfica y tcnica no suele existir ninguna relacin entre las entidades representadas (normalmente artculos de revista y monografas) que deba ser tenida en cuenta en el modelo E-R. En tales situaciones, el modelo E-R "slo" aporta una cierta claridad conceptual y proporciona una terminologa comn a todos los miembros que participan en el diseo. Sin embargo, el propsito de las herramientas de diseo no es tanto proporcionar soluciones para situaciones que son bien conocidas, sino para las no conocidas o menos tpicas y, en este sentido, el modelo E-R puede resultar de ayuda tambin para determinar otros elementos del diseo. Volvamos al ejemplo anterior, donde se nos pide disear una base de datos sobre teatro espaol. Supongamos que tenemos dudas sobre el siguiente aspecto: no sabemos si considerar que el autor y todos sus datos biogrficos son atributos de la obra de teatro, o bien que autor y obras de teatro son entidades distintas. Si adoptramos el primer punto de vista, tendramos que disear un nico modelo de registro, donde los atributos del autor seran otros tantos campos, junto con los atributos de la obra de teatro. En cambio, si adoptamos el segundo punto de vista, necesitaremos disear dos modelos de registro, uno para obras de teatro y otro para autores. Puede ser que la simple intuicin nos indique cul es el camino correcto en este o en otros casos parecidos, pero si queremos estar seguros de no equivocarnos en nuestra decisin, siempre podemos aplicar el siguiente procedimiento: 1. En caso de duda, tratar las cosas como entidades distintas. 2. Determinar la relacin entre entidades. 3. Determinar su grado. 4. Aplicar las siguientes reglas: a. Si la relacin es de grado 1:1, entonces se trata de una sola entidad, y un solo modelo de registro es suficiente para representarla. Por ejemplo, el nmero de Isbn es, de hecho, un atributo de la entidad libro, y para representarla es suficiente un solo registro, con un atributo que incluya el nmero de Isbn. b. Si la relacin es de grado N:1, o N:M, se trata de dos entidades y, por lo tanto, necesitamos dos modelos de registro, uno para cada entidad, y cada uno de ellos debe contar con un campo con un dominio comn.

En nuestro ejemplo, la aplicacin de esas reglas nos indicara que la decisin acertada consiste en utilizar dos modelos de registro: uno para representar obras de teatro y otro para representar autores teatrales. El campo con un dominio comn podra ser el campo Autor, que debera figurar en ambos registros. Qu sucedera si no procediramos como indica esta norma? En tal caso, la carga de datos sera poco eficiente, porque para autores muy prolficos tendramos que entrar los mismos datos tantas veces como obras de teatro hubiera escrito. En general, si un autor ha escrito n obras de teatro, tendramos que repetir sus datos n veces. Adems, la redundancia, como es sabido, genera inmediatamente inconsistencias, y tendramos enseguida, por ejemplo, diversas fechas de nacimiento para un mismo autor. Es evidente que si no detectamos ese error de diseo a tiempo, no tardar en hacerse evidente en algn momento de la fase de carga de datos. Si necesitamos llegar a la implantacin para detectar los errores, tal vez entonces se revelarn intiles meses de trabajo. Una advertencia final sobre el modelo E-R. Cuando se utiliza para disear bases de datos relacionales, las reglas para tomar decisiones son ms complejas, porque la descomposicin de datos a la que obliga el modelo relacional implica la necesidad de representar no slo las entidades, sino tambin las relaciones entre entidades mediante una tabla ms. Los interesados en esos aspectos de diseo pueden consultar G. A. Jackson, 1990 y tambin el artculo "Bases de datos relacionales: qu son y qu aportan a la gestin de informacin" , Ll. Codina, IWE-29, noviembre de 1994, p. 18-19. 7. Modelos cannicos Por otro lado, no deberamos olvidar que, en Documentacin, la experiencia previa ha dejado bien sentados cules son los atributos de algunas entidades e incluso cul es la forma ms conveniente de representarlos. Podemos hablar entonces de situaciones cannicas que han generado un modelo. La mejor herramienta de anlisis y de diseo, en tal caso, consiste precisamente en aplicar ese modelo bien conocido y probado. Por ejemplo, los atributos estructurales de cualquier clase de documento pueden ser adecuadamente modelados siguiendo la norma internacional Isbd ( International standard bibliographic description). Recordemos que esa norma internacional representa un gran esfuerzo de abstraccin para proporcionar un marco general de descripcin, vlido para cualquier clase de documento, desde una partitura musical, hasta una filmacin audio-visual, pasando por un fichero de ordenador, un fonograma o un artculo de revista, de manera que la Isbd constituye una herramienta de diseo de primera magnitud para cualquier problema documental donde debamos representar documentos. Sobre el uso de Isbd, cabe advertir que algunos centros de documentacin se han sentido intimidados ante la aparente complejidad de la norma y la supuesta obligacin de adoptarla como un todo, incluyendo la prolija puntuacin que prescribe, y se ha argumentado que utilizar la norma Isbd slo tiene sentido en el contexto de la lectura pblica. Tal postura es un error: primero, porque siempre podemos utilizar la estructura Isbd como una orientacin en el anlisis de los documentos convencionales as como una fuente de inspiracin para situaciones ms "exticas", independientemente de que incorporemos o no la norma en todos sus detalles, es decir, incluyendo todos los niveles de descripcin y todas las prescripciones de puntuacin, mxime cuando el hecho de separar zonas mediante campos libera de la necesidad de utilizar la puntuacin prescrita. Adems, en caso necesario, el programa documental debera permitir presentar la salida de los datos en formato Isbd (o en cualquier otro formato), desde el momento en que la estructura repetitiva de los registros

permite incorporar instrucciones del tipo: "el valor del campo Ttulo se transcribe seguido por un punto, espacio y una raya", etc. 8. Fase de diseo El propsito ahora es obtener un Modelo Conceptual de la base de datos y unModelo de Normativa de Indexacin. El primero contiene los elementos necesarios para orientar el proceso de implantacin. El segundo establece criterios y orientaciones sobre el proceso de representacin del contenido semntico de los documentos o entidades de los que tratar la base de datos. Los dos son el resultado de la fase de diseo y deben ser aprobados por quien encarg el proyecto, antes de que puedan servir como guas de implantacin. Por tanto, el modelo conceptual no slo debe ser acertado, sino que, adems, debe parecerlo. El Modelo Conceptual contiene, por lo menos, los siguientes elementos: 1. Definicin raz 2. Definicin del dominio de la base de datos. 3. Identificacin de las entidades representadas en la base de datos. 4. Diccionario de datos 5. Descripcin funcional del sistema. El dominio de la base de datos es el conjunto de los temas o entidades sobre los que mantiene informacin la base de datos. Como todo dominio, puede definirse por extensin o por comprensin. Por tanto, puede ser tan breve como el nombre de una o ms disciplinas cientficas. Por ejemplo, el dominio de la base de datos Lisa Plus (Library and Information Science Abstracts) es el de las Ciencias de la Documentacin. O puede consistir en una frase. Por ejemplo, el dominio de la base de datos Teseo se enuncia diciendo que est formado por las tesis doctorales publicadas por universidades espaolas. Las herramientas para producir el documento anterior son las siguientes: 1. Definicin raz 2. Modelo entidad-relacin (que ya se coment antes) 3. Diccionario de datos 4. Descripcin funcional La definicin raz expresa qu es la base de datos o, si se quiere, describe la clase de problemas que podr solucionar. Esta descripcin debe mencionar a los usuarios de la base de datos. No debe ser ms larga de uno o dos prrafos. La informacin necesaria para construir la definicin raz se obtuvo del Modelo esencial, que forma parte de la fase de anlisis, que vimos en su momento. Una forma de definicin raz que podra generalizarse para un amplio rango de bases de datos documentales, aplicada por ejemplo al caso de la de un medio de comunicacin podra ser: "El propsito de esta base de datos es satisfacer las necesidades de informacin retrospectiva de los redactores del diario, permitindoles recuperar selectivamente cualquier informacin publicada anteriormente por el mismo". 9. Diccionario de datos Ayuda al diseador a garantizar la calidad, fiabilidad, consistencia y coherencia de la informacin introducida en la base de datos, de tal manera que el mismo marcar decisivamente el rendimiento y la calidad global del sistema de informacin.

Consiste en la lista detallada de cada uno de los campos que forman los distintos modelos de registro de la base de datos. A cada campo de cada modelo de registro se le aplica una parrilla de anlisis que contempla, como mnimo, los siguientes aspectos: 1. Dominio 2. Tipo 3. Tratamiento de indexacin 4. Tratamiento documental 5. Lengua 6. Otros controles de validacin Supongamos una base de datos documental sobre noticias de actualidad con slo tres campos: <Ttulo>, <Descriptores> y <Fecha de publicacin>. El diccionario de datos tendra esta forma: Campo Ttulo Dominio: Ttulo del documento. Se transcribe de la siguiente forma: Ttulo: antettulo: subttulo. Tipo: Alfanumrico Tratamiento indexacin:Indexado Tratamiento documental:Lenguaje libre Lengua: Lengua del documento Controles de validacin:No puede quedar vaco. Si por alguna razn el documento careciera de ttulo, el documentalista asignar un ttulo descriptivo. -Campo Descriptores Dominio: Palabras clave normalizadas que expresan los conceptos principales contenidos en el documento, segn el siguiente principio general: si el artculo contiene n conceptos relevantes se asignan n descriptores, procurando no asignar ms de 20 descriptores por documento. Tipo: Alfanumrico Tratamiento indexacin:Indexado Tratamiento documental:Lenguaje controlado Lengua: Del centro de documentacin Controles de validacin:No puede quedar vaco y slo admite valores extrados de una lista de trminos autorizados. -Campo fecha de publicacin Dominio: Fecha de publicacin de la noticia con el siguiente formato: DD/MM/AAAA. Tipo: Fecha Tratamiento indexacin:Indexado Tratamiento documental: No procede Lengua: No procede Controles de validacin:No admite valores fuera de rango. Estudiando el diccionario de datos anterior, podemos observar lo siguiente: 1. Que el Dominio es el conjunto del que puede obtener sus valores el campo. 2. Que el Tipo se refiere al tipo de datos que admite el campo. Suele ser:
Numrico: permite efectuar clculos aritmticos o bsquedas por rangos de valores.

Alfanumrico: admite tanto cadenas de caracteres como nmeros, pero trata a estos ltimos

como caracteres.
Fechas: slo admite fechas en un formato establecido y permite bsquedas por rangos o por

valores superiores o inferiores a una fecha dada.


Lgico: slo admite uno de dos valores: S o No; Verdadero o Falso. 2.

Que el Tratamiento documental establece si se debe utilizar algn lenguaje documental para entrar los valores del campo, como as sucede en el campo Descriptores, donde el diccionario de datos regula que ese campo slo admite palabras clave autorizadas extradas de un tesauro o de una lista de autoridades. Que la Lengua puede ser, o bien la del documento, o bien la del centro de documentacin. Eso significa, en el caso de un documento escrito en ingls, que el ttulo estara en ingls, pero los descriptores en castellano, siempre de acuerdo con el diccionario de datos precedente.

3.

La descripcin funcional, por su parte, incluye los siguientes elementos: 1. Qu y cmo entra la informacin en el sistema. 2. Qu procesos documentales se llevan a cabo. 3. Qu servicios y productos genera el sistema, y/o a qu aplicaciones pueden dar soporte. En el primer punto se describe en qu consisten las entradas del sistema. El punto segundo da una idea sobre qu procesos de tratamiento documental automatiza la base de datos, y el punto siguiente explica en qu consisten las salidas del sistema. Por ejemplo, siguiendo con la base de datos de un medio de comunicacin (supongamos que se trata de un diario), la descripcin funcional podra explicar lo siguiente: "Diariamente entran en la base de datos las noticias que se publicarn al da siguiente. Esta entrada se realiza mediante una importacin automtica de los archivos informticos generados por la redaccin. Los documentalistas revisan las noticias entradas el da anterior, las analizan y asignan descriptores a cada una de ellas, utilizando la lista de descriptores autorizados. En el caso de las fotografas, redactan un ttulo o copian el pie de foto si resulta adecuado como ttulo y les asignan tambin los descriptores correspondientes. Tanto el texto completo de las noticias como la imagen facsmil de las mismas y las fotos quedan archivados en la base de datos, asociados a los descriptores asignados por los documentalistas, que actan de puntos de acceso a la noticia, junto con el texto completo del documento en el caso de los artculos. La base de datos puede proporcionar recuperacin selectiva de la informacin por texto completo y por descriptores, as como mostrar y/o imprimir el documento primario en pantalla. Igualmente puede generar listados, con cualquier periodicidad, de artculos publicados sobre un tema o por un periodista determinados, y mostrar estadsticas de uso de trminos. La base de datos podra ser el ncleo para ofrecer un servicio de recuperacin de informacin en lnea a clientes externos, distribuirse en cd-rom, o utilizarse para automatizar la publicacin de los ndices anuales". Sobre el modelo de normativa de indexacin, nicamente cabe advertir que debe dar indicaciones lo ms completas posibles sobre la poltica que se recomienda para los campos controlados: aplicacin de las normas ampliamente aceptadas por la comunidad profesional, como p. ej. la norma UNE sobre construccin de tesauros (UNE 50-106-90), as como ofrecer orientaciones sobre su utilizacin concreta en la base de datos que se ha diseado.

Por ejemplo, siguiendo el caso anterior, y teniendo en cuenta las caractersticas de la documentacin periodstica, el Modelo de Normativa de Indexacin debera proponer una indexacin postcoordinada, basada en la utilizacin de descriptores extrados de un lenguaje documental controlado que, en su da, puede llegar a ser un tesauro, y para elegir la forma de los descriptores, su nivel de especificidad, etc., se podra recomendar la mecionada norma UNE. Sobre los extremos relacionados con la descripcin documental no nos extenderemos aqu, y tan slo diremos que tales recomendaciones deben ser tan detalladas como sea posible. 11. Implantacin Una vez aprobado el modelo conceptual de la base de datos, puede procederse a su implantacin, la cual suele seguir el siguiente proceso: 1. Seleccin del sistema informtico (software + hardware) que pueda satisfacer los requerimientos del modelo conceptual y del modelo de normativa de indexacin. Primera instalacin y nombramiento de un administrador de la base de datos que, a partir de ahora, ser su mximo responsable. 2. Pruebas con una coleccin-test de documentos. 3. Cambios o ajustes necesarios. 4. Formacin del personal tcnico y de los usuarios finales. 5. Edicin de la versin 1 del Libro de estilo de la base de datos, que incluye la versin definitiva del modelo conceptual, la normativa de indexacin y, en su caso, a modo de anexo, la lista de descriptores autorizados o el tesauro. 6. Acciones de promocin, formacin de usuarios finales, etc. 12. Bibliografa Aenor. 1990. Norma UNE 50-106-90. Documentacin. Directrices para el establecimiento y desarrollo de tesauros monolinges. Madrid: AENOR, 1990, 47 p. Codina, Llus. 1994. Sistemes d'informaci documental: concepci, anlisi i disseny de sistemes de gesti documental amb microordinadors. Barcelona: Prtic, 1994, 224 p. Jackson, G. A. 1990. Introduccin al diseo de bases de datos relacionales. Madrid: Anaya, 1990, 203 p. Van Slype, Georges. 1991. Los lenguajes de indizacin: concepcin, construccin y utilizacin en los sistemas documentales. Madrid: Fundacin Germn Snchez Ruiprez, 1991, 198 p. Walker, D. W. 1991. Sistemas de informacin basados en ordenador.Barcelona: Marcombo, 1991. Yourdon, E. 1993. Anlisis estructurado moderno. Mxico: Prentice-Hall Hispanoamericana, 1993, 735 p. Llus Codina. Profesor de Documentacin. Universidad Pompeu Fabra. Barcelona

Вам также может понравиться