Академический Документы
Профессиональный Документы
Культура Документы
de colecciones digitalizadas
CICAC - Comisión Nacional de Energía Atómica – octubre 2010
Segunda reunión
Originales Tecnología
Selección originales, criterios
Dispositivos de captura = original manda
Evaluación de estado y formato
Tipos y formatos de imágenes digitales
Instrumentos descriptivos
Masters y copias de acceso
Copyright
Resolución (ppi), criterios
Profundidad de bits, criterios
Proyecto
Esquemas de nombramiento de archivos
Objetivos y público de referencia
Textos, OCR
Productos: imagen, texto, ambos
Sistema de acceso (web; otros medios)
Escala del proyecto
Hardware y software
En casa o por terceros
Requerimientos preservación digital
Ciclo de vida esperado
Encuadernados:
Encuadernados Procesar con cámara digital o escaner “planetario”
Evitar escaner de cama plana (arriesga la integridad del original)
Sueltos: se pueden capturar con escáneres comunes de cama plana, hasta
formato DIN A3 (límite de los escáneres de cama plana). Si son de gran
formato, se usan cámaras de alta resolución o escaneres especiales
Determinar el alcance de los instrumentos de descripción: a diferencia del
acceso analógico (físico), el acceso electrónico plantea exigencias mayores
para el descubrimiento y uso de los recursos de información.
Ejemplo
Determinación de la escala del proyecto
Disponibilidad actual y futura de recursos humanos y financieros
Arquitectura de hardware y software necesaria
“Familiaridad institucional” con las nuevas tecnologías
Como regla general
Involucrar a los profesionales de la informática, y alcanzar un
lenguaje en común con ellos: CRUCIAL
Empezar en pequeña escala (realizar experiencia de aprendizaje
tecnológico)
Se cometerán errores: si escala pequeña, recuperación sencilla
Aprender de los errores
Documentar la experiencia
Analizar las etapas del workflow: ¿qué se puede automatizar?
Fundamental para poder pasar del “proyecto piloto” a un régimen de
producción regular ----> compromiso institucional permanente
Dispositivos de captura
Dispositivo Originales / características
Escaner Flatbed A4 Sueltos, hasta tamaño DIN A4. No apto encuadernados delicados.
(de escritorio)
Escaner planetario
para mapas, sin
Escaner A3 tracción (A0)
Escaner de
microfilm
Cámara DSLR
digital “35mm” Escaner de
mapas con
tracción
Escaner Escaner de
Cámaras de formato
planetario negativos
medio con respaldo
digital para libros
(A1)
Alimentadores automáticos
Imágenes digitales
Las computadoras sólo procesan código binario; si queremos
tener versiones digitales de imágenes físicas (páginas de libros,
fotografías, documentos, etc.) necesitamos convertir esas
imágenes analógicas a un código binario procesable por
computadora.
A ese proceso se lo conoce como digitalización,
digitalización mediando algún
dispositivo de captura,
captura típicamente escáneres y cámaras
digitales.
Los datos binarios (ceros y unos = bits)
bits creados por el escaner
son enviados a la computadora, donde el usuario define un
modo o formato de disponer esos datos para poder guardarlos,
recuperarlos, editarlos, etc.
Hay muchísimos “arreglos” de datos, conocidos como formatos
gráficos, o formatos de imagen digital.
digital Los más comunes son
TIFF, JPG, GIF y PNG. Cada uno de ellos tiene su forma
particular de disponer los datos binarios para guardar la imagen TIF JPG
digital.
Hay dos variables importantes a tener en cuenta para poder definir imágenes
de mapa de bits, ambas asociadas a las decisiones a tomar en un proyecto de
digitalización:
Profundidad de bits:
bits cuántas tonalidades o colores del original se registran
Es el resultado de la elección del modo de escaneo (color, grises, etc.)
Resolución espacial:
espacial las medidas en píxeles de la imagen, alto por ancho.
Es el resultado de la elección de ppi o dpi que hacemos al momento de
escanear.
PPI
Píxeles por pulgada lineal. Tasa de muestreo del escaner. También expresado
como dpi. Define la resolución de captura con que se escanea una imagen
}
1 bit = 21 = 0 y 1, ON/OFF, Blanco y Negro, etc.
Sistema binario,
8 bits = 28 = 256 tonos (grises, color) basado en
24 bits = 224 = 16,7 millones de colores
potencias de 2
Resolución espacial
Tamaño de la imagen expresado en píxeles, ancho por alto. Esto se decide al
momento de escanear (ppi), previa evaluación de lo que necesita el original
según los objetivos del proyecto.
Ejemplo:
Observar que la resolución espacial (tamaño en píxeles) siempre es la misma. Lo que cambia es la
“densidad” de tonos o colores registrados = profundidad de bits
Más ejemplos
Decisiones...
¿Digitalizamos en
tonos de grises (8 bits) o en
bitonal (1 bit)?
Un acabado conocimiento de
las colecciones originales
ayuda a decidir cuánta
“densidad” de tonos es
adecuada para representar
cada ítem.
Formatos gráficos
A las imágenes que produce el dispositivo de captura hay que guardarlas en cierto tipo de
archivos electrónicos, conocidos como formatos gráficos.
gráficos Hay muchísimos, pero sólo
veremos los más utilizados en proyectos de digitalización y preservación digital. Además,
existen técnicas de compresión,
compresión que permiten reducir el tamaño de archivo (bytes)
bytes de las
imágenes digitales. Veremos cuáles son, y cuándo se sugiere su utilización.
* Soporte nativo en los browsers de Internet (IE, FireFox, Netscape, Opera, etc.): se pueden
ver directamente en Internet, sin plugins ni herramientas especiales
TIF puede manejar imágenes de 1, 8 y 24 bits (todas las que ya vimos), con y sin
compresión. Es el estándar internacional de facto para las imágenes master de
alta calidad.
JPG fue optimizado para manejar imágenes fotográficas color de 24 bits, aunque
también se defiende con las de 256 tonos de grises. Es pésimo para las bitonales
(mejor usar GIF). Usado ampliamente para las imágenes de consulta por Internet
o en redes internas. No para los masters.
GIF sólo maneja 256 colores o grises. No para los masters. Protegido por patente,
por eso se creó PNG, formato de uso libre (incluso más eficaz en manejo de
colores), que no logró todavía una amplia aceptación en las páginas de Internet.
GIF es una opción a considerar cuando se deben presentar imágenes bitonales por
Internet.
¿Cómo funciona?
Supongamos que el código de bits de un archivo de imagen empezara así:
A A A A C C C D D D D D (12 caracteres)
Lo que antes pesaba 12, ahora pesa 6, con una reducción del 50 % en la cadena
de caracteres del archivo digital. Esto es una metáfora didáctica, pero brinda una
idea del proceso.
Ejemplo típico: JPG (siempre pierde una parte de los datos originales de la
imagen. Cuanto más compresión se aplica, más pérdida se produce).
La pérdida puede ser de dos tipos: no visible,
visible o visible a simple vista
(degradación, mala calidad de imagen)
Observar:
No altera el
original, pero es
poco eficiente:
Reduce sólo un
21%
Observar:
Destruye bits del
original, pero es
muy eficiente:
Reduce un 95%
Observar:
Altas tasas de
compresión,
degradan imagen:
Reducen + 99%
1) Tasa 3:1 (154 KB) 2) Tasa 45:1 (3,47 KB) 3) Tasa 100:1 (1,54 KB)
Masters
Para mantener intacta la riqueza de información visual registrada por el dispositivo de
captura, se generan archivos relativamente grandes en bytes, que suelen guardarse
en TIF sin uso de compresión
Acceso:
Acceso Tamaño de píxeles según resolución monitor promedio
¿800 x 600?, ¿1024 x 768? ---> EVALUAR
Digitalización:
Digitalización rápidamente cientos o miles de imágenes (masters + copias
de resguardo, + derivadas + otras versiones + las del servidor Web --->
discos llenos, CDs, DVDs, etc.)
Estrategias básicas:
Incluir metadatos en el nombre
Sólo secuencias numéricas: secuencia paginación libro
O ambas, adecuando según estructura del original
http://www.ravignani.filo.uba.ar/ravigna/libros/biblio/t_cambios/tc000000.html?t=1&h=1
(pg. 1 “libro”)
Lic. Fernando Boro Fundamentos para la digitalización... 33
Fundamentos para proyectos de digitalización
Tecnología
Esquemas de nombramiento de archivos de imagen
Ejemplo: Revista Claridad – Hemeroteca – Biblioteca Nacional Argentina
arbabn-heme-xxxxxxxx-claridad-m-v001-n001-p0001.tif
Significado Valor
Entidad
.tif identifica el formato de archivo digital (en este caso, TIFF) Fijo
Hardware y software
Más allá de los debates entre los defensores del software libre, los que prefieren a Linux
antes que a MS Windows, y las diversas opciones de hardware (PC, Mac, medios de
almacenamiento, etc.), lo importante para la preservación digital no es si usamos Windows o
Linux, MS Office ú OpenOffice, sino el modo en que los usamos:
usamos
Mantener sistemas con arquitecturas abiertas, que faciliten futuras migraciones. Evitar
usos “propietarios” que pueden llevarnos a una vía muerta cuando desaparece el
fabricante del hardware o el software.
Mantenerse con productos de hardware y software (libre o comercial) utilizados
ampliamente en todo el mundo, ya que tienen mayores probabilidades de seguir
existiendo, actualizándose y brindando soporte.
Evaluar con prudencia las “novedades espectaculares” en software y hardware antes de
adoptarlas: pueden morir muy rápido.
Calculadora de digitalización
Planilla de Excel que permite calcular los tamaños en pixeles y pesos en bytes de
las imágenes digitales a producirse, conociendo sus medidas físicas.
calculadora