Вы находитесь на странице: 1из 219

UNIVERSIDADE FEDERAL DE SANTA CATARINA

PS-GRADUAO EM CINCIA DA INFORMAO

Jairo Wensing

PRESERVAO E RECUPERAO DE INFORMAO EM


FONTES DE INFORMAES DIGITAIS: ESTUDO DE CASO
DO GREENSTONE

Florianpolis
2010

Jairo Wensing

PRESERVAO E RECUPERAO DE INFORMAO EM


FONTES DE INFORMAES DIGITAIS: ESTUDO DE CASO
DO GREENSTONE

Dissertao
de
mestrado
apresentada Banca Examinadora
do Programa de Ps-Graduao em
Cincia da Informao do Centro
de Cincias da Educao da
Universidade Federal de Santa
Catarina, como requisito parcial
para a obteno do ttulo de Mestre
em Cincia da Informao, rea de
concentrao
Gesto
da
Informao, linha de pesquisa
Fluxos de Informao, sob a
orientao da Professora Doutora
Ursula Blattmann

Florianpolis
2010

Catalogao na fonte elaborada pela biblioteca da


Universidade Federal de Santa Catarina

W476p Wensing, Jairo


Preservao e recuperao de informao em fontes de
informaes digitais [dissertao] : estudo de caso do
GREENSTONE / Jairo Wensing ; orientadora, Ursula Blattmann.
- Florianpolis, SC, 2010.
1 v.: il., grafs., tabs.
Dissertao [mestrado) - Universidade Federal de Santa
Catarina, Centro de Cincias da Educao. Programa de PsGraduao em Cincia da Informao.
Inclui referncias
1. Cincia da informao. 2. Sistemas de recuperao
da informao. 3. Biblioteca Digital Greenstone - Fontes de
informao. I. Blattmann, Ursula. II. Universidade Federal
de Santa Catarina. Programa de Ps-Graduao em Cincia da
Informao. III. Ttulo.
CDU 02

Jairo Wensing

PRESERVAO E RECUPERAO DE INFORMAO EM


FONTES DE INFORMAES DIGITAIS: ESTUDO DE CASO
DO GREENSTONE
Dissertao de mestrado apresentada ao Programa de PsGraduao em Cincia da Informao do Centro de Cincias da
Educao da Universidade Federal de Santa Catarina em cumprimento a
requisito parcial para a obteno do ttulo de Mestre em Cincia da
Informao, rea de concentrao Gesto da Informao, linha de
pesquisa Fluxos de Informao.
APROVADA PELA COMISSO EXAMINADORA
Em Florianpolis, de 12 de julho de 2010.
___________________________________________________
Prof. Dr. Lgia Maria Arruda Caf
Coordenadora PGCIN/UFSC
Banca Examinadora:
___________________________________________________
Orientadora: Prof. Dr. Ursula Blattmann - PGCIN/UFSC
Orientadora
___________________________________________________
Prof. Dr. Delsi Fries Davok - UDESC
Examinadora
___________________________________________________
Prof. Dr. Rosngela Schwarz Rodrigues - PGCIN/UFSC
Examinadora

Dedico este trabalho aos meus pais pela vida, educao,


exemplo e amor incondicional. Aos meus filhos, a quem amo
incondicionalmente, pela compreenso pela minha ausncia nos seus
momentos de lazer durante a realizao deste trabalho. A minha amada
esposa Lcia, por tudo o que ela na minha vida, pela sua pacincia e
incentivo para concluir este trabalho.

AGRADECIMENTOS
Deus, por sempre estar presente em todos os momentos
decisivos de minha vida, e ao apoio de algumas pessoas que
contriburam direta ou indiretamente para a concretizao deste
trabalho. Por isso, meus sinceros agradecimentos para:
A Professora Dr. rsula Blattmann, por me acolher como
orientadora deste trabalho, pela competncia, dedicao, amizade,
apoio e motivao, e por ser este exemplo de professora.
A Professora Dr. Lgia Maria Arruda Caf pela competncia
com que administra o PGCIN, e pelo incentivo para a concluso deste
trabalho, e por sua participao na fase de qualificao e suas
contribuies a este trabalho.
A Professora Dr. Rosngela Schwarz Rodrigues, e por sua
participao na fase de qualificao e defesa da dissertao, e pelas e
suas contribuies a este trabalho.
A Professora Dr. Delsi Fries Davok, e por sua participao na
defesa da dissertao, e pelas e suas contribuies a este trabalho.
Universidade Federal de Santa Catarina, especialmente ao
Programa de Ps-Graduao em Cincia da Informao, aos colegas de
turma, professores e tcnicos administrativos do PGCIN.
As pessoas participantes da pesquisa, pela gentileza de fornecer
as informaes e dispor do tempo necessrio para responder os
questionrios.
Aos amigos da UDESC pelo incentivo para concluso deste
trabalho.

A preservao digital no envolve a


reteno do objeto informacional em si, mas
tambm do seu significado. Assim sendo, fazse necessrio que as tcnicas de preservao
sejam capazes de compreender e recriar a
forma original ou a funo do objeto de
forma que sejam asseguradas sua
autenticidade e acessibilidade.
Sayo (2007, p. 117)

Wensing, Jairo. Preservao e recuperao de informao em fontes


de informaes digitais: estudo de caso do greenstone. 2010. 219 p.
Dissertao (Mestrado em Cincia da Informao) Programa de Ps
Graduao em Cincia da Informao, Universidade Federal de Santa
Catarina, Florianpolis, 2010.
RESUMO
Esta dissertao contribui para a Cincia da Informao, pois aprofunda
e realiza estudos na rea de fontes de informao, bibliotecas digitais,
recuperao da informao e preservao digital tendo como foco o
formato de arquivos digitais. O estudo teve como objetivo principal
analisar os recursos disponveis na Biblioteca Digital Greenstone (BDG)
para preservao lgica de documentos digitais com foco no formato de
arquivos e a recuperao de informao. Para atingir os objetivos
especficos, adotou-se uma metodologia baseada na anlise exploratria
e descritiva do tema. Para anlise, foi instalado o software Greenstone
3.04, e criado a coleo PGCIN que contempla as dissertaes do
programa de Mestrado em Cincia da Informao da UFSC. Aps a
realizao da pesquisa, concluiu-se que a Biblioteca Digital Greenstone
est preparada para atender aos requisitos de preservao lgica de
arquivos digitais, pois aceita formatos de arquivos proprietrios com
especificao fechada, proprietrios com especificao aberta, e no
proprietrios com especificao aberta, alm de ser uma plataforma
aberta e que permite o desenvolvimento de plug-ins para formatos de
arquivos.
Palavras-chaves: Fontes de Informao. Biblioteca Digital Greenstone.
Preservao Digital. Recuperao de Informao

Wensing, Jairo. Preservation and retrieval of information from


digital information Sources: a case study of greenstone. 2010. 219 p.
Thesis (Master in Information Science) Information Science Postgraduate Program, Santa Catarina Federal University, Florianpolis,
2010.
ABSTRACT
This dissertation contributes to the field of Information Science,
deepening and conducting a study in the area of information sources,
digital libraries, information retrieval and digital preservation with a
focus on the format of digital files. This study aims to analyze the main
features available in Greenstone Digital Library (GDL) for the logic
preservation of digital documents focusing on file format and
information retrieval. To achieve the desired goals, an exploratory
methodology based on descriptive analysis of the subject was used. For
analysis, Greenstone 3.04 was installed, and a collection that includes
PGCIN and the Master's theses of the program in Information Science of
UFSC was created. Upon completion of the research it was concluded
that the Greenstone Digital Library is prepared to meet the requirements
of logic preservation of digital files, because accepted proprietary file
formats with file formats specifying closed owners, owners with open
specification, and open specification with non-owners besides being an
open platform that enables the development of plug-ins for file formats.
Keywords: Information Sources. Greenstone Digital Library. Digital
Preservation. Information Retrieval.

Wensing, Jairo. Conservacin y recuperacin de informacin sobre


funtes de informacin digital: un estudio de caso de greenstone.
2010. 219 p. Disertacin (Mster en Ciencia de la Informacin) Programa de Postgrado en Ciencia de la Informacin - Universidade
Federal de Santa Catarina, 2010.
RESUMEN
Esta disertacin contribuye a la Ciencia de la Informacin acentuando a
medida que se lleva a cabo el estudio en el rea de funtes de
informacin, bibliotecas digitales, recuperacin de la informacin y la
conservacin digital con un enfoque en el formato de archivos digitales.
El estudio tiene como objetivo analizar las principales caractersticas
disponibles en la Biblioteca Digital Greenstone (BDG) para la
preservacin lgica de documentos digitales con un enfoque en formato
de archivo y recuperacin de informacin. Para lograr los objetivos
deseados fu adoptada una metodologa basada en el anlisis
exploratrio y descriptivo de los sujetos, con la ejecucin de un estudio
de caso. Software Greenstone 3.04 fu instalado para el anlisis y una
coleccin que incluye las disertaciones PGCIN del programa de
Magster en Ciencias de la Informacin, UFSC. Una vez terminada la
investigacin se concluy que la Biblioteca Digital Greenstone est
dispuesta a cumplir los requisitos de preservacin lgica de archivos
digitales, y por lo tanto acepta formatos de archivos con formatos de
archivo propietrios cerrados, propietrio abierto y no propietrio con
especificacin abierta. Adems es una plataforma abierta que permite el
desarrollo de plug-ins para formatos de archivo.
Palabras claves: Fuentes de Informacin. Greenstone Digital Library.
Preservacin Digital. Recuperacin de Informacin.

LISTA DE FIGURAS
Figura 1: 1990 Windows Explorer do Windows Seven da Microsoft .................41
Figura 2: 1990 - O marco do PostScript ............................................................52
Figura 3: 1991- Projeto Camelot........................................................................53
Figura 4: 1992 - divulgado o formato PDF ........................................................53
Figura 5: 1993 - Inicia-se a gerao Acrobat .....................................................54
Figura 6: 1994 - Lanado a verso do Acrobat 2.0 ............................................54
Figura 7: 1994 - PDF na Receita Federal USA ..................................................54
Figura 8: 1994 - lanado o Acrobat Reader - leitor gratuito para PDF ...........55
Figura 9: 1995 - plug-in para o Nestscape .........................................................55
Figura 10: 1996 - Acrobat 3.0 ............................................................................55
Figura 11: 1997 Uso do byte do duplo............................................................56
Figura 12: 1999 - Novos recursos de segurana para o formato PDF ................56
Figura 13: 1999 - ANSI publica padro PDF .....................................................56
Figura 14: 2000 - PDF para acesso a e-book .....................................................57
Figura 15: 2003 - Suporte a XML ......................................................................57
Figura 16: 2005 - Ano publicao PDF/A .........................................................58
Figura 17: Arquivo gerado no formato PDF/A ..................................................59
Figura 18: 2007 - Adobe libera a especificao PDF 1.7 para a AIIM ...............60
Figura 19: 2007 - Suporte para envios SAFE .....................................................60
Figura 20: 2007 - Liberada a especificao PDF/E padro para dados de
engenharia. .........................................................................................................60
Figura 21: 2008 - PDF aprovado como padro internacional ............................61
Figura 22: 2008 - Oramento dos USA so publicados em PDF. ......................61
Figura 23: Uma taxonomia de modelos de Recuperao de Informao ...........70
Figura 24: Estrutura de arquivo invertido. .........................................................79
Figura 25: Estrutura de arquivo invertido dividido em quatro blocos................79
Figura 26: Tela - progresso da instalao ........................................................112
Figura 27: Tela de aviso de segurana .............................................................113
Figura 28: Tela de preparao de instalao do Greenstone ............................113
Figura 29: Tela de seleo de linguagem de preferncia na instalao da BDG
.........................................................................................................................114
Figura 30: Tela de direitos autorais .................................................................115
Figura 31: Tela de seleo do local de instalao ............................................115
Figura 32: Tela de seleo dos componentes ...................................................116
Figura 33: Tela configurao do Apache Tomcat ............................................117
Figura 34: Tela que mostra o progresso de instalao do Greenstone .............117
Figura 35: Tela de criao da coleo do PGCIN ............................................121
Figura 36: Tela download da coleo do PGCIN ............................................122
Figura 37: Tela importao de documentos .....................................................123
Figura 38: Administrao de metadados ..........................................................123
Figura 39: Tela para adicionar plug-ins de formato de arquivo digital ............133
Figura 40: Tela configurao de plug-ins ........................................................134

Figura 41: Tela de opo de indexao ........................................................... 135


Figura 42: Tela de opo de indexao MGPP, MG e LUCENE .................... 135
Figura 43: Tela de associao de lngua na partio de indexao .................. 136
Figura 44: Tela configurao de browsing classifiers ..................................... 137
Figura 45: Tela incio de importao de documentos ...................................... 138
Figura 46: Tela fim de importao de documentos.......................................... 138
Figura 47: Tela aba format - dados gerais ....................................................... 139
Figura 48: Tela aba format - itens de pesquisa no menu.................................. 139
Figura 49: Tela aba format recursos do formato ........................................... 140
Figura 50: Tela aba format traduo de textos.............................................. 140
Figura 51: Tela de acesso a todas as colees instaladas ................................. 141
Figura 52: Tela inicial de consulta da coleo PGCIN na BDG ...................... 141
Figura 53: Tela escolha do idioma da interface e preferncias de impresso .. 142
Figura 54: Tela busca pelo texto completo (search) ........................................ 142
Figura 55: Tela dissertaes ordenadas por ttulo............................................ 143
Figura 56: Tela dissertaes ordenadas por autor ............................................ 143
Figura 57: Tela dissertaes do aluno.............................................................. 144
Figura 58: Tela dissertaes ordenadas por ano defesa dissertao................. 144
Figura 59: Tela visualizao contedo modo texto ......................................... 145
Figura 60: Tela orientadores por ordem alfabtica .......................................... 145
Figura 61: Tela de dissertaes ao qual o orientador est vinculado. .............. 146
Figura 62: Tela de visualiza linhas de pesquisa. .............................................. 146
Figura 63: Tela dissertaes vinculadas linha de pesquisa selecionada ........ 147
Figura 64: Tela principal da Biblioteca Digital Greenstone ............................ 156
Figura 65: Tela inicial da Coleo PGCIN ...................................................... 157
Figura 66: Tela de preferncias de apresentao e de busca ............................ 158
Figura 67: Tela preferncias de pesquisa ......................................................... 159
Figura 68: Recuperao de Informao a partir de palavras ............................ 159
Figura 69: Indexadores do Greenstone ............................................................ 160
Figura 70: Tela metadados Greenstone ........................................................... 161
Figura 71: Tela editor de metadados................................................................ 161
Figura 72: Tela dissertaes por ordem alfabtica de ttulo ............................ 162
Figura 73: Tela seleo de visualizao dissertao por ttulo ........................ 163
Figura 74: Tela dissertaes por ordem alfabtica de autor ............................. 163
Figura 75: Tela seleo de visualizao dissertao por autor......................... 164
Figura 76: Tela dissertaes por ordem alfabtica de orientador..................... 164
Figura 77: Tela seleo de visualizao dissertao por orientador ................ 165
Figura 78: Tela dissertaes por ordem alfabtica por linha de pesquisa ........ 165
Figura 79: Tela seleo de visualizao dissertao por linha pesquisa .......... 166
Figura 80: Tela dissertaes por ordem ano pesquisa...................................... 166
Figura 81: Tela seleo de visualizao dissertao por ano ........................... 167

LISTA DE QUADROS
Quadro 1: Clculo de relevncia ........................................................................73
Quadro 2: Situaes relevantes para diferentes estratgias de pesquisa ............98
Quadro 3: Plug-ins especiais nvel superior ..................................................129
Quadro 4: Plug-ins especiais nvel superior ..................................................129
Quadro 5: Plug-ins Base ..................................................................................130
Quadro 6: Plug-ins auxiliares ..........................................................................131
Quadro 7: Arquivos gerados para compor a coleo PGCIN ..........................149
Quadro 8: Arquivos que foram importados para a coleo PGCIN no Greenstone
.........................................................................................................................149
Quadro 10: Plug-ins de utilizados de nvel superior ........................................152
Quadro 10: Plug-ins de utilizados de nvel superior ........................................153
Quadro 11: Plug-ins de utilizados de nvel superior ........................................155

LISTA DE GRFICOS
Grfico 1: Relao Preciso x Revocao .........................................................86
Grfico 2: Dimenso LSI ...................................................................................95

LISTA DE ABREVIATURAS E SIGLAS


AGLS - Australian Government Locator Service
AIIM - Association for Information and Imagem Management
ANSI - American National Standards Institute
BDG Biblioteca Digital Greenstone
CAPES - Coordenao de Aperfeioamento de Pessoal de Nvel
Superior
CCSDS - Consultative Comitee for Space Data Systems
COMDEX - Computer Dealers' Exhibition
CONARQ - Conselho Nacional de Arquivos
CONSEGI - Congresso Internacional Sociedade e Governo Eletrnico
DCMI - Dublin Core Metadata Initiative
DLF - Digital Library Federation
DOC - Extenso de nome para arquivos criados em editores de textos
Word da empresa Microsoft.
DOCX Formato de arquivo Open XML utilizado pelo Microsoft Word
DROID Digital Record Object IDentification
e-Ping - Padres de Interoperabilidade de Governo Eletrnico
FSF - Free Software Foundation
GPL - General Public License
HD Hard Disk
IEC - International Electrotechnical Commission
ISO - International Organization for Standardization
LAN - Local Area Network
LSA Anlise Semntica Latente
LSI Indexao Semntica Latente
MoReq - Model Requirements for the Management of Electronic
Documents and Records
NARA - National Archives e Records Administration
NBR Norma Brasileira
NISO - National Information Standards Organization
NZDL - New Zealand Digital Library Project
NZGLS -New Zealand Government Locator Service
OAIS - Open Archival Information System
OASIS Organization for the Advancement of Structured Information
Standards
OCR - Optical Character Recognition
ODF - Open Document Format

PDF - Portable Document Format


PDF/A - Portable Document Format Arquive
PPT Formato de arquivo utilizado pelo Microsoft Powerpoint
RTF Formato de arquivo RTF Rich Text Format
SAFE - Signatures and Authentication for Everyone
SRI Sistemas de Recuperao da Informao
SVD Decomposio de Valores Singulares - Singular Value
Decomposition
TIC Tecnologia da Informao e Comunicao
TREC - Text REtrieval Conference
UDESC Universidade do Estado de Santa Catarina
UFSC - Universidade Federal de Santa Catarina
UNESCO - United National Educational Scientific and Cultural
Organization
WWW Word Wide Web
XLS Formato de arquivo Planilha Microsoft Excel
XMP - Extensible Metadata Platform

SUMRIO

1 INTRODUO ................................................................................ 29
1.1 JUSTIFICATIVAS ............................................................................... 31
1.1.1 Justificativa Pessoal ..................................................................... 31
1.1.2 Justificativa Cientfica.................................................................. 31
1.1.3 Justificativa Econmica ............................................................... 32
1.1.4 Justificativa Social ....................................................................... 32
1.2 PROBLEMA DE PESQUISA ................................................................. 33
1.3 OBJETIVOS ....................................................................................... 34
1.3.1 Objetivos Gerais........................................................................... 34
1.3.2 Objetivos Especficos ................................................................... 34
1.4 ORGANIZAO DA DISSERTAO .................................................... 35
2 FUNDAMENTAO TORICA................................................... 36
2.1 FONTES DE INFORMAO E BIBLIOTECAS DIGITAIS ........................ 36
2.2 PRESERVAO DA INFORMAO DIGITAL....................................... 42
2.3 FORMATO DE ARQUIVOS.................................................................. 47
2.4 FORMATO DE ARQUIVOS ABERTOS.................................................. 48
2.5 FORMATO DE ARQUIVOS ABERTOS ODF ......................................... 51
2.6 FORMATO DE ARQUIVOS ABERTOS PDF/A...................................... 52
2.7 METADADOS XMP........................................................................... 62
2.8 A RECUPERAO DA INFORMAO E A CINCIA DA INFORMAO. 64
2.9 RECUPERAO DA INFORMAO..................................................... 66
2.9.1 Definio de Recuperao de Informao ................................... 68
2.9.2 Modelos de Recuperao de informao ..................................... 70
2.9.3 Modelo Booleno ........................................................................... 70
2.9.4 Modelo Vetorial............................................................................ 72
2.9.5 Modelo Probabilistico .................................................................. 74
2.10 INDEXAO AUTOMTICA DE TEXTOS .......................................... 77
2.10.1 Arquivos Invertidos .................................................................... 78
2.10.2 Identificao das Palavras ......................................................... 80
2.10.3 Remoo de Stopwords .............................................................. 81
2.10.4 Normalizao Morfolgica (Stemming) ..................................... 81
2.10.5 Identificao de Termos Compostos .......................................... 82
2.11 CLCULO DE RELEVNCIA ............................................................ 83
2.12 AVALIAO DA RECUPERAO DA INFORMAO ......................... 84
2.13 INDEXAO SEMNTICA LATENTE ................................................ 86

3 PROCEDIMENTOS METODOLGICOS .................................. 96


3.1 TIPO DA PESQUISA ........................................................................... 96
3.2 ESTUDO DE CASO ............................................................................. 97
3.2 COLETA DE DADOS .......................................................................... 99
3.3 UNIDADE DE ANLISE ....................................................................101
3.5 UNIVERSO DA PESQUISA .................................................................102
3.6 LIMITAES DA PESQUISA..............................................................103
3.7 ETAPAS DA PESQUISA .....................................................................103
3.8 PROCEDIMENTOS PARA COLETA DE DADOS ...................................104
4 GREENSTONE ...............................................................................105
4.1 OBTENDO O GREENSTONE VERSO 3.04 .........................................110
4.2 INSTALAO DO GREENSTONE VERSO 3.04 .................................111
4.3 CONSTRUINDO COLEO DE DISSERTAES DO PGCIN ................120
5 ANLISE E INTERPRETAO DOS RESULTADOS ............148
5.1 ANLISE DOS FORMATOS DE ARQUIVOS DA COLEO PGCIN......148
5.1.1 Anlise dos formatos de arquivos com especificaes proprietrias
e fechadas no Greenstone ....................................................................152
5.1.2 Anlise dos formatos de arquivos com especificaes proprietrias
e abertas no Greenstone ......................................................................153
5.1.3 Anlise dos formatos de arquivos com especificao noproprietria e aberta no Greenstone ...................................................154
5.2 ANLISE DA RECUPERAO DA INFORMAO NO GREENSTONE ...155
6 CONCLUSES ...............................................................................168
6.1 CONCLUSES ..................................................................................168
6.2 SUGESTES .....................................................................................171
6.3 RECOMENDAES ..........................................................................171
REFERNCIAS BIBLIOGRFICAS .............................................174
ANEXO A: TELA DO RESULTADO ANLISE DO DROID .....186
ANEXO B RELATRIO GERADO PELO SOFTWARE DROID
.............................................................................................................187
ANEXO C NATIONAL ARCHIVES FORMATO FMT/111 ..216
ANEXO D NATIONAL ARCHIVES FORMATO FMT/17 ....217
ANEXO E NATIONAL ARCHIVES FORMATO FMT/18 ....218
ANEXO F NATIONAL ARCHIVES FORMATO FMT/19.....219

29

1 INTRODUO
Aps a Segunda Grande Guerra Mundial, o uso de computadores
inicialmente restrito basicamente para fins militares expandiu a sua a
rea de abrangncia, ou seja, passou a ser utilizada em reas como a
educao, sade, segurana, empresas pblicas e privadas, e em diversos
tipos de organizaes. At a dcada de 1970, devido a sua complexidade
e ao seu alto custo, o acesso aos computadores era restrito aos
profissionais que trabalhavam em Centro de Processamento de Dados CPD, profissionais estes que se assemelhavam mais a cientistas
trabalhando em laboratrio, inclusive tinham um status diferenciado
onde trabalhavam.
Com a disseminao dos computadores pessoais, houve uma
descentralizao das atividades informatizadas. Tal disseminao foi
potencializada com o advento da tecnologia de rede, que evoluiu
rapidamente das redes locais para as metropolitanas, nacionais e globais,
sendo a Internet a maior delas. Com a popularizao das Tecnologias da
Informao e Comunicao, ocorreu um aumento considervel dos
estoques de informao, principalmente as armazenadas em meios
digitais. Com o aumento destes estoques de informao ficou mais
evidente o problema da preservao e recuperao das informaes de
documentos no formato digital.
O interesse na preservao e recuperao de informao
aumentou consideravelmente com a popularizao do uso das
tecnologias de informao e comunicao (TIC) ocorrida a partir dos
anos 1990, onde ocorreu uma mudana considervel nos mecanismos de
registro e de comunicao da informao nas instituies pblicas e
privadas. Os documentos produzidos no decorrer das atividades dessas
instituies, at ento em meio convencional, assumem novas
caractersticas, isto , passam a ser gerados em ambientes eletrnicos,
armazenados em suportes magnticos e pticos, em formato digital.
Os documentos digitais trouxeram uma srie de vantagens na
produo, transmisso, armazenamento e acesso, que por sua vez,
acarretaram outros problemas. A facilidade de criar e transmitir
documentos traz como consequncia a informalidade na linguagem nos
procedimentos administrativos.
O desenvolvimento das tecnologias de informao e
comunicao, e em especial o desenvolvimento da Internet, tem
contribudo para um ambiente completamente novo, onde os papeis das
bibliotecas tradicionais esto sendo amplamente modificados. O

30

potencial das redes de informao, de cooperao e de digitalizao


modifica substancialmente as funes de recuperao, preservao e
disseminao da informao e do conhecimento.
Com o crescimento dos estoques de informao em formato
digital, fontes de informao como bibliotecas, que s existiam em
formato convencional, ou seja, baseado em material impresso,
comearam a migrar para um suporte digital. Observa-se tambm uma
forte dissociao entre o contedo informacional e o suporte de
armazenamento.
Esta migrao de suporte digital tambm ocorreu nas bibliotecas
tradicionais, inclusive apareceram novos conceitos de bibliotecas como a
eletrnica, virtual e por fim consolidando-se como biblioteca digital. Em
decorrncia dessa evoluo, observa-se que tambm ocorreu uma
mudana na funo de mediao no acesso a informao.
As bibliotecas digitais so exemplos de iniciativas que
contemplam os conceitos relacionados preservao digital e
recuperao da informao, bem como, podem ser vistas como grandes
repositrios de produo intelectual, sobretudo no que diz respeito
disseminao intelectual de grandes campos de pesquisas cientficas em
diversas reas de conhecimento.
Os conceitos de bibliotecas digitais, recuperao de informao, e
preservao digital possuem um vnculo indissocivel com a cincia da
informao com pode-se observar nos estudos realizados por Cientistas
da rea da Cincia da Informao, como Barreto (1999, 2000),
Blattmann (1999, 2001, 2003, 2006), Campello (2003,2005), Crte
(2002), Cunha (2001, 2005), Ferneda (2003), Ferreira (2006), Kafure
(2004), Kuramoto (2005), Leite (2006), Lopes (2004), Machado (2006),
Marcondes (2005), Mrdero Arellano (2004, 2006), Sayo (2007), entre
outros.
A UNESCO promove o uso de tecnologias de informao e
comunicao para o desenvolvimento econmico e social
(http://unesdoc.unesco.org/images/0014/001473/147330por.pdf), sendo
que o apoio a Biblioteca Digital Greenstone umas destas aes.
O software GREENSTONE uma ferramenta para o
desenvolvimento e distribuio de colees de bibliotecas digitais,
desenvolvido pela Universidade de Waikato na Nova Zelndia. um

31

software de cdigo aberto, disponvel atravs dos termos de licena


pblica geral do GNU - General Public License1..
1.1 Justificativas
O desenvolvimento dessa pesquisa se justifica por motivos
pessoais, econmicos e pela contribuio Cincia da Informao
especialmente rea de Fontes de Informao, Preservao e
Recuperao de Informao, e por fim, pela contribuio sociedade.
1.1.1 Justificativa Pessoal
A motivao pessoal para realizao dessa pesquisa deve-se ao
fato de o autor trabalhar como Analista de Sistemas e ocupa o cargo de
Secretrio de Tecnologia de Informao e Comunicao na Universidade
do Estado de Santa Catarina. Cabe destacar que a motivao para
realizao de um projeto de pesquisa depende do contexto no qual o
pesquisador est inserido visando satisfazer uma curiosidade ou uma
necessidade pessoal.
Sabe-se que toda pesquisa, anlise ou estudo, tem como ponto de
partida uma situao percebida como problemtica, ou seja, que causa
desconforto e que, em consequncia, exige uma explicao. Essa
situao problemtica surge quando h defasagem entre a concepo ou
explicao de um fenmeno e a observao ou a percepo ou
explicao de um fenmeno e a observao ou a percepo da realidade.
Sendo assim, a partir dessa defasagem que se origina o objeto da
pesquisa.
1.1.2 Justificativa Cientfica
Sob o ponto de vista de contribuio a Cincia da Informao
mais especificamente sobre Fontes de Informao, Bibliotecas Digitais,
Preservao e Recuperao da informao, a pesquisa aprofunda estudos
nesta rea tendo como foco na preservao e recuperao de informao.

GNU General Public License (Licena Pblica Geral), GNU GPL ou simplesmente GPL, a
designao da licena para software livre idealizada por Richard Stallman no final da dcada de
1980, no mbito do projeto GNU da Free Software Foundation (FSF) <http://www.fsf.org/>.

32

Os conhecimentos cientficos podem se perder caso no ocorra


devida documentao da sua prtica, bem como, no se adote medidas
visando preservao e recuperao de informao.
Este estudo por meio de uma pesquisa exploratria pretende
buscar respostas para o problema de pesquisa. Um objeto de pesquisa
assim uma interrogao explcita em relao a um problema a ser
examinado e analisado com o fim de obter novas informaes
(Contandriopoulos apud Fortin et al., 1999, p. 19).
1.1.3 Justificativa Econmica
Sob o aspecto econmico, essa pesquisa se justifica pelo fato de o
processo de preservao e recuperao de informao ter alto custo para
as organizaes. Este custo varia de organizao para organizao,
sendo que em alguns casos, quando a informao no encontrada, ou
se o tempo de recuperao no atende s expectativas e, principalmente
se a informao no preservada, esse processo pode trazer um forte
impacto econmico para as mesmas, inclusive podendo inviabiliz-las.
1.1.4 Justificativa Social
A contribuio dessa pesquisa sociedade se d pela expectativa
de melhorias no processo de preservao e de recuperao de
informao em fontes de informao como as bibliotecas digitais,
ajudando assim as pessoas, empresas, organizaes a lidarem com
grandes estoques de informao.
Conforme consta no seu stio na internet, a UNESCO promove
aes de apoio s bibliotecas h mais de 60 anos, pois considera que
estas so essenciais ao fluxo livre de ideias e a manuteno e aumento da
disseminao do conhecimento. Uma das reas de maior prioridade da
UNESCO a promoo do uso de tecnologias de informao e
comunicao para o desenvolvimento econmico e social. Os avanos
tecnolgicos em comunicao e informao devem ser apropriados pela
sociedade para facilitar a modernizao da Gesto do Estado, a
participao nas decises e a Incluso Social, sendo que o apoio a
Biblioteca Digital Greenstone umas dessas aes.

33

1.2 Problema de Pesquisa


Com a disseminao do uso de computadores, houve
crescimento das informaes armazenadas no formato digital. Os
documentos esto, de forma crescente, nascendo ou migrando de outros
meios para um formato digital, e com isso est surgindo preocupao
com a preservao e recuperao de informaes digitais. Em fontes de
informaes digitais como a Biblioteca Digital Greenstone, o problema
no diferente.
Com o presente estudo espera-se obter respostas para o seguinte
problema da pesquisa:
Os recursos disponveis na Biblioteca Digital Greenstone so
suficientes para realizar a preservao lgica dos documentos digitais e a
recuperao de informao?

34

1.3 Objetivos
Os objetivos do presente estudo esto divididos em geral e
especficos.
1.3.1 Objetivos Gerais
Esta pesquisa tem o objetivo principal de analisar os recursos
disponveis na Biblioteca Digital Greenstone para preservao lgica de
documentos digitais com foco no formato de arquivos e a recuperao da
informao.
1.3.2 Objetivos Especficos
Os objetivos especficos so:
a) Estudar os modelos clssicos de recuperao de
informao;
b) Identificar os recursos disponveis para recuperao de
informao na BDG;
c) Identificar os pontos fortes e pontos fracos da BDG; e,
d) Analisar a questo de preservao de documentos
digitais sob o ponto de vista lgico na Biblioteca
Digital Greenstone.
A partir dos objetivos supracitados tem-se a expectativa de
identificar como o software de Biblioteca Digital Greenstone preserva as
informaes e recupera informao no formato digital.

35

1.4 Organizao da Dissertao


A organizao dessa dissertao utiliza a apresentao em
captulos.
O presente texto parte do captulo introdutrio, que apresenta
tambm justificativa, a definio do problema e os objetivos
pretendidos.
No segundo captulo, apresentada uma fundamentao terica,
na qual, auxiliada pela reviso de literatura, toma-se conhecimento
sobre:
a) Fontes de Informao e Bibliotecas Digitais;
b) Preservao da Informao Digital;
c) Formato de Arquivos;
d) Formato de Arquivos Abertos;
e) Formato de Arquivos Abertos ODF e PDF/A;
f) Metadados XMP;
g) Recuperao da Informao;
h) Recuperao da Informao e a Cincia da Informao;
i) Modelos de Recuperao da Informao;
No terceiro captulo encontra-se a metodologia utilizada para
desenvolvimento e aplicao do presente trabalho.
O quarto captulo apresenta a Biblioteca Digital Greenstone.
O quinto captulo apresenta a anlise e a interpretao dos
resultados.
O sexto captulo apresenta as concluses e sugestes.
Ao final esto as referncias, apndices e anexos.

36

2 FUNDAMENTAO TORICA
A reviso da literatura pretende mostrar como o objeto da
pesquisa se insere no campo dos conhecimentos sobre o tema, e como
estes conhecimentos vo permitir responder as questes da pesquisa.
A atividade cientfica resulta de um processo cumulativo de
aquisio do conhecimento. Posto isto, o processo de reviso de
literatura sobre o tema iniciou com a consulta de fontes primrias e
secundrias de informao, ou seja, artigos cientficos, livros, teses e
memorandos e documentos oficiais, verificando suas bibliografias e com
isto ampliando as listas de trabalhos consultados.
Esta reviso de literatura permite compreender e ou concluir a
situao em que esto inseridos os conhecimentos sobre o objeto da
pesquisa apresentada, comeando por Fontes de Informao,
Preservao Digital, Recuperao da Informao e a Cincia da
Informao, Recuperao da Informao e Modelos de Recuperao da
Informao.
2.1 Fontes de Informao e Bibliotecas Digitais
At fins dos anos de 1990, fontes de informao era sinnimo de
formato impresso, sendo que a quantidade de informaes disponveis
em formato de papel era extremamente maior do que as informaes
disponveis em formato digital. Com a disseminao do uso de
computadores para trabalho e lazer, bem como, com o aumento da
capacidade de armazenamento e de recuperao de informaes, e
principalmente com o advento da internet, observa-se que fontes de
informao viraram sinnimo de informao no formato digital.
As mdias onde esto localizadas as fontes de informao foram
evoluindo com o tempo, ou seja, da pedra, papiro, papel, fotografias e
microfilme, para os mais recentes dispositivos, como fitas magnticas,
fitas K7, discos flexveis, fitas VHS, disquetes, discos rgidos (HD),
Compact Disc (CDs), videolaser, DVDs e pen-drives.
Muitas informaes existem somente em formato de papel, outras
informaes esto em papel e em formato digital, e outras somente em
formato digital. Observa-se que as informaes de vrias formas esto
migrando para o formato digital, quer seja pela digitalizao de
documentos, ou sendo criadas originalmente em formato digital.

37

De acordo com a norma NISO2 h dois tipos de objetos digitais a


serem considerados em bibliotecas digitais:
a) Os objetos produzidos como representao ou
substitutos de materiais em alguma forma analgica
livros impressos, manuscritos, peas de museus, entre
outros; e,
b) Os objetos originalmente nascidos digitais, como, por
exemplo, fotografias digitais, livro eletrnico, bases de
dados, websites, entre outros.
Segundo Cunha 2001, os documentos ou fontes de informao
podem ser classificados da seguinte forma:
Fontes Primrias Contm informaes originais ou, pelo
menos, novas interpretaes de fatos ou ideias j conhecidas e no
submetidas interpretao ou condensao.
Exemplos de fontes de informao primrias:
a) Congressos e conferncias;
b) Legislao;
c) Nomes e marcas comerciais;
d) Normas tcnicas;
e) Patentes;
f) Peridicos;
g) Projetos e pesquisa em andamento;
h) Relatrios tcnicos;
i) Teses e dissertaes; e,
j) Tradues.
Fontes Secundrias Tm a funo de facilitar o uso do
conhecimento disperso nas fontes primrias; apresentam a informao
filtrada e organizada, de acordo com o arranjo definido, dependendo da
finalidade da obra. Tambm so considerados os produtos de anlise de
fontes primrias submetidas descrio, condensao ou qualquer tipo
de reorganizao.
Exemplos de fontes de informao secundria:
a) Bases de dados e bancos de dados;
b) Bibliografias e ndices;
c) Biografias;
d) Catlogos de bibliotecas;
2

National Information Standards Organization - http://www.niso.org/

38

e)
f)
g)
h)
i)
j)
k)
l)
m)
n)
o)
p)
q)
r)

Centros de pesquisa e laboratrios;


Dicionrios e enciclopdias;
Dicionrios bilngues e multilngues;
Feiras e exposies;
Filmes e vdeos;
Fontes histricas;
Livros;
Manuais;
Internet;
Museus, herbrios, arquivos e colees cientficas;
Prmios e honrarias;
Redao tcnica e metodologia cientfica;
Siglas e abreviaturas; e,
Tabelas, unidades, medidas e estatstica.

Fontes Tercirias Tem a funo de guiar o usurio da


informao para as fontes primrias e secundrias. Podem ser
consideradas tambm como uma recompilao das informaes contidas
nas fontes primrias e secundrias, dentro de um critrio de organizao
para torn-las mais acessveis aos usurios.
Exemplos de fontes de informao terciria:
a) Bibliografias de bibliografias;
b) Bibliotecas e centros de informao; e,
c) Diretrios.
Segundo Cunha (2001), as bibliotecas e centros de informao e
documentao, tradicionalmente, tm sido um dos grandes responsveis
pela aquisio, armazenamento, preservao e disseminao da literatura
tcnico-cientfica. Essa literatura, porm, tem tido enorme crescimento,
cara e nem sempre possui boa cobertura por parte dos ndices correntes.
Assim, necessrio que as bibliotecas lancem mo, cada vez mais, dos
acervos de outras bibliotecas para atender s necessidades dos usurios.
O advento das bibliotecas digitais ou virtuais, fez com que esse
compartilhamento de colees fosse aprimorado e agilizado. Portanto,
importante consultar fontes que informem o endereo, o acervo e os
produtos e servios fornecidos pelas bibliotecas.
O conceito de biblioteca tambm por muito tempo esteve
associado a fontes de informao como livros, jornais e revistas. Mas,
essa viso tradicional de biblioteca tem mudado consideravelmente com
a utilizao de tecnologias de informao e comunicao, onde as
informaes passaram a residir em um formato digital. Com essa
mudana, surge o conceito de biblioteca virtual. O termo biblioteca

39

virtual um bom exemplo da dificuldade de conceituao das novas


fontes. Basta consultar a literatura a respeito para verificar as vrias
definies que o termo tem assumido, causando inclusive certa confuso
entre biblioteca tradicional, biblioteca eletrnica, biblioteca virtual e
biblioteca digital.
De acordo com Tammaro (2008), a expresso biblioteca
eletrnica (electronic library) tem duas dcadas e o seu conceito est
vinculado a equipamentos eletrnicos como computadores. Durante
muito tempo, em lugar de 'biblioteca digital', foi dada preferncia
expresso biblioteca virtual para definir o conceito da nova biblioteca. O
primeiro a usar a expresso 'biblioteca virtual' (virtual library) foi o
criador da Rede - Tim Berners Lee - para o stio assim denominado e
que materializa a viso de uma biblioteca como uma coleo de
documentos ligados em rede, constitudos por objetos digitais e pginas
Web produzidos por milhares de autores.
O adjetivo 'virtual' significa que a biblioteca no existe
fisicamente. A denominao, que hoje , no entanto, menos difundida do
que 'biblioteca digital', continuou sendo usada para certas acepes,
como, por exemplo, para indicar uma coleo selecionada de vnculos
com stios da Rede e tambm para se referir a um conceito mais amplo
tanto da biblioteca eletrnica quanto da biblioteca digital, quer dizer,
uma coleo de documentos fora da biblioteca como espao fsico ou
lgico.
Desde o fim dos anos 1990, a expresso biblioteca digital tornouse comum e amplamente difundida, porm as definies relativas a essa
expresso continuam diferentes, e passam por constantes mudanas.
Inmeras definies foram originadas nos ltimos anos, em
especial as referentes biblioteca virtual, muito utilizada como sinnimo
da biblioteca eletrnica, que promove o acesso remoto aos contedos e
servios tradicionais da biblioteca com a integrao de recursos e
servios eletrnicos disponibilizados em redes de computadores,
interagindo o usurio, a informao em formato digital e redes
eletrnicas.
O conceito de biblioteca digital da Digital Library Federation
(DLF) uma das mais difundidas. Ela registra na sua pgina web
(http://www.diglib.org/about/dldefinition.htm) uma definio abrangente
que institucionaliza a viso biblioteconmica das bibliotecas digitais:
Bibliotecas digitais so organizaes, que
disponibilizam recursos (humanos inclusive), para
a seleo, estruturao, interpretao, distribuio
e disponibilizao de objetos digitais, e que devem

40

zelar por sua integridade/autenticidade, de forma


que sejam acessveis a baixo custo para a
comunidade3. (traduo nossa).

De acordo com Tammaro (2008, p.119), uma das melhores


definies de biblioteca digital foi formulada pela comunidade de
pesquisadores sobre biblioteca digital e empregada no Workshop on
Distributed Knowledge Work Environments, em Santa Fe (EUA), em
1997:
[...] o conceito de 'biblioteca digital' no
simplesmente o equivalente ao de uma coleo
digitalizada dotada de instrumentos de gesto da
informao. , antes, um ambiente que rene
colees, servios e pessoas para apoiar todo o
ciclo vital de criao, disseminao, uso e
preservao de dados, informao e conhecimento.

Conforme Tammaro (2008, p.122), a ltima definio de


biblioteca digital, representa a evoluo de uma biblioteca tradicional
para digital (talvez fosse melhor defini-la como hbrida):
[...] podemos afirmar que a biblioteca digital o
conjunto de uma ou vrias colees de objetos
digitais, da descrio desses objetos, que feita
com o emprego dos chamados metadados
colocadas disposio de todos os usurios
interessados graas a uma interao de tipo
eletrnico que pode abranger diversos servios,
como a catalogao, indexao, recuperao de
documentos e fornecimento de informaes
distncia. Nessa biblioteca todos os pedidos dos
usurios e as respostas a eles se realizam, portanto,
por meio da Rede.

A concepo de uma biblioteca digital deve ser realizada como


uma ferramenta para propiciar o acesso informao constituda em
meio digital e tambm incluir outros meios tradicionais, mas, antes de
tudo, deve constituir-se como um instrumento para a democratizao do
acesso ao conhecimento e incluso social e cultural.
De acordo com Marcondes e Sayo (2003a), as bibliotecas
digitais hoje so geradoras, e responsveis pela gesto e preservao das
informaes digitais. Dessa forma, as bibliotecas digitais se tornam cada
3

Digital libraries are organizations that provide the resources, including the specialized staff, to
select, structure, offer intellectual access to, interpret, distribute, preserve the integrity of, and
ensure the persistence over time of collections of digital works so that they are readily and
economically available for use by a defined community or set of communities.

41
1

vez maiss um elo importante na peerenizao doos estoques de


d informao
o
digital, oos quais consttituem testem
munhos das attividades das organizaess
no qual eessas bibliotecas esto inseeridas. Um exxemplo concrreto disso so
o
as redes dde bibliotecas de teses e dissertaes.
d
Asssim como vrios dos con
nceitos da reea de biblioteeconomia so
o
utilizados por outras reas de con
nhecimento, o mesmo aco
ontece com a
biblioteca digital. Coonstata-se qu
ue o conceitto de bibliotteca muito
o
t
dee informao e comunicao. Exemplo
o
utilizado na rea de tecnologia
m desenvolviimento de siistemas e em
m
disso soo os termos utilizados em
sistemas operacionaiss. Em sistem
mas operacionnais, como po
or exemplo o
Windows Expplorer do Win
ndows Seven da Microsoft
ft, fica claro a
servio W
utilizaoo dos conceeitos de bibliioteca digitaal, inclusive, permite quee
leigos poossam criar e compartilhaar documentoos, ou seja, fazer
f
a gesto
o
da sua prrpria biblioteeca.

F
Figura 1: 19900 Windows Exp
plorer do Winddows Seven da Microsoft
F
Fonte: Sistemaa Operacional Windows Seven
en Microsoft

ma biblioteca digital tam


mbm pode sser consideraada como um
m
Um
conjunto de tecnologgias de inform
mao e com
municao, on
nde inmerass
fontes dee informaoo so acessadas a partir de um portaal especfico,
sendo possvel armaazenar em formato
f
digiital grandes estoques dee
mo recuperar informaess relevantes ao
a usurio dee
informao, bem com
forma rpida, inclusiive, permitin
ndo reproduzzir, emular, e estender oss

42

servios oferecidos por bibliotecas convencionais baseadas em papel e


outros meios de coleo, catalogao, e disseminao da informao.
2.2 Preservao da Informao Digital
Estima-se que a quantidade de informao produzida nos ltimos
anos superiores a toda informao produzida pelas geraes que nos
antecederam, e que grande parte dessas informaes esto sendo geradas
diretamente no formato digital, alm do que, muitas das informaes que
se encontravam em outro formato tambm estarem migrando para
formato digital.
Com o aumento da quantidade de informaes produzidas em
formato digital, faz-se necessrio adotar critrios sobre quais e como as
informaes sero preservadas, pois do mesmo modo que hoje podemos
recuperar informaes produzidas por geraes que nos antecederam, a
de se criar e adotar normas e critrios para que as futuras geraes
possam acessar essas informaes.
Sayo (2007, p.15) destaca que para manter os objetos digitais
perenemente acessveis para uso, se requer algo mais do que preservar
simplesmente o artefato fsico; necessrio considerar tambm vrias
outras dimenses como:
a)
Preservao fsica - foco est na
preservao das mdias e na sua renovao quando
se fizer necessrio;
b)
Preservao lgica - foco os formatos e a
dependncia de hardware e software que mantenha
legveis e interpretveis a cadeia de bits;
c)
Preservao intelectual - foco o contedo
intelectual e sua autenticidade e integridade;
d)
Preservao do aparato na forma de
metadados - necessria para localizar, recuperar e
representar a informao digital; e,
e)
Monitoramento e instrumentalizao da
comunidade alvo - audincia para o qual a
informao de forma privilegiada se dirige, no
sentido de garantir que ele possa compreender
plenamente a informao no momento do seu
acesso.

Segundo Sayo (2007, p. 117), a preservao digital no envolve


a reteno do objeto informacional em si, mas tambm do seu
significado. Assim sendo, faz-se necessrio que as tcnicas de

43

preservao sejam capazes de compreender e recriar a forma original ou


a funo do objeto de forma que sejam asseguradas sua autenticidade e
acessibilidade.
Os estudos sobre preservao digital realizados por Blattmann
(1999, 2000, 2001, 2003), Ferneda (2003), Ferreira (2006), Kuramoto
(2005), Marcondes (2005), Mrdero Arellano (2004, 2006) e Sayo
(2007), reforam a ideia de que a mesma seja uma rea em expanso,
chamando a ateno de profissionais da rea de Biblioteconomia,
Cincias da Computao e de Cincias da Informao. De fato, a
preocupao com a preservao digital est expandindo para outras reas
de conhecimento, inclusive concretizando-se em aes de governo e de
rgos no governamentais.
A UNESCO na Carta para a Preservao do Patrimnio Digital,
publicada em 15/10/2003, mostra sua preocupao com a questo da
preservao e aponta os princpios que devem nortear o assunto, em 12
artigos. O artigo 6, Elaborar estratgias e polticas, aponta a
necessidade de se elaborar polticas e estratgias voltadas para a
preservao do patrimnio digital, indicando o grau de urgncia para a
discusso do assunto e a necessidade de se levar em conta s
circunstncias locais, os meios de comunicao disponveis e as
previses de futuro. (UNESCO ..., 2003).
O Conselho Nacional de Arquivos (CONARQ) tambm
demonstrou a sua preocupao com a preservao digital, neste sentido,
em sua 34 reunio plenria, realizada em 06/07/2004 no Rio de Janeiro,
aprovou a Carta para a Preservao do Patrimnio Arquivstico Digital:
Preservar para Garantir o Acesso, em que convoca as instituies
pblicas e privadas a envidarem esforos que garantam a preservao
das informaes digitais produzidas e armazenadas pelas mesmas,
apontando tambm a necessidades de implementao de aes na
elaborao de estratgias, polticas e normas para preservao digital,
alm de aes para a disseminao e compartilhamento dos
conhecimentos adquiridos na rea de preservao (ARQUIVO
NACIONAL, 2004).
Essa preocupao faz sentido posto que tanto os softwares quanto
os hardwares evoluem rapidamente, e como consequncia muda forma
como a informao digital tratada, armazenada e recuperada. Nesse
panorama, os suportes que armazenam as informaes digitais tm se
tornados obsoletos muito rapidamente.
Juntamente com o avano tecnolgico do hardware, acontece
evoluo do software, substitudo por uma verso atualizada ou uma
nova tecnologia, gerando a necessidade da criao de emuladores para

44

sua preservao, ou seja, o problema da preservao digital est batendo


a porta de todos, pois se observa que os usurios tm problemas de
recuperao de informao por questes de formato de arquivos.
Exemplo disso so os arquivos existentes em fontes de informao em
formato digital cujos documentos foram gerados em softwares de
verses ou de desenvolvedores diferentes, e ainda verses diferentes
como por exemplo o Word da Microsoft, Fcil, Carta Certa,
Wordperfect, Lotus Smartsuite, Ltus 123, Supercalc e Excel.
O termo preservao digital est muito vinculado ao meio no qual
a informao est armazenada. Dessa vinculao, surgem preocupaes
com a obsolescncia, o desgaste fsico do equipamento ou das mdias,
que passam por processo de desgaste em funo uso e do tempo, e
possuindo vida til determinada, desde que observados alguns requisitos,
como as condies ideais de temperatura, umidade relativa e iluminao.
Nesta dissertao, no aprofundado o estudo sobre a questo da
preservao digital no que tange ao meio fsico de armazenamento,
sendo focado na questo da preservao sob o ponto de vista do formato
lgico.
A preservao digital consiste na capacidade de garantir que a
informao digital permanea acessvel e com qualidade de
autenticidade suficiente para que possa ser interpretada no futuro,
recorrendo a uma plataforma tecnolgica diferente da utilizada no
momento da sua criao. As informaes armazenadas em meio digital
de objetos digitais, e definidos como todo e qualquer objeto de
informao que possa ser representado por meio de uma sequncia de
dgitos binrios, como por exemplo, textos cientficos, bancos de dados,
fotos digitais, vdeos, pginas Web, imagem e software.
De acordo com Ferreira (2006), preservao digital um conjunto
de atividades ou processos responsveis por garantir o acesso continuado
a longo-prazo informao e ao patrimnio cultural existente em
formatos digitais.
Para Mrdero Arellano (2004), a preservao digital compreende
mecanismos que permitem o armazenamento em repositrios de dados
digitais que garantam a perenidade dos seus contedos, integrando a
preservao fsica, lgica e intelectual dos objetos digitais.
Com relao aos repositrios digitais, Ferreira (2006) aponta que
os principais repositrios digitais (DSpace, Fedora e Eprints) no se
propem a implementar de polticas de preservao e nem esquemas de
metainformao, mas oferecem capacidade de armazenamento,
organizao, descrio e disseminao do material armazenado,

45

possibilitando assim, em curto prazo, a incorporao de funcionalidades


de preservao.
A adoo de polticas de preservao digital a forma mais
efetiva de garantir o armazenamento e uso dos recursos de informao
por longos perodos de tempo. A falta dessas polticas nos projetos de
repositrios digitais sugere a carncia de conhecimentos tcnicos sobre a
importncia das estratgias de preservao digital existentes
(MRDERO ARELLANO, 2004, p. 25).
Segundo Ferreira (2006, p.33), pode-se definir como estratgias
de preservao, a conservao do objeto digital no seu formato original e
a conservao do contedo intelectual do objeto digital. Na conservao
do objeto digital no seu formato original, pode se aplicar duas
estratgias:
a)
Refrescamento: transferir a informao de
um objeto fsico de armazenamento para outro
mais atual, antes que o primeiro deteriore.
b)
Emulao: tcnica de criar um ambiente
tecnolgico que emule o ambiente original do
objeto digital. Mais relevante na preservao de
aplicaes de software, como por exemplo, jogos
de computador.

J na conservao do contedo intelectual do objeto digital,


segundo Ferreira (2006, p.36) pode se transferir periodicamente um
objeto digital de uma tecnologia de hardware e/ou software para outra
mais atual, podem ser aplicadas as seguintes formas de migrao:
a)
Migrao para suportes analgicos:
consiste em converter um objeto digital para um
suporte no digital, como, por exemplo, imprimir
um texto e armazen-lo em papel.
b)
Atualizao
de
verses:
utilizado
essencialmente para software, consiste em criar
uma verso mais atual do mesmo.
c)
Converso para formatos concorrentes:
consiste em converter o objeto digital para outro
formato concorrente, como, por exemplo,
converter uma imagem para o formato jpeg.
d)
Normalizao: consiste um reduzir o
nmero de formatos de um repositrio de objetos
digitais, criando condies favorveis ao processo
de interoperabilidade entre sistemas distintos.
e)
Migrao a pedido: consiste em aplicar
processos de converso sempre no objeto digital
original, pois os diversos processos de converso

46

podem gradativamente degradar o formato original


do objeto.
f)
Migrao distribuda: consiste em aplicar
remotamente a um objeto digital um conjunto de
conversores, acessveis na Internet, reduzindo
assim os custos de preservao.
g)
Encapsulamento: consiste em manter o
objeto digital original inalterado at que a
comunidade efetivamente necessite do mesmo.
Nesse momento que o objeto dever ser tratado.
h)
Pedra de Rosetta digital: como no caso da
Pedra de Rosetta descoberta no delta do Nilo em
1799, essa estratgia prope preservar no as
regras que permitem decodificar o objeto, mas
amostras representativas desse objeto que
permitam sua recuperao.

Conforme relata Ferreira (2006), em 1990 o Consultative Comitee


for Space Data Systems (CCSDS) iniciou um esforo conjunto com a
International Organization for Standardization (ISO) a fim de
desenvolver um conjunto de normas capazes de regular o
armazenamento a longo-prazo de informao digital produzida no
mbito de misses espaciais.
Desse esforo nasceu o modelo de referncia OAIS. Trata-se de
um modelo conceitual que visa identificar os componentes funcionais
que devero fazer parte de um sistema de informao dedicado
preservao digital. O modelo descreve as interfaces internas e externas
do sistema e os objetos de informao que so manipulados no seu
interior. O modelo foi aprovado como uma norma internacional em 2003
ISO Standard 14721:2003.
De acordo com Ferreira (2006), para que um objeto digital possa
ser preservado, necessrio definir os componentes necessrios que
possibilitem a recuperao das informaes contidas nesse objeto. Um
dos modelos mais aceitos atualmente o Open Archival Information
System (OAIS), que definido como um modelo conceitual com o
objetivo de identificar os componentes funcionais que devero fazer
parte do sistema de informao dedicado preservao digital.

47

2.3 Formato de Arquivos


Para decodificar um formato de arquivo, uma especificao
formal dever estar disponvel. Essa especificao bem como a sua
disponibilidade, tem forte impacto na vulnerabilidade e obsolescncia de
um arquivo.
Os formatos de arquivo podem ser proprietrios com
especificao fechada, proprietrios com especificao aberta, e no
proprietrios com especificao aberta.
Os formatos de arquivos com especificaes proprietrias e
fechadas so encontrados nos softwares com grande aceitao de
mercado. A Sute de escritrio Office de propriedade da Microsoft que
contempla geralmente o MS-Office, Excel, Powerpoint e outros
aplicativos. Antes da verso 2007, utilizava formatos de arquivos com
especificaes proprietrias e fechadas como os formatos .doc e .xls. Os
formatos de arquivos com especificaes proprietrias e fechadas pem
em risco a preservao digital dos documentos arquivados nestes
formatos.
A Microsoft adotou o formato Ecma Office Open XML para os
seus produtos a partir da verso 2007. O formato Open XML que um
formato de arquivos com especificaes proprietrias e abertas
desenvolvida pela Microsoft, obteve em abril de 2008 a certificao
internacional da Organizao Internacional de Padronizao (ISO) e da
Comisso Eletrotcnica Internacional (IEC), conforme informao
disponvel no stio da Microsoft. A partir desse reconhecimento, o Open
XML passa a fazer parte dos padres de formato de documentos abertos
reconhecidos pela ISO e IEC, como o HTML, PDF e ODF. O formato de
arquivo ODF passou a integrar a lista de formatos de arquivos neste
software. Na verso do Microsoft Office 2010.
Os formatos de arquivos com especificaes proprietrias e
abertas, tambm so encontrados em softwares com grande aceitao de
mercado, como o Adobe Acrobat. Alguns desenvolvedores
disponibilizaram publicamente suas especificaes, permitindo que
outras empresas produzam software que possam utiliza-los. Existem
ainda vrios de formatos proprietrios e abertos, que so adotados como
norma, como o caso do PDF. Existem ainda os formatos no
proprietrios e com especificao aberta como exemplo o PDF/A.
As especificaes produzidas e mantidas por rgos
normatizados so mais seguras e tem mais garantia de disponibilidade
por longo prazo, sendo assim so os mais recomendados para
preservao digital. Pode-se citar como exemplo o Software BrOffice,

48

que suporta nativamente o formato de arquivo ODF (Open Document


Format). Com a crescente preocupao com a preservao digital, e por
fora de normas que esto sendo criadas e adotadas muldialmente, at
mesmo os softwares proprietrios nas suas verses mais atualizadas
esto suportando esses formatos de arquivos, como por exemplo o
Microsoft Word.
Um dos pontos fortes da Biblioteca Digital Greenstone, que a
mesma uma plataforma aberta e possui a disposio, de forma livre e
gratuita, plug-ins (programas que servem normalmente para adicionar
funes a outros programas maiores) para diversas funcionalidades
dentre elas os de inmeros formatos de arquivos, alm do que, o mesmo
permite o desenvolvimento de plug-ins para qualquer formato.
2.4 Formato de Arquivos Abertos
A falta de interoperabilidade e da adoo de formatos abertos de
arquivos pode afetar sobremaneira pessoas fsicas e jurdicas, pois
alguns documentos digitais precisam ser preservados por perodos
definidos por lei ou resoluo. Posto isto, faz-se necessrio estudar
questes relativas preservao digital e a necessidade de integrao
entre as organizaes, visando minimizar os esforos e recursos com
preservao digital, bem como, permitir a interoperabilidade dos objetos
digitais.
A criao e a adoo de padres de interoperabilidade tm o
objetivo de definir as premissas, as polticas e as especificaes tcnicas,
as quais regulamentam a utilizao da tecnologia de informao e
comunicao na interoperabilidade de servios, de forma a permitir a
interao entre solues de TIC. No Brasil, as definies referentes s
tecnologias associadas interoperabilidade so definidas pelos Padres
de
Interoperabilidade
de
Governo
Eletrnico
(e-PING)
(http://www.governoeletronico.gov.br/acoes-e-projetos/e-ping-padroesde-interoperabilidade):
A
arquitetura
e-PING

Padres
de
Interoperabilidade de Governo Eletrnico
definem um conjunto mnimo de premissas,
polticas
e
especificaes
tcnicas
que
regulamentam a utilizao da Tecnologia de
Informao e Comunicao (TIC) no governo
federal, estabelecendo as condies de interao
com os demais Poderes e esferas de governo e
com a sociedade em geral. Polticas e

49

especificaes
claramente
definidas
para
interoperabilidade
e
gerenciamento
de
informaes so fundamentais para propiciar a
conexo do governo, tanto no mbito interno
como no contato com a sociedade e, em maior
nvel de abrangncia, com o resto do mundo
outros governos e empresas atuantes no mercado
mundial. A e-PING concebida como uma
estrutura bsica para a estratgia de governo
eletrnico, aplicada inicialmente ao governo
federal Poder Executivo. Permite racionalizar
investimentos em TIC, por meio do
compartilhamento, reuso e intercmbio de
recursos tecnolgicos.

A verso 4.0 do e-PING faz a seguinte considerao sobre


interoperabilidade, ao avaliar os diferentes conceitos existentes:
Interoperabilidade no somente Integrao de
Sistemas, no somente Integrao de Redes. No
referencia unicamente troca de dados entre
sistemas. No contempla simplesmente definio
de tecnologia. , na verdade, a soma de todos
esses fatores, considerando, tambm, a existncia
de um legado de sistemas, de plataformas de
Hardware e Software instaladas. Parte de
princpios que tratam da diversidade de
componentes, com a utilizao de produtos
diversos de fornecedores distintos. Tem por meta
a considerao de todos os fatores para que os
sistemas possam atuar cooperativamente, fixando
as normas, as polticas e os padres necessrios
para consecuo desses objetivos.

A seguir so apresentados quatro conceitos que fundamentaram


os padres de Interoperabilidade de Governo Eletrnico (e-PING):
Conceito 1 Governo do Reino Unido Intercmbio coerente de informaes e servios
entre sistemas. Deve possibilitar a substituio de
qualquer componente ou produto usado nos pontos
de interligao por outro de especificao similar,
sem comprometimento das funcionalidades do
sistema.
Conceito 2 - governo da Austrlia - Habilidade de
transferir e utilizar informaes de maneira
uniforme e eficiente entre vrias organizaes e
sistemas de informao.

50

Conceito 3 ISO - Habilidade de dois ou mais


sistemas (computadores, meios de comunicao,
redes, software e outros componentes de
tecnologia da informao) de interagir e de
intercambiar dados de acordo com um mtodo
definido, de forma a obter os resultados esperados.
Conceito 4 - Lichun Wang, Instituto Europeu de
Informtica

CORBA
Workshops
Interoperabilidade define se dois componentes de
um sistema, desenvolvidos com ferramentas
diferentes, de fornecedores diferentes, podem ou
no atuar em conjunto.

De acordo com o padro e-Ping, interoperabilidade no somente


integrao de sistemas ou integrao de redes. No referencia
unicamente troca de dados entre sistemas e no contempla simplesmente
definio de tecnologia. a soma de todos esses fatores, considerando
tambm, a existncia de um legado de sistemas, de plataformas de
hardware e software instalado. Parte de princpios que tratam da
diversidade de componentes, com a utilizao de produtos diversos de
fornecedores distintos. Tem por meta a considerao de todos os fatores
para que os sistemas possam atuar cooperativamente, fixando as normas,
as polticas e os padres necessrios para consecuo desses objetivos.
Conforme consta do sitio do Ministrio do Planejamento e
Oramento e Gesto do Governo do Brasil disponvel em
(http://www.governoeletronico.gov.br/acoes-e-projetos/e-ping-padroesde-interoperabilidade) a arquitetura e-PING cobre o intercmbio de
informaes entre os sistemas do governo federal Poder Executivo e as
interaes com:
a)
Cidados;
b)
Outras esferas de governo (estadual e
municipal);
c)
Outros Poderes (Legislativo, Judicirio e
Ministrio Pblico Federal);
d)
Governos de outros pases;
e)
Empresas (no Brasil e no mundo);
f)
Terceiro Setor.

De acordo com e-Ping, para que se conquiste a interoperabilidade,


faz-se necessrio o engajamento da sociedade num esforo contnuo para
assegurar que sistemas, processos e culturas de uma organizao sejam
gerenciados e direcionados para maximizar oportunidades de troca e
reuso de informaes, interna e externamente ao governo federal.

51

2.5 Formato de Arquivos Abertos ODF


Em 1999 foi criado e desenvolvido o formato ODF, sigla de Open
Document Format ou Formato Aberto de Documentos, usado para
armazenamento e troca de documentos de escritrio, como textos,
planilhas, bases de dados, desenhos e apresentaes.
Seu desenvolvimento se iniciou em uma empresa alem, que
criou a sute de escritrio StarOffice e em pouco tempo se tornou um
desenvolvimento aberto e acessvel a todos os interessados, capitaneado
por uma entidade internacional de desenvolvimento de padres chamada
OASIS.
O desenvolvimento do ODF contou e conta com a participao de
diversas empresas e especialistas do mundo todo, garantindo assim a sua
neutralidade tecnolgica. Participam atualmente do desenvolvimento do
ODF empresas como IBM, Sun Microsystems, Novell, Adobe e mais,
recentemente, Microsoft.
O formato ODF foi desenvolvido por uma grande variedade de
organizaes, sendo possvel usar livremente as respectivas
especificaes. Isto significa que o ODF pode ser implementado em
qualquer sistema seja ele de cdigo aberto ou no, sem ser necessrio
efetuar qualquer tipo de pagamento ou estar sujeito a uma licena de uso
restrito. O ODF constitui-se uma alternativa aos formatos de
documentao que so propriedade de empresas privadas, sujeitos s
licenas de uso restrito ou onerosas, permitindo a organizaes e
indivduos escolherem o software que mais lhes convm para lidar com
os arquivos guardados nesse formato.
O ODF por ser um padro aberto, tambm multi-plataforma,
permitindo assim a liberdade de escolha do usurio. Outra caracterstica
importante a vantagem que se oferece em relao guarda dos
documentos digitais, pelo fato de que o mesmo no est preso a
nenhuma sute de escritrio e, consequentemente, a suas verses. O
formato livre de royalties e no tem limite de reutilizao.
A verso 1.0 do ODF, finalizada pelo OASIS em 2005 foi
aprovada por unanimidade pela ISO, em Maro de 2006, como Norma
Internacional, a norma ISO/IEC 26.300:2006. Em Maio de 2008, o ODF
foi aprovado e publicado pela ABNT como norma brasileira a NBR
ISO/IEC 26.300.
At a ltima verso da e-Ping, o formato ODF constava com o
status de recomendado pelo documento, sendo facultativo aos rgos
pblicos. Na verso 4.0 dos Padres de Interoperabilidade de Governo

52

Eleetrnico (e-P
PING), o OD
DF assume caracterstica
c
de adotado, dessa
forrma, torna-se obrigatriio para guaarda e trocaa de docum
mentos
eleetrnicos entrre todos os rgos

da adm
ministrao ddireta, autarq
quias e
fun
ndaes, senndo assim, devero see enquadrar a essa reegra a
Un
niversidade Feederal de Sannta Catarina e por ser extennso o PGCIN
N.
Em agoosto de 2008, em Brraslia, duraante o Con
ngresso
Intternacional S
Sociedade e Governo Eletrnico
E
CONSEGI 2008
(htttp://www.connsegi.gov.br)), diversas insstituies ass inaram o Pro
otocolo
Braaslia, um doocumento pbblico de intenes para aadoo de forrmatos
abeertos.
2.6
6 Formato de Arquivos Abbertos PDF/A
A
F
(PDF
F), foi criado pela
O formaato Portable Document Format
em
mpresa Adobee Systems e aperfeioado
o durante oss ltimos 15 anos.
Co
omeou com o sonho de um
u escritrio
o sem papel, como o projjeto de
esttimao de uum dos funndadores da Adobe, o S
Sr. John Wa
arnock.
Iniicialmente eraa um projetoo interno da Adobe
A
para crriar um form
mato de
arq
quivo para qque documenntos pudessem
m ser distribbudos por toda
t
a
em
mpresa e exibbidos em quualquer comp
putador com
m qualquer sistema
opeeracional.
P
se
s estabelece notadamentee como
Em 19900 o Adobe PostScript
um
m padro de impresso mundial
m
confo
orme consta no stio da Adobe
mo
ostrado na figgura 2.

Figura 2: 1990 - O marcco do PostScrip


pt
tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html
Fonte: http

Warnock em seu estudo chamado projeto Camelot


John W
div
vulgado em 11991 (figura 3), que deseenvolveu o P
PDF, esboou uma
teccnologia que transformariaa o modo de como as pe ssoas trabalh
hariam,
poiis atravs dessa tecnologiia seria possvel enviar m
mensagens dee texto

53
3

completoo e documenntos grficos (jornais, artiigos de revisstas, manuaiss


tcnicos.) atravs de redes de disstribuio de correio eletrrnico. Essess
s visualizad
dos em qualqquer mquin
na e qualquerr
documenntos podem ser
documennto pode ser im
mpresso locaalmente.

Figgura 3: 1991- Projeto


P
Camelot
Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html

t
postscript
p
quue uma liinguagem dee
A partir da tecnologia
i
eo
programaao que deffine uma pgina e como eela deve ser impressa,
illustratoor era o apliicativo capazz de rodar ppraticamente em todos oss
microcom
mputadores disponveis
d
na
n poca e capaz de ab
brir arquivoss
postscrippt mesmo quue eles fosseem criados em outra pllataforma, oss
engenheiiros da Adobee criaram o formato
f
PDF
F que no deiixa de ser um
m
postscrippt melhorado,, e um conjun
nto de aplicattivos para criiar, modificarr
e visualizzar este formato de arquiv
vo.
Coonforme figuura 4, em 199
92 divulgaddo o formato Adobe PDF,
que receebeu o codinnome Carro
ossel, e reccebeu o prm
mio Best off
Comdex (Comdex uma dass maiores fe
feiras de Teecnologia dee
Informao e Comuniicao do mu
undo).

Figgura 4: 1992 - divulgado o fo


ormato PDF
Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html

54

Em 1993, conformee figura 5, inicia-se


i
a G
Gerao do Adobe
Acrobat, softwaare utilizado para
p criar e visualizar docuumentos PDF
F.

Figura 5: 1993 - Inicia-sse a gerao Acrobat


tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html
Fonte: http

Em 19994, conformee a figura 6, a Adobe Systeems lana o Acrobat


2.0
0 e oferece ssuporte a muultimdia inco
orporado a llinks para arquivos
extternos em doccumentos Addobe PDF.

Figura 6: 1994 - Lanaddo a verso do Acrobat 2.0


tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html
Fonte: http

Federal dos Estados


E
Em 1994, conformee a figura 7, a Receita F
Un
nidos fornecee folhetos e formulrios de declarao de Imposto de
ren
nda no form
mato PDF em
m seu site com
c
o objettivo de facillitar o
dow
wnload.

Figura 7: 1994 - PDF naa Receita Fedeeral USA

55
5

Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html

E
Em 1994, coonforme figu
ura 8, a Adobbe comea a distribuir dee
forma grratuita o softw
ware Acroba
at Reader o qqual permite per arquivoss
PDF.

Figgura 8: 1994 - lanado o Acrobat


A
Readerr - leitor gratuiito para PDF
Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html

C
Conforme fiigura 9, em
m 1995, foi divulgado o plug-in do
o
Acrobat para o Nesstscape, aum
mentando asssim a popu
ularidade doss
nternet.
arquivos PDF no surggimento da in

Figgura 9: 1995 - plug-in para o Nestscape


Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html

996, com o laanamento do


o acrobat 3.0,
Coonforme figuura 10, em 19
os docum
mentos PDF passam
p
a sup
portar fluxos dde trabalho de
d produo e
impresses completaas com corees especiais , meios-tonss, suporte a
impresses sobrepostaas e muito maais.

Figgura 10: 1996 - Acrobat 3.0

56

Fonte: http
tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html

Em 19997, com a vanntagem do usso de byte duuplo e o lanaamento


da verso em jaapons, aumeenta ainda maais a simpatiaa pelo formato
o PDF
no mundo inteirro.

Figura 11: 1997 Uso do


d byte do duplo
tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html
Fonte: http

f
12, em
m documentoss em Adobe PDF
P
j
Em 19999, conforme figura
fazer
f
anotaes e revisar arquivos, restringir o aceesso com o uso
u de
sen
nhas, incluir aassinaturas diigitais e captu
urar pginas W
WEB.

Figura 12: 1999 - Novoss recursos de segurana


s
paraa o formato PD
DF
tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html
Fonte: http

me figura 13, em 1999, o American N


National Stan
ndards
Conform
Insstitute (ANSII) publica o primeiro padro
p
PDF
F para interccmbio
pro
otegido de coontedo impreesso.

Figura 13: 1999 - ANSI publica padro


o PDF

57
7

Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html

Noo ano de 2000, conformee a figura 144, uma verso em Adobee


PDF doo primeiro e--book de Sttephen King, Riding th
he Bullet,
v
em 244 horas, totaalizando maiss
copiado por downloaad 400.000 vezes
cpias ddo que as vendas do primeiro ddia da verso impressa,
demonstrrando assim a popularidad
de do PDF.

Figgura 14: 2000 - PDF para acesso a e-book


Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html

E
Em 2003 conforme a fig
gura 15, o Addobe PDF ganha
g
suportee
para XM
ML para form
mulrios e metadados,
m
bbem com a incluso dee
recursos mais avanaddos, tornam o Adobe PDF
F ainda mais sofisticado.
s

Figgura 15: 2003 - Suporte a XM


ML
Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html

m 2001, uma verso nova do Acrobat ((aplicativo paara criao dee


Em
pdfs da Adobe) receebeu o codin
nome Brazill e trouxe uma
u
srie dee
modificaaes ao padrro necessriias para atennder a indstria grfica, a
baixo cuusto, resolvenndo definitivaamente probllemas de unifformidade dee
cor entree o que era moostrado no mo
onitor vdeo e que era im
mpresso.
Em
m setembro de
d 2005, a Lib
brary of Conggress, a Natio
onal Archivess
e Recordds Administraation (NARA),, e vrias emppresas de TI, elegeram um
m
novo forrmato de PDF
F para a presservao a lonngo prazo dee documentoss

58

eleetrnicos, e conforme innformao disponvel


d
noo stio da em
mpresa
Ad
dobe, o formaato PDF foi homologado pela norma ISO 19005-1
1:2005
den
nominada dee PDF/Arquiive, ou simp
plesmente, P
PDF/A-1 con
nforme
con
nsta no stio dda Adobe na internet mosttrado na figurra 16.

Figura 16: 2005 - Ano publicao


p
PDF
F/A
tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html
Fonte: http

PDF 1.4 da Adobe


O formaato PDF/A-1 baseia-se no formato P
Sysstems, uma pplataforma esttvel com forrmato indepeendente de qu
ualquer
plaataforma de software ou hardware que
q se utilizee. O PDF 1.4
1 foi
imp
plementado nno Adobe Acrrobat 5. Estee formato tevee de ser adap
ptado a
nov
vas exignciias, que voo ao encontrro de um foormato de arquivo
a
con
nsistente e dee uso generallizado. Essa norma
n
descreeve o que po
ode e o
quee no pode estar em um PDF
P
para ateender ao padrro, eliminand
do dos
doccumentos cdigos de proogramao, ellementos extternos e fontes no
dessejadas.
mas caractersticas imporrtantes,
O formaato PDF/A-1 possui algum
com
mo armazenaar no prprioo documento
o tudo o quee necessrio para
vissualizar e im
mprimir. Elee utiliza meetadados Exxtensible Meetadata
Pla
atform (XMP)
P), no admitee encriptao, compressoo LZW (por motivos
m
de direitos dee propriedadde), arquivoss incorporaddos, refernccias a
ntedos exteernos, transpaarncias PDF
F, multimdiia e JavaScrript. A
con
asssinatura digital suporttada pelo PD
DF/A-1, dessde que as fontes
utilizadas estejaam embutidass no formato.
A figura 17 mostra coomo verificarr se o se o doccumento foi gerado
g
no formato PDF
F/A.

59
9

Figgura 17: Arquiivo gerado no formato PDF/A


/A

DF/A-1 dividee-se em doiss nveis: o PDF/A-1a


PD
eo
O formato PD
q
o PDF/A
/A-1a asseguura a estrutu
ura lgica e
PDF/A-11b, sendo que
semnticca do documeento e a sequncia do textoo, e o PDF/A
A-1b asseguraa
apenas a aparncia visual dos documentos digitais, sem
m garantir a
coernciaa textual doss mesmos. Todavia, as di
diferenas enttre estes doiss
nveis no tm qualqquer significaado para os ddocumentos digitalizados,
mas apennas para os documentos
d
que existem soomente no fo
ormato digitall
ou que ttenham sido objeto de Optical
O
Charaacter Recogn
nition (OCR)..
Acrescennte-se que nem
n
todas ass ferramentass de criao
o do formato
o
PDF/A-11 podem geraar documento
os PDF/A-1aa e PDF/A-1b
b. Na prpriaa
Adobe Syystems, s a verso
v
8 do Acrobat a quue faz.
Um
m aspecto reelevante no formato
f
PDF
F/A-1 que o mesmo no
o
constitui um sistema ou estratgia de arquivoo, tampouco exclui outross
F. Objetivameente, a normaa
formatoss de arquivo, como o caaso do TIFF
internacional 19005--1 apenas id
dentifica um perfil para documentoss
bilidade ao loongo dos ano
os, ao arrepio
o
digitais qque garante a sua inteligib
das muddanas tecnolgicas, pelo que a utilizaao do form
mato PDF/A-1
1
uivo, da qual,
no dispeensa a existnncia prvia dee uma organizzao de arqu
alis, estt dependente e apenass parte, mas que pode aju
udar a tornarr
mais efiicaz. Ao meesmo tempo,, oferece razzes ao leg
gislador para,
finalmennte, comear a consideraar a preservvao digitall como umaa
alternativva capaz preeservao anaalgica.
Em
m 2007 a Adobe
A
liberaa a especifiicao PDF 1.7 para a
Associatiion for Inform
mation and Im
magem Manaagement (AIIM
M).

60

Figura 18: 2007 - Adobee libera a especificao PDF 1.7 para a AIIIM
tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html
Fonte: http

natures
Em 20077, a Adobe paassa a ofereceer suporte aoo padro Sign
and
d Authenticattion for Everyyone (SAFE) de assinaturaas digitais.

Figura 19: 2007 - Suporrte para envios SAFE


tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html
Fonte: http

SO aprova o PDF/E com


mo um
Em 20077, conforme figura, a IS
forrmato de trooca neutro e aberto parra documentaao tcnicaa e de
eng
genharia quee ajuda na distribuio mais segurra de inform
maes
con
nfidenciais.

Figura 200: 2007 - Liberrada a especificcao PDF/E ppadro para daados de


eng
genharia.
tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html
Fonte: http

61
1

Coom a abertuura do formaato PDF 1.77 e o recon


nhecimento e
aceitaoo do formato pela ISO, em
m janeiro de 20008 conforme figura 21, o
mesmo ffoi aprovadoo como padro ISO 320000-1:2008. O padro ISO
O
32000 ccontinuar senndo desenvollvido com o objetivo de proteger a
do um padro
o
integridaade e a longevvidade do formato PDF, pproporcionand
aberto paara mais de um
m bilho de arquivos
a
PDF
F existentes atualmente.
a

Figgura 21: 2008 - PDF aprovad


do como padro internacionaal
Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html

E
Em 2009 coonforme a figura
f
22, o oramento dos Estadoss
Unidos publicado como um do
ocumento PD
DF certificad
do e assinado
o
digitalmeente. O PDF/
F/A aceito para
p
envio peela National Archives
A
and
d
Records Administratiion dos Estad
dos Unidos, ppelo National Archives daa
Sucia e pelo miniistro Francss responsveel pela enerrgia nuclear,
demonstrrando a foraa e a aceitao
o deste formaato de documeento.

Figgura 22: 2008 - Oramento dos


d USA so ppublicados em PDF.
P
Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html

ma norma parra adoo do


o
Noo Brasil noo foi encontrrado nenhum
PDF/A, m
mas observa--se que existee um movimeento crescentee em diversoss
pases quue esto norm
matizando o PDF/A
P
comoo padro de arquivamento
a
o
de docum
mentos digitaiis.
A tendncia entre
e
as div
versas bibliottecas pelo mundo
m
esto
o
F/A como forrmato para aarquivamento
o, dentre elass
padronizzando o PDF

62

pode-se destacar a Biblioteca Nacional Alem (http://www.dnb.de/eng/netzpub/ablief/np_dateiformate.htm) e a Biblioteca Nacional


Austraca
(http://www.onb.ac.at/bibliothek/digitale_medien_informationen.htm).
Na Frana, a Direo de Modernizao do Estado do Ministrio
do Oramento (http://www.modernisation.gouv.fr/), emitiu uma
recomendao no incio de 2009 para o tratamento de dados eletrnicos.
O documento recomenda a utilizao da norma ISO PDF/A para
arquivamento de documentos administrativos com contedo esttico,
inaltervel.
O modelo Model Requirements for the Management of Electronic
Documents and Records (MoReq), ou seja, o modelo de requisitos para o
gerenciamento eletrnico de documentos e registros uma especificao
europia de documentos eletrnicos e gerenciamento de registros. O
MoReq foi originalmente desenvolvido para troca de documentos
padronizados entre a Comisso Europia e os governos dos EstadosMembros. Conforme consta no site oficial do MoReq disponvel em
(http://www.moreq2.de), a nova verso do MoReq2 inclui PDF/A na
lista de formatos recomendados, por exemplo, documentos digitalizados
e para arquivamento de longo prazo.
Conforme consta no site oficial da Cmara Federal de Arquitetos
e Consultores de Engenharia da ustria, disponvel em
(http://www.baik-archiv.at), exige que os documentos digitais colocados
disposio do pblico devero estar de acordo com a norma PDF/A-1b.
Alm disso, a autenticidade dos documentos digitais que esto sendo
adicionados ao cadastro, so assegurados atravs da utilizao de uma
assinatura digital.
O Governo Noruegus tambm regulamentou que, a partir de 01
de janeiro de 2009, conforme norma disponvel no seu site em
http://www.regjeringen.no/en/dep/fad/pressesenter/pressemeldinger/200
7/Open-document-standards-to-beobligatory.html%3Fid%3D494810&prev=/search%3Fq%3D, que todas
as informaes publicadas em sites estatais devem ser salvos em um
formato de documento aberto e disponvel, como PDF/A ou ODF.
O Conselho Federal Suo em 2008, em um projeto de resoluo
para intercmbio de arquivos digitais no mbito dos processos
administrativos que est disponvel em http://www.admin.ch, determina
que as comunicaes eletrnicas trocadas entre o Estado e os cidados
devero ser feita utilizando o formato PDF/A.
2.7 Metadados XMP

63

O termo metadados significa literalmente, "dados sobre dados e


tem sido descrito como o carto de visita dos documentos digitais.
Metadados geralmente compreendem um conjunto de propriedades,
onde cada propriedade tem um significado especfico na Extensible
Metadata Platform - XMP.
A especificao XMP inclui mais de uma dzia de esquemas prdefinidos, com centenas de propriedades de documento comum e as
caractersticas da imagem. O mais usado do esquema pr-XMP o
Dublin Core que inclui propriedades gerais, tais como Ttulo, Criador,
Assunto e Descrio. Alm de esquemas pr-definidos esquemas
personalizados podem ser definidos para cobrir as necessidades da
empresa ou metadados especficos do setor.
XMP para documentos PDF, foi introduzido com o Acrobat 5 e
PDF 1.4 em 2001, e so aplicado em todos os produtos editoriais Adobe
e apoiado por dezenas de vendedores de software independentes e
grupos de usurios. O Adobe Bridge, que faz parte do Creative Sute,
lida com metadados XMP em vrios formatos de arquivo.
Conforme consta do site do PDFLIB disponvel em
http://www.pdflib.com/knowledge-base/xmp-metadata/, informa que
existem diversas normas ISO j publicadas ou previstas, que especificam
subconjuntos PDF para certos domnios de aplicao, tais como a
indstria das artes grficas, de arquivamento ou a de engenharia. Exceto
para os padres pr-PDF/X-1 e X-3, que foram introduzidas em 2001 e
2002, todas as normas ISO para arquivos PDF incluem o uso de
metadados XMP (mesmo obrigatria na maioria dos casos, exceto ISO
32000):
a) PDF/A-1 in ISO 19005-1 (publicado em 2005): formato
de arquivo de documento para a preservao em longo
prazo. O uso de PDF 1.4. PDF/A-1 exige XMP para
identificar arquivos conforme e suporta metadados XMP
personalizado atravs de esquemas de extenso. XMP
suporta dentro do PDF/A-1 baseado na especificao
XMP 2004 (ADOBE, 2004).
b) PDF/E-1 dentro da ISO 24517-1 (publicado em 2008):
Engenharia de formato de documento para engenharia Uso de PDF 1.6. XMP utilizado no PDF/E quase
idntico ao PDF/A-1, exceto que ele baseado na mais
recente especificao XMP 2005 (ADOBE, 2005).
c) PDF/X-4 na ISO 15930-7 (publicado em 2008): Troca
completa dos dados de impresso (PDF/X-4) e troca
parcial de impresso de dados com referncia perfil

64

externo (PDF/X-4p) usando PDF 1.6. Semelhante ao


PDF/A-1, XMP necessria para expressar as normas em
conformidade PDF/X-4. XMP apoio PDF/X-4 baseado
na especificao XMP 2005.
d) PDF/X-2 na ISO 15930-5 (publicado em 2003) e PDF/X5 na ISO 15930-8 (publicado em 2008): Troca parcial dos
dados de impresso utilizando PDF 1.6 (PDF/X-5).
PDF/X-2 e X-5 e outros documentos de referncia
documentos PDF/X, onde o alvo de tal referncia
identificado usando vrias entradas XMP. Isso faz com
que XMP um componente crucial da PDF/X-2 e X-5.
e) ISO 32000 (publicada em 2008): A gesto de documentos
- Portable Document Format - PDF 1.7. ISO 32000 a
verso padro do PDF 1.7. O contedo tcnico idntico
ao PDF 1.7 (o formato de arquivo do Acrobat 8), que
apoia plenamente os metadados XMP.
O Dublin Core um dos mais conhecidos esquemas de
metadados XMP, foi padronizado como ISO 15836 (publicada em 2003).
2.8 A Recuperao da Informao e a Cincia da Informao
De acordo com a reviso da literatura, parece haver consenso
entre os autores quanto ao surgimento da Cincia da Informao. O
surgimento dessa cincia foi decorrente de um boom cientfico,
posterior Segunda Guerra Mundial, que teve como marco inicial a
reunio realizada em 1962 na Georgia Institute of Tecnology.
A Cincia da Informao desenvolveu-se principalmente na
Rssia e nos Estados Unidos, pois nestes pases, a informao foi
considerada estratgica e assunto de Estado, alm de ter sido necessrio
minimizar os custos de tratamento, operacionalizao, transmisso,
recuperao e aproveitamento de grandes estoques de informao.
Observa-se que a partir do surgimento da Cincia da Informao
ocorreram grandes transformaes na sociedade contempornea que
passou a considerar o conhecimento, a comunicao, os sistemas de
significados e os usos de linguagens como objetos de pesquisa cientfica
e domnios de interveno tecnolgica.
Durante o desenvolvimento da Cincia da Informao, houve o
surgimento de correntes de pensamento que estimulou discusses
tericas, que evidenciaram a necessidade de definio da abrangncia da
Cincia da Informao, bem como a sua vinculao com outras cincias.

65

A definio de Cincia da Informao apresentada por Borko


(1968, p.3) embora no seja um consenso, uma das mais difundidas.
Ele definiu a Cincia da Informao como uma cincia interdisciplinar,
ou seja, um campo autnomo que tem como objetivo investigar as
propriedades e o comportamento da informao, as foras que governam
seu fluxo, e os meios para process-la visando aperfeioar sua
acessibilidade e uso.
Saracevic (1996, p. 47), definiu a Cincia da Informao como:
[...] um campo dedicado a questes cientficas e a
prtica profissional, voltadas para os problemas da
efetiva comunicao do conhecimento e de
registros do conhecimento entre seres humanos, no
contexto social, institucional ou individual do uso
e das necessidades de informao. No tratamento
dessas questes so consideradas de particular
interesse as vantagens das modernas tecnologias
informacionais.

A Cincia da Informao de acordo com Saracevic (1996),


contem em seu ncleo a recuperao da informao como causa de seu
surgimento.
De acordo com Saracevic (1996, p. 46), a Cincia da Informao
tem como foco de estudo as propriedades e comportamento da
informao, com as foras que regem seu fluxo e com os meios de
process-la para facilitar seu acesso e uso. Dessa forma, tem como
objetivo principal investigar e mapear essas propriedades da informao
pela aplicao da teoria da informao, da teoria das decises e outros
construtos da cincia cognitiva, da lgica e/ou da filosofia. Saracevic
(1996) tambm identificou trs caractersticas marcantes na evoluo da
Cincia da Informao: interdisciplinaridade, vinculao com a
tecnologia e participao ativa na era da informao.
Saracevic constatou tambm que a Cincia da Informao tem
mantido vnculos atravs dos tempos mais acentuadamente com a
Biblioteconomia, Cincia da Computao, Cincia Cognitiva e
Comunicao. Cabe destacar que ainda muito comum at mesmo
dentro da comunidade acadmica, a Cincia da Informao e
Biblioteconomia sejam confundidas ou consideradas como uma mesma
cincia.
O carter interdisciplinar da Cincia da Informao pode ser
constatado no perfil dos alunos do curso de mestrado em Cincia da
Informao da UFSC. O curso que inicialmente era formado por
profissionais oriundos da rea da Biblioteconomia, todavia, com o passar

66

do tempo cresceu o interesse de profissionais de Cincias da


Computao, Arquitetura, Engenharia, Comunicao, Administrao,
Arquitetura e Letras.
Para Pinheiro (1999, p.155), a Cincia da Informao tem seu
prprio estatuto cientfico: como cincia social, interdisciplinar por
natureza, seu objeto de estudo, considerando sua caracterstica abstrata,
de difcil apreenso; apresenta interfaces com a Biblioteconomia, a
Cincia da Computao, a Cincia Cognitiva, a Sociologia da Cincia e
Comunicao, entre outras reas; e provm da bifurcao da
Documentao/Bibliografia e da Recuperao da Informao.
Segundo o entendimento de Barreto (1999, p.1), a Cincia da
Informao cada vez mais ter seus caminhos relacionados aos das
estruturas e dos fluxos de informao.
De acordo com Gmez (2000), essa diversidade de condies
epistemolgicas no deve ser confundida, com uma indefinio
metodolgica ecltica ou relativista. A Cincia da Informao recebe das
Cincias Sociais seu trao identificador, que serve de princpio
articulador dessa diversidade, e que corresponde ao que nos estudos
metodolgicos se denomina como a dupla hermenutica. Sendo assim,
no lugar da escolha a priori da perspectiva social, bem como pela
necessidade imposta pela dupla hermenutica, que se referem dupla
aderncia as necessidades da pesquisa e ao contexto scio-poltica, os
temas guiariam os projetos de pesquisa.
2.9 Recuperao da Informao
Conforme matria publicada no The New York Times (June 17,
2008), no sculo XIX, o advogado belga Paul Otlet, em parceria com
Henry La Fontaine, com o intuito de disponibilizar o conhecimento
existente de uma forma mais acessvel, buscaram apoio do Governo da
Blgica para desenvolverem o projeto de construir uma "cidade do
conhecimento". O projeto era ousado, pois consistia em criar uma grande
bibliografia de todo o conhecimento publicado no mundo. O trabalho
desses cientistas iniciou com a coleta de dados de todos os livros j
publicados, juntamente com uma vasta coleo de revistas e artigos de
jornais, fotografias e psteres.
Paul Otlet passou parte de sua vida desenvolvendo tcnicas para
registrar e recuperar informaes. Um dos resultados desse trabalho so
as fichas catalogrficas padronizadas (12,5 x 7,5 cm), a microficha, a
bibliografia universal, a classificao universal, dentre outros

67

instrumentos. Paul Otlet frente dificuldade de recuperar informao em


decorrncia ao grande volume de papeis e livros, bem como as restries
de espao fsico, comeou a pesquisar solues nesse sentido, pensando
inclusive numa soluo que seria uma espcie de computador, que por
meio da manipulao de rodas e raios moveria os documentos na
superfcie de uma mesa.
Ele tambm a escreveu diversos documentos sobre a possibilidade
do armazenamento eletrnico, dentre eles o livro Monde publicado em
1934, no qual relata a sua viso de um "crebro mecnico coletivo" que
contemplaria toda a informao do mundo, acessvel instantaneamente
em uma rede global de informao. Outra ideia interessante para
recuperao de informao desenvolvida por Paul Otlet foi criao de
um tipo de hipertexto, onde previa a ligao de documentos, com um
diferencial no qual os links carregavam um significado anotado, como
por exemplo, se os documentos concordavam ou discordavam entre si.
De forma semelhante, o americano Vannevar Bush (1945)
arquitetou o memex como um sistema mecnico capaz de reproduzir as
conexes mentais as we may think realizadas pelo homem para
facilitar a recuperao da informao.
Apesar das pesquisas e dos conhecimentos gerados por Paul
Otlet, Henry La Fontaine e Vannevar Bush, somente em 1951 a
expresso recuperao da Informao (information retrieval) foi
batizada pelo pesquisador americano Calvin Northrup Mooers,
definindo-a como:
A Recuperao da Informao trata dos aspectos
intelectuais da descrio da informao e sua
especificao para busca, e tambm de qualquer
sistema, tcnicas ou mquinas que so empregadas
para realizar essa operao. (MOOERS, 1951 apud
SARACEVIC, 1996, p. 44).

A recuperao de informao inicialmente era considerada como


objeto de interesse apenas de bibliotecrios e especialistas em
informao, mas com o crescimento dos estoques de informaes
disponibilizadas pelas Tecnologias de Informao e Comunicao
(TICs), e principalmente com o advento da Internet, despertou o
interesse de profissionais das mais variadas reas.
A recuperao da informao era considerada como um recurso
estratgico para vrios governos e empresas, mas foi com a expanso do
uso dos computadores e o acesso a internet, bem como um crescimento
muito grande dos estoques de informao no formato digital, que
aumentaram os problemas de recuperao de informao.

68

Com o descobrimento de que a recuperao de informao era um


negcio rentvel, houve um crescimento do interesse e de investimentos
sem precedentes nessa rea.
2.9.1 Definio de Recuperao de Informao
O termo recuperao de informao possui muitas definies,
sendo que a prpria palavra informao tem um conceito ambguo, pois
no contexto da recuperao de informao, o significado da palavra
informao no tem uma definio exata, ou seja, em alguns os casos
essa palavra pode ser substituda por documento. No entanto, o termo
recuperao de informao amplamente aceito na literatura sobre esse
tema.
Segundo Baeza-Yates e Ribeiro-Neto (1999, p.1), a recuperao,
a representao, o armazenamento, a organizao e o acesso so
processos de gesto da manipulao da informao. Pode-se definir
recuperao de informao como o procedimento pelo qual a partir de
uma necessidade de informao, busca-se um uma informao em meio
a um emaranhado de documentos dos mais variados tipos.
Um sistema de recuperao de informaes o responsvel pelo
armazenamento, recuperao e gerenciamento de informaes em
diferentes tipos de documentos, tendo como objetivo informar a
existncia e localizao de documentos que possam conter a informao
necessria e no necessariamente recuperar a informao.
A palavra informao vem do latim informatio que significa a
ao de formar, representao, esboo, plano, ideia, concepo. No
dicionrio Aurlio, consta que informao :
1. Ato ou efeito de informar-se; informe;
2- Dados sobre algum ou algo;
3. Instruo Direo;
4. Conhecimento extrado dos dados; e,
5. Resumo dos dados.

De acordo com Le Coadic (1994, p.7), [...] a informao um


conhecimento inscrito (gravado) sob a forma escrita (impressa), oral ou
audiovisual. Como a sugerir que os documentos inscrevem
informaes, mas eles so ao mesmo tempo, objetos autnomos.
Para Gonzalez (2000), a essncia da recuperao de informao
consiste na busca de documentos relevantes a uma dada consulta que
expressa necessidade de informao do usurio. Assim, a indexao
dos contedos deve conter estrutura adequada e utilizar a perfeita

69

adequao entre linguagem natural e a linguagem controlada, onde os


termos precisam obedecer classificao prvia de forma a resultar no
perfeito entendimento do sistema.
Segundo Cardoso (2000, p.1), a recuperao da informao uma
subrea da cincia da computao, que estuda o armazenamento e
recuperao automtica de documentos, que so objetos de dados,
geralmente textos.
Para Choo (2006), recuperar uma informao disponibiliz-la ao
usurio, que a solicitou por necessidades espontneas e/ou induzidas,
objetivando construir significado, produzir novo conhecimento e tomar
decises, sejam administrativas, sejam pessoais.
A recuperao da informao muitas vezes tratada como
sinnimo de busca de informao, porque a necessidade de informao
que dispara o processo de busca da informao.
Ingwersen (1982, p.167) prope uma sequncia de nove etapas
para identificar o processo mental no processo da recuperao da
informao:
1) A necessidade de informao do usurio;
2) A questo sobre a informao formulada;
3) A negociao usurio-bibliotecrio;
4) A formulao da estratgia de busca anlise
do tpico;
5) A escolha das ferramentas de busca;
6) A procura na lista alfabtica ou sistemtica;
7) O julgamento baseado no ndice (termos);
8) O julgamento baseado na descrio, resumos e
ttulos; e,
9) A avaliao do documento pelo usuriobibliotecrio.

A Informao objeto de estudo tanto da Cincia da Informao


como da Cincia da Computao, sendo que a Recuperao de
Informao poder ser considerada como um elo entre essas duas
cincias. A popularizao da Internet s fez aumentar o interesse nessas
cincias, no s pelo interesse cientfico, mas tambm pelo interesse
comercial face as suas inmeras aplicaes.
Com a popularizao dos computadores, e tambm com o
aumento da capacidade computacional dos mesmos, tornou-se vivel a
execuo de algoritmos complexos de recuperao e de ordenao em
bases de dados. Cada vez mais os investimentos em pesquisas nesta rea
se disseminam tanto na iniciativa privada como no setor pblico. As
pesquisas acadmicas em bibliotecas digitais seguem em larga escala,

70

ofeerecendo um campo paraa explorar a descoberta e a recuperao em


red
de em ambiennte controladoo.
9.2 Modelos d
de Recuperaao de inforrmao
2.9
uperao de informao, como
Existem vrios modelos de recu
pod
de ser observvado na figurra 23. O modelo booleanoo, o modelo vetorial
v
e o modelo pprobabilstico so os maais conhecido
dos e tambm
m so
nsiderados coomo os modeelos clssicos de recuperao, sendo qu
ue para
con
cad
da um deles, existem moddelos alternattivos que vissam estend-llos em
fun
ncionalidade e desempenhho. Nesta disssertao seroo abordados alguns
doss modelos clssicos de Reecuperao dee Informao :

Figura 23: Uma taxonom


mia de modelo
os de Recuperaao de Informao
YATES; RIBEIIRO NETO, 19999, p. 21).
(adaptadoo de BAEZA-Y

2.9
9.3 Modelo B
Booleno
os de
O modeelo booleanno foi um dos primeeiros modelo
Reecuperao dda Informao, sendo muito
m
utilizaddo at mead
dos da
dccada de 19900. Neste moddelo, um docu
umento connsiderado rellevante
ou no relevantte a uma connsulta; no ex
xiste resultaddo parcial e no
n h
o resultado dda consulta, o que
infformao quee permita a ordenao do
pod
de ser conssiderado umaa de suas principais
p
deesvantagens. Cabe

71

salientar que, a ordenao por ordem de relevncia uma das


caractersticas importantes dos sistemas de recuperao de informao.
A origem desse modelo tem como base a teoria dos conjuntos, e
utiliza os operadores booleanos or, and e not para estabelecer relaes
especficas de ocorrncia com as palavras-chave, de forma a especificar
os documentos a serem recuperados. Ou seja, para cada consulta so
recuperados todos os documentos que possuem os termos nas condies
especificadas pelo usurio.
Pelo fato deste modelo trabalhar com operadores booleanos,
requer que os usurios tenham pelo menos algum conhecimento de
lgica booleana, fator este, que dificulta sobremaneira a utilizao de
pela grande maioria dos usurios.
Segundo Baeza-Yates e Ribeiro-Neto (1999), a grande vantagem
desse modelo a clareza do seu formalismo e a sua simplicidade.
Dentre os modelos alternativos ao booleano pode-se destacar a
logica difusa ou nebulosa (fuzzy) e o booleando estendido. Fuzzy em
ingls significa incerto, duvidoso.
De acordo com Vanderlei Filho et al. (2002), a Logica Difusa foi
estruturada em 1965 pelo Dr. Lofti A. Zadeh da Universidade da
Califrnia, tendo como objetivo principal tratar e representar incertezas,
ou seja, possibilita inferir concluses e dar respostas a informaes
incertas, imprecisas, vagas. Essa lgica permite representar valores de
pertinncia (grau de verdade) intermedirios entre os valores de
verdadeiro e falso da lgica clssica. A Lgica Difusa ou lgica fuzzy
pode ajudar a tratar melhor as incertezas quanto relevncia dos termos
dos ndices em relao aos documentos e a importncia dos termos de
entrada para a consulta. Na teoria dos conjuntos difusos ou lgica fuzzy o
objetivo capturar e operar com a diversidade, a incerteza e as verdades
parciais dos fenmenos da natureza de uma forma sistemtica e rigorosa.
A teoria dos conjuntos fuzzy baseia-se no fato de que os conjuntos
existentes no mundo real no possuem limites precisos, isto , o modelo
fuzzy trabalha na possibilidade de que o resultado esteja parcialmente
inserido no contedo consultado. Para essa operao utilizado graus de
pertinncia aos conjuntos. O modelo usa uma matriz de correlao termo
a termo para calcular as relaes entre os termos dos conjuntos de
documentos e apresentar o resultado.
O modelo booleano estendido foi introduzido em 1983 por Salton,
Fox, e Wu. Esse modelo se diferencia do modelo booleano por usar
diferentes operadores, associar pesos aos termos de cada documento, e
por implementar uma funo de ordenao, ou seja, tenta unir a
potencialidade das expresses booleanas atravs da introduo do

72

con
nceito de releevncia com a preciso do
o modelo vetoorial atravs do uso
doss operadoress booleanos. Neste modeelo os probllemas referentes a
deccises binriaas do modeloo clssico porr meio da afeerio de pessos aos
termos, aproxim
mando o modelo original do
d modelo vet
etorial.
9.4 Modelo V
Vetorial
2.9
delo vetorial foi idealizad
do por
Segundo Buckley (1985), o mod
Geerard Salton, e foi inicialm
mente utilizad
do num projetto chamado System
S
forr the Manipuulation and Retrieval off Text (SMA
ART). Este projeto
p
iniciou em 1961 na Universidade de Harvard e mudou-se para
p
a
niversidade dee Cornell aps 1965.
Un
De acorddo com Baeza-Yates e Ribeiro-Neto
R
(1999), o modelo
m
vettorial baseia--se na compparao parccial entre a representao dos
doccumentos e da consulta do usurio, onde so atrribudos peso
os aos
termos de indexxao presenntes na consullta, em funo da frequn
ncia de
oco
orrncia no ddocumento.
Neste m
modelo, cada documento
d
representadoo como um veetor de
termos, e cada ttermo possuii um valor associado que indica o peso
o deste
no documento, ou seja, cadaa documento possui
p
um veetor associado
o que
mposto por pares de elementos naa forma {(paalavra_1, peeso_1),
com
(paalavra_2, peso_2),..., (palaavra_n, peso_
_n)}, onde caada elemento
o deste
vettor de termos consideraddo uma coord
denada dimennsional.
e
Desta forrma, os docuumentos podeem ser colocaados em um espao
eucclidiano de n dimenses (oonde n o n
mero de term
mos) e a posio do
doccumento, soo obtidas peelo seu peso
o em cada ddimenso, ou
u seja,
doccumentos quue possuem os
o mesmos teermos acabam
m sendo colo
ocados
em
m uma mesm
ma regio doo espao e, o que teoriccamente trataam de
asssuntos similarres. Os docum
mentos mais similares cconsulta podeem ser
con
nsiderados m
mais relevantees para o usurio e retornaados como reesposta
parra ela.
p
entre os vettores
Uma dass formas de calcular a proximidade
tesstar o nguloo entre estes vetores. No modelo origginal, utilizzada a
fun
no cosseno que calcula o produto doss vetores de ddocumentos atravs
a
da seguinte frm
mula:

73

Onde wi,x o peso do i-simo elemento do vetor x e wi,y o


peso do i-simo elemento do vetor y.
O objetivo do modelo vetorial consiste em estabelecer as
caractersticas que melhor descrevem o documento e quais so as
caractersticas que melhor distinguem o documento com relao ao
restante da coleo, permitindo dessa forma uma quantificao de
similaridade.
Exemplificando:
Fator TF = freqncia direta de um termo dentro de um
documento = contagem; fornece a medida de quo bem esse
termo descreve o documento;
Fator iTF =freqncia inversa = quantas vezes essa palavra
aparece nos outros documentos;
Busca Vetorial = Fator TF * Fator iTF
Relevncia = ( Mximo de vezes que o termo aparece no
documento / Mximo de vezes que um termo pode ter em um
documento)
Quadro 1: Clculo de relevncia

As principais vantagens do modelo vetorial so a sua simplicidade


e a facilidade que ele possui para computar as similaridades de forma
eficiente atravs da atribuio de pesos e tambm o fato de que o modelo
se comporta muito bem com as colees genricas, recuperando pelo
menos documentos que se aproximam do resultado.
O modelo vetorial amplamente utilizado por sistemas de
recuperao de informaes com foco na recuperao de informao na
internet, embora estes tambm utilizem outras tcnicas para determinar o
ranking de documentos como resposta a uma consulta.
Modelos que se propem a estender a funcionalidade do modelo
vetorial:
a) Redes neurais - Uma rede neural consiste na representao
grfica da rede de interconexes de neurnios no crebro humano, onde
os ns dessa representao grfica so as unidades de processo enquanto
que as extremidades desempenham a funo de uma conexo sinptica
(regio de encontro de duas clulas nervosas). Simular o fato que a fora
de uma conexo sinptica em um crebro humano muda a todo tempo,
um peso nomeado a cada extremidade em nossa rede de neurnios. A
cada instante, os estados dos ns so definidos atravs dos nveis de

74

ativao. Dependendo deste nvel de ativao, o n A pode enviar um


sinal ao seu vizinho, n B. A fora deste sinal at o n B, depende do
peso associado s extremidades entre o n A e B.
Segundo Baeza Yates e Ribeiro Neto (1999), dentro de um
sistema de recuperao de informao, vetores dos documentos so
comparados com vetores das consultas para o clculo do ranking. Assim,
os termos ndices nos documentos e consultas tm que ser combinados e
pesados para o clculo dessa posio. O modelo de recuperao de
informao baseado em redes neurais busca encontrar padres entre as
consultas e dos documentos. Cada consulta realizada envia um sinal que
ativa os termos ndice, que por sua vez propagam os sinais aos
documentos relacionados. Estes, por sua vez, retornam os sinais a novos
termos-ndices, em interaes sucessivas. O conjunto resposta definido
atravs desse processo, e pode conter documentos que no compartilhem
nenhum termo ndice com a consulta, mas que tenham sido ativados
durante o processo.
b) Vetorial generalizado - Em 1985, Wong, Ziarko, e Wong
(apud Baeza-Yates e Ribeiro Neto, 1999) propuseram uma interpretao
em que os vetores de termos do ndice so assumidos como linearmente
independentes, mas no so ortogonais em pares. Essa interpretao
menos restritiva que a convencional, na qual os vetores de termos do
ndice so alm de linearmente independentes, tambm so ortogonais.
O sistema de pesos neste modelo combina o sistema tradicional de
termos nos documentos com fatores de correlao entre os termos.
c) Indexao semntica latente Alguns pesquisadores utilizam
Anlise Semntica Latente - LSA e a Indexao Semntica Latente - LSI
como sinnimos, mas outros apresentam LSI como uma tcnica que
utiliza LSA para indexao automtica de documentos textuais. A
indexao semntica latente LSI (Latent Semantic Indexing) definida
como uma tcnica automtica que analisa as coocorrncias de termos em
documentos textuais com vistas a descobrir relacionamentos latentes
entre eles (Deerwester, Dumais et al., 1990).
2.9.5 Modelo Probabilistico
Segundo Takao (2001), o modelo probabilstico de recuperao
de informao foi proposto em 1960 por Maron e Kuhns. Esse modelo
tem a denominao de probabilstico porque trabalha com conceitos
provenientes da rea de probabilidade e estatstica, tendo como base o
princpio da ordenao probabilstica (Probability Ranking Principle).

75
5

Esse priincpio conssiste na hiptese de quue a relevncia de um


m
documennto para umaa determinada consulta independentte dos outross
documenntos, ou seja, busca-se sab
ber a probabiilidade de um
m documento
o
ser ou no relevante para
p
uma con
nsulta. Tal innformao po
ode ser obtidaa
assuminddo-se que a distribuio de termos nna coleo seja capaz dee
informarr a relevncia provvel parra um documeento qualquerr da coleo.
Exxistem diverrsas formas de se obtter estatisticamente essaa
informao, porm, a base mattemtica com
mumente ado
otada para o
modelo o teorema de
d Bayes, sen
ndo muitas vvezes chamad
do de modelo
o
bayesianno. A teoria de
d Bayes aux
xilia a identifficao em caada termo daa
consulta o grau dee relevncia e de irrellevncia do documento,
a
ou
u seja, o que produz meno
or erro para o
selecionaando o mais adequado,
somatrio final, j que o grau finall de probabiliidade de relev
vncia dado
o
matrio dos grraus de relevncia de cadaa termo.
pelo som
Noo modelo probabilstico
o a funoo de similaaridade podee
aproveitaar-se das infformaes esstatsticas dee distribuio
o dos termoss
contidos no ndice. Com isso, determinadoss parmetross podem serr
o em questo,, obtendo assim resultadoss
ajustadoss de acordo com a coleo
mais releevantes.
Caada documennto modellado novameente como um
u vetor dee
caractersticas na form
ma x = (x1, x2,...xn), onnde cada x reepresenta um
m
obre sua auusncia ou presena no
o
termo e contm innformao so
documennto (forma binnria).
A identificao dos docum
mentos relevvantes a uma consulta
determinnada pelo clcculo de probaabilidade de cada um doss documentoss
da coleo ser relevannte consulta dada, onde os documen
ntos so ento
o
listados dde acordo coom o seu graau provvel dde relevnciaa, ou seja, naa
forma dee um ranking.
A probabilidadde de relevncia de um
m documento calculadaa
nada consulta;
atravs dda identificao de sua releevncia ou no determin
para cadda termo da consulta
c
seu grau de releevncia ideentificado no
o
documennto. A inform
mao de relevncia dee um termo calculadaa
estatisticamente com base na frequ
uncia desse termo nos do
ocumentos daa
coleo.
d relevnciaa
Neessa frmulaa, P(wi) a probabilidadde a priori de
(quando i=1) ou de irrrelevncia (q
quando i=2);; P(x/wi) a aparncia dee
m termo x.
relevnciia ou irrelevncia, dado um

76

J o P(x)) calculado pela


p seguintee frmula.

Essa frm
mula calcula a probabilidaade de observvao aleatriia de x
quee pode ser tannto relevante quanto irreleevante.
Segundo (Rijsbergenn, 1999), o modelo pro
robabilstico um
mo
odelo bastantte prximo ao
a modelo difuso,
d
porm
m necessriio que
alg
gumas regras probabilsticas sejam satissfeitas durantte a consulta.
ue no
O modeelo probabilsstico um dos poucos modelos qu
neccessita de alggoritmos adiccionais para associao dde peso aos termos
t
parra serem impplementados, e os algoritm
mos de ordenaao dos resu
ultados
so
o completameente derivadoos de sua teoria.
Os moddelos que procuram
p
am
mpliar o esscopo do modelo
m
pro
obabilstico so os seguinttes:
a) Redees de inferrncia - Essse modelo amplia o modelo
m
pro
obabilstico trratando o proocesso de reccuperao dee informao
o como
um
m processo dde raciocnio baseado em
m evidnciass representad
das em
doccumentos, seendo que esssas evidncias devem sser utilizadass para
esttimar a probaabilidade da informao a ser enconttrada pelo usurio.
Assim, redes dde infernciaa so projetaadas para inccorporar difeerentes
fon
ntes de evidncia ao estiimar a probaabilidade de relevncia de
d um
doccumento espeecfico para o usurio. Ao
o estimar proobabilidades usando
u
fon
ntes de eviidncia, reddes de infeerncias esteendem o modelo
m
pro
obabilstico clssico.
u
documennto especficco for
Em umaa dada connsulta, se um
con
nsiderado rellevante para mesma, criada
c
uma vvarivel aleattria e
asssociada a estee relacionameento. Essas variveis
v
podeem ser alteraadas de
aco
ordo com os eventos futuuros de formaa a estabeleccer relacionam
mentos
basseados nos evventos observvados.
b) Redees de crenaa - so repressentadas por um Grafo Acclico
Dirrigido (GAD
D), o qual exiibe o relacion
namento de ccausa e efeito
o entre
div
versas variveeis. Esse moddelo, de form
ma similar s rredes de inferrncia,
os documentos e consultas so modelados como suubconjuntos de um
pao de concceitos. Cada consulta
c
mapeada no esspao de con
nceitos,
esp
quee, por sua vezz, est conecttado ao espao de documeentos.

77

2.10 Indexao Automtica de Textos


Segundo Buckley (1996), o termo Indexao Automtica foi
introduzido por Gerard Salton quando na dcada de 1960, desenvolveu
um sistema de recuperao da informao (SRI) denominado SMART.
A indexao, dentro de um contexto de recuperao de
informao o processo de identificao das caractersticas de um
documento posteriormente inseridas em uma estrutura de ndice, para o
sistema de recuperao de informaes possa localizar rapidamente um
documento a partir de parmetros informados em uma consulta. Esse
ndice construdo por meio de um processo de indexao que poder
ser manual ou automtico.
No processo de indexao automtica de textos busca-se
identificar termos (palavras) relevantes nos documentos dentro de uma
coleo de documentos, e para depois inseri-las em ndice. A
identificao de termos simples ou compostos, a remoo de stopwords
(palavras irrelevantes), o stemming (normalizao morfolgica) e a
seleo de termos so consideradas as etapas que compe o processo de
indexao. Para cada uma dessas etapas existem diversas tcnicas.
Dependendo da situao, a ordem de aplicao dessas etapas pode variar
ou alguma delas pode no ser utilizada.
Normalmente os substantivos so palavras muito representativas
no contedo de um documento, por esse motivo, geralmente, vale a pena
fazer um pr-processamento do texto dos documentos contidos em uma
coleo, para determinar os termos a serem usados como termos de
ndice.
A utilizao de todos os termos de uma coleo para indexar seus
documentos, pode gerar muito rudo no processo de recuperao. Uma
das maneiras de reduo desse rudo consiste em reduzir o conjunto de
termos (palavras) que sero utilizadas para indexar os documentos.
Assim, o pr-processamento dos documentos de uma coleo, poderia
ser visto simplesmente como um processo de controlar o tamanho do
vocabulrio, ou seja, controlar o nmero das palavras distintas usadas
como termos de um ndice. Em consequncia da utilizao de um
vocabulrio controlado, um usurio pode ser surpreendido pela
recuperao de alguns documentos e com a ausncia de outros
documentos que ele esperava ver.
A indexao de todas as palavras, apesar de apresentar um ndice
com mais interferncia, torna a tarefa de recuperao mais simples e
mais intuitiva. Alm do pr-processamento do documento, outras

78

tcnicas podem ser utilizadas com o objetivo de melhorar o desempenho


da recuperao da informao.
A compresso de documentos tambm uma tcnica utilizada
para melhorar o desempenho da recuperao da informao, reduz
consideravelmente o tamanho do documento, pois um texto comprimido
ocupa menos espao de armazenamento e transmitido mais
rapidamente. A desvantagem o tempo gasto para compresso e
descompresso. Porm, as tcnicas modernas de compresso esto
mudando essa viso, pois as mesmas esto provendo grande velocidade
de compresso, e maior ainda de descompresso e rpido acesso
aleatrio sem a necessidade de decodificar o texto comprimido desde o
incio e procura no texto comprimido sem a necessidade de
descomprimir o mesmo.
A indexao tida como o processo de mapeamento dos termos
dos documentos, onde funo de similaridade ir comparar os termos
da pergunta com os termos presentes nos documentos, e assim localiza
os documentos que contenham o assunto desejado pelo usurio.
2.10.1 Arquivos Invertidos
De acordo com Baeza-Yates e Ribeiro-Neto (1999), A indexao
automtica possui quatro etapas bsicas a serem seguidas: identificao
de palavras, remoo de stopwords, stemming e formao de frasestermo. Aps a realizao dessas etapas, os termos resultantes so
armazenados em um arquivo de ndice utilizando uma estrutura de
arquivo invertido.
A estrutura de um arquivo invertido composta por dois
elementos: o vocabulrio e as ocorrncias. O vocabulrio o conjunto de
todos os termos (palavras) diferentes no texto. Para cada palavra, uma
lista de todas as posies onde o texto aparece criada, o conjunto de
todas as listas chamado de ocorrncias. As posies podem se referir
s palavras ou caracteres. Posies das palavras (posio i se refere a i-th
palavras). Os termos (palavras) so convertidos para letra minscula e
algumas no so indexadas. As ocorrncias apontam para as posies
dos caracteres no texto.

79
9

Figgura 24: Estruttura de arquivo


o invertido.

O espao neceessrio para o vocabulriio bastantee pequeno, o


ma constantee entre 0 e 1,
vocabulrio cresce coomo O(nB), onde B um
estando entre 0.4 e 0.6 na prtiica. Por exem
mplo, para 1Gb de umaa
manho de ap enas 5Mb. Este
E
tamanho
o
coleo o vocabulriio ter o tam
m a utilizao
o de outras tcnicas de no
ormalizao e
pode ser reduzido com
Stemmingg.
Baaeza-Yates e Ribeiro-Netto (1999) rellatam que ass ocorrnciass
demandaam muito esppao, pois cada
c
palavra que aparecee no texto
referenciiada uma vez nessa estrutu
ura, o espaoo extra O(n)). Mesmo no
o
consideraando as stopw
words, na prtica o espao extra nas ocorrncias
o

entre 30%
% e 40% do tamanho
t
do teexto.
Paara se reduzirr o espao utiilizado, podee ser utilizadaa uma tcnicaa
chamadaa endereameento de bloco
o em vez dee posies ex
xatas, onde o
texto ddividido em blocos,
b
e as ocorrncias
o
appontam aos blocos
b
onde a
palavra aaparece. Os ndices

clssicos que apoontam para as ocorrnciass


exatas so chamados de indexao
o total invertidda (full invertted ndex).
A figura 25 appresenta um texto
t
divididoo em quatro blocos, ondee
d blocos.
as ocorrncias denotaam nmeros de

Figgura 25: Estruttura de arquivo


o invertido divvidido em quatrro blocos.

80

2.10.2 Identificao das Palavras


A etapa de identificao das palavras consiste em realizar uma
anlise lxica, ou seja, converter um conjunto de caracteres em um
conjunto de palavras. Neste momento as palavras so identificadas e so
ignorados dgitos, hifens, marcas de pontuao e a situao das letras se
maisculas ou minsculas, os smbolos e caracteres de controle de
arquivo ou de formatao.
Para verificar se as palavras dentro de um texto existem, a
comparao de uma sequencia de caracteres retirados de um texto
tambm podem ser comparadas com dicionrios. A implementao
dessa comparao realizada quando se tem como objetivo verificar se
alguns documentos contm ou no caracteres invlidos ou palavras com
erros gramaticais. Uma vez identificados s sequncias de caracteres
invlidos, as mesmas devem ser eliminadas, e as palavras com erros
gramaticais corrigidas.
A adoo de um dicionrio torna-se opo muito interessante na
identificao de termos especficos, ou seja, quando se deseja utilizar
palavras pr-definidas no ndice, evitando que palavras desconhecidas,
sejam identificadas, e a utilizao de vocabulrio sobre o qual no tenha
domnio. Para implementar essa opo, pode-se utilizar um analisador
lxico.
Outro fator a ser considerado nessa etapa, a utilizao de
nmeros, geralmente no so considerados bons termos para compor o
ndice, pois os mesmos, no possuem um contexto de proximidade, haja
vista que sua natureza vaga. Por exemplo, considerando que um
usurio est interessado nos documentos que informem o nmero de
mestrandos em cincia da informao na UFSC entre 1992 a 2009. Essa
pergunta poderia ser especificada como um conjunto de termos de ndice
(cincia, informao, 1992, 2009). O problema que a presena desses
nmeros pode resultar em uma recuperao de uma variedade de
documentos que tenham qualquer uma destas duas datas. Mas em alguns
casos, importante considerar que dgitos podem aparecer dentro de
uma palavra. Por exemplo, 2.000 A.C. um termo de ndice claramente
importante. Nestes casos, no est claro quais regras deveriam ser
utilizadas, alm disso, uma sequncia de 11 dgitos que identificam o
nmero de CPF pode ser altamente relevante em um determinado
contexto e, nesse caso, deve ser considerado como um termo de ndice.

81

2.10.3 Remoo de Stopwords


Algumas palavras no podem ser adicionadas na estrutura de
ndices, que quando as mesmas esto presentes em um documento texto,
meramente com o intuito de conectar as frases.
Palavras que aparecem frequentemente em documentos de uma
coleo, devido a sua natureza frequente ou semntica so consideradas
sem valor para a recuperao. Estas palavras so denominadas palavras
negativas ou stopwords, e dificilmente so utilizadas em uma consulta,
pois sua indexao somente tornaria o ndice maior do que o necessrio.
Artigos, conjunes e preposies, entre outras classes de
palavras cuja finalidade auxiliar a estruturao da linguagem, no
necessitam ser includas na estrutura de ndice, pois as mesmas no so
capazes de selecionar documentos que possam ser relevantes, podendo
inclusive comprometer a preciso e a eficincia do sistema.
As palavras que aparecem em praticamente todos os documentos
de uma coleo, no so capazes de discriminar documentos e tambm
no devem constar na estrutura de ndice.
Existem listas de stopwords de domnio pblico as quais so
denominadas de stoplists, tambm chamadas de dicionrios negativos.
Essas listas podem ser livremente utilizadas na elaborao de
ferramentas que realizem o processo de remoo de stopwords.
A eliminao de stopwords reduz consideravelmente o tamanho
da estrutura do ndice podendo em uma lista invertida reduzir
consideravelmente o tamanho original do documento, mas tambm
poder apresentar falhas em alguns casos. Um exemplo disto quando
um usurio esteja realizando uma consulta em uma coleo de
documentos cujo objetivo encontrar documentos que contenham a
frase ser ou no ser, onde a eliminao de stopwords poderia deixar
somente o termo ser, tornando assim quase impossvel reconhecer a
frase especificada pelo usurio em algum documento. Em decorrncia de
problemas dessa natureza, que a utilizao de ndices completos em
que so indexadas todas as palavras contidas em documento, se torna
mais atraente.
2.10.4 Normalizao Morfolgica (Stemming)
Durante o processo de indexao automtica de texto existe uma
etapa de normalizao morfolgica mais conhecida como stemming.
Essa etapa consiste em eliminar as variaes morfolgicas de uma

82

palavra, por meio da identificao do seu radical. Os prefixos e os


sufixos so retirados, e os radicais resultantes so adicionados estrutura
de ndice. Nesse processo ocorre uma reduo do tamanho da estrutura
do ndice, pois o nmero de termos distintos do ndice reduzido.
Apesar do aparente benefcio da utilizao dessa tcnica,
atualmente a maioria dos motores de busca no utiliza nenhum tipo de
algoritmo de stemming, visto que o mesmo pode acabar utilizando
palavras muito abrangentes, assim no recupera documentos que
contenham termos especficos.
2.10.5 Identificao de Termos Compostos
A etapa de identificao de termos compostos tambm conhecida
como word-phrase formation, busca identificar expresses compostas de
dois ou mais termos. Nessa etapa, so consideradas algumas palavras
que possuem significados diferentes quando utilizadas em conjunto. Isso
geralmente ocorre porque existem conceitos que s podem ser descritos
pela utilizao de duas ou mais palavras adjacentes. Algumas vezes uma
palavra agrupada com outra a fim de modificar ou refinar seu
significado, como por exemplo, o ato administrativo, no ato, ato
simblico, ato institucional. Quando isso ocorre, essas duas ou mais
palavras no podem ser separadas quando indexadas. Caso sejam
separadas, perde-se o conceito ou sentido da mesma.
Existem basicamente duas formas de identificar expresses, onde
a primeira realizada com base na identificao de termos que coocorrem com frequncia em uma coleo de documentos. Nesse caso
torna-se interessante que o sistema apresente ao usurio as expresses
identificadas e repasse ao usurio a deciso sobre quais so as corretas.
A segunda consiste na utilizao de um dicionrio de expresses que
indique as palavras que devem ser combinadas.
Esse tipo de tcnica torna a busca mais precisa, j que os termos
compostos aparecem com frequncia em um nmero menor de
documentos, e tornam a consulta menos abrangente. Porm, esses termos
so geralmente armazenados no ndice de forma composta e, nesse caso,
o usurio no pode localiz-los de forma separada. Uma soluo para
esse problema consiste em armazenar ambas as formas: combinada e
separada.

83

2.11 Clculo de Relevncia


A relevncia o cerne da recuperao de informao, pois o
objetivo principal de um sistema de recuperao de informao
recuperar os documentos mais relevantes para o usurio a partir de uma
consulta realizada pelo mesmo. Documentos relevantes so aqueles que
esto inseridos no contexto da pesquisa realizada pelo usurio, e que tm
alguma relao com a informao desejada.
Em um documento, algumas palavras so mais importantes do
que outras, posto que as palavras utilizadas com mais frequncia com
exceo das stopwords costumam ter um significado mais importante.
As palavras constantes em ttulos ou em outras estruturas, tambm
possuem uma importncia maior, pelo fato de o autor do documento por
algum motivo ter considerado os mesmos muito relevantes. Os
substantivos e complementos tambm podem ser considerados mais
relevantes que os demais termos de uma orao.
Sendo assim, o clculo de relevncia de uma palavra, pode
basear-se na frequncia das mesmas, na anlise estrutural do documento
ou na posio sinttica de uma palavra.
As tcnicas mais comuns so baseadas na frequncia com que as
palavras aparecem na coleo de documentos, pois as outras necessitam
de mtodos adicionais (anlise de linguagem natural), por exemplo que
exigem maior complexidade (conhecimento).
Segundo Rijsbergen (1999), existem vrias frmulas que foram
desenvolvidas, ou aplicadas com o intuito de calcular a importncia de
uma palavra baseando-se em sua frequncia. Essa importncia costuma
ser chamada de peso e indica o grau de relao entre a palavra e os
documentos em que ela aparece.
Vrias frmulas de identificao de peso, como exemplo as
baseadas em clculos de frequncia absoluta, frequncia relativa,
frequncia inversa de documentos.
A frequncia absoluta, tambm conhecida por frequncia do
termo ou term frequency (TF), nada mais do que a medida da
quantidade de vezes que um termo aparece em um documento. Essa a
medida de peso mais simples que existe, mas no aconselhada porque
no capaz de fazer distino entre os termos que aparecem em poucos
documentos e os termos que aparecem em vrios documentos. Em
alguns casos esse tipo de anlise poderia ser extremamente importante,
pois os termos que aparecem nos documentos no so capazes de
discriminar um documento de outro.

84

Alm disso, a frequncia absoluta no leva em conta a quantidade


de palavras existente no documento. Com isso, uma palavra pouco
frequente em um documento pequeno pode ter a mesma importncia de
uma palavra muito frequente de um documento grande.
A frequncia relativa busca solucionar esse ltimo problema
levando em conta o tamanho do documento, ou seja, a quantidade de
palavras que ele possui, e normalizando os pesos de acordo com essa
informao. Sem essa normalizao, os documentos, grandes e
pequenos, acabam sendo representados por valores em escalas
diferentes. Com isso os documentos maiores possuem melhores chances
de serem recuperados, j que recebero valores maiores no clculo de
similaridades.
A frequncia relativa (Frel) de uma palavra x em um documento
qualquer calculada dividindo-se sua frequncia absoluta (Fabs) pelo
nmero total de palavras no mesmo documento (N):
FrelX = FabsX
N
Para solucionar o outro problema da frequncia absoluta, onde a
quantidade de documentos em que um termo aparece, no considerada,
torna-se ento necessrio obter essa informao. A frequncia de
documentos que indica a quantidade de documentos em que um termo
aparece.
De posse da frequncia absoluta e da frequncia de documentos
possvel calcular a frequncia inversa de documentos inverse document
frequency (IDF), capaz de aumentar a importncia de termos que
aparecem em poucos documentos e diminuir a importncia de termos
que aparecem nos documentos, justamente pelo fato dos termos de baixa
frequncia de documentos serem, em geral, mais discriminantes.
2.12 Avaliao da Recuperao da Informao
O desempenho de um sistema de recuperao de informaes
avaliado de acordo com a sua capacidade em recuperar o maior nmero
de itens relevantes, ao mesmo tempo em que filtra ao mximo os itens
irrelevantes. em cima dessa estratgia que as mtricas so
desenvolvidas e aplicadas.
Segundo Baeza-Yates e Ribeiro-Neto (1999, p.73), o objetivo
preliminar de um sistema de recuperao de informao recuperar
todos os documentos que so relevantes a uma solicitao do usurio
com uma quantidade mnima de documentos no-relevantes, sendo que
as mtricas mais importantes para a avaliao do resultado de um

85

sistema de recuperao de informaes so: revocao (recall) e


preciso (precision).
a) Revocao (Recall) - Revocao ou abrangncia (do ingls:
Recall) mede a habilidade do sistema em recuperar os documentos mais
relevantes para o usurio.
O revocao calculada da seguinte forma:
Revocao =

nmero de documentos relevantes recuperados


total de documentos relevantes na coleo

b) Preciso (precision) - Preciso (do ingls: Precision) mede a


habilidade do sistema de manter os documentos irrelevantes fora do
resultado de uma consulta.
A preciso calculada da seguinte forma:
Preciso =

nmero de documentos relevantes recuperados


total de documentos recuperados

Segundo Baeza-Yates e Ribeiro-Neto (1999, p.77), a preciso


capaz de indicar o trabalho que o usurio teria para analisar uma
determinada busca. Isso significa que, se 60% dos itens retornados
fossem relevantes, o usurio teria desperdiado 40% de seu esforo
analisando itens irrelevantes.
Esses dois parmetros esto inversamente relacionados,
significando que a melhoria de um, implica na piora do outro. O grfico
ilustra essa relao:

86

Grfico 1: Relao Precciso x Revocao


Fonte: Baaeza-Yates e Riibeiro-Neto (1999, p.77)

o de sistem
mas, principallmente
Com o objetivo de comparao
acaadmicos, eexistem alguumas cole
es pblicass de docum
mentos
preeparadas espeecialmente paara o processo
o de avaliaoo. Sabe-se qu
ue para
sistemas diferenntes possam ser avaliadoss e comparaddos, deve-se adotar
ma coleo esppecfica.
um
Segundo Baeza-Yatess e Ribeiro-N
Neto (1999, p. 85), a coleo mais
con
nhecida a T
Text REtrievaal Conference (TREC) (h ttp://trec.nistt.gov/).
Neesta confernccia recebe-se um conjunto
o de tcnicas experimentaiis para
quee seja avaaliado posteriormente em
e
sistemass de recuperao
infformaes, ppor exemploo, oferecem uma srie de consultas prdeffinidas e conjjuntos de doccumentos releevantes a cadaa uma delas.
O objetivvo principal da recuperao automticca de informao
enccontrar todoss os documenntos relevantees para determ
minada consu
ulta, ou
maaximizar o reccall, evitandoo os erros, ou
u seja, deve-sse reduzir o nmero
n
de documentos no relevantees selecionad
dos ao menor nmero posssvel, o
e
corresponde
e
a
aumentar
a
preciso.
que

2.1
13 Indexao Semntica Latente
L

87

A Indexao Semntica Latente LSI (do ingls - Latent


Semantic Indexing) foi desenvolvido pelo Bellcore (agora Telcordia) no
final dos anos 1980 (1988), sendo patenteado em 1989
(http://lsi.argreenhouse.com/lsi/LSI.html).
Os primeiros documentos sobre LSI foram publicados por:
Dumais, ST, Furnas, GW, Landauer, TK e Deerwester, S. (1988),
"Using latent semantic analysis to improve information retrieval." In
Proceedings of CHI'88: Conference on Human Factors in Computing,
New York: ACM, 281-285.
Deerwester, S., Dumais, ST, Landauer, TK, Furnas, GW e
Harshman, RA (1990) "Indexao pela anlise semntica latente."
Journal of the Society for Information Science, 41(6), 391-407.
Foltz, PW (1990) "Usando Indexao Semntica Latente para
Filtragem de Informao". In RB Allen (Ed.) Proceedings of the
Conference on Office Information Systems, Cambridge, MA, 40-47.
De acordo com a teoria desenvolvida por Deerwester, Dumais et
al. (1990), espera-se encontrar uma estrutura semntica latente em uma
coleo de documentos a partir da utilizao da LSI (do ingls Latent
Semantic Indexing), e com isto expandir a consulta e recuperar os
documentos mais relevantes para o usurio. Este modelo de recuperao
de informao apesar de ter a palavra semntica em seu nome, no
semntico, mas sim baseado em mtodos estatsticos.
A Indexao Semntica Latente foi idealizada com o objetivo de
reduzir os problemas de sinonmia4, polissemia5 e de palavras
associadas encontradas nos modelos de recuperao automtica de
informao. A polissemia interfere na preciso das pesquisas, pelo fato
de que a mesma pode retornar documentos que no tm relao com a
pesquisa desejada. J no caso da sinonmia, so retornados poucos
documentos, mesmo que existam vrios documentos que poderiam ser
recuperados por causa de sinnimos. Mas a situao mais crtica das
palavras associadas, pois embora existam documentos visivelmente
relevantes, muitos documentos no so recuperados.
O interesse por Indexao Semntica Latente tem crescido
consideravelmente desde a sua concepo, ao ponto do maior site de
busca do mundo o Google realizar investimentos nesta rea, pois como
foi divulgado no seu site, no 6 dia 23 de abril de 2003, o Google

Sinonmia - Vrias palavras que significam a mesma coisa


Polissemia - Palavras que tem mais de um significado
6
http://www.google.com/press/pressrel/applied.html
5

88

comprou a Applied Semantics7 por considerar que uma empresa


inovadora e possuir uma experincia comprovada em indexao
semntica.
No campo da recuperao da informao, um dos maiores
problemas, o casamento lxico entre as palavras digitadas pelo usurio
na consulta com os documentos existentes em uma coleo.
Esse mtodo oferece uma anlise semntica dos termos em todos
os documentos que foram indexados dentro uma coleo documentos, ou
seja, procura superar problemas de comparaes lexicais de termos ao
considerar uma estrutura semntica latente implcita pela variabilidade
das palavras. A estrutura semntica definida como a estrutura que
representa a correlao de termos individuais nos documentos. Nesse
caso, a semntica refere-se ao fato de documentos poderem ser
referenciados pelos seus prprios termos.
A indexao semntica latente tem seu funcionamento em torno
da observao de que uma matriz de termos de ndices por documentos
esparsa, ou seja, a maioria dos termos no aparece na maioria dos
documentos, sendo assim a matriz poderia ser composta de vrios
valores nulos. Posto isto, essa matriz pode ser ento reduzida a uma
matriz menor e mais densa, atravs da aplicao de vrias tcnicas
matemticas. O quanto se deseja reduzir a matriz, uma questo de
quanta informao se est disposto a sacrificar para ganhar revocao
originada pela combinao.
Se fizermos uma anlise da expresso Indexao Semntica
Latente vamos verificar que a palavra "latente" significa algo que est
presente, mas obviamente no visvel. J a palavra "semntica" refere-se
ao significado da lngua, ou seja, em oposio ao que realmente dito ou
escrito, e a palavra "indexao" a identificao do significado de um
documento a partir do seu objeto.
A maioria dos mtodos considera a ocorrncia dos termos,
informados na consulta, e nos documentos para realizar os clculos de
similaridade que indicaro o grau de relevncia de um documento diante
dessa consulta. Muitas vezes alguns termos importantes para o sentido
da busca que est sendo realizada no so informados por mero
desconhecimento ou mesmo esquecimento do usurio no momento de
construir a consulta. Assim, na abordagem em que se considera apenas a
ocorrncia dos termos para se definir o grau de relevncia, muitos

Applied Semantics uma empresa produtora de softwares aplicativos situada em Santa Monica
Califrnia USA.

89

documentos relevantes ficaro de fora (DUMAIS et. al., 1988; BLAIR;


MARON, 1985).
Na tentativa de resolver essa deficincia, o mtodo de indexao
semntica latente, utiliza uma abordagem que leva em considerao
coocorrncia de termos, isto , conjuntos de termos que frequentemente
so encontrados nos mesmos documentos. Pois, considerando que se
estes tais termos surgem com frequncia nos mesmos documentos
relativos determinada rea, isto pode evidenciar que existe neste caso
uma relao semntica latente, ou seja, no explcita. Com base em
tcnicas estatsticas, o modelo de indexao semntica latente pode
descobrir as possveis correlaes existentes.
Pode-se constatar que num vocabulrio utilizado pelo ser humano,
a utilizao das palavras caracterizada por um extenso uso de
sinnimos. Portanto, uma comparao direta por termos pode ser
deficiente.
De acordo Dumais et. al. (1988), as pessoas normalmente desejam
acessar a informao baseada no seu significado, e a comparao direta
de palavras no consegue realizar esse trabalho com sucesso.
Segundo Deerwester, Dumais et. al. (1990), a maior contribuio
da tcnica de indexao semntica latente que consultas e documentos
no precisam possuir termos em comum para serem considerados
semelhantes. Caso o vetor de consulta e o vetor de um documento
estejam prximos no espao geomtrico semntico, o documento
considerado similar consulta.
Michael W. Berry et al. (1994) descrevem a indexao semntica
latente aplicada recuperao de informao apontando vantagens,
relacionadas sinonmia e polissemia, entretanto, a tcnica de LSI
apresenta algumas desvantagens como:
Alto custo computacional despendido em clculos pela utilizao
do modelo algbrico SVD manipulando matrizes esparsas.
Dificuldade para determinar a dimenso ideal do espao
conceitual reduzido - Visando determinar a dimenso ideal os
pesquisadores usaram tentativa e erro. Em um experimento Dumais
utilizou k variando de 200 a 350 nos experimentos da TREC-3, quando
experimentava LSA com tcnicas de expanso de consultas, mas no
existe, consenso sobre o nmero ideal de dimenses do espao reduzido
e, devido ao custo computacional do mtodo, o SVD impraticvel para
utilizar tentativa e erro.
Problemas de escalabilidade - Quando documentos so
adicionados coleo, os novos termos pertencentes a esses documentos
no so diretamente considerados na comparao dos vetores. O nmero

90

de termos no considerados cresce proporcionalmente ao nmero de


documentos adicionados. Para que esses termos sejam considerados,
uma nova execuo de SVD torna-se necessria e o custo computacional
de execut-la deve ser considerado. Contudo, se a coleo estvel, o
SVD executado uma nica vez e o custo computacional aceitvel.
Segundo Deerwester, Dumais et al. (1990),
a indexao
semntica latente tem como uns dos objetivos de melhorar a recuperao
de informao atravs do descobrimento de associaes entre os termos
em uma grande coleo de textos a fim de criar um espao semntico.
Exemplificando, atravs da anlise de uma coleo de textos utilizando
indexao semntica latente, o sistema aprender que quando realizamos
uma consulta informando venda de carros, tem-se como retorno da
consulta documentos que contenham as frases venda de carros, venda de
veculos e venda de automvel, j que carro, veculo e automvel so
sinnimos. Da mesma forma, em uma consulta por banco de dados, o
resultado da consulta ser somente documentos que contenham uma
relao de banco de dados deixando de fora documentos que se referem
a um banco como entidade financeira e banco como objeto de descanso.
Este modelo pode ser definido como uma tcnica automtica que
analisa as coocorrncias de termos em documentos textuais com vistas a
descobrir relacionamentos latentes entre eles. Para identificar as relaes
semnticas, a indexao semntica latente utiliza o modelo de
Decomposio de Valores Singulares SVD (do ingls Singular Value
Decomposition).
De acordo com Deerweter (1990), a estrutura de anlise da
indexao semntica latente - LSI refere-se a uma matriz esparsa termodocumento. Posto isto, j que trabalha com vrios vetores coluna,
criando dessa forma uma matriz, onde nas linhas esto representados os
termos indexados de cada documento e nas colunas o documento, dessa
forma criada a relao matriz termo-documento. Explicando melhor
essa relao, seja ti a linha e dj a coluna da matriz, e seja o elemento
da matriz Oij que representaria o nmero de vezes que o termo i
aparece no documento j.
Uma vez indexados os termos de cada documento, e tambm
criada relao termo-documento, ento aplicado o SVD, tendo como
resultado dessa decomposio trs matrizes "otimizadas". Estas Matrizes
recebem a denominao de otimizadas. Tal denominao decorre do
fato que nas mesmas vo ser eliminados dados que no contribuem na
matriz termo-documento. Uma vez escolhido o nvel das matrizes U', S'
e V' as matrizes esto prontas para receber as consultas fornecidas ao

91

sistema. Essa matriz analisada por um SVD que a decompe em trs


outras matrizes:
1) A primeira matriz possui colunas ortogonais e representa
os termos - a matriz U que contm os termos;
2) A segunda, que tambm possui colunas ortogonais,
representa os documentos - a matriz S que contm os
valores mais representativos da matriz termo-documento
(os valores singulares da matriz);
3) A terceira representa a matriz diagonal de valores
singulares - matriz V que contm os documentos.
Uma vez criadas estas trs matrizes escolhido um tamanho
(nvel k) para trabalhar com as trs matrizes. Escolhido este valor, so
criadas trs matrizes (que sero chamadas U', S' e V') de nvel k, a estas
trs novas matrizes multiplicado o vetor Q, que representa uma
consulta. O resultado dessa multiplicao ser um vetor cujo contedo
uma lista dos documentos mais relevantes para a consulta fornecida. O
resultado da consulta feita ao sistema ser uma lista ordenada por
relevncia dos documentos que so mais relevantes para a consulta
fornecida. Atravs do produto dessas trs matrizes que os
relacionamentos latentes so estabelecidos.
No mbito da recuperao da informao, o SVD pode ser visto
como uma tcnica criada para derivar um conjunto de variveis
indexadas no correlacionadas (Deerwester, Dumais et al., 1990), em
que cada termo e documento so representados por um vetor de pesos,
onde o peso deve indicar a fora da associao entre um termo e um
documento.
A definio de peso pode ocorrer por diferentes mtodos, como,
por exemplo, 0 e 1, ou seja, indicando se um termo ocorre ou no no
documento, ou um valor que indica a quantidade de ocorrncias de um
termo em um documento. Uma consulta representada pela soma dos
vetores dos termos que compem a consulta. O conjunto de potenciais
documentos encontrado ao se calcular, por exemplo, o cosseno ou a
distncia do pseudo-documento (i.e., os termos que formam a consulta)
em relao ao conjunto total de documentos. (DEERWESTER,
DUMAIS et al., 1990; BAEZA-YATES e RIBEIRO-NETO, 1999).
Um exemplo apresentado por Garcia (2006) sobre como a
indexao semntica latente funciona:
d1: Shipment of gold damaged in a fire.

92

d2: Delivvery of silver arrived in a silver truck.


d3: Shipm
ment of gold arrived in a truck.
t
d termo paraa pontuar o peso do
Garcia ussa o modelo de contador de
termo e o pesso da consullta, e que o peso locall definido como
oco
orrncias de ppalavras. Na indexao dos documenttos foram utillizadas
as seguintes reggras:
a) sstopwords no so ignorad
das;
b) O texto tokkenizado e collocado em caaixa baixa;
c) N
No usado stemming; e,
d) O
Os termos so classificado
os em ordem alfabtica.
o
encontrar
e
oss documento
os que
Neste exxemplo, o objetivo
posssuam as palaavras gold sillver truck.
Passo 1: Contam-see as ocorrnccias dos term
mos e constr
i-se a
maatriz A termo--documento e a consulta na
n seguinte m
matriz:

Passo 2: Decompe-se a matriz A


VT
A = USV

93
3

Paasso 3: Impleementa-se o segundo


s
rankk aproximando primeiro ass
colunas U e V e depois as colunas e linhas de S
S.

Paasso 4: Procuura-se o novo


o vetor de cooordenadas do
d documento
o
dentro deessa reduoo de duas dim
menses espaacial. As filaas do vetor V
detm vaalores. Estas so
s as coordeenadas de cadda vetor de do
ocumento:
d11(-0.4945, 0.66492)
d22(-0.6458, -0..7194)
d33(-0.5817, 0.22469)
vo vetor de coordenadas da consultaa
Paasso 5: Encoontrar o nov
dentro daa reduo de duas dimens
es espaciais..

Esssas so as novas coord


denadas da consulta vettor em duass
dimensees. Note com
mo essa matrizz agora difeerente da con
nsulta originall
matriz q determinada no passo 1.

94

Passo 6: O Rank dos documentoss posto em ordem decreescente


da consulta do ccosseno de similaridade do
os documentoos.

Constataa-se que a ponntuao do do


ocumento d2 maior de d3
3 e d1,
e o seu vetor approxima-se mais
m da consullta do que os outros vetorees d3 e
d1.

95
5

Grrfico 2: Dimeenso LSI

mbm que a teeoria do Term


mo Vetor ainda utilizadaa
Obbserva-se tam
no incioo e no final doo LSI.
A seguir appresentam-se os proceddimentos metodolgicos
m
s
utilizados para o deseenvolvimento dessa pesquiisa.

96

3 Procedimentos Metodolgicos
Na composio desta dissertao esto inseridas as definies dos
procedimentos metodolgicos utilizados no decorrer da pesquisa, como
o tipo de pesquisa, tcnica para coleta dos dados, explorao do material
e por fim quanto ao tratamento e apresentao dos resultados da
pesquisa, bem como, mostrar como o objeto da pesquisa se inscreve no
campo dos conhecimentos sobre o tema, e como estes conhecimentos
permitiram atingir os objetivos da pesquisa.
3.1 Tipo da Pesquisa
Para Marconi e Lakatos (2008), a pesquisa um procedimento
reflexivo sistemtico, controlado e crtico, que permite descobrir novos
fatos ou dados, relaes ou leis, em qualquer campo do conhecimento. A
pesquisa um tratamento formal, com mtodo de pensamento reflexivo,
que requer um tratamento cientfico e se constitui no caminho para
conhecer a realidade ou para descobrir verdades parciais.
Segundo Gil (2002), a pesquisa definida por como [...] um
processo que tem por finalidade descobrir as respostas para os problemas
mediante a utilizao de procedimentos cientficos.
A presente pesquisa tem carter exploratrio. Segundo Gil (2002),
as pesquisas exploratrias tm como objetivo proporcionar maior
familiaridade com o problema, com vistas a torn-lo mais explcito ou a
constituir hipteses.
Na pesquisa realizada na internet atravs de sites de busca como o
Google
<http://www.google.com.br>,
Bing
Microsoft
<http://www.bing.com>,
e
Author
Mapper
<http://www.authormapper.com>, bem como o portal da CAPES, no
foi encontrada nenhuma literatura sobre preservao e recuperao de
informaes digitais em bibliotecas digitais Greenstone, evidenciando
que uma rea pouco explorada ou at inexplorada.
De acordo com Marconi e Lakatos (2008), quando uma rea
pouco explorada, trata-se de uma pesquisa exploratria.
Quanto natureza da pesquisa, trata-se de uma pesquisa aplicada,
pois sua preocupao est menos voltada para o aperfeioamento de
teorias gerais, mas sim em gerar conhecimentos para a aplicao prtica
sobre preservao e recuperao da informao digitais na biblioteca
digital Greenstone.

97

Nesta pesquisa realizou-se um levantamento bibliogrfico do


tema proposto para respaldar a fundamentao terica e a anlise dos
dados. A pesquisa bibliogrfica e exploratria se valeu do levantamento
dos documentos selecionados como fontes de pesquisa, proporcionando
a fundamentao terica.
A presente pesquisa utiliza-se de procedimentos qualitativos e
quantitativos para a obteno, anlise e interpretao dos dados.
A anlise, apesar de ocorrer desde o incio do processo, se torna
mais sistemtica e formal aps o encerramento da coleta de dados,
quando se transforma em um processo indutivo, interativo e recorrente,
porque o avaliador, muitas vezes, volta s fontes para confirmar e
ampliar os dados e para validar os resultados e concluses.
De acordo com Minayo (1993, p.22), os procedimentos
qualitativos se referem ao carter subjetivo de alguns temas, ou seja,
trabalha com o universo dos significados, aspiraes, crenas, valores e
atitudes; enquanto que os quantitativos esto relacionados ao aspecto
objetivo obtido atravs de dados matemticos e anlises estatsticas.
Nas pesquisas qualitativas os procedimentos de coleta,
interpretao e anlise dos dados so mais flexveis e podem ser
construdos ao longo do processo.
O mtodo da pesquisa foi descritivo, sendo os resultados
expressos por meio de quadros, tabelas, figuras e grficos e respectiva
anlise.
3.2 Estudo de caso
Segundo Gil (2002), o planejamento da pesquisa exploratria
bastante flexvel, e na maioria dos casos assume a forma de pesquisa
bibliogrfica ou de estudo de caso.
Gil (2002) ressalta que nas cincias, durante muito tempo, o
estudo de caso foi encarado como procedimento pouco rigoroso, que
serviria apenas para estudos de natureza exploratria.
De acordo com Yin (2005), encarado como o delineamento mais
adequado para a investigao de um fenmeno contemporneo dentro de
seu contexto real, onde os limites entre o fenmeno e o contexto no so
claramente percebidos. O estudo de caso uma inquirio emprica que
investiga um fenmeno contemporneo dentro de um contexto da vida
real, quando a fronteira entre o fenmeno e o contexto no claramente
evidente e onde mltiplas fontes de evidncia so utilizadas. Essa
definio, apresentada como uma definio mais tcnica ajuda a

98

compreender e distinguir o mtodo do estudo de caso de outras


estratgias de pesquisa.
O quadro 2 exemplifica as diferentes situaes para escolha
correta da estratgia de pesquisa.
Estratgia

Forma de
questo de
pesquisa

Exige controle
sobre eventos
comportamentais

Focaliza
acontecimentos
contemporneos

Experimento

Como, por que

Sim

Sim

Levantamento

Quem, o que,
onde, quantos,
quanto

No

Sim

Anlise de
Arquivos

Quem, o que,
onde, quantos,
quanto

No

Sim/no

Pesquisa
histrica

Como, por que

No

No

Estudo de caso

Como, por que

No

Sim

Quadro 2: Situaes relevantes para diferentes estratgias de pesquisa


Fonte: (YIN, 2005, p.24)

Segundo Yin (2005), em geral, os estudos de caso representam a


estratgia preferida quando se colocam questes do tipo como e
porque, quando o pesquisador tem pouco controle sobre os
acontecimentos e quando o foco se encontra em fenmenos
contemporneos inseridos em algum contexto da vida real. Pode-se
ento complementar esses estudos de casos explanatrios com dois
outros tipos estudos exploratrios e descritivos.
Nesta pesquisa, a escolha da tcnica de estudo de caso teve como
base as seguintes justificativas:
a) Trata-se de uma investigao emprica sobre a realidade
contempornea de uma determinada organizao;

99

b) A notria disponibilidade e facilidade de acesso do


pesquisador aos dados e fatos pertinentes realidade da
organizao investigada;
Martins (2006, p. 2) ressalta que:
[...] quando um Estudo de Caso escolhido
original e revelador, isto , apresenta um
engenhoso recorte de uma situao complexa da
vida real, cuja anlise-sntese dos achados tem a
possibilidade
de
surpreender,
revelando
perspectivas que no tinham sido abordadas por
estudos assemelhados, o caso poder ser
qualificado como importante, e visto em si mesmo
como uma descoberta.

Martins (2006), ainda destaca que o sucesso de um estudo de


caso, em muito, depende da perseverana, criatividade e raciocnio
crtico do investigador para construir descries, interpretaes, enfim,
explicaes originais que possibilitem a extrao cuidadosa de
concluses e recomendaes.
Nesta pesquisa o estudo de caso sobre a Biblioteca Digital
Greenstone.
3.2 Coleta de Dados
Segundo Gil (2002), o elemento mais importante para a
identificao de um delineamento o procedimento adotado para a
coleta de dados. Assim, podem ser definidos dois grandes grupos de
delineamentos como aqueles que se valem das chamadas fontes de
papel; e aqueles cujos dados so fornecidos por pessoas. No primeiro
grupo esto a pesquisa bibliogrfica e a pesquisa documental. No
segundo esto pesquisa experimental, a pesquisa ex-post facto, o
levantamento e o estudo de caso.
Na composio do corpus desse trabalho, esto inseridos os
procedimentos para atingir os objetivos propostos que constituem a
natureza bibliogrfica. Conforme Gil (2002), a natureza bibliogrfica a
elaborao da pesquisa a partir de material j publicado, constitudo
principalmente de livros, artigos de peridicos e atualmente com
material disponibilizado na Internet.
Nessa pesquisa realizou-se um estudo sobre preservao lgica e
recuperao de informao digital na biblioteca digital Greenstone, pela
explorao de material bibliogrfico, e com isto proporcionar

100

embasamento terico para obter-se maior familiaridade com o problema


a fim de alcanar os objetivos da pesquisa, para tanto, na explorao do
material bibliogrfico foram considerados nos idiomas portugus, ingls
e espanhol como fontes de dados os documentos em papel e em meio
eletrnico.
A documentao indireta documental trata especificamente da
coleta de informaes de fontes primrias, tais como documentos de
arquivos pblicos e privados, cartas, contratos, dirios e autobiografias.
De acordo com (LAKATOS; MARCONI, 2008), a coleta de
dados baseada na documentao indireta consiste na leitura e anlise de
materiais produzidos por terceiros, os quais podem apresentar-se sob a
forma de textos, jornais, gravuras, fotografias e filmes, entre outras. Essa
documentao indireta bibliogrfica trata especificamente de coletar
informaes de fontes secundrias, tais como relatrios de pesquisa
baseada em trabalho de campo, estudos histricos recorrendo aos
documentos originais e pesquisas utilizando correspondncias de
terceiros, entre outras. Essa tcnica bastante utilizada em pesquisas nas
quais o foco principal o estudo de caso e em pesquisas puramente
tericas.
De acordo com Yin (2005), a evidncia para estudos de caso
podem vir de seis fontes: documentos, registros arquivais, entrevistas,
observao direta, observao participante e artefatos fsicos. O ponto
chave na coleta de dados em um estudo de caso, que a mesma no se
trata de meramente de registrar mecanicamente, como se faz em outros
tipos de pesquisa, pois, pode-se interpretar as informaes na medida em
que esto sendo coletadas e saber imediatamente, por exemplo, se as
diversas fontes de informaes se contradizem e levam a necessidade de
evidncias adicionais.
Com relao utilizao de documentos como fonte de coleta de
dados, foi tambm utilizada uma das colees de demonstrao da
Biblioteca digital Greenstone.
De acordo com Cervo e Bervian (1983, p. 155), a coleta de dados
conceituada de forma pragmtica como sendo a tarefa importante da
pesquisa, envolve diversos passos, como a determinao da populao a
ser estudada, a elaborao do instrumento de coleta, a programao da
coleta e tambm os dados da prpria coleta.

101

3.3 Unidade de Anlise


Segundo Yin (2005), a definio da unidade de anlise est
relacionada maneira como so definidas as questes iniciais da
pesquisa.
Yin (2005, p. 45) ressalta o que uma unidade de anlise:
O livro The Soul of a New Machine (1981), escrito
por Tracy Kidder, foi vencedor do prmio
Pulitzer8. O livro, tambm um Best-seller, trata do
desenvolvimento de um novo computador
produzido pela Data General Corporation, que foi
projetado para competir diretamente com outro
computador
desenvolvido
pela
Digital
Equipament Corporation.
De fcil Leitura, o livro descreve como a equipe
de engenheiros da Data General inventou e
desenvolveu o novo computador. Comea com a
conceitualizao inicial do computador, e termina
quando a equipe entrega o controle da mquina
equipe de marketing da Data General.
um exemplo excelente de estudo de caso. No
entanto, o texto de Kidder tambm ilustra um
problema fundamental quando se realizam estudos
de caso o de definir a unidade de anlise. O
estudo de caso sobre o computador ou sobre a
dinmica de um pequeno grupo a equipe de
engenheiros? A resposta muito importante se
pretendemos entender como o estudo de caso se
relaciona com corpo mais amplo de conhecimento
ou seja, se devemos generalizar a questo
tecnologia ou dinmica de grupo.

A questo principal a ser esclarecida nesta pesquisa, verificar se


os recursos disponveis na biblioteca digital Greenstone so suficientes
para realizar a preservao lgica de documentos digitais e sua
recuperao, e a se BDG atende a comunidade que utiliza o Greenstone.
A unidade de anlise dessa pesquisa uma coleo de
dissertaes do programa de ps-graduao em Cincia da Informao
da Universidade Federal do Estado de Santa Catarina que foram criadas
8

N. de T. Lurea instituda em 1917 pelo jornalista norte-americano Joseph


Pulitzer e outorgada anualmente pela Universidade de Colmbia. Divide-se
em oito prmios de jornalismo, cindo de literatura, quatro bolsas de estudo e
um prmio de msica.

102

e importadas para a BDG. Tambm foram cirados e importados para


essa coleo, vrios arquivos em diferentes formatos. Faz parte da
unidade de anlise a comunidade lusfona do Greenstone.

3.5 Universo da Pesquisa


A pesquisa documental, segundo Gil (2008), semelhante
bibliogrfica, sendo que a nica diferena est na natureza das fontes,
pois na bibliogrfica, se utiliza fundamentalmente as contribuies dos
diversos autores sobre determinado assunto; a pesquisa documental valese de materiais que no receberam um tratamento analtico, ou que
podem ser reelaborados conforme os objetivos da pesquisa, como o que
ocorre com essa pesquisa, pois os dados coletados foram analisados
conforme os objetivos. Tambm foram efetuadas pesquisas em manuais
de utilizao da Biblioteca Digital Greenstone.
Nesta pesquisa, o universo da anlise a Biblioteca Digital
Greenstone.
Este estudo embasou-se na anlise qualitativa para trabalhar com
a realidade do processo de preservao digital e recuperao da
informao na Biblioteca Digital Greenstone.
Segundo Chizzotti (1991), em uma pesquisa qualitativa todas as
pessoas que participam so reconhecidas como sujeitos que elaboram
conhecimentos e produzem prticas adequadas para intervir nos
problemas que identificam, alm de analisar e discriminar as
necessidades prioritrias, e propor aes mais eficazes.
Para a anlise e interpretao dos dados utilizou-se a anlise
qualitativa, que permite identificar e investigar os motivos que fizeram
os usurios que participam da lista de discusso do Greenstone no Brasil,
a estudarem ou implantarem a Biblioteca Digital Greenstone, alm de
identificar o grau de satisfao, os problemas, as dificuldades e as
vantagens no uso da BDG e com foco na preservao digital e
recuperao da informao.
Os dados tambm foram analisados de forma quantitativa, pois de
acordo com Chizzotti (1991), algumas pesquisas qualitativas no
descartam a coleta de dados quantitativos, especialmente na etapa
exploratria de campo ou nas etapas em que estes dados podem mostrar
uma relao mais extensa entre fenmenos particulares.

103

3.6 Limitaes da Pesquisa


Devido amplitude do tema referente preservao digital , esta
pesquisa est focada nos formatos de arquivos para preservao digital.
3.7 Etapas da Pesquisa
Nesta pesquisa, est previsto as etapas do estudo exploratrio da
BDG e da pesquisa propriamente dita:
Estudo Exploratrio:
1) Etapa de download da verso mais atualizada da BDG;
2) Etapa de levantamento de plug-ins de formatos arquivos
disponveis da BDG;
3) Etapa de instalao da BDG;
4) Etapa de customizao da BDG;
5) Etapa de criao de um prottipo de uma Biblioteca de
Teses do PGCIN-UFSC
6) Etapa de observao direta da BDG;
7) Etapa de realizao de testes de recuperao de
informao na BDG;
8) Etapa de anlise do Greenstone sobre o ponto de vista da
preservao lgica com foco nos formato de arquivos.
9) Etapa de descrio da BDG com respaldo tcnico
cientfico;
10) Etapa de Redao.
Etapas da Pesquisa:
1) Reviso de literatura
2) Detalhamento da pesquisa
3) Anlise do problema
4) Qualificao
5) Adequao das sugestes da qualificao
6) Coleta de dados
7) Organizao dos dados
8) Anlise e interpretao dos dados
9) Redao preliminar do texto
10) Redao final
11) Entrega da dissertao
12) Defesa da dissertao

104

3.8 Procedimentos para Coleta de Dados


Nesta pesquisa, para coleta de dados foi realizado a instalao,
customizao do Greenstone e criao de uma coleo de teses do
PGCIN UFSC, e um levantamento dos plug-ins para coleta de dados
disponveis para o Greenstone, e escolha de no mnimo trs plug-ins para
formatos de arquivos, ou seja, um para proprietrios com especificao
fechada, um para proprietrio com especificao aberta, e um para no
proprietrios com especificao aberta.

105

4 GREENSTONE
A Biblioteca Digital Greenstone (BDG) um software para a
criao e distribuio de colees de bibliotecas digitais. O Greenstone
projeto de bibliotecas digitais (New Zealand Digital Library Project
www.nzdl.org) da Universidade de Waikato na Nova Zelndia, e
desenvolvido e distribudo em cooperao com a UNESCO
(www.unesco.org) e a ONG Human Info (http://humaninfo.org/). O
objetivo do software Greenstone disponibilizar aos usurios,
especialmente nas universidades, bibliotecas e outras instituies
pblicas, para construir suas prprias bibliotecas digitais, principalmente
nos pases em desenvolvimento.
Exemplos de Bibliotecas digitais Greenstone disponveis e
acessveis na internet:
1) The New Zealand Digital Library Project <http://www.sadl.uleth.ca/nz/cgi-bin/library>
2) China:
Peking
University
digital
library
<http://162.105.138.23/tapian/tp.htm>
3) Germany: Digitale Bibliothek Information und Medien <http://digbib.iuk.hdm-stuttgart.de/gsdl/cgi-bin/library>
4) Russia: Mari El Republic government information <http://gov.mari.ru/gsdl/cgi/library>
5) United
States:
Aladin
digital
library
<http://www.aladin.wrlc.org/gsdl/>
6) United States: Center for the Study of Digital Libraries <http://botany.cs.tamu.edu/gsdl/cgi-bin/library>
7) Afghanistan Centre at Kabul University - ACKU <http://puka.cs.waikato.ac.nz/cgibin/library?a=p&p=about&c=acku>
8) Afghanistan Research and Evaluation Unit - AREU <http://puka.cs.waikato.ac.nz/cgibin/library?a=p&p=about&c=areu>
9) France
Agatange
Collection
<http://www.agatange.fr/>
10) Vietna - Agricultural Techniques for Farmers (in
Vietnamese) - <http://icadl2007.vista.gov.vn/gsdl/cgibin/library.exe?site=localhost&a=p&p=about&c=cnnt
&ct=1&qto=2&l=vi&w=utf-8&TARGET=>
11) Paquisto - AHKRC Digital Library, Islamabad,
Pakistan
<http://210.56.25.21/gsdl/cgibin/library.exe?a=p&p=home&l=en&w=utf-88>

106

12) Estados Unidos da Amrica - Allen Park Veterans


Administration
Hospital
Archives
<http://www.dalnet.lib.mi.us/gsdl/cgibin/library?p=about&c=va>
13) India
Archives
of
Indian
Labour
<http://www.indialabourarchives.org/>
14) Armenia
Armenian
Rare
Books
,http://greenstone.flib.sci.am/gsdl/cgibin/library.cgi?e=p-00000-00---off-0--00-----0-10-0---0--0direct-10---4-------0-1l--10-en-50---20-home---0--1-000-0-01-1-0utfZz-8-00&a=p&p=about&c=Armenian>
15) Biblioteca digital de la Fundacin para la Innovacin
Agraria
FIA
<http://bibliotecadigital.innovacionagraria.cl/>
16) Biblioteca
Digital
Gerencia
Social
<
http://190.78.48.48/gsdl/cgi-bin/library>
17) Biblioteca Digital of the Centro de Informatin de
Recursos
Naturales
(CIREN)
<
http://bibliotecadigital.ciren.cl/>
18) Bibliothque
numrique
de
CAMES
<http://www.cames.bf.refer.org/spip.php?article56>
19) Bibliothque SIST Sngal <http://www.sist.sn/cgibin/library>
20) Books from the Past / Llyfrau o'r Gorffennol <
http://www.booksfromthepast.org>
21) Catalogo de la Biblioteca Obispo Angelelli
<http://biblioteca.derhuman.jus.gov.ar/cgiin/library?site=localhost&a=p&p=about&c=angeleli&c
t=0&l=es&w=utf-8>
22) Chopin Early Editions <http://chopin.lib.uchicago.edu/>
23) CLACSO - Latin America and the Caribbean Network of
Social
Science
Virtual
Libraries
<
http://www.biblioteca.clacso.edu.ar/>
24) Collection Greenstone de l'Universit polytechnique de
Bobo-Dioulasso (UPB) < http://greenstone.refer.bf/cgibin/library?e=p-00000-00---off-0--00---0-10-0---0--0prompt-10---4-------0-1l--10-fr-50---20-home---0--1-000-0-01-1-0utfZz-8-00&a=q&c=upb>
25) Collection of Ecole nationale des chartes (Paris)
<http://catalogue.enc.sorbonne.fr/>

107

26) Decifrazione del V. e VI. libro de' partimenti di Fenaroli


del Cav(alliere) N(iccol) C(alichiopulo) Manzaro
<http://dlib.ionio.gr/gsdl/cgibin/library?a=p&p=about&c=decifraz>
27) Detroit
Public
Library
<http://www.thehackley.org/about.html>
28) Estela
<http://estela.canovelles.cat/cgibin/library?l=ca&w=utf-8>
29) Freedom
House
Photographs
<http://www.lib.neu.edu/freedomhouse>
30) Greater
Cincinnati
Memory
Project
<http://www.cincinnatimemory.org/>
31) Great
Lakes
Shipping
Database
<http://www.dalnet.lib.mi.us/gsdl/cgibin/library?p=about&c=shipping>
32) Human
Rights
in
Argentina
<http://conadi.jus.gov.ar/greenstone>
33) iArchives
<http://www.iarchives.com/demos_clients/greenstone.jsp
34) Illinois Wesleyan University Argus Digital Collection - <
http://europa.iwu.edu/gsdl/cgibin/library?c=argus8&p=about>
35) Illustrated
London
News
<http://digital.liby.waikato.ac.nz/iln/library?site=localh
ost&a=p&p=about&c=iln&ct=0&l=en&w=utf-8>
36) Indian Institute of Management, Kozhikode <
http://www.iimk.ac.in/gsdl/cgi-bin/library>
37) Indian Institute of Science Publications Database <http://vidya-mapak.ncsi.iisc.ernet.in/cgi-bin/library>
38) Kazakhstan
Human
Rights
Commission
<http://www.unesco.kz/cgibin/library?a=p&p=about&c=HRCru&l=ru&w=windo
ws-1251&ct=1&qto=2>
39) Library of Kazak Governmental Legal Information <http://hrc.nabrk.kz/gsdl/cgibin/library?site=hrc.nabrk.kz&a=p&p=about&c=HRCk
z&ct=1&qto=2&l=kk&w=utf-8>
40) Local
History
Online
<http://www.localhistoryonline.org.nz/>
41) Marshall
Foundation
Digital
Library
<http://www.marshallfoundation.org/Database.htm>

108

42) Memoria
Acadmica
<http://www.memoria.fahce.unlp.edu.ar/>
43) Mirabilia
Vicomercati
<http://www.mirabiliavicomercati.org/sezioni/006/index.
html>
44) MOST Digital Library (UNESCO) - <http://digitallibrary.unesco.org/shs/most/gsdl/cgibin/library?c=most&a=p&p=about>
45) Municipal
Library
of
Almaty
City
<http://hrc.nabrk.kz/gsdl/cgibin/library?site=localhost&a=p&p=about&c=akalkz&c
t=1&qto=2&l=kk&w=utf-8>
46) Music
Information
Retrieval
Research
<http://www.music-ir.org/>
47) MyManuskrip : Digital Library for Malay Manuscipts
<http://mymanuskrip.fsktm.um.edu.my/>
48) National University of Science and Technology (NUST)
<http://library.nust.ac.zw/gsdl/cgi-bin/library>
49) New
York
Botanical
Garden
<http://library.nybg.org/library/page1.php>
50) Notable
Women
of
Simmons
College
<
http://my.simmons.edu/library/notablewomen/>
51) NZ
Chinese
Journals
<http://www.nzchinesejournals.org.nz/>
52) Union
of
BC
Indian
Chiefs
<http://www.ubcic.bc.ca/Resources/ourhomesare/testimo
nies.htm>
53) Oxford
Digital
Library
<http://www2.odl.ox.ac.uk/gsdl/cgi-bin/library/>
54) Pacific Archive of Digital Data for Learning and
Education - PADDLE - <http://www.paddle.usp.ac.fj/>
55) Papers Past - <http://paperspast.natlib.govt.nz/cgibin/paperspast>
56) Rwanda
HIV/SIDA
<http://www.cnls.gov.rw/digitallibrary.htm>
57) State Library of Tasmania Sheet Music Collection <http://greenstone.statelibrary.tas.gov.au/>
58) Sudanese Association of Libraries and Information
(SALI)
Digital
Library
<http://puka.cs.waikato.ac.nz/cgi-bin/sali/library>
59) Sudan Open Archive - <http://www.sudanarchive.net/>

109

60) The
Arafura
Digital
Archive
<
http://arada.cdu.edu.au/cgi-bin/library>
61) The
Black
Abolitionist
Archive
<http://www.dalnet.lib.mi.us/gsdl/cgibin/library?p=about&c=baa>
62) The Council of Independent Colleges Historic Campus
Architecture Project -<http://puka.cs.waikato.ac.nz/cgibin/cic/library>
63) The Cushing/Whitney Medical Digital Library<http://cwmldl.med.yale.edu/gsdl/cgibin/library?site=localhost&a=p&p=about&c=ppdcdot&ct
=0&l=en&w=utf-8>
64) The
Social
Management
Digital
Library
<http://200.7.107.179/gsdl/cgi-bin/library>
65) The United Nations Digital Library - Islamabad
<http://library.un.org.pk/gsdl/cgi-bin/library>
66) The Writing University Archive - <http://iwp.infoscience.uiowa.edu/cgi-bin/library>
67) Ulukau, the Hawaiian Electronic Library <http://ulukau.olelo.hawaii.edu/>
68) Washington Research Library Consortium Special
Collections - <http://www.aladin.wrlc.org/dl/>
O Greenstone, com a interface completa e toda a documentao,
est disponvel em vrios idiomas como ingls, francs, espanhol,
portugus e russo. software do tipo open-source, multilingue,
multiplataforma compatvel com Microsoft Windows, UNIX, LINUX e
Mac OS X. Seus programas-fonte so disponveis sob os termos da
General Public License (GPL).
At a verso 2.x o software foi desenvolvido, na linguagem de
programao PERL, ele tambm utiliza o servio Apache Webserver. A
verso 3 (trs) do Greenstone,
um redesenho completo e
reimplementao do software original Biblioteca Digital Greenstone
verso 2 (dois). Ela mantm muitas caractersticas e compatibilidades
com a verso 2.x como por exemplo, continua multilngue,
multiplataforma, e altamente configurvel. O Greenstone 3 foi escrito
em Java, e estruturado como uma rede de mdulos independentes que
se comunicam usando XML. Assim, ele executado de forma
distribuda, e sua aplicao pode estar distribuda em diferentes
servidores de acordo com a sua necessidade. Esse design modular

110

aumenta a flexibilidade e a extensibilidade da Biblioteca Digital


Greenstone.
A opo pelo Greenstone 3 como objeto de estudo nesta pesquisa
deu-se pelo fato de que, embora essa verso esteja em desenvolvimento,
a mais atualizada, e existe a recomendao expressa nos seguintes
casos:
a) Quando for necessria uma maior flexibilidade com a
interface, e uso de XSLT;
b) Se o usurio tem sua prpria biblioteca de front-end e
necessita conversar com um servidor de coleta
Greenstone usando XML e SOAP;
c) Quando o objetivo de criar uma biblioteca distribuda;
e,
d) Quando o usurio deseja adicionar novas caractersticas a
uma biblioteca Greenstone e tm dificuldade em entender
o cdigo fonte Greenstone2 C + +.
4.1 Obtendo o Greenstone verso 3.04
A verso 3.04 da biblioteca Digital Greenstone pode ser obtida no
sitio http://www.greenstone.org/greenstone3-home, estando disponvel
para trs tipos de plataformas.
1) Plataforma Windows Disponvel para ambiente Windows 32
bits (ou seja, Windows 2000/XP/Vista/2003/2008). Para verses
do Windows 95/98/Me/NT, necessrio o uso da verso 2.8 do
Greenstone. Essa distribuio inclui tudo que necessrio para
executar Greenstone (incluindo uma coleo de demonstrao
pr-construda) e para construir novas colees dentro do
Greenstone. Opcionalmente, pode-se optar por instalar o
ImageMagick (para processamento de imagem) e o GhostScript
(para processamento de PostScript). O pacote de instalao do
Greenstone 3.04 para Windows, agora inclui um servidor web
Apache. O arquivo de instalao do Greenstone para essa
plataforma ocupa aproximadamente 93.9 Mbytes.
2) Plataforma MAC-OS - Essa distribuio contm os binrios
ligados dinamicamente construdos e testados em MacOS 10.5
(Leopard) rodando em plataforma Intel. Essa distribuio inclui
tudo que necessrio para executar Greenstone (incluindo uma
coleo de demonstrao pr-construda) e de construir colees
Greenstone. Opcionalmente, voc pode optar por instalar o

111

ImageMagick (para processamento de imagem) e GhostScript


(para processamento de PostScript).
Para instalar essa
distribuio, faz-se necessrio baixar o arquivo dmg, mont-lo e
depois executar o programa instalador do pacote, de preferncia
seguindo passo-a-passo as instrues. O arquivo de instalao
do Greenstone para essa plataforma ocupa aproximadamente
64.5 Mbytes.
3) Plataforma LINUX/UNIX - Essa distribuio vem com os
binrios linux ligado estaticamente. Para compilar em outras
plataformas Unix, necessrio baixar uma verso de origem.
Essa distribuio inclui tudo que necessrio para executar
Greenstone (incluindo uma coleo de demonstrao prconstruda) e para construir novas colees Greenstone.
ImageMagick com o apoio JPEG2000 est includo, e podem
ser instalados opcionalmente. Para instalar essa distribuio, e
necessrio realizar o download do pacote de instalao que est
disponvel no site oficial do Greenstone (www.greenstone.org),
e depois execut-lo da linha de comando. O arquivo de
instalao do Greenstone para essa plataforma ocupa
aproximadamente de 87.5 Mbytes.
4.2 Instalao do Greenstone verso 3.04
Inicialmente optou-se por instalar a verso para Linux, utilizando
a distribuio Debian. Realizado o download e iniciado a instalao, o
autor se deparou com uma srie de dificuldades de instalao, como a
complexidade de instalao no Linux e necessidade de vrias
intervenes para configurao. Infelizmente a complexidade de
instalao da Biblioteca Digital em uma plataforma aberta faz com que
alguns usurios utilizem a plataforma de software proprietrio devido a
sua facilidade de instalao e operao. Sendo assim, a verso escolhida
foi a 3.04 para Windows.
Aps realizar o download da Biblioteca Digital Greenstone para
Windows, iniciou-se a instalao. O computador utilizado foi um
processador Intel core Duo CPU de 2,4 GHz com 4 (quatro) GB de
memria RAM e HD de 500 (quinhentos) GB. Durante a instalao no
Sistema Operacional Windows 7 (sete) Professional 64 (sessenta e
quatro) bits constatou-se a incompatibilidade com essa verso, sendo
assim, para viabilizar a instalao da BDG, foi criado um ambiente
virtual com sistema operacional Windows XP utilizando o Windows

112
2

virrtual PC da Microsoft. O Windows virtual


v
PC daa Microsoft uma
ferrramenta grattuita (Free) e pode ser obtida
o
em divversas fontess. Para
esssa
pesquuisa
foi
realizado
o
um
download
de
http
tp://www.micrrosoft.com/w
windows/virtua
al-pc/.
Para reaalizar a instaalao da Bib
blioteca Digiital Greensto
one no
Wiindows XP, bbasta localizaar o arquivo de instalaoo Greenstonee-3.04win
n32 dar um cclique duplo no
n mesmo qu
ue aparecer a tela de insttalao
con
nforme figuraa 26.

Figura 226: Tela - proggresso da installao

W
mo
ostra um avviso de segu
urana
Na figuura 27, o Windows
infformando quee o editor noo pode ser veerificado e peergunta se o usurio
u
tem
m certeza quee deseja execcutar este so
oftware. Mesm
mo que o so
oftware
Greenstone 3.044 no possua uma assinatu
ura digital vllida que veriffique o
mesmo umaa fonte
ediitor, pode-se executar o software possto que o m
con
nfivel.

113
3

Figgura 27: Tela de


d aviso de seg
gurana

i
a
Naa figura 28, o Greenstonee mostra quee est sendo inicializada
instalao.

Figgura 28: Tela de


d preparao de instalao ddo Greenstone

Coomo a Biblioteca Digitall Greenstonee suporta vrrios idiomas,


nesta etap
apa de instalao possveel escolher a llinguagem no
o qual a BDG
G
ser instaalada, como demonstrado
d
na figura 29.

114
4

Figura 299: Tela de seleo de linguag


gem de preferncia na instalaao da
BD
DG

d direitos auutorais, os quaais so


A figura 30, apresentta as regras de
basseados no Geeneral Publicc License GN
NU GPL ou ssimplesmentee GPL.
O GPL (Licena Pblica Geeral) a desig
gnao da liccena para so
oftware
n final da ddcada de 1980, no
livre idealizadaa por Richardd Stallman no
mbito do projeeto GNU da Free
F
Softwaree Foundation (FSF).
m
A GPL a licena coom maior utilizao por pparte de projeetos de
sofftware livre, eem grande paarte devido sua adoo ppara o projeto
o GNU
e o sistema operacional GN
NU/Linux. Caaso o usurioo concorde com
c
os
termos, basta cllicar no botoo Next paraa ir para prxiima etapa.

115
5

Figgura 30: Tela de


d direitos auto
orais

m
a tela de seleo ddo local de instalao.
i
O
A figura 31 mostra
o
software faz uma suugesto padrro para insstalao. Casso o usurio
o next paraa
concordee com a instaalao, o messmo dever cclicar o boto
continuarr a instalaoo.

Figgura 31: Tela de


d seleo do local
l
de instalaao

116
6

A figura 32, mostra a tela que perm


mite a seleoo dos compo
onentes
quee foram instaalados. A insttalao do sistema principaal (Core Systtem) j
vem
m selecionadda, e no oppcional, send
do que as dem
mais so opcionais.
Reecomenda-se qque se instalaar todas as op
pes de compponentes.

Figura 32: Tela de seleo dos compon


nentes

A figura 33, mostra a tela permitee informar algguns parmettros de


con
nfigurao ddo servidor de
d HTTP Ap
pache Serveer. O Apach
he o
serrvidor web livvre mais bem
m sucedido no
o mundo. As portas 8080 e 8085
parra conexo j vem configguradas iniciaalmente e reccomenda-se manter
m
as mesmas conffiguraes.

117
7

Figgura 33: Tela configurao


c
do
d Apache Tom
mcat

m
etapas de instala o: 1 - Inicializao, 2 A figura 34, mostras
ma principal, 3 - Instalao do ImageeMagick, 4 Instalao do sistem
Instalao do Ghostsscript, 5 - In
nstalao do Tomcat, 6 - Instalao e
criao dde atalhos do menu.

Figgura 34: Tela que


q mostra o progresso
p
de innstalao do Grreenstone

118

A Biblioteca Digital Greenstone pode ser iniciada a partir dos


cones disponveis na rea de trabalho do Windows, ou a partir do menu
iniciar, selecionando a opo selecionando Greenstone. O Greenstone
disponibiliza os as seguintes opes:
1) Greenstone Editor for Metadata Sets (GEMS) Software
para edio de metadados
2) Greenstone3 Server Inicia os softwares necessrios
para que o Greenstone Server funcione.
3) Greenstone Librarian Interface (GLI) Interface para
construo e configurao da Biblioteca Digital
Greenstone.
Quando da instalao do Greenstone, o mesmo disponibiliza por
padro uma coleo de demonstrao (coleo DEMO Greenstone), que
um pequeno subconjunto da Biblioteca de Desenvolvimento
Humanitrio (HDL).
No stio www.greenstone.org esto disponveis para download
vrias colees de demonstrao. As colees relacionadas foram
instaladas para servir de instrumento de anlise de recuperao de
informao, bem como para observar as funcionalidades das mesmas.
1) DLS-e - coleo Subconjunto da Biblioteca de
Desenvolvimento - Da mesma maneira que o Demo
Greenstone, este um subconjunto da HDL - porm bem
maior. Ela contm 250 publicaes - livros, relatrios e
revistas - em vrias reas do desenvolvimento humano (a
completa HDL contm 1,230 publicaes). Ela tem a
mesma estrutura que o Demo Greenstone. um pouco
complexa, para quem est iniciando o seu aprendizado
com bibliotecas digitais. O espao requerida para
instalao dessa coleo de 150 Mb.
2) WRDPDF-e - Demonstraes MSWord e PDF Essa
coleo possui diversos documentos nos formatos PDF,
MSWord, RTF, and Postscript, demonstrando a
habilidade para construir colees com documentos de
tipos diferenciados. O espao requerida para instalao
dessa coleo de 4 Mb.

119

3) GSARCH-e - A Coleo dos Arquivos Histricos do


Greenstone - Uma coleo de mensagens de e-mail das
listas histricas do Greenstone, que utiliza o plug-in email, dividindo arquivos em formatos de e-mail. O
arquivo de configurao da coleo bem simples. O
espao requerida para instalao dessa coleo de 5
Mb.
4) CLTBIB-e - Coleo bibliogrfica com aproximadamente
4.000 entradas bibliogrficas, essa coleo incorpora uma
interface de busca baseada em formulrio que permite a
busca por campos. bastante complexa. O espao
requerida para instalao dessa coleo de 7 Mb.
5) CLTEXT-e - Suplemento Bibliogrfico - Essa pequena
coleo de 10 entradas bibliogrficas ilustram os recursos
da "supercoleo" que permite a busca de vrias colees
ao mesmo tempo. Ela trabalha junto com a coleo
Bibliografia, e os seus arquivos de configurao so
quase os mesmos. O espao requerida para instalao
dessa coleo de 1 Mb.
6) MARC-e exemplo com MARC - Baseada em arquivos
MARC da Biblioteca do Congresso, essa coleo
simples (e no permite busca baseada em formulrio). O
espao requerida para instalao dessa coleo de 1
Mb.
7) OAI-e - A coleo Demo do OAI - Utilizando o
Protocolo Open Archive e a opo Import-From, ele
recupera o histrico dos metadados, sendo possvel
utiliz-los para construir uma coleo com estes registros.
Neste caso eles so imagens, portanto os plug-ins OAI e
Image so utilizados. O espao requerida para instalao
dessa coleo de 18 Mb.
8) IMAGE-e - Coleo simples de imagens - Essa coleo
bem bsica de imagens no contm texto nem metadados
explcitos - o que a torna no muito realstica. O arquivo
de configurao o mais simples que pode haver. O

120

espao requerida para instalao dessa coleo de 1


Mb.
9) AUTHEN-e - A formatao e autenticao da coleo
demo. Utilizando o mesmo material da coleo original
Demo do Greenstone, duas caractersticas independentes
podem ser mostradas: a formatao de documentos fora
do padro, e controle de acesso aos documentos
utilizando a autenticao de usurio. O espao requerida
para instalao dessa coleo de 1 Mb.
10) GARISH - Verso Garish da coleo demo. Essa coleo
tambm contm o mesmo material do demo Greenstone.
A sua aparncia foi alterada para demonstrar como as
pginas geradas podem ser configuradas de modo
diferente. Ele se baseia na utilizao de um arquivo
macro sem um padro definido que fornecido pelo
Greenstone. O espao requerida para instalao dessa
coleo de 8 Mb.
11) ISIS-e - exemplo CDS/ISIS - Essa coleo construda a
partir de um banco de dados CDS/ISIS com
aproximadamente 150 entradas bibliogrficas. Utiliza o
plug-in ISISPlug, que l os arquivos de padro ISIS .mst
e .fdt e os converte para os metadados do Greenstone. O
espao requerida para instalao dessa coleo de 1
Mb.
4.3 Construindo coleo de dissertaes do PGCIN
Com o objetivo de obter mais subsdios para analisar os recursos
disponveis na biblioteca digital Greenstone na preservao lgica de
documentos digitais e a recuperao da informao, foi construdo uma
coleo dentro da Biblioteca Digital Greenstone utilizando as
dissertaes de mestrado defendidas no Programa de Ps-Graduao em
Cincia da Informao do Centro de Cincias da Educao, da
Universidade Federal de Santa Catarina. A seguir ser detalhada a
construo da coleo PGCIN, demonstrado uma sequncia de passos
com as respectivas telas do Greenstone tendo como objetivo de situar o
leitor sobre o processo de construo da coleo.

121
1

Paara criar uma nova coleo


o, no mduloo de interface de bibliotecaa
(Greensttone Librariaan Interface - GLI) confforme a figu
ura 35, bastaa
clicar na opo novo (NEW) do menu
m
(File), oonde dever ser
s informado
o
o Ttulo da Coleo e a descrio do contedo da mesma. O Greenstonee
o, para tanto,
permite criar uma cooleo tendo como base ooutra coleo
Base this colllection on.
basta seleecionar a coleeo desejadaa na opo B

Fiigura 35: Telaa de criao da


d coleo doo PGCIN
ownload dass
Apps a criao da coleo, foi reaalizado o do
dissertaes de meestrado do PGCIN quee esto disp
ponveis em
m
ww.cin.ufsc.bbr/pgcin, confforme figura 336.
http://ww

122
2

Figura 366: Tela downnload da coleo do PGCIN


N
d arquivos, conforme figura 37, na
n aba
Aps o download dos
Ga
ather foi criadda a pasta ddissertaes.. Para criar a pasta, bastaa clicar
com
m o boto ddireito na reea collection e criar umaa nova pastaa (new
follder). Aps tter criado a pasta dissertaes foram
m selecionad
dos os
arq
quivos (disseertaes) no formato PD
DF que se eencontram no
o lado
esq
querdo da apllicao e arraastado para a pasta
p
disserttaes.

123
3

Fiigura 37: Telaa importao de documenttos


d metadadoos que o Greeenstone extraii
Coonforme figuura 38, alm dos
automaticamente doos documenttos adicionaados a coleo, foram
m
blin Core, e
adicionaddos a coleo do PGCIIN metados padro Dub
preenchiddos alguns doos elementos como dc.titlee.

ministrao de metadados
Fiigura 38: Adm

124

Foi realizado um levantamento de todos de todos os plug-ins para


formatos de arquivos disponveis para o Greenstone. No stio do
Greenstone na internet (www.greenstone.org) existe uma documentao
sobre como criar plug-ins, bem como links que apontam a relao de
plug-ins suportados.
De acordo informaes encontradas no Wiki do Greenstone
disponvel em http://wiki.greenstone.org/wiki/index.php/Main_Page, os
plug-ins esto classificados em quatro tipos:
a) Plug-ins especiais - nvel superior
Nome do plug-in

Description Descrio

BibTexPlug-in

Plug-in para importaes de arqyuvis BibTex. Herda


SplitTextFile.

BookPlug-in

Plug-in que importa arquivos da coleo Biblioteca


Humanidade. uma simplificao do HBPlug-in. Herda
AutoExtractMetadata.

CONTENTdmPlu
g-in

Plug-in que importa arquivos RDF de colees


exportadas. Herda ConvertBinaryFile, ReadXMLFile.

ConvertToRogPlu
Herda RogPlug-in.
g-in

CSVPlug-in

Plug-in que importa arquivos no formato de valores


separados por vrgula. Um novo documento ser criado
para cada linha do arquivo. Herda SplitTextFile.

DatabasePlug-in

Plug-in que extrai registros de bancos de dados (requer


configurao
adicional
Perl).
Herda
AutoExtractMetadata.

DSpacePlug-in

Plug-in que as importaes de formato de arquivo


DSpace Herda BasePlug-in.

125

EmailPlug-in

Plug-in que importa


SplitTextFile.

arquivos

de

e-mail.

ExcelPlug-in

Plug-in que importa arquivos do Microsoft Excel. Herda


ConvertBinaryFile.

FavouritesPlug-in

Plug-in que importa arquivos favoritos do Internet


Explorer. Herda ReadTextFile.

FOXPlug-in

Plug-in que importa arquivos de dados FOX. Herda


BasePlug-in.

HBPlug-in

Plug-in que as importaes de um diretrio do livro de


HTML. Utilizados pela coleo da biblioteca da
humanidade. Herda BasePlug-in.

HTMLPlug-in

Plug-in que importa arquivos


ReadTextFile, HBPlug-in.

HTML.

Herda

Herda

Plug-in que importa arquivos HTML, criando um


HTMLImagePlugdocumento Greenstone para cada imagem na pgina web.
in
Herda HTMLPlug-in.

ImagePlug-in

Plug-in que as importaes GIF, JIF, JPEG, TIFF


http://www.imagemagick.org/www/formats.html. Herda
BasePlug-in, ImageConverter.

IndexPlug-in

Plug-in que processa um arquivo index.txt, que lista


todos os arquivos a serem includos na coleo, alm de
metadados adicionais para esses documentos. Herda
BasePlug-in.

126

ISISPlug-in

Plug-in que as importaes CDS / arquivos de dados


ISIS. Herda SplitTextFile.

LaTeXPlug-in

Plug-in that imports LaTeX files. plug-in que importa


arquivos LaTeX. Inherits from ReadTextFile. Herda
ReadTextFile.

LOMPlug-in

Plug-in que as importaes LOM (Learning Object


Metadata) arquivos. Herda ReadTextFile.

MARCPlug-in

Plug-in para importaes de metadados MARC. Herda


SplitTextFile.

MARCXMLPlug- Plug-in para importaes de metadados MARC em


in
formato XML. Herda ReadXMLFile, ReadTextFile.

MediaWikiPlug-in

Plug-in para importaes de pginas web MediaWiki.


Herda HTMLPlug-in.

Plug-in para importaes de metadados no formato CSV


MetadataCSVPlug (valor separado por vrgula) formato. O campo Nome do
-in
arquivo CSV usado para determinar quais os metadados
do documento pertence. Herda BasePlug-in.

MP3Plug-in

Plug-in que importa arquivos de udio MP3. Herda


BasePlug-in.

127

NulPlug-in

Plug-in que importa arquivos dummy (.Nul). Herda


BasePlug-in.

OAIPlug-in

Plug-in para importaes Open Archives Initiatives


(OAI) de dados. Herda ReadXMLFile, ReadTextFile.

OggVorbisPlug-in

Plug-in para importaes Ogg Vorbis. Herda BasePlugin.

OpenDocumentPl
ug-in

Plug-in para importaes OASIS documentos de formato


OpenDocument (usado pelo OpenOffice 2.0. Herda
ReadXMLFile.

PagedImagePlugin

Plug-in para importaes de seqncias de arquivos de


imagem (formatos como para ImagePlug), com opcional
de
textos
associados.
Herda
ReadXMLFile,
ReadTextFile, ImageConverter.

PDFPlug-in

Plug-in
que
importa
ConvertBinaryFile.

PostScriptPlug-in

Plug-in que importa


ConvertBinaryFile.

PowerPointPlugin

Plug-in que importa arquivos do PowerPoint Microsoft.


Herda ConvertBinaryFile.

ProCitePlug-in

Plug-in que
SplitTextFile.

importa

arquivos

arquivos

arquivos

PDF.

Postscript.

ProCite.

Herda

Herda

Herda

128

RealMediaPlug-in

Plug-in que importa arquivos de RealMedia. Herda


BasePlug-in.

ReferPlug-in

Plug-in que as importaes Consulte os arquivos. Herda


SplitTExtFile.

RogPlug-in

Plug-in para importaes. Rog ou arquivos. Mdb. Herda


BasePlug-in.

RTFPlug-in

Plug-in
que
importa
ConvertBinaryFile.

SourceCodePlugin

Plug-in que as importaes do cdigo-fonte (C / C + +,


Perl, Shell). Herda ReadTextFile.

StructuredHTML
Pluin

Plug-in para importaes de documentos HTML


estruturado, dividi-los em sees com base em
informaes de estilo. Herda HTMLPlug-in.

TextPlug-in

Plug-in que importa


ReadTextFile.

UnknownPlug-in

Plug-in que importa arquivos com uma extenso de


arquivo
especificado
pelo
usurio.
Nenhum
processamento feito no arquivo. Em vez de um
documento fictcio criado o arquivo est anexado a esse
documento. Usado para importar arquivos que
Greenstone no possam lidar. Herda BasePlug-in.

arquivos

arquivos

de

RTF.

texto.

Herda

Herda

129

WordPlug-in

Plug-in que as importaes de documentos do Microsoft


Word. Herda ConvertBinaryFile.

ZIPPlug-in

Plug-in que extrai arquivos comprimido ou formatos de


arquivo e envia o contedo para baixo do plug-in pipeline.
Incluem gzip (. gz. z,. tgz. taz), bzip (. BZ), bzip2 (. bz2), zip
(. zip, jar.) e tar (.tar). Solicita o utilitrio apropriado:
gunzip, bunzip, bunzip2, unzip, tar. Herda BasePlug-in.

Quadro 3: Plug-ins especiais nvel superior

b) plug-ins especiais - nvel superior


Processos de diretrios: atravs de um diretrio
recursivamente, passando cada arquivo que
DirectoryPlugin
encontrado. Utilizados durante a colheita de
importao e de construo. Herda PrintInfo.
Processos arquivos metadata.xml que so gerados
MetadataXMLPl
por GLI. Utilizados durante a colheita de
ugin
importao. Herda BasePlugin.
Processa o archives.inf arquivo gerado durante a
ArchivesInfPlug
importao. Utilizados durante a construo nica
in
coleo. Herda PrintInfo.
Processa os documentos de arquivo Greenstone.
GreenstoneXML
Utilizados durante a construo nica coleo.
Plugin
Herda ReadXMLFile.
Arquiva documentos em formato METS
GreenstoneMET
Greenstone. Utilizados durante a construo nica
SPlugin
coleo. Herda ReadXMLFile.
Quadro 4: Plug-ins especiais nvel superior

c) Plug-ins Base
Classe base para todos os plugins e plugins auxiliar.
PrintInfo
Contm o cdigo para gerar a sada para
pluginfo.pl, e para analisar os argumentos plugin.

130

Classe base para todos os plugins documento


padro. Contm o cdigo para bloqueio de
BasePlugin
arquivos,
manipulao
codificao
nome,
BasePlugin
associando arquivos relacionados, e atribuio de
identificadores doc. Herda PrintInfo.
Classe base para plug-ins que os processos de
documentos com texto. Utiliza todos os plugins
AutoExtractMet auxiliares para adicionar funcionalidade extra para
adata
BasePlugin, como a extrao automtica de
metadados. Herda BasePlugin e todos os plugins do
ajudante.
Classe base para plug-ins que o processo simples
arquivos de texto. Contm o cdigo para a leitura
ReadTextFile
dos autos e elaborao da linguagem e codificao.
Herda AutoExtractMetadata.
ReadXMLFile

Classe base para plug-ins que processar arquivos


XML. Contm o cdigo para gerar e executar um
parser XML. Herda BasePlugin.

Classe base para plug-ins que processar arquivos


binrios que so convertidos em texto / html /
images executando gsConvert.pl. Contm cdigo
ConvertBinaryFi
para chamar gsConvert.pl, a criao de plugins do
le
secundrio, que ir processar o arquivo convertido,
e passar o arquivo para os plugins. Herda
AutoExtractMetadata.
Classe base para processar arquivos de plugins que
contm muitos registros. Contm o cdigo que se
SplitTextFile
divide o texto em segmentos, que depois so
processadas pelo plugin de nvel superior. Herda
ReadTextFile.
Quadro 5: Plug-ins Base

d) Plug-ins Auxiliares
plugin que fornece funcionalidade bsica, como o
BaseMediaConv
cache de arquivos para converso de mdia. Herda
erter
PrintInfo.

131

ImageConverter

plugin que converte imagens usando ImageMagick.


Herda BaseMediaConverter.

Acronym
Acrnimo

Helper plugin que localiza e marca-se siglas no


texto. Herda PrintInfo.

Date Data

plugin que extrai informaes de data histrica do


texto. Herda PrintInfo.

EmailAddress

plugin que extrai endereos de e-mail de texto.


Herda PrintInfo.

GIS

plugin que extrai placenames do texto. Requer a


extenso GIS Greenstone. Herda PrintInfo.

Keyphrase

plugin que gera keyphrases do texto. Utiliza sistema


de extrao Kea keyphrase. Herda PrintInfo.

Quadro 6: Plug-ins auxiliares

Os seguintes formatos de arquivos aguardam o desenvolvimento


de plug-in para o Greenstone:
Para Documentos de escritrio
a) AbiWord
b) Gnumeric Spreadsheet
c) Kword (all Koffice formats)
d) OpenOffice file formats: Writer (.sxw), Calc (.sxd),
Impress (.sxi), Draw (.sxd)
e) StarOffice formats (.sdc, .sdw)
f) Wordperfect
Para Video:
a) MPEG
b) Quicktime (.mov)
c) AVI (Audio Video Interleave), Microsoft video

132

Para Audio:
a) Windows Media Audio (.wma)
b) Windows audio (.wav)
c) Sun Audio (.au)
d) Audio Interchange File Format (.aiff)
e) MIDI (.mid)
f) MIDI karoke (.kar)
g) CD Audio (.cda)
h) Shorten (.shn)
Anotaes:
a) Endnote
Images:
a) DjVu (.djvu)
b) Photoshop (.psd)
c) PaintShopPro (.psp)
Arquivos para Macintosh:
a) .hqx Mac archive
b) .sit
c) Self extracting Archive (.sea)
Outros:
a) Scalable Graphics Format (.svg)
b) Synchronized Multimedia Integration Language SMIL
(.smil)
c) Macromedia Flash (.fla)
d) Macromedia shockwave (.swf)
e) OpenGL
f) VRML/X3D
g) TrueType Fonts (TTF)
Neste trabalho de pesquisa foram escolhidos pelo menos um plugins que contemplasse formatos de arquivo proprietrios com
especificao fechada, proprietrio com especificao aberta, e no
proprietrios com especificao aberta.

133
3

Coonforme figuras 39 e 40, a partiir da aba Design

do
o
Greenstoone, foram addicionados os seguintes pplug-ins paraa formatos dee
arquivos digitais:
FPlug-in parra documentoos do tipo PD
DF
a) PDF
b) OpennDocumentPllug-in paara documen
ntos do tipo
o
form
mado aberto
c) GreeenstoneXMLP
Plug-in paara documen
ntos do tipo
o
padro XML
Plug-in parra documentoos do tipo RTF
F
d) RTFP
e) TextP
Plug-in parra documentoos do tipo textto
f) WorddPlug-in para docume
mentos do tip
po Microsoft
ft
Wordd
g) PoweerPoint plug
g-in parra documenttos do tipo
o
Micrrosoft Powerp
point
h) ExceelPlug-in para docume
mentos do tip
po Microsoft
ft
Exceel

Figgura 39: Tela para


p adicionar plug-ins de foormato de arquivo digital

134
4

Figura 40: Tela configurrao de plug-ins

me figura 41, o Greenston


ne permite a iindexao do
o texto
Conform
inteiro (full textt), bem comoo, adicionar metadados
m
naa indexao. Ainda
na aba Design Search Inndexes, po
ossivel seleci onar as op
es de
dexao comoo:
ind
a) Stem Gera um arqquivo de stem
mming que coonsiste em elliminar
ma palavra, onnde as mesm
mas so
as variaaes morfollgicas de um
eliminaadas atravs da
d identificao do radicall de uma palaavra.
b) Casefold - Opo para no diferenciar
d
leetras mascu
ulas e
minscculas.
c) Accent ffold Opoo para descon
nsiderar acenttuao
d) CJK Teex Segmentattion CJK acrescenta um
m espao entrre cada
caracteere Chinese Jaapanise Korean.
e) Indexess Levels Defaault Nvel de
d indexaoo por documeento ou
seo ddo documentoo
No desennvolvimento dessa pesqu
uisa foram teestadas todass estas
opes de indexxao.

135
5

Figgura 41: Tela de


d opo de in
ndexao

Coonforme figuura 42, o Grreenstone ofeerece trs ferramentas dee


indexao: o MG, quue o index
xador padroo, o MGPP (MG++)
(
e o
Lucene (Apache Sofftware Foun
ndation) que possuem caractersticas
c
s
sofisticaddas de indexaao e busca.
Noo desenvolviimento dessaa pesquisa fooram testadas todas estass
opes dde indexao.

Figgura 42: Tela de


d opo de in
ndexao MGP
PP, MG e LUCENE

136
6

me consta no site
s do Green
nstone na inteernet disponv
vel em
Conform
<w
www.greenstoone.org>, o MG
M "Manag
ging Gigabyttes" o indeexador
oriiginal usadoo pelo Greeenstone, desenvolvido pprincipalmentte por
Aliistair Moffat e baseado no
n livro com
m o mesmo nnome Gerenciando
Gig
gabytes. Paara cada ndicce especificaado na coleo, um arquivo de
nd
dice separadoo criado. Esste indexadorr foi testado eextensivamen
nte em
collees muito grandes, ou seja,
s
vrios Gigabytes
G
de ttexto.
plementao de MG, quee prev
MGPP (ou Mg + +) uma reimp
nd
dices de nvell de documennto, e compreesso dos doccumentos originais.
Um
ma pequena m
mudana na configurao
c
de arquivo ppara uma colleo
tud
do o que neccessrio para usar MGPP.
O Lucene foi desenvoolvido pela Apache
A
Softwaare Foundatio
on. Ele
reaaliza pesquisaa por proxim
midade, mas apenas
a
em um nico nveel. Foi
adiicionado ao Greenstonee para faciilitar a criaao de co
olees
inccrementais, quue MGPP e o MG no ofeerecem.
Conform
me figura 43, o Greenston
ne oferece a opo de asssociar
um
ma linguagem
m na partio de indexao
o. Na construuo da coleo do
PG
GCIN foi selecionado o idiioma portugu
us.

Figura 43: Tela de assocciao de lngu


ua na partio dde indexao

137
7

Coonforme figuura 44, o Greeenstone oferrece alm daa recuperao


o
pelo textto completo e ainda tem
m a opo dde recuperar documentoss
utilizanddo filtros com
mo por ttulo
o da dissertao, autor daa dissertao,
orientadoores, linha dee pesquisa e ano dissertao.

Figgura 44: Tela configurao


c
de
d browsing claassifiers

portao doss
A figura 45 e 46 mostraa o incio e fim da imp
wnload de 47 dissertaes de mestrado
o
documenntos. Foi reallizado o dow
no formaato PDF do stio http://ww
ww.cin.ufsc.bbr/pgcin e criaado 12 (doze))
arquivos de vrios tipos
t
de form
mato de arquuivo. Dos 59
9 (cinquenta))
nta e quatro))
documenntos disponibbilizados parra a coleta, 44 (quaren
documenntos foram im
mportados parra a coleo ddo PGCIN, seendo que paraa
6 (seis) ddocumentos o Greenstone no reconheeceu o formatto de arquivo,
e outros 9 (nove) foram
fo
rejeitad
dos pelo pluug-in PDF disponvel
d
no
o
quivos estavaam ntegros, posto que oss
Greenstoone. Aparenteemente os arq
softwares nos quais foram gerad
dos estavam abrindo norrmalmente oss
p exemplo
o os arquivoos com a ex
xtenso ODT
T
documenntos, como por
(padro O
ODF).
O Greenstone participa do Projeto Opeen Source Tra
ac, que um
m
u sistema de monitoraamento para projetos dee
wiki melhorado, e um
d
software o qual est disp
ponvel em
m
desenvollvimento de
http://tracc.greenstone..org/browser//main/trunk/ggreenstone2/p
perllib/plugin
s/. Com bbase nas infoormaes encontradas no T
TRAC foi alteerado o plug-in OpennDocumentP
Plug-in e foi reconstrudda a coleo
o do PGCIN.

138
8

Co
om estas alterraes a BDG
G passou a reeconhecer e pprocessar o plug-in
p
parra arquivos no formato OD
DF.
A Bibliooteca Digitaal Greenstonee em um ccomputador Intel
corre Duo CP
PU de 2,4 GH
Hz com 04 GB
B de memriaa RAM e HD de
d 500
GB
B, levou aprroximadamennte de 10 (dez)
(
minutoos para realizar o
pro
ocessamento da importaao dos documentos, e mais 4 (q
quatro)
min
nutos para reealizar a comppresso do tex
xto.

Figura 45: Tela incio dee importao de


d documentoss

Figura 46: Tela fim de importao de documentos

139
9

Coonforme mosstra a figura 47,


4 na aba foormat, possvel informarr
os dadoss gerais sobbre a coleo que est sendo criadaa, como porr
exemplo o e-mail doo criador e da
d pessoa quue vai dar manuteno,
m
o
ttulo, paasta, e o conee da coleo, descrio da coleo.

Figgura 47: Tela aba


a format - daados gerais

4 na aba foormat, possvel informarr


Coonforme mosstra a figura 48,
os itens dde pesquisa no
n menu, a indexao a ppara todo doccumento, e oss
ndices eescolhidos soo o Texto inteegral (full texxt), dc.creatorr, dc.title.

Figgura 48: Tela aba


a format - iteens de pesquissa no menu

140
0

Conform
me mostra a figura 49, na aba
a format, ppossvel informar o
forrmato dos reccursos.

Figura 49: Tela aba form


mat recursos do formato

me mostra a fiigura 50, na aba


a format, possvel reaalizar a
Conform
traduo de alguumas informaaes.

Figura 50: Tela aba form


mat traduo de textos

141
1

A coleo geraada poder seer consultadaa clicando na aba create


u acessar um web browserr informando
o
na opoo preview coollection, ou
o endereo onde a applicao est instalada, quue nesse caso
o o seguintee
&sa=home
conformee
http://loccalhost:8080/ggreenstone3/llibrary?a=p&
mostra a figura 51.

Figgura 51: Tela de


d acesso a tod
das as coleess instaladas

g
que noo caso a dee dissertaess
Paara selecionarr a coleo gerada
do PGCIIN, basta cliccar no cone PGCIN
P
que a mesma ficaar disponvell
para conssulta conform
me figura 52.

Figgura 52: Tela inicial


i
de consulta da coleoo PGCIN na BDG
B

142
2

Conform
me figura 53, ao escolher a opo prefeerncias, po
ossvel
esccolher o idiom
ma da interfacce e prefernccias de buscaa.

Figura 533: Tela escollha do idiomaa da interfacee e prefernccias de


imp
presso

me figura 54, ao escolherr a opo ssearch, po


ossvel
Conform
fazzer consultas pelo texto inddexado.

Figura 54: Tela busca peelo texto comp


pleto (search)

143
3

Coonforme figuura 55, ao esco


olher a opoo ttulo da diissertao, o
Greenstoone exibe todos os documeentos por orddem alfabtica do ttulo daa
dissertao.

Figgura 55: Tela dissertaes


d
orrdenadas por ttulo

Coonforme figuura 56, ao esccolher a opo Autor diissertao, o


Greenstoone exibe todos os documeentos por orddem alfabtica do autor daa
dissertao.

Figgura 56: Tela dissertaes


d
orrdenadas por au
autor

144
4

Conform
me figura 57, ao escolher a opo auutor dissertao, o
Greenstone exiibe todos oss documentoss por ordem
m alfabtica de
d um
nto, basta cliccar cone do modo
detterminado auutor. Para verr o documen
tex
xto ou no conne modo PDF
F.

Figura 57: Tela dissertaes do aluno

me figura 58, ao escolherr a opo aano dissertao, o


Conform
Greenstone exibbe todos os documentos
d
por
p ordem allfabtica do ano
a de
deffesa dissertao.

Figura 58: Tela dissertaes ordenadas por ano defessa dissertao

145
5

C
Conforme figgura 59, ao escolher
e
a oppo ano diissertao, o
Greenstoone exibe toddos os docum
mentos por orrdem alfabtica do ano dee
defesa diissertao.

F
Figura 59: Tela visualizao contedo moddo texto

Coonforme figuura 60, ao escolher a opo orieentadores, o


Greenstoone exibe toodos os documentos p or ordem alfabtica
a
dee
orientadoor.

Figgura 60: Tela orientadores


o
po
or ordem alfabbtica

146
6

Conforrme figura 61,


6 ao escolh
her a opoo orientadorres, o
Greenstone exiibe todos as dissertaees ao qual o orientado
or est
nculado.
vin

Figura 61: Tela de disseertaes ao quaal o orientador est vinculado


o.

me figura 62, ao escolher a opo linnha de pesquiisa, o


Conform
Greenstone exibbe todas as linnhas de pesqu
uisa.

Figura 62: Tela de visuaaliza linhas de pesquisa.

147
7

Coonforme figgura 63, ao escolher a linha de pesquisa, o


Greenstoone exibe toddas as disserttaes vinculladas linhaa de pesquisaa
selecionaada.

Figgura 63: Tela dissertaes


d
viinculadas linhha de pesquisaa selecionada

Coom base nos dados coletados e obserrvao realizada, a seguirr


apresentaam-se a anlise, discusso e interpretao dos resulttados.

148

5 ANLISE E INTERPRETAO DOS RESULTADOS


Nesta seo so apresentados os resultados obtidos acerca da
pesquisa realizada; tais dados foram analisados e interpretados pelo
pesquisador e sero descritos e representados por meio de quadros,
tabelas e grficos. Os resultados referem-se anlise da biblioteca
digital Greenstone baseado na coleo construda para essa pesquisa, que
a de biblioteca de dissertaes de mestrado do PGCIN UFSC.
5.1 Anlise dos Formatos de Arquivos da Coleo PGCIN
Analisando a questo de preservao de documentos digitais
sob o ponto de vista lgico na Biblioteca Digital Greenstone, constatouse que um dos seus pontos fortes a sua arquitetura, pois o mesmo foi
projetado e implantado como uma plataforma aberta e possui a
disposio de forma livre e gratuita, uma gama enorme de plug-ins
(programas que servem normalmente para adicionar funes a outros
programas maiores) para diversas funcionalidades, dentre elas os de
inmeros formatos de arquivos, alm do que, possvel desenvolver
plug-ins para o Greenstone para qualquer formato de arquivo.
Neste trabalho de pesquisa foram selecionados os plug-ins para
formatos de arquivo proprietrios com especificao fechada,
proprietrio com especificao aberta, e no proprietrios com
especificao aberta.
Os plug-ins selecionados foram:
a) PDFPlug-in para documentos do tipo PDF
b) OpenDocumentPlug-in para documentos do tipo
formado aberto
c) GreenstoneXMLPlug-in para documentos do tipo
padro XML
d) RTFPlug-in para documentos do tipo RTF
e) TextPlug-in para documentos do tipo texto
f) WordPlug-in para documentos do tipo Microsoft
Word
g) PowerPoint plug-in para documentos do tipo
Microsoft Powerpoint
h) ExcelPlug-in para documentos do tipo Microsoft
Excel

149
9

Naa coleta dee dados, con


nforme quaddro 8 foram
m realizadoss
downloadds de 47 disssertaes dee mestrado nno formato PDF
P
do stio
o
http://ww
ww.cin.ufsc.bbr/pgcin, e fo
oram criados 12 documen
ntos de vrioss
tipos de fformato de arrquivo conforrme quadro 77.
Oss documentoos que foram
m gerados ccom outros formatos dee
arquivos e inseridos na
n coleo PG
GCIN so os sseguintes:

Quuadro 7: Arquiivos gerados paara compor a ccoleo PGCIN


N

o
Quuadro 8: Arquuivos que foraam importadoss para a coleo PGCIN no
Greenstonne

150

Dos cinquenta e nove documentos disponibilizados para a coleta,


quarenta e quatro documentos foram importados para a coleo do
PGCIN, sendo que o Greenstone no reconheceu o formato de arquivo
de seis documentos e rejeitou outros nove documentos.
Os documentos processados corretamente e importados para a
coleo do PGCIN foram os seguintes:
1. Adriana Crispim.pdf
2. ANDRENIZIA AQUINO ELUAN.pdf
3. ANNA
ELIZABETH
GALVO
COUTINHO
CORREIA.pdf
4. arquivo teste gerado na verso PDF A.pdf
5. arquivo teste gerado na verso odf.odt
6. arquivo teste gerado na verso pdf.pdf
7. arquivo teste gerado na verso office 97 2003.doc
8. Camila Koerich Burin.pdf
9. CARLOS CANDIDO DE ALMEIDA.pdf
10. CHIRLEY CRISTIANE MINEIRO DA SILVA.pdf
11. Elda Lira.pdf
12. Eliane Pereira.pdf
13. Erica Ribeiro.pdf
14. Felicia Fleck.pdf
15. Francisca Rasche.pdf
16. Gabriela Farias.pdf
17. Gardenia Castro.pdf
18. Gelci Rostirolla.pdf
19. Gerson Tybusch.pdf
20. Graipel Hermes.pdf
21. GUILLERMO ANTONIO DVILA CALLE.pdf
22. Jaqueline Alves.pdf
23. Lidiane dos Santos.pdf
24. MARCIO JOSE SEMBAY.pdf
25. Margarida Reis.pdf
26. Marili Lopes.pdf
27. Marli Machado.pdf
28. Petro Bibiana.pdf
29. Pinheiro Liliane.pdf
30. Renata Curty.pdf
31. Renee Nina.pdf
32. Sales Rodrigo.pdf
33. Savi Gorete.pdf
34. Schenkel Marilia.pdf

151

35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
Arquivos
Greenstone:
1.
2.
3.
4.
5.
6.
7.

Schtuz Sergio.pdf
Silva Catia.pdf
Silva Fabiano Couto.pdf
Silvana Bueno.pdf
Sonali Bedin.pdf
Soraya Waltrick.pdf
Tassiane Altissimo.pdf
Veridiana Abe.pdf
Vinicius Lucca.pdf
Vital Luciane.pdf
Vivian Floriani.pdf
no processados por nenhum plug-in disponvel no

Sinara Molossi.pdf
Schons Claudio H.pdf
Johnny Virgil.pdf
Eliane Garcez.pdf
DERLI SANDRA DORIGON.pdf
apresentacao qualificao Jairo 16122009.ppt
arquivo teste gerado na verso EXCEL 97-2003
XLS.xls
8. CHRISTIANE FABIOLA MONN.pdf
9. arquivo teste gerado na verso rtf.rtf
Arquivos que no foram reconhecidos por nenhum plug-in:
1. arquivo teste gerado na verso word 2010.docx
2. arquivo teste gerado na verso openoffice sxw.sxw
3. apresentacao dissertao Jairo 97 2003.pps
4. apresentacao dissertao Jairo.pptx
5. arquivo teste gerado na verso EXCEL XLS.xlsx
Com o objetivo de auxiliar a anlise do formato dos arquivos, foi
utilizado o software DROID Digital Record Object IDentification, que
um software livre desenvolvido a partir do projeto denominado
PRONOM da National Archives e que est disponvel em
<http://www.nationalarchives.gov.uk/pronom>.
Visando identificar o motivo pelo qual o Greenstone no
reconheceu o formato de arquivo de cinco documentos, e rejeitou outros
nove, foi refeito todo o processo de download, importao, adio de
metadados Dublin-core e a realizado novamente o processo de criao
da coleo. Aps o processamento da criao da coleo, constatou-se
que os resultados se repetiram. Concluiu-se que os cinco arquivos no
foram processados por no existir plug-ins disponveis. J os nove

152

arquivos foram rejeitados, constatou-se que os mesmos esto protegidos


por senha contra alterao, edio, impresso e cpia, mas considerando
que alguns arquivos tambm protegidos foram processados, pode ser,
portanto que o problema pode ocorrido na gerao do arquivo, ou at
mesmo que tenha alguma caracterstica que gere rejeio pelos plug-ins
do Greenstone.
5.1.1 Anlise dos formatos de arquivos com especificaes
proprietrias e fechadas no Greenstone
Para realizar a anlise dos formatos de arquivos proprietrios e
fechados, foram escolhidos os plug-ins para o Microsoft Word (software
para editorao eletrnica de textos), Microsoft Excel (planilha
eletrnica) e Microsoft Powerpoint (software para apresentao).
Os plug-ins utilizados:
WordPlug-in

Plug-in que as importaes de documentos do


Microsoft Word. Herda ConvertBinaryFile.

ExcelPlug-in

Plug-in que importa arquivos do Microsoft Excel.


Herda ConvertBinaryFile.

PowerPointPlug- Plug-in que importa arquivos do PowerPoint


in
Microsoft. Herda ConvertBinaryFile.
Quadro 9: Plug-ins de utilizados de nvel superior

Para realizao dessa pesquisa, foram gerados arquivos no


Microsoft Office (Word, Excel, Powerpoint) nas verses 97-2003, e
inseridos na coleo de dissertaes do PGCIN da Biblioteca Digital
Greenstone.
Aps o processo de construo da coleo, a biblioteca digital
Greenstone apresentou as seguintes informaes referentes aos arquivos
cujo formato proprietrio e fechado:
1) Arquivo: arquivo apresentacao dissertao Jairo 97
2003.pps Este arquivo na importao no foi
reconhecido por nenhum plug-in.
2) Arquivo:
apresentacao
qualificacao
Jairo
16122009.ppt Este arquivo na importao no foi
reconhecido ou no pode ser processado por nenhum
plug-in.

153

3) Arquivo: arquivo teste gerado na verso EXCEL 972003 XLS.xls Este arquivo na importao no foi
reconhecido ou no pode ser processado por nenhum
plug-in.
Observa-se que os formatos de arquivo padro Microsoft no
foram importados para a coleo do PGCIN no Greenstone, porque o
plug-in instalado no Greenstone no reconheceu os formatos de arquivos
e quando reconheceu, no conseguiu processar os documentos.
Considerando que existiam plug-ins especficos para importao
de arquivos com formatos proprietrios, e mesmo repetindo todo o
procedimento de gerao e de importao de arquivos, os resultados
foram os mesmos.
Analisando o relatrio gerado pelo software DROID sobre os
formatos de arquivos selecionados para serem inseridos na coleo,
conforme Anexos A, B, C, D, E e F, observa-se que os mesmos esto
dentro das normas previstas para os respectivos formatos. Alm do que,
os respectivos arquivos podem ser abertos nos softwares os quais foram
gerados, bem como, outros similares como o BRoffice.
5.1.2 Anlise dos formatos de arquivos com especificaes
proprietrias e abertas no Greenstone
Para realizar a anlise dos formatos de arquivos proprietrios e
abertos, foram escolhidos os plug-ins para o Microsoft Word (software
para editorao eletrnica de textos), Microsoft Excel (planilha
eletrnica), Microsoft Powerpoint (software para apresentao) e adobe
PDF.
Os plug-ins utilizados foram:
WordPlug-in
ExcelPlug-in
PowerPointPlug-in
PDFPlug-in
RTFPlug-in

Plug-in que as importaes de documentos do


Microsoft Word. Herda ConvertBinaryFile.
Plug-in que importa arquivos do Microsoft Excel.
Herda ConvertBinaryFile.
Plug-in que importa arquivos do PowerPoint
Microsoft. Herda ConvertBinaryFile.
Plug-in que importa arquivos PDF. Herda
ConvertBinaryFile.
Plug-in que importa arquivos RTF. Herda
ConvertBinaryFile.

Quadro 10: Plug-ins de utilizados de nvel superior

154

Para a realizao dessa pesquisa, foram gerados arquivos no


Microsoft Office (Word, Excel, Powerpoint) nas verses 2007 e 2010
usando formato OpenXML e o formato PDF no Adobe Professional, e
inseridos na coleo de dissertaes do PGCIN da Biblioteca Digital
Greenstone.
Aps o processo de construo da coleo, a Biblioteca Digital
Greenstone processou todos os arquivos, e apresentou as seguintes
restries referentes aos arquivos cujo formato proprietrio e aberto:
1) Arquivo: apresentacao dissertao Jairo.pptx Este
arquivo na importao no foi reconhecido por nenhum
plug-in.
2) Arquivo: arquivo teste gerado na verso EXCEL
XLS.xlsx Este arquivo na importao no foi
reconhecido por nenhum plug-in.
3) Arquivo: arquivo teste gerado na verso word
2010.docx Este arquivo na importao no foi
reconhecido por nenhum plug-in.
Observa-se que os formatos de arquivo padro Microsoft no
foram importados para a coleo do PGCIN no Greenstone, posto que, o
plug-in no reconheceu alguns dos formatos de arquivos. Considerando
que existiam plug-ins especficos para importao de arquivos com
formatos proprietrios, e mesmo repetindo todo o procedimento de
gerao e de importao de arquivos, os resultados foram os mesmos.
Analisando relatrio gerado pelo software DROID sobre os
formatos de arquivos selecionados para serem inseridos na coleo,
conforme Anexos A, B, C, D, E e F, observa-se que os mesmos esto
dentro das normas previstas para os respectivos formatos. Alm do que,
os respectivos arquivos podem ser abertos nos softwares os quais foram
gerados, bem como, outros similares como o BRoffice.
Constatou-se que o plug-in disponvel somente para arquivos
gerados pelo Microsoft Office com verses anteriores a 2007. Ainda no
est disponvel o plug-in para o formato OpenXML da Microsoft.
5.1.3 Anlise dos formatos de arquivos com especificao noproprietria e aberta no Greenstone
Para realizar a anlise dos formatos de arquivos proprietrios e
abertos, foram escolhidos os plug-ins para o Microsoft Word (software
para editorao eletrnica de textos), Microsoft Excel (planilha

155

eletrnica), Microsoft Powerpoint (software para apresentao) e adobe


PDF.
Os plug-ins utilizados foram:
HTMLPlug-in

Plug-in que importa arquivos HTML. Herda


ReadTextFile, HBPlug-in.

Plug-in para importaes OASIS documentos de


OpenDocumentPlugformato OpenDocument (usado pelo OpenOffice
in
2.0. Herda ReadXMLFile.
PDFPlug-in

Plug-in que importa arquivos PDF. Herda


ConvertBinaryFile.

Quadro 11: Plug-ins de utilizados de nvel superior

Para realizao dessa pesquisa, foram gerados arquivos no


BRoffice usando formato Open Document Format ODF e Adobe
Professional usando formato PDF-A, e inseridos na coleo de
dissertaes do PGCIN da Biblioteca Digital Greenstone.
Aps o processo de construo da coleo, a Biblioteca Digital
Greenstone reconheceu e processou os arquivos cujos formatos so do
tipo no proprietrios e abertos.
A Biblioteca Digital Greenstone j disponibiliza inmeros plugins de formato de arquivos, e que a mesma permite adicionar outros
plug-ins de forma aberta, atendendo assim aos requisitos de preservao
digital do formato lgico de arquivos.

5.2 Anlise da Recuperao da Informao no Greenstone


Analisando os recursos disponveis para recuperao de
informao na Biblioteca Digital Greenstone, constatou-se que a mesma
permite a recuperao de informao combinando pesquisas em textos
completos, pesquisa atravs de navegao hierrquica, e tambm atravs
de ndices baseados em diferentes tipos de metadados com os padres
Dublin Core, RCF 1807, NZGLS (New Zealand Government Locator
Service), e AGLS (Australian Government Locator Service).
A Biblioteca Digital Greenstone realiza a indexao dos
metadados, assim como do prprio contedo dos documentos, por meio
da extrao de palavras do texto. Aps o tratamento dos documentos,

156
6

esttes so conveertidos para um formato compatvel ccom o XML


L. Essa
fun
ncionalidade possibilita a criao dos ndices extrrados dos teextos e
doss metadados,, assim comoo a insero de uma interrface de naveegao
hip
pertextual, orrganizada porr meio de esstrutura hierrquica, perm
mitindo
asssim ao usuriio de realizarr buscas com
mo em um m
mecanismo de busca
con
nvencional, iinclusive utilizando operradores booleeanos, bem como,
exp
plorar o doccumento porr meio da navegao
n
uutilizando oss links
insseridos e orgaanizados hieraarquicamentee.
Para reaalizao dessa pesquisa exploratriaa, foi installada a
Bib
blioteca Digiital Greenstoone, e tambm foi constrruda uma coleo
chaamada PGCIN
N.
Ao entraarmos no endeereo onde esst instalada a Biblioteca Digital
D
Greenstone, as colees caadastradas so listadas coonforme figu
ura 64.
d PGCIN m
mostrada con
nforme
Neeste caso a ccoleo escolhida foi a do
fig
gura 64.

Figura 64: Tela principaal da Bibliotecaa Digital Greennstone

Ao seleccionar a coleo do PGCIIN, a tela priincipal da meesma


mo
ostrada conforme figura 655.

157
7

Figgura 65: Tela inicial


i
da Coleeo PGCIN

H seis maneirras de encontrrar informaes nesta coleeo:


1) Busca por palavras contidas no texxto
22) Ttulo da Dissertao
o
33) Autor daa Dissertao
o
44) Orientaddores
55) Linha dee Pesquisa
66) Ano Disssertao
O Greenstone ainda permite definir as ppreferncias de
d pesquisa e
Nas preferrncias de apresentao
o
prefernccias de aprresentao.
(linguageem da interfaace), possvel escolher uum entre os vrios idiomass
disponveeis. Nas prefferncias de busca,
b
conforrme figuras 66
6 e 67 esto
o
disponveeis as seguinttes opes:
1) Tipo dee pesquisa (tyype of Searcch) Formullrio Simpless
(simple form)
f
ou avan
nado (advannced form);
22) Modo de
d consulta (query modde) Modo de consultaa
Simples (simple qu
uery mode) ou modo de consultaa
avanadda que permitte pesquisas bbooleanas ussando!, &, | e
parntesses (advanceed query m ode - allo
ows boolean
n
searchinng using !, &,, | and parenttheses);
33) Tamanhho da caixa de consulta (qquery box sizze) caixa dee
consultaa regular (reg
gular query bbox) ou caixaa de consultaa
grande (large
(
query box);
b
44) Diferencciar letras masculas e minscculas (Turn
n
casefoldding);

158
8

5)
6)
7)
8)
9)

Uttilizar o stem
mming (Turn stemming) Seleo porr parte
da palavra;
Diiferenciar pallavras acentuadas (Turn acccentfolding));
Orrdem que oss documento
os sero mosstrados (Doccument
display ordder);
Nmero de documentos qu
ue sero recupperados (Retu
urn up
to hits); e,
Nmero de documentos qu
ue sero recupperados por pgina
p
(hits per paage).

Figura 66: Tela de prefeerncias de aprresentao e dee busca

159
9

Figgura 67: Tela preferncias


p
dee pesquisa

Aoo selecionarrmos a opo search conforme figura


f
68, o
Greenstoone permite realizar
r
consu
ultas a partir de palavras contidas noss
documenntos:

Figgura 68: Recupperao de Infformao a part


rtir de palavras

Neesta pesquisa foram tesstadas os trs tipos de indexadoress


disponveeis na Bibliooteca Digital Greenstone, o MG, o MGPP
M
ou MG
G
++ e o L
Lucene. A trroca de index
xador realizzada quando apertado o
boto chhange confoorme figura 69.
O MG no ofeerece de recurrsos de difereenciao de acentuao,
a
e
NE no dispe de recursos de stemminng. Dos trs indexadores o
o LUCEN
MGPP m
mostrou-se mais
m eficiente,, e com maiss opes paraa recuperao
o
de inform
mao. Nesssa coleo fo
oi utilizado o MGPP co
om opo dee
indexao Stem, Cassefold e acceent fold com
m nvel de in
ndexao porr
documennto.

160
0

Figura 69: Indexadores do Greenstonee

d indexar o texto integraal, tambm permite


p
O Greennstone alm de
aneexar metadaddos na indexaao. No paco
ote de instalaao da verso 3.04
estto disponveis os seguintees padres dee metadados:
nt Locator Service Meetadata
1) Australian Governmen
3 (agls);
Element Set, Version 1.3
ubset Example
le Metadata (dls);
(d
2) Developmennt Library Su
G
Metadata
M
1.1;
3) Extracted Greenstone
4) Explode Meetadata Set;
5) Greenstonee metadata set (gs);
ment Locator Service Meetadata
6) New Zealaand Governm
Standard veersion 2.1 (nzzgls); e,
D
Core Metadata Ellement Set, Version
V
7) Qualified Dublin
1.1: Referennce Descriptiion (dc).
E
Set,, Version TR-v2.1
TR
8) RFC 1807 Metadata Element
(rfc1807)
Nesta cooleo de tesste denominaada PGCIN foram utilizaado os
meetadados padrro Qualifiedd Dublin Coree Metadata E
Element Set, Version
V
1.1
1: Reference Description (dc) e os metadados
m
paadro do Exttracted
Grreenstone Mettadata 1.1 coonforme figurra 70.

161
1

Figgura 70: Tela metadados


m
Greeenstone

O Greenstone possui um editor de meetadados, o qual permitee


ura 71. Nestaa
incluir ouutros padress ou alterar os existentes cconforme figu
coleo nno foram altterados os pad
dres de metaadados existeentes.

Figgura 71: Tela editor


e
de metad
dados

162
2

No proceesso de consttruo de um
ma coleo, o Greenstone obtm
doss dados autoomaticamentee das propriiedades do ddocumento no
n seu
forrmato originaal, como por exemplo, as propriedadess de um docu
umento
Miicrosoft Wordd e do PDF.
No Greeenstone, poossvel recup
perar informaaes em diiversos
idiomas a partirr dos metadaados vinculad
dos ao docum
mento, desde que os
m devidamentte configurad
dos e preenchiidos.
meesmos estejam
Nesta cooleo tambm
m possvell recuperar innformaes atravs
a
da navegaoo por pallavras chav
ves que eesto organ
nizadas
i
ppode ser feeita da
hieerarquicamennte. A recupperao da informao
seg
guinte forma:
ulo da Disseertao Recupera
R
toddos os docum
mentos
a) Ttu
ord
denados por oordem alfabttica conformee figura 72.

Figura 72: Tela dissertaes por ordem


m alfabtica dee ttulo

G
coonforme figu
ura 73,
A seleccionarmos o Ttulo, o Greenstone
mo
ostra o docum
mento selecioonado que po
oder ser visuaalizado no fo
ormato
HT
TML ou atraavs do soft
ftware que o mesmo foii gerado ou outro
com
mpatvel com
m aquele form
mato de arquiv
vo.

163
3

Figgura 73: Tela seleo


s
de visu
ualizao disseertao por ttu
ulo

o Recuperra todos os documentoss


b)) Autor da Dissertao
conformee figura 74 e mostra-os em ordem aalfabtica claassificada porr
autor da dissertao.

Figgura 74: Tela dissertaes


d
po
or ordem alfabbtica de autor

A selecionarm
mos o Autorr, o Greensttone conform
me figura 75,
o no formato
o
mostra o documento selecionado que poder seer visualizado
HTML oou atravs do
d software que o mesm
mo foi geraado ou outro
o
compatvvel com aquelle formato dee arquivo.

164
4

Figura 75: Tela seleo de visualizao dissertao ppor autor

c) Orieentadores - Recupera tod


dos os docum
mentos e mostra-os
em
m ordem alfabbtica classificcada por orientador conforrme figura 76
6.

Figura 76: Tela dissertaes por ordem


m alfabtica dee orientador

Ao seleecionar o orrientador o Greesntone


G
exxibe as disseertao
Mestrado con
nforme
quee o Professorr selecionado realizou a orrientao de M
fig
gura 77.

165
5

Figgura 77: Tela seleo


s
de visu
ualizao disseertao por orieentador

d
d) Linha dee Pesquisa - Recupera todos os documentos e
mostra-oos em ordem
m alfabtica classificada por Linha de Pesquisaa
conformee figura 78.

Figgura 78: Tela dissertaes


d
po
or ordem alfabbtica por linhaa de pesquisa

Aoo selecionarr a linha dee pesquisa, o Greesntone exibe ass


dissertaes da linhaa de pesquisaa selecionadaa em ordem alfabtica dee
c
figu
ura 79.
ttulo de dissertao conforme

166
6

Figura 79: Tela seleo de visualizao dissertao ppor linha pesqu


uisa

e) Anoo Dissertaoo - Recupera todos os doccumentos e mostram


os em ordem aalfabtica claassificada porr Ano de Disssertao con
nforme
gura 80.
fig

Figura 80: Tela dissertaes por ordem


m ano pesquisaa

Ao seleccionar o Anno da Disserrtao o Grreesntone exibe as


disssertaes deefendidas no ano selecion
nado em orddem alfabticca por
ttu
ulo conforme figura 81.

167
7

Figgura 81: Tela seleo


s
de visu
ualizao disseertao por ano
o

A seguir appresentam-se as conclusses e sugeestes dessa


a
pesquisaa.

168

6 CONCLUSES
Neste captulo sero apresentadas as concluses do estudo, bem
como sugestes e recomendaes para futuras investigaes sobre o
tema abordado.
6.1 Concluses
Sob o ponto de vista de contribuio a Cincia da Informao
mais especificamente s disciplinas de Fontes de Informao,
Bibliotecas Digitais, Preservao e Recuperao da informao, a
pesquisa aprofundou estudos na rea de recuperao de informao e
preservao digital tendo como foco o formato de arquivos digitais,
beneficiando as reas correlatas como da cincia da computao,
Biblioteconomia e Arquivologia.
Esta pesquisa teve como objetivo principal de analisar os
recursos disponveis na Biblioteca Digital Greenstone para preservao
lgica de documentos digitais com foco no formato de arquivos e a
recuperao da informao.
Para atingir o objetivo principal, foram traados os seguintes
objetivos especficos:
a) Estudar os modelos clssicos de recuperao de
informao;
b) Identificar os recursos disponveis para recuperao de
informao na BDG;
c) Identificar os pontos fortes e pontos fracos da BDG; e
d) Analisar a questo de preservao de documentos
digitais sob o ponto de vista lgico na Biblioteca
Digital Greenstone.
A partir dos objetivos supracitados chegaram-se as seguintes
concluses:
1)
Aps estudo dos modelos clssicos de recuperao de
informao e avaliao da Biblioteca Digital Greenstone, constatou-se
que a mesma disponibiliza vrias tcnicas de recuperao de informao
como browsing, stemming, pesquisa booleana e ranking.

169

2)
Sobre as ferramentas de indexao dos documentos
para recuperao da informao, constatou-se que dentro da BDG esto
disponveis trs ferramentas para indexar as colees: o MG, que o
indexador padro, o MGPP (MG++) e o Lucene (Apache Software
Foundation) que possuem caractersticas sofisticadas de indexao e
busca. Nesta pesquisa foram testados os trs modelos de indexao, onde
constatou-se que o indexador MG no oferece recursos de diferenciao
de acentuao, e o LUCENE no dispe de recursos de stemming. Pela
anlise realizada concluiu-se que o MGPP (ou MG++) o que tem mais
parmetros para recuperao de informao e que demonstrou ser mais
eficiente, pois ele prev ndices de nvel de documento, e compresso
dos documentos originais. Constata-se que apesar dos recursos de
recuperao de informao que BDG oferece, existem outros que
poderiam ser disponibilizados, como a Indexao Semntica Latente,
pois considerando que em bibliotecas digitais as colees so mais
estveis, como no caso de uso dessa pesquisa, e com a tendncia de
aumento da capacidade de processamento dos computadores, a LSI
passou a ser vivel, j que o custo computacional dispendido em
clculos pela utilizao do modelo algbrico SVD manipulando matrizes
esparsas deixa de ser um fator limitante, e o problema de escalabilidade
passa a no ser preocupante.
3)
Segundo a pesquisa realizada, foram identificados os
seguintes pontos fortes:
a) Ser um software livre;
b) Interoperabilidade de documentos;
c) Ser altamente customizvel;
d) Instalao rpida;
e) Disponvel para vrios idiomas;
f) Disponvel para vrias em diversas plataformas;
g) Interface de consulta Web;
h) Permitir incluso de mais de um formato de
arquivo;
i) Possibilidade de desenvolvimento de plug-ins para
diversos formatos de arquivos;
j) Permite instalao e execuo em vrias
plataformas;
k) Criao de colees distintas;
l) Incluso de metadados obedecendo a padres
internacionais;
m) Importao e exportao de obras/metadados;

170

n)
o)

Quantidade satisfatria de documentao;


No necessitar de plug-ins na mquina do usurio
final;
p) Interface agradvel e personalizvel;
q) Possibilidades de navegar pelos os campos
relacionados ao documento;
r) Realiza pesquisa utilizando campos especficos de
metadados e texto-integral;
s) Interoperabilidade automtica com outros sistemas
(mesma base ou bases diferentes);
t) Exportar colees ou partes de colees para
consulta local.
Tambm foram identificados os seguintes pontos fracos:
a) No permite a submisso de um documento pelo
prprio autor, pois necessita de um sempre do
intermedirio administrador do sistema;
b) No estrutura de segurana baseada em perfis de
usurios;
c) No possui mdulo que permita a certificao
digital;
d) No possui sistema de log indicando que fez o que
no sistema;
e) Interao com usurio (notificaes por e-mail,
informaes na home-page);
f) No possui rotina de backup;
g) No possui estatsticas de utilizao;
h) Atualizao do acervo on-line complicada,
i) Difcil parametrizao; e,
j) Difcil customizao da interface
4)
Ao investigar se a Biblioteca Digital Greenstone aceita
formatos de arquivos que atendem aos requisitos de preservao lgica
de arquivos digitais, constatou-se que atualmente a mesma disponibiliza
plug-ins para os formatos de arquivos aderentes aos padres de
preservao digital que so aceitos internacionalmente como ODF e
PDF/A, e ainda permite o desenvolvimento e insero de plug-ins para
os inmeros formatos de arquivos existentes.

171

6.2 Sugestes
Devido amplitude do tema referente preservao digital e
recuperao de informao, a rea de pesquisa foi limitada a recuperao
de informao e a preservao digital com foco no formato de arquivos.
No decorrer da pesquisa observou-se que algumas questes ficaram em
aberto em decorrncia das limitaes impostas no escopo deste trabalho.
Porm, este estudo pode ser continuado por meio de outras pesquisas,
sejam de mestrado ou doutorado. As sugestes de estudos sobre o
Greenstone e a seguinte:
a) Preservao fsica com foco na preservao das
mdias e na sua renovao quando se fizer necessrio;
b) Preservao lgica com foco nos formatos e a
dependncia de hardware e software que mantenham
legveis e interpretveis a cadeia de bits;
c) Preservao intelectual com foco no contedo
intelectual e sua autenticidade e integridade;
d) Preservao do aparato com foco nos metadados necessria para localizar, recuperar e representar a
informao digital;
e) Avaliao sobre Ergonomia e usabilidade;
f) Tcnicas de recuperao de informao; e,
g) Gesto arquivstica de bibliotecas digitais.
6.3 Recomendaes
Com a concluso dessa pesquisa, observou-se que algumas
questes envolvendo a Biblioteca Digital Greenstone, como preservao
e recuperao de informaes, formato de arquivos, podem ser
recomendadas aos envolvidos nesta pesquisa:
1 No Brasil no foi encontrado nenhuma norma obrigando a
adoo do PDF/A, mas como demonstrado na reviso da literatura,
observa-se que existe um movimento crescente em diversos pases que
esto normatizando o PDF/A como padro de arquivamento de
documentos digitais. Posto isto, faz-se necessrio recomendar a
administrao da UFSC uma normatizao sobre arquivamento de
documentos, onde o padro de formato de arquivos digitais ser o
'PDF/A'.

172

2 Recomendar a Coordenao do PGCIN para que realize as


seguintes alteraes do sitio na internet que est disponvel em
<http://www.cin.ufsc.br/pgcin/dissertacao.php>:
a) Uma (1) cpia impressa e uma (1) cpia em CD-ROM no
formato 'PDF/A' devero ser entregues na secretaria do PGCIN.
b) Uma (1) cpia impressa e uma (1) cpia em CD-ROM no
formato 'PDF/A' o aluno dever entregar na Biblioteca Universitria,
juntamente com o "termo de autorizao para publicao eletrnica de
Dissertaes e Teses".
3 Recomendar que a Coordenao do PGCIN entre em
contato com os alunos para que os mesmos enviem um CD-ROM no
formato 'PDF/A', e que os mesmos sejam atualizados no stio na internet
do PGCIN. Tal recomendao se faz necessria pelo fato de que durante
a coleta de dados observou-se que os documentos do PGCIN no esto
em um formato adequado para a preservao digital, pois somente o
arquivo sales rodrigo.pdf estava no formato PDF/A-1b atendendo
assim aos requisitos de preservao digital. J o documento
NelmaAraujo.pdf est bloqueado por senha at para visualizao no
prprio site do PGCIN, sendo assim, no atendendo aos requisitos de
preservao digital, e tambm no permite a sua consulta. O restante das
dissertaes selecionadas para compor a coleo PGCIN esto no
formato PDF, mas em verses que no atendem aos requisitos de
preservao digital.
4 - Recomendar a administrao da UFSC dar conhecimento, ou
at criar normas sobre os padres de Interoperabilidade de Governo
Eletrnico tendo como base o e-PING 4.0, posto que a partir dessa
verso do e-PING, o ODF assumiu caracterstica de adotado, tornandose obrigatrio para guarda e troca de documentos eletrnicos entre todos
os rgos da administrao direta, autarquias e fundaes, sendo assim,
a Universidade Federal de Santa Catarina e por ser extenso o PGCIN
devero se enquadrar a essa regra.
5 Recomendar aos responsveis pelo desenvolvimento do
Greenstone que considerem a utilizao da tcnica de indexao
semntica latente aplicada recuperao de informao pelas vantagens
relacionadas aos problemas de sinonmia e polissemia, pois a
indexao semntica latente tem como objetivo de melhorar a
recuperao de informao atravs do descobrimento de associaes
entre os termos em uma grande coleo de textos a fim de criar um
espao semntico.

173

Aps a realizao da pesquisa, concluiu-se que a Biblioteca


Digital Greenstone est preparada para atender aos requisitos de
preservao lgica de arquivos digitais, pois permite a incluso de
arquivos de formatos proprietrios com especificao fechada,
proprietrio com especificao aberta, e no proprietrios com
especificao aberta. Alm disso, uma plataforma aberta e permite o
desenvolvimento de plug-ins para inmeros formatos de arquivos.
Como em qualquer processo de informatizao, faz-se
necessrio antes da implantao de uma soluo, o levantamento dos
requisitos funcionais (o que se espera da soluo) e no funcionais
(recursos de infraestrutura) e considerar a perspectiva de continuidade da
soluo adotada. Posto isto, o Greenstone aparece como um forte
candidato para implementao, pois possui inmeros atributos
importantes, como interoperabilidade, preservao digital lgica de
arquivos digitais, recursos para recuperao de informao e ser um
software livre, ainda conta com o apoio de comunidades de
desenvolvimento em vrios pases, alm do que, um projeto de
bibliotecas digitais (New Zealand Digital Library Project
www.nzdl.org) da Universidade de Waikato na Nova Zelndia, e
desenvolvido e distribudo em cooperao com a UNESCO
(www.unesco.org) e a ONG Human Info (http://humaninfo.org/).

174

REFERNCIAS BIBLIOGRFICAS
ADOBE SYSTEMS INCORPORATED.XMP Adding Intelligent to
Media. San Jose, CA: Adobe, 2004. Disponvel em:
<www.aiim.org/documents/standards/xmpspecification.pdf>.
Acesso
em: 22 maio 2010.
ADOBE SYSTEMS INCORPORATED. XMP Adding Intelligent to
Media. San Jose, CA: Adobe, 2005. Disponvel em:
<www.adobe.com/devnet/xmp/pdfs/xmp_specification.pdf>. Acesso em:
22 maio 2010.
ADOBE'S MAIN XMP. Extensible Metadata Platform (XMP).
Disponvel em:<www.adobe.com/products/xmp/> Acesso em: 22 maio
2010.
ADOBES XMP DEVELOPER'S. Adobe XMP Developer Center.
Disponvel em: <partners.adobe.com/public/developer/xmp/topic.html>
Acesso em: 25 nov. 2009.
ALEX WRIGHT. The Web Time Forgot. The New York Times. 17
Jun.
2008.
Disponvel
em:
<http://www.nytimes.com/2008/06/17/science/17mund.html>. Acesso
em: 21 abr. 2009.
ARQUIVO NACIONAL. Conselho Nacional de Arquivos
(CONARQ). Carta para a preservao do patrimnio arquivstico
digital. Rio de Janeiro, 2004. Disponvel em:
<http://www.conarq.arquivonacional.gov.br/Media/publicacoes/cartapre
servpatrimarqdigitalconarq2004.pdf >. Acesso em: 25 nov. 2009.
ASTI VERA, A. Metodologia da pesquisa cientfica. Porto Alegre:
Globo, 1978.
BAEZA-YATES, R. A.; RIBEIRO-NETO, B. A. Modern Information
Retrieval. Addison Wesley, 1999.
BARDIN, L. Anlise de contedo. Lisboa: Edies 70, 2004.

175

BARRETO, A. de A. Os agregados de informao: memrias,


esquecimento e estoques de informao. DataGramaZero: Revista de
Cincia da Informao, Rio de Janeiro, v.1, n.3, ago. 2000.
Disponvel em: <http://www.dgz.org.br/jun00/Art_01.htm>. Acesso em:
16 abr. 2009.
BARRETO Aldo Albuquerque. Os destinos da Cincia da Informao:
entre o cristal e a chama. DataGramaZero: Revista de Cincia da
Informao, Rio de Janeiro, n. 0, p.1-9, dez. 1999. Disponvel em:
<http://www.dgz.org.br/dez99/Art_03.htm>. Acesso em: 16 abr. 2009.
BERRY, MICHAEL W.; DUMAIS, SUSAN T.; OBRIEN, G.W. Using
Linear lgebra for Intelligent Information Retrieval: Technical
Report UT-CS-94-270. Tennessee, Knoxville : Computer Science
Department, University of Tennessee. Disponvel em:
<http://www.cs.utk.edu/~library/TechReports/1994/ut-cs-94-270.ps.Z.>
Acesso em: 16 abr. 2009.
BLATTMANN, Ursula; BOMF, Cludia Regina Ziliotto. Gesto de
contedos em bibliotecas digitais: acesso aberto de peridicos cientficos
eletrnicos. Revista Brasileira de Biblioteconomia e Documentao,
So Paulo, 2006. v. 2, n.1.p. 41-56, 2006. Disponvel
em:<http://143.106.108.58/seer/ojs/ojs/viewarticle.php?id=16&layout=a
bstract>. Acesso em: 03 dez. 2009.
BLATTMANN, Ursula, FACHIN, Gleisy R. B.; RADOS, Gregrio J.V.
Recuperar a informao eletrnica pela Internet. Revista da ACB:
Biblioteconomia em Santa Catarina, Florianpolis, v.4, n.1, 1999.
Disponvel em: <http://www.ced.ufsc.br/~ursula/papers/buscanet.html>.
Acesso em: 03 dez. 2009.
BLATTMANN, Ursula. Modelo de gesto da informao digital online em bibliotecas acadmicas na educao distncia: biblioteca
virtual. 2001. Tese (Doutorado em Engenharia de Produo) - Programa
de Ps-Graduao em Engenharia de Produo, Universidade Federal de
Santa Catarina, Florianpolis.

176

BLATTMANN, Ursula; FACHIN, Gleisy R. B.; RADOS, Gregrio J.V.


Bibliotecrio na posio do arquiteto da informao em ambiente Web.
In:
SEMINRIO
NACIONAL
DE
BIBLIOTECAS
UNIVERSITRIAS, 10. Anais eletrnicos. Florianpolis, 2000.
Disponvel em: <http://www.ced.ufsc.br/~ursula/papers/arquinfo.html>.
Acesso em: 03 dez. 2009.
BLATTMANN, Ursula; FRAGOSO, Graa Maria (orgs). O zapear a
informao em bibliotecas e na Internet. Belo Horizonte: Autntica,
2003.
BORKO, H. Information science: what is
Documentation, Chicago, v.19, n.1, p.3-5, Jan. 1968.

it?

American

BUCKLEY, Chris. SMART System Overview. Ithaca, New York:


Cornell University, 1996. 50p. (Technical Report). Disponvel
em:<http://portal.acm.org/citation.cfm?id=866085&dl=GUIDE&coll=G
UIDE&CFID=96052997&CFTOKEN=69269791>. Acesso em: 30 jun.
2009.
BRASIL. E-Ping: padres de interoperabilidade. Documento de
referncia. Braslia: Comit Executivo de Governo Eletrnico: 2010.
Disponvel em:
<http://www.governoeletronico.gov.br/acoes-e-projetos/e-ping-padroesde-interoperabilidade>. Acesso em: 22 maio 2010.
BUSH, Vannevar. As we may think. The Atlantic Monthly, Jul. 1945.
Disponvel em: <http://www.ps.uni-sb.de/~duchier/pub/vbush/vbushall.shtml>. Acesso em: 16 abr. 2009.
CAMPELLO, Bernardete; CALDEIRA, Paulo da Terra (Org.).
Introduo s fontes de informao. Belo Horizonte : Autntica, 2005.
181p. [Coleo Cincia da Informao]
CAMPELLO, Bernardete Santos; CENDN, Beatriz Valadares;
KREMER, Jeannette Marguerite (orgs.). Fontes de informao para
pesquisadores e profissionais. Belo Horizonte : Ed. UFMG, 2003.
CERVO, Amado L.; BERVIAN, Pedro A.. Metodologia Cientfica :
para uso dos estudantes universitrios. 3.ed. So Paulo : McGraw-Hill
do Brasil, 1983.

177

CHIZZOTTI, Antonio. Pesquisa em cincias humanas e sociais. So


Paulo: Cortez, 1991.
CHOO, Chun Wei, A Organizao do Conhecimento.
Eliana Rocha. So Paulo: SENAC, 2003.

Traduo

CONSEGI - Congresso Internacional Software Livre e Governo


Eletrnico. Disponvel em: <http://www.consegi.gov.br/consegi1/historico> - Acesso em: 15 jul. 2010.
CONSELHO NACIONAL DE ARQUIVOS. Cmara Tcnica de
Documentos Eletrnicos. Modelo de requisitos para sistemas
informatizados de gesto arquivstica de documentos: e-ARQ Brasil.
2006. Verso 1. Disponvel em:
<http://www.conarq.arquivonacional.gov.br/Media/publicacoes/earqbras
ilv1.pdf>. Acesso em: 01 jun. 2009.
CONTANDRIOPOULOS, Andr-Pierre et al, Saber preparar uma
pesquisa. 3. ed. So Paulo - Rio de Janeiro: HUCITEC/Abrasco, 1999.
CRTE, Adelaide Ramos et al.. Avaliao de softwares para
bibliotecas e arquivos : uma viso do cenrio nacional. 2. ed. rev. a
ampl. Sao Paulo: Polis, 2002. 221 p. ISBN 8572280138 (broch.)
CUNHA, Murilo Bastos da. Para saber mais: fontes de informao em
cincias e tecnologia. Braslia : Briquet de Lemos / Livros, 2001. 168 p.
CUNHA, Murilo Bastos da; MCCARTHY, Cavan. Estado atual das
bibliotecas digitais no Brasil. In: MARCONDES, Carlos H.;
KURAMOTO, Hlio; TOUTAIN, Ldia Brando; SAYO; Lus (orgs.).
Bibliotecas digitais: saberes e prticas. Salvador/Braslia:
UFBA/IBICT, 2005. p. 25- 53.
DAVENPORT, Thomas H. Reengenharia de processos: como inovar a
empresa atravs da tecnologia da informao. Rio de Janeiro: Campus,
1994.
DAVENPORT, Thomas H. Ecologia da informao: por que s a
tecnologia no basta para o sucesso na era da informao. So Paulo:
Futura, 1998.

178

DEERWETER, S. et al. Indexing by Latent Semantic Analysis. Journal


of the American Society for Information Science, v.41, n. 6, p.391407, 1990. Disponvel em:
<http://lsi.research.telcordia.com/lsi/papers/CHI88.ps>. Acesso em: 30
jun. 2009.
DIGITAL LIBRARY FEDERATION - DLF. A working definition of
digital library. 1998. Disponvel em:
<http://www.diglib.org/about/dldefinition.htm>.Acesso em: 12 maio
2010.
DUMAIS, ST; FURNAS, GW; LANDAUER, TK; DEERWESTER, S.
Using latent semantic analysis to improve information retrieval. In:
CONFERENCE ON HUMAN FACTORS IN COMPUTING, 1988,
Proceedings New York: ACM, 1988. p. 281-285. Disponvel em:
<http://lsi.research.telcordia.com/lsi/papers/CHI88.ps>. Acesso em: 30
jun. 2009.
EIN-DOR, Phillip; SEGEV, Eli. Administrao de sistemas de
informao. Rio de Janeiro: Campus, 1985.
FERNEDA, E. Recuperao da informao: anlise sobre a
contribuio da cincia da computao para a cincia da informao.
So Paulo: USP, 2003. 147p. Tese (Cincias da Comunicao) Escola de
Comunicao e Arte da Universidade de So Paulo. Disponvel em:
<http://www.teses.usp.br/teses/disponiveis/27/27143/tde-15032004130230/publico/Tese.pdf>. Acesso em: 21 abr. 2009.
FERREIRA, M. Introduo preservao digital: conceitos,
estratgias e actuais consensos. Guimares, Portugal: Escola de
Engenharia da Universidade do Minho, 2006. Disponvel em:
<https://repositorium.sdum.uminho.pt/handle/1822/6411>. Acesso em:
25 nov. 2009.

179

FERREIRA, Sueli Mara Soares Pinto; SOUTO, Leonardo Fernandes.


Dos Sistemas de Informao Federados Federao de Bibliotecas
Digitais. Revista Brasileira de Biblioteconomia e Documentao, v. 2,
p. 23-40, 2006. Disponvel em:
<http://143.106.108.58/seer/ojs/ojs/viewarticle.php?id=17&layout=abstr
act>.Acesso em: 03 dez. 2009
FOLTZ, P. W. Using latent semantic indexing for information filtering.
In: CONFERENCE ON OFFICE INFORMATION SYSTEMS, 1990,
Procedings Cambridge, MA, 1990. Disponvel em: <http://wwwpsych.nmsu.edu/~pfoltz/cois/filtering-cois.html>. Acesso em: 21
abr.2009.
GARCIA, Edel. Singular value decomposition (SVD) fast track
tutorial. 2006. Disponvel em: <http://www.miislita.com/informationretrieval-tutorial/singular-value-decomposition-fast-track-tutorial.pdf>.
Acesso em: 30 jun. 2009.
GIL, Antnio Carlos. Como elaborar projetos de pesquisa. 4. ed. So
Paulo : Atlas, 2002.
GIL, Antonio Carlos. Mtodos e tcnicas de pesquisa social. 6. ed. So
Paulo: Altas, 2008.
GONZLEZ DE GMEZ, Maria Nlida. Metodologia de pesquisa no
campo da cincia da informao. DataGramaZero Revista de Cincia
da Informao, v. 1, n. 6, dez. 2000.
GREENSTONE. Greenstone Digital Library Software. Disponvel
em: <http://www.greenstone.org>. Acesso em: 12 maio 2010.
GREENSTONE Digital Library Software. WIKI do Greenstone.
Disponvel em:
<http://wiki.greenstone.org/wiki/index.php/Main_Page>. Acesso em: 22
maio 2010.
HARRISON, Thomas H. Intranet data warehouse: ferramentas e
tcnicas para a utilizao do data warehouse na intranet. So Paulo:
Berkeley, 1998.

180

HOLANDA, A. B. Dicionrio Aurlio Escolar da Lngua Portuguesa,


3. ed. revista e ampliada Rio de Janeiro : Editora Nova Fronteira, 1993.
KAFURE, Ivette. Usabilidade da imagem na recuperao da
informao no catlogo pblico de acesso em linha. 2004. 311 p. Tese
(Doutorado) - Universidade de Braslia. Departamento de Cincia da
Informao e Documentao. Programa de Ps-Graduao em Cincia
da Informao. Disponvel em:
<http://bdtd.bce.unb.br/tedesimplificado/tde_busca/arquivo.php?codArq
uivo=1011 >. Acesso em: 12 maio 2010.
KLEIN, David A. A Gesto estratgica do capital intelectual: recursos
para uma economia baseada em conhecimento. Rio de Janeiro:
Qualitymarke Ed. 1998.
KURAMOTO, Hlio; TOUTAIN, Ldia Brando; SAYO; Lus (orgs.).
Bibliotecas digitais: saberes e prticas. Salvador/Braslia:
UFBA/IBICT, 2005.
KURAMOTO, Hlio. Ferramentas de software livre para bibliotecas
digitais.
In: MARCONDES, Carlos H.; KURAMOTO, Hlio;
TOUTAIN, Ldia Brando; SAYO; Lus (orgs.). Bibliotecas digitais:
saberes e prticas. Salvador/Braslia: UFBA/IBICT, 2005. p. 147-164.
LEITE, Fernando Csar Lima; MRDERO ARELLANO, Miguel A. ;
MORENO, Fernanda Passini. Acesso livre a publicaes e repositrios
digitais em Cincia da Informao no Brasil. Perspectivas em cincia
da informao, Belo Horizonte, v. 11, n. 1, p. 82-94, jan./abr., 2006.
Disponvel em:
<http://www.eci.ufmg.br/pcionline/viewarticle.php?id=443&layout=abst
ract>. Acesso em: 03 dez. 2009.
LEITE, Fernando Csar Lima; COSTA, Sely. Repositrios institucionais
como ferramentas de gesto do conhecimento cientfico no ambiente
acadmico. Perspectivas em Cincia da Informao, Belo Horizonte,
v. 11, n.2, p. 206-219, maio/ago. 2006. Disponvel em:
<http://www.eci.ufmg.br/pcionline/viewarticle.php?id=419>.
Acesso
em: 03 dez.2009.
LANCASTER, F. W. Information retrieval systems: Characteristics,
Testing and Evaluation. New York: Wiley, 1968.

181

LOPES, Ilza Leite. Novos paradigmas para avaliao da qualidade da


informao em sade recuperada na Web. Cincia da Informao, v.
33, n. 1, p. 81-90, jan./ abr. 2004. Disponvel em:
<http://www.ibict.br/cienciadainformacao/viewarticle.php?id=54&layou
t=html>.Acesso em: 21 abr. 2009.
MACHADO, Murilo Milton. Open archives: panorama dos
repositrios. Florianpolis, 2006. 101 f.Dissertao (Mestrado) Universidade Federal de Santa Catarina, Centro de Cincias da
Educao. Programa de Ps-Graduao em Cincia da Informao.
Disponvel em: <http://www.tede.ufsc.br/teses/PCIN0015.pdf>. Acesso
em: 03 dez. 2009.
MARCONDES, Carlos H.; KURAMOTO, Hlio; TOUTAIN, Ldia
Brando; SAYO; Lus (orgs.). Bibliotecas digitais: saberes e prticas.
Salvador/Braslia : UFBA/IBICT, 2005.
MARCONDES, Carlos Henrique. Metadados: descrio e recuperao
de informao na Web. In: MARCONDES, Carlos H.; KURAMOTO,
Hlio; TOUTAIN, Ldia Brando; SAYO; Lus (orgs.). Bibliotecas
digitais: saberes e prticas. Salvador/Braslia: UFBA/IBICT, 2005. p.
97-113.
MRDERO ARELLANO, Miguel A.. Preservao de documentos
digitais. Cincia da Informao, Braslia, v. 33, n. 2, p. 15-27, 2004.
Disponvel em:
<http://www.scielo.br/pdf/ci/v33n2/a02v33n2.pdf>. Acesso em: 25 nov.
2009.
MRDERO ARELLANO, Miguel Angel; SANTOS, Regina Maria
Duarte Moreira dos; FONSECA, Ramn Martins Sodoma. SEER:
disseminao de um sistema eletrnico para editorao de revistas
cientficas no Brasil. Arquivstica.Net, Rio de Janeiro, v. 1, n. 2, 2006.
Disponvel em:
<http://www.arquivistica.net/ojs/viewarticle.php?id=33&layout=abstract
>. Acesso em: 25 nov. 2009.
MARCONDES, C. H.; SAYAO, L. F. . Acesso unificado s teses
eletrnicas brasileiras. Informao & Sociedade. Estudos, Joo Pessoa,
v. 13, n. 1, 2003. Disponvel em:

182

<http://www.ies.ufpb.br/ojs2/index.php/ies/article/view/125>.
em: 03 dez. 2009.

Acesso

MARCONI, Marina de Andrade; LAKATOS, Eva Maria. Metodologia


cientfica. 5 ed. So Paulo: Editora Atlas, 2008.
MARON, Melvin Earl; Kuhns, J. L.On relevance, probabilistic indexing,
and information retrieval. Journal of the ACM. Disponvel em:
<http://www.acm.org/pubs/citations/journals/cacm/> Acesso em: 21 abr.
2009.
MARTINS, G. de A. Estudo de caso: uma estratgia de pesquisa. So
Paulo: Atlas, 2006.
MICROSOFT. Padro Ecma Office Open XML certificao
internacional ISO. 2008. Disponvel em:
<http://www.microsoft.com/latam/presspass/brasil/2008/abril/openxml.
mspx> Acesso em: 29 mai. 2010.
MINAYO, M. C. de S. O desafio do conhecimento. 2. ed. So
Paulo/Rio de Janeiro, 1993.
MIRANDA, Antonio. Cincia da informao; teoria e metodologia de
uma rea em expanso. Braslia: Tesaurus, 2003.
MOOERS, Calvin Northrup. Zatocoding applied to mechanical
organization of knowledge. American Documentation, v.2, n.1, p.2032, 1951.
NATIONAL ARCHIVES AND RECORDS ADMINISTRATION.
NARA. Disponvel em:<http://www.archives.gov/index.html>. Acesso
em: 03 dez. 2009.

183

NATIONAL INFORMATION STANDARD ORGANIZATION.


Framework Advisory: A framework of Guidance for Building Good
Digital Collection. Bathesda, MD : National Information Standards
Organization (NISO). 2004a. Disponvel em:
<http://www.niso.org/framework/framework2.pdf>. Acesso em: 25 nov.
2009.
NEW ZEALAND DIGITAL LIBRARY PROJECT - NZDL. Disponvel
em: <http://nzdl.sadl.uleth.ca/cgi-bin/library.cgi>. Acesso em: 12 maio
2010.
PAES CARDOSO, O. N. Recuperao da Informao. Infocomp:
Journal of Computer Science, v. 2, n. 1. 2000. Disponvel em:
<http://www.dcc.ufla.br/infocomp/artigos/v2.1/art07.pdf>. Acesso em:
12 maio 2010
PDFLIB.
XMP
in
PDF/A.
Disponvel
em:
<http://www.pdflib.com/knowledge-base/xmp-metadata/>.Acesso em: 22 de

mai. de 2010.
PINHEIRO, Lena Vnia Ribeiro. Campo interdisciplinar da Cincia da
Informao: fronteiras remotas e recentes. In: PINHEIRO, Lena V.
Ribeiro (org.). Cincia da Informao, Cincias Sociais e
Interdisciplinaridade. Braslia/Rio de Janeiro, IBICT/DDI/DEP, 1999,
p. 155-182.
PROPOSTA submetida pela Comisso Nacional da UNESCO dos pases
baixos apresentada Conferncia Geral da UNESCO e aprovada para
incluso no programa para 2002-2003. In: BIBLIOTECA NACIONAL
(Portugal). Manifesto para a Preservao Digital, UNESCO. Disponvel
em:
<http://www.bn.pt/agenda/ecpa/manifesto_unesco.html>. Acesso em: 25
nov. 2009.
RIJSBERGEN, C. J. van. Information retrieval. 1999. Disponvel em:
<http://www.dcs.gla.ac.uk/~iain/keith/>. Acesso em: 21 abr. 2009.
ROBERTSON, S.E; Teories and models in information retrieval.
Journal of Documentation, 33, p. 126-148. 1977.

184

SALTON, G.; McGILL, M. J. Introduction to Modern Information


Retrieval. McGraw Hill, 1983. 448p.
SALTON, G.; FOX, E.A., WU, H. Extended Boolean information
retrieval. Communications of the ACM, v.26, n.11, p.1022-1036, Nov.
1983. Disponvel em: <http://portal.acm.org/citation.cfm?id=358466>.
Acesso em: 21 maio 2010.
SARACEVIC, T. Cincia da Informao: origem, evoluo e relaes.
Perspectivas em Cincia da Informao, Belo Horizonte, v. 1, n. 1, p.
41-62, jan./jun. 1996.
SAYO, Luis Fernando. Preservao digital no contexto das bibliotecas
digitais. In: Marcondes , C. H; Kuramoto, H.; Toutain, Lidia Brando;
Sayo, Luis Fernando.(Org.). Bibliotecas digitais: saberes e prticas.
Salvador/Braslia: UFBA/IBICT, 2006, p. 115-149.
SAYAO, L. F.. Padres para bibliotecas digitais abertas e interoperveis.
Encontros Bibli, v. 1, p. 2, 2007. Disponvel em:
<http://www.periodicos.ufsc.br/index.php/eb/article/viewFile/461/463>.
Acesso em: 03 dez. 2009.
SILVA, E.; MENEZES, E. M. Metodologia da pesquisa e elaborao
de dissertao. 3.ed. Florianpolis: Laboratrio de Ensino a Distncia
da UFSC, 2001.121 p.
TAMMARO, Anna Maria; SALARELLI, Alberto. A biblioteca digital.
Braslia: Briquet de Lemos, 2008. 377p
TAKAHASHI, T. (Org.). Sociedade da Informao no Brasil: o livro
verde. Braslia: Ministrio da Cincia e Tecnologia, 2000.
TAKAO, Eduardo Liqueo; Uma anlise de modelos de sistemas
probabilsticos em recuperao de informao em bases textuais,
2001, Dissertao (Mestrado em Cincias da Computao - UFSC).
Disponvel em: <http:// www.tede.ufsc.br/teses/PGCC0157.pdf>.
Acesso em: 21 abr. 2009.
TOMAL, M. I. et alii. Avaliao de fontes de informao na internet;
critrios de qualidade. Informao & Sociedade; estudos, Joo Pessoa,
v. 11, n. 2, p. 13-35, 2001.

185

UNESCO. UNESCO's programme aiming at preservation and


dissemination of valuable archive holdings and library collections
worldwide.E-Heritage.
Disponvel
em:
<http://portal.unesco.org/ci/en/ev.phpURL_ID=1539&URL_DO=DO_TOPIC&URL_SECTION=201.html>.
Acesso em: 15 jun. 2010.
VANDERLEI FILHO, D. ; VALENCA, M. J. S. ; LUDERMIR, T. B. ;
SILVA, G. P. F. . Uma Proposta Fuzzy na Avaliao de Desempenho de
Bibliotecas Universitrias Brasileiras. In: XII SEMINRIO
NACIONAL DE BIBLIOTECAS UNIVERSITRIAS DA AMRICA
LATINA E DO CARIBE, 12., SIMPSIO DE DIRETORES DE
BIBLIOTECAS UNIVERSITRIAS DA AMRICA LATINA E
CARIBE, 2. 2002,
Anais... Recife, 2002. Disponvel em:
<http://www.sibi.ufrj.br/snbu/snbu2002/oralpdf/38.a.pdf>. Acesso em:
01 maio 2009.
VICENTINI, Luiz Atlio. Gesto em bibliotecas digitais. In:
MARCONDES, Carlos H.; KURAMOTO, Hlio; TOUTAIN, Ldia
Brando; SAYO; Lus (orgs.). Bibliotecas digitais: saberes e prticas.
Salvador/Braslia : UFBA/IBICT, 2005. p. 243-262.
XMP.Open industry initiative. Disponvel em: <www.xmpopen.org>.
Acesso em: 22 maio 2010.
YIN, Robert K. Estudo de caso: planejamento e mtodos. 3. ed. Porto
Alegre: Bookman, 2005.

186
6

ANE
EXO A: Telaa do resultado anlise do DROID

187

ANEXO B Relatrio gerado pelo software DROID

FORMAT
URI

EXT PUID
NAME

arquivo teste gerado na verso


openoffice
sxw.sxw!/mimetype
arquivo teste gerado na verso
openoffice
sxw.sxw!/Configurations2/sta
tusbar/
arquivo teste gerado na verso
openoffice
sxw.sxw!/Configurations2/flo
ater/
arquivo teste gerado na verso
openoffice
sxw.sxw!/Configurations2/po
pupmenu/
arquivo teste gerado na verso
openoffice
sxw.sxw!/Configurations2/pro
gressbar/
arquivo teste gerado na verso
openoffice
sxw.sxw!/Configurations2/me
nubar/
arquivo teste gerado na verso
odf.odt!/mimetype
arquivo teste gerado na verso
odf!/mimetype
arquivo teste gerado na verso
odf!/Configurations2/statusba
r/
arquivo teste gerado na verso

FOR
MAT
VERS
ION

188

openoffice sxw.sxw!/
Configurations2/toolbar/
arquivo teste gerado na verso
openoffice sxw.sxw!/
Configurations2/images/Bitm
aps/
arquivo teste gerado na verso
odf!/Configurations2/accelera xml
tor/current.xml
arquivo teste gerado na verso
odf!/Configurations2/floater/
arquivo teste gerado na verso
odf!/Configurations2/popupm
enu/
arquivo teste gerado na verso
odf!/Configurations2/progress
bar/
arquivo teste gerado na verso
odf!/Configurations2/menubar
/
arquivo teste gerado na verso
odf!/Configurations2/toolbar/
arquivo teste gerado na verso
odf!/Configurations2/images/
Bitmaps/
arquivo teste gerado na verso
openoffice
xml
sxw.sxw!/Configurations2/acc
elerator/current.xml
arquivo teste gerado na verso
openoffice sxw.sxw!/layoutcache
arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/mi
metype
arquivo teste gerado na verso

189

odf!/layout-cache
apresentacao dissertao Jairo
pps
97 03.pps
apresentacao qualificacao
Jairo 161209.ppt

ppt

Microsoft
fmt/126 Powerpoint
Presentation
Microsoft
fmt/126 Powerpoint
Presentation

972002
972002

arquivo teste gerado na verso


xWindows
odf!/Pictures/000007000094D wmf
fmt/119 Metafile
500005CD1BBE632.wmf
arquivo teste gerado na verso
xWindows
odf!/Pictures/0000070000344 wmf
fmt/119 Metafile
8000022532A1F2EB4.wmf
arquivo teste gerado na verso
xWindows
odf!/Pictures/000007000044D wmf
fmt/119 Metafile
6000026763AF4E4E4.wmf
Windows
arquivo teste gerado na verso
xemf
Enhanced
odf.odt!/media/image46.emf
fmt/153
Metafile
Windows
arquivo teste gerado na verso
xemf
Enhanced
odf.odt!/media/image31.emf
fmt/153
Metafile
Windows
arquivo teste gerado na verso
xemf
Enhanced
odf.odt!/media/image32.emf
fmt/153
Metafile
arquivo teste gerado na verso
xsxw
ZIP Format
openoffice sxw.sxw
fmt/263
arquivo teste gerado na verso
xodt
ZIP Format
odf.odt
fmt/263
arquivo teste gerado na verso
odf

Petro Bibiana.pdf

xZIP Format
fmt/263

pdf

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

190

Camila Koerich Burin.pdf

CarlosAlmeida.pdf

Chirley Silva.pdf

EldaLira.pdf

ElianePereira.pdf

Floriani Vivian.pdf

Francisca Rasche.pdf

pdf

pdf

pdf

pdf

pdf

pdf

pdf

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

191

FranciscaRasche.pdf

Gerson Tybusch.pdf

Jaqueline Alves.pdf

Lidiane dos Santos.pdf

LUCIANE PAULA
VITAL.pdf

Machado Marli.pdf

MariliLopes.pdf

pdf

pdf

pdf

pdf

pdf

pdf

pdf

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

fmt/17

Acrobat PDF
1.3 Portable
1.3
Document
Format

192

Petro Bibiana.pdf

pdf

fmt/17

Schenkel Marilia.pdf

pdf

fmt/17

Silva Catia.pdf

pdf

fmt/17

SilvanaBueno.pdf

pdf

fmt/17

ViniciusLucca.pdf

pdf

fmt/17

arquivo teste gerado na verso


pdf
PDF A.pdf

fmt/95

arquivo teste gerado na verso


pdf
PDF A.pdf

fmt/18

arquivo teste gerado na verso


pdf
pdf.pdf

fmt/95

Acrobat PDF
1.3 Portable
Document
Format
Acrobat PDF
1.3 Portable
Document
Format
Acrobat PDF
1.3 Portable
Document
Format
Acrobat PDF
1.3 Portable
Document
Format
Acrobat PDF
1.3 Portable
Document
Format
Acrobat
PDF/A Portable
Document
Format

1.3

1.3

1.3

1.3

1.3

1.4
Acrobat
PDF/A Portable
Document
Format

193

arquivo teste gerado na verso


pdf
pdf.pdf

Adriana Crispim.pdf

andrenizia aquino eluan.pdf

Davilla Guillermo.pdf

Erica Ribeiro.pdf

FleckFelicia.pdf

Gabriela Farias.pdf

pdf

pdf

pdf

pdf

pdf

pdf

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

194

Gardenia Castro.pdf

Gelci Rostirolla.pdf

Graipel Hermes.pdf

pdf

pdf

pdf

MARCIO_JOSE_SEMBAY.p
pdf
df

Margarida Reis.pdf

MargaridaReis.pdf

MOMM_Christiane.pdf

pdf

pdf

pdf

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

195

ReneeNina.pdf

RenataCurty.pdf

Pinheiro Liliane.pdf

Sales Rodrigo.pdf

Sales Rodrigo.pdf

Schtuz Sergio.pdf

Silva Fabiano Couto.pdf

pdf

pdf

pdf

pdf

pdf

pdf

pdf

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/95

Acrobat
PDF/A Portable
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

196

SonaliBedin.pdf

Soraya_Waltrick.pdf

Tassiane Altissimo_09.pdf

Veridiana Abe.pdf

AnnaCorreia.pdf

DerliDorigon.pdf

NelmaAraujo.pdf

pdf

pdf

pdf

pdf

pdf

pdf

pdf

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/18

Acrobat PDF
1.4 Portable
1.4
Document
Format

fmt/19

Acrobat PDF
1.5 Portable
1.5
Document
Format

fmt/19

Acrobat PDF
1.5 Portable
1.5
Document
Format

fmt/19

Acrobat PDF
1.5 Portable
1.5
Document
Format

197

fmt/19

Acrobat PDF
1.5 Portable
1.5
Document
Format

fmt/19

Acrobat PDF
1.5 Portable
1.5
Document
Format

fmt/19

Acrobat PDF
1.5 Portable
1.5
Document
Format

arquivo teste gerado na verso


rtf
rtf.rtf

fmt/46

Rich Text
Format

1.1

arquivo teste gerado na verso


rtf
rtf.rtf

fmt/47

Rich Text
Format

1.2

arquivo teste gerado na verso


rtf
rtf.rtf

fmt/48

Rich Text
Format

1.3

Savi Gorete.pdf

Schons Claudio H.pdf

Virgil Johnny.pdf

pdf

pdf

pdf

arquivo teste gerado na verso


rtf
rtf.rtf
arquivo teste gerado na verso
rtf
rtf.rtf

fmt/49
fmt/45

Rich Text
Format
Rich Text
Format

1.4
1.0

arquivo teste gerado na verso


rtf
rtf.rtf

fmt/46

Rich Text
Format

1.1

arquivo teste gerado na verso


rtf
rtf.rtf

fmt/47

Rich Text
Format

1.2

arquivo teste gerado na verso


rtf
rtf.rtf
arquivo teste gerado na verso
rtf
rtf.rtf

fmt/48
fmt/49

Rich Text
Format
Rich Text
Format

1.3
1.4

198

arquivo teste gerado na verso


rtf
rtf.rtf
arquivo teste gerado na verso
rtf
rtf.rtf
arquivo teste gerado na verso
rtf
rtf.rtf
arquivo teste gerado na verso
rtf
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
arquivo teste gerado na verso
rtf.rtf
Eliane Garcez.pdf

fmt/45
fmt/46
fmt/47
fmt/48

rtf

fmt/49

rtf

fmt/45

rtf

fmt/46

rtf

fmt/47

rtf

fmt/48

rtf

fmt/49

rtf

fmt/45

rtf

fmt/46

rtf

fmt/47

rtf

fmt/48

rtf

fmt/49

rtf

fmt/45

pdf

fmt/20

Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Acrobat PDF
1.6 Portable
Document
Format

1.0
1.1
1.2
1.3
1.4
1.0
1.1
1.2
1.3
1.4
1.0
1.1
1.2
1.3
1.4
1.0

1.6

199

Molossi Sinara.pdf

pdf

arquivo teste gerado na verso


odf.odt!/METAxml
INF/manifest.xml

fmt/20

Acrobat PDF
1.6 Portable
1.6
Document
Format

arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/ME xml
TA-INF/manifest.xml

Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language

arquivo teste gerado na verso


openoffice
xml
sxw.sxw!/content.xml

Extensible
fmt/101 Markup
Language

arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/con xml
tent.xml
arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/met xml
a.xml

Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language

arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/sett xml
ings.xml

Extensible
fmt/101 Markup
Language

arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/styl xml
es.xml
arquivo teste gerado na verso
openoffice
xml
sxw.sxw!/styles.xml

Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language

arquivo teste gerado na verso


xml
odf.odt!/settings.xml
arquivo teste gerado na verso
xml
odf.odt!/meta.xml

1.0

1.0

1.0
1.0

1.0

1.0

1.0

1.0

1.0

1.0

200

arquivo teste gerado na verso


openoffice
xml
sxw.sxw!/settings.xml

Extensible
fmt/101 Markup
Language

1.0

arquivo teste gerado na verso


openoffice sxw.sxw!/META- xml
INF/manifest.xml

Extensible
fmt/101 Markup
Language

1.0

arquivo teste gerado na verso


openoffice
xml
sxw.sxw!/meta.xml

Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language

arquivo teste gerado na verso


xml
odf!/content.xml
arquivo teste gerado na verso
xml
odf.odt!/content.xml
arquivo teste gerado na verso
xml
odf!/settings.xml
arquivo teste gerado na verso
xml
odf!/styles.xml
arquivo teste gerado na verso
odf!/METAxml
INF/manifest.xml
arquivo teste gerado na verso
xml
odf!/meta.xml
arquivo teste gerado na verso
rdf
odf!/manifest.rdf
arquivo teste gerado na verso
xml
odf.odt!/styles.xml
arquivo teste gerado na verso
openoffice
png
sxw.sxw!/Thumbnails/thumbn
ail.png
arquivo_teste_gerado_na_vers
png
ao_openofficegoogle.odt!/Pict

1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0

fmt/11

Portable
Network
Graphics

1.0

fmt/11

Portable
Network

1.0

201

ures/image2.png
arquivo teste gerado na verso
odf!/Thumbnails/thumbnail.p png
ng
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
5A00000035C70036833.png
arquivo teste gerado na verso
openoffice
sxw.sxw!/Pictures/100000000 png
0000500000003512DD754.pn
g

fmt/11

fmt/12

Graphics
Portable
Network
Graphics
Portable
Network
Graphics

1.0

1.1

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image56.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
5A0000003680E6A707F.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
444000002C58F0E4D2E.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image54.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image58.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image60.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image59.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image55.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image57.png

fmt/12

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

1.1
1.1
1.1
1.1
1.1
1.1
1.1

202

arquivo teste gerado na verso


png
odf.odt!/media/image62.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
2D0000002270BBE2538.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image45.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image52.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000
png
5A000000368C1EEDBB9.pn
g
arquivo teste gerado na verso
odf!/Pictures/1000000000000
png
30E00000103EBAEE86C.pn
g

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

1.1
1.1
1.1
1.1

fmt/12

Portable
Network
Graphics

1.1

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image61.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
444000002C5F2FE190D.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
444000002C5C11E683B.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
5A000000368FBC1B54E.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
09A00000038BE753296.png
arquivo teste gerado na verso
png
odf.odt!/media/image44.png

fmt/12
fmt/12

fmt/12

fmt/12

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

1.1
1.1

1.1

1.1

203

arquivo teste gerado na verso


png
odf.odt!/media/image53.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image50.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image51.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image49.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
444000002C54C841C41.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
png
157000001BD2FBBE90D.pn
g

fmt/12

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

1.1
1.1
1.1
1.1

1.1

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image48.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image47.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image64.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
2B1000001E8F7CE931F.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image65.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
310000000FB005404EC.png

fmt/12

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

1.1
1.1
1.1
1.1
1.1

204

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
2D0000001FA546FB008.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image76.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000
png
30E000000FB6EDC8D96.pn
g
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
310000000FC60FD80AC.png

fmt/12

fmt/12

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

1.1
1.1

1.1

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image77.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
30000021C42E3FE51.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
0EE0000004654A8BBF7.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image80.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image79.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image81.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000
png
30A000000FB52E98CCE.pn
g

fmt/12

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

1.1

1.1

1.1

1.1

205

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
280000001E012988391.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image78.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
5A00000036888C04806.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
5A0000003680A98C8CE.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image74.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
444000002C5E241EDEC.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image75.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
315000000FB17F7734A.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
281000001E0FD2F9B50.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
27F000001E0580DD526.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
314000000FEBD5C0964.png
arquivo teste gerado na verso
png
odf.odt!/media/image82.png

fmt/12
fmt/12
fmt/12

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network

1.1

1.1

1.1

1.1

1.1

1.1
1.1
1.1

206

Graphics
Portable
Network
Graphics
Portable
Network
Graphics

arquivo teste gerado na verso


png
odf.odt!/media/image67.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image66.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image69.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
314000001011D375589.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image73.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
444000002C5B983E15D.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image63.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image72.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image71.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image68.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image41.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image12.png

fmt/12

arquivo teste gerado na verso png

fmt/12

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable

1.1
1.1

1.1
1.1
1.1
1.1
1.1
1.1
1.1

207

odf.odt!/media/image70.png

Network
Graphics

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
5A0000003680AD89B26.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image43.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
21000007CBF758F9D.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image13.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
444000002C565BD6937.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
310000000FB28596D02.png

fmt/12

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
5A00000036816906974.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image14.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000
500000003512DD754.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
2D00000022D0D09EACB.pn
g
arquivo teste gerado na verso
odf!/Pictures/1000000000000
311000001006141ECA8.png
arquivo teste gerado na verso

png

fmt/12

png

fmt/12

png

fmt/12

png

fmt/12

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable

1.1

1.1
1.1
1.1
1.1

1.1

1.1

1.1

1.1

1.1

1.1
1.1

208

odf.odt!/media/image15.png

Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

arquivo teste gerado na verso


png
odf.odt!/media/image16.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
32B000002373FE182FB.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image17.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
30C000000FC7FEE6973.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
27F000001E0085A2747.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000
png
5A00000036828DA6DC0.pn
g

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image18.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
31300000101657176C1.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image19.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
5A0000003686DD85C8F.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image4.png

fmt/12

arquivo teste gerado na verso png

fmt/12

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable

1.1

1.1

1.1

1.1
1.1

1.1

1.1
1.1
1.1

209

odf.odt!/media/image3.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
3100001018ADA7CE9.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image2.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
3100000FC85B815D2.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
31300000100D238180D.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
5A000000368AC6F956E.png

fmt/12
fmt/12
fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image9.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image11.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image10.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
444000002C5B8B67C12.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image5.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
444000002C5D75EF7DE.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image6.png

fmt/12

arquivo teste gerado na verso png

fmt/12

Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable

1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1

210

odf.odt!/media/image8.png
arquivo teste gerado na verso
png
odf.odt!/media/image7.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image37.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image36.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image38.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image39.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image33.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
5A0000003687B5D6DF8.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image22.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image35.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image30.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image40.png

fmt/12

arquivo teste gerado na verso png

fmt/12

Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable

1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1

1.1

1.1
1.1
1.1
1.1

211

odf.odt!/media/image34.png
arquivo teste gerado na verso
png
odf.odt!/media/image21.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
31500000100B476E8C1.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
png
2D00000022D6E9A9BF5.pn
g
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
444000002C5B0E54DE9.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
280000001E0D040B124.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
1450000004CA33D723A.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
3100000FFDB372D6B.png
arquivo teste gerado na verso
png
odf.odt!/media/image23.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
264000001621A15FFDF.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
2AC000001B29ED8AF06.pn
g
arquivo teste gerado na verso
odf!/Pictures/1000000000000
5A0000003680CA9523C.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000

fmt/12
fmt/12

Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

1.1
1.1

fmt/12

Portable
Network
Graphics

1.1

fmt/12

Portable
Network
Graphics

1.1

fmt/12

Portable
Network
Graphics

1.1

fmt/12
fmt/12
fmt/12

png

fmt/12

png

fmt/12

png

fmt/12

png

fmt/12

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network

1.1
1.1
1.1
1.1

1.1

1.1
1.1

212

193000001368DFF63B2.png
arquivo teste gerado na verso
png
odf.odt!/media/image24.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
5A0000003684C470948.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image25.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image26.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
27F000001E04E2A4356.png

fmt/12

arquivo teste gerado na verso


png
odf.odt!/media/image27.png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000
5A00000035C48AD54A7.pn
g
arquivo teste gerado na verso
odf!/Pictures/1000000000000
5A00000036890485372.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
314000000FF723226F8.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
444000002C5D7ED3375.png

Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

1.1
1.1
1.1
1.1
1.1
1.1

png

fmt/12

png

fmt/12

png

fmt/12

png

fmt/12

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
1A50000012DB0B3B394.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
5A0000003684AD65801.png

fmt/12

Portable
Network
Graphics

1.1

Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics

1.1

1.1
1.1
1.1

213

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
281000001E0347C34C1.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
png
444000002C50DDBA251.pn
g
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
444000002C5A03592BB.png

fmt/12

Portable
Network
Graphics

1.1

fmt/12

Portable
Network
Graphics

1.1

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


png
odf.odt!/media/image42.png

fmt/12

Portable
Network
Graphics

1.1

arquivo teste gerado na verso


odf!/Pictures/1000000000000 png
23E0000017D9BF4C21D.png

fmt/12

Portable
Network
Graphics

1.1

png

fmt/12

Portable
Network
Graphics

1.1

png

fmt/12

png

fmt/12

jpg

fmt/43

arquivo teste gerado na verso


odf!/Pictures/1000000000000
5A000000368530A5BAA.pn
g
arquivo teste gerado na verso
odf!/Pictures/1000000000000
30E000000F9EB5C070C.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
31300000103856F290B.png
arquivo teste gerado na verso
openoffice
sxw.sxw!/Pictures/100000000
00000BD000000CF94ADE4F
B.jpg

arquivo teste gerado na verso


jpeg fmt/43
odf.odt!/media/image1.jpeg
arquivo teste gerado na verso
jpg
odf!/Pictures/1000000000000

fmt/43

Portable
Network
Graphics
Portable
Network
Graphics
JPEG File
Interchange
Format
JPEG File
Interchange
Format
JPEG File
Interchange

1.1

1.1

1.01

1.01
1.01

214

0BD000000CF94ADE4FB.jp
g
arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/Pict jpeg fmt/44
ures/image1.jpeg
arquivo teste gerado na verso
odf!/Pictures/1000000000000 jpg fmt/44
237000000E3378053C8.jpg
arquivo teste gerado na verso
odf!/Pictures/1000000000000 jpg fmt/44
237000000E381ECD7BF.jpg

Format

JPEG File
Interchange
Format
JPEG File
Interchange
Format
JPEG File
Interchange
Format
JPEG File
arquivo teste gerado na verso
jpeg fmt/44 Interchange
odf.odt!/media/image28.jpeg
Format
JPEG File
arquivo teste gerado na verso
jpeg fmt/44 Interchange
odf.odt!/media/image29.jpeg
Format
OLE2
arquivo teste gerado na verso
Compound
xls
fmt/111
EXCEL 97-03 XLS.xls
Document
Format
OLE2
arquivo teste gerado na verso
Compound
doc fmt/111
Word 07 93.doc
Document
Format
OLE2
Recuperao inteligente de
Compound
informaes em portais
doc fmt/111
Document
corporativos.doc
Format
Acrobat
PDF/A arquivo teste gerado na verso
pdf fmt/95 Portable
PDF A.pdf
Document
Format
Acrobat PDF
1.4 arquivo teste gerado na verso
pdf fmt/18 Portable
PDF A.pdf
Document
Format

1.02

1.02

1.02
1.02
1.02

1.4

215

Acrobat
PDF/A arquivo teste gerado na verso
pdf fmt/95 Portable
pdf.pdf
Document
Format
Acrobat PDF
1.4 arquivo teste gerado na verso
pdf fmt/18 Portable
pdf.pdf
Document
Format
Acrobat
PDF/A Sales Rodrigo.pdf
pdf fmt/95 Portable
Document
Format
Acrobat PDF
1.4 Sales Rodrigo.pdf
pdf fmt/18 Portable
Document
Format
Microsoft
arquivo teste gerado na verso
xlsx fmt/189 Office Open
EXCEL XLS.xlsx
XML
Microsoft
apresentacao dissertao
pptx fmt/189 Office Open
Jairo.pptx
XML
Microsoft
arquivo teste gerado na verso
docx fmt/189 Office Open
word 10.docx
XML

1.4

1.4

2007

2007
2007

216
6

ANEX
XO C Natiional Archiv
ves formatoo fmt/111

217
7

ANEXO D National Archives f ormato fmt//17

218
8

ANE
EXO E Nattional Archiv
ves formatoo fmt/18

219
9

ANEXO F National Archives f ormato fmt//19

Вам также может понравиться