Академический Документы
Профессиональный Документы
Культура Документы
Jairo Wensing
Florianpolis
2010
Jairo Wensing
Dissertao
de
mestrado
apresentada Banca Examinadora
do Programa de Ps-Graduao em
Cincia da Informao do Centro
de Cincias da Educao da
Universidade Federal de Santa
Catarina, como requisito parcial
para a obteno do ttulo de Mestre
em Cincia da Informao, rea de
concentrao
Gesto
da
Informao, linha de pesquisa
Fluxos de Informao, sob a
orientao da Professora Doutora
Ursula Blattmann
Florianpolis
2010
Jairo Wensing
AGRADECIMENTOS
Deus, por sempre estar presente em todos os momentos
decisivos de minha vida, e ao apoio de algumas pessoas que
contriburam direta ou indiretamente para a concretizao deste
trabalho. Por isso, meus sinceros agradecimentos para:
A Professora Dr. rsula Blattmann, por me acolher como
orientadora deste trabalho, pela competncia, dedicao, amizade,
apoio e motivao, e por ser este exemplo de professora.
A Professora Dr. Lgia Maria Arruda Caf pela competncia
com que administra o PGCIN, e pelo incentivo para a concluso deste
trabalho, e por sua participao na fase de qualificao e suas
contribuies a este trabalho.
A Professora Dr. Rosngela Schwarz Rodrigues, e por sua
participao na fase de qualificao e defesa da dissertao, e pelas e
suas contribuies a este trabalho.
A Professora Dr. Delsi Fries Davok, e por sua participao na
defesa da dissertao, e pelas e suas contribuies a este trabalho.
Universidade Federal de Santa Catarina, especialmente ao
Programa de Ps-Graduao em Cincia da Informao, aos colegas de
turma, professores e tcnicos administrativos do PGCIN.
As pessoas participantes da pesquisa, pela gentileza de fornecer
as informaes e dispor do tempo necessrio para responder os
questionrios.
Aos amigos da UDESC pelo incentivo para concluso deste
trabalho.
LISTA DE FIGURAS
Figura 1: 1990 Windows Explorer do Windows Seven da Microsoft .................41
Figura 2: 1990 - O marco do PostScript ............................................................52
Figura 3: 1991- Projeto Camelot........................................................................53
Figura 4: 1992 - divulgado o formato PDF ........................................................53
Figura 5: 1993 - Inicia-se a gerao Acrobat .....................................................54
Figura 6: 1994 - Lanado a verso do Acrobat 2.0 ............................................54
Figura 7: 1994 - PDF na Receita Federal USA ..................................................54
Figura 8: 1994 - lanado o Acrobat Reader - leitor gratuito para PDF ...........55
Figura 9: 1995 - plug-in para o Nestscape .........................................................55
Figura 10: 1996 - Acrobat 3.0 ............................................................................55
Figura 11: 1997 Uso do byte do duplo............................................................56
Figura 12: 1999 - Novos recursos de segurana para o formato PDF ................56
Figura 13: 1999 - ANSI publica padro PDF .....................................................56
Figura 14: 2000 - PDF para acesso a e-book .....................................................57
Figura 15: 2003 - Suporte a XML ......................................................................57
Figura 16: 2005 - Ano publicao PDF/A .........................................................58
Figura 17: Arquivo gerado no formato PDF/A ..................................................59
Figura 18: 2007 - Adobe libera a especificao PDF 1.7 para a AIIM ...............60
Figura 19: 2007 - Suporte para envios SAFE .....................................................60
Figura 20: 2007 - Liberada a especificao PDF/E padro para dados de
engenharia. .........................................................................................................60
Figura 21: 2008 - PDF aprovado como padro internacional ............................61
Figura 22: 2008 - Oramento dos USA so publicados em PDF. ......................61
Figura 23: Uma taxonomia de modelos de Recuperao de Informao ...........70
Figura 24: Estrutura de arquivo invertido. .........................................................79
Figura 25: Estrutura de arquivo invertido dividido em quatro blocos................79
Figura 26: Tela - progresso da instalao ........................................................112
Figura 27: Tela de aviso de segurana .............................................................113
Figura 28: Tela de preparao de instalao do Greenstone ............................113
Figura 29: Tela de seleo de linguagem de preferncia na instalao da BDG
.........................................................................................................................114
Figura 30: Tela de direitos autorais .................................................................115
Figura 31: Tela de seleo do local de instalao ............................................115
Figura 32: Tela de seleo dos componentes ...................................................116
Figura 33: Tela configurao do Apache Tomcat ............................................117
Figura 34: Tela que mostra o progresso de instalao do Greenstone .............117
Figura 35: Tela de criao da coleo do PGCIN ............................................121
Figura 36: Tela download da coleo do PGCIN ............................................122
Figura 37: Tela importao de documentos .....................................................123
Figura 38: Administrao de metadados ..........................................................123
Figura 39: Tela para adicionar plug-ins de formato de arquivo digital ............133
Figura 40: Tela configurao de plug-ins ........................................................134
LISTA DE QUADROS
Quadro 1: Clculo de relevncia ........................................................................73
Quadro 2: Situaes relevantes para diferentes estratgias de pesquisa ............98
Quadro 3: Plug-ins especiais nvel superior ..................................................129
Quadro 4: Plug-ins especiais nvel superior ..................................................129
Quadro 5: Plug-ins Base ..................................................................................130
Quadro 6: Plug-ins auxiliares ..........................................................................131
Quadro 7: Arquivos gerados para compor a coleo PGCIN ..........................149
Quadro 8: Arquivos que foram importados para a coleo PGCIN no Greenstone
.........................................................................................................................149
Quadro 10: Plug-ins de utilizados de nvel superior ........................................152
Quadro 10: Plug-ins de utilizados de nvel superior ........................................153
Quadro 11: Plug-ins de utilizados de nvel superior ........................................155
LISTA DE GRFICOS
Grfico 1: Relao Preciso x Revocao .........................................................86
Grfico 2: Dimenso LSI ...................................................................................95
SUMRIO
1 INTRODUO ................................................................................ 29
1.1 JUSTIFICATIVAS ............................................................................... 31
1.1.1 Justificativa Pessoal ..................................................................... 31
1.1.2 Justificativa Cientfica.................................................................. 31
1.1.3 Justificativa Econmica ............................................................... 32
1.1.4 Justificativa Social ....................................................................... 32
1.2 PROBLEMA DE PESQUISA ................................................................. 33
1.3 OBJETIVOS ....................................................................................... 34
1.3.1 Objetivos Gerais........................................................................... 34
1.3.2 Objetivos Especficos ................................................................... 34
1.4 ORGANIZAO DA DISSERTAO .................................................... 35
2 FUNDAMENTAO TORICA................................................... 36
2.1 FONTES DE INFORMAO E BIBLIOTECAS DIGITAIS ........................ 36
2.2 PRESERVAO DA INFORMAO DIGITAL....................................... 42
2.3 FORMATO DE ARQUIVOS.................................................................. 47
2.4 FORMATO DE ARQUIVOS ABERTOS.................................................. 48
2.5 FORMATO DE ARQUIVOS ABERTOS ODF ......................................... 51
2.6 FORMATO DE ARQUIVOS ABERTOS PDF/A...................................... 52
2.7 METADADOS XMP........................................................................... 62
2.8 A RECUPERAO DA INFORMAO E A CINCIA DA INFORMAO. 64
2.9 RECUPERAO DA INFORMAO..................................................... 66
2.9.1 Definio de Recuperao de Informao ................................... 68
2.9.2 Modelos de Recuperao de informao ..................................... 70
2.9.3 Modelo Booleno ........................................................................... 70
2.9.4 Modelo Vetorial............................................................................ 72
2.9.5 Modelo Probabilistico .................................................................. 74
2.10 INDEXAO AUTOMTICA DE TEXTOS .......................................... 77
2.10.1 Arquivos Invertidos .................................................................... 78
2.10.2 Identificao das Palavras ......................................................... 80
2.10.3 Remoo de Stopwords .............................................................. 81
2.10.4 Normalizao Morfolgica (Stemming) ..................................... 81
2.10.5 Identificao de Termos Compostos .......................................... 82
2.11 CLCULO DE RELEVNCIA ............................................................ 83
2.12 AVALIAO DA RECUPERAO DA INFORMAO ......................... 84
2.13 INDEXAO SEMNTICA LATENTE ................................................ 86
29
1 INTRODUO
Aps a Segunda Grande Guerra Mundial, o uso de computadores
inicialmente restrito basicamente para fins militares expandiu a sua a
rea de abrangncia, ou seja, passou a ser utilizada em reas como a
educao, sade, segurana, empresas pblicas e privadas, e em diversos
tipos de organizaes. At a dcada de 1970, devido a sua complexidade
e ao seu alto custo, o acesso aos computadores era restrito aos
profissionais que trabalhavam em Centro de Processamento de Dados CPD, profissionais estes que se assemelhavam mais a cientistas
trabalhando em laboratrio, inclusive tinham um status diferenciado
onde trabalhavam.
Com a disseminao dos computadores pessoais, houve uma
descentralizao das atividades informatizadas. Tal disseminao foi
potencializada com o advento da tecnologia de rede, que evoluiu
rapidamente das redes locais para as metropolitanas, nacionais e globais,
sendo a Internet a maior delas. Com a popularizao das Tecnologias da
Informao e Comunicao, ocorreu um aumento considervel dos
estoques de informao, principalmente as armazenadas em meios
digitais. Com o aumento destes estoques de informao ficou mais
evidente o problema da preservao e recuperao das informaes de
documentos no formato digital.
O interesse na preservao e recuperao de informao
aumentou consideravelmente com a popularizao do uso das
tecnologias de informao e comunicao (TIC) ocorrida a partir dos
anos 1990, onde ocorreu uma mudana considervel nos mecanismos de
registro e de comunicao da informao nas instituies pblicas e
privadas. Os documentos produzidos no decorrer das atividades dessas
instituies, at ento em meio convencional, assumem novas
caractersticas, isto , passam a ser gerados em ambientes eletrnicos,
armazenados em suportes magnticos e pticos, em formato digital.
Os documentos digitais trouxeram uma srie de vantagens na
produo, transmisso, armazenamento e acesso, que por sua vez,
acarretaram outros problemas. A facilidade de criar e transmitir
documentos traz como consequncia a informalidade na linguagem nos
procedimentos administrativos.
O desenvolvimento das tecnologias de informao e
comunicao, e em especial o desenvolvimento da Internet, tem
contribudo para um ambiente completamente novo, onde os papeis das
bibliotecas tradicionais esto sendo amplamente modificados. O
30
31
GNU General Public License (Licena Pblica Geral), GNU GPL ou simplesmente GPL, a
designao da licena para software livre idealizada por Richard Stallman no final da dcada de
1980, no mbito do projeto GNU da Free Software Foundation (FSF) <http://www.fsf.org/>.
32
33
34
1.3 Objetivos
Os objetivos do presente estudo esto divididos em geral e
especficos.
1.3.1 Objetivos Gerais
Esta pesquisa tem o objetivo principal de analisar os recursos
disponveis na Biblioteca Digital Greenstone para preservao lgica de
documentos digitais com foco no formato de arquivos e a recuperao da
informao.
1.3.2 Objetivos Especficos
Os objetivos especficos so:
a) Estudar os modelos clssicos de recuperao de
informao;
b) Identificar os recursos disponveis para recuperao de
informao na BDG;
c) Identificar os pontos fortes e pontos fracos da BDG; e,
d) Analisar a questo de preservao de documentos
digitais sob o ponto de vista lgico na Biblioteca
Digital Greenstone.
A partir dos objetivos supracitados tem-se a expectativa de
identificar como o software de Biblioteca Digital Greenstone preserva as
informaes e recupera informao no formato digital.
35
36
2 FUNDAMENTAO TORICA
A reviso da literatura pretende mostrar como o objeto da
pesquisa se insere no campo dos conhecimentos sobre o tema, e como
estes conhecimentos vo permitir responder as questes da pesquisa.
A atividade cientfica resulta de um processo cumulativo de
aquisio do conhecimento. Posto isto, o processo de reviso de
literatura sobre o tema iniciou com a consulta de fontes primrias e
secundrias de informao, ou seja, artigos cientficos, livros, teses e
memorandos e documentos oficiais, verificando suas bibliografias e com
isto ampliando as listas de trabalhos consultados.
Esta reviso de literatura permite compreender e ou concluir a
situao em que esto inseridos os conhecimentos sobre o objeto da
pesquisa apresentada, comeando por Fontes de Informao,
Preservao Digital, Recuperao da Informao e a Cincia da
Informao, Recuperao da Informao e Modelos de Recuperao da
Informao.
2.1 Fontes de Informao e Bibliotecas Digitais
At fins dos anos de 1990, fontes de informao era sinnimo de
formato impresso, sendo que a quantidade de informaes disponveis
em formato de papel era extremamente maior do que as informaes
disponveis em formato digital. Com a disseminao do uso de
computadores para trabalho e lazer, bem como, com o aumento da
capacidade de armazenamento e de recuperao de informaes, e
principalmente com o advento da internet, observa-se que fontes de
informao viraram sinnimo de informao no formato digital.
As mdias onde esto localizadas as fontes de informao foram
evoluindo com o tempo, ou seja, da pedra, papiro, papel, fotografias e
microfilme, para os mais recentes dispositivos, como fitas magnticas,
fitas K7, discos flexveis, fitas VHS, disquetes, discos rgidos (HD),
Compact Disc (CDs), videolaser, DVDs e pen-drives.
Muitas informaes existem somente em formato de papel, outras
informaes esto em papel e em formato digital, e outras somente em
formato digital. Observa-se que as informaes de vrias formas esto
migrando para o formato digital, quer seja pela digitalizao de
documentos, ou sendo criadas originalmente em formato digital.
37
38
e)
f)
g)
h)
i)
j)
k)
l)
m)
n)
o)
p)
q)
r)
39
40
Digital libraries are organizations that provide the resources, including the specialized staff, to
select, structure, offer intellectual access to, interpret, distribute, preserve the integrity of, and
ensure the persistence over time of collections of digital works so that they are readily and
economically available for use by a defined community or set of communities.
41
1
F
Figura 1: 19900 Windows Exp
plorer do Winddows Seven da Microsoft
F
Fonte: Sistemaa Operacional Windows Seven
en Microsoft
42
43
44
45
46
47
48
Padres
de
Interoperabilidade de Governo Eletrnico
definem um conjunto mnimo de premissas,
polticas
e
especificaes
tcnicas
que
regulamentam a utilizao da Tecnologia de
Informao e Comunicao (TIC) no governo
federal, estabelecendo as condies de interao
com os demais Poderes e esferas de governo e
com a sociedade em geral. Polticas e
49
especificaes
claramente
definidas
para
interoperabilidade
e
gerenciamento
de
informaes so fundamentais para propiciar a
conexo do governo, tanto no mbito interno
como no contato com a sociedade e, em maior
nvel de abrangncia, com o resto do mundo
outros governos e empresas atuantes no mercado
mundial. A e-PING concebida como uma
estrutura bsica para a estratgia de governo
eletrnico, aplicada inicialmente ao governo
federal Poder Executivo. Permite racionalizar
investimentos em TIC, por meio do
compartilhamento, reuso e intercmbio de
recursos tecnolgicos.
50
CORBA
Workshops
Interoperabilidade define se dois componentes de
um sistema, desenvolvidos com ferramentas
diferentes, de fornecedores diferentes, podem ou
no atuar em conjunto.
51
52
Eleetrnico (e-P
PING), o OD
DF assume caracterstica
c
de adotado, dessa
forrma, torna-se obrigatriio para guaarda e trocaa de docum
mentos
eleetrnicos entrre todos os rgos
da adm
ministrao ddireta, autarq
quias e
fun
ndaes, senndo assim, devero see enquadrar a essa reegra a
Un
niversidade Feederal de Sannta Catarina e por ser extennso o PGCIN
N.
Em agoosto de 2008, em Brraslia, duraante o Con
ngresso
Intternacional S
Sociedade e Governo Eletrnico
E
CONSEGI 2008
(htttp://www.connsegi.gov.br)), diversas insstituies ass inaram o Pro
otocolo
Braaslia, um doocumento pbblico de intenes para aadoo de forrmatos
abeertos.
2.6
6 Formato de Arquivos Abbertos PDF/A
A
F
(PDF
F), foi criado pela
O formaato Portable Document Format
em
mpresa Adobee Systems e aperfeioado
o durante oss ltimos 15 anos.
Co
omeou com o sonho de um
u escritrio
o sem papel, como o projjeto de
esttimao de uum dos funndadores da Adobe, o S
Sr. John Wa
arnock.
Iniicialmente eraa um projetoo interno da Adobe
A
para crriar um form
mato de
arq
quivo para qque documenntos pudessem
m ser distribbudos por toda
t
a
em
mpresa e exibbidos em quualquer comp
putador com
m qualquer sistema
opeeracional.
P
se
s estabelece notadamentee como
Em 19900 o Adobe PostScript
um
m padro de impresso mundial
m
confo
orme consta no stio da Adobe
mo
ostrado na figgura 2.
53
3
t
postscript
p
quue uma liinguagem dee
A partir da tecnologia
i
eo
programaao que deffine uma pgina e como eela deve ser impressa,
illustratoor era o apliicativo capazz de rodar ppraticamente em todos oss
microcom
mputadores disponveis
d
na
n poca e capaz de ab
brir arquivoss
postscrippt mesmo quue eles fosseem criados em outra pllataforma, oss
engenheiiros da Adobee criaram o formato
f
PDF
F que no deiixa de ser um
m
postscrippt melhorado,, e um conjun
nto de aplicattivos para criiar, modificarr
e visualizzar este formato de arquiv
vo.
Coonforme figuura 4, em 199
92 divulgaddo o formato Adobe PDF,
que receebeu o codinnome Carro
ossel, e reccebeu o prm
mio Best off
Comdex (Comdex uma dass maiores fe
feiras de Teecnologia dee
Informao e Comuniicao do mu
undo).
54
55
5
Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html
E
Em 1994, coonforme figu
ura 8, a Adobbe comea a distribuir dee
forma grratuita o softw
ware Acroba
at Reader o qqual permite per arquivoss
PDF.
C
Conforme fiigura 9, em
m 1995, foi divulgado o plug-in do
o
Acrobat para o Nesstscape, aum
mentando asssim a popu
ularidade doss
nternet.
arquivos PDF no surggimento da in
56
Fonte: http
tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html
f
12, em
m documentoss em Adobe PDF
P
j
Em 19999, conforme figura
fazer
f
anotaes e revisar arquivos, restringir o aceesso com o uso
u de
sen
nhas, incluir aassinaturas diigitais e captu
urar pginas W
WEB.
57
7
Foonte: http://ww
ww.adobe.com//br/products/accrobat/adobepd
df.html
E
Em 2003 conforme a fig
gura 15, o Addobe PDF ganha
g
suportee
para XM
ML para form
mulrios e metadados,
m
bbem com a incluso dee
recursos mais avanaddos, tornam o Adobe PDF
F ainda mais sofisticado.
s
58
59
9
60
Figura 18: 2007 - Adobee libera a especificao PDF 1.7 para a AIIIM
tp://www.adobbe.com/br/prod
ducts/acrobat/addobepdf.html
Fonte: http
natures
Em 20077, a Adobe paassa a ofereceer suporte aoo padro Sign
and
d Authenticattion for Everyyone (SAFE) de assinaturaas digitais.
61
1
E
Em 2009 coonforme a figura
f
22, o oramento dos Estadoss
Unidos publicado como um do
ocumento PD
DF certificad
do e assinado
o
digitalmeente. O PDF/
F/A aceito para
p
envio peela National Archives
A
and
d
Records Administratiion dos Estad
dos Unidos, ppelo National Archives daa
Sucia e pelo miniistro Francss responsveel pela enerrgia nuclear,
demonstrrando a foraa e a aceitao
o deste formaato de documeento.
62
63
64
65
66
67
68
69
70
2.9
9.3 Modelo B
Booleno
os de
O modeelo booleanno foi um dos primeeiros modelo
Reecuperao dda Informao, sendo muito
m
utilizaddo at mead
dos da
dccada de 19900. Neste moddelo, um docu
umento connsiderado rellevante
ou no relevantte a uma connsulta; no ex
xiste resultaddo parcial e no
n h
o resultado dda consulta, o que
infformao quee permita a ordenao do
pod
de ser conssiderado umaa de suas principais
p
deesvantagens. Cabe
71
72
con
nceito de releevncia com a preciso do
o modelo vetoorial atravs do uso
doss operadoress booleanos. Neste modeelo os probllemas referentes a
deccises binriaas do modeloo clssico porr meio da afeerio de pessos aos
termos, aproxim
mando o modelo original do
d modelo vet
etorial.
9.4 Modelo V
Vetorial
2.9
delo vetorial foi idealizad
do por
Segundo Buckley (1985), o mod
Geerard Salton, e foi inicialm
mente utilizad
do num projetto chamado System
S
forr the Manipuulation and Retrieval off Text (SMA
ART). Este projeto
p
iniciou em 1961 na Universidade de Harvard e mudou-se para
p
a
niversidade dee Cornell aps 1965.
Un
De acorddo com Baeza-Yates e Ribeiro-Neto
R
(1999), o modelo
m
vettorial baseia--se na compparao parccial entre a representao dos
doccumentos e da consulta do usurio, onde so atrribudos peso
os aos
termos de indexxao presenntes na consullta, em funo da frequn
ncia de
oco
orrncia no ddocumento.
Neste m
modelo, cada documento
d
representadoo como um veetor de
termos, e cada ttermo possuii um valor associado que indica o peso
o deste
no documento, ou seja, cadaa documento possui
p
um veetor associado
o que
mposto por pares de elementos naa forma {(paalavra_1, peeso_1),
com
(paalavra_2, peso_2),..., (palaavra_n, peso_
_n)}, onde caada elemento
o deste
vettor de termos consideraddo uma coord
denada dimennsional.
e
Desta forrma, os docuumentos podeem ser colocaados em um espao
eucclidiano de n dimenses (oonde n o n
mero de term
mos) e a posio do
doccumento, soo obtidas peelo seu peso
o em cada ddimenso, ou
u seja,
doccumentos quue possuem os
o mesmos teermos acabam
m sendo colo
ocados
em
m uma mesm
ma regio doo espao e, o que teoriccamente trataam de
asssuntos similarres. Os docum
mentos mais similares cconsulta podeem ser
con
nsiderados m
mais relevantees para o usurio e retornaados como reesposta
parra ela.
p
entre os vettores
Uma dass formas de calcular a proximidade
tesstar o nguloo entre estes vetores. No modelo origginal, utilizzada a
fun
no cosseno que calcula o produto doss vetores de ddocumentos atravs
a
da seguinte frm
mula:
73
74
75
5
76
Essa frm
mula calcula a probabilidaade de observvao aleatriia de x
quee pode ser tannto relevante quanto irreleevante.
Segundo (Rijsbergenn, 1999), o modelo pro
robabilstico um
mo
odelo bastantte prximo ao
a modelo difuso,
d
porm
m necessriio que
alg
gumas regras probabilsticas sejam satissfeitas durantte a consulta.
ue no
O modeelo probabilsstico um dos poucos modelos qu
neccessita de alggoritmos adiccionais para associao dde peso aos termos
t
parra serem impplementados, e os algoritm
mos de ordenaao dos resu
ultados
so
o completameente derivadoos de sua teoria.
Os moddelos que procuram
p
am
mpliar o esscopo do modelo
m
pro
obabilstico so os seguinttes:
a) Redees de inferrncia - Essse modelo amplia o modelo
m
pro
obabilstico trratando o proocesso de reccuperao dee informao
o como
um
m processo dde raciocnio baseado em
m evidnciass representad
das em
doccumentos, seendo que esssas evidncias devem sser utilizadass para
esttimar a probaabilidade da informao a ser enconttrada pelo usurio.
Assim, redes dde infernciaa so projetaadas para inccorporar difeerentes
fon
ntes de evidncia ao estiimar a probaabilidade de relevncia de
d um
doccumento espeecfico para o usurio. Ao
o estimar proobabilidades usando
u
fon
ntes de eviidncia, reddes de infeerncias esteendem o modelo
m
pro
obabilstico clssico.
u
documennto especficco for
Em umaa dada connsulta, se um
con
nsiderado rellevante para mesma, criada
c
uma vvarivel aleattria e
asssociada a estee relacionameento. Essas variveis
v
podeem ser alteraadas de
aco
ordo com os eventos futuuros de formaa a estabeleccer relacionam
mentos
basseados nos evventos observvados.
b) Redees de crenaa - so repressentadas por um Grafo Acclico
Dirrigido (GAD
D), o qual exiibe o relacion
namento de ccausa e efeito
o entre
div
versas variveeis. Esse moddelo, de form
ma similar s rredes de inferrncia,
os documentos e consultas so modelados como suubconjuntos de um
pao de concceitos. Cada consulta
c
mapeada no esspao de con
nceitos,
esp
quee, por sua vezz, est conecttado ao espao de documeentos.
77
78
79
9
entre 30%
% e 40% do tamanho
t
do teexto.
Paara se reduzirr o espao utiilizado, podee ser utilizadaa uma tcnicaa
chamadaa endereameento de bloco
o em vez dee posies ex
xatas, onde o
texto ddividido em blocos,
b
e as ocorrncias
o
appontam aos blocos
b
onde a
palavra aaparece. Os ndices
80
81
82
83
84
85
86
o de sistem
mas, principallmente
Com o objetivo de comparao
acaadmicos, eexistem alguumas cole
es pblicass de docum
mentos
preeparadas espeecialmente paara o processo
o de avaliaoo. Sabe-se qu
ue para
sistemas diferenntes possam ser avaliadoss e comparaddos, deve-se adotar
ma coleo esppecfica.
um
Segundo Baeza-Yatess e Ribeiro-N
Neto (1999, p. 85), a coleo mais
con
nhecida a T
Text REtrievaal Conference (TREC) (h ttp://trec.nistt.gov/).
Neesta confernccia recebe-se um conjunto
o de tcnicas experimentaiis para
quee seja avaaliado posteriormente em
e
sistemass de recuperao
infformaes, ppor exemploo, oferecem uma srie de consultas prdeffinidas e conjjuntos de doccumentos releevantes a cadaa uma delas.
O objetivvo principal da recuperao automticca de informao
enccontrar todoss os documenntos relevantees para determ
minada consu
ulta, ou
maaximizar o reccall, evitandoo os erros, ou
u seja, deve-sse reduzir o nmero
n
de documentos no relevantees selecionad
dos ao menor nmero posssvel, o
e
corresponde
e
a
aumentar
a
preciso.
que
2.1
13 Indexao Semntica Latente
L
87
88
Applied Semantics uma empresa produtora de softwares aplicativos situada em Santa Monica
Califrnia USA.
89
90
91
92
93
3
94
95
5
96
3 Procedimentos Metodolgicos
Na composio desta dissertao esto inseridas as definies dos
procedimentos metodolgicos utilizados no decorrer da pesquisa, como
o tipo de pesquisa, tcnica para coleta dos dados, explorao do material
e por fim quanto ao tratamento e apresentao dos resultados da
pesquisa, bem como, mostrar como o objeto da pesquisa se inscreve no
campo dos conhecimentos sobre o tema, e como estes conhecimentos
permitiram atingir os objetivos da pesquisa.
3.1 Tipo da Pesquisa
Para Marconi e Lakatos (2008), a pesquisa um procedimento
reflexivo sistemtico, controlado e crtico, que permite descobrir novos
fatos ou dados, relaes ou leis, em qualquer campo do conhecimento. A
pesquisa um tratamento formal, com mtodo de pensamento reflexivo,
que requer um tratamento cientfico e se constitui no caminho para
conhecer a realidade ou para descobrir verdades parciais.
Segundo Gil (2002), a pesquisa definida por como [...] um
processo que tem por finalidade descobrir as respostas para os problemas
mediante a utilizao de procedimentos cientficos.
A presente pesquisa tem carter exploratrio. Segundo Gil (2002),
as pesquisas exploratrias tm como objetivo proporcionar maior
familiaridade com o problema, com vistas a torn-lo mais explcito ou a
constituir hipteses.
Na pesquisa realizada na internet atravs de sites de busca como o
Google
<http://www.google.com.br>,
Bing
Microsoft
<http://www.bing.com>,
e
Author
Mapper
<http://www.authormapper.com>, bem como o portal da CAPES, no
foi encontrada nenhuma literatura sobre preservao e recuperao de
informaes digitais em bibliotecas digitais Greenstone, evidenciando
que uma rea pouco explorada ou at inexplorada.
De acordo com Marconi e Lakatos (2008), quando uma rea
pouco explorada, trata-se de uma pesquisa exploratria.
Quanto natureza da pesquisa, trata-se de uma pesquisa aplicada,
pois sua preocupao est menos voltada para o aperfeioamento de
teorias gerais, mas sim em gerar conhecimentos para a aplicao prtica
sobre preservao e recuperao da informao digitais na biblioteca
digital Greenstone.
97
98
Forma de
questo de
pesquisa
Exige controle
sobre eventos
comportamentais
Focaliza
acontecimentos
contemporneos
Experimento
Sim
Sim
Levantamento
Quem, o que,
onde, quantos,
quanto
No
Sim
Anlise de
Arquivos
Quem, o que,
onde, quantos,
quanto
No
Sim/no
Pesquisa
histrica
No
No
Estudo de caso
No
Sim
99
100
101
102
103
104
105
4 GREENSTONE
A Biblioteca Digital Greenstone (BDG) um software para a
criao e distribuio de colees de bibliotecas digitais. O Greenstone
projeto de bibliotecas digitais (New Zealand Digital Library Project
www.nzdl.org) da Universidade de Waikato na Nova Zelndia, e
desenvolvido e distribudo em cooperao com a UNESCO
(www.unesco.org) e a ONG Human Info (http://humaninfo.org/). O
objetivo do software Greenstone disponibilizar aos usurios,
especialmente nas universidades, bibliotecas e outras instituies
pblicas, para construir suas prprias bibliotecas digitais, principalmente
nos pases em desenvolvimento.
Exemplos de Bibliotecas digitais Greenstone disponveis e
acessveis na internet:
1) The New Zealand Digital Library Project <http://www.sadl.uleth.ca/nz/cgi-bin/library>
2) China:
Peking
University
digital
library
<http://162.105.138.23/tapian/tp.htm>
3) Germany: Digitale Bibliothek Information und Medien <http://digbib.iuk.hdm-stuttgart.de/gsdl/cgi-bin/library>
4) Russia: Mari El Republic government information <http://gov.mari.ru/gsdl/cgi/library>
5) United
States:
Aladin
digital
library
<http://www.aladin.wrlc.org/gsdl/>
6) United States: Center for the Study of Digital Libraries <http://botany.cs.tamu.edu/gsdl/cgi-bin/library>
7) Afghanistan Centre at Kabul University - ACKU <http://puka.cs.waikato.ac.nz/cgibin/library?a=p&p=about&c=acku>
8) Afghanistan Research and Evaluation Unit - AREU <http://puka.cs.waikato.ac.nz/cgibin/library?a=p&p=about&c=areu>
9) France
Agatange
Collection
<http://www.agatange.fr/>
10) Vietna - Agricultural Techniques for Farmers (in
Vietnamese) - <http://icadl2007.vista.gov.vn/gsdl/cgibin/library.exe?site=localhost&a=p&p=about&c=cnnt
&ct=1&qto=2&l=vi&w=utf-8&TARGET=>
11) Paquisto - AHKRC Digital Library, Islamabad,
Pakistan
<http://210.56.25.21/gsdl/cgibin/library.exe?a=p&p=home&l=en&w=utf-88>
106
107
108
42) Memoria
Acadmica
<http://www.memoria.fahce.unlp.edu.ar/>
43) Mirabilia
Vicomercati
<http://www.mirabiliavicomercati.org/sezioni/006/index.
html>
44) MOST Digital Library (UNESCO) - <http://digitallibrary.unesco.org/shs/most/gsdl/cgibin/library?c=most&a=p&p=about>
45) Municipal
Library
of
Almaty
City
<http://hrc.nabrk.kz/gsdl/cgibin/library?site=localhost&a=p&p=about&c=akalkz&c
t=1&qto=2&l=kk&w=utf-8>
46) Music
Information
Retrieval
Research
<http://www.music-ir.org/>
47) MyManuskrip : Digital Library for Malay Manuscipts
<http://mymanuskrip.fsktm.um.edu.my/>
48) National University of Science and Technology (NUST)
<http://library.nust.ac.zw/gsdl/cgi-bin/library>
49) New
York
Botanical
Garden
<http://library.nybg.org/library/page1.php>
50) Notable
Women
of
Simmons
College
<
http://my.simmons.edu/library/notablewomen/>
51) NZ
Chinese
Journals
<http://www.nzchinesejournals.org.nz/>
52) Union
of
BC
Indian
Chiefs
<http://www.ubcic.bc.ca/Resources/ourhomesare/testimo
nies.htm>
53) Oxford
Digital
Library
<http://www2.odl.ox.ac.uk/gsdl/cgi-bin/library/>
54) Pacific Archive of Digital Data for Learning and
Education - PADDLE - <http://www.paddle.usp.ac.fj/>
55) Papers Past - <http://paperspast.natlib.govt.nz/cgibin/paperspast>
56) Rwanda
HIV/SIDA
<http://www.cnls.gov.rw/digitallibrary.htm>
57) State Library of Tasmania Sheet Music Collection <http://greenstone.statelibrary.tas.gov.au/>
58) Sudanese Association of Libraries and Information
(SALI)
Digital
Library
<http://puka.cs.waikato.ac.nz/cgi-bin/sali/library>
59) Sudan Open Archive - <http://www.sudanarchive.net/>
109
60) The
Arafura
Digital
Archive
<
http://arada.cdu.edu.au/cgi-bin/library>
61) The
Black
Abolitionist
Archive
<http://www.dalnet.lib.mi.us/gsdl/cgibin/library?p=about&c=baa>
62) The Council of Independent Colleges Historic Campus
Architecture Project -<http://puka.cs.waikato.ac.nz/cgibin/cic/library>
63) The Cushing/Whitney Medical Digital Library<http://cwmldl.med.yale.edu/gsdl/cgibin/library?site=localhost&a=p&p=about&c=ppdcdot&ct
=0&l=en&w=utf-8>
64) The
Social
Management
Digital
Library
<http://200.7.107.179/gsdl/cgi-bin/library>
65) The United Nations Digital Library - Islamabad
<http://library.un.org.pk/gsdl/cgi-bin/library>
66) The Writing University Archive - <http://iwp.infoscience.uiowa.edu/cgi-bin/library>
67) Ulukau, the Hawaiian Electronic Library <http://ulukau.olelo.hawaii.edu/>
68) Washington Research Library Consortium Special
Collections - <http://www.aladin.wrlc.org/dl/>
O Greenstone, com a interface completa e toda a documentao,
est disponvel em vrios idiomas como ingls, francs, espanhol,
portugus e russo. software do tipo open-source, multilingue,
multiplataforma compatvel com Microsoft Windows, UNIX, LINUX e
Mac OS X. Seus programas-fonte so disponveis sob os termos da
General Public License (GPL).
At a verso 2.x o software foi desenvolvido, na linguagem de
programao PERL, ele tambm utiliza o servio Apache Webserver. A
verso 3 (trs) do Greenstone,
um redesenho completo e
reimplementao do software original Biblioteca Digital Greenstone
verso 2 (dois). Ela mantm muitas caractersticas e compatibilidades
com a verso 2.x como por exemplo, continua multilngue,
multiplataforma, e altamente configurvel. O Greenstone 3 foi escrito
em Java, e estruturado como uma rede de mdulos independentes que
se comunicam usando XML. Assim, ele executado de forma
distribuda, e sua aplicao pode estar distribuda em diferentes
servidores de acordo com a sua necessidade. Esse design modular
110
111
112
2
W
mo
ostra um avviso de segu
urana
Na figuura 27, o Windows
infformando quee o editor noo pode ser veerificado e peergunta se o usurio
u
tem
m certeza quee deseja execcutar este so
oftware. Mesm
mo que o so
oftware
Greenstone 3.044 no possua uma assinatu
ura digital vllida que veriffique o
mesmo umaa fonte
ediitor, pode-se executar o software possto que o m
con
nfivel.
113
3
i
a
Naa figura 28, o Greenstonee mostra quee est sendo inicializada
instalao.
114
4
115
5
m
a tela de seleo ddo local de instalao.
i
O
A figura 31 mostra
o
software faz uma suugesto padrro para insstalao. Casso o usurio
o next paraa
concordee com a instaalao, o messmo dever cclicar o boto
continuarr a instalaoo.
116
6
117
7
m
etapas de instala o: 1 - Inicializao, 2 A figura 34, mostras
ma principal, 3 - Instalao do ImageeMagick, 4 Instalao do sistem
Instalao do Ghostsscript, 5 - In
nstalao do Tomcat, 6 - Instalao e
criao dde atalhos do menu.
118
119
120
121
1
122
2
123
3
ministrao de metadados
Fiigura 38: Adm
124
Description Descrio
BibTexPlug-in
BookPlug-in
CONTENTdmPlu
g-in
ConvertToRogPlu
Herda RogPlug-in.
g-in
CSVPlug-in
DatabasePlug-in
DSpacePlug-in
125
EmailPlug-in
arquivos
de
e-mail.
ExcelPlug-in
FavouritesPlug-in
FOXPlug-in
HBPlug-in
HTMLPlug-in
HTML.
Herda
Herda
ImagePlug-in
IndexPlug-in
126
ISISPlug-in
LaTeXPlug-in
LOMPlug-in
MARCPlug-in
MediaWikiPlug-in
MP3Plug-in
127
NulPlug-in
OAIPlug-in
OggVorbisPlug-in
OpenDocumentPl
ug-in
PagedImagePlugin
PDFPlug-in
Plug-in
que
importa
ConvertBinaryFile.
PostScriptPlug-in
PowerPointPlugin
ProCitePlug-in
Plug-in que
SplitTextFile.
importa
arquivos
arquivos
arquivos
PDF.
Postscript.
ProCite.
Herda
Herda
Herda
128
RealMediaPlug-in
ReferPlug-in
RogPlug-in
RTFPlug-in
Plug-in
que
importa
ConvertBinaryFile.
SourceCodePlugin
StructuredHTML
Pluin
TextPlug-in
UnknownPlug-in
arquivos
arquivos
de
RTF.
texto.
Herda
Herda
129
WordPlug-in
ZIPPlug-in
c) Plug-ins Base
Classe base para todos os plugins e plugins auxiliar.
PrintInfo
Contm o cdigo para gerar a sada para
pluginfo.pl, e para analisar os argumentos plugin.
130
d) Plug-ins Auxiliares
plugin que fornece funcionalidade bsica, como o
BaseMediaConv
cache de arquivos para converso de mdia. Herda
erter
PrintInfo.
131
ImageConverter
Acronym
Acrnimo
Date Data
EmailAddress
GIS
Keyphrase
132
Para Audio:
a) Windows Media Audio (.wma)
b) Windows audio (.wav)
c) Sun Audio (.au)
d) Audio Interchange File Format (.aiff)
e) MIDI (.mid)
f) MIDI karoke (.kar)
g) CD Audio (.cda)
h) Shorten (.shn)
Anotaes:
a) Endnote
Images:
a) DjVu (.djvu)
b) Photoshop (.psd)
c) PaintShopPro (.psp)
Arquivos para Macintosh:
a) .hqx Mac archive
b) .sit
c) Self extracting Archive (.sea)
Outros:
a) Scalable Graphics Format (.svg)
b) Synchronized Multimedia Integration Language SMIL
(.smil)
c) Macromedia Flash (.fla)
d) Macromedia shockwave (.swf)
e) OpenGL
f) VRML/X3D
g) TrueType Fonts (TTF)
Neste trabalho de pesquisa foram escolhidos pelo menos um plugins que contemplasse formatos de arquivo proprietrios com
especificao fechada, proprietrio com especificao aberta, e no
proprietrios com especificao aberta.
133
3
do
o
Greenstoone, foram addicionados os seguintes pplug-ins paraa formatos dee
arquivos digitais:
FPlug-in parra documentoos do tipo PD
DF
a) PDF
b) OpennDocumentPllug-in paara documen
ntos do tipo
o
form
mado aberto
c) GreeenstoneXMLP
Plug-in paara documen
ntos do tipo
o
padro XML
Plug-in parra documentoos do tipo RTF
F
d) RTFP
e) TextP
Plug-in parra documentoos do tipo textto
f) WorddPlug-in para docume
mentos do tip
po Microsoft
ft
Wordd
g) PoweerPoint plug
g-in parra documenttos do tipo
o
Micrrosoft Powerp
point
h) ExceelPlug-in para docume
mentos do tip
po Microsoft
ft
Exceel
134
4
135
5
136
6
me consta no site
s do Green
nstone na inteernet disponv
vel em
Conform
<w
www.greenstoone.org>, o MG
M "Manag
ging Gigabyttes" o indeexador
oriiginal usadoo pelo Greeenstone, desenvolvido pprincipalmentte por
Aliistair Moffat e baseado no
n livro com
m o mesmo nnome Gerenciando
Gig
gabytes. Paara cada ndicce especificaado na coleo, um arquivo de
nd
dice separadoo criado. Esste indexadorr foi testado eextensivamen
nte em
collees muito grandes, ou seja,
s
vrios Gigabytes
G
de ttexto.
plementao de MG, quee prev
MGPP (ou Mg + +) uma reimp
nd
dices de nvell de documennto, e compreesso dos doccumentos originais.
Um
ma pequena m
mudana na configurao
c
de arquivo ppara uma colleo
tud
do o que neccessrio para usar MGPP.
O Lucene foi desenvoolvido pela Apache
A
Softwaare Foundatio
on. Ele
reaaliza pesquisaa por proxim
midade, mas apenas
a
em um nico nveel. Foi
adiicionado ao Greenstonee para faciilitar a criaao de co
olees
inccrementais, quue MGPP e o MG no ofeerecem.
Conform
me figura 43, o Greenston
ne oferece a opo de asssociar
um
ma linguagem
m na partio de indexao
o. Na construuo da coleo do
PG
GCIN foi selecionado o idiioma portugu
us.
137
7
portao doss
A figura 45 e 46 mostraa o incio e fim da imp
wnload de 47 dissertaes de mestrado
o
documenntos. Foi reallizado o dow
no formaato PDF do stio http://ww
ww.cin.ufsc.bbr/pgcin e criaado 12 (doze))
arquivos de vrios tipos
t
de form
mato de arquuivo. Dos 59
9 (cinquenta))
nta e quatro))
documenntos disponibbilizados parra a coleta, 44 (quaren
documenntos foram im
mportados parra a coleo ddo PGCIN, seendo que paraa
6 (seis) ddocumentos o Greenstone no reconheeceu o formatto de arquivo,
e outros 9 (nove) foram
fo
rejeitad
dos pelo pluug-in PDF disponvel
d
no
o
quivos estavaam ntegros, posto que oss
Greenstoone. Aparenteemente os arq
softwares nos quais foram gerad
dos estavam abrindo norrmalmente oss
p exemplo
o os arquivoos com a ex
xtenso ODT
T
documenntos, como por
(padro O
ODF).
O Greenstone participa do Projeto Opeen Source Tra
ac, que um
m
u sistema de monitoraamento para projetos dee
wiki melhorado, e um
d
software o qual est disp
ponvel em
m
desenvollvimento de
http://tracc.greenstone..org/browser//main/trunk/ggreenstone2/p
perllib/plugin
s/. Com bbase nas infoormaes encontradas no T
TRAC foi alteerado o plug-in OpennDocumentP
Plug-in e foi reconstrudda a coleo
o do PGCIN.
138
8
Co
om estas alterraes a BDG
G passou a reeconhecer e pprocessar o plug-in
p
parra arquivos no formato OD
DF.
A Bibliooteca Digitaal Greenstonee em um ccomputador Intel
corre Duo CP
PU de 2,4 GH
Hz com 04 GB
B de memriaa RAM e HD de
d 500
GB
B, levou aprroximadamennte de 10 (dez)
(
minutoos para realizar o
pro
ocessamento da importaao dos documentos, e mais 4 (q
quatro)
min
nutos para reealizar a comppresso do tex
xto.
139
9
140
0
Conform
me mostra a figura 49, na aba
a format, ppossvel informar o
forrmato dos reccursos.
141
1
g
que noo caso a dee dissertaess
Paara selecionarr a coleo gerada
do PGCIIN, basta cliccar no cone PGCIN
P
que a mesma ficaar disponvell
para conssulta conform
me figura 52.
142
2
Conform
me figura 53, ao escolher a opo prefeerncias, po
ossvel
esccolher o idiom
ma da interfacce e prefernccias de buscaa.
143
3
144
4
Conform
me figura 57, ao escolher a opo auutor dissertao, o
Greenstone exiibe todos oss documentoss por ordem
m alfabtica de
d um
nto, basta cliccar cone do modo
detterminado auutor. Para verr o documen
tex
xto ou no conne modo PDF
F.
145
5
C
Conforme figgura 59, ao escolher
e
a oppo ano diissertao, o
Greenstoone exibe toddos os docum
mentos por orrdem alfabtica do ano dee
defesa diissertao.
F
Figura 59: Tela visualizao contedo moddo texto
146
6
147
7
148
149
9
o
Quuadro 8: Arquuivos que foraam importadoss para a coleo PGCIN no
Greenstonne
150
151
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
Arquivos
Greenstone:
1.
2.
3.
4.
5.
6.
7.
Schtuz Sergio.pdf
Silva Catia.pdf
Silva Fabiano Couto.pdf
Silvana Bueno.pdf
Sonali Bedin.pdf
Soraya Waltrick.pdf
Tassiane Altissimo.pdf
Veridiana Abe.pdf
Vinicius Lucca.pdf
Vital Luciane.pdf
Vivian Floriani.pdf
no processados por nenhum plug-in disponvel no
Sinara Molossi.pdf
Schons Claudio H.pdf
Johnny Virgil.pdf
Eliane Garcez.pdf
DERLI SANDRA DORIGON.pdf
apresentacao qualificao Jairo 16122009.ppt
arquivo teste gerado na verso EXCEL 97-2003
XLS.xls
8. CHRISTIANE FABIOLA MONN.pdf
9. arquivo teste gerado na verso rtf.rtf
Arquivos que no foram reconhecidos por nenhum plug-in:
1. arquivo teste gerado na verso word 2010.docx
2. arquivo teste gerado na verso openoffice sxw.sxw
3. apresentacao dissertao Jairo 97 2003.pps
4. apresentacao dissertao Jairo.pptx
5. arquivo teste gerado na verso EXCEL XLS.xlsx
Com o objetivo de auxiliar a anlise do formato dos arquivos, foi
utilizado o software DROID Digital Record Object IDentification, que
um software livre desenvolvido a partir do projeto denominado
PRONOM da National Archives e que est disponvel em
<http://www.nationalarchives.gov.uk/pronom>.
Visando identificar o motivo pelo qual o Greenstone no
reconheceu o formato de arquivo de cinco documentos, e rejeitou outros
nove, foi refeito todo o processo de download, importao, adio de
metadados Dublin-core e a realizado novamente o processo de criao
da coleo. Aps o processamento da criao da coleo, constatou-se
que os resultados se repetiram. Concluiu-se que os cinco arquivos no
foram processados por no existir plug-ins disponveis. J os nove
152
ExcelPlug-in
153
3) Arquivo: arquivo teste gerado na verso EXCEL 972003 XLS.xls Este arquivo na importao no foi
reconhecido ou no pode ser processado por nenhum
plug-in.
Observa-se que os formatos de arquivo padro Microsoft no
foram importados para a coleo do PGCIN no Greenstone, porque o
plug-in instalado no Greenstone no reconheceu os formatos de arquivos
e quando reconheceu, no conseguiu processar os documentos.
Considerando que existiam plug-ins especficos para importao
de arquivos com formatos proprietrios, e mesmo repetindo todo o
procedimento de gerao e de importao de arquivos, os resultados
foram os mesmos.
Analisando o relatrio gerado pelo software DROID sobre os
formatos de arquivos selecionados para serem inseridos na coleo,
conforme Anexos A, B, C, D, E e F, observa-se que os mesmos esto
dentro das normas previstas para os respectivos formatos. Alm do que,
os respectivos arquivos podem ser abertos nos softwares os quais foram
gerados, bem como, outros similares como o BRoffice.
5.1.2 Anlise dos formatos de arquivos com especificaes
proprietrias e abertas no Greenstone
Para realizar a anlise dos formatos de arquivos proprietrios e
abertos, foram escolhidos os plug-ins para o Microsoft Word (software
para editorao eletrnica de textos), Microsoft Excel (planilha
eletrnica), Microsoft Powerpoint (software para apresentao) e adobe
PDF.
Os plug-ins utilizados foram:
WordPlug-in
ExcelPlug-in
PowerPointPlug-in
PDFPlug-in
RTFPlug-in
154
155
156
6
157
7
158
8
5)
6)
7)
8)
9)
Uttilizar o stem
mming (Turn stemming) Seleo porr parte
da palavra;
Diiferenciar pallavras acentuadas (Turn acccentfolding));
Orrdem que oss documento
os sero mosstrados (Doccument
display ordder);
Nmero de documentos qu
ue sero recupperados (Retu
urn up
to hits); e,
Nmero de documentos qu
ue sero recupperados por pgina
p
(hits per paage).
159
9
160
0
161
1
162
2
No proceesso de consttruo de um
ma coleo, o Greenstone obtm
doss dados autoomaticamentee das propriiedades do ddocumento no
n seu
forrmato originaal, como por exemplo, as propriedadess de um docu
umento
Miicrosoft Wordd e do PDF.
No Greeenstone, poossvel recup
perar informaaes em diiversos
idiomas a partirr dos metadaados vinculad
dos ao docum
mento, desde que os
m devidamentte configurad
dos e preenchiidos.
meesmos estejam
Nesta cooleo tambm
m possvell recuperar innformaes atravs
a
da navegaoo por pallavras chav
ves que eesto organ
nizadas
i
ppode ser feeita da
hieerarquicamennte. A recupperao da informao
seg
guinte forma:
ulo da Disseertao Recupera
R
toddos os docum
mentos
a) Ttu
ord
denados por oordem alfabttica conformee figura 72.
G
coonforme figu
ura 73,
A seleccionarmos o Ttulo, o Greenstone
mo
ostra o docum
mento selecioonado que po
oder ser visuaalizado no fo
ormato
HT
TML ou atraavs do soft
ftware que o mesmo foii gerado ou outro
com
mpatvel com
m aquele form
mato de arquiv
vo.
163
3
A selecionarm
mos o Autorr, o Greensttone conform
me figura 75,
o no formato
o
mostra o documento selecionado que poder seer visualizado
HTML oou atravs do
d software que o mesm
mo foi geraado ou outro
o
compatvvel com aquelle formato dee arquivo.
164
4
165
5
d
d) Linha dee Pesquisa - Recupera todos os documentos e
mostra-oos em ordem
m alfabtica classificada por Linha de Pesquisaa
conformee figura 78.
166
6
167
7
168
6 CONCLUSES
Neste captulo sero apresentadas as concluses do estudo, bem
como sugestes e recomendaes para futuras investigaes sobre o
tema abordado.
6.1 Concluses
Sob o ponto de vista de contribuio a Cincia da Informao
mais especificamente s disciplinas de Fontes de Informao,
Bibliotecas Digitais, Preservao e Recuperao da informao, a
pesquisa aprofundou estudos na rea de recuperao de informao e
preservao digital tendo como foco o formato de arquivos digitais,
beneficiando as reas correlatas como da cincia da computao,
Biblioteconomia e Arquivologia.
Esta pesquisa teve como objetivo principal de analisar os
recursos disponveis na Biblioteca Digital Greenstone para preservao
lgica de documentos digitais com foco no formato de arquivos e a
recuperao da informao.
Para atingir o objetivo principal, foram traados os seguintes
objetivos especficos:
a) Estudar os modelos clssicos de recuperao de
informao;
b) Identificar os recursos disponveis para recuperao de
informao na BDG;
c) Identificar os pontos fortes e pontos fracos da BDG; e
d) Analisar a questo de preservao de documentos
digitais sob o ponto de vista lgico na Biblioteca
Digital Greenstone.
A partir dos objetivos supracitados chegaram-se as seguintes
concluses:
1)
Aps estudo dos modelos clssicos de recuperao de
informao e avaliao da Biblioteca Digital Greenstone, constatou-se
que a mesma disponibiliza vrias tcnicas de recuperao de informao
como browsing, stemming, pesquisa booleana e ranking.
169
2)
Sobre as ferramentas de indexao dos documentos
para recuperao da informao, constatou-se que dentro da BDG esto
disponveis trs ferramentas para indexar as colees: o MG, que o
indexador padro, o MGPP (MG++) e o Lucene (Apache Software
Foundation) que possuem caractersticas sofisticadas de indexao e
busca. Nesta pesquisa foram testados os trs modelos de indexao, onde
constatou-se que o indexador MG no oferece recursos de diferenciao
de acentuao, e o LUCENE no dispe de recursos de stemming. Pela
anlise realizada concluiu-se que o MGPP (ou MG++) o que tem mais
parmetros para recuperao de informao e que demonstrou ser mais
eficiente, pois ele prev ndices de nvel de documento, e compresso
dos documentos originais. Constata-se que apesar dos recursos de
recuperao de informao que BDG oferece, existem outros que
poderiam ser disponibilizados, como a Indexao Semntica Latente,
pois considerando que em bibliotecas digitais as colees so mais
estveis, como no caso de uso dessa pesquisa, e com a tendncia de
aumento da capacidade de processamento dos computadores, a LSI
passou a ser vivel, j que o custo computacional dispendido em
clculos pela utilizao do modelo algbrico SVD manipulando matrizes
esparsas deixa de ser um fator limitante, e o problema de escalabilidade
passa a no ser preocupante.
3)
Segundo a pesquisa realizada, foram identificados os
seguintes pontos fortes:
a) Ser um software livre;
b) Interoperabilidade de documentos;
c) Ser altamente customizvel;
d) Instalao rpida;
e) Disponvel para vrios idiomas;
f) Disponvel para vrias em diversas plataformas;
g) Interface de consulta Web;
h) Permitir incluso de mais de um formato de
arquivo;
i) Possibilidade de desenvolvimento de plug-ins para
diversos formatos de arquivos;
j) Permite instalao e execuo em vrias
plataformas;
k) Criao de colees distintas;
l) Incluso de metadados obedecendo a padres
internacionais;
m) Importao e exportao de obras/metadados;
170
n)
o)
171
6.2 Sugestes
Devido amplitude do tema referente preservao digital e
recuperao de informao, a rea de pesquisa foi limitada a recuperao
de informao e a preservao digital com foco no formato de arquivos.
No decorrer da pesquisa observou-se que algumas questes ficaram em
aberto em decorrncia das limitaes impostas no escopo deste trabalho.
Porm, este estudo pode ser continuado por meio de outras pesquisas,
sejam de mestrado ou doutorado. As sugestes de estudos sobre o
Greenstone e a seguinte:
a) Preservao fsica com foco na preservao das
mdias e na sua renovao quando se fizer necessrio;
b) Preservao lgica com foco nos formatos e a
dependncia de hardware e software que mantenham
legveis e interpretveis a cadeia de bits;
c) Preservao intelectual com foco no contedo
intelectual e sua autenticidade e integridade;
d) Preservao do aparato com foco nos metadados necessria para localizar, recuperar e representar a
informao digital;
e) Avaliao sobre Ergonomia e usabilidade;
f) Tcnicas de recuperao de informao; e,
g) Gesto arquivstica de bibliotecas digitais.
6.3 Recomendaes
Com a concluso dessa pesquisa, observou-se que algumas
questes envolvendo a Biblioteca Digital Greenstone, como preservao
e recuperao de informaes, formato de arquivos, podem ser
recomendadas aos envolvidos nesta pesquisa:
1 No Brasil no foi encontrado nenhuma norma obrigando a
adoo do PDF/A, mas como demonstrado na reviso da literatura,
observa-se que existe um movimento crescente em diversos pases que
esto normatizando o PDF/A como padro de arquivamento de
documentos digitais. Posto isto, faz-se necessrio recomendar a
administrao da UFSC uma normatizao sobre arquivamento de
documentos, onde o padro de formato de arquivos digitais ser o
'PDF/A'.
172
173
174
REFERNCIAS BIBLIOGRFICAS
ADOBE SYSTEMS INCORPORATED.XMP Adding Intelligent to
Media. San Jose, CA: Adobe, 2004. Disponvel em:
<www.aiim.org/documents/standards/xmpspecification.pdf>.
Acesso
em: 22 maio 2010.
ADOBE SYSTEMS INCORPORATED. XMP Adding Intelligent to
Media. San Jose, CA: Adobe, 2005. Disponvel em:
<www.adobe.com/devnet/xmp/pdfs/xmp_specification.pdf>. Acesso em:
22 maio 2010.
ADOBE'S MAIN XMP. Extensible Metadata Platform (XMP).
Disponvel em:<www.adobe.com/products/xmp/> Acesso em: 22 maio
2010.
ADOBES XMP DEVELOPER'S. Adobe XMP Developer Center.
Disponvel em: <partners.adobe.com/public/developer/xmp/topic.html>
Acesso em: 25 nov. 2009.
ALEX WRIGHT. The Web Time Forgot. The New York Times. 17
Jun.
2008.
Disponvel
em:
<http://www.nytimes.com/2008/06/17/science/17mund.html>. Acesso
em: 21 abr. 2009.
ARQUIVO NACIONAL. Conselho Nacional de Arquivos
(CONARQ). Carta para a preservao do patrimnio arquivstico
digital. Rio de Janeiro, 2004. Disponvel em:
<http://www.conarq.arquivonacional.gov.br/Media/publicacoes/cartapre
servpatrimarqdigitalconarq2004.pdf >. Acesso em: 25 nov. 2009.
ASTI VERA, A. Metodologia da pesquisa cientfica. Porto Alegre:
Globo, 1978.
BAEZA-YATES, R. A.; RIBEIRO-NETO, B. A. Modern Information
Retrieval. Addison Wesley, 1999.
BARDIN, L. Anlise de contedo. Lisboa: Edies 70, 2004.
175
176
it?
American
177
Traduo
178
179
180
181
182
<http://www.ies.ufpb.br/ojs2/index.php/ies/article/view/125>.
em: 03 dez. 2009.
Acesso
183
mai. de 2010.
PINHEIRO, Lena Vnia Ribeiro. Campo interdisciplinar da Cincia da
Informao: fronteiras remotas e recentes. In: PINHEIRO, Lena V.
Ribeiro (org.). Cincia da Informao, Cincias Sociais e
Interdisciplinaridade. Braslia/Rio de Janeiro, IBICT/DDI/DEP, 1999,
p. 155-182.
PROPOSTA submetida pela Comisso Nacional da UNESCO dos pases
baixos apresentada Conferncia Geral da UNESCO e aprovada para
incluso no programa para 2002-2003. In: BIBLIOTECA NACIONAL
(Portugal). Manifesto para a Preservao Digital, UNESCO. Disponvel
em:
<http://www.bn.pt/agenda/ecpa/manifesto_unesco.html>. Acesso em: 25
nov. 2009.
RIJSBERGEN, C. J. van. Information retrieval. 1999. Disponvel em:
<http://www.dcs.gla.ac.uk/~iain/keith/>. Acesso em: 21 abr. 2009.
ROBERTSON, S.E; Teories and models in information retrieval.
Journal of Documentation, 33, p. 126-148. 1977.
184
185
186
6
ANE
EXO A: Telaa do resultado anlise do DROID
187
FORMAT
URI
EXT PUID
NAME
FOR
MAT
VERS
ION
188
openoffice sxw.sxw!/
Configurations2/toolbar/
arquivo teste gerado na verso
openoffice sxw.sxw!/
Configurations2/images/Bitm
aps/
arquivo teste gerado na verso
odf!/Configurations2/accelera xml
tor/current.xml
arquivo teste gerado na verso
odf!/Configurations2/floater/
arquivo teste gerado na verso
odf!/Configurations2/popupm
enu/
arquivo teste gerado na verso
odf!/Configurations2/progress
bar/
arquivo teste gerado na verso
odf!/Configurations2/menubar
/
arquivo teste gerado na verso
odf!/Configurations2/toolbar/
arquivo teste gerado na verso
odf!/Configurations2/images/
Bitmaps/
arquivo teste gerado na verso
openoffice
xml
sxw.sxw!/Configurations2/acc
elerator/current.xml
arquivo teste gerado na verso
openoffice sxw.sxw!/layoutcache
arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/mi
metype
arquivo teste gerado na verso
189
odf!/layout-cache
apresentacao dissertao Jairo
pps
97 03.pps
apresentacao qualificacao
Jairo 161209.ppt
ppt
Microsoft
fmt/126 Powerpoint
Presentation
Microsoft
fmt/126 Powerpoint
Presentation
972002
972002
Petro Bibiana.pdf
xZIP Format
fmt/263
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
190
CarlosAlmeida.pdf
Chirley Silva.pdf
EldaLira.pdf
ElianePereira.pdf
Floriani Vivian.pdf
Francisca Rasche.pdf
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
191
FranciscaRasche.pdf
Gerson Tybusch.pdf
Jaqueline Alves.pdf
LUCIANE PAULA
VITAL.pdf
Machado Marli.pdf
MariliLopes.pdf
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
fmt/17
Acrobat PDF
1.3 Portable
1.3
Document
Format
192
Petro Bibiana.pdf
fmt/17
Schenkel Marilia.pdf
fmt/17
Silva Catia.pdf
fmt/17
SilvanaBueno.pdf
fmt/17
ViniciusLucca.pdf
fmt/17
fmt/95
fmt/18
fmt/95
Acrobat PDF
1.3 Portable
Document
Format
Acrobat PDF
1.3 Portable
Document
Format
Acrobat PDF
1.3 Portable
Document
Format
Acrobat PDF
1.3 Portable
Document
Format
Acrobat PDF
1.3 Portable
Document
Format
Acrobat
PDF/A Portable
Document
Format
1.3
1.3
1.3
1.3
1.3
1.4
Acrobat
PDF/A Portable
Document
Format
193
Adriana Crispim.pdf
Davilla Guillermo.pdf
Erica Ribeiro.pdf
FleckFelicia.pdf
Gabriela Farias.pdf
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
194
Gardenia Castro.pdf
Gelci Rostirolla.pdf
Graipel Hermes.pdf
MARCIO_JOSE_SEMBAY.p
pdf
df
Margarida Reis.pdf
MargaridaReis.pdf
MOMM_Christiane.pdf
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
195
ReneeNina.pdf
RenataCurty.pdf
Pinheiro Liliane.pdf
Sales Rodrigo.pdf
Sales Rodrigo.pdf
Schtuz Sergio.pdf
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/95
Acrobat
PDF/A Portable
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
196
SonaliBedin.pdf
Soraya_Waltrick.pdf
Tassiane Altissimo_09.pdf
Veridiana Abe.pdf
AnnaCorreia.pdf
DerliDorigon.pdf
NelmaAraujo.pdf
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/18
Acrobat PDF
1.4 Portable
1.4
Document
Format
fmt/19
Acrobat PDF
1.5 Portable
1.5
Document
Format
fmt/19
Acrobat PDF
1.5 Portable
1.5
Document
Format
fmt/19
Acrobat PDF
1.5 Portable
1.5
Document
Format
197
fmt/19
Acrobat PDF
1.5 Portable
1.5
Document
Format
fmt/19
Acrobat PDF
1.5 Portable
1.5
Document
Format
fmt/19
Acrobat PDF
1.5 Portable
1.5
Document
Format
fmt/46
Rich Text
Format
1.1
fmt/47
Rich Text
Format
1.2
fmt/48
Rich Text
Format
1.3
Savi Gorete.pdf
Virgil Johnny.pdf
fmt/49
fmt/45
Rich Text
Format
Rich Text
Format
1.4
1.0
fmt/46
Rich Text
Format
1.1
fmt/47
Rich Text
Format
1.2
fmt/48
fmt/49
Rich Text
Format
Rich Text
Format
1.3
1.4
198
fmt/45
fmt/46
fmt/47
fmt/48
rtf
fmt/49
rtf
fmt/45
rtf
fmt/46
rtf
fmt/47
rtf
fmt/48
rtf
fmt/49
rtf
fmt/45
rtf
fmt/46
rtf
fmt/47
rtf
fmt/48
rtf
fmt/49
rtf
fmt/45
fmt/20
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Rich Text
Format
Acrobat PDF
1.6 Portable
Document
Format
1.0
1.1
1.2
1.3
1.4
1.0
1.1
1.2
1.3
1.4
1.0
1.1
1.2
1.3
1.4
1.0
1.6
199
Molossi Sinara.pdf
fmt/20
Acrobat PDF
1.6 Portable
1.6
Document
Format
arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/ME xml
TA-INF/manifest.xml
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/con xml
tent.xml
arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/met xml
a.xml
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/sett xml
ings.xml
Extensible
fmt/101 Markup
Language
arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/styl xml
es.xml
arquivo teste gerado na verso
openoffice
xml
sxw.sxw!/styles.xml
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
200
Extensible
fmt/101 Markup
Language
1.0
Extensible
fmt/101 Markup
Language
1.0
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
Extensible
fmt/101 Markup
Language
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
fmt/11
Portable
Network
Graphics
1.0
fmt/11
Portable
Network
1.0
201
ures/image2.png
arquivo teste gerado na verso
odf!/Thumbnails/thumbnail.p png
ng
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
5A00000035C70036833.png
arquivo teste gerado na verso
openoffice
sxw.sxw!/Pictures/100000000 png
0000500000003512DD754.pn
g
fmt/11
fmt/12
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
1.0
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
1.1
1.1
1.1
1.1
1.1
1.1
1.1
202
fmt/12
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
1.1
1.1
1.1
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
1.1
1.1
1.1
1.1
203
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
1.1
1.1
1.1
1.1
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
1.1
1.1
1.1
1.1
1.1
204
fmt/12
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
1.1
1.1
1.1
1.1
fmt/12
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
1.1
1.1
1.1
1.1
205
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
206
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
207
odf.odt!/media/image70.png
Network
Graphics
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
png
fmt/12
png
fmt/12
png
fmt/12
png
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
208
odf.odt!/media/image15.png
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
fmt/12
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
209
odf.odt!/media/image3.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
3100001018ADA7CE9.png
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
210
odf.odt!/media/image8.png
arquivo teste gerado na verso
png
odf.odt!/media/image7.png
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
1.1
211
odf.odt!/media/image34.png
arquivo teste gerado na verso
png
odf.odt!/media/image21.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
31500000100B476E8C1.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
png
2D00000022D6E9A9BF5.pn
g
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
444000002C5B0E54DE9.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
280000001E0D040B124.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
1450000004CA33D723A.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000 png
3100000FFDB372D6B.png
arquivo teste gerado na verso
png
odf.odt!/media/image23.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
264000001621A15FFDF.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
2AC000001B29ED8AF06.pn
g
arquivo teste gerado na verso
odf!/Pictures/1000000000000
5A0000003680CA9523C.png
arquivo teste gerado na verso
odf!/Pictures/1000000000000
fmt/12
fmt/12
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
1.1
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
fmt/12
fmt/12
png
fmt/12
png
fmt/12
png
fmt/12
png
fmt/12
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
1.1
1.1
1.1
1.1
1.1
1.1
1.1
212
193000001368DFF63B2.png
arquivo teste gerado na verso
png
odf.odt!/media/image24.png
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
fmt/12
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
1.1
1.1
1.1
1.1
1.1
1.1
png
fmt/12
png
fmt/12
png
fmt/12
png
fmt/12
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
Portable
Network
Graphics
Portable
Network
Graphics
Portable
Network
Graphics
1.1
1.1
1.1
1.1
213
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
fmt/12
Portable
Network
Graphics
1.1
png
fmt/12
Portable
Network
Graphics
1.1
png
fmt/12
png
fmt/12
jpg
fmt/43
fmt/43
Portable
Network
Graphics
Portable
Network
Graphics
JPEG File
Interchange
Format
JPEG File
Interchange
Format
JPEG File
Interchange
1.1
1.1
1.01
1.01
1.01
214
0BD000000CF94ADE4FB.jp
g
arquivo_teste_gerado_na_vers
ao_openofficegoogle.odt!/Pict jpeg fmt/44
ures/image1.jpeg
arquivo teste gerado na verso
odf!/Pictures/1000000000000 jpg fmt/44
237000000E3378053C8.jpg
arquivo teste gerado na verso
odf!/Pictures/1000000000000 jpg fmt/44
237000000E381ECD7BF.jpg
Format
JPEG File
Interchange
Format
JPEG File
Interchange
Format
JPEG File
Interchange
Format
JPEG File
arquivo teste gerado na verso
jpeg fmt/44 Interchange
odf.odt!/media/image28.jpeg
Format
JPEG File
arquivo teste gerado na verso
jpeg fmt/44 Interchange
odf.odt!/media/image29.jpeg
Format
OLE2
arquivo teste gerado na verso
Compound
xls
fmt/111
EXCEL 97-03 XLS.xls
Document
Format
OLE2
arquivo teste gerado na verso
Compound
doc fmt/111
Word 07 93.doc
Document
Format
OLE2
Recuperao inteligente de
Compound
informaes em portais
doc fmt/111
Document
corporativos.doc
Format
Acrobat
PDF/A arquivo teste gerado na verso
pdf fmt/95 Portable
PDF A.pdf
Document
Format
Acrobat PDF
1.4 arquivo teste gerado na verso
pdf fmt/18 Portable
PDF A.pdf
Document
Format
1.02
1.02
1.02
1.02
1.02
1.4
215
Acrobat
PDF/A arquivo teste gerado na verso
pdf fmt/95 Portable
pdf.pdf
Document
Format
Acrobat PDF
1.4 arquivo teste gerado na verso
pdf fmt/18 Portable
pdf.pdf
Document
Format
Acrobat
PDF/A Sales Rodrigo.pdf
pdf fmt/95 Portable
Document
Format
Acrobat PDF
1.4 Sales Rodrigo.pdf
pdf fmt/18 Portable
Document
Format
Microsoft
arquivo teste gerado na verso
xlsx fmt/189 Office Open
EXCEL XLS.xlsx
XML
Microsoft
apresentacao dissertao
pptx fmt/189 Office Open
Jairo.pptx
XML
Microsoft
arquivo teste gerado na verso
docx fmt/189 Office Open
word 10.docx
XML
1.4
1.4
2007
2007
2007
216
6
ANEX
XO C Natiional Archiv
ves formatoo fmt/111
217
7
218
8
ANE
EXO E Nattional Archiv
ves formatoo fmt/18
219
9