O Lado Bom e Desconhecido Da Camada Mais Profunda Da Web

C.E.S.A.
R - CENTRO DE ESTUDOS E SISTEMAS AVANADOS DO RECIFE
PRISCILA NAVARRO PEIXOTO DE OLIVEIRA
OS BENEFCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB
RECIFE, 2012
ii
C.E.S.A.R CENTRO DE ESTUDOS E SISTEMAS AVANADOS DO RECIFE
Monografia apresentada ao programa de Especializao de Segurana em Engenharia de Software do Centro de Estudos e Sistemas Avanados do Recife C.E.S.A.R, como requisito para a obteno do ttulo de Especialista em Engenharia de Software com nfase em Segurana. Orientao: Prof. Vinicius Cardoso Garcia
RECIFE, 2012
iii
C.E.S.A.R CENTRO DE ESTUDOS E SISTEMAS AVANADOS DO RECIFE
PRISCILA NAVARRO PEIXOTO DE OLIVEIRA
Monografia apresentada ao programa de Especializao de Segurana em Engenharia de Software do Centro de Estudos e Sistemas Avanados do Recife C.E.S.A.R, como requisito para a obteno do ttulo de Especialista em Engenharia de Software com nfase em Segurana.
Data de aprovao: _____ / _____ / 2012.
Banca examinadora:
_____________________________
Prof.(a).Dr.(a) C.E.S.A.R - Centro de Estudos e Sistemas Avanados do Recife
_____________________________
_____________________________
iv
AGRADECIMENTOS
Agradeo ao Senhor Jesus porque dele, e por meio dele e para ele so todas as coisas. Agradeo minha me Sandra pela presena e apoio constante, sempre buscando proporcionar os melhores meios para eu seguir o meu caminho. Agradeo ao meu pai Mcio, meu grande amigo, meu porto seguro, fonte de paz e tranquilidade. Agradeo ao meu irmo, amigo e companheiro, presente do Senhor que veio pra deixar a minha vida, e a dos meus pais, mais feliz. Agradeo a Mauricio, meu amor, que me inspira, que me motiva e que me fortalece em tudo que eu fao. Agradeo minha av Eunice que sempre esteve fortemente presente na minha vida e que agora descansa em paz no Senhor Jesus. Agradeo minha av Vernica por sempre irradiar amor, tranqilidade e otimismo. Agradeo aos meus tios e primos pela constante presena e certeza de que sempre posso contar com eles. Agradeo aos meus amigos pelo apoio, carinho e oraes. Agradeo aos meus colegas de curso por me acompanharem nesta trajetria, principalmente aqueles mais prximos que se tornaram amigos. Agradeo a Diego e ao professor Noilson por terem me levado a enxergar alm da Web superficial. Agradeo ao meu orientador Vinicius Cardoso por abraar e fortalecer o meu tema, respondendo com agilidade, clareza e objetividade aos meus contatos. Enfim, agradeo a toda a instituio C.E.S.A.R que me proporcionou o ambiente e as ferramentas necessrias para eu concluir o curso.
Porque dele, e por meio dele, e para ele so todas as coisas.

Romanos 11:36
vi
RESUMO
Pesquisando na Web sobre Invisible Web mais comum encontrar textos superficiais que a generalizam como um mero repositrio de material ilcito. Entretanto, a Invisible Web vai alm de uma rede fechada que armazena pginas daqueles que querem compartilhar contedo ilcito anonimamente. Pode-se entender a Invisible Web como um termo que define todas as pginas que no so indexadas pelos motores de busca convencionais, formando um imenso universo de informao de relevante valor, invisvel para a maioria daqueles que utilizam a Web, mas visvel para algumas empresas e instituies importantes. Neste contexto, este verdadeiro tesouro merece uma reflexo sobre a melhor forma de obter informao na Web e a necessidade de pesquisas que a explorem atravs de inteligncia acionvel. Um nico buscador desenvolvido com algoritmos geniais, mas que se limita camada superficial da Web, parece uma opo prtica, embora no aquela que colher os resultados mais satisfatrios.
Palavras-chave
Invisible Web. Deep Web. Surface Web. Motores de busca. Anonimidade
vii
ABSTRACT
When searching the Web about Invisible Web, it is more common to find superficial texts, which generalizes it as a mere repository of illicit material. However, the Invisible Web goes beyond a closed network that stores pages of those who want to share illegal content anonymously. The term Invisible Web or Deep Web refers to all the pages that are not indexed by conventional search engines. Thus, forming an immense universe of valuable information invisible to most web users, but visible to some companies and important institutions. In this context, this is a true treasure that deserves a reflection on the best way to get information from the Web and the need for research exploring through actionable intelligence. Choosing a single search engine developed with genius algorithms but limited to the superficial layer of the Web, seems to be a practical option, although not one that will reap the most satisfactory results.
Key-words Invisible Web. Deep Web. Surface Web. Search Engines. Anonymity.
viii
LISTA DE FIGURAS
FIGURA 1 - EDITOR DE PLANILHAS NA WEB. FONTE: AUTOR........................................................... 7 FIGURA 2 - ROTEAMENTO EM CAMADAS. FONTE: WIKIPEDIA. ...................................................... 14 FIGURA 3 - ANALOGIA DA WEB COMO UM OCEANO. FONTE: BRANDPOWDER. ................................ 18 FIGURA 4 - EXEMPLO DE UM ARQUIVO ROBOTS.TXT. FONTE: BLOGLOVIN. ...................................... 20 FIGURA 5 - EXEMPLO DO USO DA TAG NOINDEX. FONTE: FIGHTCYBERSTALKING................................ 21 FIGURA 6 - TELA DO APLICATIVO MEDNAR. FONTE: DEEPWEBTECHNOLOGIES. ............................... 34 FIGURA 7 - PORTAL SCIENCE.GOV. FONTE: AUTOR. .................................................................... 35 FIGURA 8 - PORTAL WORLDWIDESCIENCE.ORG. FONTE: AUTOR. ................................................. 36 FIGURA 9 - PORTAL XSEARCH. FONTE: AUTOR. ......................................................................... 37 FIGURA 10 - TELA DO SISTEMA DA INTEL. FONTE: DEEPWEBTECH.................................................. 38 FIGURA 11 - SITE HUMINT. FONTE: AUTOR............................................................................ 40 FIGURA 12 - PORTAL COMPLETEPLANET. FONTE: AUTOR. ........................................................... 41 FIGURA 13 - CONECTANDO REDE TOR. FONTE: AUTOR............................................................. 44 FIGURA 14 - HIDDEN WIKI. FONTE: AUTOR.............................................................................. 44
ix
LISTA DE SIGLAS
Sigla CERN URL HTTP HTML W3C RDF XML IP TCP OR SSL TOR EUA PDF TMS DOE OSTI LDAP OSINT US GPS VPN SaaS
Significado Conseil Europen pour la Recherche Nuclaire Uniform Resource Locator Hypertext Transfer Protocol Hypertext Markup Language World Wide Web Consortium Resource Description Framework Extensible Markup Language Internet Protocol Transmission Control Protocol Onion Routing Secure Sockets Layer The Onion Router Estados Unidos da Amrica Portable Document Format Texas Medical Center Department of Energy Office of Scientific and Technical Information Lightweight Directory Access Protocol Intelligence Open Source United States Global Positioning System Virtual Private Network Software as a service
SUMRIO
LISTA DE FIGURAS..................................................................................................VIII LISTA DE SIGLAS ......................................................................................................IX 1 INTRODUO .................................................................................................... 1 1.1 1.2 1.3 1.4 1.5 1.6 2 TEMA.................................................................................................................. 1 OBJETIVO GERAL ................................................................................................ 2 OBJETIVOS ESPECFICOS..................................................................................... 2 METODOLOGIA .................................................................................................. 2 JUSTIFICATIVA .................................................................................................... 2 ESTRUTURA DO DOCUMENTO ........................................................................... 4
FUNDAMENTAO TERICA.............................................................................. 5 2.1 2.2 2.3 2.4 2.5 2.6 2.7 A INTERNET E A WORLD WIDE WEB ................................................................... 5 OS MOTORES DE BUSCA..................................................................................... 9 PRIVACIDADE, CRIPTOGRAFIA E ANONIMIDADE ............................................. 12 ONION ROUTING .............................................................................................. 13 TOR................................................................................................................... 15 SURFACE WEB .................................................................................................. 17 INVISIBLE WEB.................................................................................................. 19
O BOM USO DA CAMADA MAIS PROFUNDA DA WEB ....................................... 32 3.1 3.2 3.3 CASO DE SUCESSO: DEEP WEB TECHNOLOGIES ............................................... 32 CASO DE SUCESSO: BRIGHTPLANET ................................................................. 38 DESMISTIFICANDO A WEB ANNIMA .............................................................. 42
4 5
CONSIDERAES FINAIS .................................................................................. 45 REFERNCIAS................................................................................................... 47
1 INTRODUO
1.1
TEMA
De acordo com Sami et al. (2010), no cenrio Web o pesquisador tem acesso a uma grande quantidade de informaes atravs dos motores de busca. Entretanto, os motores de busca convencionais rastreiam apenas a camada mais superficial da Web, a Surface Web, deixando oculta uma imensa quantidade de contedo numa camada mais profunda, a Invisible Web ou Deep Web [1, 2]. Os motores de busca convencionais, como Google, Yahoo, Bing, obtm suas listas de duas formas. Na primeira, os autores apresentam as suas prprias pginas da Web para a lista, geralmente uma quantidade menor. J na segunda, os motores rastreiam e indexam documentos seguindo de um link de hipertexto para outro, atravs de programas chamados crawlers, que tm limitaes tcnicas e critrios de seleo deliberados. Assim, as pginas que no so contempladas formam um imenso universo. E neste contexto, afirmase que os motores de busca convencionais no contemplam o contedo da Deep Web, que pode ser um contedo dinmico servido em tempo real a partir de um banco de dados, um formato no aceito ou, at mesmo, um contedo excludo por uma escolha deliberada. De acordo com dados apresentados por Bergman (2001), a Deep Web consideravelmente superior Surface Web na qualidade e quantidade de informaes, assim como na aquisio de novas informaes. Entretanto, a supracitada camada predominantemente definida como um espao exclusivo de prticas ilegais como terrorismo, pornografia, trfico de drogas, entre outras, apoiadas pelo anonimato oferecido por ferramentas que possibilitam o seu acesso. E, consequentemente, um vasto repositrio de sons, imagens, udio e outros formatos no indexados pelos crawlers se tornam inacessveis grande parte daqueles que buscam informao.
1.2
OBJETIVO GERAL
Apresentar os benefcios pouco explorados da camada mais profunda da Web que no so acessados pela maioria dos usurios que utilizam este meio.
1.3
OBJETIVOS ESPECFICOS
Apresentar a camada profunda da Web que pouco conhecida por grande parte daqueles que utilizam a Web. Realizar um estudo sobre os casos de sucesso no bom uso da Invisible Web. Desmistificar o conceito da Invisible Web como um mero repositrio de contedo ilcito. Despertar o investimento de pesquisas na explorao inteligente da Invisible Web.
1.4
METODOLOGIA
Utilizando a pesquisa bibliogrfica, haver um levantamento do material j elaborado, constitudo de livros (impressos e eletrnicos), pginas eletrnicas das principais entidades envolvidas no assunto trabalhado, pesquisas, artigos cientficos, dissertaes, entre outros, construindo a base terica do trabalho monogrfico. A tcnica de coleta de dados ser a
observao indireta, atravs da leitura compreensiva e seletiva das publicaes levantadas.
1.5
JUSTIFICATIVA
Segundo Filho (2003), o sculo XX tem sido denominado como a Era da Informao e, atualmente, a grande maioria das informaes est disponvel
em meios eletrnicos como a Internet. Entretanto, uma considervel parte desta fonte est inacessvel a um relevante nmero daqueles que buscam a informao, e a parte que acessvel muitas vezes se apresenta carente de qualidade, como afirmam Tomal et al (2000). Segundo Raghavan (2001), os motores de busca convencionais contam com programas, os crawlers, que rastreiam as pginas estticas da camada mais superficial da Web, denominada Surface Web, percorrendo links de hipertexto que apontam para outros links. Porm, este mecanismo tem limitaes tcnicas que, somadas a escolhas deliberadas, excluem uma grande quantidade de pginas, constituindo a Invisible Web ou Deep Web. Um estudo apresentado por Bergman (2001) estimou que a Invisible Web contm cerca de 7.500 terabytes de informao contra 19 terabytes da Surface Web, 550 bilhes de documentos individuais, 200 mil sites, alm de possuir o maior crescimento na aquisio de novas informaes e um contedo mais profundo do que o encontrado na Surface Web. A qualidade total do contedo da camada mais profunda da Web de 1000 a 2000 vezes maior que a camada mais superficial da Web. Somando-se a estes pontos, a Invisible Web apresenta um contedo altamente relevante para cada necessidade de informao, mercado e domnio, mais da metade reside em reas especficas do banco de dados e 95% da camada composta de informao livre de taxas ou assinaturas. A Invisible Web apresenta bancos de dados que contemplam uma variedade de reas. Estes oferecem suporte Educao com livros, textos, planos de aulas, entre outros arquivos. Fornecem enciclopdia que cataloga mais de 70 mil espcies de plantas e animais, alm de proporcionar cobertura s espcies raras e ameaadas de extino. Trazem portais que apresentam milhares de revistas e notcias. Armazenam textos, artigos completos, peridicos cientficos e acadmicos que abrangem Cincias, tpicos jurdicos e uma diversidade de temas e linguagens, como descreve Lackie (2009). Entretanto, apesar de existir tecnologias que difundem a explorao desta rica fonte de informaes, como a empresa BrightPlanet, a maioria da sociedade que busca informaes tem a Invisible Web como exclusivamente um lugar que oferece anonimato para atividades ilegais ou simplesmente no
tem conhecimento da existncia de uma camada mais profunda na Web, ressalva Paganini (2012). Diante deste cenrio, torna-se relevante um estudo que pesquise, analise e descreva o vasto e rico contedo que a Invisible Web pode oferecer para a sociedade.
1.6
ESTRUTURA DO DOCUMENTO
O presente relatrio segue a seguinte estrutura:
Captulo 1: introduo da pesquisa, abordando o tema, o objetivo, a justificativa e a metodologia. Captulo 2: fundamentao terica, contextualizando o leitor atravs da descrio dos principais conceitos que envolvem o tema da pesquisa abordada neste documento. Captulo 3: abordagem do bom uso da Invisible Web, objetivo principal da pesquisa, atravs da apresentao de casos de sucesso que a envolve, e desmistificao do conceito da Web annima como um mero repositrio de contedo ilcito, apontando outros assuntos nela encontrados. Captulo 4: consideraes finais do estudo e pesquisa realizados.
2 FUNDAMENTAO TERICA
2.1
A INTERNET E A WORLD WIDE WEB
A Internet, inicialmente denominada como Arpanet, foi desenvolvida pelo Departamento de Defesa dos Estados Unidos no perodo da Guerra Fria, com o objetivo de interligar as bases militares e os departamentos de pesquisa do governo americano. Atualmente, segundo Ferreira (1999), a Internet uma rede de computadores de mbito mundial, descentralizada e de acesso pblico, cujos principais servios oferecidos seriam o correio eletrnico e a Web. A World Wide Web ou simplesmente Web foi iniciada em 1989 por Tim Berners-Lee no centro de pesquisa CERN (Conseil Europen pour la Recherche Nuclaire) com a proposta de um grande sistema de hipertexto. A ideia de hipertexto foi enunciada pela primeira vez por Vannevar Bush em 1945, no artigo intitulado As We May Think. Entretanto, o termo hipertexto, tem sua origem nos anos sessenta, com Theodor H. Nelson e seu projeto Xanadu. Segundo Lvy (1999, p.55, apud CUNHA, 2003, p.38):
A abordagem mais simples do hipertexto descrev-lo, em oposio a um texto linear, como um texto estruturado por ns (os elementos da informao, pargrafos, pginas, imagens, sequncias musicais, etc.) e por links entre esses ns, referncias, notas, ponteiros, botes indicando a passagem de um n a outro.
Os links ou hiperlinks so apontadores num documento hipertexto para outras partes do documento ou para outros documentos, que, segundo Koch (2005), permitem ao leitor realizar livremente desvios, fugas, saltos instantneos para outros locais virtuais da rede, de forma prtica, cmoda e econmica.
Neste contexto de hipertexto aplicado Internet, em 1990 Tim BernersLee j contava com o apoio de Robert Cailliau e tinhas as principais ferramentas necessrias para o funcionamento da Web. Segundo Cunha (2003), ele percebeu que o conceito de hipertexto poderia ser utilizado na grande rede de computadores em conjunto com trs tecnologias: Uniform Resource Locator (URL), um endereo nico para cada pgina na Web; Hypertext Transfer Protocol (HTTP), um protocolo de transferncia de dados; e HyperText Markup Language (HTML), uma linguagem de marcao que descreve como os elementos (textuais e grficos) de uma pgina devem ser exibidos. Dentre as ferramentas necessrias Web, tambm est o navegador ou browser, um programa de computador que permite aos usurios da Web o acesso s pginas, e os servidores, responsveis por receber, processar e responder as requisies HTTP de clientes, geralmente um browser.
2.1.1 A evoluo da Web
Desde o seu surgimento, a Web vive um processo evolutivo. Inicialmente, denominada Web 1.0, oferecia um conjunto de pginas estticas ligadas, cujo contedo era alimentado apenas pelos seus responsveis, tendo o usurio como um mero receptor de informao. A atual fase, aps um rpido e grande crescimento, recebeu de Tim OReilly o termo Web 2.0, oriundo de uma srie de conferncias promovidas pela OReilly Media e a MediaLive International, que trouxe uma segunda gerao de servios. Segundo OReilly (2005), citado por Primo (2007), no h como demarcar precisamente as fronteiras da Web 2.0. Trata-se de um ncleo ao redor do qual gravitam princpios e prticas que aproximam diversos sites que os seguem. Um desses princpios fundamentais trabalhar a Web como uma plataforma, ou seja, servios como editor de textos e planilhas, que antes s poderiam ser utilizados atravs de sua instalao no computador, agora so disponveis online. Na Figura 1, pode-se observar uma planilha disponvel na
Web, recurso oferecido pelo Google Docs, um pacote de aplicativos da empresa Google, que tambm disponibiliza a criao e o compartilhamento de documentos, formulrios, entre outros.
Figura 1 - Editor de planilhas na Web. Fonte: Autor .
Dentre outros servios esto as Wikis, pginas para compartilhamento de textos, imagens e vdeos, redes sociais. As Wikis so pginas como a Wikipedia, uma enciclopdia com contedo livre que permite o usurio ler, editar e criar artigos. OReilly (2005) enfatiza uma arquitetura de participao em que quanto mais usurios na rede, mais arquivos se tornam disponveis. Assim, pginas estticas perderam espao para um contedo dinmico que gerado pelos prprios usurios. Diante deste imenso e crescente volume de compartilhamento, cresce a importncia de ferramentas que possibilitam encontrar contedo relevante no meio deste caos de informaes. Neste contexto, o World Wide Web Consortium ou W3C liderado por Tim Berners-Lee trabalha atualmente no desenvolvimento da Web 3.0 ou Web Semntica.
Imagem capturada pelo autor a partir da tela do aplicativo.
Segundo o W3C, a Web 3.0 tem o objetivo de trazer novas maneiras de conectar a Internet atravs de uma variedade de dispositivos capazes de pesquisar, combinar e analisar os dados. De acordo com Berners-Lee (2007, apud JARDIM, 2010, p.20):
A Web Semntica sobre a colocao de arquivos de dados na Web. No apenas uma Web de documentos, mas tambm de dados. A tecnologia de dados da Web Semntica ter muitas aplicaes, todas interconectadas. Pela primeira vez haver um formato comum de dados para todos os aplicativos, permitindo que os bancos de dados e as pginas da Web troquem arquivos.
Berners-Lee et al. (2001, apud JARDIM, 2010) afirmam ainda que a Web 3.0 uma extenso da Web atual, em que a informao tem um significado claro e bem definido, possibilitando uma melhor interao entre computadores e pessoas.
A Web tradicional foi desenvolvida para ser entendida apenas pelos usurios, j a Web Semntica foi idealizada para ser compreendida tambm pelas mquinas. Para isso utiliza diversas tecnologias, que so capazes de operar de maneira eficiente sobre as informaes, podendo entender seus significados, assim, auxiliando os usurios em operaes na Web (Dziekaniak et al., 2004, apud JARDIM, 2010, p.22).
Segundo o W3C, a Web Semntica foi inicialmente pensada para ser construda com base na flexibilidade da combinao do Resource Description Framework (RDF) e o Extensible Markup Language (XML), trazendo uma representao da informao compreensvel para a mquina. Prope-se que a Web seja mais que um repositrio de documentos para exibio, mas de automao, integrao e reuso em sistemas diferentes. Os dados no so apenas apresentados, mas tambm interpretados e compartilhados com organizao em escala e completa integrao de recursos.
2.2
OS MOTORES DE BUSCA
Desde o princpio da Internet houve a preocupao com a criao de ferramentas para localizao da informao e, desta forma, surgiram dois tipos bsicos: os diretrios e os motores de buscas ou search engines. Os diretrios foram criados quando o contedo da Web era pequeno o suficiente para ser pesquisado de forma manual. Os sites so coletados por pessoas, os editores, ou por robs, e so organizados hierarquicamente pelo assunto, permitindo aos usurios navegarem entre categorias e subcategorias. Os motores de busca surgiram com o significativo aumento dos recursos da Web que tornou invivel a coleta manual dos sites e a busca por navegao. Possuindo uma base de dados com uma grande quantidade de itens, permite a busca por palavras-chave ou linguagem natural. Um motor de busca composto por quatro partes: o rob ou crawler, um programa que percorre automaticamente a Web seguindo links encontrados nas pginas; o indexador, que processa as pginas acessadas pelo crawler e constri a base de dados; o motor de busca, propriamente dito, que localiza na base de dados o item pesquisado; e a interface, uma pgina Web que permite ao usurio realizar a pesquisa. Os crawlers tentam obter o maior nmero possvel de pginas da Web e possuem diversas estratgias para percorrerem os links existentes. Na maioria das vezes iniciam o percurso nos sites mais conhecidos e utilizam seus prprios algoritmos para determinarem quais links seguiro. A coleta de pginas tambm pode ser realizada pela sugesto dos usurios que tm a opo de no esperar pela varredura regular dos robs. As informaes contidas nas pginas HTML localizadas pelos crawlers so extradas pelos indexadores e armazenadas na base de dados. A interface, geralmente uma pgina Web, permite que o usurio realize uma consulta transmitindo-a ao motor de busca, programa que localiza o item pesquisado na base de dados e retorna o resultado (uma lista de sites), contendo a descrio e o link, ordenados de acordo com a relevncia. De acordo com Cedn (2001), os motores de busca se diferem entre si levando em considerao o tamanho da base de dados, os critrios para
10
indexao e incluso de pginas, alm de sua interfade de busca, frequncia de atualizao das pginas e ordenao dos resultados. O tamanho da base de dados, geralmente medido pelo nmero de URLs, um parmetro relevante para que uma ferramenta de busca seja boa, considerando que a informao s pode ser localizada numa pesquisa se a ferramenta a tiver includo. Um motor que abrange um maior nmero de URLs tem maior probabilidade de conter a informao procurada e,
consequentemente, tende a ser mais usado. Entretanto, vale ressaltar que nenhum deles consegue conter todas as pginas existentes. Um motor de busca cria ndices para tornar dinmica a busca em sua base de dados. Neles so inseridos todos os termos que podem ser usados numa pesquisa e as URLs das pginas que os contm. A posio das palavras nas pginas e tags HTML associadas ao texto podem tambm serem armazenadas para facilitar a recuperao e ordenao dos resultados. Um termo que no includo no ndice no pode ser localizado, assim, os critrios de indexao influenciam consideravelmente o resultado de uma pesquisa. Os motores de busca geralmente indexam cada palavra visvel de uma pgina. Porm, alguns retiram apenas as palavras mais frequentes, ou as URLs, ou as principais palavras. H tambm aqueles que incluem nos ndices outros termos que no so visveis, mas que contm informaes teis, como os textos encontrados nos metatags de classificao, descrio e palavraschave e o ALT da tag image. De acordo com Cdon (2001):
Os metatags de classificao fornecem uma palavra-chave que define o contedo da pgina. Os de descrio retornam a descrio da pgina feita pelo seu autor no lugar do resumo que o rob criaria automaticamente. Os de palavra-chave fornecem as palavras-chave designadas para descrever seu contedo ou assunto. Por exemplo, no metatag <META name = keyword content=Brasil, informao para negcios>, as palavras Brasil e informao para negcios podem no fazer parte do texto visvel da pgina, entretanto foram indicadas pelo seu autor como indicadores do assunto sobre os quais a pgina versa.
11
Os critrios utilizados para a incluso de pginas estabelecem o nmero de itens que compem a base de dados dos motores de busca. Alguns tentam incluir todas as pginas de um site, outros incluem apenas as principais pginas. Alm do formato HTML, crescente a variedade coletada e indexada pelos motores. O dinamismo que caracteriza a Internet traz aos motores de busca a necessidade de ter a sua base de dados atualizada, adicionando, alterando ou excluindo novas pginas. E para isso, cada motor possui critrios e tecnologia prpria para manter esta atualizao. A interface de busca outro parmetro que difere um motor de busca. De forma geral, oferecem dois tipos de pesquisa, simples e avanada. A busca avanada se distingue da busca simples por permitir que os usurios utilizem expresses booleanas, alm de recursos como truncamento, pesquisa por frase, sensibilidade caixa de caracteres (caixa-alta ou caixa-baixa), limitao por data, domnio, idioma e formato de arquivo. Diante da quantidade de pginas existentes, geralmente uma pesquisa retorna um grande nmero de pginas, tornando a ordenao dos resultados um importante critrio na caracterizao de um motor de busca. Considerando duas ferramentas que trazem a mesma quantidade de itens para uma busca, a melhor ser aquela que fornece os itens mais relevantes entre os primeiros resultados. Assim, a maioria dos motores de busca utiliza algoritmos de ordenao dos resultados que levam em considerao uma srie de parmetros que eles definem. Google Search um motor de busca convencional que permite a busca de informao na camada mais superficial e se destaca entre os mais importantes buscadores por algumas razes. O crawler do Google, o Googlebot, busca por novas informaes diariamente. O referido buscador possui ainda um algoritmo, desenvolvido pelos prprios fundadores Larry Page e Sergey Brin, "que atribui uma pontuao a uma pgina Web, de acordo com a quantidade e a qualidade das ligaes (externas ou internas) que apontem para ela, como afirma a Wikipdia. O Google Search tambm oferece o recurso em cache, que permite o acesso a sites que j no existem mais, alm de possuir uma interface simples, clara e leve.
12
Entretanto, Cdon (2001) ressalva que, apesar da grande quantidade de informaes na Web supracitada neste documento e das inmeras ferramentas de pesquisa disponveis, o usurio fica frequentemente frustrado diante dos insatisfatrios resultados retornados por este complexo universo dos motores de busca e os critrios adotados por eles.
2.3
PRIVACIDADE, CRIPTOGRAFIA E ANONIMIDADE
Segundo Ishitani (2003), privacidade um conceito abstrato, que tem seu valor e extenso variados de acordo com cada pessoa. No contexto da Web, Wang et al afirma que privacidade geralmente se refere a informaes pessoais, e invaso de privacidade geralmente interpretada como coleta, publicao ou outro uso no autorizado de informaes pessoais, como um resultado direto de transaes. E para Westin (1987), privacidade de informaes a reivindicao de indivduos, grupos ou instituies de poderem determinar quando, como e quanto de suas informaes podem ser divulgadas a outros. De acordo com Wang (1998, apud ISHITANI, 2003):
As ferramentas de encriptao so as mais utilizadas e as que obtiveram mais sucesso com relao proteo da privacidade de usurios da Internet. A vantagem dessas ferramentas impedir que um terceiro compreenda o contedo de mensagens transmitidas entre dois outros indivduos. Consequentemente, se um terceiro no capaz de entender uma mensagem, no haver interesse em coletar e armazenar essas informaes.
Entretanto, Ishitana (2003) ressalva que esta prtica no plenamente eficiente contra a minerao de dados, pois mesmo sem a possibilidade de ter o contedo de uma mensagem revelado, ainda possvel saber o endereo IP do cliente e servidor, o comprimento dos dados permutados, a hora em que uma comunicao foi realizada e a frequncia das transmisses. Desta forma,
13
a encriptao deve ser utilizada em conjunto com outras opes de tecnologia para proteo da privacidade, como programas e protocolos de criptografia. O anonimato, ou ocultamento do nome do autor de uma ao ou obra, representa uma forma antiga de agir ou produzir obras, com a proteo da privacidade da identidade do autor da ao ou obra, afirma Ishitani (2003). O seu uso pode ter objetivos socialmente lcitos e ilcitos. Dentre os objetivos lcitos, pode-se mencionar testemunho e denncia de crimes, participao em grupos de ajuda, entre outros. Quanto ao uso ilcito do anonimato, h fraudes, envio de mensagens ameaadoras, aes criminosas e terroristas, entre outras prticas. Ainda para Ishitani (2003), a anonimidade til para proteger a privacidade. E, no mbito da Web, o nome que se deseja proteger o endereo IP, pois estes podem conter informaes pessoais, serem utilizados para correlacionar atividades de diferentes sites e revelar a identidade de um usurio. Vale mencionar que existem a pseudo-anonimidade e a anonimidade de uma nica vez. A diferena que o pseudnimo contnuo, podendo ser utilizado pelo usurio mais de uma vez, e associado a um conjunto de mensagens. Uma falha de anonimidade acontece quando no se protege a anonimidade de um usurio ao permitir que o contedo de uma transao informe a identidade do usurio ao servidor Web. Muitas ferramentas Web de anonimidade se baseiam no uso de proxies. O proxy tem o papel de submeter as requisies Web em nome dos usurios, assim, o seu IP o nico revelado aos sites. Considerando o fato de o proxy conhecer a identidade dos usurios, a vulnerabilidade deste sistema se encontra na possibilidade de algum passar a ter o controle do proxy, monitorando os remetentes e destinatrios de todas as comunicaes.
2.4
ONION ROUTING
De acordo com Dingledine et al. (2004), Onion Routing uma rede sobreposta distribuda que fornece anonimidade a aplicativos baseados TCP,
14
como navegadores Web, secure shell e mensagens instantneas. Os clientes escolhem um caminho atravs da rede e constroem um circuito, em que cada n ("onion router" ou "or") no caminho conhece seu antecessor e sucessor, mas no os outros ns do circuito. O roteamento depende do uso de criptografia de chave pblica, que permite criptografar em camadas, de tal forma que apenas o receptor de uma camada destinada pode decifrar a mensagem com sua chave privada. De forma mais detalhada, Carvalho (2010) afirma que cada router define o prximo e criptografa a mensagem usando a chave pblica do router de destino. Assim, gerada uma estrutura em camadas, conforme apresentado na Figura 2, em que para chegar na mensagem original necessrio decodificar todas as camadas externas, atravs do uso da chave privada de cada roteador do caminho, na ordem predeterminada.
Figura 2 - Roteamento em camadas. Fonte: Wikipedia .
Depois de estabelecido, o caminho permanece ativo para transmisso de dados por certo perodo. Neste tempo, o remetente pode enviar mensagens que sero descascadas (analogia s camadas de uma cebola), ou seja, descriptografadas pela chave privada do router, dificultando a associao entre mensagens que dele entram e saem.
11
http://en.wikipedia.org/wiki/File:Onion_diagram.svg, acesso em julho de 2012.
15
Carvalho (2010) ressalva que um dos pontos fracos se encontra no fato de que ns de sada das redes OR do acesso completo ao contedo transmitido (via sniffing) e, portanto, a rede no deve ser utilizada para transmitir informaes confidenciais sem o uso de criptografia fim-a-fim, como SSL. No prximo tpico, o onion routing ser um pouco mais detalhado, atravs da descrio de um projeto que o implementa.
2.5
TOR
The Onion Router, tambm conhecido como Tor1, um software livre da segunda gerao do onion routing. E, de acordo com a sua pgina oficial, uma rede aberta que auxilia a defesa contra uma forma de vigilncia que ameaa a liberdade e privacidade de negcios e relacionamentos
confidenciais, assim como a segurana do Estado, conhecida como anlise de trfego. Tor foi originalmente concebido, implementado e implantado como a terceira gerao de um projeto de roteamento em camadas do Laboratrio de Pesquisa Naval dos EUA. Originalmente desenvolvido com a Marinha dos EUA, tinha o propsito principal de proteger as comunicaes do governo. Hoje, ele usado todos os dias por propsitos. A ferramenta descrita uma rede de tneis virtuais que permite pessoas e organizaes aumentarem a sua segurana e privacidade na Internet. Ele tambm permite que desenvolvedores de software criem novas ferramentas de comunicao com caractersticas de privacidade embutidas. Tor fornece a base para uma gama de aplicaes que possibilitam organizaes e indivduos partilharem informao atravs de redes pblicas, sem comprometer a sua privacidade. A variedade de pessoas que o utilizam parte do que o faz to seguro. Tor esconde o usurio entre os outros usurios na rede, de modo que o quanto uma grande variedade de perfis e
https://www.torproject.org
16
maior e mais diversificada for a base de usurios do Tor, mais o seu anonimato ser protegido. Tor oferece proteo contra uma forma comum de vigilncia na Internet conhecida como "anlise de trfego, como foi mencionado nas primeiras linhas deste tpico. A anlise de trfego pode ser usada para inferir quem est falando com quem, atravs de uma rede pblica. Conhecer a origem e o destino do seu trfego na Internet permite que outro deduza os seus hbitos e interesses. Na anlise de trfego, pacotes de dados na Internet tem duas partes: um bloco de dados e um cabealho usado para o encaminhamento. O bloco de dados o que est sendo enviado, podendo ser uma mensagem de e-mail, uma pgina Web ou um arquivo de udio. Mesmo se um indivduo criptografa a carga de dados de suas comunicaes, a anlise de trfego ainda revela muita coisa sobre o que ele est fazendo e, possivelmente, o que ele est dizendo. Isso porque a tecnologia aqui apresentada se baseia no cabealho, o que revela origem, destino, tamanho, timing, e assim por diante. Um problema bsico de privacidade que o receptor pode ver o que o emissor envia atravs dos cabealhos. Estes receptores pode ser
intermedirios autorizados, como provedores de Internet, e, algumas vezes, intermedirios no autorizados tambm. Uma forma muito simples de anlise de trfego pode envolver alguma parte da sesso entre o remetente e o destinatrio na rede, atravs dos cabealhos. Mas tambm existem formas mais poderosas de anlise de trfego. Alguns atacantes espiam mltiplas partes da Internet e usam tcnicas estatsticas sofisticadas para rastrear os padres de comunicao de muitas organizaes e indivduos. Criptografia no protege contra estes ataques, pois apenas esconde o contedo do trfego da Internet, no os cabealhos. Tor promete reduzir os riscos tanto da anlise de trfego simples quanto da sofisticada, distribuindo as suas transaes por vrios pontos na Internet, tornando difcil a identificao dos pacotes de dados observados na rede . Em vez de seguirem uma rota direta desde a origem at o destino, os pacotes na rede Tor seguem um caminho aleatrio atravs de diversos servidores, que ocultam a sua passagem de forma que um observador em
17
qualquer ponto no tenha condies de afirmar de onde vm os dados e nem para onde vo. Para criar um caminho privado na rede com Tor, o software do usurio constri incrementalmente um circuito de conexes encriptadas entre servidores na rede. O pacote passado de um servidor para outro e cada servidor conhece apenas a mquina que o entregou e a mquina que o receber. Nenhum servidor conhece o caminho que um pacote percorreu e cada n do circuito tem um conjunto separado de chaves de encriptao, garantindo que um n no rastreie as conexes na passagem dos pacotes. Uma vez que o circuito tenha sido estabelecido, muitos tipos de dados podem ser trocados e vrios tipos diferentes de aplicaes de software podem ser implementadas atravs da rede Tor. Como cada n no v mais do que um salto no circuito, nem um espio, nem um servidor comprometido pode usar a anlise de trfego para ligar a fonte do pacote ao destino.
2.6
SURFACE WEB
Bergman (2001) compara a pesquisa na Internet como lanar uma rede na superfcie de um oceano. De forma anloga, uma grande quantidade de informaes capturada pela rede, mas uma imensa quantidade localizada numa rea mais profunda no alcanada. Esta poro capturada denominada Surface Web e a poro mais profunda conhecida como Invisible Web ou Deep Web ou, ainda, Hidden Web. A Figura 3 ilustra a analogia da Web como o oceano, enfatizando uma camada superficial acessvel aos motores de busca convencionais, como o Google, e uma camada mais profunda de menor alcance.
18
Figura 3 - Analogia da Web como um oceano. Fonte: Brandpowder .
Os motores de busca tradicionais rastreiam as pginas da Surface Web, mas no incluem o contedo da Invisible Web, que, de uma forma geral, criado dinamicamente conforme o resultado de uma pesquisa especfica ou tem um formato no aceito ou, ainda, no contemplado pelos seus critrios de escolha . Assim, pelo fato dos indexadores dos mecanismos tradicionais de busca no poderem sondar abaixo da superfcie, as pginas da camada mais profunda tm sido invisveis para a maioria daqueles que buscam informao. Enfatizando a diferena entre a Surface Web e Invisible Web, Bergman mencionou um estudo realizado pela BrightPlanet, que quantificou o tamanho e a relevncia da Web mais profunda. Entre os dados apontados, a Invisible Web contm 7.500 terabytes de informao em comparao com dezenove terabytes de informao na Surface Web. A Web profunda contm cerca de 550 bilhes de documentos individuais em relao a um bilho da Web superficial. Sessenta dos maiores sites da Invisible Web juntos excedem o tamanho da Surface Web em quarenta vezes. A Web profunda a maior categoria crescente de novas informaes sobre a Internet e seus sites tendem a ter um contedo mais profundo do que os sites da camada convencional. A qualidade do contedo da Web profunda de 1.000 a 2.000 vezes maior do que a Web superficial.
http://brandpowder.files.wordpress.com/2011/10/deep-web.jpg, acesso em maro de 2012.
19
2.7
INVISIBLE WEB
Sherman et al. (2003) afirmam que a Invisible Web so as pginas de texto, arquivos ou informao, muitas vezes de alta qualidade, disponveis na World Wide Web, que os motes de busca convencionais no podem, devido a limitaes tcnicas ou escolha deliberada, adicionar aos seus ndices. No seu nvel mais bsico, os motores de busca so projetados para indexar a Web e programas chamados crawlers para encontrar e recuperar pginas Web armazenadas em servidores de todo o mundo. Texto, mais especificamente o hipertexto, o meio fundamental da Web. A principal funo dos motores de busca ajudar os usurios a localizarem documentos de interesse em hipertexto. Os motores de busca so altamente afinados e otimizados para lidar com pginas de texto e, mais especificamente, as pginas de texto que foram codificados com o HyperText Markup Language (HTML). medida que a Web se desenvolve e outras mdias se tornam comuns, os motores de busca oferecem novas formas de pesquisar informaes. Mas, por agora, a funo central da maioria dos motores de busca Web ajudar os usurios a localizar documentos de texto. Documentos HTML so simples. Cada pgina tem duas partes: um "cabealho" e um "corpo" que so claramente separados no cdigo fonte de uma pgina HTML. O cabealho contm um ttulo no topo da janela de um navegador e tambm pode conter alguns metadados adicionais que descrevem o documento e podem ser usados por um motor de busca para ajudar a classificar o documento. Para a maior parte, alm do ttulo, o cabealho de um documento contm informaes e dados que ajudam o navegador a exibir a pgina, mas irrelevante para um motor de busca. A parte do corpo contm o documento propriamente dito e se apresenta como a poro que o motor de pesquisa deseja explorar. A simplicidade do formato HTML torna mais fcil para os motores de busca a recuperao dos documentos, ou seja, indexar cada palavra em cada pgina e armazen-los em enormes bancos de dados que podem ser pesquisados sob demanda.
20
Os problemas surgem quando o contedo no compatvel com este modelo simples de pgina web. Para entender o porqu, vlido considerar o processo de rastreamento e os fatores que influenciam se uma pgina poder ou no ser rastreada e indexada com sucesso. A primeira coisa que um crawler tenta determinar se o acesso pgina desejada contida no servidor restrito. H trs mtodos para prevenir que um motor de busca realize a indexao de uma pgina. Dois mtodos usam tcnicas de bloqueio especificadas no Robots Exclusion Protocol, que a maioria dos rastreadores voluntariamente honram, criando-se uma barreira tcnica que no pode ser contornada. O Robots Exclusion Protocol um conjunto de regras que permitem especificar quais partes de um servidor so abertas aos crawlers e quais so restritas. O desenvolvedor simplesmente cria uma lista de arquivos ou diretrios que no devem ser rastreados ou indexados e salva esta lista no servidor em um arquivo chamado robots.txt, opcional e armazenado por conveno no nvel superior de um site. A Figura 4 apresenta um exemplo de um arquivo do tipo Robots Exclusion Protocol.
Figura 4 - Exemplo de um arquivo robots.txt. Fonte: Bloglovin .
O segundo meio de prevenir a indexao de uma pgina funciona da mesma maneira que o arquivo robots.txt, entretanto, especfico para pgina.
1
http://www.bloglovin.com/en/blog/3311583/blog-walker, acesso em julho de 2012.
21
O desenvolvedor inclui uma metatag noindex no cabealho do documento, como se pode observar no exemplo da Figura 5. A nica diferena entre a metatag noindex e o arquivo robots.txt que a metatag especfica da pgina, enquanto o arquivo pode ser usado para impedir a indexao de pginas individuais, grupos de arquivos, ou at mesmo sites inteiros.
Figura 5 - Exemplo do uso da tag noindex. Fonte: Fightcyberstalking .
O uso de uma senha o terceiro meio de impedir o rastreamento e a indexao de uma pgina por um motor de busca. Esta tcnica muito mais forte que as duas primeiras, uma vez que utiliza uma barreira tcnica, e no um padro voluntrio. Porm, pginas protegidas por senha podem ser acessadas apenas pelos seletos usurios que sabem a senha, diferente das pginas que usam o Robots Exclusion Protocol e permitem seu acesso qualquer pessoa, exceto o de um motor de busca. Pginas usando qualquer um dos trs mtodos descritos acima fazem parte da Invisible Web. Em muitos casos, eles no contm obstculos tcnicos que impedem o rastreamento e a indexao das pginas. Eles fazem parte
http://www.fightcyberstalking.org/online-safety-tips/how-to-block-your-website-from-the-searchengines.html, acesso em maio de 2012.
22
desta camada porque o desenvolvedor optou por mant-los fora dos motores de busca. Quando o crawler verifica se permitido o acesso a uma pgina, o prximo passo tentar captur-la e entreg-la ao indexador do motor de busca. Este passo crucial determina em grande parte se uma pgina visvel ou invisvel.
2.7.1 Barreiras dos crawlers
Sherman et al. (2003) listou e examinou algumas dificuldades encontradas pelos crawlers na descoberta de pginas na Web, usando a mesma lgica que eles fazem para determinar se uma pgina indexvel ou no.
2.7.1.1 Caso 1
O pesquisador encontra uma pgina que contm texto HTML simples, eventualmente incluindo alguns elementos grficos bsicos. Este o tipo mais comum de pgina Web. visvel e pode ser indexada, crawler pode encontr-la. assumindo que o
2.7.1.2 Caso 2
O crawler encontra uma pgina feita de HTML, mas um formulrio, composto de campos de texto, caixas de seleo, ou outros componentes que requerem entrada do usurio. Pode ser uma pgina de login, exigindo um nome de usurio e senha. Pode ser um formulrio que requer a seleo de uma ou mais opes. O formulrio em si, uma vez que feito de HTML simples, pode ser capturado e indexado. Mas o contedo que est por trs pode ser invisvel para um motor de busca. E, neste caso, h duas possibilidades.
23
O formulrio usado simplesmente para selecionar as preferncias do usurio e as outras pginas sobre o site consistem em HTML simples que pode ser rastreado e indexado. Neste caso, a forma e o contedo por trs dele so visveis e podem ser includos em um ndice do motor de busca. A outra possibilidade ocorre quando o formulrio usado para coletar informaes especficas do usurio que iro gerar pginas dinmicas aps submter a informao. Neste exemplo, embora o formulrio seja visvel, o contedo dinmico invisvel,considerando que nica maneira de acessar o contedo inserindo dados no formulrio e o fato de o crawler ser projetado simplesmente para solicitar e buscar pginas. A tendncia ter os formulrios representando menos dificuldade para os motores de busca, uma vez que esto em andamento projetos visando a criao de crawlers mais inteligentes, capazes de preencher formulrios e recuperar informaes. Entretanto, no um problema trivial e se estima que a indexao de todo o contedo da Invisible Web possa levar at 50 anos, segundo Sherman (2003).
2.7.1.3 Caso 3
O pesquisador encontra uma pgina montada dinamicamente e exibida sob demanda. Tecnicamente, essas pginas so parte da camda visvel. Crawlers podem buscar qualquer pgina que pode ser exibida em um navegador Web, independentemente se uma pgina esttica armazenada em um servidor ou gerada dinamicamente. Pginas geradas dinamicamente representam um desafio para os crawlers. As pginas dinmicas so criadas por um script, um programa de computador que monta uma pgina personalizada a partir da seleo de vrias opes. At que o script realmente executado, um crawler no tem nenhuma maneira de saber o que esse cdigo vai realmente fazer. O script deve simplesmente montar uma pgina Web personalizada. Infelizmente, desenvolvedores antiticos criaram scripts maliciosos que podem
24
sobrecarregar os crawlers, gerando inmeras pginas falsas de spam ou os inserindo em loops infinitos. Estas armadilhas podem ser bastante desagradveis para os motores, por isso a maioria simplesmente toma a deciso de no rastrear ou indexar URLs que geram contedo dinmico. Entretanto, essa deciso flexvel, podendo existir o rastreamento e a indexao de sites gerados dinamicamente, a partir do momento em que passam a ser conhecidos como confives para os motores de busca Uma alternativa que reduziu as barreiras para o contedo dinmico a crescente adoo de programas denominados paid inclusion pelos principais motores de busca. Estes programas so projetados para permitir que se especifique as pginas que devem ser rastreadas e indexadas em troca de uma taxa anual. As pginas que violarem as polticas dos motores de busca estaro sujeitas remoo do ndice. Paid inclusion um meio dos motores de busca confiarem no contedo dinmico, na teoria de que ningum estaria disposto a pagar apenas para ter seu contedo removido de qualquer maneira.
2.7.1.4 Caso 4
O pesquisador encontra uma pgina que no h nada para indexar. Existem inmeras pginas compostas de HTML bsico, mas que contm apenas Flash, imagens, mdia streaming ou outros elementos no textuais no corpo. Estes tipos de pginas so verdadeiramente parte da camada invisvel porque no h contedo que os motores possam indexar. Os motores de busca especializados em multimdia so capazes de reconhecer alguns desses tipos de arquivos no textuais e indexar o mnimo de informao sobre eles, tais como nome do arquivo e tamanho, porm so de longe solues que atendam as buscas por palavras-chave.
25
2.7.1.5 Caso 5
O pesquisador encontra um site que oferece dados dinmicos e em tempo real. H uma grande variedade de sites que fornecem este tipo de informao, que vo desde cotao de aes em tempo real a informao de chegada de vo de companhia area. Estes so tambm parte da Invisible Web porque o fluxo desses dados so, de um ponto de vista prtico, no indexveis. Embora seja tecnicamente possvel, o valor seria apenas para fins histricos e, considerando a enorme quantidade de dados capturados e a necessidade de uma maior capacidade de armazenamento de um motor de busca, seria um exerccio ftil.
2.7.1.6 Caso 6
O pesquisador encontra um arquivo PDF ou Postscript. PDF e PostScript so formatos de texto que preservam a aparncia de um documento, exibindo-o de forma idntica, independentemente do tipo de computador usado para visualiz-lo. Enquanto muitos motores de busca indexam arquivos PDF, a maioria no indexam o texto integral dos documentos.
2.7.1.7 Caso 7
O pesquisador encontra um banco de dados que oferece uma interface Web. Existem dezenas de milhares de bases de dados contendo informao extremamente valiosa disponvel atravs da Internet. Mas os motores de busca no podem indexar o material em si. Apesar de mencionar como um caso nico, este cenrio representa essencialmente uma combinao dos casos 2 e 3. Os bancos de dados geram pginas Web de forma dinmica, respondendo aos comandos emitidos atravs de um formulrio HTML. Embora a interface para o banco de dados um formulrio HTML, o prprio banco de
26
dados pode ter sido criado antes do desenvolvimento do HTML e seu sistema legado incompatvel com os protocolos utilizados pelos motores, ou podem exigir o registro para acessar os dados. Eles tambm podem ser proprietrios, acessvel apenas para usurios selecionados ou que pagaram uma taxa de acesso. Ironicamente, a especificao HTTP original desenvolvida pelo inventor da Web Tim Berners-Lee incluiu um recurso chamado formato de negociao que permitiu a um cliente dizer quais tipos de dados poderia manipular e permitiu que um servidor retornasse dados em qualquer formato aceitvel. A viso de Berners-Lee abrangeu as informaes na Invisible Web, mas esta viso, pelo menos do ponto de vista do motor de busca, tem sido largamente no realizada. 2.7.2 Os quatro tipos da Invisible Web
De acordo com Sherman et al. (2003), alm razes tcnicas, h outros motivos que fazem alguns tipos de contedo no serem acessados dentro ou atravs da Internet porque no so includos pelos motores de busca. Sherman et al. (2003) afirmaram que h quatro tipos de contedo na Invisible Web para facilitar a ilustrao do limite amorfo que torna to difcil a definio da Invisible Web. Estes quatro tipos so Opaque Web, Private Web, Proprietary Web e Truly Invisible Web.
2.7.2.1 Opaque Web
A Opaque Web consiste nos arquivos que podem ser, mas no so, includos nos ndices de pesquisas. A Web Opaque muito grande e apresenta um desafio nico para um pesquisador, considerando que o contedo profundo em muitos sites acessvel se souber como encontr-lo. A maior parte consiste em arquivos que os motores de busca podem rastrear e indexar, mas simplesmente no o fazem. Sherman et al. (2003) apontaram uma variedade de razes para isso, descritas logo abaixo
27
Profundidade de rastreamento
O rastreamento de um site uma operao que consome muitos recursos. Custa dinheiro para um motor de busca rastrear e indexar todas as pginas de um site. No passado, a maioria dos motores selecionava apenas algumas pginas de um site ao invs de executar um "rastreamento profundo que indexava cada pgina, partindo do pensamento que uma amostra fornecia uma representao boa e suficiente de um site, satisfazendo as necessidades da maioria dos pesquisadores. A limitao da profundidade de rastreamento tambm reduzia o custo da indexao de um site particular. De uma forma geral, os motores de busca no revelam como se define a profundidade de rastreamento dos sites. Cada vez mais, h uma tendncia de rastrear mais profundamente, indexando o maior nmero possvel de pginas. Diante do declnio do custo de rastreamento e indexao, e o tamanho dos ndices do motor de pesquisa continuar a ser uma problema competitivo, o problema da profundidade rastreamento est se tornando uma preocupao menor para os pesquisadores. No entanto, no h garantia de que cada pgina do site ser rastreada e indexada. Este problema recebe pouca ateno e uma das principais razes que fazem com que materiais que podem ser utis estejam invisveis para aqueles que s utilizam ferramentas de busca de uso geral para realizar pesquisas.
Freqncia de rastreamento
A Web est em um constante estado de fluxo dinmico. Novas pginas so adicionadas constantemente e as pginas existentes so alteradas ou retiradas da Web. Diante disto, cada motor de busca deve decidir a melhor forma de implantar os seus crawlers, criando um calendrio que determina a freqncia que uma determinada pgina ou site visitado. No o suficiente para um motor de pesquisa visitar uma pgina uma vez e assumir que ainda estar disponvel posteriormente. Crawlers deve retornar periodicamente a uma pgina e no s verificar a sua existncia, mas
28
tambm baixar as cpias mais atuais da pgina e, talvez, buscar novas pginas que foram adicionadas a um site. Os sites mais novos so os mais suscetveis a fiscalizao dos motores de busca porque relativamente poucos outros sites na Web estaro ligados a eles, em comparao aos sites mais estabelecidos. At que os motores de busca alcancem esses novos sites, eles continuam a fazer parte da camada invisvel.
Nmero mximo de resultados visualizveis
bastante comum para um motor de busca relatar um nmero muito grande de resultados. No entanto, a maioria dos motores restringe o nmero total de resultados que ser exibido para uma consulta. Para consultas que retornam um nmero enorme de resultados, isso significa que uma considervel parte das pginas que podem ser relevantes ficam inacessveis, uma vez que foram deixadas de fora da lista dos resultados. Essas pginas que foram excludas so efetivamente invisveis. Bons pesquisadores esto cientes desse problema e iro tomar medidas para contornar o problema, usando uma estratgia de pesquisa mais precisa e controles avanados de filtragem e limitao oferecida por muitos motores. No entanto, para muitos pesquisadores inexperientes este limite no nmero de resultados visualizveis pode ser um problema, considerando que a resposta que eles procuram pode estar na parte que foi deixada indisponvel.
URLs desconectadas
Para um crawler acessar uma pgina, o autor da pgina utiliza o "Enviar URL" do motor de busca, recurso para solicitar o rastreamento e a indexao da pgina, ou o rastreador a descobre a pgina por conta prpria, encontrando um link para a pgina em alguma outra. Pginas da Web que no so enviadas diretamente aos motores de busca e que no tm links apontando para elas so chamadas de URLs desconectadas e no podem
29
ser rastreadas e indexadas simplesmente porque o crawler no tem como encontr-las. Em resumo, a Opaque Web grande, mas no impenetrvel. Pesquisadores determinados muitas vezes pode encontrar o material que nela se encontra, e motores de busca esto constantemente melhorando seus mtodos para localizar e indexar esse contedo.
2.7.2.2 Private Web
A Private Web consiste em pginas Web tecnicamente indexveis que tm sido deliberadamente retiradas da incluso nos motores de busca. Anteriormente, foi falado neste documento que um desenvolvedor tem trs maneiras que o permitem excluir uma pgina de um motor de busca. A primeira realizada atravs da proteo de uma senha. O crawler no pode ir alm de um formulrio que requer um nome de usurio e senha. A segunda maneira usar o arquivo robots.txt para impedir que o crawler acesse a pgina. E, por fim, a terceira maneira utilizar a metatag noindex para evitar que o crawler leia o cabealho e indexe o corpo da pgina. Para a maior parte, a Private Web de pouco interesse para a maioria dos pesquisadores. A pginas privadas usam apenas a Web como um eficiente meio de acesso, mas em geral no so destinadas para uso alm das pessoas que tm permisso de acesso. Existem outros tipos de pginas que tm acesso restrito e que podem ser de interesse para pesquisadores, mas elas normalmente no esto includas nos motores de busca. Estas pginas so parte da Proprietary Web, descrita no prximo tpico.
2.7.2.3 Proprietary Web
Os motores de busca no podem acessar a maior parte da Proprietary Web porque essas pginas so acessveis apenas para pessoas que tenham concordado com os termos especiais em troca da visualizao do contedo.
30
Pginas da Proprietary Web podem ser simplesmente o contedo que acessvel apenas para usurios que queiram se registrar-se para acess-lo. O registro em muitos casos gratuito, mas um crawler no pode satisfazer as exigncias do mais simpres processo de registro. Outros tipos de contedo proprietrio s esto disponveis por uma taxa, por pgina ou algum tipo de assinatura.
2.7.2.4 Truly Invisible Web Alguns sites ou pginas so realmente invisveis, o que significa que h razes tcnicas para que os motores de busca no possam rastrear e indexar o material que eles tm para oferecer. A definio do que constitui um recurso verdadeiramente invisvel deve necessariamente ser um pouco fluido, uma vez que os motores esto em constante aperfeioamento e adaptao dos seus mtodos para abraar novos tipos de contedo. O mais simples, e menos provvel de permanecer invisvel ao longo do tempo, so pginas da Web que usam formatos de arquivo que os crawlers no esto atualmente programados para manusear. Estes formatos de arquivo incluem PostScript, PDF, Flash, Shockwave, executveis (programas), e arquivos compactados. Existem duas razes para que os motores de busca no realizem a indexao desses tipos de arquivos atualmente. Primeira, os arquivos tm pouco ou nenhum contexto textual, por isso difcil classific-los, ou compar-los por relevncia com outros documentos de texto. A adio de metadados ao HTML poderia resolver este problema, contudo, seria indexada a descrio dos metadados e no o contedo do arquivo em si. A segunda razo que certos arquivos no aparecem nos ndices de busca simplesmente porque os motores de busca optaram por omit-los. Eles podem ser indexados, mas no so. O mair problema, entretanto, so as pginas geradas dinamicamente. Novamente, em alguns casos, no um problema tcnico, mas sim falta de vontade da parte dos motores de indexar este tipo de contedo. Isto ocorre especialmente quando um script no interativo usado para gerar uma pgina.
31
Estas so pginas estticas e geram HTML esttico que o motor poderia rastrear. O problema que o uso indevido de scripts tambm podem levar os crawlers a armadilhas, citadas anteriormente neste documento. Isto um grande problema para os motores, assim, eles simplesmente optam por no indexar URLs que contm scripts. Finalmente, a informao armazenada em bases de dados relacionais, que no pode ser extrada sem uma consulta especfica para o banco de dados, verdadeiramente invisvel. Crawlers no so programados para entender tanto a estrutura do banco de dados, como a linguagem de comando usada para extrair informaes.
2.7.3 Web annima
Paralelamente, existe uma Web com uma grande quantidade de informaes privadas de valor inestimvel para empresas privadas, governos e a cibercriminalidade. Na imaginao de muitas pessoas, que se limitam a informaes superficiais, generalistas e, muitas vezes, sensacionalistas, os termos Deep Web, Invisible Web e Hidden Web esto associados a intenes criminosas protegidas por um mundo submerso e inacessvel pelo conceito de anonimidade. Entretanto, como afirma Paganini (2012), esta imaginao fruto de uma interpretao errada, afinal, a referida poro abordada neste tpico uma rede diferente, mas com muitos assuntos comuns Web acessvel pelos motores de busca tradicionais. Dentre as diferenas, o seu acesso realizado atravs de um software como o Tor, a busca mais complexa devido ausncia de indexao do contedo e os domnios no tem extenses clssicas (.com, .gov, entre outras), geralmente apresentam o sufixo .onion.
32
3 O BOM USO DA CAMADA MAIS PROFUNDA DA WEB

O presente captulo abordar o bom uso da Invisible Web, motivao principal da realizao da pesquisa tratada neste documento, atravs da apresentao de dois casos de sucesso na explorao inteligente da supracitada camada profunda da Web. Assim como tambm desmistificar a viso errnea da poro annima da Web como um repositrio exclusivo para contedo ilcito.
3.1
CASO DE SUCESSO: DEEP WEB TECHNOLOGIES Segundo a pgina1 da empresa, a Deep Web Technologies lder em
federated search e oferece um produto inovador, o Explorit Research Accelerator, que promete aos usurios acelerar suas pesquisas e atividades de anlise, melhorando a qualidade dos resultados da pesquisa, atravs do acesso informao que se encontra na Deep Web e no pode ser descoberta pelos motores de busca convencionais. Segundo Jacs (2004), federated search consiste em transformar uma consulta, transmiti-la a um grupo de banco de dados distintos ou outros recursos da Web, com sintaxe apropriada, e apresentar a fuso dos resultados obtidos num formato unificado e sucinto, com o mnimo de duplicao possvel. Next-Generation Federated Search como a Deep Web
Technologies se refere tecnologia que proporciona uma significativa vantagem sobre as formas tradicionais de pesquisa, porque aumenta significativamente a sua velocidade e abrangncia, fornece em tempo real resultados, pode incluir informaes de redes sociais como o Twitter, LinkedIn, Facebook, alm de manter pesquisadores informados diariamente sobre material novo. Neste contexto, a Deep Web Technologies descreve seu produto Explorit Research Accelerator como a mais poderosa e confivel soluo para federated research, sendo um software para bibliotecas e empresas, que
1
http://www.deepwebtech.com
33
pesquisa centenas de repositrios e documentos ao mesmo tempo, permitindo a busca por assunto, autor, ttulo e fonte; oferece resultados relevantes classificados de acordo com filtros selecionados, como data, categoria, entre outros; fornece tecnologia Web 2.0 para permitir a integrao da pesquisa Deep Web em intranets existentes; e disponibiliza recursos de alertas que mostram o que uma informao verdadeiramente nova e importante. Atravs do uso da tecnologia Next-Generation Federated Search e seu produto Explorit Research Accelerator, a referida empresa vem conquistando clientes e gerando servios que vm se popularizando. Mednar e Biznar so aplicativos gratuitos para plataforma iOS da empresa Apple, que buscam informaes mdicas e de negcios em mltiplas fontes da Deep Web para satisfazer as consultas dos usurios. Estes
aplicativos utilizam federated search, pesquisando em tempo real e apresentando os resultados relevantes de acordo com os filtros selecionados pelo usurio. Alm de obterem a informao mais relevante, obtm o que h de mais novo disponvel. Lederman (2011), presidente e fundador da Web Technologies profundas, comentou: "Estamos no meio de uma mudana de paradigma,
onde mais e mais informao est sendo acessada atravs de dispositivos mveis inteligentes. Agora, com Biznar e Mednar disponveis na plataforma iOS, ns temos tido um claro caminho para trazer o contedo da Deep Web em qualquer lugar que o usurio esteja [21]. Trabalhando em parceria com a Texas Medical Center (TMC), a maior instituio mdica do mundo e a 3E Enterprises, uma consultoria de software com sede no Texas, a DWT projetou, desenvolveu e testou verses iOS dos aplicativos Biznar e Mednar. Estas aplicaes agora servem como prottipos para a implementao de aplicativos personalizados para clientes da plataforma mvel, como a TMC. A Figura 6 mostra o referido aplicativo MedNar.
34
Figura 6 - Tela do aplicativo MedNar. Fonte: DeepWebTechnologies .
Outro fruto proveniente das solues da Deep Web Technologies o Science.gov, um portal para informaes de cincia governamental e resultados de pesquisa. Atualmente em sua quinta gerao, Science.gov fornece uma pesquisa em mais de 55 bases de dados cientficos e 200 milhes de pginas de informao cientfica, com apenas uma consulta, tornando-se uma porta de entrada para mais de 2100 sites cientficos. Science.gov uma iniciativa interinstitucional de 17 organizaes cientficas do governo norte-americano e 13 agncias federais. Estas agncias formam a Science.gov Alliance, que voluntariamente governa o portal Science.gov, apresentado na Figura 7. Segundo informaes do prprio portal, o contedo do Science.gov uma contribuio das agncias participantes, comprometidas em atender aos cidados interessados em cincia, incluindo cientistas, estudantes, professores e a comunidade empresarial. Muitas destas agncias so membros do CENDI2, que presta apoio administrativo ao referido site e mantm sua seo Explore Selected Science Websites by Topic. O site informa, ainda, que a sua pesquisa
http://www.deepwebtech.com/wp-content/uploads/2011/03/Explorit-Datasheet.pdf, acesso em julho de 2012.

2
Grupo de gestores de agncias do governo dos Estados Unidos.
35
financiada pelo Department of Energy (DOE) e o Office of Scientific and Technical Information (OSTI), que tambm o hospeda.
Figura 7 - Portal science.gov. Fonte: Autor .
A Deep Web Technologies tambm apresenta como seu cliente, o WorldWideScience.org2, que se descreve como um portal cientfico global, que acelera a descoberta e o progresso cientfico, proporcionando uma busca s bases de dados de todo o mundo, em tempo real e traduo multilingue da literatura cientfica. A Aliana WorldWideScience, uma parceria multilateral composta por membros pases, fornece a estrutura de governana para o
Imagem capturada pelo autor no endereo http://www.science.gov, acessado em julho de 2012.

2
http://www.science.gov
36
WorldWideScience.org, desenvolvido e mantido pelo OSTI. A Figura 8 exibe a pgina principal do referido portal.
Figura 8 - Portal WorldWideScience.org. Fonte: Autor .
Desenvolvido numa parceria das bibliotecas da Stanford University e a Deep Web Technologies, o XSearch fornece aos alunos e professores uma opo de pesquisa em vrias fontes online. Embora tenha solues prontas para serem implantadas em universidades e outras organizaes, a empresa trabalhou de perto com Stanford para fornecer funcionalidades que a universidade no teria encontrado nas solues prontas, como a integrao com os servios de autenticao LDAP. Alm do trabalho personalizado de integrao, o Explorit, j mencionado anteriormente, permite aos estudantes e professores, atravs de pginas de pesquisa personalizadas, construir seus prprios aplicativos federated search que busca apenas as fontes que eles precisam.
Imagem capturada pelo autor no endereo http://worldwidescience.org, acessado em julho de 2012.
37
O lanamento inicial do XSearch, que pode ser visto na Figura 9, incluiu 28 fontes que contm links para artigos de peridicos, citaes de patentes, anais de conferncias e ebooks. Lederman (2010), comentou sobre o seu envolvimento na parceria, afirmando "estamos muito satisfeitos por termos trabalhado to de perto com Stanford para trazer federated search aos seus alunos e funcionrios. Stanford tinha uma srie de requisitos nicos que no poderiam ter sido resolvidos com outros sistemas de busca (...) ".
Figura 9 - Portal XSearch. Fonte: Autor .
O software Explorit tambm usado por clientes corporativos, lderes mundiais, como a Boeing, maior empresa do mundo no setor aeroespacial e maior fabricante de avies militares e comerciais, que tambm projeta e fabrica helicpteros, msseis, satlites, sistemas avanados de informao e comunicao, entre outros; a Intel, multinacional americana e maior fabricante mundial de chips semicondutores de tecnologia em semicondutores; e a BASF, maior indtria qumica do mundo. A Intel, por exemplo, necessitava de uma soluo de busca que oferecesse interface fcil de usar, poderosa otimizao dos resultados e
Imagem capturada pelo autor no endereo https://xsearch.stanford.edu/search, acessado em julho de 2012.
38
capacidade de integrar seguramente uma grande variedade de fontes, incluindo bases de dados internas, eliminando a dificuldade que seus funcionrios tinham de realizar pesquisas. Barclay Hill (2009), gerente da Intel Library Web & Systems Group, declarou "os produtos e servios da Deep Web Technologies contribuiram substancialmente para o nosso sucesso. Atrves da federated search na Deep Web, conseguimos uma perfeita integrao da pesquisa com o portal da nossa biblioteca. Temos tambm uma soluo de pesquisa gerencivel e sustentvel de federated search que ns podemos construir para o futuro. A Figura 10 apresenta uma das telas do referido produto da parceria entre a Intel e a Deep Web Technologies.
Figura 10 - Tela do sistema da Intel. Fonte: Deepwebtech .
3.2
CASO DE SUCESSO: BRIGHTPLANET A BrightPlanet, de acordo com seu site2, foi a pioneira em inteligncia
na Deep Web, sendo, inclusive, a primeira a usar este termo para denominar a camada profunda da Web, supracitada neste documento. H mais de 10 anos vem atuando com as ferramentas e servios mais rpidos para ajudar seus clientes. E, atravs de solues patenteadas e proprietrias, abraam o desafio
http://www.deepwebtech.com/customers/intel.html, acesso em julho de 2012. http://www.brightplanet.com
39
de colher Big Data 1 da camada mais profunda da Web, oferecendo capacidade de inteligncia no acesso aos recursos inexplorados desta camada. Dentre estas solues est o Deep Web Harvester, que a empresa define como a ferramenta mais abrangente disponvel para aquisio do contedo da Deep Web. Aps adquirir o contedo, a tecnologia enriquece, normaliza e fornece informaes preparadas para seus clientes analisarem. Deep Web Harvester completamente customizvel, tornando mais fcil a personalizao de pesquisas, de acordo com a necessidade especfica do usurio, alm de tambm apresentar capacidade de filtragem de documentos virtualmente ilimitada, reunindo informaes com anlises prontas. Este servio est disponvel como uma interface da Web independente atravs de SaaS ou como uma soluo corporativa acessvel por trs da segurana do firewall do cliente. Arnold (2009) afirma que a tecnologia BrightPlanet usada por agncias governamentais, negcios, e empresas de servios para obter informaes pertinentes a pessoas, lugares, eventos e outros temas. Dentre as agncias, esto as de Intelligence Open Source (OSINT), que a BrightPlanet define, resumidamente, como a prtica de usar a Web para criar inteligncia. Amplamente, OSINT uma disciplina de processamento de informao que envolve encontrar, selecionar e adquirir informaes de fontes pblicas e analis-las para produzir inteligncia acionvel. Na Comunidade de Inteligncia dos Estados Unidos (U.S. Intelligence Community), o termo "open" se refere s fontes disponveis publicamente, ao contrrio de fontes secretas ou confidenciais. Muitos outros "INTs existem, como HUMINT, que explora a inteligncia dos seres humanos atravs da comunicao e entrevistas, e o GEOINT, inteligncia geo-espacial recolhida a partir de satlites, fotografias areas e mapas/terreno de dados. A Figura 11 apresenta uma imagem da pgina principal da HUMINT.
De acordo com a IBM (http://www-01.ibm.com/software/data/bigdata, acessado em julho de 2012), Big Data um temo que define a imensa quantidade de dados oriundos de diversas fontes, como sensores utilizados para recolher informao sobre o clima, mensagens de redes sociais, fotos e vdeos digitais, registros de transaes de compra, sinais de GPS dos celulares, entre outras.
1
40
Figura 11 - Site HUMINT. Fonte: Autor .
Segundo Pederson (2010), CEO da BrightPlanet,
agncias de
inteligncia dos EUA tm explorado Big Data a partir da Web por mais de uma dcada. Estas, dependem da capacidade de coletar dados em escala, transformar os dados brutos em informaes relevantes e dar sentido informao para apoiar decises com inteligncia acionvel. Entretanto, noventa por cento de contedo Big Data est no universo em expanso de contedo no-estruturado e a grande maioria destas informaes esto ocultas na Deep Web. Neste contexto, Pederson (2010) afirma que durante anos, as agncias de inteligncia dos EUA tm utilizado ferramentas para encontrar e recuperar dados pblicos, visitando sites especficos, tanto da Surface Web como da Deep Web, atravs de tecnologias da BrightPlanet. Neste documento, vlido mencionar tambm um projeto da BrightPlanet, o portal CompletePlanet exibido na Figura 12, considerado o
preferido por Will Bushee (um dos lderes da empresa). O portal permite consultar em mais de setenta mil bases de dados da Deep Web, simultaneamente. Oferece, ainda, a possibilidade de pesquisar por temas como agricultura, educao, esportes, literatura, medicamentos, msica, viagem, entre outros.
Imagem capturada pelo autor no endereo http://www.humints.com, acessado em julho de 2012.
41
Figura 12 - Portal CompletePlanet. Fonte: Autor .
Assim como este portal da BrightPlanet, h vrios outros, entre eles:
a) InfoMine (http://infomine.ucr.edu): desenvolvido e mantido pela biblioteca da University of California. b) Intute (http://www.intute.ac.uk): criado por universidades da Inglaterra. c) o IncyWincy (http://www.incywincy.com): com recurso de busca por imagens. d) The Virtual Library WWW (http://vlib.org): biblioteca virtual, nas qual as pginas centrais so mantidas por um conselho criado por Tim Berners-Lee. e) InfoPlease (http://www.infoplease.com): contm almanaques, enciclopdias, biografias, entre outros materiais. f) LexiBot (http://ww5.lexibot.com): tambm produzido pela
BrightPlanet, usurios realizam buscas usando texto simples, linguagem natural ou consultas booleanas em centenas de bases
Imagem capturada pelo autor no endereo http://aip.completeplanet.com, acessado em julho de 2012.
42
de dados simultaneamente, para filtrar e analisar os dados, e publicar os resultados como pginas Web. g) Australian Government Geoscience Australia base de
(http://www.ga.gov.au/oracle/nuclear-explosion.jsp):
dados do governo australiano que mantm um histrico com local, tempo e tamanho das exploses nucleares que ocorreram desde 1945. h) World Fact Book (http://www.worldfactbook.com): um diretrio pesquisvel com informaes de pases, que incluem perfis, mapas, referncias, bandeiras, entre outras. i) Directory of Open Access Journal (http://www.doaj.org/): uma coleo de revistas cientficas e acadmicas mantida pela Lund University. j) PubMed (http://www.ncbi.nlm.nih.gov/pubmed): um servio da US National Library of Medicine, com mais de 18 milhes de referncias sobre Medicina. k) TechDeepWeb (http://www.techdeepweb.com): guia de
informaes na Deep Web para profissionais de TI, descrevendo ferramentas de busca teis, portais e sites.
3.3
DESMISTIFICANDO A WEB ANNIMA Finalmente, como mencionado anteriormente, existem pginas da
Invisible Web annimas que s podem ser acessadas por ferramentas especficas, como o Tor. O referido software se encontra no site oficial do projeto e capaz de trabalhar em todas as plataformas, alm de conter plugins que tornam a integrao simples com aplicaes existentes, como
navegadores. Recomenda-se navegar na Invisible Web atravs de uma distribuio de sistema operacional inicializvel a partir de qualquer mquina, evitando deixar rastros. Uma vez que o pacote Tor instalado, uma verso porttil do navegador Firefox disponvel, sendo ideal para a navegao annima devido
43
a um controle adequado dos plugins instalados, que no vm na verso comercial do navegador. E, apesar de a rede ter sido projetada para proteger a privacidade do usurio, h aqueles que sugerem o uso de uma VPN, para realmente estar annimo. Vale mencionar mais uma vez que o usurio deve ter em mente que a navegao na Web annima mais complexa pela falta de indexao do seu contedo e que vlido adotar uma coleo de Wikis e sites favoritos que tm a finalidade de categorizar e agregar grupos para pesquisa, alm do fato das pginas possurem domnios com extenses .onion. O site Pastebin1 publicou uma lista de links que podem auxiliar a navegao nesta poro da Web, entre estes links esto:
a) HiddenWiki (http://kpvz7ki2v5agwt35.onion): uma das pginas mais conhecidas da rede Tor, apresenta vrios links relacionados a diversas categorias .
b) Torch (http://xmh57jrzrnw6insl.onion): um search engine da rede Tor.
c) CircleServices (http://4eiruntyxxbgfv7o.onion): um dos endereos mais conhecidos para servios de hospedagem de arquivos. d) Onion Fileshare (http://f3ew3p7s6lbftqm5.onion): disponibiliza
2GB de espao para armazenamento de arquivos. e) Freedom Hosting (http://xqz3u5drneuzhaeo.onion): hospeda uma grande poro dos sites .onion. f) Onionforum (http://65bgvta7yos3sce5.onion): um frum para discusses.
Na Figura 13 possvel visualizar a janela de conexo do software Tor informando que o usurio est conectado, assim como uma pgina informando que o navegador, que acompanha o pacote de instalao, est configurado para usar a rede. E a Figura 14 exibe a pgina da Hidden Wiki, uma das principais pginas da rede Tor, que rene diversos links, como mencionado anteriormente.
1
http://pastebin.com/ADTynHbX
44
Figura 13 - Conectando rede Tor. Fonte: Autor .
Figura 14 - Hidden Wiki. Fonte: Autor .
Imagem capturada pelo autor.
Imagem capturada pelo autor no endereo http://kpvz7ki2v5agwt35.onion, acessado em julho de 2012.
45
4 CONSIDERAES FINAIS
Pesquisando na Web sobre Invisible Web ou Deep Web mais comum encontrar textos superficiais e muitas vezes sensacionalistas, que a generalizam como um mero repositrio de material ilcito e que ainda recomendam manter distncia queles que no querem ter seu computador invadido por vrus destruidores. Sim, a Invisible Web surpreende pela facilidade de encontrar pedofilia, canibalismo, trfico de drogas e humanos, entre tantas outras prticas abominveis, que parece ganhar fora com o anonimato oferecido por redes fechadas, tal qual Tor. Entretanto, a Invisible Web vai alm de uma rede fechada que armazena pginas daqueles que querem compartilhar contedo ilcito. Podese entender a Invisible Web como um termo que define todas as pginas que no so indexadas pelos motores de busca convencionais, at mesmo o revolucionrio Google, seja por limitaes tcnicas ou deliberados critrios de escolha. Estas pginas formam um imenso universo de informao de relevante valor, invisvel para a maioria, mas visvel para empresas pioneiras que j a tornaram seu principal servio, como a Deep Web Technologies e a BrightPlanet. Fruto do investimento em inteligncia na Invisible Web, estas empresas possuem tecnologia que atrai clientes como agncias governamentais, importantes universidades do mundo e empresas lderes mundiais que desejam agregar valor aos seus servios. Automatizar, monitorar e rastrear pesquisas em tempo real, atravs de inteligncia acionvel nestas fontes profundas, torna-se uma atraente opo para governos, empresas e indivduos limitados pelas ferramentas convencionais de busca neste forte meio que a Web nos dias de hoje. A Invisible Web contempla bases de dados de extensa quantidade, qualidade e variedade, que podem ser pesquisadas simultaneamente. Um verdadeiro tesouro que merece uma reflexo sobre a melhor forma de obter informao na Web. Escolher um nico buscador desenvolvido com algoritmos geniais, mas que se limita camada superficial da Web, parece uma opo prtica, embora no aquela que colher os resultados mais satisfatrios.
46
Neste contexto apresentado, incentiva-se o desenvolvimento de pesquisas e trabalhos futuros que invistam na explorao inteligente da Deep Web. Nos ltimos anos, por exemplo, alguns dos motores de busca mais abrangentes tm trabalhado em algoritmos capazes de pesquisar nas pores mais profundas da Web, tentando encontrar arquivos como .pdf, .doc, .xls, .ppt, .ps, entre outros. Estes arquivos so predominantemente utilizados por empresas para comunicao interna e divulgao de informaes para mundo externo. Assim, pesquisar essas informaes utilizando tcnicas de busca mais profunda e algoritmos mais recentes permite obter uma grande quantidade de informaes inacessveis. Vale mencionar tambm um estudo realizado por membros de algumas universidades, entre elas a University of Illinois, que prope um clustering interativo capaz de integrar diferentes interfaces de fontes de dados disponveis na Deep Web. No mbito da Web Semntica, uma pesquisa da University of Karlsruhe prope a criao de metadados a partir de informaes dinmicas utilizando um processo de anotao que estruture, contextualize e mapeie estes dados. Enfim, possvel observar que j h pesquisas que investem na Invisible Web, entretanto, juntas ainda somam um nmero pequeno, desproporcional ao valor dos recursos inestimveis que esta camada oferece. Diante disto, enfatiza-se a necessidade e o benefcio de investir em pesquisas que superem as limitaes tcnicas e possibilitem ultrapassar cada vez mais a superfcie da Web, tornando os dados mais profundos amplamente acessveis. corporativas que eram anteriormente indisponveis ou
47
5 REFERNCIAS
[1] IFFAT, R., SAMI, L., Understanding the Deep Web. Library Philosophy and Practice, 2010. Disponvel em <http://ieeexplore.ieee.org>. Acesso em fevereiro de 2012.
[2] BERGMAN, M. K., The DeepWeb: Surfacing Hidden Value. Journal of Electronic Publishing. BrightPlanet, 2001. Disponvel em
<http://www.brightplanet.com/2012/06/the-deep-web-surfacing-hidden-value>. Acesso em fevereiro de 2012.
[3]
FILHO,
A.
M.,
era
da
Informao.
Disponvel Acesso
em: em:
<http://www.espacoacademico.com.br/002/02col_mendes.htm> fevereiro de 2012.
[4] TOMAL, M. I., CATARINO, M. E., VALENTIM, M. L. P., JNIOR, O. F. A., SILVA, T. E., ALCAR, A. R., SELMINI, D. C., MONTANARI, F. R., Fontes de Informao na Internet. Disponvel em:
<http://snbu.bvs.br/snbu2000/docs/pt/doc/t138.doc>. Acesso em fevereiro de 2012.
[5] RAGHAVAN, S., MOLINA-GARCIA, H., Crawling the HiddenWeb. Computer Science Department Stanford University. Disponvel em
<http://ieeexplore.ieee.org>. Acesso em fevereiro de 2012.
[6] LACKIE, R. J., Those Dark Hiding Places: The Invisible Web Revealed. Rider University Libraries, 2009. Disponvel em
<http://www.robertlackie.com/invisible/index.html>. Acesso em fevereiro de 2012.
[7] PAGANINI, P., What is the Deep Web? A first trip into the abyss. Disponvel em: <http://securityaffairs.co/wordpress/5650/cyber-crime/what-is-the-deep-
web-a-first-trip-into-the-abyss.html>. Acesso em maro de 2012.
48
[8] FERREIRA, A. B. H., Dicionrio Aurlio Eletrnico: sculo XXI. Verso 3.0. Ed. Nova Fronteira e Lexikon Informtica Ltda, 1999.
[9] CUNHA, J. A., Web Semntica: O estado da arte. Monografia apresentada disciplina Monografia do curso de Biblioteconomia do Centro de Cincias Sociais Aplicadas da Universidade Federal do Rio Grande do Norte. Natal, 2006.
[10] KOCH, I. G. V., Desvendando os segredos do texto. 4. ed. So Paulo: Cortez, 2005. 168p.
[11] PRIMO, A., O Aspecto Relacional das interaes na Web 2.0. E- Comps (Braslia), v.9, p. 1-21, 2007. Disponvel em:
<http://www6.ufrgs.br/limc/PDFs/web2.pdf>. Acesso em maro de 2012.
[12] OREILLY, T., What Is Web 2.0: Design Patterns and Business Models for the Next Generation of Software. Publicado em Copyright 2006 OReilly Media, Inc., 2006. Disponvel em: <http://www.oreilly.com>. Acesso em maro de 2012.
[13] JARDIM, A. L., Aplicaes de Modelos Semnticos em Redes Sociais. Dissertao apresentada como requisito parcial para a obteno do grau de Mestre em Cincia da Computao. Pelotas, 2010.
[14]
W3C:
Uso
de
Padres
Web
2000.
Disponvel
em:
<http://www.w3c.br/palestras/2009/W3CeGovES.pdf>. Acesso em maro de 2012.
[15] CENDN, B. V., Ferramenta de busca na Web. Ci. Inf., Braslia, v. 30, n. 1, p. 39-49, jan./abr. 2001. Disponvel em
<http://revista.ibict.br/ciinf/index.php/ciinf/article/view/222>. Acesso em maro de 2012.
49
[16]
Wikipedia.
Google
Search.
Disponvel
em:
<http://en.wikipedia.org/wiki/Google_Search>. Acesso em julho de 2012.
[17] WESTIN, A. Privacy and Freedom. Bodley Head, 1987
[18] DINGLEDINE, R., MATHEWSON, G., SYVERSON, P., Tor: The SecondGeneration Onion Router. Disponvel em: Acesso
<https://svn.torproject.org/svn/projects/design-paper/tor-design.pdf>. em julho de 2012.
[19]
CARVALHO,
R.
H.,
Sistemas
de
Anonimato.
Disponvel
em:
<https://svn.torproject.org/svn/projects/design-paper/tor-design.pdf>. em julho de 2012.
Acesso
[20] SHERMAN, C., PRICE, G., The Invisible Web: Uncovering Sources Search Engines Cant See. Library Trends, 2003.
[21] NOILSON, C. T. A., Introduo a Invisible Web. Disponvel em http://ncaio.wordpress.com/2011/07/18/introducao-a-invisible-web. Acesso em julho de 2012.
[22] Deep Web Technologies. Disponvel em <http://www.deepwebtech.com>. Acesso em julho de 2012.
[23] JACS, P. Internet Insights - Thoughts about Federated Searching. Information Today, 21(9) October, 2004, p.17. Disponvel Acesso em em
<http://www2.hawaii.edu/~jacso/extra/federated/federated.htm>. julho de 2012.
[24] ARNOLD, S. BrightPlanet Unlocks the Deep Web. Disponvel em <http://brightplanet.com/wp-content/uploads/2012/03/BrightPlanet-Unlocks-theDeep-Web.pdf>. Acesso em julho de 2012.
50
[25] PEDERSON, S., Exploiting Big Data from the Deep Web - The new frontier for creating intelligence. BrightPlanet, 2010.
[26] Deep Web Technologies. Deep Web Technologies Mobilizes Federated Search. Santa Fe, 2011. Disponvel em
<http://www.deepwebtech.com/2011/11/deep-web-technologies-mobilizesfederated-search>. Acesso em julho de 2012.
[27] BrightPlantet. Disponvel em < http://www.brightplanet.com>. Acesso em julho de 2012.

O Lado Bom e Desconhecido Da Camada Mais Profunda Da Web

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

O Lado Bom e Desconhecido Da Camada Mais Profunda Da Web

Загружено:

Авторское право:

Доступные форматы

C.E.S.A.

R - CENTRO DE ESTUDOS E SISTEMAS AVANADOS DO RECIFE

PRISCILA NAVARRO PEIXOTO DE OLIVEIRA

OS BENEFCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB

C.E.S.A.R CENTRO DE ESTUDOS E SISTEMAS AVANADOS DO RECIFE

OS BENEFCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB

C.E.S.A.R CENTRO DE ESTUDOS E SISTEMAS AVANADOS DO RECIFE

OS BENEFCIOS OCULTOS DA CAMADA MAIS PROFUNDA DA WEB

PRISCILA NAVARRO PEIXOTO DE OLIVEIRA

Data de aprovao: _____ / _____ / 2012.

Porque dele, e por meio dele, e para ele so todas as coisas.

Invisible Web. Deep Web. Surface Web. Motores de busca. Anonimidade

CONSIDERAES FINAIS .................................................................................. 45 REFERNCIAS................................................................................................... 47

observao indireta, atravs da leitura compreensiva e seletiva das publicaes levantadas.

O presente relatrio segue a seguinte estrutura:

A INTERNET E A WORLD WIDE WEB

2.1.1 A evoluo da Web

Figura 1 - Editor de planilhas na Web. Fonte: Autor .

Imagem capturada pelo autor a partir da tela do aplicativo.

PRIVACIDADE, CRIPTOGRAFIA E ANONIMIDADE

Figura 2 - Roteamento em camadas. Fonte: Wikipedia .

http://en.wikipedia.org/wiki/File:Onion_diagram.svg, acesso em julho de 2012.

Figura 3 - Analogia da Web como um oceano. Fonte: Brandpowder .

http://brandpowder.files.wordpress.com/2011/10/deep-web.jpg, acesso em maro de 2012.

Figura 4 - Exemplo de um arquivo robots.txt. Fonte: Bloglovin .

http://www.bloglovin.com/en/blog/3311583/blog-walker, acesso em julho de 2012.

Figura 5 - Exemplo do uso da tag noindex. Fonte: Fightcyberstalking .

http://www.fightcyberstalking.org/online-safety-tips/how-to-block-your-website-from-the-searchengines.html, acesso em maio de 2012.

2.7.1 Barreiras dos crawlers

2.7.2.1 Opaque Web

Nmero mximo de resultados visualizveis

2.7.2.2 Private Web

2.7.2.3 Proprietary Web

2.7.3 Web annima

3 O BOM USO DA CAMADA MAIS PROFUNDA DA WEB

Figura 6 - Tela do aplicativo MedNar. Fonte: DeepWebTechnologies .

http://www.deepwebtech.com/wp-content/uploads/2011/03/Explorit-Datasheet.pdf, acesso em julho de 2012.

Grupo de gestores de agncias do governo dos Estados Unidos.

Figura 7 - Portal science.gov. Fonte: Autor .

Imagem capturada pelo autor no endereo http://www.science.gov, acessado em julho de 2012.

Figura 8 - Portal WorldWideScience.org. Fonte: Autor .

Imagem capturada pelo autor no endereo http://worldwidescience.org, acessado em julho de 2012.

Figura 9 - Portal XSearch. Fonte: Autor .

Imagem capturada pelo autor no endereo https://xsearch.stanford.edu/search, acessado em julho de 2012.

Figura 10 - Tela do sistema da Intel. Fonte: Deepwebtech .

http://www.deepwebtech.com/customers/intel.html, acesso em julho de 2012. http://www.brightplanet.com

Figura 11 - Site HUMINT. Fonte: Autor .

Segundo Pederson (2010), CEO da BrightPlanet,

Imagem capturada pelo autor no endereo http://www.humints.com, acessado em julho de 2012.

Figura 12 - Portal CompletePlanet. Fonte: Autor .

Assim como este portal da BrightPlanet, h vrios outros, entre eles:

Imagem capturada pelo autor no endereo http://aip.completeplanet.com, acessado em julho de 2012.

DESMISTIFICANDO A WEB ANNIMA Finalmente, como mencionado anteriormente, existem pginas da

Figura 13 - Conectando rede Tor. Fonte: Autor .

Figura 14 - Hidden Wiki. Fonte: Autor .

Imagem capturada pelo autor.

Imagem capturada pelo autor no endereo http://kpvz7ki2v5agwt35.onion, acessado em julho de 2012.

<http://www.brightplanet.com/2012/06/the-deep-web-surfacing-hidden-value>. Acesso em fevereiro de 2012.

<http://www.espacoacademico.com.br/002/02col_mendes.htm> fevereiro de 2012.

<http://snbu.bvs.br/snbu2000/docs/pt/doc/t138.doc>. Acesso em fevereiro de 2012.

<http://ieeexplore.ieee.org>. Acesso em fevereiro de 2012.

<http://www.robertlackie.com/invisible/index.html>. Acesso em fevereiro de 2012.

web-a-first-trip-into-the-abyss.html>. Acesso em maro de 2012.

Data de aprovao: _ / _ / 2012.