Вы находитесь на странице: 1из 7

La Web superficial y la Web profunda. Los motores de bsqueda tradicionales (Google, Yahoo, etc.

) slo ofrecen acceso a una pequea parte de lo que existe online, lo que se ha comenzado a llamar la web superficial o visible. Lo que resta, la Web profunda, es un amplsimo banco de informacin ubicado en catlogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una bsqueda convencional. Qu es la Web visible? Comprende todos aquellos sitios cuya informacin puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de bsqueda. Las caractersticas principales de los sitios de la Web visible son:

su informacin no est contenida en bases de datos es de libre acceso no requiere la realizacin de un proceso de registro para acceder

Mayoritariamente est formada por pginas Web estticas, es decir pginas o archivos con una URL fija y accesibles desde otro enlace. Qu es la Web invisible? La Web invisible es el trmino utilizado para describir toda la informacin disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es informacin almacenada y accesible mediante bases de datos. Si bien el 90% de las bases de datos estn pblicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su pgina de entrada (homepage) y son incapaces de entrar dentro de las tablas e indizar cada registro, les falta la habilidad para interrogarlas, seleccionar sus opciones y teclear una consulta para extraer sus datos. La informacin almacenada es por consiguiente "invisible" a estos, ya que los resultados se generan en la contestacin a una pregunta directa mediante pginas dinmicas (ASP, PHP...) es decir pginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta. Por cada milln de pginas visibles hay otros 500 o 550 millones ocultas, contiene alrededor de unos 100.000 sitios y el 90% suele ofertar su informacin pblica y gratuitamente. La informacin pblica y gratuita del Web invisible es actualmente de 400 a 550 veces mayor que el Web visible. Caracterizacin de la Web invisible o profunda

Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web). La Web opaca: Se compone de archivos que podran estar incluidos en los ndices de los motores de bsqueda, pero no lo estn por alguna de estas razones: Extensin de la indizacin: por economa, no todas las pginas de un sitio son indizadas en los buscadores. Frecuencia de la indizacin: los motores de bsqueda no tienen la capacidad de indizar todas las pginas existentes; diariamente se aaden, modifican o desaparecen muchas y la indizacin no se realiza al mismo ritmo. Nmero mximo de resultados visibles: aunque los motores de bsqueda arrojan a veces un gran nmero de resultados de bsqueda, generalmente limitan el nmero de documentos que se muestran (entre 200 y 1000 documentos). URLs desconectadas: las generaciones ms recientes de buscadores, como Google, presentan los documentos por relevancia basada en el nmero de veces que aparecen referenciados o ligados en otros. Si un documento no tiene un link desde otro documento ser imposible que la pgina sea descubierta, pues no habr sido indizada.

No cabe duda de que los actuales buscadores y directorios de la web estn mejorando su funcionamiento. Ms all de los detalles tcnicos que el pblico no alcanza a ver, la eficiencia de estas maquinarias ha aumentado y esto se aprecia en los resultados de las bsquedas. A medida que estas herramientas se vayan haciendo ms poderosas disminuir la necesidad de la elaboracin manual de guas o concentradores de recursos y quizs ms la de orientacin en las estrategias de bsqueda y en el uso y aprovechamiento de los recursos localizados. Un observador cuidadoso puede apreciar que persiste la prctica de los robots de no indizar todas las pginas de un sitio, fijndose en los resultados de las bsquedas que arrojan las diferentes herramientas. Por ejemplo, se puede tener la referencia de una base de datos, disponible a travs de un sitio web, en una de las pginas del sitio que contiene un link a ella, y no aparecer, en cambio, la referencia a la pgina de acceso directo a la base de datos en ese sitio. La frecuencia de la indizacin puede haber aumentado en algunos buscadores, o incluso hacerse de forma diferenciada para algunos recursos. Aquellas pginas que, por su naturaleza, varan ms (por ejemplo, la informacin burstil) seran visitadas ms frecuentemente por los robots que aquellas que tienden a ser ms estables en su contenido. El nmero mximo de resultados visibles no es un problema cuando los buscadores presentan los resultados ordenados por relevancia, pues siempre aparecern primero aquellos que se ajustan ms a la bsqueda realizada. En la medida en que se pueda realizar una bsqueda avanzada y los criterios de relevancia combinen el nmero de ligas con la frecuencia de palabras, la presentacin de los resultados no constituir un obstculo para encontrar la informacin. El usuario siempre debe tener en cuenta que los buscadores son

ms apropiados cuando la bsqueda es especfica, es decir, se conocen datos sobre lo que se busca; mientras que es ms adecuado realizar bsquedas temticas en los directorios. Los URLs desconectados podran evitarse si existiera la obligacin de registrar, aunque fuera de forma muy sencilla, toda pgina que se colgara en la web. Pero dada la gran descentralizacin de Internet, esto no parece vislumbrarse en un futuro inmediato. La web privada: Consiste en las pginas web que podran estar indizadas en los motores de bsqueda pero son excluidas deliberadamente por alguna de estas causas: Las pginas estn protegidas por contraseas (passwords). Contienen un archivo robots.txt para evitar ser indizadas. Contienen un campo noindex para evitar que el buscador indice la parte correspondiente al cuerpo de la pgina. Este segmento de la web no representa una gran prdida en trminos de valor de la informacin que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad. En cualquier caso, son los dueos de la informacin los que deciden no hacerla disponible, por lo que difcilmente se podrn encontrar mecanismos legtimos para franquear esa barrera. Adems, los archivos robots.txt sirven para evitar que los robots caigan en agujeros negros, que les hagan entrar en procesos circulares interminables, mermando as la eficiencia en su funcionamiento La Web propietaria: Incluye aquellas pginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene informacin de acceso pblico y gratuito. En un artculo reciente de la OCLC Office for Research se examinan las tendencias en cuanto a tamao, crecimiento e internacionalizacin de la Web pblica, es decir, la porcin de informacin ms visible y accesible para el usuario promedio. Las principales conclusiones del estudio son: El crecimiento de la Web pblica muestra un estancamiento en los ltimos aos. Ello se debe a que se crean menos sitios Web y otros desaparecen, aunque esto no quiere decir que no aumente en volumen de informacin, es decir, en nmero de pginas o nmero de Terabytes. Otra posibilidad, que no se seala en este estudio, pero que puede aventurarse, es que algunos sitios web estn transformndose en sitios accesibles solamente mediante pago. La Web pblica est dominada por contenidos originados en los Estados Unidos, as como escritos en ingls. Esto nos lleva a pensar que es probable que haya ms recursos invisibles en pginas originadas en pases distintos a los Estados Unidos y en idioma diferente al ingls. La Web realmente invisible: Se compone de pginas que no pueden ser indizadas por limitaciones tcnicas de los buscadores, como las siguientes: Pginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

Pginas generadas dinmicamente, es decir, que se generan a partir de datos que introduce el usuario. Informacin almacenada en bases de datos relacionales, que no puede ser extrada a menos que se realice una peticin especfica. Otra dificultad consiste en la variable estructura y diseo de las bases de datos, as como en los diferentes procedimientos de bsqueda. Algunos buscadores tradicionales como Altavista o Google han evolucionado y presentan ahora la posibilidad de realizar bsquedas por materiales o formatos especiales, como imgenes, audio y vdeo son posibles porque se realiza una catalogacin textual de stos. Las bsquedas en materiales en formatos como PDF, Flash, etc. se pueden realizar porque existen directorios de estos archivos. As, el principal medio por el cual se pueden efectuar las bsquedas es el texto. Por ejemplo, si queremos recuperar imgenes en blanco y negro, stas deben estar clasificadas de ese modo en la base de datos. Esto implica, desde luego un proceso manual. Hoy por hoy, los mtodos bibliotecarios tradicionales resultan ser los ms eficaces en la bsqueda de informacin, al menos mientras la inteligencia artificial no avance ms. Realizar una bsqueda del tipo quiero fotografas de personas que se parezcan a Woody Allen slo es posible si hay un especialista que clasifique las imgenes para distinguir si se trata de dibujos o fotografas, si stas son de personas, y adems incluya la informacin acerca de los parecidos. Las maquinarias actualesde bsqueda son extraordinariamente eficaces para recuperar informacin textual, pero esto no excluye la necesidad de la catalogacin y clasificacin de los recursos. Por lo mismo, el nmero de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene que ser limitado. Una pgina web que contiene una imagen, sin mayor informacin textual acerca de su contenido, no podr ser recuperada automticamente ms que por su extensin (.jpg, por ejemplo). Recursos de bsqueda en la Web profunda por tipo de recurso Buscadores Scirus http://www.scirus.com/ WebSearch http://www.websearch.com.au/ Metabuscadores iBoogie http://www.iboogie.tv/ Fazzle http://www.fazzle.com/ Ixquick http://www.ixquick.com/ Search.Com

http://www.search.com/ Directorios de buscadores AlphaSearch http://www.alphasearch.org/ Directorios CompletePlanet http://www.completeplanet.com/ Direct Search http://www.freepint.com/gary/direct.htm HotSheet http://www.hotsheet.com/ IncyWincy http://www.incywincy.com/ InternetInvisible http://www.internetinvisible.com/ Librarians Index http://lii.org/ Master Link List On the Internet http://www.web-friend.com/links/masterlinks.html RefDesk.com http://refdesk.com/ Webfile.com http://webfile.com/ Where to Do Research http://www.wheretodoresearch.com/ Directorios anotados AcademicInfo http://www.academicinfo.net/ Resource Discovery Network http://www.rdn.ac.uk/ Directorios de bases de datos WebData.com

http://www.webdata.com/ Guas About http://www.about.com/ LibrarySpot http://www.libraryspot.com/ Motores avanzados Deep Query Manager (sustituye a Lexibot) http://brightplanet.com/news/dqm2.asp FeedPoint http://www.quigo.com/feedpoint.htm Search4science http://www.search4science.com/ Strategic Finder http://www.strategicfinder.com/ En conclusin, lo que realmente sigue siendo invisible en la web son: Pero: algunos buscadores recuperan archivos PDF y pginas con imgenes, aunque de forma limitada; es relativamente sencillo llegar hasta la puerta de las bases de datos con contenido importante; existen ya motores avanzados capaces de realizar bsquedas directas simultneas en varias bases de datos a la vez; y aunque la mayora requieren de pago, tambin ofrecen versiones gratuitas; el contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para anlisis histricos; es relativamente sencillo llegar hasta la puerta de los servicios que ofrecen informacin en tiempo real; las pginas desconectadas; las pginas no clasificadas que contienen principalmente imgenes, audio o vdeo; las pginas no clasificadas que contienen principalmente archivos PDF, PostScript, Flash, Shockwave, ejecutables y comprimidos; el contenido de las bases de datos relacionales; el contenido que se genera en tiempo real; el contenido que se genera dinmicamente.

el contenido que se genera dinmicamente interesa nicamente a ciertos usuarios con caractersticas especficas; es relativamente sencillo llegar hasta la puerta de los servicios que ofrecen contenido generado dinmicamente.

Вам также может понравиться