ANATOMA DE UN MOTOR DE BSQUEDA A GRAN ESCALA DE WEB HIPERTExTUAL
EL PERFECCIONAMIENTO DEL MOTOR DE BSQUEDA (1994-2000)
En este lapso de tiempo mejor notablemente, por el gran crecimiento de lo usuarios en la web. Los motores de bsqueda en el 94 Word wide web worm (wwww).solo tenan un ndice de 110000 pg. web con documento accesibles. A fines del 97(ya se indexaba 2mill. a 100mill.). Esta bsqueda consta en obtener mayor calidad y disminuir problemas al querer obtener informacin. GOOGLE: CRECIENDO CON LA WEB: Un buscador necesita una gran capacidad de almacenamiento (gigabyte) y una gran eficiencia al procesador de consulta (ciento de miles por sg.) para google (por la mejora de la tecnologa) no fue un problema, pues posee una gran estabilidad para cantidad de datos, velocidad y acceso eficiente. DISEANDO METAS: En los 90 existan errores frecuentemente en la bsqueda, ya que los documentos indexados fueron aumentndose. Por ello se desea mejorar la calidad de bsqueda siendo relevante mejorando el top ten (lo usual que la gente suele fijarse). Hubo un crecimiento en la web como el de su servidor (.com) de 1.5% en el 93 a ms del 60% en el 97. La bsqueda tambin nos orienta a la publicidad, google tiene una meta la cual es facilitar el desarrollo y comprensin; tambin es que toda la informacin que necesites ellos lo posean y que te la brinden muy rpidamente y el usuario pueda ser un investigador y realizar experimentos. CARACTERISTICAS DEL SISTEMA Page Rank: excelente para priorizar los resultados en la bsqueda basada en palabras clave. Su descripcin consta en una aplicacin (un algoritmo iterativo) la cual busca medir la importancia o calidad de esa pgina (mediante nmero de citas o referencias). Texto ancla: es el texto del enlace de la pgina que nos brind el motor de bsqueda. Estas presentan descripciones ms precisas de la pgina web, tambin nos brindan documentos no indexados (imgenes, programa y base de datos). Otra caracterstica es que nos guarda la informacin local de los resultados, guarda algunos detalles de la presentacin visual de la web (tamao de la letra) y almacena en un repositorio los (HTML) ANATOMA DEL SISTEMA DE GOOGLE La mayor parte de google esta implementado por C o C++ para una mayor eficiencia y e ejecutada obre linux o Solari. Esta anatoma contiene estructuras, los principales son: BIGFILES (archivos virtuales direccionados por 64bit, encargados de la reserva del espacio y liberacin del mismo de los descriptores de archivo); REPOSITORIO(contiene el HTML completo de todas las pg. c/u. es comprimida prefijados por el docID, longitud y URL usando librera zlib; DOCUMENTO INDEX (contiene la informacin, comprobacin de validez (checksum) y estado de cada documento); LEXICO tiene varias formas distintas, dividida en 2 una lista de palabras(concatenada pero separada por espacios) y una tabla hash de punteros; HIT LISTS(la palabra es almacenada segn sus caractersticas (mediante una cod. simple(terna de entero)) o cod. Huffman (ocupa menos espacio)); INDICE PRINCIPAL (almacena en cubetas (64) c/u almacena un rango de wordID; IND. INVERTIDO (la palabra trivial permite una rpida mezcla de diferentes consultas). Al buscar informacin en la red nos conlleva a interactuar con miles de servidores web, google posee una velocidad considerable y ha implementado varios rastreadores(c/u mantiene hasta 300conexiones abiertas), al indexar una web se tiene tener en cuenta que debe contener un vector enorme que maje todo lo posibles errores, se codificara en varias cubetas y convertida en wordID, la cual luego ser clasifica por ttulo e hit de ancla con el texto completo mediante dos cubetas, la bsqueda debe ser de calidad y eficiente, la aparicin de la pg. es mediante un FEEDBACK la cual le mide el parmetro de importancia de los tipos y los pesos de proximidad de los tipos. Google nos a demostrado que la calidad de su resultado es mejor que la mayora de los motores comerciales ya que posee una Pagerank alto, un aspecto eficiente en el almacenamiento; para google las funciones ms importante son el indexado, rastreo y clasificacin; para ello optimiza el indexador para que no colapse y pueda gestionar variaos cientos de peticiones por segundo. Google desea mejorar su capacidad de gestiona miento, proporcionar resultado de alta calidad incorporando tcnicas as como el de Pagerank, texto ancla e informacin de proximidad.
Inteligencia artificial: Lo que usted necesita saber sobre el aprendizaje automático, robótica, aprendizaje profundo, Internet de las cosas, redes neuronales, y nuestro futuro