Академический Документы
Профессиональный Документы
Культура Документы
txt
En la práctica lo
cierto es que no
es extraño
encontrarse
con Google
saltándose a la
torera el
contenido de
un archivo
robots.txt,
indexando
páginas y
archivos en él contenidos, de la misma forma que son ignoradas de
http://aukera.es/blog/comoconfigurararchivorobotstxt/ 1/24
2017530 Errores y soluciones al configurar el archivo robots.txt
http://aukera.es/blog/comoconfigurararchivorobotstxt/ 2/24
2017530 Errores y soluciones al configurar el archivo robots.txt
User‐agent: Bing
Disallow: /
User‐agent: Bing
Disallow: /documentos/
User‐agent: *
Disallow: /pagina1.html
Disallow: /pagina2.php
Disallow: /documentos/pagina3.html
http://aukera.es/blog/comoconfigurararchivorobotstxt/ 3/24
2017530 Errores y soluciones al configurar el archivo robots.txt
User‐agent: Googlebot
Allow:
User‐agent: *
Disallow: /servicios/
Pero como ya hemos dicho, en este caso el robot entenderá que la orden
afecta a toda esa carpeta o directorio. Pero no es eso lo que queremos!
Para decirle a los robots que sólo nos referimos a esa página concreta,
tendremos que utilizar el operador dólar (“$”) que sirve para especiퟌ�car
el ퟌ�nal de la URL. Así:
User‐agent: *
Disallow: /servicios/$
Aunque el ejemplo anterior nos sirve para explicar el uso del “$” en el
robots, la verdad es que para sacarle el mayor jugo ha de emplearse
junto al asterisco “*”. Este último funciona como un comodín, sirve
para decir “sustituyo a cualesquiera cosa que pueda ir en mi lugar”.
Mejor verlo con un ejemplo:
User‐agent: *
Disallow: /*.htm$
Ya hemos explicado que el dólar sirve para decirle que ahí termina la
URL, que no puede llevar nada más por detrás aquello que deseemos
aplicarle el “allow” o el “disallow”.
En el caso del asterisco le estamos diciendo que puede sustituirlo por
lo que quiera, siempre que vaya seguido de “.htm”. Es decir, puede
haber varios niveles de carpeta por medio (por ejemplo
“/carpeta/subcarpeta/pagina.htm” también sería excluído).
User‐agent: *
Disallow: /*?
http://aukera.es/blog/comoconfigurararchivorobotstxt/ 6/24
2017530 Errores y soluciones al configurar el archivo robots.txt
Así le decimos que no indexe todo lo que empiece por “lo que sea” pero
aukera@aukera.es +34 944 00 55 44 ES|EN
que luego tenga una interrogación, seguido de lo que sea. Seguro que
alguno se ha perdido en este último paso, que tendría la tentación de
haber puesto “Disallow: /*?*” para asegurarse de que después de la
interrogación va algo más, los parámetros. Pues no, resulta que este
tipo de expresiones regulares suponen por defecto que, tras lo que
le decimos, puede ir cualquier cosa. Por eso cuando decimos “Disallow:
/servicios/” el robot entiende que todo lo que vaya por detrás (ej:
/servicios/auditoria) tampoco lo indexará, porque responde al patrón
deퟌ�nido.
Pongamos que existe una página que no queremos indexar cuya URL es
exactamente ésta: “www.midominio.com/servicio”. Podríamos caer en el
que posiblemente sea el mayor error cometido con el uso del archivo
robots.txt a nivel mundial! :O
User‐agent: *
Disallow: /servicio
Algún listo dirá: Así no, eso sirve para capar la carpeta “servicio” entera.
Pues tampoco exactamente. En realidad, como ya hemos explicado
antes, el robot va a entender que detrás de eso puede ir cualquier
cosa, es decir, va a excluir páginas como:
/servicio
/servicios
/servicio-auditoria
/servicio-consultoria/
/servicio-consutoria/digital.html
/serviciosweb/seo/yandex.php
etc.
http://aukera.es/blog/comoconfigurararchivorobotstxt/ 7/24
2017530 Errores y soluciones al configurar el archivo robots.txt
User‐agent: *
Disallow: /servicio$
Así es. De hecho su combinación puede ser una forma de deퟌ�nir mejor
qué cosas se deben indexar y cuáles no para una determinada carpeta (o
para todo el sitio). Un ejemplo…
User‐agent: *
Allow: /servicios/$
Disallow: /servicios/
User‐agent: *
Disallow: /wp‐content/
Disallow: /wp‐includes/
Disallow: /trackback/
Disallow: /wp‐admin/
Disallow: /archives/
Disallow: /wp‐*
Disallow: /login/
User‐agent: Googlebot
Disallow: /
User‐agent: Googlebot‐News
Disallow:
User‐agent: Googlebot‐Image
Disallow: /fotos‐verano/
User‐agent: Googlebot
Disallow: /
User‐agent: Mediapartners‐Google
Disallow:
Te ayudamos
Artículos Relacionados:
http://aukera.es/blog/comoconfigurararchivorobotstxt/ 12/24
2017530 Errores y soluciones al configurar el archivo robots.txt
Autor Últimos Artículos
Eneko Vivanco
SEO + Conversión en Aukera
Un abrazo.
dominio.com/?=idiom=3…
aukera@aukera.es +34 944 00 55 44 ES|EN
solo quiero indexar el idioma 1 es posible con el disalow /*?
idiom=2… etc???
gracias
Como bien dices, tendrías que determinar uno por uno los
valores del parámetro que no deseas rastrear, es decir:
User-agent: *
Disallow: /idio=2
Disallow: /idio=3
Disallow: /idio=4
Etc, etc.
User-agent: *
Disallow: /idio=*
Allow: /idio=1
Disallow: DirectorioPadre/Directoriohijo/
Gracias.
Disallow: /servicios/*
http://aukera.es/blog/comoconfigurararchivorobotstxt/ 18/24
2017530 Errores y soluciones al configurar el archivo robots.txt
Gracias.
click para ver cuales eran los errores. Y lo que me mostraba era
aukera@aukera.es +34 944 00 55 44 ES|EN
este mensaje:
“Googlebot no ha podido obtener todos los recursos para esta
página. A continuación se muestra una lista de los recursos no
disponibles:
URL:
– pagead2.googlesyndication.com/pagead/js/adsbygoogle.js
– insights.hotjar.com/api/v1/client/sites/435301/visit-data?sv=5
aukera@aukera.es
Alexis on 25/04/2017 at 20:17 +34 944 00 55 44 ES|EN
19
Muchas gracias, Eneko Vivanco. La respuesta que me has dado
me ha dejado super tranquilo. Tenía una difusa idea de que no
era nada malo, ya que no se hablaba casi nada de ese
problema por la web ni por los foros. Vuelvo a agradecerte por
tu repuesta y decirte mil gracias por tu conocimiento. Un
saludo y un gran abrazo a la distancia. MUCHOS EXITOS!!!
http://mipagina.com/category/carros/
http://mipagina.com/tag/vehiculos/
+ Deja un comentario
BUSCAR
Buscar artículos...
SÍGUENOS
NEWSLETTER
http://aukera.es/blog/comoconfigurararchivorobotstxt/ 23/24
2017530 Errores y soluciones al configurar el archivo robots.txt
Nombre... Email...
Suscríbeme GRATIS
CATEGORÍAS
2016 © Aukera Marketing Online // Buenos Aires 13, 1º Izq - Bilbao (Bizkaia) // Teléfono:
944005544 // Email: aukera@aukera.es
http://aukera.es/blog/comoconfigurararchivorobotstxt/ 24/24