Вы находитесь на странице: 1из 24

2017­5­30 Errores y soluciones al configurar el archivo robots.

txt

aukera@aukera.es +34 944 00 55 44 ES|EN

Deja de conퟌ�gurar mal el


archivo robots.txt
Escrito por Eneko Vivanco el 29/05/2014. 22

Google recomienda e informa sobre el uso de herramientas como el


archivo robots.txt o el sitemap (por ejemplo en formato xml) para hacer
un mejor rastreo de la información que compone nuestros sitios web.
Esto teóricamente les facilita bastante la vida porque “guía” a sus arañas
o robots rastreadores hasta el contenido relevante en un tiempo más
reducido que si únicamente siguiesen enlaces o si tuviesen que
determinar de manera autónoma qué contenido no debe ser indexado.
Hasta aquí todo bien.

En la práctica lo
cierto es que no
es extraño
encontrarse
con Google
saltándose a la
torera el
contenido de
un archivo
robots.txt,
indexando
páginas y
archivos en él contenidos, de la misma forma que son ignoradas de 
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 1/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

forma casi aleatoria las metaetiquetas robots que incluimos


aukera@aukera.es en el00
+34 944 código
55 44 ES|EN
de nuestras páginas. No siempre, pero más a menudo de lo que debería
(que debería ser “nunca”). Dicho esto, habrá que conformarse con las
herramientas que tenemos y aprender a manejarlas mejor.

Y es que en ocasiones se conퟌ�gura incorrectamente el archivo robots


porque damos por supuestas algunas cosas, esperamos que con este
artículo se aclaren ciertos conceptos importantes que a menudo afectan
al tratamiento que Google hace de nuestros sitios. Empezaremos por lo
más sencillo…

Conퟌ�guración básica de robots.txt

El famoso “robots” es un archivo en formato .TXT que podemos crear y


editar con un simple bloc de notas o editor de texto básico (wordpad,
notepad). Una vez creado habrá que darle ese nombre concreto
(robots.txt) y colgarlo en el directorio raíz de nuestro sitio web, ya que es
el único sitio donde lo podrán encontrar sin problemas los buscadores.
La conퟌ�guración básica del archivos robots es bastante sencilla,
incluye únicamente dos parámetros: el robot al que nos dirigimos, y una
instrucción dándole o quitándole permiso para indexar algo (un archivo,
una carpeta, todo, nada).

En otras palabras, se trata de decirle a cada Bot (una especie de


rastreadores – arañas – que Google tiene pululando por los millones
de páginas web que existen para estar al día de su contenido y
poder mostrarlo correctamente en los resultados de búsqueda) a
qué información expresamente puede (o NO puede) acceder para
leer e indexar dicha información. Ni que decir tiene que, por defecto,
si no se le dice nada Google devorará toda la información a su paso y
la incluirá en su mastodóntico índice de contenidos web.

Un ejemplo sencillo y básico del contenido de un archivo robots.txt


sería el siguiente:


http://aukera.es/blog/como­configurar­archivo­robots­txt/ 2/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

aukera@aukera.es +34 944 00 55 44 ES|EN


User‐agent: * 
Disallow: /

Como puede apreciarse, primero se deퟌ�ne el “user-agent” o Bot al que va


dirigida la orden (bien el de Google web search, o Google Images, o
Bing…) y después qué páginas han de ser ignoradas (con el comando
Disallow) o explícitamente indexadas (Allow). En este caso se dice que
para todos los robots (con un asterisco) deberán ignorarse -no
indexarse- todas las páginas (con la barra “del siete”, así sin nada más
detrás, le hacemos ver que es una orden para todo el directorio raíz).

User‐agent: Bing 
Disallow: /

Con este ejemplo le estaremos diciendo al robot de Bing que no


rastree nada de nuestro sitio. Por omisión, el resto de robots incluido el
de Google podrán rastrear e indexar todo el contenido de nuestro sitio.

User‐agent: Bing 
Disallow: /documentos/

Un pasito más: le hemos dicho a Bing que no indexe la carpeta


“documentos”. En este caso Google indexará por omisión todo el
contenido del sitio, mientras que Bing indexará todo excepto el
contenido de la carpeta “documentos”. De esta forma queda claro que,
para deퟌ�nir una carpeta en el robots, hay que colocar (tras la barra
inicial que irá siempre) su nombre más una barra adicional al ퟌ�nal.

User‐agent: * 
Disallow: /pagina1.html 
Disallow: /pagina2.php 
Disallow: /documentos/pagina3.html


http://aukera.es/blog/como­configurar­archivo­robots­txt/ 3/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

Con este robots.txt estamos diciéndole a todos los robots que no


aukera@aukera.es +34 944 00 55 44 ES|EN
indexen 3 páginas en concreto: “pagina1.html”, “pagina2.php” y
“pagina3.html” que se encuentra en la carpeta documentos.

User‐agent: Googlebot 
Allow:

Hemos introducido el comando “Allow” cuya función es la inversa al


“Disallow” pero hemos quitado la barra “/” posterior, así que le estamos
diciendo que SÍ puede indexar NADA. A primera vista parece que esto
debería funcionar exactamente igual que un “Disallow: /” impidiendo la
indexación del sitio web al completo, pero en realidad no es así.

Estamos ante uno de los errores más susceptibles de ser cometidos a


la hora de conퟌ�gurar el archivo robots, porque hay que tener en cuenta
ciertas consideraciones importantes en relación al comando “Allow”
que es bastante puñetero:

Sólo tiene sentido cuando se acompaña de un “Disallow”: se


trata de una orden no restrictiva, así que cuando va “solo” no es
aplicable. Es decir, por defecto Google puede indexar todo, así que
si únicamente se le dice qué SÍ puede indexar, le dará igual,
seguirá indexando todo. Incluso en el caso del ejemplo anterior,
donde se le dice que SÍ puede indexar NADA, pasará de la orden y
seguirá indexando todo. Cuidado con esto.
En la teoría las reglas se aplican en orden, a partir de la primera,
con lo cual los “Allow”, al ser excepciones a los “Disallow”,
deberían ir primero. Si bien en la práctica los principales
buscadores lo interpretarán bien aunque no lo hagas así.
El comando “Allow” no es parte oퟌ�cial del estándar, si bien
Google y el resto de “los grandes” lo soportan perfectamente, para
ciertos robots puede llegar a ser incluso problemático.

Dudas frecuentes con el archivo robots:


conퟌ�guraciones avanzadas

http://aukera.es/blog/como­configurar­archivo­robots­txt/ 4/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

Hasta aquí parece sencillo pero con el trastear continuo +34


aukera@aukera.es en el944
tiempo
00 55te44 ES|EN
van haciendo falta nuevas conퟌ�guraciones y comienzan a surgir las
dudas, ¿qué se puede hacer con el archivo robots?. Ahí van algunas
dudas que me ha tocado experimentar, bien en primera persona o a
través de preguntas frecuentes con las que me he encontrado de
compañeros del marketing online:

¿Qué pasa cuando la URL de la página termina con una


barra “/”?

A menudo sucede, especialmente en sitios web montados sobre


plataformas como WordPress, que puede haber una página en nuestro
sitio con esta estructura en su URL: “midominio.com/servicios/“. En
este caso dicha URL es una página donde se muestran los servicios de
una empresa, si bien es posible que por debajo de ella existan páginas
del tipo “midominio.com/servicios/nombre-servicio1” o similar. Pero ¿cómo
le decimos al robots que excluya únicamente la página superior, sin
que por ello “cape” todas las que están por debajo? La tentación sería:

User‐agent: * 
Disallow: /servicios/

Pero como ya hemos dicho, en este caso el robot entenderá que la orden
afecta a toda esa carpeta o directorio. Pero no es eso lo que queremos!
Para decirle a los robots que sólo nos referimos a esa página concreta,
tendremos que utilizar el operador dólar (“$”) que sirve para especiퟌ�car
el ퟌ�nal de la URL. Así:

User‐agent: * 
Disallow: /servicios/$

De esta forma le decimos al robot que no indexe las URLs que


terminen exactamente de esa forma, siendo la única URL de ese tipo
la que queremos desindexar precisamente. Y esto nos lleva al uso de
expresiones regulares en robots.txt…

Usos de operadores en robots.txt (dólar y asterisco)
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 5/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

Usos de operadores en robots.txt (dólar y +34


aukera@aukera.es asterisco)
944 00 55 44 ES|EN

Aunque el ejemplo anterior nos sirve para explicar el uso del “$” en el
robots, la verdad es que para sacarle el mayor jugo ha de emplearse
junto al asterisco “*”. Este último funciona como un comodín, sirve
para decir “sustituyo a cualesquiera cosa que pueda ir en mi lugar”.
Mejor verlo con un ejemplo:

User‐agent: * 
Disallow: /*.htm$

Ya hemos explicado que el dólar sirve para decirle que ahí termina la
URL, que no puede llevar nada más por detrás aquello que deseemos
aplicarle el “allow” o el “disallow”.
En el caso del asterisco le estamos diciendo que puede sustituirlo por
lo que quiera, siempre que vaya seguido de “.htm”. Es decir, puede
haber varios niveles de carpeta por medio (por ejemplo
“/carpeta/subcarpeta/pagina.htm” también sería excluído).

De esta forma en el ejemplo le estamos diciendo a todos los robots que


no indexen ningún archivo .HTM si bien les permitimos, a través del
dólar, que indexen por ejemplo todos los archivos con extensión .HTML.
Esto nos lleva a otra cuestión recurrente…

¿Cómo evitar la indexación de URLs con parámetros?

A menudo nuestro CMS nos genera rutas con parámetros como


“midominio.com/index.php?user=1” que deseamos no sean indexadas al
poder incurrir en duplicidad de contenidos. Siguiendo el patrón anterior
y sabiendo que los parámetros vienen precedidos de una interrogación,
habría que aplicar algo como esto:

User‐agent: * 
Disallow: /*?


http://aukera.es/blog/como­configurar­archivo­robots­txt/ 6/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

Así le decimos que no indexe todo lo que empiece por “lo que sea” pero
aukera@aukera.es +34 944 00 55 44 ES|EN
que luego tenga una interrogación, seguido de lo que sea. Seguro que
alguno se ha perdido en este último paso, que tendría la tentación de
haber puesto “Disallow: /*?*” para asegurarse de que después de la
interrogación va algo más, los parámetros. Pues no, resulta que este
tipo de expresiones regulares suponen por defecto que, tras lo que
le decimos, puede ir cualquier cosa. Por eso cuando decimos “Disallow:
/servicios/” el robot entiende que todo lo que vaya por detrás (ej:
/servicios/auditoria) tampoco lo indexará, porque responde al patrón
deퟌ�nido.

Pero cuidado porque esto es muy peligroso!! Un ejemplo lo tenemos a


continuación:

¿Qué pasa cuando la URL de la página no tiene


extensión (ej: no acaba en “.html”)?

Pongamos que existe una página que no queremos indexar cuya URL es
exactamente ésta: “www.midominio.com/servicio”. Podríamos caer en el
que posiblemente sea el mayor error cometido con el uso del archivo
robots.txt a nivel mundial! :O

User‐agent: * 
Disallow: /servicio

Algún listo dirá: Así no, eso sirve para capar la carpeta “servicio” entera.
Pues tampoco exactamente. En realidad, como ya hemos explicado
antes, el robot va a entender que detrás de eso puede ir cualquier
cosa, es decir, va a excluir páginas como:

/servicio
/servicios
/servicio-auditoria
/servicio-consultoria/
/servicio-consutoria/digital.html
/serviciosweb/seo/yandex.php
etc. 
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 7/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

Entonces, ¿cómo excluyo esa página que no tiene extensión?


aukera@aukera.es Así:55 44
+34 944 00 ES|EN

User‐agent: * 
Disallow: /servicio$

De esta forma delimitamos dónde termina la URL, evitando este super-


problema que generalmente se pasa por alto al formular los archivos
robots.

¿Hay que poner una barra “/” después del nombre de


la carpeta? ¿Qué pasa si no la pongo?

Esto ha quedado explicado con el punto anterior: si no se pone barra, el


robots estará excluyendo todo lo que empiece de esa manera,
corresponda concretamente o no a dicho subdirectorio.

¿Pueden incluirse comandos Disallow y Allow en el


mismo robots?

Así es. De hecho su combinación puede ser una forma de deퟌ�nir mejor
qué cosas se deben indexar y cuáles no para una determinada carpeta (o
para todo el sitio). Un ejemplo…

User‐agent: * 
Allow: /servicios/$ 
Disallow: /servicios/

De esta forma le estaríamos diciendo que SÍ indexe la página general de


servicios (“midominio.com/servicios/”) pero NO indexe las páginas
sucesivas con los servicios concretos
(“midominio.com/servicios/auditoria”+”midominio.com/servicios/consult
oria”+etc.).
Lo ideal es usar primero el “Allow” que no es restrictivo (por defecto
se entiende como permitido indexar todo), para posteriormente incluir el
“Disallow”. De esta forma se facilita el trabajo a los robots más “torpes”.

¿Cómo se tratan las mayúsculas y minúsculas?
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 8/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

¿Cómo se tratan las mayúsculas y minúsculas?


aukera@aukera.es +34 944 00 55 44 ES|EN

Hay que tener en cuenta que se distingue entre mayúsculas y


minúsculas, en este caso no sirve usar siempre minúsculas. Es decir, un
 comando tipo “Disallow: /pagina.html” sí permitiría que se indexase la
página “midominio.com/Pagina.html“.

¿Cómo conퟌ�gurar robots.txt para WordPress?

A pesar de que WordPress es una plataforma muy extendida y Google


cada vez entiende mejor qué tiene que indexar y qué no, en la práctica
siempre se cuelan cosas que “empañan” la calidad de la información
indexada de nuestro sitio. Dado que la estructura de WordPress es
común a todas las instalaciones, puede deퟌ�nirse un robots tipo para
WordPress con las carpetas donde el buscador no debería meter las
narices. Téngase en cuenta que esto son unos mínimos, a nada que
tiremos de plantillas, plugins y personalizaciones, habrá otras nuevas
carpetas que tendremos que “capar”:

User‐agent: * 
Disallow: /wp‐content/  
Disallow: /wp‐includes/  
Disallow: /trackback/  
Disallow: /wp‐admin/  
Disallow: /archives/  
Disallow: /wp‐*  
Disallow: /login/

Así se excluye la posible indexación de carpetas de sistema y archivos


con extensiones que no interesa indexar. Manéjese con cuidado. De
hecho lo MUY recomendable es que cada uno personalice su archivo
robots.txt en función del contenido y conퟌ�guración de su sitio web, ya
sea bajo un CMS de código abierto como WordPress o cualquier otra
plataforma.

Otras consideraciones: meta robots y sitemap



http://aukera.es/blog/como­configurar­archivo­robots­txt/ 9/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

Recordar que además del robots.txt es posible especiퟌ�car la


aukera@aukera.es +34 944 00 55 44 ES|EN
conveniencia o no de indexar una página a través de la meta-etiqueta
“robots” que puede ser incluida a nivel individual para cada una de las
páginas del sitio. Simplemente se trataría de incluir algo similar a esto en
el <head> para cada caso:

<meta name=”robots” content=”noindex”>

Como por defecto todo es indexable, la etiqueta tiene más sentido


cuando usamos el comando “noindex”, a pesar de que también se
puede especiퟌ�car “index”.

En cuanto al sitemap, dos consideraciones:

Es posible incluir en el archivo robots.txt la ruta donde se


encuentra el/los sitemap(s) del sitio, sería cuestión de añadir una
línea tal que así: “Sitemap: http://www.midominio.com/sitemap.xml”
(o donde quiera que se encuentre tu sitemap).
Incluir un sitemap para nuestro sitio no es restrictivo, es decir,
Google va a indexar todo lo que pueda, independientemente de
que esté en tu sitemap o no. Con él únicamente le ayudamos a
descubrir las páginas, los medios para que no las indexe son los
anteriormente expuestos.

Los bots de Google

Como ya se ha dejado entrever antes, existen diferentes Bots / Robots /


Crawlers / Arañas que se pasan las horas muertas dando vueltas por la
red de redes tragando información como locos. Por ser prácticos y dado
que Google se lleva como un 97% de las búsquedas estatales, vamos a
detallar los diferentes bots de Google y para qué sirven:

Googlebot: Es el bot “general” de Google, así que servirá para


restringir todos los demás. Es decir, si nos limitamos a restringir a
Googlebot estaremos restringiendo a Googlebot-News, Googlebot-
Image, Googlebot-Video y Googlebot-Mobile. 
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 10/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

Googlebot-News: Ayuda a restringir el acceso a las páginas o


aukera@aukera.es +34 944 00 55 44 ES|EN
posts para su indexación en Google News. A colación de lo
anterior, restringir a Googlebot supone no aparecer ni en la
búsqueda de Google ni en Google News. Si sólo queremos
aparecer en Google News habría que deퟌ�nir algo tal que así:

User‐agent: Googlebot 
Disallow: / 
User‐agent: Googlebot‐News 
Disallow:

Googlebot-Image: Servirá para acotar el acceso a carpetas donde


se contengan imágenes que no deseamos sean indexadas.
Ejemplo:

User‐agent: Googlebot‐Image 
Disallow: /fotos‐verano/

Googlebot-Video: Lo mismo que lo anterior pero aplicado a la


restricción para indexar vídeos.
Googlebot-Mobile: Aunque hay bastante controversia y
misticismo, se supone que gestiona el contenido indexable para
mostrar en búsquedas desde dispositivos móviles. Se supone.
Mediapartners-Google: Especiퟌ�ca las páginas que deben ser
tenidas en cuenta por parte de Google a la hora de mostrar
publicidad de su red, pero sin afectar a su indexabilidad. Por
ejemplo con este robots.txt se podrían mostrar anuncios de
Adsense en nuestro sitio web, a pesar de que éste no estaría
indexado por Google:

User‐agent: Googlebot 
Disallow: / 
User‐agent: Mediapartners‐Google 
Disallow:

Adsbot-Google: Gestiona el acceso para el robot de Adwords


encargado de valorar la calidad de la página de destino.

http://aukera.es/blog/como­configurar­archivo­robots­txt/ 11/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

  aukera@aukera.es +34 944 00 55 44 ES|EN

Tan importante como conseguir un alto ritmo de indexación, con los


robots de Google visitando recurrentemente nuestros sitios más
actualizados, será intentar que no se indexe información privada o
contenido que pueda considerarse duplicado, entre otros casos. Así
que habrá que preocuparse en conퟌ�gurar el archivo robots.txt, las
“meta robots” si fuera necesario, comunicarse con Google a través
de Webmaster Tools, y todo lo que está en nuestras manos. A partir
de ahí toca rezar! XD

Sabemos cómo llevar tráퟌ�co


de calidad a tu negocio online
¿Necesitas mejorar la visibilidad de tu
empresa en Google? Aukera es tu empresa,
¡hablemos!

Te ayudamos

CATEGORÍAS POSICIONAMIENTO WEB / SEO

ETIQUETAS GOOGLE OPTIMIZACIÓN WEB

Artículos Relacionados:

1. Aliños y recetas de la Ensalada SEO


2. Tipologías de búsqueda… y no son las 3 que estás pensando
3. 20 mitos sobre SEO que debes dejar atrás
4. SEO SaaS: el panorama de las herramientas SEO en la nube


http://aukera.es/blog/como­configurar­archivo­robots­txt/ 12/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

aukera@aukera.es +34 944 00 55 44 ES|EN

Autor   Últimos Artículos

Eneko Vivanco
SEO + Conversión en Aukera

Dirección de proyectos de marketing online desde el prisma del


SEO y la conversión.
Máster en Dirección de Marketing.
Ingeniero Superior en Organización Industrial.
Twitter · Google Plus · LinkedIn

22 comentarios AÑADE EL TUYO

Francesc Dalmàs on 03/08/2016 at 15:25


1
Buenas tardes,
he leído vuestro artículo y hay alguna aퟌ�rmación con la que no
estoy deacuerdo:

1. En el post aퟌ�rmais que: “Con este ejemplo le estaremos


diciendo al robot de Bing que no indexe nada de nuestro sitio.
Por omisión, el resto de robots incluido el de Google podrán
rastrear e indexar todo el contenido de nuestro sitio.” En
realidad el archivo robots.txt tiene como ퟌ�nalidad que un bot
NO RASTREE una página. Como resultado esa página podria
NO INDEXARSE. I digo “podria” porque es probable que la
página se indexe igual. Si lo que pretendemos es no indexar
una página se debe hacer con otros metodos. Parece algo muy
sutil, pero hay mucha confusión con esto. En resumen el
archivo robots.txt NO SIRVE para decirle al un bot que no
“indexe”, sirve para decirle que no “rastree”.

2. En segundo lugar, en el ejemplo de robots.txt para


WordPress incluis el acceso a archivos js y css. Des del punto de
vista SEO eso no es lo más correcto y puede afectar tu
posicionamiento en buscadores. 
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 13/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

3. En tercer lugar, qué interes existe en bloquear el acceso a


aukera@aukera.es +34 944 00 55 44 ES|EN
carpetas /tag/ o /category/. ? Indexadas en Google pueden ser
una fuente de tráퟌ�co muy respetable. Como mínimo esta
sugerencia es dudosa desde mi punto de vista.

Será un placer conocer vuestra opinion en caso de que no


esteis de acuerdo conmigo.

Eneko Vivanco on 04/08/2016 at 17:20


2
Hola Francesc,

Pues debo decir que tu comentario es muy interesante y lo


cierto es que estoy bastante de acuerdo con todo lo que
comentas…

1. Correcto. El archivo robots dice qué páginas no deben


rastrearse y en la actualidad lo usamos sobre todo para evitar
que los rastreadores pierdan el tiempo y malgasten el crawl
budget en páginas irrelevantes o thin content que no podemos
eliminar. He editado esa línea, cambiando “indexe” por
“rastree”. Últimamente Google se está portando bastante bien,
supongo que por las toneladas de thin content que maneja, y
generalmente una página no indexada anteriormente no se
indexa si está recogida en las reglas del robots.txt (ya sabemos
que puede mostrar el título en las SERP pero hoy día es muy
complicado que siquiera llegue a mostrar esos snippets entre
sus resultados de búsqueda).

2. Correcto también. Si te soy sincero siempre he sido


partidario (hoy más que nunca) de personalizar muy mucho el
robots.txt, sin embargo aquel ejemplo supongo que lo plagié
con las prisas (lo conퟌ�eso, disculpas) de algún sitio. Mea culpa
por no darle un repasito. Lo edito, quito varias líneas (que
afectaban al rastreo de recursos, que hoy Google está muy
pesado con eso por cierto) y después añado también un
consejo (que cada uno se personalice su robots).

3. El tema de “tags” y “categories” también lo he quitado del


ejemplo de robots.txt para WP. Nuevamente disculparme por
plagiar sin contrastar. De todas formas pueden existir 
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 14/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

ocasiones en que interese excluir el rastreo de estas páginas,


aukera@aukera.es +34 944 00 55 44 ES|EN
es raro pero lo hemos visto alguna vez, típico sitio que a
alguien se le escapa de las manos y de repente hay que
“orientar” al rastreador hacia ciertos tipos de páginas para
priorizar el rastreo de éstas, sacriퟌ�cando otras que
puntualmente no tienen por qué ser clave. Como digo es raro.

Muchas gracias Francesc por tus acertados comentarios, nos


ayudas a mejorar!

Un abrazo.

Francesc Dalmàs on 05/08/2016 at 13:54


3
Buenas tardes Eneko,
gracias por tu respuesta. La verdad es que vuestro blog es de lo
mejor que encuentras. Si tuviera que ser absolutamente
perfecto ya seria pedir demasiado.
Un saludo desde Berlin

jesus on 18/08/2016 at 19:14


4
buen post ;). una pregunta si mi url es dominio.com/?idio=1 y
tengo 10 así, dominio.com/?idio=2, dominio.com/?idio=3…. y
solo quiero indexar la de idio=1, es posible? si uso esto en el
robots.txt
User-agent: *
Disallow: /*?
no me cogerá ninguno no? habria que añadir detras el ? lo
siguiente:
User-agent: *
Disallow: /*?idio=2
User-agent: *
Disallow: /*?idio=3….etc etc
gracias

jesus on 21/08/2016 at 17:53


5
Buenas, buen post, quería saber como poder no indexar una
pagina donde tengo
dominio.com/?=idiom=1 dominio.com/?=idiom=2.. 
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 15/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

dominio.com/?=idiom=3…
aukera@aukera.es +34 944 00 55 44 ES|EN
solo quiero indexar el idioma 1 es posible con el disalow /*?
idiom=2… etc???
gracias

Eneko Vivanco on 30/08/2016 at 08:26


6
Hola Jesús,

Efectivamente la primera opción que planteabas derivaría en el


no rastreo de ninguno de los idiomas dado que se “capa” el
rastreo de todo lo que contenga parámetros (el signo de
interrogación).

Como bien dices, tendrías que determinar uno por uno los
valores del parámetro que no deseas rastrear, es decir:

User-agent: *
Disallow: /idio=2
Disallow: /idio=3
Disallow: /idio=4
Etc, etc.

En casos donde se quiere conservar un único valor (idio=1) y


“capar” el resto, te será más práctico establecer una restricción
negativa con excepción (idio=1), de esta forma:

User-agent: *
Disallow: /idio=*
Allow: /idio=1

El “allow” puede ponerse antes o después del “disallow”, en


este caso lo he puesto a continuación para que se vea mejor y
se entienda más fácilmente lo que hacemos: Capar los idiomas
y marcar la excepción del idioma 1.

Finalmente recordar, como apuntaba Francesc, que el archivo


robots.txt sirve para evitar el rastreo pero es posible que
Google ya haya accedido anteriormente y conserve una versión
del contenido en su caché. Por tanto se dan casos en que 
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 16/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

Google muestra el URL (generalmente sin snippet) en sus


aukera@aukera.es +34 944 00 55 44 ES|EN
resultados de búsqueda. Es decir, no sirve para desindexar
dichas páginas cuando ya están indexadas (si bien a la larga y
tras no poder rastrearlas en mucho tiempo es posible que
Google las elimine).

Cuando queráis forzar la desindexación de una página o que


ésta sea lo más conퟌ�dencial posible, procurad utilizar la meta-
etiqueta robots en el de cada una de esas páginas.

Os dejo un par de enlaces,


Más info sobre metaetiqueta robots:
https://developers.google.com/webmasters/control-crawl-
index/docs/robots_meta_tag
El completo archivo robots.txt de Google.com:
https://www.google.com/robots.txt

Flavio Salazar on 06/12/2016 at 23:48


7
Hola Eneko, gracias por compartir la información, solo me
quedo una pequña duda, si bloqueo un subdirectorio, solo
afecto al subdirectorio o bien, también al directorio padre?, es
decir:

Disallow: DirectorioPadre/Directoriohijo/

con eso solo el SubdirectorioHijo es afectado?

Eneko Vivanco on 07/12/2016 at 08:59


8
Hola Flavio,
Efectivamente sólo afectaría al subdirectorio hijo.
De hecho la orden quiere decir que se evite el rastreo de todo
URL que comience exactamente por
“dominio.com/directoriopadre/subdirectoriohijo/”.
Un saludo!

Félix on 07/02/2017 at 12:31


9
Gracias por el artículo: es el más completo que he encontrado
en español. 
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 17/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

Sin embargo, tengo una duda sobre comandos. ¿Es posible


aukera@aukera.es +34 944 00 55 44 ES|EN
decirle a los robots que queremos desindexar no un directorio,
sino los subdirectorios que parten de él? Llevado al artículo:
quiero indexar /servicios/ pero que no se indexen
/servicios/producto1/ servicios/producto2/…

Gracias.

Eneko Vivanco on 07/02/2017 at 12:53


10
Hola Félix!

Claro, muy sencillo, esto te serviría:


/servicios/producto*

Y también, si el patrón fuese siempre exactamente el que


propones, otras opciones también servirían, como:
/servicios/prod
/servicios/producto
/servicios/producto*/

La orden es no rastrear lo que empiece por ese conjunto de


caracteres. De esta manera, todo lo que tenga una raíz igual no
se podrá rastrear. Cuanto más largo ese conjunto de
caracteres, más restrictivo.

El problema de usar algo muy “abierto” (como “/servicios/prod”)


es que estarías capando todas las páginas que empiecen por
eso, siendo posible que incluyas alguna que esté fuera del
patrón que deseabas capar (por ejemplo:
“/servicios/produccion-multimedia”).

Espero haberme explicado, un saludo!

Félix on 27/02/2017 at 11:01


11
Soy yo de nuevo, Eneko. Entonces, y para que lo entienda, si yo
pongo en robots.txt esta orden:

Disallow: /servicios/*

http://aukera.es/blog/como­configurar­archivo­robots­txt/ 18/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

Entonces servicios sí se indexa pero todas las páginas que


aukera@aukera.es +34 944 00 55 44 ES|EN
cuelguen de servicios, al margen de cómo se llamen, no se
indexarán.

Gracias.

Eneko Vivanco on 06/03/2017 at 09:18


12
El disallow a “/servicios/*” equivale a disallow “/servicios/” y en
ambos casos capa el rastreo de páginas que empiecen por esos
caracteres exactos.
Es decir, si tu página de servicios es “dominio.com/servicios/”
no la rastreará, pero si es “dominio.com/servicio” podría
rastrearla (al no encontrar la barra ퟌ�nal en el url).
En tu caso, para evitar que se rastreen las páginas que cuelgan
de servicios pero que la propia página de servicios sí sea
rastreable, podías hacer disallow a “dominio.com/servicios/*/”
así sólo se caparían las rutas que tengan un nivel de carpeta
adicional al ퟌ�nal del url.

Luis on 12/04/2017 at 02:51


13
Buenas realmente muy interesante tu articulo, tengo un
problema lo que pasa es que tengo el mismo contenido tanto
en Category y en Tag, por ejemplo
mipagina.com/category/gato/ y mipagina.com/tag/gato/ quiero
indexar solo las Category pero no las Tag para evitar el
contenido duplicado, según lo que leí el robot.txt evita el
rastreo si es que todavía no estaba indexado pero el problema
es que como no sabia nada de esto hasta hoy, ya Google me
indexo ambas pagina y en el Google Search Console me
aparece como contenido duplicado, entonces me gustaría
saber como desindexar del buscador de Google y de los demás
buscadores las Tag? Saludos y gracias de antemano…

Eneko Vivanco on 17/04/2017 at 18:21


14
Hola Luis,
Supongo que hablas de un WordPress. En tal caso lo primero
que te recomiendo es, si no lo has hecho ya, instalar y utilizar el
plugin Yoast SEO. Una vez lo tienes, sólo hay que ir a 
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 19/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

“SEO/Títulos y metas/Taxonomías/Etiquetas/Meta robots” y


aukera@aukera.es +34 944 00 55 44 ES|EN
activar la opción noIndex.
Pero bueno, en tu caso lo más lógico creo que sería eliminar las
Tags que has creado por error!
Un saludo.

Luis on 17/04/2017 at 23:23


15
Efectivamente es un wordpress y ya tengo instalado el plugin
Yoast SEO y ya había desindexado las Tags como hace 2
semanas pero revisando en el buscador aun me sigue
apareciendo, entonces no se cuanto tiempo demore en
desindexarse y por eso que no se si es recomendable colocar el
disallow: /tags/ en el robots.txt

Otra pregunta yo antes tenia URLs con index.php pero ya


fueron redirigidas a otra URLs sin el index.php, quiero saber si
Google y demás buscadores las dexindesa con el tiempo?

Muchas gracias, saludos

Eneko Vivanco on 18/04/2017 at 10:25


16
Mira en código que esté el “noindex” y, efectivamente, será
cuestión de tiempo que lo desindexe Google. No pongas nada
en el robots, de lo contrario el spider no podrá rastrear la
página y no se encontrará el “noindex”… terminaría
desindexando pero el proceso sería aún más largo.
Resumiendo para ambas cuestiones: Si las redirecciones o los
“noindex” están correctamente implementados, no tienes por
qué preocuparte. Google sabrá cómo gestionarlo y, con el
tiempo, se encargará de desindexarlo.

Alexis on 22/04/2017 at 16:08


17
Hola muy buenos días. Que suerte haber encontrado esta
página. Llevo como una semana sin poder resolver este
problema que se me ha presentado. Bueno, te comento. Lo
que pasa es que uno de esos días que intente indexar mi
entrada a través de la herramienta de SEARCH CONSOLE, me di
con la sorpresa de que ya no me salía COMPLETO como solía
pasar sino COMPLETADA PARCIALMENTE. Yo preocupado le di 
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 20/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

click para ver cuales eran los errores. Y lo que me mostraba era
aukera@aukera.es +34 944 00 55 44 ES|EN
este mensaje:
“Googlebot no ha podido obtener todos los recursos para esta
página. A continuación se muestra una lista de los recursos no
disponibles:
URL:
– pagead2.googlesyndication.com/pagead/js/adsbygoogle.js
– insights.hotjar.com/api/v1/client/sites/435301/visit-data?sv=5

Lo primero que vino a mi mente es averiguar la identidad de


esas URLs. Y me di con la sorpresa de que la primera URL tiene
relación directa con los anuncios de google, bueno y la segunda
con un servicio que implemente hace unas semanas para
obtener mapas de calor (HOTJAR). Para probar si efectivamente
el robots.txt bloqueaba la URL relacionada a los anuncios de
google, decidí quitar los anuncios y también lo de HOTJAR y
volví a indexar por SEARCH CONSOLE el post. Y lo que paso es
que se indexo correctamente.
Bueno, e buscado información para solucionar ese problema
pero no he encontrado una solución. Incluso en los mismos
foros de google tampoco se sabe que hacer. Espero que seas
ese DIOS SALVADOR !!!! que pueda solucionar ese problema.
Muchas gracias de antemano y un saludo a la distancia.

Eneko Vivanco on 23/04/2017 at 16:50


18
Hola Alexis,
En realidad esto que cuentas no tiene por qué ser un
problema, que Google no pueda acceder a ciertos recursos no
sólo es habitual sino que puede estar incluso justiퟌ�cado, no te
preocupes a no ser que Google diga que es algo de “Gravedad
alta”.
A nivel tuyo como webmaster sólo te deberías preocupar de
estar capando recursos propios, generalmente css y js, pero en
este caso se trata de recursos externos – en otros dominios – y
que por tanto no guardan relación con las variables que
puedes manejar desde tu robots.txt.
Lo dicho, siendo recursos de servicios tan extendidos como
Adsense o Hotjar, no te merece la pena dedicarle tanto tiempo.
Nada malo está pasando.
Un saludo. 
http://aukera.es/blog/como­configurar­archivo­robots­txt/ 21/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

aukera@aukera.es
Alexis on 25/04/2017 at 20:17 +34 944 00 55 44 ES|EN
19
Muchas gracias, Eneko Vivanco. La respuesta que me has dado
me ha dejado super tranquilo. Tenía una difusa idea de que no
era nada malo, ya que no se hablaba casi nada de ese
problema por la web ni por los foros. Vuelvo a agradecerte por
tu repuesta y decirte mil gracias por tu conocimiento. Un
saludo y un gran abrazo a la distancia. MUCHOS EXITOS!!!

Luis on 25/04/2017 at 13:01


20
Buenas, efectivamente ya comenzaron a dexindesarse las Tags
tal como decías, gracias, ahora otra duda que me surgió es que
si por ejemplo indexo tanto las Category y las Tags, y ambas
lleva al mismo contenido pero con diferentes URL por ejemplo:

http://mipagina.com/category/carros/
http://mipagina.com/tag/vehiculos/

Ambas con diferentes metadescripción y por supuesto


diferentes palabras claves usando el Yoast, Google lo tomaría
igual como contenido duplicado?

Saludos y muchas gracias de antemano…

Eneko Vivanco on 25/04/2017 at 13:12


21
SI.
Llámalo contenido duplicado, llámalo contenido que no aporta
nada nuevo, llámalo contenido para buscadores, llámalo thin
content… la respuesta es: SI!

Erick on 27/05/2017 at 16:45


22
Una pequeña gran duda, tengo un blog de imágenes y tiene
taxonomías, pero está indexando contenido duplicado, es
decir, de un post saca más urls de las que debería. Ejemplo:
midominio.com/imagenes/nombre-post/img1, img2 img 3 y así
indexa cada una haciendo un desastre en Google, yo quiero
que se indexe midominio.com/imagenes/nombre-post/ (el

http://aukera.es/blog/como­configurar­archivo­robots­txt/ 22/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

nombre de post varía siempre en función del título). Cómo


aukera@aukera.es +34 944 00 55 44 ES|EN
podría colocarlo?

+ Deja un comentario

Escribe tu comentario aquí...

Nombre... tudireccionde@email.com... Sitio Web...

Suscríbeme al boletín mensual! ENVIAR

Recibir un email con los siguientes comentarios a esta entrada.

BUSCAR

Buscar artículos... 

SÍGUENOS      

NEWSLETTER

http://aukera.es/blog/como­configurar­archivo­robots­txt/ 23/24
2017­5­30 Errores y soluciones al configurar el archivo robots.txt

Artículos exclusivos de marketing online, analítica web, redes sociales, SEO y


aukera@aukera.es +34 944 00 55 44 ES|EN
conversión cada mes en tu buzón de correo.

Suscríbete a nuestro boletín mensual:

Nombre... Email...

Suscríbeme GRATIS

CATEGORÍAS

Analítica Web (67)

Conversiones y Usabilidad (40)

Google Tag Manager (48)

Martes Class (6)

Más Marketing (79)

Posicionamiento Web / SEO (62)

Publicidad SEM (28)

Redes sociales (54)

2016 © Aukera Marketing Online // Buenos Aires 13, 1º Izq - Bilbao (Bizkaia) // Teléfono:
944005544 // Email: aukera@aukera.es


http://aukera.es/blog/como­configurar­archivo­robots­txt/ 24/24

Вам также может понравиться