¿Por qué Google rastrea páginas bloqueadas por robots.txt? Motivos, soluciones y consejos

Te habrá pasado o lo habrás escuchado de algún colega:

«Google entra en páginas que tenía bloqueadas en el archivo robots.txt de mi web. ¿Es eso cierto? ¿Puede a veces ignorar este archivo?»

En el ámbito del SEO y la optimización web, este es un tema recurrente que genera mucha confusión. Si estás buscando una respuesta rápida a esta pregunta puedo decirte simplemente que «No». No es cierto que Google pueda omitir lo que le dice el archivo robots.txt y visitar contenidos que están ahí definidos como «bloqueados». Debemos tener claro que el robots.txt es más que una directriz para Google, es dogma. Desde que ve que le prohíbes entrar en una URL deja de entrar en ella. No es que lo haga más o menos, deja de entrar de forma absoluta y desde el segundo siguiente al que lee la prohibición.

En este artículo, exploraremos en detalle si Google siempre hace caso al robots.txt y analizaremos todos esos casos en los que parece ignorarlo. A lo largo del texto, te proporcionaremos ejemplos prácticos y consejos útiles para que entiendas cómo funciona realmente este archivo y cómo puedes utilizarlo a tu favor y conseguir que Google siempre te obedezca.

¿Qué es y cómo funciona el robots.txt?

El robots.txt es un archivo de texto simple que se ubica en la raíz de tu sitio web y sirve para dar instrucciones a los rastreadores o «bots» de los motores de búsqueda sobre qué partes de tu sitio pueden o no pueden rastrear. Utiliza directivas como User-agent para especificar a qué bot se dirige la instrucción y Disallow o Allow para indicar las rutas permitidas o prohibidas.

Por ejemplo, para bloquear el acceso de todos los bots a una carpeta específica:

User-agent: *
Disallow: /carpeta-privada/

Es importante entender que el robots.txt no es un mecanismo de seguridad. Aunque impide que los bots respetuosos rastreen ciertas áreas, no evita que otros bots menos estrictos o los usuarios accedan a esas páginas. Por lo tanto, no debes confiar en él para proteger información sensible.

Además, el archivo robots.txt es público. Cualquiera puede acceder a él añadiendo «/robots.txt» al final de tu dominio. Esto implica que podría revelar estructuras internas de tu sitio que prefieres mantener privadas. Por ello, debes ser cauteloso al especificar rutas sensibles en este archivo.

Algunos conceptos previos: ¿Conoces nuestro post sobre las 10 + 1 cosas que deberías saber del robots.txt?

Si deseas profundizar en el tema, te recomendamos leer nuestro post detallado sobre 10 + 1 cosas que deberías saber del robots.txt. En él, exploramos aspectos avanzados y curiosidades que te ayudarán a dominar el uso de este archivo. Algunos de los puntos que abordamos son:

  • La importancia de saber ubicar el archivo.
  • Los detalles sobre cómo se interpreta y lee el archivo
  • Detalles sobre qué pasa cuando bloqueas una URL y a qué otros aspectos del seo afectas al hacerlo.
  • Directivas que funcionan y no funcionan.

Si quieres conocer más detalles antes de continuar puedes leer el artículo ahora o después de terminar con este. Tu eliges.

Herramientas para analizar tus robots.txt

El informe de Robots.txt

Es recomendable utilizar herramientas especializadas para verificar tu robots.txt. Una de las más útiles es el Informe de robots.txt  de Google Search Console. Esta herramienta no solo te permite ver como es tu archivo actualmente , sino que también puedes forzar la lectura del archivo por parte de Googlebot, lo que puede ser crucial cuando realizas cambios importantes.

Además, el probador actúa como un control de versiones, permitiéndote ver historiales de cambios y entender cómo afectan al rastreo e indexación de tu sitio.

Por qué el análisis de logs resulta tan interesante

Aunque menos común y sencillo que la cómoda herramienta que nos da GSC, el análisis de los logs de tu servidor pueder ayudarte a  entender cómo los bots interactúan con tu sitio web. A nivel técnico, los logs registran cada solicitud que se hace al servidor, incluyendo las de Googlebot y otros rastreadores. Esto te permite identificar si están accediendo a áreas que deberían estar bloqueadas por el robots.txt (o más bien validar que no lo hacen).