¿Cómo podemos controlar la indexación?

🗂️ Este artículo es parte de una serie enfocada en el rastreo y la indexación. A lo largo de esta serie, analizaremos varios aspectos relacionados con el proceso que lleva a cabo un buscador al agregar páginas a su índice. Nuestro objetivo es proporcionarte una guía completa y detallada para que puedas dominar estos aspectos fundamentales como SEO en tu trabajo diario.

¿Necesitas adecuar la indexación de tus páginas a tu estrategia de marketing y no conoces cómo controlarla? ¿O bien, simplemente tienes el propósito de mejorar tu posicionamiento web? A continuación encontrarás las herramientas de las que disponemos para controlar cómo se indexan las páginas.

Directrices y señales de indexación

En resumen hasta ahora…

  1. Googlebot trabaja con URLs exactas (preferiblemente amigables), es decir, con documentos, no con contenido. Por lo que una pequeña diferencia en éstas URLs es suficiente para que las arañas asuman que son distintas.
  2. Los bots de Google que van rastreando Internet y almacenando la información que recogen en sus bases de datos para generar su índice, tienen como uno de sus objetivos descubrir las URLs, siendo su mecanismo principal el seguimiento de enlaces.
  3. Como segundo objetivo, se encuentra el llevar a una cola de rastreo las URLs de aquellos enlaces que no ha podido seguir en su tirada, por lo que deberá de priorizarlos en dicha cola de rastreo, claro está, si lo permitimos…

¿Cómo podemos controlar la indexación de nuestras URLs?

Ahora que sabemos cómo funciona Google, lo siguiente que debemos hacer es conocer con qué mecanismos contamos para poder controlar la indexación de nuestras páginas. Pero antes de ir al grano y explicar cada una de ellas, debemos tener en cuenta que no todos las herramientas siguientes van a tener el mismo peso.

Google obedece algunas, pero con otras puede decidir no hacerlo. Es por eso que diferenciamos entre directrices y señales de indexación. Las directrices son los mecanismos o herramientas en las que confiamos que Google hará caso, mientras que las señales de indexación pueden tener más o menos peso en el comportamiento de Googlebot a la hora de rastrear e indexar. Lo verás más claro en el siguiente esquema.

Esquema sobre las Directrices y Señales de Indexación

Vamos a hablar de cada una de ellas teniendo en cuenta su prioridad para Google.

Directrices de indexación.

1. HTTP Status.

Simplificándolo muy mucho (por lo que si quieres más información, te recomendamos esta lectura ), lo que tenemos que entender es que la parte de Internet que nos interesa funciona bajo el protocolo HTTP (o HTTPS) que son las reglas que definen cómo un navegador (Chrome, Safari, Firefox, Opera) debe pedir una URL y todo lo que conlleva al servidor en el que se aloja la web.

Cuando nuestro navegador hace esas peticiones al servidor, éste no sólo reconoce la URL, sino otros elementos como la IP y las cabeceras ( headers ) donde se encuentran los metadatos con información como el tipo de navegador desde el que se hace la petición, si se ha visitado (o no) esa misma URL, si se habían inyectado cookies previamente, si se llega a esta URL a través de otra URL ( referrer ), etc.

Cuando el servidor tiene toda esta información, devuelve el contenido para esta URL además de información extra como su propia IP y Cabecera. Y de entre todos los datos que puede devolver el servidor en su header , el que nos interesa fundamentalmente es el código de estado de respuesta HTTP que conocemos como HTTP Status (de los que podrás encontrar todas las posibilidades aquí ).

Ahora bien, en lo que se refiere al SEO y a las arañas, los más importantes son los siguientes:

STATUS CODESignificadoUso en SEO
200 (0 304)

Ok, Página correcta

(304, Correcta y cacheada)

Solo las páginas 200 se indexan por lo que nos interesa conseguir si es nuestro objetivo.
301Contenido redirigido permanentemente a otra URLLo usamos para traspasar autoridad e histórico cuando las URLs cambian.
302Contenido redirigido temporalmente (menos de 1 día)Puntualmente puede interesarnos usarlos, pero es un código que evitaremos por lo general.
404Contenido no encontrado o inexistenteEs un código que evitamos usar a menos que nuestra intención sea la de borrar contenido.
410Contenido eliminadoTendrá la misma aplicación que el 404, pero enfatizando el hecho de que se ha eliminado.
500Error interno no identificadoNo nos ayudan, así que debemos tener cuidado con ellos y evitar que sucedan.
503 (o 429)

Servidor sobrecargado

(o con demasiadas peticiones simultáneas)

A Google le indica problemas de carga que debemos intentar evitar, si bien el error en sí no es un problema.

Por lo tanto, en términos de indexación lo que nos va a interesar es que el servidor nos devuelva un Status Code 200 (a menos que tengamos una URL redirigida a otra para evitar duplicados de contenido). Pero, ¿cómo podemos ver el código de estado de respuesta de nuestras páginas?

PRO TIPS:

  • A través de la vista Network de Chrome a la que accedes a través de ( Más herramientas > Herramientas para desarrolladores > Network) podrás ver el status de la página en la que te encuentras.
  • Descargando la extensión “Redirect Path” de Chrome Web Store también podrás ir familiarizándose con el código de respuesta del servidor por cada página.
  • Y por último, mediante Crawlers o Rastreadores como Screamfrog podrás llegar a descargarte cientos de URLs de un site y, entre otras cosas, observar estos códigos para detectar incidencias.

Con estas herramientas, cada cual más avanzada, podrías controlar si existe algún problema en el estado de tus página que imposibilitara su indexación.

Ahora bien, moviéndonos de los básicos de Internet al SEO On Page pero todavía desde aquellas directrices a las que Google sí o sí hace caso a la hora de indexar, encontraríamos…

2. El archivo robots.txt.

Aunque hay muchas más cosas que debes aprender sobre los archivos robots.txt , además de repasarte la propia documentación de Google , en esencia son una de las herramientas más importantes con las que contamos para permitir o limitar el rastreo de nuestras páginas. Es decir, es un archivo que puede prohibir a Googlebot o cualquier otro buscador con su araña (identificadas por el robots.txt como User-agent ) rastrear en algunas páginas (o incluso todas).

¿En qué consiste exactamente?

  • El robots.txt es un simple archivo de texto que debemos subir a la raíz de nuestro dominio. Por ejemplo:
    tudominio/robots.txt
  • En él establecemos una serie de reglas de prohibición de rastreo (Disallow), o bien permiso (Allow) para cada User-agent o, bien, para todos con un *, tal que:
    User-agent: * 
    Disallow: /ningun-bot-puede-rastrear-esto/ 
    
    User-agent: Googlebot 
    disallow: /google-no-puede-rastrear-esto/ 
    Allow: /google-no-puede-rastrear-esto/pero-esto-si/ 
    
    sitemap: /sitemap.xml

¿Por qué nos podría interesar usar el Disallow en el robots.txt?

  • Nos encontramos ante una página con información sensible que no necesariamente hemos bloqueado por login.
  • Tenemos zonas de nuestro site con contenido duplicado que no nos interesa redirigir, pero tampoco que se detecten.
  • Acabamos de lanzar un site y queremos que el bot se centre en ciertas páginas y ya desbloqueremos más adelante las que nos vayan interesando que entren en su cola de rastreo.

¿Cuáles son los problemas que podría presentar el robots.txt?

Como con todo, el uso del robots.txt también puede ser arriesgado si se aplica mal:

  • Debemos tener cuidado de no usar la fórmula “Disallow: /” que prevendría la indexación de todo nuestro site por lo que la catalogamos como práctica peligrosa.
  • Ésta no es una buena herramienta de desindexación, solo bloquea a las arañas. Esto quiere decir que pese a haber bloqueado por robots una URL, ésta puede seguir apareciendo días después en las SERPs.
  • No evita la indexación de tu URL si ésta tiene links externos, por lo que podría seguir apareciendo en las SERPs con una descripción tal que: “No hay información disponible sobre esta página”.

PRO TIP

  • Descargando la extensión “Robots Exclusion Checker” de Chrome Web Store podrás ver por cada una de las páginas que visites si el archivo robots.txt de su dominio está bloqueando el rastreo para Google.

3. Metaetiquetas robots.

Aunque también hay más cosas que deberías saber sobre las etiquetas meta robots de las que habló Iñaki en el blog, si no las conocías bien, debes saber que “index/noindex” y “follow/nofollow” son directivas que se utilizan para guiar a los motores de búsqueda sobre cómo deben tratar una página específica y que estos siguen siempre.

¿En qué consiste exactamente?

Las metaetiquetas robots son una especie de semáforos en el código HTML de tu página que le dicen a los robots de los motores de búsqueda si deben detenerse y tomar nota de tu contenido o simplemente pasar de largo. En palabras algo más técnicas, cuando los robots entran a rastrear tu página, sacan metadatos de las cabeceras HTTP y/o HTML para averiguar si están bloqueadas su indexación y/o seguimiento, por lo que el guardado que hacen de la información de la página en sus bases de datos depende de estas directivas si las hay.

  • index/noindex: decide si una página debe ser incluida en el índice del motor de búsqueda. La etiqueta “index” es como dar luz verde para que la página aparezca en los resultados de búsqueda, mientras que “noindex” es un alto rotundo, manteniendo la página fuera del alcance de las búsquedas.
  • follow/nofollow: determinan si los motores de búsqueda deben seguir los enlaces de una página, es decir, si estos deben o no pasar a su cola de rastreo. “follow” invita a los robots a explorar los enlaces encontrados, extendiendo la red de descubrimiento, mientras que “nofollow” les dice que ignoren los enlaces, como si dijeras “nada que ver aquí”.

Estas etiquetas se pueden colocar en la cabecera HTTP X-Robots-Tag (aunque no es tan habitual) tal y como ves en este ejemplo:

X-Robot-Tag: noindex,follow 

O más frecuentemente, en la sección <head> del HTML y se verían tal que así:

<meta name="robots" content="noindex, follow"> 

En estos ejemplos, le estamos diciendo al motor de búsqueda que no indexe la página, pero sí siga los enlaces que contiene. Estas etiquetas pueden afectar significativamente a la visibilidad y clasificación de las páginas en la vasta biblioteca de Internet. Por lo que hay que usarlas sabiamente.

¿Qué más debes saber?

Si no existen estos marcados, todo sería “index,follow”, el valor por defecto. Y por esta misma razón, si solo hay uno de los marcados en negativo, el omitido siempre será el positivo.

PRO TIPS

  • Podemos ver la etiqueta HTML y el marcado en el HTTP de una página a través del código fuente de la página.
  • La misma extensión “Robots Exclusion Checker” también te da la información sobre las etiquetas meta robots tanto del HTML como del HTTP.

Señales de indexación.

4. Archivo Sitemap.

El archivo sitemap (que no la página típica de mapa del sitio 🙏) es un documento que contiene una lista de URLs y actúa como una guía para los motores de búsqueda, indicándoles qué contenido está disponible y cómo acceder a él. Además de listar las URL de las diversas secciones de nuestro sitio, también podría proporcionar información sobre la frecuencia y la fecha de la última actualización de ese contenido. Es decir, son una invitación clara para los buscadores.

¿En qué consiste exactamente?

Los sitemap.xml pueden (que no de forma rotunda) afectar a la indexación de las páginas al decirle a los motores de búsqueda exactamente qué URLs deben explorar y cuáles son importantes. Los robots al pasar por este archivo pueden incluir los enlaces a la cola de rastreo, pero no necesariamente priorizarlos como quisiéramos.

Por ello, en grandes sites el sitemap es un archivo donde idealmente sólo deberíamos incluir las páginas que queremos que sean más visibles y se prioricen más. Aquellas que no contribuyan directamente a nuestros objetivos comerciales, en términos de ventas o conversiones, sería preferible no incluirlas. Por ejemplo, podríamos generar distintos sitemaps.xml para distintas agrupaciones de páginas y otro más que listara los sitemaps previos en web de gran envergadura.

Ahora bien, para conocer bien lo que es y no es un sitemap, te recomendamos que repases este artículo sobre lo que deberías saber sobre ellos . Igualmente, la estructura de un sitemap.xml es bastante sencilla. Se ve algo así:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

<url>

<loc>http://www.ejemplo.com/pagina1.html</loc>
<lastmod>2024-05-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>

</url>

<!– Más entradas de URL aquí –>

</urlset>

¿Y dónde colocamos los sitemaps.xml?

Para webs desarrolladas en CMSs como WordPress existen plugins (YoastSEO o Rank Math) que pueden ayudarte. Ahora bien, los sitios más habituales donde subir estos sitemaps.xml son el propio archivo robots.txt (de hecho, si te fijas, en el ejemplo anterior lo hemos incluido) y/o en la herramienta por excelencia para SEOs que no es otra que Google Search Console.

PRO TIPS

  • Los sitemaps pueden tener más formatos que el famoso xml, también txt o pueden ser un feed (de noticias) que suele consultarse más que los propios sitemaps.
  • Repasa la documentación en sitemaps.org , una guía donde encontrarás todo lo que debes conocer sobre su formato y buenas prácticas.
  • Si no tienes capacidad para programar los sitemaps (opción ideal) es posible usar crawlers como Screaming Frog o Sitebulb para rastrear todo tu site y generar un sitemap.

5. Atributo Rel.

El atributo rel proporcionar información adicional sobre los enlaces en un site. Utilizado en los elementos HTML <a>, ayuda a Google a entender la naturaleza de los enlaces que hay en una página y cómo deben ser tratados en términos de rastreo e indexación. Es decir, el atributo rel les dice a los bots si no queremos que se los lleve a su cola de rastreo:

  1. El atributo rel=»follow» si bien es válido y podría usarse es lo mismo que no añadir nada. Es decir, si vamos a dejar que los bots sigan un enlace, podemos omitirlo.
  2. El atributo rel=»nofollow» se utiliza para indicar a las arañas que no sigan el enlace. Este atributo (el más antiguo de todos) ha sido comúnmente utilizado en enlaces patrocinados, comentarios de usuarios o enlaces no confiables que no deseábamos que influyeran en el posicionamiento de la página.
  3. El atributo rel=»sponsored» es una adición más reciente al arsenal de atributos de enlace. Se utiliza para identificar enlaces que han sido pagados o patrocinados, lo que permite a las arañas comprender su naturaleza publicitaria. Aunque su impacto exacto en el SEO aún está en debate, proporcionar esta información a los motores puede ayudar a mantener la transparencia.
  4. El atributo rel=»ugc» (por las siglas de “User Generated Content”) está diseñado específicamente para enlaces generados por usuarios, como aquellos que se encuentran en comentarios de blogs, foros o plataformas de redes sociales. Al utilizar este atributo, se indica a Google que el enlace proviene de un contenido generado por el usuario y puede tener menos peso en términos de autoridad. Esto ayuda a los motores de búsqueda a discernir entre enlaces generados orgánicamente y aquellos que pueden ser más susceptibles a manipulaciones.

¿Qué más debes saber?

Aunque estamos bloqueando a la araña de cara al rastreo e indexación de ese enlace, lo estamos haciendo desde la página que incluye ese atributo en el HTML. Es posible que en otra página no esté incluido y, por tanto, sí se siga. Es decir, podríamos controlar ese atributo en nuestras páginas si rigurosamente lo añadiéramos cada vez que tuviéramos que poner dicho enlace, pero a la que se enlazara desde un site externo, Google podría seguirlo y meterlo en la cola de rastreo.

Por otro lado, al contrario que un bloqueo por robots.txt este atributo no evita que se distribuya la autoridad que le da la página que lo contiene, razón por la cual ese link juice (ya hablaremos de esto en otra ocasión) se perdería.

6. Marcados semánticos.

Los marcados schema, también conocido como marcados semánticos o datos estructurados, son codificaciones especiales en el HTML u objetos Javascript que informan sobre la naturaleza del contenido de una página.

Estos marcados proporcionan información y contexto adicional y estructurado sobre el tipo de contenido (por ejemplo, una receta, un evento o un artículo), detalles específicos (como los ingredientes o pasos de una receta, la fecha y hora de un evento, o bien, el título y el autor de un post), y la relación entre diferentes elementos de la página. Es decir, con este tipo de datos estructurados podemos darle información específica a Google de qué tipo de contenido y qué incluye.

¿En qué consiste exactamente?

El marcado schema se basa en un vocabulario de etiquetas predefinido que describe diferentes tipos de entidades y propiedades relacionadas que encontraremos en la documentación oficial de schema.org , un proyecto colaborativo respaldado por los principales motores de búsqueda como Google, Bing y Yahoo. Por ejemplo, para marcar una receta en una página web, se puede utilizar el siguiente código:

<script type="application/ld+json">

{

«@context»: «https://schema.org/»,

«@type»: «Recipe»,

«name»: «Nombre de la receta»,

«author»: {

«@type»: «Person»,

«name»: «Nombre del autor»

},

«datePublished»: «2024-05-06»,

«description»: «Descripción de la receta»,

«recipeIngredient»: [

«Ingrediente 1»,

«Ingrediente 2»,

«Ingrediente 3»

],

«recipeInstructions»: «Instrucciones de preparación de la receta»

}

</script>

En este ejemplo, se está utilizando el marcado schema para describir una receta, incluyendo detalles como el nombre de la receta, el autor, la fecha de publicación, la descripción, los ingredientes y las instrucciones de preparación. Puedes ver muchos más ejemplos en la propia página de Schema.

¿Por qué es importante?

Aunque Google puede no hacer siempre caso de estos datos estructurados, lo cierto es que una de las razones para usarlos es la inclusión en la SERPs de elementos enriquecidos o rich snippets, como fragmentos destacados y paneles de conocimiento, que pueden mejorar la visibilidad y potencialmente el CTR (click-through rate) de una página en los resultados de búsqueda.

Así que piensa bien en cómo, cuándo y por qué añadir estos datos estructurados y no dejes de valorar si has conseguido lo que buscabas. Es importante utilizar el marcado schema de manera adecuada y precisa para asegurarse de que los motores de búsqueda interpreten correctamente el contenido.

PRO TIPS

7. Atributo hreflang.

El atributo hreflang es una herramienta que puede ayudar a los motores de búsqueda a entender qué versión de una página debe mostrarse a usuarios que hablan diferentes idiomas o están ubicados en diferentes regiones geográficas. Nació para especificar las versiones alternativas en diferentes idiomas. Pero, puesto que hoy nos encontramos el mismo idioma para distintas zonas geográficas, como ocurre con el español de España y los países Latinoamericanos o el inglés de UK y EEUU, el hreflang se usa para indicar las páginas que corresponden a los distintos mercados o regiones geográficas que pueden interesar a los negocios.

¿Cómo se implementa?

Cuando un sitio web ofrece contenido en varios idiomas o dirigido a diferentes regiones, el atributo hreflang se utiliza para indicar a Google la relación entre las diferentes versiones de una página, es decir, las equivalencias de las URLs.

El atributo hreflang se coloca en la etiqueta <link> dentro de la sección <head> del HTML de una página web. Cada etiqueta <link> especifica una URL alternativa junto con el código de idioma o región correspondiente. Por ejemplo, especificando versiones alternativas de una página en español, catalán e inglés:

<link rel="alternate" hreflang="es" href="https://www.ejemplo.com/es">

<link rel=»alternate» hreflang=»ca» href=»https://www.example.com/ca»>

<link rel=»alternate» hreflang=»x-default» href=»https://www.example.com/en»>

Además, con este marcado lo que podemos hacer es indicar qué URL/idioma mostramos por defecto (con x-default) a regiones no contempladas (generalmente el inglés).

¿Qué más debes saber?

Aunque el objetivo al proporcionar versiones alternativas de una página en diferentes idiomas o dirigidas a diferentes regiones, sea el de mejorar la experiencia del usuario y aumentar la relevancia de la página en los resultados de búsqueda para audiencias internacionales, lo cierto es que una señal (no especialmente fuerte).

Google puede decir ignorar si ve que las versiones son idénticas al 100% y que una de las dos versiones recibe más enlaces o es más relevante. Aquí el consejo es que sean súplicas exactas y que hayan variaciones en el contenido por mínimas que sean.

PRO TIP

  • Asegúrate de que las equivalencias entre URLs estén bien trazadas en su base de datos. Si es un proyecto web inicial, aquello que esté bien trazado desde el principio ahorrará mucho tiempo después. De lo contrario, puede suceder (como les ha pasado a muchos de nuestros consultores) que un etiquetado simple se convierta en un proyecto de más hora.

8. Link canonical.

¿Te acuerdas que comentamos al inicio que cada URL es única para las arañas? Pues el enlace canónico (similar al anterior) es una herramienta que podemos usar en la optimización de motores de búsqueda a la hora de resolver el problema de contenido duplicado en la web.

El link canonical nos permite especificar la URL preferida para una página determinada, lo que ayudaría a buscadores a determinar qué versión de una página debe indexarse y mostrar en los resultados de búsqueda.

¿Pero nos van a hacer caso los robots siempre?

Lo cierto es que no, de ahí que lo ideal es que únicamente tengamos una URL por página (por ejemplo, con o sin “/” final) por lo que una debería dar un 301 hacia la que hayamos elegido como buena. Ahora bien, a veces la solución no es tan sencilla como una redirección y el canonical nos podría ayudar en páginas distintas con un contenido prácticamente idéntico que temamos que nos pudiera penalizar al considerarse contenido duplicado.

¿En qué consiste exactamente?

Cuando una página web tiene múltiples versiones que muestran el mismo contenido (por ejemplo, una versión con y sin parámetros de seguimiento de URL), el enlace canónico se utiliza para señalar a los motores de búsqueda cuál es la versión principal o preferida, esperando que no disperse la autoridad de la página.

Esta URL canónica indica a los motores como Google que deben considerar esa versión como la fuente principal de contenido para indexar y mostrar en los resultados de búsqueda. Y cuando los robots la descubren en la cabecera HTML, lo que hacen es guardar la información. Pero ya está, no aplican ninguna otra regla especial.

¿Cómo se implementa?

El link canonical se coloca en la sección <head> del HTML de una página web y se ve tal que así:

<link rel="canonical" href="https://www.ejemplo.com/pagina-preferida"> 

O incluso en la cabecera HTTP aunque no es tan habitual, de la siguiente manera:

Link: <https://www.ejemplo.com/pagina-preferida>; rel=“canonical” 

Mírate directamente la documentación de Google para más información.

¿Qué más debes saber?

Los links canonical se pueden llegar a hacer sobre la propia página con el objetivo de indicarle a Google que esa misma URL es la original. De esta forma te guardas de copias que podrían hacer de tu contenido.

Por otro lado, hay que recordar que no es una directriz, es una señal (y no demasiado fuerte), por lo que es posible que Google decida seguir indexando la página no marcada como canónica si considera que la buena es otra.

PRO TIPS

  • Es importante asegurarse de que el enlace canónico esté correctamente implementado en todas las versiones de una página para evitar confusiones para los motores de búsqueda. De ahí que sea recomendable llevar a cabo un documento de equivalencias de URLs.
  • Herramientas como Google Search Console pueden ayudar a identificar y corregir problemas relacionados con el enlace canónico para mejorar el rendimiento SEO de un sitio web.
  • De nuevo, la extensión “Robots Exclusion Checker” puede ayudarte a ver el link canonical de una página, razón de más para que la uses.

Si desconocías esta información o parte de ella, hay mucho que digerir 🙏. Espero que hayas encontrado en esta guía lo que necesitabas para controlar la indexación de tus páginas y que te ayuden los PRO TIPS de los consultores SEO de IKAUE.

ARTÍCULO RELACIONADO CON:
Cristina García
Responsable de Comunicación
Cristina Profile Picture

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

IKAUE MARKETING ONLINE, S.L. es la Responsable del Tratamiento de tus datos, con la finalidad de moderar y publicar tu comentario con tu nombre (en ningún caso se publicará tu correo electrónico). Tienes derecho de acceso, rectificación, supresión, limitación, oposición al tratamiento y portabilidad. Puedes ejercitar tus derechos en [email protected]. Más información en la Política de privacidad.

También te puede interesar

¡Suscríbete!

RECIBE NUESTRA NEWSLETTER

Registrar nueva cuenta

IKAUE MARKETING ONLINE, S.L. es la Responsable del Tratamiento de tus datos, con la finalidad de gestionar tu registro y remitirte nuestra Newsletter con las últimas novedades y/o promociones. Tienes derecho de acceso, rectificación, supresión, limitación, oposición al tratamiento y portabilidad. Puedes ejercitar tus derechos [email protected]. Más información en la Política de privacidad.