🗂️ Este artículo forma parte de una serie dedicada al rastreo y la indexación. A lo largo de la serie, exploraremos diversos aspectos relacionados con esta parte del trabajo que realiza el buscador a la hora de añadir las páginas a su índice, para que cuentes con una guía extensa y controles del tema en tu día a día como SEO.
Si solo tienes un vago conocimiento de qué hace Google cuando rastrea y te coloca en las SERPs una vez publicas tus páginas y, simplemente, te quedes esperando a que esto ocurra confiando plenamente en tu contenido, descubramos juntos la base de cómo busca Google, motor de búsqueda al que tomaremos como referencia (cómo no).
¿Cómo busca Google? ¿Qué hay que hacer para que indexe nuestras páginas?
Para empezar, ¿conoces las SERPs?
El trabajo más obvio de Google (Google Search) y el resto de buscadores es el de dar respuesta a las consultas de los usuarios en Internet. Estas búsquedas tradicionalmente se han conocido como keywords, aunque más que una palabra clave, en nuestro idioma, siempre han sido un conjunto de palabras e incluso una frase.
¿Y dónde se da respuesta a estas keywords o búsquedas?
Como seguramente también sabes, como usuarios hemos visto siempre la respuesta a nuestras búsquedas en las SERPs (Search Engine Result Pages o Páginas de Resultados de Búsqueda) de Google donde se listan una serie de (importante) fragmentos destacados de aquellos documentos que responden a la keyword del usuario, tal que así:
A cada uno de estos fragmentos, es decir, a cada uno de estos resultados de búsqueda los conocemos como Snippets que, aunque pueden llegar a responder a distintas intenciones de búsqueda y tener distintos formatos (fragmentos de texto, respuestas directas, vídeos, carruseles, etc.), lo importante aquí es que responden a documentos completos.
Por lo tanto, partimos de la base de que Google Search tiene dos objetivos: en primer lugar, encontrar respuestas para los términos de búsqueda de los usuarios; y en segundo lugar, priorizar los documentos que sirven como respuestas en las SERPs en función de lo mucho que puedan satisfacer a los usuarios según la intención que tuvieran. ¿Pero cómo?
¿Cómo funciona el buscador? ¿Cómo prioriza las respuestas?
Para cumplir con estos objetivos de responder a los usuarios y priorizar los resultados Google, como máquina que es, se basa en una serie de procesos a través de los cuales descubre el contenido y lo muestra en sus SERPs, su índice. Para simplificar su explicación, en IKAUE contamos con un esquema que muy probablemente ya hayas visto: El diamante SEO.
Con este diamante lo que se ha querido explicar es que el buscador se centra en tres áreas de trabajo para dar respuesta a los usuarios:
- El Rastreo e Indexación: esto es todo el trabajo que hace el buscador para descubrir y almacenar en sus bases de datos la información sobre las páginas para que luego aparezcan priorizadas u ordenadas en las SERPs.
- La Intención de búsqueda: relacionada con el trabajo que se encarga de decidir qué respuestas da a la búsqueda realizada por el usuario en función de su intencionalidad.
- El E.E.A.T: que responde a Experiencia, Conocimiento, Autoridad y Confiabilidad si lo traducimos y es parte del trabajo que realiza Google para clasificar el contenido y ordenar los resultados.
Como ves en el esquema, cada área puede llegar a tener distintas capas de trabajo en las que profundizar. Por lo que en esta ocasión nos centraremos en empezar a conocer bien la primera: qué es necesario para aparecer en el índice Google. Y es que…
SI GOOGLE NO TE HA INDEXADO, NO EXISTES PARA ÉL
Esa es la realidad, por tajante que parezca. Así que lo primero que queremos conseguir es que, como mínimo, nuestros documentos, nuestras páginas existan para Google, se indexen. Pero, ¿cómo? A través de las URLs…
La URL exacta, la unidad básica con la que trabaja Google
Volviendo a las SERPs, como hemos comentado, lo que vemos como usuarios son fragmentos de una serie de documentos a los que se accede a través de un enlace. Por lo que, realmente, Google posiciona documentos que responden a una URL. Pero, ¡ojo! Ésta URL debe ser exacta.
Una URL (Uniform Resouce Locator) es una cadena de texto estable que siempre apunta a un mismo documento (páginas, sí, pero también imágenes y otro tipo de recursos) y su estructura es la siguiente:
¿Por qué incidimos en esto? Por que es fundamental entender que las siguientes URLs son para Google (y cualquier otro buscador) documentos distintos a indexar:
http://www.midominio.com/ https://www.midominio.com https://midominio.com https://www.midominio.com/?ver=la_home https://midominio.com/home
Por lo que si tuvieras el mismo contenido en las URLs anteriores, Google estaría considerando que son duplicados, incluso si la diferencia es de tan solo un “/”.
Entonces… ¿cuáles son los requisitos mínimos para que Google pueda leer una URL?
- Que la URL sea accesible por los robots de Google solo cargándola, es decir, que no sea una página bajo login, formulario, aceptación de cookies, etc.
- Que la URL sea estable , que el documento no varíe a lo largo del tiempo y que el contenido sea original de esa página, o de lo contrario tendríamos duplicados.
- Que la URL sea referenciada de alguna forma que guíe a los robots a encontrarla, ya sea desde otra URL indexada, RRSS abiertas, sitemaps.xml o herramientas de Google…
¿Y cómo es más fácil garantizar estos requisitos? A través de las URLs amigables.
URLs amigables
Imagina que estás buscando información sobre recetas de cocina en un sitio web. Una URL no amigable podría ser algo como:
"https://www.ejemplo.com/?id=123&recipe=6789"
Ésta no ofrece mucha información sobre el contenido de la página. En cambio, una URL amigable para el mismo contenido podría ser:
"https://www.ejemplo.com/recetas/paella-de-marisco"
Las URLs amigables son direcciones web que están diseñadas para ser fáciles de leer y comprender para los usuarios. En lugar de ser largas y llenas de caracteres extraños, están estructuradas de manera clara y descriptiva, lo que facilita su interpretación. Es decir, pasamos de lo que podrían ser URLs técnicas a lógicas y user-friendly.
¿Qué ventajas tienen las URLs amigables:
- Se evitan más fácilmente errores: las URLs amigables aunque no son obligatorias, son más fáciles de trabajar. Su estructura lógica permite que los desarrolladores no caigan en confusiones.
- Mejoran la experiencia del usuario: Las URLs descriptivas ayudan a los usuarios a entender de qué se trata la página antes de hacer clic en el enlace. Esto les permite tomar decisiones más informadas sobre si el contenido es relevante para ellos.
- Facilitan el compartir y el recordar: Las URLs amigables son más fáciles de compartir en redes sociales y otros medios, ya que al tener una estructura lógica son más fáciles de copiar en otros lugares.
¿Y cómo rastrea e indexa Google esas URLs?
Google rastrea e indexa los enlaces a través de Googlebot, esos robots también conocidos como arañas. Lo que hacen es ir rastreando Internet, encontrando páginas y guardando datos esenciales para formar su índice. Ojo que estos bots no tendrán siempre el mismo objetivo. Las arañas de Googlebot tienen dos trabajos principales:
Descubrir URLs.
Esto lo harán a través de los enlaces, los cuales son la clave del rastreo y la indexación. Y es que los bots, cada vez que llegan a una página a través de un enlace, no sólo mirarán el contenido, sino también qué otros enlaces contiene, guardándolos (o no, ya lo veremos en la Parte II) en una lista a la que conocemos como cola de rastreo, con lo que el segundo trabajo sería…
Priorizar las URLs en esta cola de rastreo.
Puesto que cada bot que visita una página no va a poder seguir todos sus enlaces, muchos de ellos van a ir a parar a esa cola de rastreo. Cada bot que trabaje a posteriori se va a ir encargando de los siguientes enlaces en la lista, añadiendo más conforme los encuentre.
Por lo que, si en más de una página encuentra el mismo enlace, va a entender que éste debe priorizarse en su cola de rastreo. Es decir, conforme más enlaces entrantes haya a una página, más se rastreará esta. Por ejemplo: la Home, que generalmente encontramos en todas las páginas del site referida incluso desde más de un punto: menú, logos, breadcrumbs, etc.
Ahora bien, ¿qué poder tenemos sobre el rastreo e indexación? ¿Hay algo que podamos hacer para controlarlo? ¿Cómo podemos hacer que nuestras páginas existan o incluso dejen de existir para Google? Te invitamos a seguir leyéndonos para descubrirlo…