¿Cómo funciona Google y encuentra el contenido?

Blog de SEO

🗂️ Este artículo forma parte de una serie dedicada al rastreo y la indexación. A lo largo de la serie, exploraremos diversos aspectos relacionados con esta parte del trabajo que realiza el buscador a la hora de añadir las páginas a su índice, para que cuentes con una guía extensa y controles del tema en tu día a día como SEO.

Si solo tienes un vago conocimiento de qué hace Google cuando rastrea y te coloca en las SERPs una vez publicas tus páginas y, simplemente, te quedes esperando a que esto ocurra confiando plenamente en tu contenido, descubramos juntos la base de cómo busca Google, motor de búsqueda al que tomaremos como referencia (cómo no).

¿Cómo busca Google? ¿Qué hay que hacer para que indexe nuestras páginas?

Para empezar, ¿conoces las SERPs?

El trabajo más obvio de Google (Google Search) y el resto de buscadores es el de dar respuesta a las consultas de los usuarios en Internet. Estas búsquedas tradicionalmente se han conocido como keywords, aunque más que una palabra clave, en nuestro idioma, siempre han sido un conjunto de palabras e incluso una frase.

¿Y dónde se da respuesta a estas keywords o búsquedas?

Como seguramente también sabes, como usuarios hemos visto siempre la respuesta a nuestras búsquedas en las SERPs (Search Engine Result Pages o Páginas de Resultados de Búsqueda) de Google donde se listan una serie de (importante) fragmentos destacados de aquellos documentos que responden a la keyword del usuario, tal que así:

A cada uno de estos fragmentos, es decir, a cada uno de estos resultados de búsqueda los conocemos como Snippets que, aunque pueden llegar a responder a distintas intenciones de búsqueda y tener distintos formatos (fragmentos de texto, respuestas directas, vídeos, carruseles, etc.), lo importante aquí es que responden a documentos completos.

Por lo tanto, partimos de la base de que Google Search tiene dos objetivos: en primer lugar, encontrar respuestas para los términos de búsqueda de los usuarios; y en segundo lugar, priorizar los documentos que sirven como respuestas en las SERPs en función de lo mucho que puedan satisfacer a los usuarios según la intención que tuvieran. ¿Pero cómo?

¿Cómo funciona el buscador? ¿Cómo prioriza las respuestas?

Para cumplir con estos objetivos de responder a los usuarios y priorizar los resultados Google, como máquina que es, se basa en una serie de procesos a través de los cuales descubre el contenido y lo muestra en sus SERPs, su índice. Para simplificar su explicación, en IKAUE contamos con un esquema que muy probablemente ya hayas visto: El diamante SEO.

Con este diamante lo que se ha querido explicar es que el buscador se centra en tres áreas de trabajo para dar respuesta a los usuarios:

El Rastreo e Indexación: esto es todo el trabajo que hace el buscador para descubrir y almacenar en sus bases de datos la información sobre las páginas para que luego aparezcan priorizadas u ordenadas en las SERPs.
La Intención de búsqueda: relacionada con el trabajo que se encarga de decidir qué respuestas da a la búsqueda realizada por el usuario en función de su intencionalidad.
El E.E.A.T: que responde a Experiencia, Conocimiento, Autoridad y Confiabilidad si lo traducimos y es parte del trabajo que realiza Google para clasificar el contenido y ordenar los resultados.

Como ves en el esquema, cada área puede llegar a tener distintas capas de trabajo en las que profundizar. Por lo que en esta ocasión nos centraremos en empezar a conocer bien la primera: qué es necesario para aparecer en el índice Google. Y es que…

SI GOOGLE NO TE HA INDEXADO, NO EXISTES PARA ÉL

Esa es la realidad, por tajante que parezca. Así que lo primero que queremos conseguir es que, como mínimo, nuestros documentos, nuestras páginas existan para Google, se indexen. Pero, ¿cómo? A través de las URLs…

La URL exacta, la unidad básica con la que trabaja Google

Volviendo a las SERPs, como hemos comentado, lo que vemos como usuarios son fragmentos de una serie de documentos a los que se accede a través de un enlace. Por lo que, realmente, Google posiciona documentos que responden a una URL. Pero, ¡ojo! Ésta URL debe ser exacta.

Una URL (Uniform Resouce Locator) es una cadena de texto estable que siempre apunta a un mismo documento (páginas, sí, pero también imágenes y otro tipo de recursos) y su estructura es la siguiente:

¿Por qué incidimos en esto? Por que es fundamental entender que las siguientes URLs son para Google (y cualquier otro buscador) documentos distintos a indexar:

http://www.midominio.com/
https://www.midominio.com
https://midominio.com
https://www.midominio.com/?ver=la_home
https://midominio.com/home

Por lo que si tuvieras el mismo contenido en las URLs anteriores, Google estaría considerando que son duplicados, incluso si la diferencia es de tan solo un “/”.

Entonces… ¿cuáles son los requisitos mínimos para que Google pueda leer una URL?

Que la URL sea accesible por los robots de Google solo cargándola, es decir, que no sea una página bajo login, formulario, aceptación de cookies, etc.
Que la URL sea estable , que el documento no varíe a lo largo del tiempo y que el contenido sea original de esa página, o de lo contrario tendríamos duplicados.
Que la URL sea referenciada de alguna forma que guíe a los robots a encontrarla, ya sea desde otra URL indexada, RRSS abiertas, sitemaps.xml o herramientas de Google…

¿Y cómo es más fácil garantizar estos requisitos? A través de las URLs amigables.

URLs amigables

Imagina que estás buscando información sobre recetas de cocina en un sitio web. Una URL no amigable podría ser algo como:

"https://www.ejemplo.com/?id=123&recipe=6789"

Ésta no ofrece mucha información sobre el contenido de la página. En cambio, una URL amigable para el mismo contenido podría ser:

"https://www.ejemplo.com/recetas/paella-de-marisco"

Las URLs amigables son direcciones web que están diseñadas para ser fáciles de leer y comprender para los usuarios. En lugar de ser largas y llenas de caracteres extraños, están estructuradas de manera clara y descriptiva, lo que facilita su interpretación. Es decir, pasamos de lo que podrían ser URLs técnicas a lógicas y user-friendly.

¿Qué ventajas tienen las URLs amigables:

Se evitan más fácilmente errores: las URLs amigables aunque no son obligatorias, son más fáciles de trabajar. Su estructura lógica permite que los desarrolladores no caigan en confusiones.
Mejoran la experiencia del usuario: Las URLs descriptivas ayudan a los usuarios a entender de qué se trata la página antes de hacer clic en el enlace. Esto les permite tomar decisiones más informadas sobre si el contenido es relevante para ellos.
Facilitan el compartir y el recordar: Las URLs amigables son más fáciles de compartir en redes sociales y otros medios, ya que al tener una estructura lógica son más fáciles de copiar en otros lugares.

¿Y cómo rastrea e indexa Google esas URLs?

Google rastrea e indexa los enlaces a través de Googlebot, esos robots también conocidos como arañas. Lo que hacen es ir rastreando Internet, encontrando páginas y guardando datos esenciales para formar su índice. Ojo que estos bots no tendrán siempre el mismo objetivo. Las arañas de Googlebot tienen dos trabajos principales:

Descubrir URLs.

Esto lo harán a través de los enlaces, los cuales son la clave del rastreo y la indexación. Y es que los bots, cada vez que llegan a una página a través de un enlace, no sólo mirarán el contenido, sino también qué otros enlaces contiene, guardándolos (o no, ya lo veremos en la Parte II) en una lista a la que conocemos como cola de rastreo, con lo que el segundo trabajo sería…

Priorizar las URLs en esta cola de rastreo.

Puesto que cada bot que visita una página no va a poder seguir todos sus enlaces, muchos de ellos van a ir a parar a esa cola de rastreo. Cada bot que trabaje a posteriori se va a ir encargando de los siguientes enlaces en la lista, añadiendo más conforme los encuentre.

Por lo que, si en más de una página encuentra el mismo enlace, va a entender que éste debe priorizarse en su cola de rastreo. Es decir, conforme más enlaces entrantes haya a una página, más se rastreará esta. Por ejemplo: la Home, que generalmente encontramos en todas las páginas del site referida incluso desde más de un punto: menú, logos, breadcrumbs, etc.

Con toda esta información que hemos dado hasta el momento, podemos establecer la primera regla de oro de todo SEO: Asegurar que todo contenido que se va a ofrecer al buscador pueda leerse, es decir, esté enlazado.

Ahora bien, ¿qué poder tenemos sobre el rastreo e indexación? ¿Hay algo que podamos hacer para controlarlo? ¿Cómo podemos hacer que nuestras páginas existan o incluso dejen de existir para Google? Te invitamos a seguir leyéndonos para descubrirlo…

OTROS ARTÍCULOS DE LA SERIE

🔗 ¿Cómo podemos controlar la indexación?
🔗 10 cosas que deberías saber sobre las etiquetas meta-robots
🔗 11 cosas que deberías saber sobre los archivos robots.txt
🔗 12 cosas que deberías saber sobre los sitemaps.xml
🔗 Indexación de páginas mediante links externos

ARTÍCULO RELACIONADO CON:

Indexación

Cristina García

Responsable de Comunicación

PrevANTERIORMigraciones SEO: los 7 puntos clave a tener en cuenta cuando cambias la web de tu negocio

SIGUIENTE¿Cómo podemos controlar la indexación?Next

También te puede interesar

El diamante SEO de IKAUE

Blog de IKAUE Blog de SEO

¿Cómo entiende Google tu negocio hoy? En el mundo del posicionamiento web, es fácil perderse entre cientos de métricas técnicas,

+

Potencia tu Análisis SEO con IA

Blog de Data Blog de SEO

Recientemente tuve el placer de dar una charla en el evento SEOPLUS, donde exploré diversas formas de agilizar y potenciar

+

K-Means sin complicaciones con BigQuery ML. Crea clusters automáticos en segundos.

Blog de Analítica Digital Blog de Data Blog de SEO

Imagina que tienes delante una enorme caja de piezas de Lego… diferentes formas, tamaños y colores, todo mezclado. ¿Cómo empezarías

+

Domina los Embeddings : La clave para el análisis semántico de contenidos, textos, documentaciones y keywords.

Blog de Data Blog de SEO

Empecemos por lo básico ¿Qué son los embeddings o vectores semánticos? En el mundo del procesamiento del lenguaje natural (PNL),

+

Cómo optimizar tu SEO Técnico cuando IT no responde a tiempo

Blog de SEO

En la pasada edición del AQUINOHAYPLAYA Jose Roig impartió una charla sobre como agilizar la implementación de mejoras SEO reduciendo

+

Redirecciones por IP (GeoIP) en negocios internacionales: cómo hacerlo correctamente

Blog de SEO

Imagina que estás de viaje en un país extranjero y decides visitar el sitio web de tu tienda favorita para

+

TODas las entradas

Regístrate gratuitamente y accede a todos nuestros recursos

¿Cómo funciona Google y encuentra el contenido?

¿Cómo busca Google? ¿Qué hay que hacer para que indexe nuestras páginas?

Para empezar, ¿conoces las SERPs?

¿Y dónde se da respuesta a estas keywords o búsquedas?

¿Cómo funciona el buscador? ¿Cómo prioriza las respuestas?

La URL exacta, la unidad básica con la que trabaja Google

URLs amigables

¿Y cómo rastrea e indexa Google esas URLs?

Descubrir URLs.

Priorizar las URLs en esta cola de rastreo.

OTROS ARTÍCULOS DE LA SERIE

ARTÍCULO RELACIONADO CON:

También te puede interesar

El diamante SEO de IKAUE

Potencia tu Análisis SEO con IA

K-Means sin complicaciones con BigQuery ML. Crea clusters automáticos en segundos.

Domina los Embeddings : La clave para el análisis semántico de contenidos, textos, documentaciones y keywords.

Cómo optimizar tu SEO Técnico cuando IT no responde a tiempo

Redirecciones por IP (GeoIP) en negocios internacionales: cómo hacerlo correctamente

¡Suscríbete!

RECIBE NUESTRA NEWSLETTER

Registrar nueva cuenta