Analiza las páginas indexadas «con valor SEO»: Cómo resolvemos el desafío de la indexación en IKAUE

La indexación de páginas es uno de los pilares fundamentales en cualquier estrategia de SEO. Sin indexación, no hay posicionamiento, y sin posicionamiento, no hay sesiones ni conversiones. Este principio básico, aunque a menudo pasado por alto, es crucial para cualquier profesional del SEO. Es fundamental entender que una página solo es útil si está indexada por Google, ya que esto es lo que permitirá que aparezca en los resultados de búsqueda.

Una página indexada es aquella que Google no solo ha rastreado, sino que también ha considerado válida y la ha asociado con palabras clave específicas

Es decir, el motor de búsqueda ha decidido que dicha página merece aparecer en sus resultados cuando los usuarios realizan búsquedas relacionadas. Por lo tanto, sin este paso, toda la optimización y generación de contenido se queda en un esfuerzo estéril. Controlar qué páginas están indexadas es, por tanto, la base de cualquier análisis serio de SEO técnico.

Paso 1: Hay que entender la diferencia entre rastreo e indexación

Uno de los conceptos más importantes en SEO técnico es la distinción entre el rastreo y la indexación. Es un error común asumir que si Google ha rastreado una URL, esta será automáticamente indexada. Sin embargo, la realidad es más compleja: Google puede decidir no indexar una URL por diversas razones, incluso si la rastrea constantemente.

  • Baja calidad del contenido
  • Poca autoridad
  • Problemas de duplicidad
  • Mala experiencia en la página
  • Poca credibilidad del site, autor o contenido
  • Pocas visitas de Googlebot
  • Etc.


Además, el hecho de que una URL haya sido indexada en algún momento no garantiza que continúe siéndolo en el futuro.

Debemos entender también que, en ciertos casos, Google puede indexar una URL sin haberla rastreado nunca. Esto puede suceder, por ejemplo, cuando una URL está bloqueada por un archivo robots.txt que le prohíbe visitarla. Aun así, si Google encuentra  enlaces hacia esa URL, podría optar por indexarla sin realizar un rastreo. En definitiva, hay que diferenciar, como mínimo conceptualmente el rastreo de la indexación.

El desafío de analizar la indexación de páginas

A pesar de la importancia de la indexación, analizar este aspecto es uno de los mayores retos en SEO técnico. Google ofrece datos valiosos en Google Search Console (GSC) y otras herramientas, pero estos no siempre son suficientes para obtener una visión clara de la indexación. En GSC, podemos ver métricas como impresiones, clics y rastreo, pero el dato exacto sobre si una URL está indexada o no es difícil de obtener para todas ellas. 

Qué nos dan Google o nuestras herramientas SEO para analizar la indexación

En el proceso de analizar la indexación de URLs, es común recurrir a diversas herramientas SEO, cada una ofreciendo datos que pueden parecer útiles, pero que al final no proporcionan una visión completa o precisa de la situación. A continuación, se describen algunas de las fuentes más comunes para obtener datos de indexación y por qué pueden resultar insuficientes en muchos escenarios:

  • Informe de páginas en Google Search Console (GSC):
    GSC es la herramienta de referencia para obtener datos de rendimiento en Google, incluyendo impresiones, clics y métricas de rastreo. Dentro de esta suite, GSC ofrece un informe de cobertura del índice de Google al que llama «Páginas». El informe muestra páginas válidas y excluidas con todo detalle y sin duda es la fuente más fiable por la que podemos obtar para conocer la indexación de nuestros sites.

    ¿El problema?, el informe no permite una verificación detallada de la indexación URL por URL de manera simple. En ese informe, los datos se presentan de manera acumulada por cada estado de las URLs. Cuando intentamos bajar al detalle tan solo se nos dan por lo general 500 o máximo 1000 URLs de ejemplo y nunca más. Esto dificulta enormemente identificar problemas específicos de indexación o realizar cualquier análisis con clusters o tipologías de URLs y contenidos.

     

    Aunque existen soluciones parciales a este problema, como la subida de Sitemaps troceados, que harán que podamos filtrar por sus URLs para profundizar algo en los problemas, la realidad es que este informe no es el más cómodo ni el más versátil para analizar nada.

  • Logs del servidor y  GSC Crawl Stats:
    Los registros de logs y las estadísticas de rastreo (también dentro de GSC)  proporcionan información sobre las páginas que Google ha rastreado. Si bien en «Crawl Stats» de GSC seguimos quedándonos cortos de análisis, la realidad es que con un trabajo detallado de los logs de acceso del servidor se puede llegar al nivel de detalle que tu desees. Sí, definitivamente los logs nos dejan analizar sin problemas el rastreo de Google. No obstante, es importante recordar (otra vez más) que rastreo no es sinónimo de indexación. Google puede rastrear una página sin necesariamente incluirla en su índice. Por lo tanto, confiar solo en estos datos puede llevar a conclusiones erróneas sobre la indexación real de tu negocio. No, no nos sirve como herramienta de control de la indexación.




  • API de inspección de URLs de Google:
    La API de inspección de URLs permite verificar el estado de indexación de URLs específicas. Aunque es una herramienta potente, tiene limitaciones significativas, como la cantidad de solicitudes permitidas por día, lo que la hace poco práctica para sitios con un gran volumen de URLs. Además, el proceso de consulta URL por URL es tedioso y no escalable para análisis masivos por esas limitaciones que mencionaba antes.


     

    Esta herramienta sería suficiente en un escenario que no es muy común: Cuando tu site es pequeño (pocos cientos de URLs) y dispones de un equipo técnico capaz de usar esta API con solutura. Entonces si, estarías en muy buena situación, pero estarás conmigo en que esto es extremadamente raro.

  • Screaming Frog, Sitebulb y otros crawlers:
    Herramientas como Screaming Frog son excelentes para mapear la estructura de un sitio y entender cómo las páginas están enlazadas internamente. Sin embargo, estas herramientas no proporcionan datos de indexación directamente. Se pueden usar en combinación con otros datos (como los obtenidos de GSC) para inferir la indexación, pero no son una fuente definitiva por sí solas.


  • Google Analytics:
    No es una herramienta de indexación. Google Analytics podrá mostrarte qué páginas están recibiendo tráfico orgánico, lo cual indirectamente sugiere que esas páginas están indexadas. Sin embargo este dato queda muy muy lejos de lo que andamos buscando y debemos descartarlo como un dato útil para controlar la indexación.


Resumiendo: ¿Por qué estas herramientas no son suficientes?

A pesar de la utilidad que ofrecen, ninguna de estas herramientas proporciona una solución completa para analizar la indexación de un sitio. Google Search Console, aunque es tremendamente útil, y sin duda nuestro punto de partida en la mayor parte de análisis,  no permite un análisis granular y específico URL por URL, lo que limita la capacidad para identificar y corregir problemas de indexación a gran escala. Los logs del servidor y las estadísticas de rastreo muestran actividad de rastreo, pero no garantizan la indexación, lo que puede llevar a interpretaciones erróneas.

La API de inspección de URLs de Google es precisa, pero sus limitaciones en cuanto a la cantidad de solicitudes diarias y su uso tedioso la hacen impráctica para sitios grandes. Mientras que herramientas como Screaming Frog proporcionan un excelente mapeo del sitio, no ofrecen datos de indexación directamente, y Google Analytics, aunque útil para observar tráfico, no es una herramienta de indexación.

Estas herramientas, aunque valiosas en su contexto, no cubren completamente las necesidades de análisis de indexación. Por ello, es crucial complementarlas con enfoques alternativos, como el análisis de impresiones, para obtener una visión más completa y accionable del estado de indexación de un sitio web.

Nuestra aproximación: utilizar las impresiones como un indicador de indexación. Hablar de las «URLs con valor SEO».

Dada la dificultad para obtener datos precisos sobre la indexación, proponemos un enfoque alternativo: utilizar la existencia de impresiones como un indicador de si una URL está indexada o no. Es decir: Si una URL tiene impresiones en un periodo de tiempo considerable (2 semanas, 2 meses, 6 meses, depende de lo que tu quieras) es que está indexada en Google y nos aporta valor. Si no tiene ni siquiera una impresión, es que no lo está o como mínimo, no nos aporta ningún valor.

Las impresiones son un dato que se puede extraer fácilmente de Google Search Console, el cual luego podremos observar desde la propia herramienta, desde Looker Studio, Google Sheets, o incluso a través de herramientas que cruzan datos como Screaming Frog.

Este enfoque es práctico y está fuertemente vinculado con el negocio, ya que una URL sin impresiones durante un período razonable probablemente no esté indexada, o como mínimo, no estará resultando útil para el negocio. Para entender esto vamos a listar los motivos por los que una URL podría estar Indexada, pero no tener ni siquiera una impresión en GSC:

  • Que nadie la busque:  Es decir, que tu URL esta lista para responder a una búsqueda de Google, pero que nadie haya buscado esa keyword en tu país en el periodo de tiempo que observas. Por eso usamos periodos de tiempo altos. Hay keywords que es normal que un día concreto alguien no als busque, pero cuando sacas 6 meses de GSC, que nadie busque algo como mínimo es señal de que estar posicionado en esa Keyword no te sirve de nada. No son URLs con valor.


  • Que Google la anonimice: Esta es una limitación de GSC. Cuando le pedimos informes de impresiones y clicks nos anonimiza las búsquedas menos comunes. Es decir, que si solo un usuario anecdótico ha buscado una Keyword en Google, es posible que GSC no reporte ese dato, pero como anónimo y no nos diga la keywords exacta que se buscó. Esto aunque afecta más a las keywords de GSC, también puede hacer que nos anonimice la URL lo que nos quita aun más datos. Pero otra vez, volvemos a estar en las mismas: Si hace esto es porque son keywords tan long tail que analizar el posicionamiento en ellas no tiene sentido. Cualquier URL posicionada ahí tiene nulo o escasísimo valor para nuestro SEO.


Entendido lo que significa una URL con impresiones, las ventajas de un enfoque que asocie impresiones con valor de dicha URL son claras: es fácil de extraer, se puede gestionar URL por URL y está muy relacionado con el rendimiento real del negocio. Además, nos permite conocer las palabras clave asociadas a cada URL, lo cual es vital para entender su relevancia en el contexto de nuestra estrategia SEO.

 Sin embargo, es importante tener en cuenta que este método no es infalible y no sustituye al 100% a la medición de urls Indexadas: Si bien una URL con impresiones está, sin duda, indexada, una URL indexada podría no generar impresiones, lo que sugiere que, aunque esté en el índice de Google, no es útil para el negocio.

La sombra de la anonimización nos va a hacer dudar. Este hecho puede crear lagunas en nuestros análisis, especialmente en sitios con miles de URLs. Cuando usamos reporting directo sobre GSC (a través de la ingerfaz de GSC o en Looker Studio) esta anonimización tiende a ser bastante elevada en sites que tiran mucho del longtail. No obstante, si usas la integración de GSC con BigQuery el problema se mitiga muchísimo, proporcionando una mayor cantidad de datos para análisis y minimizando la anonimización  hasta hacerla prácticamente inexistente en muchos sites.

Dos formas de trabajar. Elige en cada negocio cual es la tuya.

Entendido como funciona este sistema, es indiscutible que calcular las URLs con valor SEO (minimo 1 impresión) además de ser sencillo puede ser muy útil para gestionar el día a día de tus optimizaciones. Ahora bien. ¿Cuánta presencia quiero que tenga esta métrica en mis análisis? En IKAUE ya os digo que tiene muchísima, pero no siempre la misma.

Cuando desarrolles tu embudo de métricas SEO, tendemos que tomar una decisión en cada negocio:

  • ¿Asumo que «URLs con valor SEO» es casi igual a URLs Indexadas?

  • ¿O me quedo con que son cosas distintas y por lo tanto mi Funnel SEO tendrá un estado de URLS indexadas que luego pasan a transformarse URLs con valor?


Si optas por lo primero tu vida se va a simplificar muchísimo. Vas a poder discutir sobre qué URLS realmente funcionan y cuales no. Pero sin duda asumirás un pequeño (o a veces no tan pequeño) margen de error. Si optas por lo segundo, siempre sabrás mejor lo que sucede, pero complicarás en algunos puntos innecesariamente las discusiones… «Sí, claro, me dices que en esta categoría tenemos un 40% de URLs sin valor, pero si no me dices si están indexadas o no, yo no quiero optimizarlas».

¿Cómo hacerlo? Yo no puedo cambiar las creencias de cada uno, pero si os digo que la primera opción nos resulta más eficiente en prácticamente todos los escenarios. Eso si, eso no quita que no queramos calcular cual es ese margen de error.

 

Cómo validar si tus URLs sin impresiones coinciden con las que realmente no están indexadas. ¿Cuál es el margen de error?

Para confirmar si nuestras URLs indexadas según las impresiones reflejan la realidad, podemos realizar dos ejercicios distintos. Uno a nivel macro y otro al detalle.

Analizar la diferencia entre ambas métricas a nivel macro: 

Va a ser lo más rápido. Tan solo necesitas ir a tu informe de cobertura/páginas en GSC y sacar las URLs «válidas» (las de color verde). Ese es tu total de Indexadas.

Por otro lado crea un minidashboard en Loocker Studio. 

  • Añádele un selector de tiempo y sitúalo en el tiempo que tu consideras necesario para que exista al menos una impresión del 100% de tus keywords. Por ejemplo: 2 meses.

  • Añade una tarjeta de métrica global. En ella selecciona el campo de URL / Página de destino. Loocker hará el conteo de páginas únicas y ya tendrás la métrica de «URLS con al menos una impresión». ¿Por qué? pues porque en este informe, para que aparezca la URL deberá tener mínimo esa impresión que buscas.