La indexación de páginas es uno de los pilares fundamentales en cualquier estrategia de SEO. Sin indexación, no hay posicionamiento, y sin posicionamiento, no hay sesiones ni conversiones. Este principio básico, aunque a menudo pasado por alto, es crucial para cualquier profesional del SEO. Es fundamental entender que una página solo es útil si está indexada por Google, ya que esto es lo que permitirá que aparezca en los resultados de búsqueda.
Una página indexada es aquella que Google no solo ha rastreado, sino que también ha considerado válida y la ha asociado con palabras clave específicas.
Es decir, el motor de búsqueda ha decidido que dicha página merece aparecer en sus resultados cuando los usuarios realizan búsquedas relacionadas. Por lo tanto, sin este paso, toda la optimización y generación de contenido se queda en un esfuerzo estéril. Controlar qué páginas están indexadas es, por tanto, la base de cualquier análisis serio de SEO técnico.
Paso 1: Hay que entender la diferencia entre rastreo e indexación
Uno de los conceptos más importantes en SEO técnico es la distinción entre el rastreo y la indexación. Es un error común asumir que si Google ha rastreado una URL, esta será automáticamente indexada. Sin embargo, la realidad es más compleja: Google puede decidir no indexar una URL por diversas razones, incluso si la rastrea constantemente.
- Baja calidad del contenido
- Poca autoridad
- Problemas de duplicidad
- Mala experiencia en la página
- Poca credibilidad del site, autor o contenido
- Pocas visitas de Googlebot
- Etc.
Además, el hecho de que una URL haya sido indexada en algún momento no garantiza que continúe siéndolo en el futuro.
Debemos entender también que, en ciertos casos, Google puede indexar una URL sin haberla rastreado nunca. Esto puede suceder, por ejemplo, cuando una URL está bloqueada por un archivo robots.txt que le prohíbe visitarla. Aun así, si Google encuentra enlaces hacia esa URL, podría optar por indexarla sin realizar un rastreo. En definitiva, hay que diferenciar, como mínimo conceptualmente el rastreo de la indexación.
El desafío de analizar la indexación de páginas
A pesar de la importancia de la indexación, analizar este aspecto es uno de los mayores retos en SEO técnico. Google ofrece datos valiosos en Google Search Console (GSC) y otras herramientas, pero estos no siempre son suficientes para obtener una visión clara de la indexación. En GSC, podemos ver métricas como impresiones, clics y rastreo, pero el dato exacto sobre si una URL está indexada o no es difícil de obtener para todas ellas.
Qué nos dan Google o nuestras herramientas SEO para analizar la indexación
En el proceso de analizar la indexación de URLs, es común recurrir a diversas herramientas SEO, cada una ofreciendo datos que pueden parecer útiles, pero que al final no proporcionan una visión completa o precisa de la situación. A continuación, se describen algunas de las fuentes más comunes para obtener datos de indexación y por qué pueden resultar insuficientes en muchos escenarios:
- Informe de páginas en Google Search Console (GSC):
GSC es la herramienta de referencia para obtener datos de rendimiento en Google, incluyendo impresiones, clics y métricas de rastreo. Dentro de esta suite, GSC ofrece un informe de cobertura del índice de Google al que llama «Páginas». El informe muestra páginas válidas y excluidas con todo detalle y sin duda es la fuente más fiable por la que podemos obtar para conocer la indexación de nuestros sites.
¿El problema?, el informe no permite una verificación detallada de la indexación URL por URL de manera simple. En ese informe, los datos se presentan de manera acumulada por cada estado de las URLs. Cuando intentamos bajar al detalle tan solo se nos dan por lo general 500 o máximo 1000 URLs de ejemplo y nunca más. Esto dificulta enormemente identificar problemas específicos de indexación o realizar cualquier análisis con clusters o tipologías de URLs y contenidos.Aunque existen soluciones parciales a este problema, como la subida de Sitemaps troceados, que harán que podamos filtrar por sus URLs para profundizar algo en los problemas, la realidad es que este informe no es el más cómodo ni el más versátil para analizar nada.
- Logs del servidor y GSC Crawl Stats:
Los registros de logs y las estadísticas de rastreo (también dentro de GSC) proporcionan información sobre las páginas que Google ha rastreado. Si bien en «Crawl Stats» de GSC seguimos quedándonos cortos de análisis, la realidad es que con un trabajo detallado de los logs de acceso del servidor se puede llegar al nivel de detalle que tu desees. Sí, definitivamente los logs nos dejan analizar sin problemas el rastreo de Google. No obstante, es importante recordar (otra vez más) que rastreo no es sinónimo de indexación. Google puede rastrear una página sin necesariamente incluirla en su índice. Por lo tanto, confiar solo en estos datos puede llevar a conclusiones erróneas sobre la indexación real de tu negocio. No, no nos sirve como herramienta de control de la indexación. - API de inspección de URLs de Google:
La API de inspección de URLs permite verificar el estado de indexación de URLs específicas. Aunque es una herramienta potente, tiene limitaciones significativas, como la cantidad de solicitudes permitidas por día, lo que la hace poco práctica para sitios con un gran volumen de URLs. Además, el proceso de consulta URL por URL es tedioso y no escalable para análisis masivos por esas limitaciones que mencionaba antes.Esta herramienta sería suficiente en un escenario que no es muy común: Cuando tu site es pequeño (pocos cientos de URLs) y dispones de un equipo técnico capaz de usar esta API con solutura. Entonces si, estarías en muy buena situación, pero estarás conmigo en que esto es extremadamente raro.
- Screaming Frog, Sitebulb y otros crawlers:
Herramientas como Screaming Frog son excelentes para mapear la estructura de un sitio y entender cómo las páginas están enlazadas internamente. Sin embargo, estas herramientas no proporcionan datos de indexación directamente. Se pueden usar en combinación con otros datos (como los obtenidos de GSC) para inferir la indexación, pero no son una fuente definitiva por sí solas. - Google Analytics:
No es una herramienta de indexación. Google Analytics podrá mostrarte qué páginas están recibiendo tráfico orgánico, lo cual indirectamente sugiere que esas páginas están indexadas. Sin embargo este dato queda muy muy lejos de lo que andamos buscando y debemos descartarlo como un dato útil para controlar la indexación.
Resumiendo: ¿Por qué estas herramientas no son suficientes?
A pesar de la utilidad que ofrecen, ninguna de estas herramientas proporciona una solución completa para analizar la indexación de un sitio. Google Search Console, aunque es tremendamente útil, y sin duda nuestro punto de partida en la mayor parte de análisis, no permite un análisis granular y específico URL por URL, lo que limita la capacidad para identificar y corregir problemas de indexación a gran escala. Los logs del servidor y las estadísticas de rastreo muestran actividad de rastreo, pero no garantizan la indexación, lo que puede llevar a interpretaciones erróneas.
La API de inspección de URLs de Google es precisa, pero sus limitaciones en cuanto a la cantidad de solicitudes diarias y su uso tedioso la hacen impráctica para sitios grandes. Mientras que herramientas como Screaming Frog proporcionan un excelente mapeo del sitio, no ofrecen datos de indexación directamente, y Google Analytics, aunque útil para observar tráfico, no es una herramienta de indexación.
Estas herramientas, aunque valiosas en su contexto, no cubren completamente las necesidades de análisis de indexación. Por ello, es crucial complementarlas con enfoques alternativos, como el análisis de impresiones, para obtener una visión más completa y accionable del estado de indexación de un sitio web.
Nuestra aproximación: utilizar las impresiones como un indicador de indexación. Hablar de las «URLs con valor SEO».
Dada la dificultad para obtener datos precisos sobre la indexación, proponemos un enfoque alternativo: utilizar la existencia de impresiones como un indicador de si una URL está indexada o no. Es decir: Si una URL tiene impresiones en un periodo de tiempo considerable (2 semanas, 2 meses, 6 meses, depende de lo que tu quieras) es que está indexada en Google y nos aporta valor. Si no tiene ni siquiera una impresión, es que no lo está o como mínimo, no nos aporta ningún valor.
Las impresiones son un dato que se puede extraer fácilmente de Google Search Console, el cual luego podremos observar desde la propia herramienta, desde Looker Studio, Google Sheets, o incluso a través de herramientas que cruzan datos como Screaming Frog.
Este enfoque es práctico y está fuertemente vinculado con el negocio, ya que una URL sin impresiones durante un período razonable probablemente no esté indexada, o como mínimo, no estará resultando útil para el negocio. Para entender esto vamos a listar los motivos por los que una URL podría estar Indexada, pero no tener ni siquiera una impresión en GSC:
- Que nadie la busque: Es decir, que tu URL esta lista para responder a una búsqueda de Google, pero que nadie haya buscado esa keyword en tu país en el periodo de tiempo que observas. Por eso usamos periodos de tiempo altos. Hay keywords que es normal que un día concreto alguien no als busque, pero cuando sacas 6 meses de GSC, que nadie busque algo como mínimo es señal de que estar posicionado en esa Keyword no te sirve de nada. No son URLs con valor.
- Que Google la anonimice: Esta es una limitación de GSC. Cuando le pedimos informes de impresiones y clicks nos anonimiza las búsquedas menos comunes. Es decir, que si solo un usuario anecdótico ha buscado una Keyword en Google, es posible que GSC no reporte ese dato, pero como anónimo y no nos diga la keywords exacta que se buscó. Esto aunque afecta más a las keywords de GSC, también puede hacer que nos anonimice la URL lo que nos quita aun más datos. Pero otra vez, volvemos a estar en las mismas: Si hace esto es porque son keywords tan long tail que analizar el posicionamiento en ellas no tiene sentido. Cualquier URL posicionada ahí tiene nulo o escasísimo valor para nuestro SEO.
Entendido lo que significa una URL con impresiones, las ventajas de un enfoque que asocie impresiones con valor de dicha URL son claras: es fácil de extraer, se puede gestionar URL por URL y está muy relacionado con el rendimiento real del negocio. Además, nos permite conocer las palabras clave asociadas a cada URL, lo cual es vital para entender su relevancia en el contexto de nuestra estrategia SEO.
Sin embargo, es importante tener en cuenta que este método no es infalible y no sustituye al 100% a la medición de urls Indexadas: Si bien una URL con impresiones está, sin duda, indexada, una URL indexada podría no generar impresiones, lo que sugiere que, aunque esté en el índice de Google, no es útil para el negocio.
La sombra de la anonimización nos va a hacer dudar. Este hecho puede crear lagunas en nuestros análisis, especialmente en sitios con miles de URLs. Cuando usamos reporting directo sobre GSC (a través de la ingerfaz de GSC o en Looker Studio) esta anonimización tiende a ser bastante elevada en sites que tiran mucho del longtail. No obstante, si usas la integración de GSC con BigQuery el problema se mitiga muchísimo, proporcionando una mayor cantidad de datos para análisis y minimizando la anonimización hasta hacerla prácticamente inexistente en muchos sites.
Dos formas de trabajar. Elige en cada negocio cual es la tuya.
Entendido como funciona este sistema, es indiscutible que calcular las URLs con valor SEO (minimo 1 impresión) además de ser sencillo puede ser muy útil para gestionar el día a día de tus optimizaciones. Ahora bien. ¿Cuánta presencia quiero que tenga esta métrica en mis análisis? En IKAUE ya os digo que tiene muchísima, pero no siempre la misma.
Cuando desarrolles tu embudo de métricas SEO, tendemos que tomar una decisión en cada negocio:
- ¿Asumo que «URLs con valor SEO» es casi igual a URLs Indexadas?
- ¿O me quedo con que son cosas distintas y por lo tanto mi Funnel SEO tendrá un estado de URLS indexadas que luego pasan a transformarse URLs con valor?
Si optas por lo primero tu vida se va a simplificar muchísimo. Vas a poder discutir sobre qué URLS realmente funcionan y cuales no. Pero sin duda asumirás un pequeño (o a veces no tan pequeño) margen de error. Si optas por lo segundo, siempre sabrás mejor lo que sucede, pero complicarás en algunos puntos innecesariamente las discusiones… «Sí, claro, me dices que en esta categoría tenemos un 40% de URLs sin valor, pero si no me dices si están indexadas o no, yo no quiero optimizarlas».
¿Cómo hacerlo? Yo no puedo cambiar las creencias de cada uno, pero si os digo que la primera opción nos resulta más eficiente en prácticamente todos los escenarios. Eso si, eso no quita que no queramos calcular cual es ese margen de error.
Cómo validar si tus URLs sin impresiones coinciden con las que realmente no están indexadas. ¿Cuál es el margen de error?
Para confirmar si nuestras URLs indexadas según las impresiones reflejan la realidad, podemos realizar dos ejercicios distintos. Uno a nivel macro y otro al detalle.
Analizar la diferencia entre ambas métricas a nivel macro:
Va a ser lo más rápido. Tan solo necesitas ir a tu informe de cobertura/páginas en GSC y sacar las URLs «válidas» (las de color verde). Ese es tu total de Indexadas.
Por otro lado crea un minidashboard en Loocker Studio.
- Añádele un selector de tiempo y sitúalo en el tiempo que tu consideras necesario para que exista al menos una impresión del 100% de tus keywords. Por ejemplo: 2 meses.
- Añade una tarjeta de métrica global. En ella selecciona el campo de URL / Página de destino. Loocker hará el conteo de páginas únicas y ya tendrás la métrica de «URLS con al menos una impresión». ¿Por qué? pues porque en este informe, para que aparezca la URL deberá tener mínimo esa impresión que buscas.
Ahora tienes ambas métricas. Divídelas y tendrás que porcentaje de tus URLs indexadas tienen valor. Porcentajes altos (>80%) te van a permitir trabajar muy cómodo con esa simplificación de «indexada» = «con impresiones». Porcentajes más altos, igual no te permiten olvidarte de que no son la misma cifra y te faltan indexadas (aunque de las que no aportan).
Analizar esta diferencia a nivel micro:
Para esto, os propongo otro ejercicio práctico: extraer todas las URLs que conocemos (ya sea por crawls, sitemaps, etc.) y compararlas con las que tienen impresiones en GSC. Al compararlas tendrás la lista absoluta de todas las URLS conocidas que no tienen impresiones en GSC.
A continuación, podemos buscar la palabra clave primaria asociada a cada URL (e incluso añadirle la marca a esta) y utilizar un tracker de posiciones en Google (o búsquedas manuales una a una sobre una selección de estas URLS) para verificar si nuestra URL aparece en los resultados de búsqueda.
Si la URL no aparece en el top 100 de resultados, es un indicador bastante clara de que, efectivamente, no está indexada o, al menos, no nos aporta absolutamente nada. Si aparece y en buena posición, deberíamos entender que nuestro problema está en la keyword y no tanto en la indexación.
Si no te acaba de gustar la aproximación que te proponemos (0 impresiones = desindexada), haz este ejercicio, porque si no, por mucho que lo uses, no te lo acabarás de creer.
Aplicaciones prácticas de análisis con URLs con valor SEO
Una vez disponemos de un sistema ágil y creíble para el control de indexadas, granular pero completo, se abre ante nosotros una gran cantidad análisis posibles. Vamos a repasar solo algunos:
(A partir de este punto asumimos que URL con valor = URL con impresiones = URL indexada. A sabiendas de que esto no es 100% cierto, pero lo asumimos para simplificar explicaciones).
1. Detección de tipologías o categorías de páginas con baja indexación
Una de las aplicaciones más reveladoras del análisis de URLs indexadas es la capacidad de identificar tipologías o categorías de páginas que muestran una baja indexación. Este tipo de análisis es crucial para entender si existen problemas estructurales en el sitio que estén afectando negativamente la visibilidad de ciertas secciones. Por ejemplo, es común que ciertas categorías de productos en un e-commerce no estén bien indexadas debido a problemas como contenido duplicado o insuficiente, una mala estructura de enlaces internos, o una falta de relevancia percibida por Google.
Para realizar este análisis, se pueden clusterizar las URLs del sitio según su tipología—por ejemplo, páginas de producto, categorías, artículos de blog, etc.—y luego comparar los porcentajes de indexación dentro de cada grupo. Si se observa que una categoría específica tiene una tasa de indexación significativamente menor, es una señal clara de que hay un problema que debe ser investigado a fondo. Las soluciones pueden ir desde la optimización de contenidos hasta la reestructuración de la arquitectura de enlaces internos para mejorar la relevancia percibida por Google.
2. Evaluación del impacto del crawldepth en la indexación
El concepto de crawl depth, o la profundidad a la que se encuentra una página dentro de la jerarquía de un sitio web, es otro factor crítico que puede influir en la indexación. Las páginas que están demasiado profundas en la estructura del sitio (es decir, aquellas que requieren varios clics desde la página principal para ser alcanzadas) tienen menos probabilidades de ser rastreadas frecuentemente por Google, y por ende, menos probabilidades de ser indexadas.
Este análisis implica evaluar cómo la profundidad de rastreo afecta la indexación y la visibilidad de tus páginas. Al comparar la profundidad de las URLs con sus tasas de indexación y sus impresiones en GSC, puedes identificar patrones que indiquen la necesidad de reducir la profundidad de ciertas páginas clave, posiblemente moviéndolas más cerca de la raíz del sitio o aumentando su número de enlaces internos. Además, se puede determinar si la falta de indexación está correlacionada con una alta profundidad de rastreo, lo que podría sugerir la necesidad de una reestructuración del sitio.
3. Impacto de los enlaces internos en la probabilidad de indexación
La cantidad y calidad de los enlaces internos que recibe una página también juegan un papel fundamental en su indexación. Páginas con escasos enlaces internos suelen ser consideradas menos importantes por Google y, por lo tanto, tienen menos probabilidades de ser indexadas. Un análisis de enlaces internos puede ayudarte a entender cómo la distribución de estos enlaces afecta la indexación de tus páginas.
Este tipo de análisis implica mapear la red de enlaces internos del sitio, identificando aquellas páginas que reciben un número insuficiente de enlaces. A partir de aquí, puedes rediseñar la estrategia de enlaces internos para asegurarte de que las páginas más importantes (y aquellas con problemas de indexación) reciban una mayor cantidad de enlaces, mejorando así su relevancia y su posibilidad de ser indexadas. También es importante observar el uso de enlaces de calidad, es decir, enlaces desde páginas bien posicionadas y con alta relevancia dentro del sitio.
4. Análisis de la saturación de enlaces y su efecto en la indexación
Otro aspecto clave es el análisis de la saturación de enlaces, que se refiere a la cantidad de enlaces salientes que tiene cada página en su HTML. Aunque un alto número de enlaces internos beneficia a la indexación, existe un punto de saturación donde más enlaces en una sola página no necesariamente implican mejores resultados. Googlebot no sigue todos los enlaces que le indiques en una página. Tiene unos máximos que dificilmente pasan de los 200 enlaces por página. Eso puede hacer que cuando mires tu Screaming Frog (o tu crawler de cabecera) veas que hay páginas que Google debería atender muy rápido, pero que en realidad no lo hace porque esos enlaces no los sigue (al haberse encontrado siempre rodeados de muchísimos otros)
El análisis de la saturación de enlaces consiste en identificar aquellas páginas que no se indexan bien a pesar de recibir enlaces. Si lo acompañamos de un análisis de enlaces salientes de las páginas que se los envían, podemos llegar a conclusiones muy interesantes.
Si identificas páginas con alta saturación de enlaces podrás arreglar estos problemas de indexación (en un principio ilógicos) es posible que necesites revisar el contenido de esas páginas o considerar una redistribución más estratégica de los enlaces internos. Esto podría implicar reducir el número de enlaces en las maquetas, el número de productos items de listados, o aligerar menús y footers.
5. Evaluación del impacto del contenido duplicado y «thin content» en la indexación
El contenido duplicado y el «thin content» (contenido de baja calidad o escaso) son factores que pueden afectar significativamente la indexación de un sitio web. Google tiende a ignorar o penalizar páginas que considera duplicadas o que no ofrecen valor suficiente al usuario. Por lo tanto, es crucial identificar y corregir estos problemas para mejorar las tasas de indexación y, en última instancia, la visibilidad de tu sitio en los motores de búsqueda.
El análisis del contenido duplicado implica revisar las páginas para identificar aquellas que son demasiado similares entre sí. En un análisis macro, desde el propio crawler o con técnicas de comparación de entidades, podrás crear un scoring de dupliciadad para identificar qué páginas son las que deberían preocuparte. Una vez identificadas, las páginas duplicadas pueden ser consolidadas en una sola página de mayor calidad, o se puede optar por aplicar etiquetas canónicas para dirigir el valor SEO a la página más relevante. Pero antes de dar ese paso, es importante validar que efectivamente las páginas que detectas como duplicadas no están siendo indexadas.
Por otro lado, el «thin content» requiere una evaluación del valor que cada página aporta al usuario. Páginas con poco contenido o con contenido de baja calidad deben ser mejoradas o combinadas con otras páginas para crear un contenido más robusto y útil. Eliminar o mejorar estas páginas puede no solo ayudar con la indexación, sino también mejorar la experiencia del usuario y, como resultado, el rendimiento general en SEO. Pero otra vez, un análisis de su indexación real nos ayudará a asegurarnos de que hemos detectado el thin content de forma adecuada.
6. Análisis de la influencia de los criterios de calidad en la indexación
Los criterios de calidad, como las Core Web Vitals, la velocidad del sitio y los principios de EEAT (Experiencia, Experiencia, Autoridad y Confiabilidad), juegan un papel cada vez más importante en la indexación de las páginas. Google ha dejado claro que estas métricas influyen en su algoritmo de búsqueda, y pese a que entran más en la etapa de valoración de calidad, su impacto en la indexación no debe subestimarse.
Las Core Web Vitals se centran en la experiencia del usuario, midiendo aspectos como la velocidad de carga, la interactividad y la estabilidad visual de las páginas. Las páginas que no cumplen con los estándares de Core Web Vitals tienen menos probabilidades de ser indexadas o pueden sufrir en su posicionamiento. Realizar auditorías técnicas utilizando herramientas como Google PageSpeed Insights o Lighthouse te permitirá identificar y corregir problemas relacionados con estas métricas, mejorando así las posibilidades de indexación.
Además, los principios de EEAT son fundamentales para que Google confíe en el contenido de tu sitio. Páginas que no demuestran experiencia, autoridad y confiabilidad son menos propensas a ser indexadas o bien posicionadas. Asegúrate de que tu contenido esté respaldado por fuentes confiables, que las páginas sean autoritativas en su temática y que toda la información esté presentada de manera clara y profesional.
En ambos casos, gracias a controlar los porcentajes de indexación de cada una de tus tipologías de páginas podrás ver realmente el efecto de las carencias que detectes. Sí, tienes un LCP alto, más que el de tu competencia. Eso bueno no va a ser, pero si al mismo tiempos ves que aquellas con un mal CLS son las que luego no se indexan, igual deberías mejorar ese problema antes.
Conclusión: el control de la indexación es una herramienta fundamental en SEO
La capacidad de saber automáticamente y sin mucho esfuerzo si una URL está o no indexada es esencial para abordar los problemas reales de indexación en tu sitio. Para sitios pequeños, la API de inspección de URLs de Google es una herramienta poderosa, pero en sitios más grandes, es mucho más práctico trabajar con el concepto de URLs sin impresiones o sin valor SEO. Aunque este método tiene un margen de error, su sencillez y facilidad de implementación lo convierten en una herramienta de valor incalculable.
Adoptar este enfoque no solo te permitirá aprender más sobre tus sitios, sino que también te proporcionará insights más profundos y acciones con un impacto real en tu estrategia SEO. En definitiva, el control de las páginas indexadas es el primer paso para optimizar verdaderamente el rendimiento de un sitio web en los motores de búsqueda.