Cuando hablamos de Google Analytics hablamos de datos y de análisis. De una herramienta que por si sola es capaz de realizar todo el proceso necesario para tomar decisiones fundamentadas: desde la captura de páginas, vistas, clicks e impresiones hasta la generación de informes y dashboards complejos. Todo eso es Google Analytics, aunque nosotros estamos acostumbrados a mirar solo hacia su capa superior: Esa interfaz, esas tablas y esos gráficos que nos ofrece.
Aunque es fácil pensar en GA4 como en la interfaz wne que utilizamos para ver informes, en realidad la herramienta es mucho más que eso. Detrás de la pantalla se encuentra un sistema de captura y modelado de datos altamente sofisticado. Sin embargo, usamos en nuestro día a día es su sistema de reporting, que puede parecer abrumador al principio entre dimensiones, métricas, audiencias, segmentos, eventos clave, funnels y conversiones; pero que bien ordenado resulta realmente sencillo y práctico de abordar.
El ecosistema de informes de GA4 es un poco confuso. Hay cosas iguales, cosas que se repiten en disitintos sitios, pero demasiadas zonas donde mirar y demasiadas versiones del mismo dato. Esto es porque en realidad en GA4 no hay un solo sistema de reporting: No solo hay un motor de consultas, sino varios que además pueden convivir en el mismo tipo de informes.
GA4: Más allá de una interfaz, un sistema de reporting con 3 piezas clave
Como decíamos, GA4 es un sistema que captura, modela y organiza los datos de tus usuarios, para luego presentarlos a través de diversos mecanismos. Los tres sistemas de reporting que nos ofrece GA4 son 3:
- El sistema agregado:
la base de los informes estándar y el más simple y rápido de los motores que tiene GA4. - El sistema granular:
más detallado y tremendamente versátil, pero con algunas limitaciones extra que no siempre permiten usarlo. - Exportaciones a BigQuery:
acceso a datos brutos sin las restricciones de los otros sistemas, pero a la que le van a faltar algunos datos que a veces echaremos de menos.
El sistema agregado:
eficiencia y rapidez en los informes estándar
El sistema agregado es el motor detrás de la mayoría de los informes en GA4. Este sistema es ágil y eficiente porque trabaja con lo que podríamos llamar «tablas resumen», que son la fuente de todas sus bondades y problemas.
Técnicamente el sistema de tablas resumen funciona como una base de datos analítica, un sistema de cubos dinámicos que resumen la información que captura GA4 y agiliza enormemente la velocidad a la hora de rescatar datos y segmentarlos en forma de dimensiones y métricas. Casi todas las herramientas de análisis usan este tipo de bases de datos que son algo distintas de las tablas SQL tradicionales. Implican más proceso del dato y que al final se cierren un poco las posibilidades de uso.
GA4 lo que hace es no trabajar con todos los datos a la vez, sino que en su lugar genera «cubos» simples, que para entendernos mejor llamaremos «tablas resumen». Estas tablas resumen son precálculos de la información que se suele consultar en conjunto. Por ejemplo, cuando trabajas con análisis de «medios», es normal que también trabajes con «fuentes», «campañas» y «canales», por lo que tiene todo el sentido del mundo que Google Analytics se prepare una tabla resumen con esos datos ya trabajados con todas sus métricas ya calculadas y así no tener que ir a mirar las campañas de cada evento y sesión recibidos cuando le pides estos informes.
Estas tablas resumen son clave porque:
- Son rápidas, optimizando la consulta de datos.
- No tienen muestreo, lo que garantiza que los datos representen el 100% de la realidad.
- Guardan el histórico completo de datos, sin importar el tiempo que haya pasado.
Sin embargo, no todo es perfecto y también genera serias limitaciones en su uso.
- Una de las principales limitaciones del sistema agregado es la cardinalidad, que se refiere al número máximo de filas que puede manejar una tabla resumen. Si tienes demasiados valores únicos en las dimensiones que estás consultando, podrías encontrarte con el temido valor «(others)», que agrupa los datos menos comunes y los excluye del informe.
- Al haber acumulado los datos esto hace que no podamos cruzar algunas dimensiones por no existir tablas que trabajen en conjunto algunos datos. Esto ha ido siendo, a medida que evolucionaba GA4, cada vez más notorio y es por un tema de eficiencia del sistema. A más limites, menos tablas, a menos tablas más rápido funciona todo
- La última limitación de este sistema se produce en el filtrado: El sistema agregado, tal cual lo ha planteado GA4 no permite filtros complejos. No podemos crear segmentos o secuencias en este sistema
Entendido como funciona este motor de consultas a GA4 nos queda ver en que partesd e GA4 vamos a encontrárnoslo. Este sistema lo encontramos en:
- Fundamentalmente en las consultas estándar. Casi siempre, cuando pedimos un informe del menú de GA4, usaremos el sistema estándar.
- En la API de consultas. La famosa API de GA4 tira del sistema agregado y por eso da resultados similares al de los informes estándar de la biblioteca de informes de GA4.
- Y por lo tanto en todos los productos conectados a GA4: Looker Studio, Google Sheets, Make,
integraciones por código. Todo lo que saca datos de GA4 lo hace mayoritariamente por este sistema.
El sistema granular: profundidad y precisión, pero con muestreo
Este sistema parte de la misma información y tecnologías de GA4 pero en lugar de acumular tanto la información la guarda mucho más al detalle. Sigue usando cubos, dimensiones y trucos técnicos para agilizar consultas, pero en el sistema granular prima poder bajar al detalle de todo. Aquí se almacenan los datos de manera mucho más específica, permitiendo una visión más profunda de los eventos y sesiones.
Entre sus ventajas, encontramos:
- No se ve afectado por la cardinalidad, permitiendo una mayor precisión en los informes, incluso con dimensiones problemáticas.
- Permite cruzar datos más fácilmente, permitiendo incluso la creación de tablas dinámicas.
- Ofrece segmentación avanzada, como el uso de secuencias y filtros de sesión o usuario.
No obstante, también presenta ciertas desventajas:
- Una de las más evidentes: El muestreo. No vamos a encontrar «(others)» en este sistema pues disponemos de todos los datos. Pero a cambio GA4 se protege contra consultas muy costosas limitando a aproximadamente 10 Millones de eventos sueltos los datos que extrae. SI le pides más, muestrea, que es como sacar solo 10M de eventos y hacer una regla de 3 sobre el total.
- Otra menos evidente pero muy crítica: La retención de datos. En el admin de GA4 podemos configurarla pero en cuentas gratuitas solo podemos llegar hasta 14 meses de retención. La retención es el tiempo que se almacena los datos granulares. Es decir, en este sistema, si tu retención es de 2 meses (la que viene por defecto en todas las cuentas y debes cambiar) nunca podrás pedir un informe de datos de hace 3 meses.
- Tiempos de proceso. En cuentas pequeñas no lo notarás, pero cuando tienes muchos datos verás que al usar este sistema puede ser agotador esperar a que te muestre datos.
- No disponer de una API que lo cubra todo. Si bien podemos usar este sistema, muchas veces no podremos hacerlo fuera de la interfaz de analytics, lo cual es muy limitante.
Dónde podemos usar este sistema:
- Sobretodo en los informes de Explorador. Estos informes esta hechos para sacar todo el provecho al sistema de consultas granular de GA4 y por lo tanto al usar estos informes solemos trabajar con este sistema (salvo que nuestras consultas sean muy sencillas).
- En la API de funnels. Por algún motivo GA4 solo nos ha creado API para este tipo de informe de explorador (es de suponer que algún día habrá más, pero ya llevamos mucho tiempo solo con esta API). Así que si quieres aprovechar el potencial de estos informes fuera de GA4, solo puedes hacerlo con la creación de funnels.
Y en ningún sitio más. Como ves este sistema es potente pero se aplica en menos sitios.
Rizando el rizo: Una característica de GA4 que nos confunde a todos.
Hemos explicado 2 sistemas de reporting y más o menos donde vamos a usar cada uno de ellos. Pero verás que hemos aclarado que eso es en «la mayoría de los casos», «muchas veces», «casi siempre». Esto es porque en GA4 el informe que uses no va 100% atado al sistema de reporting que GA4 usa por detrás.
¿Como? ¿Los informes de estandar no usaban tablas resumen y las exploraciones el granular? Si, eso es lo que tocaría, pero en la práctica no es tan sencillo.
GA4, ante una consulta en cualquier informe, lo que hace es comprobar cual de ambos sistemas va a darte mejores datos (Eso sí, Lo que considera mejores datos puede ser un poco tendencioso, pues vela más por su gasto de recursos que por la calidad del dato). En muchos casos al usar informes estándar de la biblioteca decidirá que el mejor sistema para darte datos será el agregado, pero no siempre será así.
Si por ejemplo ve que demandas una dimensión de gran cardinalidad, puede cambiar y usar el granular para no darte el dato «(others)», pero como contra, eso podría provocar que el informe pasase a tener muestreo a pesar de ser un informe estándar.
Igualmente, si al pedirle datos al explorador, estos son simples (no usan segmentos, cruces de datos especiales ni nada así), podría usar el sistema agregado para darte los datos más rápido (y si, podrías ver «(others)» en estos informes por culpa de esta funcionalidad.
¿Cómo detecto entonces en qué sistema se ha creado mi informe?
Lo primero es que esto no importa mucho salvo que las mencionadas limitaciones de GA4 nos afecten. Sí, el dato final de sesiones y usuarios puede ser un poco distinto entre el sistema agregado y el granular, pero no son tan distintos en realidad y a veces hasta coinciden. Así que no nos aferremos a que el dato sea siempre exacto al 100%. Fijémonos solo cuando cambie radicalmente entre un sistema u otro. Esto, casi siempre, sucederá cuando esas limitaciones entran en juego.
Aún así es lícito que quieras saber qué motor de informes se ha encargado de darte una respuesta. Eso es algo que GA4 no te va a decir, pero que puedes intuir o provocar tu mismo:
- Para detectar si el muestreo de un informe granular nos efecta basta con fijarse en el propio informe: Si aparece el icono de muestreo significa que estamos en el motor de informes granulares. Pues el agregado no tiene muestreo
- Para detectar problemas de cardinalidad buscaremos datos con el valor «(others)», eso además de quitarnos datos del informe nos dirá que estamos en el sistema agregado de GA4.
- La limitación de consultas de cada sistema también obliga a GA4 a usar un motor u otro así que muchas veces sabrás lo que va a pasar antes incluso de pedir los datos:
- Si quieres datos por encima del periodo de retención de datos, solo los tendrás en el sistema agregado
- y si quieres segmentos o tablas dinámicas, estos solo son posibles en el granular.
Nuestra recomendación para trabajar en esta locura de incertidumbre:
1. Usa principalmente informes estándar para trabajar.
En estos evita las dimensiones de alta cardinalidad y vigila que no aparezca el muestreo. Esto te mantendrá en el sistema agregado y harás que lo que mires coincida con looker studio, sheets y demás informes. En definitiva, mientras te quedes aquí, serás feliz.
2. Pasa solo a los informes explorador cuando necesites algo que los informes estándar no te dan.
Como para eso usarás recursos que no existen en los informes estándar (segmentos, opciones avanzadas de las tablas) forzarás al sistema a trabajar en el modo granular.
Sea como sea, vigila siempre las limitaciones de GA4 para saber qué y cómo lo estas consultando.
¿Y el Umbral? Nadie habla del umbral.
El umbral: Esa limitación de GA4 por la cual se «esconden» filas completas de datos cuando el sistema ve tan pocos usuarios que cree que podrías identificar a personas concretas.
Se aplica tanto al sistema granular como al agregado por lo cual no lo hemos mencionado en los puntos anteriores. Pero si que es una limitación más a tener en cuenta y además que no afecta al tercer sistema del que hablaremos ahora.
Exportaciones a BigQuery: el poder del dato bruto
Habrás oído que BigQuery es «lo que tienes que usar si o si para sacar partido a GA4». No puedo estar más de acuerdo y al mismo tiempo más en contra de esta afirmación.
BigQuery ofrece un tercer sistema de reporting al exportar los datos crudos que GA4 captura hacia una base de datos en la nube. Este sistema es ideal si necesitas trabajar con datos sin las limitaciones de muestreo, cardinalidad o retención que afectan a los otros sistemas.
Las ventajas de usar BigQuery incluyen:
- No tiene limitaciones en cuanto a muestreo, cardinalidad, umbral o retención de datos. Aquí tu tienes el dato y solo lo limitas si quieres. Así que GA4 no anda bajándote la calidad del dato por distintos motivos.
- Permite cruzar los datos de GA4 con otros datasets, lo que te da una visión más completa. Es una base de datos SQL lo que significa que puedes cargar datos de tu negocio o tus campañas y tener una foto mucho más completa de lo que sucede en tu web o app.
- Te ofrece la libertad de crear tus propias métricas y análisis personalizados. Otra vez, tu puedes hacer lo que quieras con los datos y si para ti las conversiones por ejemplo son por usuario, puedes crear esa métrica que en GA4 no existe.
Sin embargo, este sistema también tiene sus retos. Algunos suficientes como para que no quieras usarlo.
- La base de datos no aporta la consolidación y el Machine Learning de Google. No tendrás ahí datos de usuarios blended, las dimensiones de Google Signals como sexo, edad o afinidades, ni ninguna de las tecnologíss que usa Google para mejorar tus datos. Si algo no se captura mediante hits directos, en BigQuery no lo tendrás.
- La atribución es más limitada. Si bien, a día de hoy, hay ya datos de atribución a last click, lo cierto es que sigue sin haber sincronización completa con Google Ads, Campaign Manager y otras herramientas. Tampoco hay modelado de datos de atribución de sesión, ni el modelo de atribución basado en datos (que es el que más se usa). Todo eso no podrás reportarlo con BigQuery.
- Todo informe que quieras ver, vas a tener que hacertelo tu. Sales del sistema de dimensiones y métricas de Google Analytics y todo vas a tener que hacerlo con SQL (SELECTs, Subselects, Withs y Group Bys). No es tan complejo una vez lo entiendes y hay algunas IAs capaces de sacarte casi cualquier dato en poco tiempo, pero todo va a pasar a ser más artesanal y lento cuando trabajes en este sistema.
- Y por último. BigQuery es de pago. Pagas por almacenar los datos y por cada consulta que ahí lances. En un site con tráfico comedido el coste es muy contenido y no llegará a 100€ al mes por muy avanzados que sean tus análisis. Pero en sites medianos y grandes, ya con tráfico y campañas no es raro pasar los 500€ de gasto al mes en BigQuery
Una infografía para resumirlos todos
Hace un tiempo en IKAUE creamos esta pequeña infografía que resumía todos estos aspectos que comentamos (e incluso algún detalle suelto más). Esperamos que os sirva de referencia para recordar todos los detalles de los distintos sistemas de reporting de GA4 y que en definitiva eso os permita comprender mejor lo que hacéis y podéis hacer en GA4.
Descárgala y úsala como chuleta para terminar de interiorizar los distintos sistemas de reporting GA4.
Conclusión
Conocer cómo funcionan los tres sistemas de reporting de GA4 es crucial para sacar el máximo provecho de esta herramienta.
En realidad los 2 primeros sistemas son comparables y completementarios entre ellos. BigQuery en cambio es una solución más a medida y orientada a trabajar en entornos de datos que rara vez es fácil hacer convivir con los otros dos sistemas:
Oficialmente, o trabajas con informes de GA4 o trabajas en BigQuery. El dato no coincide entre ambos sistemas (por las citadas limitaciones) así que reportar en ambos a la vez puede ser a la vez confuso y complejo.
En resumen, el sistema agregado es ideal para consultas rápidas y eficientes, mientras que el sistema granular ofrece más detalle cuando lo necesitas. Por su parte, BigQuery te da acceso completo a los datos brutos, sin limitaciones, pero requiere un mayor esfuerzo para crear informes. Elige el sistema adecuado según tus necesidades y optimiza tu análisis para obtener insights más precisos.