En el entorno digital actual, identificar correctamente a los usuarios se ha convertido en un desafío complejo. Las crecientes preocupaciones por la privacidad y regulaciones como el GDPR han limitado la capacidad de las herramientas de analítica para rastrear a los usuarios de manera individual. Esto impacta directamente en la forma en que las empresas capturan sus datos en analítica y forma un pequeño caos que cada empresa resuelve según sus habilidades y sus creencias.
Google Analytics 4 (GA4) dispone de lo que llaman modelos de identidad del usuario para adaptarse a esta realidad cambiante y dejar a cada negocio decidir cómo desea ver a sus usuarios en la herramienta. Comprender estos modelos y sus implicaciones es vital para entender los datos que estás viendo y poder tomar decisiones en base a ellos. Por desgracia, este no es siempre el caso y mutitud de negocios ni siquiera saben qué modelo de usuario están usando en su GA4.
Este post tiene como objetivo guiarte a través de los modelos de identidad en GA4, profundizando en cómo funcionan y cómo afectan a tus informes. Exploraremos cada identificador de usuario, las configuraciones disponibles y proporcionaremos ejemplos prácticos para ayudarte a aprovechar al máximo estas herramientas. Entre todos estos detalles, hablaremos (y no poco) de los usuarios modelados, esos usuarios que GA4 identifica gracias al famoso Content Mode y que pueden provocar tantas alegrías como frustraciones en tus análisis.
Los 4 identificadores de usuario que puede usar GA4
Google Analytics 4 dispone de cuatro identificadores posibles de usuario que se utilizan en orden jerárquico para proporcionar una visión coherente del comportamiento del usuario. Es decir, tiene 4 sistemas distintos con los que detectar si las sesiones que recibe son o no de las mismas personas. Con estos 4 sistemas es como se crean los usuarios, pero no se trata como en el antiguo universal annalytics de elegir uno de ellos, sino que varios de estos datos se unen usando unos u otros en función de si están o no disponibles.
1. El User ID
El User ID es un identificador único que tú, como propietario del sitio o aplicación, puedes asignar (mediante implementación) a cada usuario registrado. Este identificador es opcional y requiere que pases explícitamente este dato a GA4 desde tu sistema ya sea por dataLayer, gtag, sdk o como sea. Es especialmente útil en escenarios donde los usuarios inician sesión, como en sitios de comunidades, plataformas educativas o aplicaciones con áreas privadas.
La principal ventaja del User ID es que permite un seguimiento preciso del usuario a través de múltiples dispositivos y sesiones. Al tener un identificador consistente, puedes unir las interacciones de un mismo usuario que visita tu sitio desde su móvil y luego desde su ordenador de escritorio. Esto mejora la granularidad de los datos y te permite construir informes accionables que reflejen con mayor precisión el recorrido del usuario.
Sin embargo, el uso del User ID tiene sus limitaciones. Si tu sitio no tiene una funcionalidad de inicio de sesión o si el porcentaje de usuarios registrados es bajo, este identificador pierde efectividad. Además, implementar el User ID requiere una configuración avanzada y una parametrización adecuada en tu sitio o aplicación, lo que puede implicar recursos técnicos adicionales.
2. Google Signals
Google Signals es una funcionalidad que utiliza datos de usuarios que han iniciado sesión en sus cuentas de Google y que han habilitado la personalización de anuncios. Al activar Google Signals en GA4, puedes aprovechar esta información para deduplicar usuarios y entender su comportamiento en diferentes dispositivos.
Esta herramienta es especialmente valiosa para capturar las interacciones clave de usuarios anónimos pero logueados en Google. Por ejemplo, un usuario que visita tu sitio desde su móvil y luego desde su ordenador podría ser reconocido como el mismo individuo, mejorando así la organización de los eventos y permitiéndote construir informes más detallados.
No obstante, Google Signals requiere que los usuarios hayan dado su consentimiento para la personalización de anuncios, lo que significa que no todos los visitantes estarán incluidos. Esto puede afectar la granularidad de tus datos, y es importante tener en cuenta que la activación de Google Signals en GA4 es un paso manual que debes realizar en la configuración de tu propiedad.
3. El ID de dispositivo (cookie o device ID)
El ID de dispositivo es el método más común y tradicional para identificar usuarios únicos en la web y aplicaciones móviles. En sitios web, se basa en el uso de cookies, pequeños archivos que se almacenan en el navegador del usuario. En aplicaciones móviles, se utiliza el Instance ID, un identificador único para cada instalación de la app.
La principal ventaja del ID de dispositivo es su facilidad de implementación. Es la base del seguimiento en la mayoría de los sitios y aplicaciones, permitiéndote capturar de manera granular las interacciones de los usuarios sin necesidad de configuraciones adicionales. Esto facilita la parametrización adecuada y la organización de los eventos para un análisis posterior.
Sin embargo, las cookies pueden ser bloqueadas o borradas por los usuarios, lo que afecta la precisión en la identificación. Además, este método no permite unir usuarios a través de diferentes dispositivos o navegadores, lo que limita la comprensión completa del recorrido del usuario. Es aquí donde opciones como el User ID o Google Signals pueden complementar y mejorar la calidad de los datos.
4. Los usuarios modelados
Los usuarios modelados son una solución innovadora que GA4 introduce para afrontar los desafíos de la privacidad y el consentimiento del usuario. Cuando los usuarios no permiten el seguimiento tradicional—por ejemplo, al rechazar las cookies—GA4 utiliza algoritmos de machine learning para estimar su comportamiento. Esto es posible gracias al Consent Mode avanzado.
Este modo permite que, incluso sin identificadores personales, se capturen ciertos eventos anónimos. GA4 utiliza estos datos para modelar el comportamiento del usuario, rellenando los vacíos y permitiéndote construir informes más completos. Esto optimiza la recolección de datos y te ayuda a evitar la pérdida de información crucial para tu análisis.
Sin embargo, la inclusión de usuarios modelados introduce cierta incertidumbre. No siempre es posible saber qué datos son estimados y cuáles son reales, lo que puede afectar la confianza en los informes accionables. Es importante ser consciente de estas limitaciones y considerar cómo pueden influir en tus decisiones basadas en datos.
La aplicación jerarquica de la identificación del usuario
- User Id, lo primero que hace GA4 es intentar usar el User Id que se le ha pasado como parámetro en los eventos. Si tus eventos tienen implementado el User Id este manda y de ahí saca el usuario.
- Google Signals, solo cuando los eventos no tienen User Id, GA4 intenta sacar el usuario de sus Google Signals. Para eso la propiedad de GA4 debe tener activo el uso de Google Signals (algo esencial para campañas de remarketing de Google Ads). Si lo tiene activo, podrá usarlo para identificar a los usuarios de Google.
- Device Id, cuando Google Analytics no tiene ni User Id, ni Google Signals, debe ir a los datos de verdad, los de cookies o el instance Id. Ahí es donde acude la mayor parte de las veces en la mayoría de negocios. Este es por lo tanto el método más importante de los 4.
- Cuando el Device Id no existe, pues el usuario no aceptó cookies, pero si que tenemos datos (porque se implementó el Consent Mode Avanzado) entonces entra en juego la capacidad de modelar usuarios. Esto es: Google no tiene IDs de usuario, pero los asigna con su comportamiento y los datos de los que si dispone. Esto no lo consigue con todos los usuarios que no aceptan cookies, pero si con un buen porcentaje de ellos (60% o más de media en sitos grandes).
Como se ve en realidad es bastante sencillo: cuando no tiene un dato, va a por el siguiente. Pero ¿Qué pasa si aplica los 4 métodos y sigue sin saber el usuario? Pues que ese dato no lo verás en GA4, no te lo muestra. Ese es el Gap (brecha) de eventos que provoca la ley de cookies, incluso con todo el ML de Google.
El Consent Mode avanzado en Google Analytics 4
El Consent Mode avanzado es una característica que permite a GA4 adaptarse a las preferencias de privacidad de los usuarios. Cuando un visitante no otorga su consentimiento para el uso de cookies o identificadores, este modo permite que aún se recopilen ciertos datos de manera anónima. Esto es esencial para respetar las regulaciones de privacidad y, al mismo tiempo, mantener un nivel de información útil para el análisis.
Cómo funciona:
Existen 2 formas de implementar el Consent Mode, una básica que lo que hace es no enviar datos hacia GA4 para los usuarios cuando bloquean cookies y una avanzada, que envia datos pero anonimizados (lo que llamamos en analítica «pings»)
El Consent Mode avanzado requiere ajustes en la implementación tu site o app. Lo normal es implementar el Consent Mode a través de Google Tag Manager o directamente en el código, especificando qué tipos de cookies y seguimientos están permitidos según el consentimiento del usuario. En lugar de bloquear completamente el seguimiento, se envían datos anónimos que no contienen identificadores personales. Esto incluye todos los eventos: visitas a páginas, clics y conversiones, pero sin asociarlos a un usuario específico.
GA4 utiliza luego estos datos anónimos junto con algoritmos de machine learning para estimar el comportamiento de los usuarios que no han dado su consentimiento completo. Esto permite rellenar los vacíos en tus informes y mantener la integridad de algunos análisis. Sin embargo, es importante destacar que, aunque el Consent Mode avanzado mitiga la pérdida de datos, los usuarios modelados generados a partir de él no son una representación exacta de los usuarios reales. Es «magia», si, pero no una magia exacta que todo lo puede.
Beneficios:
El principal beneficio del Consent Mode avanzado es el cumplimiento legal. Respeta las regulaciones de privacidad al no almacenar información personal sin consentimiento. Además, permite que no pierdas toda la visibilidad sobre las interacciones tu propiedad, lo que acaba mejorando la credibilidad de los datos en muchos escenarios.
Por otro lado, aunque el Consent Mode avanzado optimiza la recolección de datos, es esencial entender que los datos modelados no siempre reflejan con precisión el comportamiento real del usuario. Por lo tanto, se debe tener precaución al interpretar los informes y al basar decisiones en estos datos estimados. De esto último hablaremos largo y tendido en las siguientes partes del post.
Las 3 configuraciones de usuarios en GA4
Google Analytics 4 te ofrece tres modelos de identidad de usuario que puedes configurar según las necesidades de tu negocio y la precisión que desees en tus datos. A continuación, exploramos cada uno de estos modelos en detalle.
1. Data Blended (Mezclado)
El modelo Data Blended es la configuración predeterminada por defecto en GA4 (la que tienen todas las cuentas si no cambias su configuración) y combina los cuatro identificadores de usuario: User ID, Google Signals, ID de dispositivo y usuarios modelados. Este enfoque busca ofrecer la visión más completa posible del comportamiento del usuario, aprovechando todas las fuentes de datos disponibles.
Con Data Blended, puedes obtener informes enriquecidos que capturan las interacciones clave de tus usuarios, incluso cuando no han dado su consentimiento para el seguimiento tradicional. Esto es especialmente útil para negocios con un alto volumen de tráfico y diversas fuentes de adquisición, ya que permite optimizar la recolección de datos y construir informes detallados.
Sin embargo, este modelo, como veremos, añade ruido y riesgos asociados a la estabilidad de los datos en los informes. Al incluir usuarios modelados, no siempre es posible determinar qué parte de la información es estimada y cuál es real. Esto puede afectar la confianza en los informes y accionables y complicar la toma de decisiones basadas en datos. No todo es oro, puede sonar muy tentador ir a por por el modelo de usuario que más datos nos da, pero debes entenderlo antes de decidir.
2. Observed (Observado)
El modelo Observed excluye a los usuarios modelados y utiliza únicamente el User ID, Google Signals y el ID de dispositivo. Este enfoque busca ofrecer datos más confiables al evitar estimaciones y basarse solo en información directamente observada.
Al utilizar Observed, puedes reducir el ruido asociado con los datos modelados. Esto es beneficioso si tu prioridad es obtener informes accionables basados en datos precisos y si tienes un porcentaje significativo de usuarios que permiten el seguimiento tradicional. Además, este modelo sigue aprovechando las ventajas del User ID y Google Signals para mejorar la granularidad y la organización de los eventos.
La limitación principal de Observed es que puede haber huecos en tus datos debido a los usuarios que no permiten el seguimiento. Esto puede resultar en una subestimación de ciertas métricas y afectar el análisis de tendencias y patrones de comportamiento. Es importante evaluar si la pérdida de datos es aceptable en el contexto de tus objetivos de negocio.
Otra debilidad es que al usar varios sistemas, en algunos entornos pueden probocarse inestabilidades o duplicidades en los usuarios. Por ejemplo, al estar un usuario en APP y Web a la vez Google podría tomar al usuario de Google Signals en la web y no en la App viendo por lo tanto 2 usuarios cuando solo había uno. De la misma forma un usuario podría usar User Id solo en su segunda visita y que lo viésemos como dos distintos. Hay casos y casos, pero si que existen escenarios donde no querras esta mezcla de tu usuarios en tus datos.
3. Device Only (Solo datos del dispositivo)
El modelo Device Only se basa exclusivamente en el ID de dispositivo, ya sea cookie en la web o Instance ID en aplicaciones móviles. Esta configuración está algo escondida en la interfaz de GA4 y requiere hacer un click en el botón de más opciones avanzadas para seleccionarla. Google nos deja claro que no es la opción que quiere que escojamos, pero eso no significa que no pueda ser la que deseamos.
La principal ventaja de Device Only es la pureza de los datos. Al no incluir User ID, Google Signals ni usuarios modelados, obtienes información sin interferencias ni estimaciones. Esto es ideal para análisis técnicos que requieren máxima precisión y donde es esencial respetar las limitaciones de cardinalidad.
Este modelo es similar a cómo funcionaba Universal Analytics y puede ser útil si deseas una comparabilidad directa con datos históricos recopilados en esa plataforma. Sin embargo, al depender únicamente del ID de dispositivo, te enfrentarás a las limitaciones asociadas, como la imposibilidad de unir sesiones de un mismo usuario a través de diferentes dispositivos o navegadores.
Cómo configurar el modelo de usuario en el Administrador de GA4
Modificar el modelo de identidad del usuario en GA4 es un proceso sencillo, pero debe realizarse con precaución debido a su impacto retroactivo en todos los datos históricos. A continuación, se detallan los pasos para acceder y cambiar esta configuración, asegurando una implementación eficiente y evitando sorpresas en tus informes.