Datos de todos los países, no unir

Es bueno cuando, además de las nuevas constelaciones, hay algo similar a la dependencia del diagrama. En este caso, construimos un modelo que explica bien la relación entre las dos variables. Pero el investigador debe comprender no solo cómo trabajar con datos, sino también qué tipo de historia del mundo real se esconde detrás de ellos. De lo contrario, es fácil cometer un error. Te contaré sobre la paradoja de Simpson, uno de los ejemplos más peligrosos de datos engañosos que pueden poner patas arriba la conexión.

Veamos dos variables condicionales X e Y. Una vez construido el diagrama, veremos una nube que se extiende claramente desde la parte inferior izquierda a la superior derecha, como en la figura anterior. Una regresión lineal encaja perfectamente en dicha imagen, que, con un error relativamente bajo, nos ayudará a predecir los valores: cuanto mayor es X, mayor es Y. La tarea se completa. A primera vista.

Un colega más experimentado recomendará que agreguemos al diagrama un desglose por cohortes: por ejemplo, por país. Siguiendo su consejo, veremos que efectivamente existe una conexión, pero es diametralmente opuesta: dentro de un solo país, cuanto más X, menos Y.

Esta es la paradoja de Simpson: un fenómeno en el que la combinación de varios grupos de datos con la misma dependencia direccional conduce a direccion contraria.

Ejemplo 1: Discriminación sexual en Berkeley


El ejemplo más famoso de la paradoja de Simpson en el mundo real es la confusión con la discriminación de género al matricularse en la Universidad de Berkeley en 1973. Entre los investigadores, hay una historia de que la universidad incluso fue juzgada, pero no hay evidencia convincente de un juicio en Internet.

Así es como se ven las estadísticas de admisión a la universidad para 1973:
SueloAplicacionesAceptado
Hombres84423738 (44%)
Mujer43211494 (35%)
La diferencia es significativa. Demasiado grande para ser al azar.

Sin embargo, si desglosamos los datos por facultad, la imagen cambia. Los investigadores encontraron que la razón de la diferencia es que las mujeres solicitaron destinos con una competencia más dura. Además, se encontró que 6 de 85 facultades tenían discriminación a favor de las mujeres, y solo 4 estaban en contra.

La diferencia surge únicamente debido a la diferencia en los tamaños de muestra y el tamaño de la competencia entre facultades. Te mostraré el ejemplo de dos facultades.
FacultadSueloAplicacionesAceptado
UNAHombres400200 (50%)
UNAMujer200100 (50%)
siHombres15050 (33%)
siMujer450150 (33%)
TotalHombres550250 (45%)
TotalMujer650250 (38%)
Ambas facultades aceptan las mismas partes de mujeres y hombres. Sin embargo, dado que el número absoluto de hombres fue mayor en la facultad con un mayor porcentaje de admisiones, si combinamos los datos, resulta que, en general, el porcentaje de hombres es mayor.

Ejemplo 2: experimento A / B desequilibrado


Imagine que está realizando un experimento A / B para aumentar la conversión de su página de destino. El experimento se realizó durante dos días, pero el primer día el distribuidor de visitantes se averió y la opción B recibió más visitantes. En el segundo día, se solucionó este problema. El resultado son los siguientes números:
UNAsi
VisitantesConversionesVisitantesConversiones
Día 140030 (7,5%)2000140 (7%)
Dia 2100060 (6,0%)100055 (5,5%)
Total140090 (6,4%)3000195 (6,5%)
En cada día, la opción A tuvo una tasa de conversión más alta, pero la opción B ganó en total. Esto sucedió porque en el día con una conversión más alta, la opción B tuvo más tráfico. En este ejemplo, un investigador sin experiencia desplegará la opción B para todo el tráfico, mientras que de hecho la conversión aumentará si usa la opción A.

Ejemplo 3: el impacto de las visitas a la página en la conversión


Cada sitio tiene una página que lo motiva a comprar más que otros. Supongamos que creamos un sistema de puntuación de visitantes y seleccionamos factores para ello. Tenemos una página "Acerca del producto" y suponemos que visitarla aumenta la probabilidad de una conversión. Veamos los datos.
Página visitada
ConversiónNosi
No40004800
si400320
Tasa de conversión9%6%
A primera vista, todo es obvio: la conversión para quienes visitan la página es menor en hasta 3 pp, lo que significa que la página reduce la probabilidad de conversión. Pero si dividimos los datos en las dos cohortes más importantes en el marketing de Internet: usuarios de escritorio y móviles, veremos que, de hecho, en cada uno de ellos la probabilidad de conversión aumenta con una visita a la página.
MóvilEscritorio
Página visitadaPágina visitada
ConversiónNosiNosi
No160042002400600
si40180360140
Tasa de conversión2%4%trece%diecinueve%
Asumimos que visitar una página afecta la conversión. En la práctica, intervino una tercera variable: la plataforma del usuario. Debido al hecho de que afecta no solo la conversión, sino también la probabilidad de visitar la página, en el estado agregado, distorsionó los datos de tal manera que nos llevó a conclusiones opuestas al comportamiento real de los usuarios.

Qué hacer


En el análisis de datos, debe comprender qué tipo de historia se esconde detrás de ellos: qué está sucediendo en el mundo real, cómo se midió y se convirtió en un tipo de datos. Por lo tanto, un investigador de datos en el departamento de marketing necesita conocer los conceptos básicos del marketing, y en la industria del petróleo y el gas, algo sobre la minería. Esto ayudará a evitar una gran cantidad de posibles errores, entre los cuales se encuentra el error de agregación causado por la paradoja de Simpson.

Las siguientes características de datos suelen dar lugar a la paradoja de Simpson:

  1. La presencia de cohortes significativas que pueden afectar los valores de las variables dependientes (Y) e independientes (X);
  2. Cohortes desequilibradas.

En cada caso, se necesita un enfoque individual. Tener en cuenta que todos los datos siempre deben dividirse en cohortes también es un enfoque incorrecto, porque a menudo son datos agregados que le permiten construir el modelo más preciso. Además, cualquier dato se puede dividir para obtener la relación que nos gustaría recibir. Es cierto que esto no tendrá ninguna aplicación práctica: las cohortes deben estar justificadas.

Para el marketing en Internet, una de las conclusiones más importantes es la necesidad de verificar el funcionamiento correcto del divisor en los experimentos A / B. Los grupos de usuarios en cada caso de prueba deben ser aproximadamente los mismos. No se trata solo del número total de usuarios, sino también de su estructura. Si sospecha que hay un problema, primero debe verificar las siguientes características en las cohortes:

  1. Características demográficas;
  2. Distribución geográfica;
  3. Fuente de trafico;
  4. Tipo de dispositivo;
  5. Tiempo de visita

En el próximo artículo, le diré cómo detectar y procesar la paradoja de Simpson al analizar datos en Python.

Artículo original que describe el caso de Berkeley: PJ Bickel, EA Hammel y JW O'Connell (1975) "Sesgo sexual en admisiones de posgrado: datos de Berkeley"

All Articles