Les données de tous les pays ne s'unissent pas

C'est bien quand, en plus de nouvelles constellations, il y a quelque chose de similaire à la dépendance au diagramme. Dans ce cas, nous construisons un modèle qui explique bien la relation entre les deux variables. Mais le chercheur doit comprendre non seulement comment travailler avec des données, mais aussi quel type d'histoire du monde réel se cache derrière elles. Sinon, il est facile de se tromper. Je vais vous parler du paradoxe Simpson - l'un des exemples les plus dangereux de données trompeuses qui peuvent bouleverser la connexion.

Regardons deux variables conditionnelles X et Y. Après avoir construit le diagramme, nous verrons un nuage qui est clairement étendu du coin inférieur gauche au coin supérieur droit, comme dans la figure ci-dessus. Une régression linéaire s'intègre parfaitement dans une telle image qui, avec une erreur relativement faible, nous aidera à prédire les valeurs: plus X est grand, plus Y est grand. La tâche est terminée. À première vue.

Un collègue plus expérimenté recommandera d'ajouter au diagramme une ventilation par cohortes: par exemple, par pays. En suivant ses conseils, nous verrons qu'il y a bien un lien, mais il est diamétralement opposé - au sein d'un même pays, plus X, moins Y.

C'est le paradoxe Simpson: un phénomène dans lequel la combinaison de plusieurs groupes de données avec la même dépendance directionnelle conduit à direction inverse.

Exemple 1: Discrimination sexuelle à Berkeley


L'exemple le plus célèbre du paradoxe Simpson dans le monde réel est la confusion avec la discrimination fondée sur le sexe lors de l'inscription à l'Université de Berkeley en 1973. Parmi les chercheurs, on raconte que l'université a même été jugée, mais il n'y a aucune preuve convaincante d'un procès sur Internet.

Voici à quoi ressemblent les statistiques d'admission à l'université pour 1973:
SolApplicationsAccepté
Hommes84423738 (44%)
Femmes43211494 (35%)
La différence est significative. Trop gros pour être aléatoire.

Cependant, si nous décomposons les données par faculté, l'image change. Les chercheurs ont constaté que la raison de la différence est que les femmes ont demandé des destinations où la concurrence était plus rude. En outre, il a été constaté que 6 des 85 facultés avaient une discrimination en faveur des femmes, et seulement 4 étaient contre.

La différence provient uniquement de la différence de taille des échantillons et de la concurrence entre les facultés. Je vais vous montrer l'exemple de deux facultés.
la facultéSolApplicationsAccepté
UNEHommes400200 (50%)
UNEFemmes200100 (50%)
BHommes15050 (33%)
BFemmes450150 (33%)
TotalHommes550250 (45%)
TotalFemmes650250 (38%)
Les deux facultés acceptent la même proportion de femmes et d'hommes. Cependant, comme le nombre absolu d'hommes était plus élevé à la faculté avec un pourcentage d'admissions plus élevé, si l'on combine les données, il s'avère qu'en général le pourcentage d'hommes est plus élevé.

Exemple 2: expérience A / B déséquilibrée


Imaginez que vous menez une expérience A / B pour augmenter la conversion de votre page de destination. L'expérience a été menée pendant deux jours, mais le premier jour, le distributeur de visiteurs est tombé en panne et l'option B a reçu plus de visiteurs. Le deuxième jour, ce problème a été résolu. Le résultat est les nombres suivants:
UNEB
VisiteursConversionsVisiteursConversions
Jour 140030 (7,5%)2000140 (7%)
Jour 2100060 (6,0%)100055 (5,5%)
Total140090 (6,4%)3000195 (6,5%)
Chaque jour, l'option A avait un taux de conversion plus élevé, mais l'option B a gagné au total. Cela s'est produit parce que le jour avec une conversion plus élevée, l'option B avait plus de trafic. Dans cet exemple, un chercheur inexpérimenté déploiera l'option B pour tout le trafic, alors qu'en fait la conversion augmentera s'il utilise l'option A.

Exemple 3: l'impact des visites de pages sur la conversion


Chaque site a une page qui vous motive à acheter plus que les autres. Supposons que nous créons un système de notation des visiteurs et sélectionnons des facteurs pour cela. Nous avons une page «À propos du produit», et nous supposons que la visiter augmente la probabilité d'une conversion. Regardons les données.
Page visitée
ConversionNonOui
Non40004800
Oui400320
Taux de conversion9%6%
À première vue, tout est évident - la conversion pour ceux qui visitent la page est inférieure de 3 pp, ce qui signifie que la page réduit la probabilité de conversion. Mais si nous divisons les données en deux cohortes les plus importantes dans le marketing Internet - les utilisateurs de bureau et mobiles, nous verrons qu'en fait dans chacun d'eux la probabilité de conversion augmente avec une visite de page.
MobileBureau
Page visitéePage visitée
ConversionNonOuiNonOui
Non160042002400600
Oui40180360140
Taux de conversion2%4%treize%dix-neuf%
Nous avons supposé que la visite d'une page affectait la conversion. En pratique, une troisième variable est intervenue - la plateforme de l'utilisateur. Du fait qu'il affecte non seulement la conversion, mais également la probabilité de visiter la page, à l'état agrégé, il a déformé les données de telle manière qu'il nous a conduit à des conclusions qui sont opposées au comportement réel des utilisateurs.

Que faire


Dans l'analyse des données, vous devez comprendre quel type d'histoire se cache derrière elles: ce qui se passe dans le monde réel, comment elles ont été mesurées et converties en un type de données. Par conséquent, un chercheur de données du département marketing doit connaître les bases du marketing et de l'industrie pétrolière et gazière - quelque chose sur l'exploitation minière. Cela aidera à éviter un grand nombre d'erreurs potentielles, dont la moindre n'est pas l'erreur d'agrégation causée par le paradoxe Simpson.

Les caractéristiques de données suivantes génèrent généralement le paradoxe Simpson:

  1. La présence de cohortes significatives pouvant affecter les valeurs des variables dépendantes (Y) et indépendantes (X);
  2. Cohortes déséquilibrées.

Dans chaque cas, une approche individuelle est nécessaire. Considérer que toutes les données doivent toujours être divisées en cohortes est également la mauvaise approche, car ce sont souvent des données agrégées qui vous permettent de construire le modèle le plus précis. De plus, toutes les données peuvent être divisées de manière à obtenir la relation que nous souhaitons recevoir. Certes, cela n'aura aucune application pratique - les cohortes doivent être justifiées.

Pour le marketing Internet, l'une des conclusions les plus importantes est la nécessité de vérifier le bon fonctionnement du séparateur dans les expériences A / B. Les groupes d'utilisateurs dans chaque scénario de test doivent être approximativement les mêmes. Il ne s'agit pas seulement du nombre total d'utilisateurs, mais aussi de leur structure. Si vous soupçonnez un problème, vous devez d'abord vérifier les cohortes pour les caractéristiques suivantes:

  1. Caractéristiques démographiques;
  2. Distribution géographique;
  3. Source de trafic;
  4. Type d'appareil;
  5. Temps de visite.

Dans le prochain article, je vais vous expliquer comment détecter et traiter le paradoxe Simpson lors de l'analyse de données en Python.

Article original décrivant l'affaire Berkeley: PJ Bickel, EA Hammel et JW O'Connell (1975) «Biais sexuel dans les admissions aux cycles supérieurs: données de Berkeley»

All Articles