Daten aus allen Ländern nicht vereinen

Es ist gut, wenn neben neuen Konstellationen eine ähnliche Abhängigkeit vom Diagramm besteht. In diesem Fall erstellen wir ein Modell, das die Beziehung zwischen den beiden Variablen gut erklärt. Der Forscher muss jedoch nicht nur verstehen, wie er mit Daten arbeitet, sondern auch, welche Art von Geschichte aus der realen Welt dahinter steckt. Ansonsten ist es leicht, einen Fehler zu machen. Ich erzähle Ihnen vom Simpson-Paradoxon - einem der gefährlichsten Beispiele für irreführende Daten, die die Verbindung auf den Kopf stellen können.

Schauen wir uns zwei bedingte Variablen X und Y an. Nachdem wir das Diagramm erstellt haben, sehen wir eine Wolke, die sich wie in der obigen Abbildung deutlich von links unten nach rechts oben erstreckt. Eine lineare Regression passt perfekt in ein solches Bild, das uns mit einem relativ geringen Fehler hilft, die Werte vorherzusagen: Je größer X, desto größer Y. Die Aufgabe ist abgeschlossen. Auf den ersten Blick.

Ein erfahrener Kollege wird empfehlen, dem Diagramm eine Aufschlüsselung nach Kohorten hinzuzufügen: zum Beispiel nach Ländern. Wenn wir seinem Rat folgen, werden wir sehen, dass es tatsächlich einen Zusammenhang gibt, der jedoch diametral entgegengesetzt ist - innerhalb eines einzelnen Landes gilt: Je mehr X, desto weniger Y.

Dies ist das Simpson-Paradoxon: Ein Phänomen, zu dem die Kombination mehrerer Datengruppen mit derselben Richtungsabhängigkeit führt umgekehrte Richtung.

Beispiel 1: Sexuelle Diskriminierung in Berkeley


Das bekannteste Beispiel für das Simpson-Paradoxon in der realen Welt ist die Verwechslung mit Diskriminierung aufgrund des Geschlechts bei der Einschreibung an der University of Berkeley im Jahr 1973. Unter Forschern gibt es eine Geschichte, dass die Universität sogar vor Gericht gestellt wurde, aber es gibt keine überzeugenden Beweise für einen Prozess im Internet.

So sieht die Hochschulzulassungsstatistik für 1973 aus:
FußbodenAnwendungenAkzeptiert
Männer84423738 (44%)
Frauen43211494 (35%)
Der Unterschied ist signifikant. Zu groß, um zufällig zu sein.

Wenn wir die Daten jedoch nach Fakultäten aufschlüsseln, ändert sich das Bild. Die Forscher fanden heraus, dass der Grund für den Unterschied darin besteht, dass Frauen sich für Ziele mit einem härteren Wettbewerb bewarben. Darüber hinaus wurde festgestellt, dass 6 von 85 Fakultäten zugunsten von Frauen diskriminiert wurden und nur 4 dagegen waren.

Der Unterschied ergibt sich ausschließlich aus den unterschiedlichen Stichprobengrößen und der Größe des Wettbewerbs zwischen den Fakultäten. Ich werde Ihnen das Beispiel zweier Fakultäten zeigen.
FakultätFußbodenAnwendungenAkzeptiert
EINMänner400200 (50%)
EINFrauen200100 (50%)
B.Männer15050 (33%)
B.Frauen450150 (33%)
GesamtMänner550250 (45%)
GesamtFrauen650250 (38%)
Beide Fakultäten akzeptieren die gleichen Anteile von Frauen und Männern. Da jedoch die absolute Anzahl der Männer an der Fakultät mit einem höheren Prozentsatz an Zulassungen höher war, stellt sich heraus, dass der Prozentsatz der Männer im Allgemeinen höher ist, wenn wir die Daten kombinieren.

Beispiel 2: unausgeglichenes A / B-Experiment


Stellen Sie sich vor, Sie führen ein A / B-Experiment durch, um die Conversion Ihrer Zielseite zu erhöhen. Das Experiment wurde zwei Tage lang durchgeführt, aber am ersten Tag brach der Besucherverteiler zusammen und Option B erhielt mehr Besucher. Am zweiten Tag wurde dieses Problem behoben. Das Ergebnis sind die folgenden Zahlen:
EINB.
BesucherKonvertierungenBesucherKonvertierungen
Tag 140030 (7,5%)2000140 (7%)
Tag 2100060 (6,0%)100055 (5,5%)
Gesamt140090 (6,4%)3000195 (6,5%)
An jedem Tag hatte Option A eine höhere Conversion-Rate, aber Option B gewann insgesamt. Dies geschah, weil Option B an dem Tag mit einer höheren Conversion mehr Verkehr hatte. In diesem Beispiel führt ein unerfahrener Forscher Option B für den gesamten Datenverkehr ein, während sich die Conversion tatsächlich erhöht, wenn er Option A verwendet.

Beispiel 3: Die Auswirkungen von Seitenbesuchen auf die Conversion


Jede Site hat eine Seite, die Sie motiviert, mehr als andere zu kaufen. Angenommen, wir erstellen ein Besucherbewertungssystem und wählen Faktoren dafür aus. Wir haben eine Seite "Über das Produkt" und gehen davon aus, dass ein Besuch die Seite einer Conversion erhöht. Schauen wir uns die Daten an.
Besuchte Seite
UmwandlungNeinJa
Nein40004800
Ja400320
Wechselkurs9%6%
Auf den ersten Blick ist alles klar - die Conversion für diejenigen, die die Seite besuchen, ist um bis zu 3 Seiten geringer, was bedeutet, dass die Conversion-Wahrscheinlichkeit auf der Seite verringert wird. Wenn wir die Daten jedoch in die beiden wichtigsten Kohorten des Internet-Marketings aufteilen - Desktop- und mobile Benutzer - werden wir feststellen, dass in jedem von ihnen die Wahrscheinlichkeit einer Conversion mit einem Seitenbesuch steigt.
Handy, MobiltelefonDesktop
Besuchte SeiteBesuchte Seite
UmwandlungNeinJaNeinJa
Nein160042002400600
Ja40180360140
Wechselkurs2%4%dreizehn%neunzehn%
Wir gingen davon aus, dass der Besuch einer Seite die Conversion beeinflusst. In der Praxis griff eine dritte Variable ein - die Plattform des Benutzers. Aufgrund der Tatsache, dass dies nicht nur die Conversion, sondern auch die Wahrscheinlichkeit des Besuchs der Seite im aggregierten Zustand beeinflusst, wurden die Daten so verzerrt, dass wir zu Schlussfolgerungen kamen, die dem tatsächlichen Verhalten der Benutzer entgegengesetzt sind.

Was zu tun ist


Bei der Analyse von Daten müssen Sie verstehen, welche Art von Geschichte dahinter steckt: Was passiert in der realen Welt, wie wurde es gemessen und in einen Datentyp konvertiert. Daher muss ein Datenforscher in der Marketingabteilung die Grundlagen des Marketings und der Öl- und Gasindustrie kennen - etwas über den Bergbau. Dies hilft, eine große Anzahl potenzieller Fehler zu vermeiden, nicht zuletzt den durch das Simpson-Paradoxon verursachten Aggregationsfehler.

Die folgenden Datenmerkmale führen normalerweise zum Simpson-Paradoxon:

  1. Das Vorhandensein signifikanter Kohorten, die die Werte der abhängigen (Y) und unabhängigen (X) Variablen beeinflussen können;
  2. Unausgeglichene Kohorten.

In jedem Fall ist ein individueller Ansatz erforderlich. Zu berücksichtigen, dass alle Daten immer in Kohorten unterteilt werden sollten, ist ebenfalls der falsche Ansatz, da es sich häufig um aggregierte Daten handelt, mit denen Sie das genaueste Modell erstellen können. Darüber hinaus können alle Daten aufgeteilt werden, um die Beziehung zu erhalten, die wir erhalten möchten. Dies wird zwar keine praktische Anwendung finden - Kohorten sollten gerechtfertigt sein.

Für das Internet-Marketing ist eine der wichtigsten Schlussfolgerungen die Notwendigkeit, den korrekten Betrieb des Splitters in A / B-Experimenten zu überprüfen. Benutzergruppen in jedem Testfall sollten ungefähr gleich sein. Es geht nicht nur um die Gesamtzahl der Benutzer, sondern auch um deren Struktur. Wenn Sie ein Problem vermuten, sollten Sie zuerst die Kohorten auf folgende Merkmale überprüfen:

  1. Demographische Merkmale;
  2. Geografische Verteilung;
  3. Verkehrsquelle;
  4. Gerätetyp;
  5. Besuchszeit.

Im nächsten Artikel werde ich Ihnen erklären, wie Sie das Simpson-Paradoxon bei der Analyse von Daten in Python erkennen und verarbeiten können.

Originalartikel, der den Fall Berkeley beschreibt: PJ Bickel, EA Hammel und JW O'Connell (1975) „Sex Bias in Graduate Admissions: Daten aus Berkeley“

All Articles