来自所有国家/地区的数据,请不要合并

除了新的星座以外,还有一些类似于对图表的依赖时,这是很好的。在这种情况下,我们将建立一个模型,很好地解释两个变量之间的关系。但是研究人员不仅必须了解如何使用数据,还必须了解来自现实世界的什么样的历史。否则,很容易出错。我将向您介绍Simpson悖论-欺骗性数据中最危险的示例之一,它可能使连接颠倒。

让我们看一下两个条件变量X和Y。构建完该图之后,我们将看到一个清楚地从左下角延伸到右上角的云,如上图所示。线性回归正好适合这种情况,误差相对较小,将有助于我们预测值:X越大,Y越大。任务已完成。第一眼。

经验更丰富的同事会建议我们在图表中添加按人群划分的细分:例如,按国家/地区分类。按照他的建议,我们会发现确实存在联系,但是却截然相反-在一个国家中,X越多,Y越少。

这就是辛普森悖论:一种现象,其中具有相同方向依赖性的多个数据组的组合导致反向。

范例1:伯克利的性别歧视


现实世界中最著名的辛普森悖论例子是1973年入伯克利大学就读时对性别歧视的困惑。在研究人员中,有一个传说说该大学曾被尝试过,但是没有令人信服的证据表明在互联网上进行过尝试。

1973年的大学录取统计数据如下所示:
地板应用领域公认
男装84423738(44%)
女装43211494(35%)
差异是显着的。太大而不能随机。

但是,如果我们按教职员工分解数据,则情况会发生变化。研究人员发现,造成这种差异的原因是女性在竞争更为激烈的目的地中申请。此外,发现在85个学院中有6个学院有歧视妇女的行为,只有4个学院反对。

差异的产生完全是由于样本量和院系之间竞争规模的差异。我将向您展示两个学院的例子。
学院地板应用领域公认
一个男装400200(50%)
一个女装200100(50%)
男装15050(33%)
女装450150(33%)
男装550250(45%)
女装650250(38%)
两个学院接受男女的份额相同。但是,由于该学院的男性绝对人数更多,而录取率更高,因此,如果我们综合这些数据,事实证明,总体而言,男性百分比更高。

范例2:不平衡的A / B实验


假设您正在进行A / B实验,以提高目标网页的转化率。实验进行了两天,但第一天访客分配器出现故障,选项B接待了更多访客。在第二天,此问题已解决。结果是以下数字:
一个
参观者转换次数参观者转换次数
第一天40030(7.5%)2000140(7%)
第二天100060(6.0%)100055(5.5%)
140090(6.4%)3000195(6.5%)
每天,选项A的转化率较高,但选项B总共获胜,这是因为在转化率较高的一天,选项B的流量较大。在此示例中,经验不足的研究人员将针对所有流量推出选项B,而实际上,如果他使用选项A,则转化次数将会增加。

示例3:页面访问对转化的影响


每个站点都有一个页面,该页面激励您购买其他站点。假设我们创建了一个访问者评分系统并为其选择因素。我们有一个“关于产品”页面,我们假设访问该页面会增加转化的可能性。让我们看一下数据。
访问页面
转换次数没有
没有40004800
400320
兑换率9%6%
乍一看,一切都是显而易见的-访问该页面的用户的转化率降低了3 pp,这意味着该页面降低了转换的可能性。但是,如果我们将数据划分为互联网营销中最重要的两个群体(台式机和移动用户),那么实际上,在每个页面中,转换的可能性都随着页面访问的增加而增加。
移动桌面
访问页面访问页面
转换次数没有没有
没有160042002400600
40180360140
兑换率2%4%十三%十九%
我们假设访问页面会影响转化。实际上,第三个变量是用户平台。由于它不仅影响转换,而且还影响在聚合状态下访问页面的可能性,因此它扭曲了数据,导致我们得出与用户实际行为相反的结论。

该怎么办


在数据分析中,您需要了解它们背​​后的历史是什么:现实世界中正在发生的事情,如何对其进行测量并将其转换为数据类型。因此,市场营销部门的数据研究人员需要了解市场营销的基础知识,以及石油和天然气行业中有关采矿的知识。这将有助于避免大量潜在的错误,其中最重要的是由辛普森悖论引起的聚合错误。

以下数据特征通常会导致Simpson悖论:

  1. 可能影响因变量(Y)和独立变量(X)的值的重要队列;
  2. 队列不平衡。

在每种情况下,都需要一种单独的方法。考虑将所有数据始终划分为同类群组也是错误的方法,因为通常它是聚合的数据,可让您建立最准确的模型。另外,可以对任何数据进行划分,以获得我们想要接收的关系。没错,这将没有任何实际应用-队列应该合理。

对于Internet营销,最重要的结论之一是需要在A / B实验中验证分离器的正确操作。每个测试用例中的用户组应该大致相同。它不仅与用户总数有关,而且与他们的结构有关。如果您怀疑有问题,则应首先检查以下人群的特征:

  1. 人口特征;
  2. 地理分布;
  3. 流量来源;
  4. 设备类型;
  5. 参观时间。

在下一篇文章中,我将告诉您在Python中分析数据时如何检测和处理Simpson悖论。

描述伯克利案的原始文章:PJ Bickel,EA Hammel和JW O'Connell(1975)“研究生录取中的性别偏见:来自伯克利的数据”

All Articles