对具有不同分布的样本进行培训和测试

36.当您必须训练和测试不同分布上的算法时

猫应用程序的用户上传了10,000张图像，这些图像被您标记为有猫的图像和没有猫的图像。您还可以从网上收集大量的200,000张图像。然后如何选择训练，验证和测试样本？

由于用户上传的10,000张图像准确地反映了算法应在其上正常工作的数据的实际概率分布，因此您可以使用这些图像进行验证和测试样本。如果您正在学习需要大量数据的深度学习算法，则可以使用Internet上的200,000个其他示例进行训练。在这种情况下，您使用验证样本进行的培训和测试将具有不同的概率分布。这将如何影响您的工作？

无需摆弄训练，验证和测试样本的数据选择，我们可以拍摄所有210,000张图像，进行混合，然后为每个样本随机选择数据。在这种情况下，所有三个样本都将包含来自同一分布的数据。

但是我反对这种方法。由于以下事实，即验证和测试样本中约有97.6％的数据（205,000 / 210,000≈97.6％）将从互联网上找到的数据中获取（不是从用户那里收到的），并且它们不会反映获得高质量所必需的真实分布。请记住我们关于选择验证和测试样本的建议：

选择验证和测试样本，以反映您的算法在启动应用程序后将收到的数据，并应在该数据上正常运行

大多数学术机器学习文献都建议训练，验证和测试样本来自同一分布。

: . « », « » « ». . A B, . ( «» , , .) .

. , . , . , , .

, . , , , .

, 10000 , 5000 . 5000 . , 205 000, 5000 , 200 000 , . .

. , , . 20 000 , . 500 000 , . 10 000 10 000 500 000 .

, , , , .

37. ,

, 10 000 . . 20 000 , . 20 000 + 10 000 = 30 000 20 000 , ?

( , ), , . , , 20000 , .

, , . / , 20000 . , , .

, , x -> y, . , - , , , , , .

20000 :

, . , , , . , .
, (, , , . .). , , «» . , , , , . , .

, . , , , « - , . , »

, , , . , , , . «» , , .

( ), , .

, , , . , , , , , . , :

这些文件中没有任何类似猫的东西。它们也完全不同于验证和测试样本的分布。将这些数据作为负面示例没有意义。上述第一个效果的好处将是微不足道的-神经网络不太可能从该数据中提取任何信息，这将有助于它在应用程序的验证和测试样本中更好地工作。包含这些数据将导致计算资源的损失，并可能降低神经网络逼近功能的能力（最终降低其识别能力）。

延续

安德鲁·安（Andrew Un）的书《机器学习的激情》第36和37章的翻译

对具有不同分布的样本进行培训和测试

36.当您必须训练和测试不同分布上的算法时

37. ,

More articles: