安德鲁·安(Andrew Un)的书《机器学习的激情》第36和37章的翻译

前几章


对具有不同分布的样本进行培训和测试


36.当您必须训练和测试不同分布上的算法时


猫应用程序的用户上传了10,000张图像,这些图像被您标记为有猫的图像和没有猫的图像。您还可以从网上收集大量的200,000张图像。然后如何选择训练,验证和测试样本?


由于用户上传的10,000张图像准确地反映了算法应在其上正常工作的数据的实际概率分布,因此您可以使用这些图像进行验证和测试样本。如果您正在学习需要大量数据的深度学习算法,则可以使用Internet上的200,000个其他示例进行训练。在这种情况下,您使用验证样本进行的培训和测试将具有不同的概率分布。这将如何影响您的工作?


无需摆弄训练,验证和测试样本的数据选择,我们可以拍摄所有210,000张图像,进行混合,然后为每个样本随机选择数据。在这种情况下,所有三个样本都将包含来自同一分布的数据。


但是我反对这种方法。由于以下事实,即验证和测试样本中约有97.6%的数据(205,000 / 210,000≈97.6%)将从互联网上找到的数据中获取(不是从用户那里收到的),并且它们不会反映获得高质量所必需的真实分布。请记住我们关于选择验证和测试样本的建议:


选择验证和测试样本,以反映您的算法在启动应用程序后将收到的数据,并应在该数据上正常运行


大多数学术机器学习文献都建议训练,验证和测试样本来自同一分布。


: . « », « » « ». . A B, . ( «» , , .) .


. , . , . , , .


, . , , , .


, 10000 , 5000 . 5000 . , 205 000, 5000 , 200 000 , . .


. , , . 20 000 , . 500 000 , . 10 000 10 000 500 000 .


, , , , .


37. ,


, 10 000 . . 20 000 , . 20 000 + 10 000 = 30 000 20 000 , ?


( , ), , . , , 20000 , .


, , . / , 20000 . , , .


, , x -> y, . , - , , , , , .


20000 :


  1. , . , , , . , .
  2. , (, , , . .). , , «» . , , , , . , .

, . , , , « - , . , »


, , , . , , , . «» , , .


( ), , .


, , , . , , , , , . , :


图片


这些文件中没有任何类似猫的东西。它们也完全不同于验证和测试样本的分布。将这些数据作为负面示例没有意义。上述第一个效果的好处将是微不足道的-神经网络不太可能从该数据中提取任何信息,这将有助于它在应用程序的验证和测试样本中更好地工作。包含这些数据将导致计算资源的损失,并可能降低神经网络逼近功能的能力(最终降低其识别能力)。


延续


All Articles