42.有关数据不匹配的更多信息

假设您开发了一种语音识别系统，该系统在训练样本和“用于训练验证的样本”上都可以很好地工作。但是，它在验证样本中的质量很差：显然，您正在处理数据不一致的问题。在这种情况下可以做什么？

我建议以下几点：（i）尝试了解训练样本和验证样本的数据分布如何不同。（ii）找到尽可能多的与验证样本示例相对应且算法错误的训练示例。

例如，例如，如果您手动分析语音识别设备的错误，则会分析100个示例，试图了解算法在哪个示例中出错。结果，您发现系统运行不正常，因为验证样本中的大多数声音片段都记录在机器中，而训练样本的几乎所有示例都没有多余的声音。引擎的声音和道路噪音会大大降低语音识别的质量。在这种情况下，您可以尝试添加更多记录在汽车上的训练示例。该算法的误差分析的目的是搜索训练样本与测试样本之间的差异，从而导致这些样本中的数据不一致。

如果训练样本和“用于训练验证的样本”包括在汽车中记录的声音示例，则还应该在此数据子集上仔细检查系统的质量。如果该算法与训练集中记录在汽车中的示例一起使用，但不能满足“训练验证样本”中来自汽车的示例，则这再次证实了以下假设：将更多记录在汽车中的视频添加到训练集中将有助于提高质量。这就是为什么在上一章中我们讨论了在训练集中包含一定数量的数据的必要性，这些数据取自与验证和测试样本相同的分布。这样您就可以将算法的质量与示例进行比较，从训练样本中记录汽车上的工作质量，并通过示例验证和测试样本。

, . , , , , , .

43.

, , . , , .

, / . . , , . «» / , , , , . , «» , , .

, , , .

. , - , , . , .

, : , , . , , 1000 1 . 1 , 1000 , , . , , , — . . , , , .

, 1000 , 10 . «» 10 , , , . , , , .

. , . , . , . , ( ), , .

~ 20 . 3D- ; , , , , . .. . — , , , — 20 . , 100 000 , 20 , , «» 20 , , .

, , . , , , , 20 , 1 . .

在进行数据综合时，我的团队有时花了数周的时间才能够重现细节，从而使我们与示例的实际分布足够接近，从而使综合数据可以产生重大影响。但是，如果您可以正确地重现与算法应在其上显示高质量图像的细节对象相似的对象，则您将有机会获得比以前更大数量的训练样本。

延续

安德鲁·安（Andrew Un）的书《机器学习的激情》第42和43章的翻译

42.有关数据不匹配的更多信息

43.

More articles: