安德鲁·安(Andrew Un)的书《机器学习的激情》第53和54章的翻译

以前的章节


部分误差分析


53.零件错误分析


假设系统是由具有机器学习功能的模块组成的复合输送机。该系统的哪些组件应首先改进?通过将系统错误与输送机的特定元素相关联,可以确定工作的优先级。


让我们回到我们的暹罗猫分类器示例:



系统的第一个元素-猫检测器,从图像中检测并切出带有猫的碎片。第二个元素-品种的标识符,决定片段上是否为暹罗猫。您可以花费数年的时间来改进这两个组件中的任何一个。如何决定关注哪一个?


在零件中使用错误分析意味着,对于每个错误,我们都在尝试确定组合系统中哪个模块(有时是几个)的操作结果。例如,系统错误地确定图像中没有暹罗猫(y = 0),尽管事实上已经描绘了该猫并且正确的标签是y = 1。


图片!


让我们手动分析系统每个模块的结果。假设猫检测器按以下方式检测到猫:


图片


, :


图片


, . y = 0. , , y = 0. , . , , :


图片


, « ». , 100 , 90 , 10 « ». « ».


, . , . , , .


54. «»


:


图片


:


图片


« » , , , y = 0 ( ).


图片


, « » , , , , , . , , « », « ».


, . , , , :


1. , ,



2. « » . « » , «». , «».


, , « » «» .


:


  • 1: «» , « » - y = 0. , , .
  • 情况2:在完美切割的片段上,“品种分类器”正确返回y =1。因此,如果猫检测器产生了更好的片段,则系统的一般结论将是正确的。在这种情况下,我们将错误归因于“猫检测器”。

通过分析验证样本的错误分类示例,我们可以将每个错误明确地归因于系统的一个或另一个组件。这种方法使我们能够估计系统每个元素的错误比例,并因此确定要集中在哪个元素上。


延续


All Articles