安德鲁·安(Andrew Un)的书《机器学习的激情》第34和35章的翻译

前几章


34.如何确定人类可获得的质量水平


假设您正在研究应该执行自动X射线诊断的医学成像应用程序。除了一些基本的训练外,没有医学教育的普通人的错误率约为15%。新手医生的错误大约是10%。有经验的医生在5%的情况下被误认为。一小队医生研究和讨论每个图像的误差不超过2%。其中哪些数字应被视为“人类素质水平”?


在这种情况下,我将为个人提供的质量水平占2%,并建立相应的最佳误差值。将2%设置为我们系统的期望错误级别也很有意义,因为此错误值符合上一章中针对系统的所有三个标准,这些标准允许您将算法的质量与人员执行的任务的质量进行比较:


  • 轻松标记数据:您可以使用一组医生来标记数据,准确性为98%(错误2%)
  • 利用人类直觉进行错误分析:与医生团队讨论X射线时,您可以在寻求提高质量的方法时依靠他们的直觉
  • 使用人员的任务完成级别来确定最佳错误级别,并确定系统可以达到的“所需错误级别”:建议使用2%作为最佳错误级别的估计值。最佳错误级别甚至可以小于2%,但由于这样的错误级别与专家可用的诊断质量相对应,并且由于自动系统将错误级别设置为5%或10%没有意义,因此它肯定不能更高。我们确信我们将有意识地提高质量水平。

在数据标记期间,不可能花费整个合格的医生团队来研究每个X射线,因为它们的时间很昂贵。雇用一名新手来拍摄绝大多数照片是比较明智​​的,并且仅在最困难的情况下,请有经验的医生或一组专家来进行。


如果您的系统当前存在40%的错误,则使用新手专家(错误为10%)或经验丰富的医生(错误为5%)标记数据并获得改善算法质量的想法都无关紧要。但是,如果您的系统错误已经低于10%,那么相当于2%错误的人工质量水平将使您对进一步改进系统的可能性充满信心。


35.克服人类可获得的质量水平


. , 10% . , 8% . - , 33 ?


, , , . , , , .


, :


  1. , ,
  2. , ,
  3. « » .

, , , , , . , , , .


在许多重要的机器学习应用程序中,算法优于人类。例如,汽车可以更好地预测电影收视率,汽车旅行时间,还贷。如果人们很难找到算法明显不正确的示例,则只能使用有限数量的方法来提高质量。因此,在已经超越人类的系统上工作时,进度通常比算法尚未达到人类水平的情况下进展缓慢。


延续

Source: https://habr.com/ru/post/undefined/


All Articles