34.如何确定人类可获得的质量水平

假设您正在研究应该执行自动X射线诊断的医学成像应用程序。除了一些基本的训练外，没有医学教育的普通人的错误率约为15％。新手医生的错误大约是10％。有经验的医生在5％的情况下被误认为。一小队医生研究和讨论每个图像的误差不超过2％。其中哪些数字应被视为“人类素质水平”？

在这种情况下，我将为个人提供的质量水平占2％，并建立相应的最佳误差值。将2％设置为我们系统的期望错误级别也很有意义，因为此错误值符合上一章中针对系统的所有三个标准，这些标准允许您将算法的质量与人员执行的任务的质量进行比较：

轻松标记数据：您可以使用一组医生来标记数据，准确性为98％（错误2％）
利用人类直觉进行错误分析：与医生团队讨论X射线时，您可以在寻求提高质量的方法时依靠他们的直觉
使用人员的任务完成级别来确定最佳错误级别，并确定系统可以达到的“所需错误级别”：建议使用2％作为最佳错误级别的估计值。最佳错误级别甚至可以小于2％，但由于这样的错误级别与专家可用的诊断质量相对应，并且由于自动系统将错误级别设置为5％或10％没有意义，因此它肯定不能更高。我们确信我们将有意识地提高质量水平。

在数据标记期间，不可能花费整个合格的医生团队来研究每个X射线，因为它们的时间很昂贵。雇用一名新手来拍摄绝大多数照片是比较明智的，并且仅在最困难的情况下，请有经验的医生或一组专家来进行。

如果您的系统当前存在40％的错误，则使用新手专家（错误为10％）或经验丰富的医生（错误为5％）标记数据并获得改善算法质量的想法都无关紧要。但是，如果您的系统错误已经低于10％，那么相当于2％错误的人工质量水平将使您对进一步改进系统的可能性充满信心。

35.克服人类可获得的质量水平

. , 10% . , 8% . - , 33 ?

, , , . , , , .

, :

, , , , , . , , , .

在许多重要的机器学习应用程序中，算法优于人类。例如，汽车可以更好地预测电影收视率，汽车旅行时间，还贷。如果人们很难找到算法明显不正确的示例，则只能使用有限数量的方法来提高质量。因此，在已经超越人类的系统上工作时，进度通常比算法尚未达到人类水平的情况下进展缓慢。