安德鲁·安(Andrew Un)的著作《机器学习的激情》第49和50章的翻译

前几章


49.端到端学习的利弊


我们继续考虑语音识别系统:


图片

该输送机的大多数元素都是在不使用机器学习(由人开发或手工设计)的情况下创建的:


  • MFCC是通过数学运算提取的一组声音特征,这些频率不需要学习算法。这提供了输入信号的方便卷积,并且丢失了无关的信息。
  • 音素 -语言学家的发明。使用它们,创建了现场语音的简化模型。像任何复杂现象的模型一样,音素也不是完美的,它们所组成的系统的质量受到其对现实的不完美反射的限制。

一方面,非学习算法(手工设计的组件)限制了语音系统的潜在性能。另一方面,它们的使用具有某些优点:


  • MFCC的功能可抵抗某些语音属性,这些属性不会影响所讲内容的含义,例如语音的音调。他们的应用简化了训练算法的任务。
  • 音素如果能够正确反映真实语音的声音,则可以帮助学习算法捕捉基本的声音元素,从而提高其工作质量

:
图片
, (hand-engineered), . , , , (hand-engineered pipeline).


, , MFCC . , , , , , .


, , , « » — . , ( , ). , , .


, , . . . , (hand engineering).


, , . .


50. :


? . .
:


图片

. , , . (, Amazon Mechanical Turk) . , .


, :


图片

, , (: , ). , . . , . . .


通常,如果有大量样本可用于训练传送带的“中间模块”(例如汽车检测器或行人检测器),则可以考虑使用由多个组件组成的传送带。这种非跨领域方法将是可取的,因为它允许您使用所有可用数据。


我相信,除非有更多的数据来训练端到端系统,否则非端到端(管道)方法对于自动驾驶系统的开发将更有希望:它的体系结构可以更好地匹配可用数据。


延续


All Articles