前几章
49.端到端学习的利弊
我们继续考虑语音识别系统:

该输送机的大多数元素都是在不使用机器学习(由人开发或手工设计)的情况下创建的:
- MFCC是通过数学运算提取的一组声音特征,这些频率不需要学习算法。这提供了输入信号的方便卷积,并且丢失了无关的信息。
- 音素 -语言学家的发明。使用它们,创建了现场语音的简化模型。像任何复杂现象的模型一样,音素也不是完美的,它们所组成的系统的质量受到其对现实的不完美反射的限制。
一方面,非学习算法(手工设计的组件)限制了语音系统的潜在性能。另一方面,它们的使用具有某些优点:
- MFCC的功能可抵抗某些语音属性,这些属性不会影响所讲内容的含义,例如语音的音调。他们的应用简化了训练算法的任务。
- 音素如果能够正确反映真实语音的声音,则可以帮助学习算法捕捉基本的声音元素,从而提高其工作质量
:

, (hand-engineered), . , , , (hand-engineered pipeline).
, , MFCC . , , , , , .
, , , « » — . , ( , ). , , .
, , . . . , (hand engineering).
, , . .
50. :
? . .
:

. , , . (, Amazon Mechanical Turk) . , .
, :

, , (: , ). , . . , . . .
通常,如果有大量样本可用于训练传送带的“中间模块”(例如汽车检测器或行人检测器),则可以考虑使用由多个组件组成的传送带。这种非跨领域方法将是可取的,因为它允许您使用所有可用数据。
我相信,除非有更多的数据来训练端到端系统,否则非端到端(管道)方法对于自动驾驶系统的开发将更有希望:它的体系结构可以更好地匹配可用数据。
延续