继[43]之后,我们在训练过程中引入了一些技巧,例如混合算法[12],余弦[26]学习率进度表和同步批量归一化技术[30]。
在每次每次卷积后,以批次范数衰减0.99和epsilon 1e-3添加同步的批次归一化。每个模型在32个TPUv3内核上训练了300个时期,批次总大小为128。
v3-32 TPU type (v3) – 32 TPU v3 cores – 512 GiB Total TPU memory