A seguir [43], introduzimos uma série de truques no processo de treinamento, como o algoritmo de mixagem [12], o cronograma da taxa de aprendizado do cosseno [26] e a técnica de normalização de lote sincronizada [30].
A normalização de lote sincronizada é adicionada após cada convolução com decaimento da norma de lote 0,99 e epsilon 1e-3.Cada modelo é treinado 300 épocas com tamanho total de lote 128 em 32 núcleos TPUv3.
v3-32 TPU type (v3) – 32 TPU v3 cores – 512 GiB Total TPU memory