Mengikuti [43], kami memperkenalkan sekumpulan trik dalam proses pelatihan, seperti algoritma mixup [12], jadwal tingkat pembelajaran cosinus [26], dan teknik normalisasi bets yang disinkronkan [30].
Normalisasi bets yang disinkronkan ditambahkan setelah setiap konvolusi dengan peluruhan norma bets 0,99 dan epsilon 1e-3.Setiap model dilatih 300 zaman dengan ukuran total batch 128 pada 32 inti TPUv3.
v3-32 TPU type (v3) โ 32 TPU v3 cores โ 512 GiB Total TPU memory