Im Anschluss an [43] führen wir eine Reihe von Tricks in den Trainingsprozess ein, z. B. den Mischalgorithmus [12], den Kosinus [26] -Lernratenplan und die synchronisierte Batch-Normalisierungstechnik [30].
Nach jeder Faltung wird eine synchronisierte Chargennormalisierung mit einem Chargennormabfall von 0,99 und Epsilon 1e-3 hinzugefügt.Jedes Modell trainiert 300 Epochen mit einer Gesamtgröße von 128 auf 32 TPUv3-Kernen.
v3-32 TPU type (v3) – 32 TPU v3 cores – 512 GiB Total TPU memory