Siguiendo [43], presentamos una bolsa de trucos en el proceso de entrenamiento, como el algoritmo de mezcla [12], el programa de tasa de aprendizaje de coseno [26] y la técnica de normalización por lotes sincronizada [30].
La normalización de lote sincronizada se agrega después de cada convolución con la descomposición de la norma de lote 0.99 y epsilon 1e-3.Cada modelo está entrenado 300 épocas con un tamaño total de lote 128 en 32 núcleos TPUv3.
v3-32 TPU type (v3) – 32 TPU v3 cores – 512 GiB Total TPU memory