Après [43], nous introduisons un sac de trucs dans le processus de formation, tels que l'algorithme de mixage [12], le calendrier des taux d'apprentissage cosinus [26] et la technique de normalisation des lots synchronisés [30].
La normalisation par lots synchronisée est ajoutée après chaque convolution avec la décroissance de la norme de lot 0,99 et epsilon 1e-3.Chaque modèle est formé de 300 époques avec une taille totale de lot de 128 sur 32 cœurs TPUv3.
v3-32 TPU type (v3) – 32 TPU v3 cores – 512 GiB Total TPU memory