بعد [43] ، نقدم مجموعة من الحيل في عملية التدريب ، مثل خوارزمية المزج [12] ، وجدول التمام [26] ، ومعدل التعلم المتزامن وتقنية تسوية الدفعة المتزامنة [30].
تتم إضافة تسوية الدفعة المتزامنة بعد كل التفاف مع انحلال معياري الدفعة 0.99 وإبسيلون 1e-3.يتم تدريب كل طراز على 300 حقبة مع إجمالي حجم الدفعة 128 على 32 نواة TPUv3.
v3-32 TPU type (v3) – 32 TPU v3 cores – 512 GiB Total TPU memory