Kukaan ei saanut tätä oikein. Todellisuudessa aiemmin pääpainot olivat BF16:ssa, joten 60 %:n LORA-parametrien gradientit olivat pienempiä kuin ULP:n