Ninguém acertou nisso. O que realmente aconteceu foi que antes os pesos mestres estavam no BF16 e, portanto, os gradientes de 60% dos parâmetros LORA eram menores que os do ULP