ninguém acertou isto. o que realmente aconteceu foi que anteriormente os pesos principais estavam em bf16 e, portanto, os gradientes para 60% dos parâmetros lora eram inferiores ao ulp