personne n'a compris cela. Ce qui s'est réellement passé, c'est qu'auparavant, les poids principaux étaient en bf16 et donc les gradients pour 60 % des paramètres lora étaient inférieurs à l'ulp.