nessuno ha capito questo. ciò che è realmente accaduto è che in precedenza i pesi principali erano in bf16 e quindi i gradienti per il 60% dei parametri lora erano inferiori all'ulp