nikt nie miał racji. To, co się naprawdę wydarzyło, to to, że wcześniej wagi główne były w bf16, więc gradienty dla 60% parametrów lora były mniejsze niż ulp