niemand had dit goed. wat er eigenlijk gebeurde was dat de master gewichten eerder in bf16 waren en dus de gradients voor 60% van de lora parameters minder waren dan de ulp