MLX:n CUDA-taustajärjestelmä paranee. Se on erityisen mukavaa, jos arvostat nopeita käynnistysaikoja. Mutta se on myös yleisesti ottaen melko nopea. Tässä on Qwen3 4B fp8-versiossa, joka toimii DGX Sparkillani. - Käsitellyt 18,5 000 tokenia < 4 sekunnissa - Generoituu 32,5 tok/s 18,5k kontekstilla
Myös todella helppo saada toimimaan:
286