MLXs CUDA-backend blir bedre. Det er spesielt fint hvis du setter pris på raske oppstartstider. Men det er også ganske raskt generelt. Her er Qwen3 4B i fp8 som kjører på min DGX Spark. - Behandlet 18,5k tokens på < 4 sekunder - Genererer med 32,5 tok/sek med 18,5k kontekst
Også superenkelt å komme i gang:
297