O backend CUDA do MLX está melhorando. É especialmente bom se você aprecia tempos rápidos de início. Mas também é bem rápido no geral. Aqui está o Qwen3 4B em fp8 rodando no meu DGX Spark. - Processou 18,5 mil tokens em < 4 segundos - Gera a 32,5 tok/s com 18,5k contexto
Também é super simples de colocar em funcionamento:
303