El backend CUDA de MLX está mejorando. Es especialmente bueno si aprecias los tiempos de inicio rápidos. Pero también es bastante rápido en general. Aquí tienes un Qwen3 4B en FP8 funcionando en mi DGX Spark. - Procesó 18.500 tokens en < 4 segundos - Genera a 32,5 tok/seg con 18,5k de contexto
También es muy sencillo de poner en marcha:
303