🎉 Parabéns à @nvidia pelo lançamento do Nemotron 3 Super — suporte no dia 0 na vLLM v0.17.1! Verificado em GPUs NVIDIA. 120B híbrido MoE, apenas 12B ativos na inferência. Grandes melhorias em relação ao anterior Nemotron Super: - 5x maior throughput - 2x maior precisão no Índice de Inteligência de Análise Artificial - Previsão de Múltiplos Tokens (MTP) para geração mais rápida de longas formas - Orçamento de pensamento configurável — ajuste precisão vs custo por token por tarefa - Janela de contexto de 1M tokens Suporta BF16, FP8 e NVFP4. Totalmente aberto: pesos, conjuntos de dados, receitas. Blog: 🤝 Obrigado à equipe do Nemotron da @NVIDIAAIDev e aos colaboradores da comunidade vLLM!