🎉 Félicitations à @nvidia pour la sortie de Nemotron 3 Super — support jour-0 dans vLLM v0.17.1 ! Vérifié sur les GPU NVIDIA. 120B hybride MoE, seulement 12B actifs lors de l'inférence. Grandes améliorations par rapport au précédent Nemotron Super : - 5x plus de débit - 2x plus de précision sur l'Indice d'Intelligence d'Analyse Artificielle - Prédiction Multi-Token (MTP) pour une génération de long format plus rapide - Budget de réflexion configurable — ajustez la précision par rapport au coût par token par tâche - Fenêtre de contexte de 1M tokens Prend en charge BF16, FP8 et NVFP4. Entièrement ouvert : poids, ensembles de données, recettes. Blog : 🤝 Merci à l'équipe Nemotron de @NVIDIAAIDev et aux contributeurs de la communauté vLLM !