🎉 Selamat untuk @nvidia rilis Nemotron 3 Super — dukungan hari-0 di vLLM v0.17.1! Diverifikasi pada GPU NVIDIA. MoE hibrida 120B, hanya 12B aktif pada inferensi. Peningkatan besar dari Nemotron Super sebelumnya: - Throughput 5x lebih tinggi - Akurasi 2x lebih tinggi pada Indeks Kecerdasan Analisis Buatan - Prediksi Multi-Token (MTP) untuk pembuatan bentuk panjang yang lebih cepat - Anggaran berpikir yang dapat dikonfigurasi — akurasi panggilan vs biaya token per tugas - Jendela konteks token 1M Mendukung BF16, FP8, dan NVFP4. Terbuka sepenuhnya: bobot, kumpulan data, resep. Blog: 🤝 Terima kasih @NVIDIAAIDev tim Nemotron dan kontributor komunitas vLLM!