🎉 Chúc mừng @nvidia về việc phát hành Nemotron 3 Super — hỗ trợ ngày-0 trong vLLM v0.17.1! Đã được xác minh trên GPU NVIDIA. 120B hybrid MoE, chỉ 12B hoạt động trong quá trình suy diễn. Nâng cấp lớn so với Nemotron Super trước đó: - Tốc độ xử lý cao hơn 5 lần - Độ chính xác cao hơn 2 lần trên Chỉ số Trí tuệ Phân tích Nhân tạo - Dự đoán Đa Token (MTP) cho việc tạo nội dung dài nhanh hơn - Ngân sách suy nghĩ có thể cấu hình — điều chỉnh độ chính xác so với chi phí token cho mỗi nhiệm vụ - Cửa sổ ngữ cảnh 1M token Hỗ trợ BF16, FP8 và NVFP4. Hoàn toàn mở: trọng số, tập dữ liệu, công thức. Blog: 🤝 Cảm ơn @NVIDIAAIDev đội ngũ Nemotron và các cộng tác viên cộng đồng vLLM!