NVIDIA ha rilasciato Nemotron 3 Super, un modello di ragionamento con pesi aperti da 120B (12B attivi) che ottiene 36 nell'Artificial Analysis Intelligence Index con un'architettura ibrida Mamba-Transformer MoE. Ci è stato dato accesso a questo modello prima del lancio e lo abbiamo valutato in base a intelligenza, apertura ed efficienza di inferenza. Punti chiave ➤ Combina alta apertura con forte intelligenza: Nemotron 3 Super si comporta bene per le sue dimensioni ed è sostanzialmente più intelligente di qualsiasi altro modello con apertura comparabile. ➤ Nemotron 3 Super ha ottenuto 36 nell'Artificial Analysis Intelligence Index, +17 punti rispetto al precedente rilascio Super e +12 punti rispetto a Nemotron 3 Nano. Rispetto ai modelli nella stessa categoria di dimensioni, questo lo colloca davanti a gpt-oss-120b (33), ma dietro al recentemente rilasciato Qwen3.5 122B A10B (42). ➤ Focalizzato su un'intelligenza efficiente: abbiamo trovato che Nemotron 3 Super ha un'intelligenza superiore a gpt-oss-120b, consentendo un throughput ~10% più elevato per GPU in un semplice ma realistico test di carico. ➤ Supportato oggi per un'inferenza serverless veloce: fornitori come @DeepInfra e @LightningAI stanno servendo questo modello al lancio con velocità fino a 484 token al secondo. Dettagli del modello 📝 Nemotron 3 Super ha 120.6B parametri totali e 12.7B parametri attivi, insieme a una finestra di contesto di 1 milione di token e supporto per ragionamento ibrido. È pubblicato con pesi aperti e una licenza permissiva, insieme a dati di addestramento aperti e divulgazione della metodologia. 📐 Il modello ha diverse caratteristiche di design che consentono un'inferenza efficiente, tra cui l'uso di architetture ibride Mamba-Transformer e LatentMoE, previsione multi-token e pesi quantizzati NVFP4. 🎯 NVIDIA ha pre-addestrato Nemotron 3 Super in precisione (per lo più) NVFP4, ma è passato a BF16 per il post-addestramento. I nostri punteggi di valutazione utilizzano i pesi BF16. 🧠 Abbiamo confrontato Nemotron 3 Super nella sua modalità di ragionamento a massimo sforzo ("regolare"), la più capace delle tre modalità di inferenza del modello (ragionamento disattivato, basso sforzo e regolare).
NVIDIA ha rilasciato dati significativi pre e post-addestramento insieme a nuove ricette di addestramento complete per questo modello. Queste rivelazioni raggiungono un punteggio di 83 nell'Artificial Analysis Openness Index, dietro solo ai modelli altamente aperti di Ai2 e MBZUAI, e collocano Nemotron 3 Super nel quadrante più attraente per Apertura e Intelligenza tra i pari. Nemotron 3 Super è di gran lunga il modello più intelligente mai rilasciato con questo livello di apertura.
Nemotron 3 Super ha utilizzato un numero relativamente elevato di token nelle nostre valutazioni. Ha utilizzato 110 milioni di token di output per eseguire le valutazioni dell'Artificial Analysis Intelligence Index - questo è circa il 40% in più rispetto a gpt-oss-120b con un elevato sforzo di ragionamento, ma una riduzione di circa il 20% rispetto a Nemotron 3 Nano. Sono significativamente meno token rispetto a Claude Opus 4.6 di Anthropic (max), che ha utilizzato 160 milioni di token, e leggermente meno rispetto a GPT-5.4 (xhigh) di OpenAI, che ha utilizzato 120 milioni di token.
Con 120 miliardi totali e 12 miliardi di parametri attivi, Nemotron 3 Super è ancora relativamente piccolo rispetto ad altri recenti modelli a pesi aperti rilasciati dai principali laboratori globali — GLM-5 (744 miliardi totali, 40 miliardi attivi), Qwen3.5 397B A17B (397 miliardi totali, 17 miliardi attivi) e Kimi K2.5 (1 trilione totali, 32 miliardi attivi) sono ciascuno da 3 a 8 volte più grandi.
NVIDIA è focalizzata su un'intelligenza efficiente per la famiglia Nemotron, e abbiamo testato le prestazioni di inferenza rispetto ai modelli concorrenti per vedere l'impatto delle scelte architettoniche. Abbiamo eseguito test di throughput auto-ospitati su una gamma di modelli concorrenti utilizzando una metodologia semplice con carichi di lavoro rappresentativi di casi d'uso comuni come flussi di lavoro agentici con una storia moderata, applicazioni RAG o elaborazione di documenti. In questo test, Nemotron 3 Super (NVFP4) mostra un throughput superiore dell'11% per GPU NVIDIA B200 rispetto a gpt-oss-120b (MXFP4), posizionando Nemotron 3 Super 'in alto a destra' rispetto a gpt-oss-120b. Qwen3.5 122B A10B ottiene +6 punti sull'Intelligence Index rispetto a Nemotron 3 Super, ma con un throughput per GPU inferiore del 40%. I nostri punteggi dell'Intelligence Index per Nemotron 3 Super sono stati valutati sui pesi BF16. Non abbiamo ancora valutato se ci sia un impatto sull'intelligenza della quantizzazione NVFP4, ma i test interni di NVIDIA hanno trovato che il modello NVFP4 ha raggiunto una precisione mediana del 99,8% rispetto al baseline BF16. Per ulteriori dettagli sulla nostra configurazione di test e sulle configurazioni dei modelli, consulta il nostro articolo su Nemotron 3 Super:
Nemotron 3 Super sarà disponibile dal suo rilascio su API senza server da fornitori tra cui Lightning AI e DeepInfra. Abbiamo testato questi endpoint e abbiamo riscontrato prestazioni fino a 484 token al secondo sui nostri carichi di lavoro standard di 10k token. Al lancio, Nemotron 3 Super si colloca nel quadrante più attraente per intelligenza e velocità di output tra i pari comparabili.
6,62K