O RL frequentemente descarta sinais úteis em etapas intermediárias, ou como @karpathy colocou, é como "sugar a supervisão por um canudo." O MiniMax M2.5 resolve isso com recompensas por token no processo. O resultado é um desempenho de codificação de fronteira pelo menos 1/10 do custo do código fechado. @thealexker explica como esse mecanismo funciona e como o M2.5 se destaca no trabalho de conhecimento geral. Leia sobre isso aqui: