A Trillion Labs, uma startup de IA coreana, lançou o Tri-21B-think Preview, um pequeno modelo de raciocínio com pesos abertos que pontua 20 no Índice de Inteligência de Análise Artificial Principais conclusões de benchmarking: ➤ Inteligência alta, mas não líder para seu pequeno tamanho: O Tri-21B-think Preview pontua alto para seu relativamente pequeno tamanho de 21 bilhões de parâmetros. O modelo, com apenas 21B, torna-se relativamente mais acessível para auto-hospedagem em comparação com modelos de código aberto líderes como GLM-5 e Kimi K2.5. ➤ Baixa taxa de alucinação: O Tri-21B-think Preview pontua -49 no Índice AA-Omniscience, um benchmark proprietário de Análise Artificial que mede a confiabilidade do conhecimento e a alucinação em diversas indústrias. Essa boa pontuação é impulsionada principalmente por uma taxa de alucinação relativamente baixa (62%), que é a mais baixa entre os modelos sul-coreanos que avaliamos. ➤ Força no Uso de Ferramentas Agentes: O Tri-21B-think Preview pontua 93% no τ²-Bench Telecom, demonstrando um desempenho forte em fluxos de trabalho de uso de ferramentas agentes. O Tri-21B-think Preview está entre os modelos de pesos abertos de fronteira nesta categoria, pontuando de forma semelhante ao DeepSeek V3.2 e MiniMax M2.5 nesta categoria. ➤ Alto Uso de Tokens: O Tri-21B-think Preview demonstra um uso de tokens muito alto em comparação com outros modelos no mesmo nível de inteligência, utilizando ~120M de tokens de raciocínio em toda a suíte de Inteligência de Análise Artificial. Isso é comparável ao K-EXAONE (100M de tokens de raciocínio), outro modelo coreano. ➤ Sem Endpoints Públicos: O Tri-21B-think Preview é um modelo de pesos abertos sob a licença Apache 2.0. Atualmente, a única maneira de acessar o modelo é através da auto-hospedagem. A Trillion Labs compartilhou que um endpoint dedicado de primeira parte deve ser disponibilizado em um futuro próximo. Veja abaixo para uma análise mais detalhada.
Tri-21B-think Preview obteve 93% no τ²-Bench Telecom, demonstrando um forte desempenho em fluxos de trabalho de uso de ferramentas agentivas.
A pré-visualização do Tri-21B-think demonstra um uso muito elevado de tokens, utilizando ~120M tokens de raciocínio em toda a suíte de Inteligência de Análise Artificial.
8,98K