A Trillion Labs, uma startup coreana de IA, lançou o Tri-21B-think Preview, um modelo de raciocínio em pequenos pesos abertos que obtém 20 no Índice de Inteligência de Análise Artificial Principais lições de benchmarking: ➤ Inteligência alta, mas não líder para seu pequeno tamanho: Tri-21B-think Preview pontua alta para seu tamanho relativamente pequeno de 21 bilhões de parâmetros. O modelo ser apenas 21B o torna relativamente mais acessível para auto-hospedagem em comparação com modelos líderes de código aberto como GLM-5 e Kimi K2.5 ➤ Baixa taxa de alucinação: Tri-21B-think Preview pontua -49 no AA-Omniscience Index, um benchmark proprietário de Análise Artificial que mede a confiabilidade do conhecimento e alucinações em diversos setores. Essa boa pontuação é principalmente impulsionada por uma taxa relativamente baixa de alucinações (62%), que é a menor entre os modelos sul-coreanos que comparamos. ➤ Força no Uso de Ferramentas Agentes: Tri-21B-think Preview pontua 93% no τ²-Bench Telecom, demonstrando forte desempenho em fluxos de trabalho de uso de ferramentas agentes. Tri-21B-think Preview entre os modelos de peso aberto de vanguarda nesta categoria, com pontuação semelhante ao DeepSeek V3.2 e MiniMax M2.5 nessa categoria ➤ Alto Uso de Tokens: O Tri-21B-think Preview demonstra uso de tokens muito alto em comparação com outros modelos do mesmo nível de inteligência, usando ~120M de tokens de raciocínio em toda a suíte de Inteligência de Análise Artificial. Isso é comparável ao K-EXAONE (tokens de raciocínio 100M), outro modelo coreano ➤ Sem Endpoints Públicos: Tri-21B-think Preview é um modelo de pesos abertos sob licença Apache 2.0. Atualmente, a única forma de acessar o modelo é por meio de autohospedagem. A Trillion Labs compartilhou que um endpoint dedicado e de primeira parte deve ser atendido em breve. Veja abaixo para uma análise adicional
O Tri-21B-think Preview pontua 93% no τ²-Bench Telecom, demonstrando forte desempenho em fluxos de trabalho de uso de ferramentas agentes.
O Tri-21B-think Preview demonstra um uso muito alto de tokens, usando ~120M de tokens de raciocínio em toda a suíte de Inteligência de Análise Artificial.
9,07K