Trillion Labs, une startup coréenne d'IA, a lancé Tri-21B-think Preview, un petit modèle de raisonnement à poids ouverts qui obtient un score de 20 sur l'Indice d'Intelligence d'Analyse Artificielle Principaux points à retenir des benchmarks : ➤ Intelligence élevée mais pas dominante pour sa petite taille : Tri-21B-think Preview obtient un score élevé pour sa taille relativement petite de 21 milliards de paramètres. Le modèle n'ayant que 21B le rend relativement plus accessible à l'auto-hébergement par rapport aux modèles open source leaders comme GLM-5 et Kimi K2.5. ➤ Taux de hallucination faible : Tri-21B-think Preview obtient -49 sur l'Indice AA-Omniscience, un benchmark d'Analyse Artificielle propriétaire qui mesure la fiabilité des connaissances et les hallucinations à travers les industries. Ce bon score est principalement dû à un taux de hallucination relativement bas (62 %), qui est le plus bas parmi les modèles sud-coréens que nous avons évalués. ➤ Force dans l'utilisation d'outils agentiques : Tri-21B-think Preview obtient 93 % sur τ²-Bench Telecom, démontrant une forte performance sur les flux de travail d'utilisation d'outils agentiques. Tri-21B-think Preview se classe parmi les modèles à poids ouverts de pointe dans cette catégorie, obtenant des scores similaires à DeepSeek V3.2 et MiniMax M2.5 dans cette catégorie. ➤ Utilisation élevée de tokens : Tri-21B-think Preview démontre une utilisation de tokens très élevée par rapport à d'autres modèles dans le même niveau d'intelligence, utilisant ~120M de tokens de raisonnement à travers la suite d'Intelligence d'Analyse Artificielle. Cela est comparable à K-EXAONE (100M de tokens de raisonnement), un autre modèle coréen. ➤ Pas de points d'accès publics : Tri-21B-think Preview est un modèle à poids ouverts sous licence Apache 2.0. Actuellement, le seul moyen d'accéder au modèle est par auto-hébergement. Trillion Labs a partagé qu'un point d'accès dédié de première partie est prévu pour être servi dans un avenir proche. Voir ci-dessous pour une analyse plus approfondie.
Les scores de Tri-21B-think Preview atteignent 93 % sur τ²-Bench Telecom, démontrant une forte performance sur les flux de travail d'utilisation d'outils agentiques.
L'aperçu de Tri-21B-think démontre une utilisation très élevée des jetons, utilisant environ 120 millions de jetons de raisonnement dans la suite d'Intelligence d'Analyse Artificielle.
8,98K