Un modèle de 24 milliards de paramètres vient de fonctionner sur un ordinateur portable et a choisi le bon outil en moins d'une demi-seconde. La véritable histoire est que les agents d'appel d'outils sont enfin devenus assez rapides pour ressembler à des logiciels. Liquid a construit LFM2-24B-A2B en utilisant une architecture hybride qui mélange des blocs de convolution avec une attention par requête groupée dans un rapport de 1:3. Seuls 2,3 milliards de paramètres s'activent par jeton, même si le modèle complet contient 24 milliards. Ce schéma d'activation sparse est la raison pour laquelle il tient dans 14,5 Go de mémoire et dispatches des outils en 385 millisecondes sur un M4 Max. L'architecture a été conçue grâce à une recherche hardware-in-the-loop, ce qui signifie qu'ils ont optimisé la structure du modèle en le testant directement sur les puces sur lesquelles il fonctionnerait. Pas de couche de traduction cloud. Pas de retour d'API. Le modèle, les outils et vos données restent sur la machine. Cela débloque trois choses qui étaient impraticables auparavant : 1. Les industries réglementées peuvent faire fonctionner des agents sur les ordinateurs portables des employés sans que les données quittent l'appareil. 2. Les développeurs peuvent prototyper des flux de travail multi-outils sans gérer des clés API ou des limites de taux. 3. Les équipes de sécurité obtiennent des pistes d'audit complètes sans sous-traitants de fournisseurs dans la boucle. Le modèle a atteint 80 % de précision sur la sélection d'outils en une seule étape à travers 67 outils répartis sur 13 serveurs MCP. Si cette performance se maintient à grande échelle, deux hypothèses doivent être mises à jour. Tout d'abord, les agents sur appareil ne sont plus un compromis sur la durée de vie de la batterie ; ils sont une fonctionnalité de conformité. Deuxièmement, le goulot d'étranglement dans les flux de travail agentiques passe de la capacité du modèle à la maturité de l'écosystème des outils.
088339
088339il y a 7 heures
> 385 ms de sélection d'outils en moyenne. > 67 outils sur 13 serveurs MCP. > Empreinte mémoire de 14,5 Go. > Aucun appel réseau. LocalCowork est un agent AI qui fonctionne sur un MacBook. Open source. 🧵
Travail incroyable de : @liquidai @ramin_m_h
78