Un modelo de 24 mil millones de parámetros acaba de ejecutarse en una laptop y eligió la herramienta correcta en menos de medio segundo. La verdadera historia es que los agentes que llaman a herramientas finalmente se volvieron lo suficientemente rápidos como para sentirse como software. Liquid construyó LFM2-24B-A2B utilizando una arquitectura híbrida que mezcla bloques de convolución con atención de consulta agrupada en una proporción de 1:3. Solo se activan 2.3 mil millones de parámetros por token, a pesar de que el modelo completo tiene 24 mil millones. Ese patrón de activación dispersa es la razón por la que cabe en 14.5 GB de memoria y despacha herramientas en 385 milisegundos en un M4 Max. La arquitectura fue diseñada a través de una búsqueda de hardware en el bucle, lo que significa que optimizaron la estructura del modelo probándola directamente en los chips en los que se ejecutaría. Sin capa de traducción en la nube. Sin ida y vuelta de API. El modelo, las herramientas y tus datos permanecen en la máquina. Esto desbloquea tres cosas que eran imprácticas antes: 1. Las industrias reguladas pueden ejecutar agentes en las laptops de los empleados sin que los datos salgan del dispositivo. 2. Los desarrolladores pueden prototipar flujos de trabajo de múltiples herramientas sin gestionar claves de API o límites de tasa. 3. Los equipos de seguridad obtienen auditorías completas sin subprocesadores de proveedores en el bucle. El modelo alcanzó un 80% de precisión en la selección de herramientas de un solo paso a través de 67 herramientas que abarcan 13 servidores MCP. Si este rendimiento se mantiene a gran escala, dos suposiciones necesitan ser actualizadas. Primero, los agentes en el dispositivo ya no son un compromiso con la duración de la batería; son una característica de cumplimiento. En segundo lugar, el cuello de botella en los flujos de trabajo agénticos está cambiando de la capacidad del modelo a la madurez del ecosistema de herramientas.
088339
088339Hace 9 horas
> 385ms de selección promedio de herramientas. > 67 herramientas en 13 servidores MCP. > Huella de memoria de 14.5GB. > Sin llamadas a la red. LocalCowork es un agente de IA que se ejecuta en un MacBook. Código abierto. 🧵
Increíble trabajo de: @liquidai @ramin_m_h
121