Model 24 miliar parameter hanya berjalan di laptop dan memilih alat yang tepat dalam waktu kurang dari setengah detik. Kisah sebenarnya adalah bahwa agen pemanggil alat akhirnya menjadi cukup cepat untuk terasa seperti perangkat lunak. Liquid membangun LFM2-24B-A2B menggunakan arsitektur hibrida yang mencampur blok konvolusi dengan perhatian kueri yang dikelompokkan dalam rasio 1:3. Hanya 2,3 miliar parameter yang aktif per token, meskipun model lengkap menampung 24 miliar. Pola aktivasi yang jarang itu adalah mengapa ia muat dalam memori 14,5 GB dan mengirimkan alat dalam 385 milidetik pada M4 Max. Arsitektur dirancang melalui pencarian hardware-in-the-loop, yang berarti mereka mengoptimalkan struktur model dengan mengujinya langsung pada chip yang akan dijalankan. Tidak ada lapisan terjemahan cloud. Tidak ada API bolak-balik. Model, alat, dan data Anda tetap ada di mesin. Ini membuka tiga hal yang sebelumnya tidak praktis: 1. Industri yang diatur dapat menjalankan agen di laptop karyawan tanpa data keluar dari perangkat. 2. Pengembang dapat membuat prototipe alur kerja multi-alat tanpa mengelola kunci API atau batas kecepatan. 3. Tim keamanan mendapatkan jejak audit lengkap tanpa subprosesor vendor dalam lingkaran. Model ini mencapai akurasi 80% pada pemilihan alat satu langkah di 67 alat yang mencakup 13 server MCP. Jika kinerja ini berlaku dalam skala besar, dua asumsi perlu diperbarui. Pertama, agen di perangkat bukan lagi pertukaran masa pakai baterai; mereka adalah fitur kepatuhan. Kedua, kemacetan dalam alur kerja agen bergeser dari kemampuan model ke kematangan ekosistem alat.
088339
08833915 jam lalu
> pemilihan alat rata-rata 385ms. > 67 alat di 13 server MCP. > jejak memori 14,5 GB. > Panggilan jaringan nol. LocalCowork adalah agen AI yang berjalan di MacBook. Sumber terbuka. 🧵
Karya luar biasa dari: @liquidai @ramin_m_h
176