Am ars 84 de milioane de jetoane pe 28 februarie. Cercetând companii, redactând memorii, conducând agenți. Asta rulează Kimi K2.5, un model serverless prin API. La tarifele Claude sau OpenAI — aproximativ 9 dolari pe milion de tokenuri combinate — utilizarea echivalentă ar costa 756 de dolari pentru o singură zi de muncă. Zilele mele de vârf au ajuns la 80 de milioane de token-uri. Zilele mele medii sunt de 20 de milioane. Inferența cloud-ului la prețurile modelului frontieră se adună rapid.
Săptămâna aceasta, Alibaba a lansat Qwen3.5-9B, un model open-source care se potrivește cu Claude Opus 4.1 din decembrie 2025. Rulează local pe 12GB RAM. Acum trei luni, această capacitate necesita un centru de date. Acum necesită o priză de curent.
Un laptop de 5.000 de dolari — un MacBook Pro cu suficientă memorie pentru a rula Qwen local — se amortizează singur după 556 de milioane de tokenuri. La ritmul meu de utilizare, asta înseamnă cam o lună. La 20 de milioane de jetoane pe zi, sunt patru săptămâni. După răscumpărare, costul marginal scade la electricitate. Nu este o compromisură de inteligență. Raționament, programare, fluxuri de lucru agențice, procesare a documentelor, urmare a instrucțiunilor: modelul 9B corespunde frontierei din decembrie pe toate planurile.
@twlvone Mai mult calcul nu ajută dincolo de un anumit nivel de acuratețe la apelarea uneltelor
131