Ich habe am 28. Februar 84 Millionen Token verbrannt. Unternehmen recherchieren, Memos entwerfen, Agenten betreiben. Das ist Kimi K2.5, ein serverloses Modell über API. Bei Claude oder OpenAI Preisen – ungefähr 9 $ pro Million gemischte Token – würde die entsprechende Nutzung 756 $ für einen einzigen Arbeitstag kosten. Meine Spitzenwerte erreichen 80 Millionen Token. Meine durchschnittlichen Tage liegen bei 20 Millionen. Cloud-Inferenz zu Preisen für Grenzmodelle summiert sich schnell.
In dieser Woche hat Alibaba Qwen3.5-9B veröffentlicht, ein Open-Source-Modell, das Claude Opus 4.1 von Dezember 2025 entspricht. Es läuft lokal mit 12 GB RAM. Vor drei Monaten erforderte diese Fähigkeit ein Rechenzentrum. Jetzt benötigt es nur eine Steckdose.
Ein Laptop für 5.000 $ — ein MacBook Pro mit genügend Speicher, um Qwen lokal auszuführen — amortisiert sich nach 556 Millionen Tokens. Bei meinem Nutzungsgrad sind das etwa einen Monat. Bei 20 Millionen Tokens pro Tag sind es vier Wochen. Nach der Amortisation sinken die Grenzkosten auf Strom. Es handelt sich nicht um einen Kompromiss bei der Intelligenz. Argumentation, Programmierung, agentische Arbeitsabläufe, Dokumentenverarbeitung, Befolgen von Anweisungen: Das 9B-Modell entspricht im Dezember dem Stand der Technik in allen Bereichen.
@twlvone Mehr Rechenleistung hilft über ein gewisses Maß an Genauigkeit beim Aufrufen von Werkzeugen hinaus nicht.
106