J'ai brûlé 84 millions de tokens le 28 février. Recherche d'entreprises, rédaction de mémos, gestion d'agents. C'est l'utilisation de Kimi K2.5, un modèle sans serveur via API. Aux tarifs de Claude ou OpenAI — environ 9 $ par million de tokens mélangés — une utilisation équivalente coûterait 756 $ pour une seule journée de travail. Mes journées de pointe atteignent 80 millions de tokens. Mes journées moyennes tournent autour de 20 millions. L'inférence dans le cloud au tarif des modèles de pointe s'accumule rapidement.
Cette semaine, Alibaba a lancé Qwen3.5-9B, un modèle open-source qui égalise Claude Opus 4.1 de décembre 2025. Il fonctionne localement avec 12 Go de RAM. Il y a trois mois, cette capacité nécessitait un centre de données. Maintenant, elle nécessite une prise électrique.
Un ordinateur portable à 5 000 $ — un MacBook Pro avec suffisamment de mémoire pour exécuter Qwen localement — se rentabilise après 556 millions de tokens. À mon rythme d'utilisation, cela prend environ un mois. À 20 millions de tokens par jour, cela fait quatre semaines. Après le remboursement, le coût marginal tombe à l'électricité. Ce n'est pas un compromis en matière d'intelligence. Raisonnement, codage, flux de travail agentique, traitement de documents, suivi d'instructions : le modèle 9B correspond à la frontière de décembre dans tous les domaines.
@twlvone Plus de puissance de calcul n'aide pas au-delà d'un certain niveau de précision d'appel d'outils
137