Quemé 84 millones de tokens el 28 de febrero. Investigando empresas, redactando memorandos, gestionando agentes. Eso ejecuta Kimi K2.5, un modelo serverless vía API. A tasas Claude o OpenAI — aproximadamente 9 dólares por millón de tokens mezclados — un uso equivalente costaría 756 dólares por un solo día de trabajo. Mis días pico alcanzaron los 80 millones de tokens. Mis días promedio son 20 millones. La inferencia en la nube en precios de modelos fronterizos se acumula rápidamente.
Esta semana, Alibaba ha lanzado Qwen3.5-9B, un modelo de código abierto que coincide con Claude Opus 4.1 de diciembre de 2025. Funciona localmente con 12GB de RAM. Hace tres meses, esta capacidad requería un centro de datos. Ahora requiere un enchufe de corriente.
Un portátil de 5.000 dólares — un MacBook Pro con suficiente memoria para ejecutar Qwen localmente — se amortiza solo tras 556 millones de tokens. A mi ritmo de uso, eso es aproximadamente un mes. Con 20 millones de tokens al día, son cuatro semanas. Tras el retorno, el coste marginal baja a la electricidad. No es un compromiso de inteligencia. Razonamiento, codificación, flujos de trabajo agentes, procesamiento de documentos, seguimiento de instrucciones: el modelo 9B coincide con la frontera de diciembre en todos los aspectos.
@twlvone Más cálculo no ayuda más allá de cierto nivel de precisión en las llamadas de herramientas
200