Aprovechar Idea de meta-referencia: Una colección de arneses básicos para agentes (AGENTS.md, docs, habilidades, ganchos) que encapsulan aplicaciones no triviales, cada una con un único prompt para transformar la aplicación de una vez comenzando desde cero. Cuando salgan nuevos agentes de codificación o modelos, podemos ejecutar contra el arnés para comparar directamente con versiones anteriores del modelo. “Este modelo escribió un navegador desde cero a partir del arnés de navegador estándar con un X% de completitud de características y solo Y líneas de código en Z horas por $XYZ.” Imagina ver ese navegador que Cursor desarrolló a través de la lente de cada actualización subsiguiente del modelo. ¿Qué tan bueno era el código? ¿Qué tan rápido era el renderizador? ¿Qué tan completa era la gama de características? ¿Cuánto tiempo tuvo el agente para ejecutar? ¿Cuál fue el costo total de los tokens? Una especie de Jardín Zen de CSS (que hizo mucho para impulsar los estándares de los navegadores) para arneses de agentes. Siento que todos nosotros hemos experimentado la diferencia en Codex 5.4 Extra Alto (si no, deja de leer este post y pruébalo de inmediato), pero aún no tenemos una forma de capturar en un benchmark la experiencia cualitativa de usarlo como desarrollador, particularmente para medidas como la arquitectura y la calidad del código.