OpenAI acaba de lanzar GPT-5.4 y lo hemos estado probando en Cline toda la semana. Notamos un aumento en el uso del ordenador y en el conocimiento general, y los benchmarks lo respaldan: OSWorld (evaluación de uso de ordenadores) pasó del 47,3% → 75,0%, superando el rendimiento humano con un 72,4%. 🧵
GPT-5.4 también tiene una ventana de contexto de 1M, pero sus evaluaciones muestran que la aguja en pajar (MRCR v2) obtiene un 97% en 16-32K tokens, baja al 57% en 256-512K, y solo al 36% en 512K-1M. ¡Así que es buena idea compactar regularmente!
124