OpenAI baru saja menjatuhkan GPT-5.4 dan kami telah mengujinya di Cline sepanjang minggu. Kami melihat lonjakan dalam penggunaan komputer dan pengetahuan umum, dan tolok ukur mendukungnya: OSWorld (penggunaan komputer eval) naik dari 47,3% → 75,0%, melampaui kinerja manusia sebesar 72,4%! 🧵
GPT-5.4 juga memiliki jendela konteks 1M, tetapi eval mereka menunjukkan bahwa needle-in-a-haystack (MRCR v2) mencetak 97% pada 16-32K token, turun menjadi 57% pada 256-512K, dan hanya 36% pada 512K-1M. Jadi ada baiknya untuk memadatkan secara teratur!
12