OpenAI vient de lancer GPT-5.4 et nous l'avons testé dans Cline toute la semaine. Nous avons remarqué une augmentation de l'utilisation des ordinateurs et des connaissances générales, et les benchmarks le confirment : OSWorld (évaluation de l'utilisation des ordinateurs) est passé de 47,3 % → 75,0 %, dépassant la performance humaine de 72,4 % ! 🧵
GPT-5.4 a également une fenêtre de contexte de 1M, mais leurs évaluations montrent que needle-in-a-haystack (MRCR v2) obtient 97 % à 16-32K tokens, tombe à 57 % à 256-512K, et juste 36 % à 512K-1M. Donc, c'est une bonne idée de compacter régulièrement !
21