OpenAI har precis släppt GPT-5.4 och vi har testat det i Cline hela veckan. Vi märkte en ökning i datoranvändning och allmän kunskap, och benchmarks stöder det: OSWorld (datoranvändningsutvärdering) gick från 47,3 % → 75,0 %, vilket överträffade människans prestation med 72,4 %! 🧵
GPT-5.4 har också ett kontextfönster på 1 miljon, men deras utvärderingar visar att needle-in-a-haystack (MRCR v2) ger 97 % vid 16-32 000 tokens, sjunker till 57 % vid 256-512 000 och bara 36 % vid 512 000 till 1 miljon. Så det är en bra idé att komprimera regelbundet!
107