Orang-orang dengan cepat salah menafsirkan grafik ini untuk hype Berikut penjelasan yang jelas tentang apa yang terjadi: METR membangun tolok ukur tugas perangkat lunak, (men-debug sistem yang kompleks, melatih model ML, atau menemukan kerentanan keamanan) Mereka mengukur berapa lama waktu yang dibutuhkan setiap tugas yang dibutuhkan oleh ahli manusia yang terampil untuk menyelesaikannya, kemudian menguji agen AI pada tugas yang sama. "Cakrawala waktu" adalah statistik ringkasan: panjang tugas di mana AI tertentu berhasil 50% dari waktu. Model dengan cakrawala waktu 2 jam menyelesaikan setengah dari tugas yang akan memakan waktu 2 jam bagi seorang ahli manusia. METR baru saja melaporkan bahwa Claude Opus 4.6 memiliki cakrawala waktu 50% ~14.5 jam, yang tentu saja, akan sangat mengesankan... tetapi METR memberi tahu kita untuk berhati-hati! Ada masalah statistik. Tidak ada cukup tugas sulit yang tersisa untuk menambatkan ujung atas kurva dan model perbatasan sekarang berhasil di hampir semua hal di rangkaian tugas. Jadi, variasi acak kecil dalam hasil mengayunkan perkiraan secara dramatis: Interval kepercayaan 95% berkisar dari 6 jam hingga 98 jam, yang jelas merupakan kisaran yang tidak dapat diandalkan bagi siapa pun untuk menarik kesimpulan. METR sendiri sedang mengerjakan metode baru untuk mengukur pada tingkat ini, jadi mengurangi ekspektasi sedikit :)