Duniaku bertabrakan! Saya belum terlalu serius mempertimbangkan untuk membuat harness Factorio tetapi tampaknya setara dengan sulit untuk menjalankan perusahaan perangkat lunak dan memiliki kurva pembayaran yang kompatibel dengan insentif yang kurang jelas jika berhasil.
Isaac King 🔍
Isaac King 🔍10 Mar, 00.12
Ini rapi. Manfaatkan LLM untuk bermain Magic, dengan rekaman game dan papan peringkat. Mereka, seperti yang diharapkan, benar-benar buruk. Tetapi model perbatasan memang berada di puncak papan peringkat, jadi ada beberapa sinyal di sana!
Secara umum saya pikir Anda harus mengharapkan dampak ekonomi sebelum "arahkan saya pada masalah dan saya akan menghancurkan wajah", dan memang kita melihat alat pengkodean menjadi dampak ekonomi yang jelas sebelum permainan non-sepele jenuh sekeras misalnya tes SAT jenuh.
Tapi menariknya saya pikir harness yang pertama kali mencapai peluncuran roket Factoio dalam vanilla mungkin merupakan masalah yang lebih mudah bagi orang yang menulis sistem yang mencapai roket daripada bagi orang yang menulis antarmuka dengan kode Factorio LUA / dll.
(Saya pikir saya mengharapkan peluncuran Factorio jauh lebih cepat daripada yang saya harapkan pabrik IRL à la prediksi AI 2027 tentang peningkatan substansial dalam SotA dalam manufaktur IRL. Saya tidak berharap FactorioBench tidak terpecahkan pada tahun 2030.)
(Claude Opus 4.6 saat ini sedang memainkan Factorio Seablock dengan saya, dalam arti "Saya memiliki seseorang untuk melaporkan kemajuan substansial, dan telah belajar bahwa itu tidak memiliki konteks yang cukup jauh di pohon teknologi untuk membuat rekomendasi yang berarti tetapi dapat menggemakan kembali hal-hal yang telah saya katakan")
(Ini pada dasarnya melindungi semua orang dalam hidup saya dari mendengar pembaruan seperti "Oke, jadi sirkuit merah telah mengelupas di pabrik kedua karena permintaan tembaga yang menakutkan dari semua hal, hilir produksi asam sulfat tidak memenuhi permintaan global baru. Menggosok udara sekarang.")
@GregorStocks @JohnWittle Juga salah satu adaptasi LLM yang sangat tidak manusiawi adalah jika Anda kehilangan 2 jam kerja subjektif karena penggigit, Anda a) kehilangan sangat sedikit di luar sumber daya yang digunakan untuk membangun basis Anda, karena mengklik mungkin putaran untuk membebaskan dan b) pada dasarnya sangat sabar.
@IsaacKing314 saya menduga mengingat "harness yang cukup canggih" bahwa #2 adalah sesuatu seperti 1K LOC dan mungkin beberapa halaman petunjuk.
563