Чи можуть агенти, що кодують ШІ, відтворювати опубліковані результати соціальних наук? У новій роботі з @_mohsen_m, Фабріціо Джиларді та @j_a_tucker ми представляємо SocSci-Repro-Bench — бенчмарк із 221 завдання відтворюваності з 54 статей — і оцінюємо два передових кодувальних агентів: Claude Code і Codex. Результати виявляють як вражаючі можливості, так і нові ризики для науки з підтримкою ШІ. ------------------------------------ МЕТА -------- Ключовою метою дизайну було розділення двох різних задач: 1️⃣ Чи є реплікаційні матеріали відтворюваними? 2️⃣ Чи можуть агенти ШІ відтворювати результати, коли матеріали є виконуваними? Щоб ізолювати продуктивність агентів, ми включили лише завдання, результати яких були ідентичними при трьох незалежних ручних виконаннях. ------------------------------------ КОНСТРУКЦІЯ -------- Отримані агенти: • анонімізовані дані + код • середовище виконання в пісочниці Вони мусили автономно: • встановлення залежностей • налагодження зламаного коду • виконати конвеєр • витягти запитувані результати Коротко: наскрізне комп'ютерне відтворення. ------------------------------------ РЕЗУЛЬТАТИ...