Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Чи можуть агенти, що кодують ШІ, відтворювати опубліковані результати соціальних наук?
У новій роботі з @_mohsen_m, Фабріціо Джиларді та @j_a_tucker ми представляємо SocSci-Repro-Bench — бенчмарк із 221 завдання відтворюваності з 54 статей — і оцінюємо два передових кодувальних агентів: Claude Code і Codex.
Результати виявляють як вражаючі можливості, так і нові ризики для науки з підтримкою ШІ.
------------------------------------
МЕТА
--------
Ключовою метою дизайну було розділення двох різних задач:
1️⃣ Чи є реплікаційні матеріали відтворюваними?
2️⃣ Чи можуть агенти ШІ відтворювати результати, коли матеріали є виконуваними?
Щоб ізолювати продуктивність агентів, ми включили лише завдання, результати яких були ідентичними при трьох незалежних ручних виконаннях.
------------------------------------
КОНСТРУКЦІЯ
--------
Отримані агенти:
• анонімізовані дані + код
• середовище виконання в пісочниці
Вони мусили автономно:
• встановлення залежностей
• налагодження зламаного коду
• виконати конвеєр
• витягти запитувані результати
Коротко: наскрізне комп'ютерне відтворення.
------------------------------------
РЕЗУЛЬТАТИ...

Найкращі
Рейтинг
Вибране
