Agentes de codificação por IA podem reproduzir descobertas publicadas em ciências sociais? Em novos trabalhos com @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, apresentamos o SocSci-Repro-Bench — um benchmark de 221 tarefas de reprodutibilidade de 54 artigos — e avaliamos dois agentes de codificação de fronteira: Claude Code e Codex. Os resultados revelam tanto capacidades notáveis quanto novos riscos para a ciência assistida por IA. ------------------------------------ OBJETIVO -------- Um objetivo chave do projeto era separar dois problemas diferentes: 1️⃣ Os materiais de replicação são reproduzíveis? 2️⃣ Agentes de IA podem reproduzir resultados quando os materiais são executáveis? Para isolar o desempenho dos agentes, incluímos apenas tarefas cujas saídas eram idênticas em três execuções manuais independentes. ------------------------------------ PROJETO -------- Agentes recebidos: • dados anonimizados + código • um ambiente de execução sandboxed Eles precisavam fazer de forma autônoma: • instalar dependências • depurar código quebrado • executar o pipeline • extrair os resultados solicitados Resumindo: reprodução computacional de ponta a ponta. ------------------------------------ RESULTADOS...