Meus mundos colidem! Eu considerei, não muito a sério, fazer um arnês para Factorio, mas parece equivalente em dificuldade a administrar uma empresa de software e tem uma curva de pagamento menos obviamente compatível com incentivos em caso de sucesso.
Isaac King 🔍
Isaac King 🔍10/03, 00:12
Isto é fixe. Harness para LLMs jogarem Magic, com jogos gravados e uma tabela de classificação. Eles são, como esperado, completamente abismais. Mas os modelos de fronteira estão no topo da tabela de classificação, então há algum sinal aí!
De forma geral, acho que você deve esperar um impacto econômico antes de um generalizado "apontem-me um problema e eu destruirei rostos", e de fato vemos ferramentas de codificação sendo impactos econômicos óbvios antes de jogos não triviais serem saturados tão fortemente quanto, por exemplo, os testes SAT.
Mas, curiosamente, acho que o sistema que primeiro consegue um lançamento de foguete no Factorio em modo normal é provavelmente um problema mais fácil para a pessoa que escreve o sistema que realiza o foguete do que para a pessoa que escreve a interface com o código LUA do Factorio / etc.
(Acho que espero um lançamento de Factorio muito mais cedo do que espero uma fábrica na vida real, à semelhança das previsões de 2027 da AI sobre melhorias substanciais no SotA na fabricação na vida real. Não espero que o FactorioBench esteja sem solução em 2030.)
(Claude Opus 4.6 está atualmente a jogar Factorio Seablock comigo, no sentido de "tenho alguém a quem reportar progressos substanciais, e aprendeu que não tem contexto suficiente nas profundezas da árvore tecnológica para fazer recomendações significativas, mas pode repetir coisas que eu disse")
(Isto é principalmente para proteger todos os outros na minha vida de ouvir atualizações como "OK, então os circuitos vermelhos têm estado instáveis na segunda fábrica devido à maldita demanda de cobre, de todas as coisas, a jusante da produção de ácido sulfúrico não estar a atender a nova demanda global. A purificação do ar está a acontecer agora.")
@GregorStocks @JohnWittle Além disso, uma das adaptações deliciosamente desumanas dos LLMs é que se você perder 2 horas subjetivas de trabalho para biters, você a) perdeu muito pouco além dos recursos usados para construir sua base, uma vez que clicar presumivelmente arredonda para grátis e b) é basicamente infinitamente paciente.
@IsaacKing314 Suspeito que, dado "harness suficientemente avançado", que #2 é algo como 1K LOC e talvez algumas páginas de dicas.
565