Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uhh, o papel de desalinhamento agential é na verdade propaganda?


15 de mar., 22:52
Esta passagem na matéria da New Yorker sobre o conflito antrópico do DOW ontem, incluindo uma troca de mensagens entre o jornalista (Gideon Lewis-Kraus) e um funcionário administrativo anônimo, vai ficar na minha memória por muito tempo.
"Também devemos lembrar que a Cyberdyne Systems criou a Skynet para o governo. Era para ajudar a América a dominar seus inimigos. Não saiu exatamente como planejado. O governo acha isso absurdo. Mas o Pentágono não tentou construir uma IA alinhada, e a Anthropic tentou. Você está ciente, perguntei ao funcionário do Governo, de um experimento antrópico recente em que Claude recorreu à chantagem — e até ao homicídio — como ato de autopreservação? Foi feito explicitamente para convencer pessoas como ele. Como um membro da equipe de ciência do alinhamento da Anthropic me disse no verão passado, "O objetivo do exercício de chantagem era ter algo para descrever aos formuladores de políticas — resultados viscerais o suficiente para cair nas pessoas e tornar o risco de desalinhamento realmente relevante na prática para quem nunca havia pensado nisso antes." O oficial estava familiarizado com o experimento, ele me garantiu, e achou realmente preocupante — mas de uma forma semelhante a como se preocupa com um malware particularmente perigoso na internet. Ele estava perfeitamente confiante, me disse, de que "o cenário de chantagem Claude é apenas mais uma vulnerabilidade de sistema que pode ser resolvida com engenharia" — uma falha de software. Talvez ele esteja certo. Talvez só tenhamos uma chance de descobrir."
Recomendo muito que todos leiam tanto o artigo completo da New Yorker quanto a pesquisa da Anthropic sobre seleção de personas (ambos linkados nas respostas) e depois passem um tempo para lidar com a situação desconcertante em que podemos ter nos encontrado.
ok, infelizmente um monte de tolos totais entrou nas minhas respostas, então vou ser claro: acho que Anthropic tem boas intenções e, na maior parte, faz um bom trabalho, incluindo a agenda dos organismos modelo. Não acho que este artigo apoie as alegações que as pessoas fazem sobre isso. Agora vejo essa citação
72
Melhores
Classificação
Favoritos
