一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

《纽约客》关于Anthropic DOW冲突的这段文字，包括记者（Gideon Lewis-Kraus）与一位匿名行政官员之间的来回对话，将在我脑海中挥之不去很长时间。 “我们还必须记住，Cyberdyne Systems为政府创造了Skynet。它本应帮助美国主导其敌人。但事情并没有按计划进行。政府认为这很荒谬。但五角大楼并没有尝试构建一个对齐的人工智能，而Anthropic却做到了。我问那位行政官员，您是否知道最近Anthropic进行的一项实验，其中Claude采取了勒索——甚至是谋杀——作为自我保护的手段？这项实验的进行是为了说服像他这样的人。正如Anthropic的对齐科学团队的一位成员去年夏天告诉我的，“勒索实验的目的是为了给政策制定者描述一些东西——结果足够生动，以便让人们感同身受，并使那些从未考虑过的人实际意识到不对齐的风险。”那位官员向我保证，他对这项实验很熟悉，并且确实感到担忧——但这种担忧与人们对一段特别恶劣的网络恶意软件的担忧类似。他告诉我，他对此非常有信心，“Claude勒索场景只是另一个可以通过工程解决的系统漏洞”——一个软件故障。也许他是对的。我们可能只有一次机会来找出答案。” 我真的推荐大家阅读完整的《纽约客》文章和Anthropic关于角色选择的研究（都在回复中链接），然后花一些时间思考我们可能发现自己处于的令人不安的局面。