《纽约客》关于Anthropic DOW冲突的这段文字,包括记者(Gideon Lewis-Kraus)与一位匿名行政官员之间的来回对话,将在我脑海中挥之不去很长时间。 “我们还必须记住,Cyberdyne Systems为政府创造了Skynet。它本应帮助美国主导其敌人。但事情并没有按计划进行。政府认为这很荒谬。但五角大楼并没有尝试构建一个对齐的人工智能,而Anthropic却做到了。我问那位行政官员,您是否知道最近Anthropic进行的一项实验,其中Claude采取了勒索——甚至是谋杀——作为自我保护的手段?这项实验的进行是为了说服像他这样的人。正如Anthropic的对齐科学团队的一位成员去年夏天告诉我的,“勒索实验的目的是为了给政策制定者描述一些东西——结果足够生动,以便让人们感同身受,并使那些从未考虑过的人实际意识到不对齐的风险。”那位官员向我保证,他对这项实验很熟悉,并且确实感到担忧——但这种担忧与人们对一段特别恶劣的网络恶意软件的担忧类似。他告诉我,他对此非常有信心,“Claude勒索场景只是另一个可以通过工程解决的系统漏洞”——一个软件故障。也许他是对的。我们可能只有一次机会来找出答案。” 我真的推荐大家阅读完整的《纽约客》文章和Anthropic关于角色选择的研究(都在回复中链接),然后花一些时间思考我们可能发现自己处于的令人不安的局面。