Uhh, bài báo về sự không phù hợp của tác nhân thực sự có phải là tuyên truyền không?
Nathan Calvin
Nathan Calvin22:52 15 thg 3
Đoạn văn này trong bài viết của New Yorker về cuộc xung đột DOW của Anthropic hôm qua, bao gồm một cuộc trao đổi giữa nhà báo (Gideon Lewis-Kraus) và một quan chức hành chính ẩn danh, sẽ ám ảnh tôi trong một thời gian dài. "Chúng ta cũng phải nhớ rằng Cyberdyne Systems đã tạo ra Skynet cho chính phủ. Nó được cho là sẽ giúp nước Mỹ thống trị kẻ thù của mình. Nó không hoạt động như kế hoạch. Chính phủ nghĩ điều này thật vô lý. Nhưng Lầu Năm Góc chưa cố gắng xây dựng một A.I. phù hợp, và Anthropic thì đã làm. Bạn có biết, tôi đã hỏi quan chức của Chính quyền, về một thí nghiệm gần đây của Anthropic trong đó Claude đã resort đến tống tiền—và thậm chí là giết người—như một hành động tự bảo vệ? Nó đã được thực hiện một cách rõ ràng để thuyết phục những người như ông ta. Như một thành viên của đội ngũ khoa học căn chỉnh của Anthropic đã nói với tôi vào mùa hè năm ngoái, "Mục đích của bài tập tống tiền là để có thứ gì đó để mô tả cho các nhà hoạch định chính sách—những kết quả đủ mạnh mẽ để gây ấn tượng với mọi người, và làm cho rủi ro không phù hợp thực sự nổi bật trong thực tế đối với những người chưa bao giờ nghĩ về nó trước đây." Quan chức đó đã quen thuộc với thí nghiệm, ông ấy đảm bảo với tôi, và ông ấy thấy điều đó thực sự đáng lo ngại—nhưng theo cách tương tự như một người có thể lo lắng về một phần mềm độc hại trên internet đặc biệt khó chịu. Ông ấy hoàn toàn tự tin, ông ấy nói với tôi, rằng "kịch bản tống tiền của Claude chỉ là một lỗ hổng hệ thống khác có thể được giải quyết bằng kỹ thuật"—một lỗi phần mềm. Có thể ông ấy đúng. Chúng ta có thể chỉ có một cơ hội để tìm ra.
được rồi, thật buồn khi một đám người hoàn toàn ngu ngốc đã vào phần trả lời của tôi, vì vậy hãy để tôi làm rõ: Tôi nghĩ Anthropic có ý định tốt và chủ yếu làm việc tốt, bao gồm cả chương trình sinh vật mô hình. Tôi không nghĩ rằng bài báo này hỗ trợ những tuyên bố mà mọi người đưa ra về nó. Bây giờ tôi thấy câu trích dẫn này
32