Este pasaje del artículo de The New Yorker sobre el conflicto antrópico del Departamento de Salud de ayer, que incluye un intercambio entre el periodista (Gideon Lewis-Kraus) y un funcionario administrativo anónimo, se me va a quedar grabado en la memoria durante mucho tiempo. "También debemos recordar que Cyberdyne Systems creó Skynet para el gobierno. Se suponía que iba a ayudar a Estados Unidos a dominar a sus enemigos. No salió exactamente como había planeado. El gobierno considera que esto es absurdo. Pero el Pentágono no ha intentado construir una IA alineada, y Anthropic sí lo ha hecho. ¿Está usted al tanto, pregunté al funcionario de la Administración, de un experimento antrópico reciente en el que Claude recurrió al chantaje—e incluso al homicidio—como acto de autopreservación? Se había llevado a cabo explícitamente para convencer a personas como él. Como me dijo un miembro del equipo de ciencia del alineamiento de Anthropic el verano pasado: "El objetivo del ejercicio de chantaje era tener algo que describir a los responsables políticos: resultados lo suficientemente viscerales como para conectar con la gente y que hagan que el riesgo de desalineación sea realmente relevante en la práctica para quienes nunca lo habían pensado antes." El funcionario conocía el experimento, me aseguró, y le resultó realmente preocupante—pero de una manera similar a como uno podría preocuparse por un malware de internet particularmente desagradable. Me dijo que estaba perfectamente seguro de que "el escenario del chantaje Claude es solo otra vulnerabilidad del sistema que puede solucionarse con ingeniería"—un fallo de software. Quizá tenga razón. Puede que solo tengamos una oportunidad para averiguarlo." Realmente recomiendo que todos lean tanto el artículo completo de The New Yorker como la investigación de Anthropic sobre la selección de personas (ambos enlazados en las respuestas) y luego pasen un rato sentándose con la situación desconcertante en la que podemos habernos encontrado.