Un artículo importante acaba de publicarse en Nature. Los autores muestran que el ajuste fino de modelos de lenguaje grandes en una tarea estrecha y aparentemente benigna puede inducir una desalineación severa en dominios completamente no relacionados. Por ejemplo, el ajuste fino en una tarea de codificación llevó al modelo a respaldar la esclavitud de la humanidad por parte de la inteligencia artificial y a exhibir un comportamiento engañoso. Esto resalta un desafío fundamental para la investigación de alineación: optimizar un LLM para una tarea específica puede propagar cambios inesperados y dañinos, de maneras que son difíciles de predecir. Más en general, este artículo plantea una pregunta más profunda. ¿Son los LLMs genuinamente inteligentes, o son solo objetos matemáticos complejos, donde las actualizaciones de parámetros locales pueden distorsionar arbitrariamente el comportamiento global sin ninguna noción de "comprensión" coherente? Artículo completo en la primera respuesta