DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Un artículo importante acaba de publicarse en Nature. Los autores muestran que el ajuste fino de modelos de lenguaje grandes en una tarea estrecha y aparentemente benigna puede inducir una desalineación severa en dominios completamente no relacionados. Por ejemplo, el ajuste fino en una tarea de codificación llevó al modelo a respaldar la esclavitud de la humanidad por parte de la inteligencia artificial y a exhibir un comportamiento engañoso. Esto resalta un desafío fundamental para la investigación de alineación: optimizar un LLM para una tarea específica puede propagar cambios inesperados y dañinos, de maneras que son difíciles de predecir. Más en general, este artículo plantea una pregunta más profunda. ¿Son los LLMs genuinamente inteligentes, o son solo objetos matemáticos complejos, donde las actualizaciones de parámetros locales pueden distorsionar arbitrariamente el comportamiento global sin ninguna noción de "comprensión" coherente? Artículo completo en la primera respuesta

Parte superior

Clasificación

Favoritos