1/ Todos están compitiendo para construir IA que controle las articulaciones y músculos de los robots. Casi nadie está planteando una pregunta diferente: ¿qué sucede cuando le das a un agente de IA acceso a un robot de la misma manera que accede a un navegador web o a un editor de código, como una herramienta? Esas son dos arquitecturas muy diferentes. Aquí está la razón por la que ambas importan:
2/ Los VLAs y VLMs están haciendo un progreso increíble en el control de robots a bajo nivel. Visión dentro, comandos de motor fuera. De extremo a extremo. Pero hay otra capa que recibe menos atención. Es la "orquestación de tareas". No "mover la articulación 3 a 45 grados" sino "ve a comprobar si el paquete llegó a la puerta de entrada y déjame saber qué ves". (Pensamiento de alto nivel) Planificación. Contexto. Memoria. Razonamiento de múltiples pasos. Decidiendo qué capacidades usar y en qué orden.
3/ Piensa en cómo funcionan los humanos. Tu cerebelo maneja el equilibrio y la coordinación motora. No piensas en ello. Tu corteza prefrontal maneja la planificación, es decir, “Necesito agarrar mis llaves, luego cerrar la puerta, pero primero comprobar si la estufa está apagada”. La ola VLA está “potencialmente” construyendo mejores cerebelos. Pero un robot también necesita algo que pueda planificar, recordar, hacer preguntas y explicar lo que está haciendo. Estos no son enfoques en competencia. Son diferentes capas de la misma pila.
4/ Hemos estado experimentando con la conexión de agentes LLM a robots reales ROS2. No controlando las articulaciones, sino dando al agente herramientas para publicar temas, llamar a servicios, leer sensores. Lo que nos sorprendió fue el comportamiento emergente. El agente verifica la cámara antes de navegar. Monitorea la batería a mitad de tarea y se ajusta. Pregunta "hay dos objetos cerca del sofá... ¿cuál?" cuando la instrucción es ambigua. Nadie programó nada de eso. Surge de la razonamiento de forma natural.
5/ Aquí hay algo que no esperábamos: El sistema de tipos de ROS2 resulta ser accidentalmente legible por LLM. Cuando el agente ve “/cmd_vel” (geometry_msgs/msg/Twist) o “/navigate_to_pose” (NavigateToPose), ya sabe lo que significan. Sin manifiesto. Sin archivo de capacidades. Simplemente le entregas el gráfico de temas en vivo del robot y él descubre lo que el robot puede hacer. Todo el ecosistema de ROS2 se convierte en una biblioteca de herramientas que el agente puede explorar.
960