Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

1/ Todos compiten para construir una IA que controle articulaciones y músculos robóticos. Casi nadie hace otra pregunta: ¿qué ocurre cuando le das acceso a un agente de IA a un robot de la misma manera que accede a un navegador web o a un editor de código, como herramienta? Son dos arquitecturas muy diferentes. Aquí tienes por qué ambas cosas importan:

2/ Los VLAs y VLMs están avanzando increíblemente en el control de robots a bajo nivel. Visión dentro, motores fuera. De extremo a extremo. Pero hay otra capa que recibe menos atención. Es "orquestación de tareas". No "mueve el porro 3 a 45 grados", sino "ve a comprobar si el paquete llegó a la puerta principal y dime qué ves". (Pensamiento a alto nivel) Planificar. Contexto. Memoria. Razonamiento en varios pasos. Decidir qué capacidades usar y en qué orden.

3/ Piensa en cómo funcionan los humanos. Tu cerebelo se encarga del equilibrio y la coordinación motora. No lo piensas. Tu corteza prefrontal se encarga de la planificación, es decir, "Necesito coger mis llaves y luego cerrar la puerta con llave, pero primero comprueba si la cocina está apagada". La onda VLA está "potencialmente" construyendo mejores cerebelos. Pero un robot también necesita algo que pueda planificar, recordar, hacer preguntas y explicar lo que está haciendo. No son enfoques competitivos. Son diferentes capas de la misma pila.

4/ Hemos estado experimentando con conectar agentes LLM con robots ROS2 reales. No controlar articulaciones, sino dar al agente herramientas para publicar temas, llamar a servicios, leer sensores. Lo que nos sorprendió fue el comportamiento emergente. El agente revisa la cámara antes de navegar. Controla la batería a mitad de la tarea y ajusta. Pregunta: "hay dos objetos cerca del sofá... ¿cuál?" cuando la instrucción es ambigua. Nadie programó nada de eso. Naturalmente, se desprende del razonamiento.

5/ Esto es algo que no esperábamos: El sistema de tipos de ROS2 resulta ser accidentalmente legible por LLM. Cuando el agente ve "/cmd_vel" (geometry_msgs/msg/Twist) o "/navigate_to_pose" (NavigateToPose), ya sabe lo que significan. No hay manifiesto. Sin archivo de capacidad. Solo tienes que darle el gráfico de temas en vivo del robot y él descubre qué puede hacer el robot. Todo el ecosistema ROS2 se convierte en una biblioteca de herramientas que el agente puede explorar.

941

Populares

Ranking

Favoritas