1/ Todos estão a correr para construir IA que controla articulações e músculos de robôs. Quase ninguém está a fazer uma pergunta diferente: o que acontece quando se dá a um agente de IA acesso a um robô da mesma forma que ele acede a um navegador web ou a um editor de código, como uma ferramenta? Essas são duas arquiteturas muito diferentes. Aqui está o porquê de ambas serem importantes:
2/ VLAs e VLMs estão a fazer progressos incríveis no controlo de robôs de baixo nível. Visão a entrar, comandos de motor a sair. De ponta a ponta. Mas há outra camada que recebe menos atenção. É a "orquestração de tarefas". Não "mover a junta 3 para 45 graus", mas "vai verificar se o pacote chegou à porta da frente e avisa-me o que vês". (Pensamento de alto nível) Planeamento. Contexto. Memória. Raciocínio em múltiplos passos. Decidir quais capacidades usar e em que ordem.
3/ Pense sobre como os humanos funcionam. O seu cerebelo lida com o equilíbrio e a coordenação motora. Você não pensa nisso. O seu córtex pré-frontal lida com o planejamento, ou seja, "preciso pegar as minhas chaves, depois trancar a porta, mas primeiro verificar se o fogão está desligado". A onda VLA está "potencialmente" a construir cerebelos melhores. Mas um robô também precisa de algo que possa planejar, lembrar, fazer perguntas e explicar o que está a fazer. Estas não são abordagens concorrentes. São diferentes camadas da mesma pilha.
4/ Temos estado a experimentar a ligação de agentes LLM a robôs reais ROS2. Não estamos a controlar articulações, mas a dar ao agente ferramentas para publicar tópicos, chamar serviços e ler sensores. O que nos surpreendeu foi o comportamento emergente. O agente verifica a câmara antes de navegar. Monitora a bateria durante a tarefa e ajusta. Pergunta "há dois objetos perto do sofá... qual deles?" quando a instrução é ambígua. Ninguém programou nada disso. Surge naturalmente do raciocínio.
5/ Aqui está algo que não esperávamos: O sistema de tipos do ROS2 acaba por ser acidentalmente legível por LLM. Quando o agente vê “/cmd_vel” (geometry_msgs/msg/Twist) ou “/navigate_to_pose” (NavigateToPose), ele já sabe o que isso significa. Sem manifesto. Sem arquivo de capacidade. Você apenas entrega ao agente o gráfico de tópicos ao vivo do robô e ele descobre o que o robô pode fazer. Todo o ecossistema ROS2 torna-se uma biblioteca de ferramentas que o agente pode explorar.
960