DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

1/ Todo mundo corre para construir uma IA que controle articulações e músculos robóticos. Quase ninguém está fazendo uma pergunta diferente: o que acontece quando você dá a um agente de IA acesso a um robô da mesma forma que ele acessa um navegador web ou um editor de código, como uma ferramenta? São duas arquiteturas muito diferentes. Veja por que ambos são importantes:

2/ VLAs e VLMs estão fazendo progressos incríveis no controle de robôs de baixo nível. Visão para dentro, comandos motores para fora. De ponta a ponta. Mas há outra camada que recebe menos atenção. É "orquestração de tarefas". Não "mova o articulo 3 para 45 graus", mas sim "vá verificar se o pacote chegou na porta da frente e me avise o que você vê". (Pensamento de alto nível) Planejamento. Contexto. Memória. Raciocínio em vários passos. Decidir quais capacidades usar e em que ordem.

3/ Pense em como os humanos funcionam. Seu cerebelo cuida do equilíbrio e da coordenação motora. Você não pensa nisso. Seu córtex pré-frontal cuida do planejamento, ou seja, "Preciso pegar minhas chaves, depois trancar a porta, mas primeiro verifique se o fogão está desligado". A onda VLA está "potencialmente" construindo cerebelos melhores. Mas um robô também precisa de algo que possa planejar, lembrar, fazer perguntas e explicar o que está fazendo. Essas não são abordagens concorrentes. São camadas diferentes da mesma pilha.

4/ Estamos experimentando conectar agentes LLM a robôs ROS2 reais. Não controlando as articulações, mas sim dando ao agente ferramentas para publicar tópicos, ligar para serviços, ler sensores. O que nos surpreendeu foi o comportamento emergente. O agente verifica a câmera antes de navegar. Monitora a bateria no meio da tarefa e ajusta. Pergunta: "há dois objetos perto do sofá ... qual deles?" quando a instrução é ambígua. Ninguém programou nada disso. Isso naturalmente sai do raciocínio.

5/ Aqui está algo que não esperávamos: O sistema de tipos do ROS2 acaba sendo acidentalmente legível por LLM. Quando o agente vê "/cmd_vel" (geometry_msgs/msg/Twist) ou "/navigate_to_pose" (NavigateToPose), ele já sabe o que isso significa. Sem manifesto. Sem arquivo de capacidade. Você só entrega o gráfico de tópicos ao vivo do robô e ele descobre o que o robô pode fazer. Todo o ecossistema ROS2 se torna uma biblioteca de ferramentas que o agente pode navegar.

940

Melhores

Classificação

Favoritos