Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Todo mundo corre para construir uma IA que controle articulações e músculos robóticos. Quase ninguém está fazendo uma pergunta diferente: o que acontece quando você dá a um agente de IA acesso a um robô da mesma forma que ele acessa um navegador web ou um editor de código, como uma ferramenta?
São duas arquiteturas muito diferentes. Veja por que ambos são importantes:
2/ VLAs e VLMs estão fazendo progressos incríveis no controle de robôs de baixo nível. Visão para dentro, comandos motores para fora. De ponta a ponta.
Mas há outra camada que recebe menos atenção.
É "orquestração de tarefas".
Não "mova o articulo 3 para 45 graus", mas sim "vá verificar se o pacote chegou na porta da frente e me avise o que você vê". (Pensamento de alto nível)
Planejamento. Contexto. Memória. Raciocínio em vários passos. Decidir quais capacidades usar e em que ordem.
3/ Pense em como os humanos funcionam.
Seu cerebelo cuida do equilíbrio e da coordenação motora. Você não pensa nisso.
Seu córtex pré-frontal cuida do planejamento, ou seja, "Preciso pegar minhas chaves, depois trancar a porta, mas primeiro verifique se o fogão está desligado".
A onda VLA está "potencialmente" construindo cerebelos melhores. Mas um robô também precisa de algo que possa planejar, lembrar, fazer perguntas e explicar o que está fazendo.
Essas não são abordagens concorrentes. São camadas diferentes da mesma pilha.
4/ Estamos experimentando conectar agentes LLM a robôs ROS2 reais. Não controlando as articulações, mas sim dando ao agente ferramentas para publicar tópicos, ligar para serviços, ler sensores.
O que nos surpreendeu foi o comportamento emergente.
O agente verifica a câmera antes de navegar. Monitora a bateria no meio da tarefa e ajusta. Pergunta: "há dois objetos perto do sofá ... qual deles?" quando a instrução é ambígua.
Ninguém programou nada disso. Isso naturalmente sai do raciocínio.
5/ Aqui está algo que não esperávamos:
O sistema de tipos do ROS2 acaba sendo acidentalmente legível por LLM.
Quando o agente vê "/cmd_vel" (geometry_msgs/msg/Twist) ou "/navigate_to_pose" (NavigateToPose), ele já sabe o que isso significa. Sem manifesto. Sem arquivo de capacidade.
Você só entrega o gráfico de tópicos ao vivo do robô e ele descobre o que o robô pode fazer.
Todo o ecossistema ROS2 se torna uma biblioteca de ferramentas que o agente pode navegar.
940
Melhores
Classificação
Favoritos
