1/ Mọi người đang đua nhau xây dựng AI điều khiển các khớp và cơ bắp của robot. Hầu như không ai đặt ra một câu hỏi khác: điều gì sẽ xảy ra khi bạn cho một tác nhân AI quyền truy cập vào một robot theo cách mà nó truy cập vào trình duyệt web hoặc trình chỉnh sửa mã, như một công cụ? Đó là hai kiến trúc rất khác nhau. Đây là lý do tại sao cả hai đều quan trọng:
2/ VLAs và VLMs đang đạt được những tiến bộ đáng kinh ngạc trong việc điều khiển robot ở mức độ thấp. Nhận diện hình ảnh vào, lệnh động cơ ra. Từ đầu đến cuối. Nhưng có một lớp khác ít được chú ý hơn. Đó là "điều phối nhiệm vụ". Không phải "di chuyển khớp 3 đến 45 độ" mà là "đi kiểm tra xem gói hàng đã đến trước cửa chưa và cho tôi biết bạn thấy gì". (Suy nghĩ ở mức độ cao) Lập kế hoạch. Bối cảnh. Ký ức. Lý luận nhiều bước. Quyết định sử dụng khả năng nào và theo thứ tự nào.
3/ Hãy nghĩ về cách con người hoạt động. Tiểu não của bạn xử lý sự cân bằng và phối hợp vận động. Bạn không cần phải nghĩ về điều đó. Vỏ não trước trán của bạn xử lý việc lập kế hoạch, tức là "Tôi cần lấy chìa khóa, sau đó khóa cửa, nhưng trước tiên kiểm tra xem bếp đã tắt chưa". Sóng VLA "có khả năng" đang xây dựng những tiểu não tốt hơn. Nhưng một con robot cũng cần một cái gì đó có thể lập kế hoạch, ghi nhớ, đặt câu hỏi và giải thích những gì nó đang làm. Đây không phải là những cách tiếp cận cạnh tranh. Chúng là những lớp khác nhau của cùng một ngăn xếp.
4/ Chúng tôi đã thử nghiệm kết nối các tác nhân LLM với các robot ROS2 thực tế. Không phải điều khiển các khớp, mà là cung cấp cho tác nhân các công cụ để xuất bản các chủ đề, gọi dịch vụ, đọc cảm biến. Điều khiến chúng tôi ngạc nhiên là hành vi phát sinh. Tác nhân kiểm tra camera trước khi di chuyển. Giám sát pin giữa nhiệm vụ và điều chỉnh. Hỏi "có hai vật gần ghế sofa ... cái nào?" khi hướng dẫn không rõ ràng. Không ai lập trình bất kỳ điều gì trong số đó. Nó phát sinh một cách tự nhiên từ lý luận.
5/ Đây là điều mà chúng tôi không mong đợi: Hệ thống kiểu của ROS2 hóa ra lại có thể đọc được bởi LLM một cách tình cờ. Khi tác nhân thấy “/cmd_vel” (geometry_msgs/msg/Twist) hoặc “/navigate_to_pose” (NavigateToPose), nó đã biết những điều đó có nghĩa là gì. Không cần manifest. Không cần tệp khả năng. Bạn chỉ cần đưa cho nó đồ thị chủ đề trực tiếp của robot và nó sẽ tự tìm ra robot có thể làm gì. Toàn bộ hệ sinh thái ROS2 trở thành một thư viện công cụ mà tác nhân có thể duyệt qua.
943