Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gần đây, tôi đã suy nghĩ một chút về việc học liên tục, đặc biệt là khi nó liên quan đến các tác nhân hoạt động lâu dài (và thực hiện một vài thí nghiệm nhỏ với MLX).
Trạng thái hiện tại của việc nén lời nhắc kết hợp với các tác nhân con đệ quy thực sự rất hiệu quả. Có vẻ như chúng ta có thể đi khá xa với điều này. (Nén lời nhắc = khi cửa sổ ngữ cảnh gần đầy, mô hình tạo ra một tóm tắt ngắn hơn, sau đó bắt đầu lại từ đầu bằng cách sử dụng tóm tắt. Các tác nhân con đệ quy = phân rã các nhiệm vụ thành các nhiệm vụ nhỏ hơn để xử lý các cửa sổ ngữ cảnh hữu hạn)
Các tác nhân con đệ quy có lẽ sẽ luôn hữu ích. Nhưng nén lời nhắc có vẻ như là một thủ thuật không hiệu quả (mặc dù rất hiệu quả).
Có hai lựa chọn khác mà tôi biết 1. tinh chỉnh trực tuyến và 2. kỹ thuật dựa trên bộ nhớ.
Tinh chỉnh trực tuyến: đào tạo một số bộ điều hợp LoRA trên dữ liệu mà mô hình gặp phải trong quá trình triển khai. Tôi không lạc quan về điều này nói chung. Ngoài những thách thức kỹ thuật trong việc triển khai các mô hình / bộ điều hợp tùy chỉnh cho mỗi trường hợp sử dụng / người dùng, còn có một số vấn đề cơ bản:
- Tinh chỉnh trực tuyến vốn không ổn định. Nếu bạn đào tạo trên dữ liệu trong miền mục tiêu, bạn có thể phá hủy một cách thảm khốc các khả năng mà bạn không nhắm đến. Một cách để vượt qua điều này là giữ một tập dữ liệu hỗn hợp với cái mới và cái cũ. Nhưng điều này trở nên khá phức tạp rất nhanh.
- Dữ liệu trông như thế nào cho việc tinh chỉnh trực tuyến? Bạn có tạo ra các cặp Q/A dựa trên miền mục tiêu để đào tạo mô hình không? Bạn cũng gặp vấn đề trong việc ưu tiên thông tin trong hỗn hợp dữ liệu với khả năng hữu hạn.
Kỹ thuật dựa trên bộ nhớ: về cơ bản là một chính sách để giữ lại bộ nhớ hữu ích và loại bỏ những gì không cần thiết. Điều này cảm thấy giống như cách con người giữ lại thông tin: "sử dụng hoặc mất đi". Bạn chỉ cần một vài điều để điều này hoạt động:
- Một chính sách loại bỏ/giữ lại. Một cái gì đó như "giữ lại bộ nhớ nếu nó đã được truy cập ít nhất một lần trong 10k token qua".
- Chính sách cần phải có thể tính toán hiệu quả
- Một nơi cho mô hình để lưu trữ và truy cập bộ nhớ dài hạn. Có thể một bộ nhớ KV được truy cập thưa thớt sẽ đủ. Nhưng để truy cập hiệu quả vào một bộ nhớ lớn, một cấu trúc dữ liệu phân cấp có thể tốt hơn.
Hàng đầu
Thứ hạng
Yêu thích
