Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Rất hào hứng để chia sẻ mô hình Olmo mới nhất: Olmo Hybrid. Đây là một mô hình với các lớp delta net có cổng (GDN) theo tỷ lệ 3:1 với sự chú ý đầy đủ. Nó theo sau nhiều phát triển khác như Qwen 3.5 và Kimi Linear. Thật là thời điểm tuyệt vời để phát hành một mô hình hoàn toàn mở để mọi người có thể nghiên cứu cách những thay đổi kiến trúc này ảnh hưởng đến toàn bộ hệ thống.
Cá nhân tôi đã học được rất nhiều trong việc thực hiện công việc sau đào tạo. Ngay cả khi dữ liệu là giống hệt nhau cho việc đào tạo trước, công việc sau đào tạo lại rất khác biệt! Đặc biệt, các công cụ OSS cho những kiến trúc mới này thực sự hạn chế. Các kiến trúc mới chậm hơn nhiều so với các transformer tiêu chuẩn hoặc các mô hình phổ biến như DeepSeek MoEs. Đây là công việc mà chúng ta có thể làm cùng nhau để tiếp tục đẩy mạnh ranh giới của các mô hình mở, hiệu quả.
Công việc này được dẫn dắt bởi @lambdaviking @tyleraromero và những người khác. Tôi đã có cơ hội tham gia một phần nhỏ trong việc thực hiện công việc sau đào tạo, một dự án rất thú vị!
Tôi đã viết một bài blog giải thích tại sao điều này quan trọng và tại sao các mô hình hybrid không hoạt động cách đây vài năm khi Mamba rất phổ biến. Thêm vào đó, bài báo này là một điểm khởi đầu tuyệt vời cho lý thuyết mở rộng học sâu / mô hình ngôn ngữ hiện đại. Thưởng thức và gửi phản hồi!

@interconnectsai Phần lớn khả năng tính toán cho dự án này được cung cấp bởi @LambdaAPI. Nếu không có nó, Olmo Hybrid này sẽ không tồn tại, cảm ơn bạn đã hỗ trợ cộng đồng mở.
59
Hàng đầu
Thứ hạng
Yêu thích
