Beban terbuka bukanlah pelatihan terbuka. @AddieF38654 di tim kami menulis pengalamannya mencoba melatih model MoE parameter 1T menggunakan infra open source yang ada. Mari kita cari tahu berapa banyak bercak monyet yang diperlukan untuk pasca-melatih model bobot terbuka. Sebuah utas🧵