Peso aberto não é treino aberto. @AddieF38654 da nossa equipe relatou sua experiência tentando treinar um modelo MoE com parâmetro 1T usando a infraestrutura open source existente. Vamos descobrir quantos patches de macaco são necessários para treinar um modelo de pesos abertos após o treino. Um fio condutor🧵