1/ MLPs densos são mentira. Os transformadores padrão que treinamos já fazem roteamento esparso dentro de suas camadas de feedforward — só que não conseguimos ver isso até agora. 🧵