BERT — это всего лишь один шаг диффузии текста! (1/n) Когда я впервые прочитал о моделях диффузии языка, я был удивлён, узнав, что их цель обучения — это всего лишь обобщение маскированного моделирования языка (MLM), чем мы занимаемся с BERT с 2018 года. Первая мысль, которая пришла мне в голову, была: "можем ли мы дообучить модель, похожую на BERT, для генерации текста?"