Energy-based diffusion language models — откуда берутся, зачем нужны и как работают

Авторегрессионные языковые модели, которые продолжают удивлять своими возможностями, занимают сейчас почти всё AI-пространство и забирают на себя почти всё внимание. В тени этого триумфа, однако, продолжают развиваться альтернативные подходы. Один из самых ярких — дискретные диффузионные модели для генерации текста. Понятно, что у авторегрессионных моделей множество принципиальных недостатков, которые вряд ли получится устранить в рамках той же архитектуры. Поэтому параллельно нужно не только совершенствовать этот подход, но и развивать совсем другие направления. Когда (или если) текущие триумфаторы упрутся в потолок своих возможностей, понадобится альтернатива.

Читать дальше про EDLM — диффузионные текстовые модели, которые впервые приблизились к авторегрессионным

Подписывайтесь на телеграм-канал «ProAI»