Рекуррентный блок вместо внимания в LLM

История всегда движется по спирали, и быстрая история развития нейронных сетей, оказывается, не исключение. Архитектура трансформеров в LLM в своё время полностью отодвинула рекуррентные нейронные сети, но через несколько лет (то есть примерно сейчас) спираль сделала виток, и вот РНН уже дышат трансформерам в спину. А кое-где даже и обгоняют. Мы уже как-то писали про нео-РНН — новые подходы к старым РНН, которые дают им шанс конкурировать с трансформерами. В этот раз расскажем о уже не самой новой, но более яркой идее.

Читать дальше

Подписывайтесь на телеграм-канал «ProAI»