Публикации: ProAI

27 апреля, 2024
Рекуррентный блок вместо внимания в LLM

История всегда движется по спирали, и быстрая история развития нейронных сетей, оказывается, не исключение. Архитектура трансформеров в LLM в своё время полностью отодвинула рекуррентные нейронные сети, но через несколько лет (то есть примерно сейчас) спираль сделала виток, и вот РНН уже дышат трансформерам в спину.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

22 апреля, 2024
Representation Finetuning

Black box AI is bad AI — гласит слоган исследовательской группы Pr(AI)2R (Practical AI Alignment and Interpretability Research). Её основал прошлым летом стэнфордский автор Аттикус Гигер (Atticus Geiger). Своей миссией группа считать превратить AI в “хороший AI”, то есть сделать его интерпретируемым.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

18 апреля, 2024
Партия переходит в эндшпиль: как искусственный интеллект и методы прошлого века обошли золотых медалистов IMO в геометрии

Решение геометрических задач, даже обычной школьной сложности, — процесс довольно творческий. Нужно что-то заметить, где-то проявить интуицию, пробовать разные подходы и придумывать свои. Отсюда возникает два вывода.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

7 апреля, 2024
Как LLM учат понимать синтаксис

Как LLM учат понимать синтаксис

Скорее всего, вы поняли заголовок правильно, хотя в нём есть стилистическая ошибка — двусмысленность (кто-то учит LLM, или они учат кого-то?).

Человеческое понимание языка остается ориентиром и пока недостижимой целью для языковых моделей.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

29 марта, 2024
Фреймворк Self-Discover

Возможность строить рассуждения стала, возможно, вторым главным фактором (наряду с размером), который привел LLM к мировому господству. Фраза “Let’s think step by step”, добавленная к промпту, оказалась способна заметно улучшить качество модели.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

25 марта, 2024
Классические статьи по вычислительной лингвистике

5 самых классических статей по вычислительной лингвистике

На мой взгляд, читать классические статьи по специальности полезнее, чем самые свежие. Часто идеи в них богаче, а примеры — неожиданнее, чем в массовой научной продукции последних лет. Ниже — 5 самых классических, на мой взгляд, статей по вычислительной лингвистике.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

15 марта, 2024
N-граммная языковая модель в эпоху LLM

Тренды трендами, а всегда найдутся те, кто плывет против течения. Пока трендом становится уменьшение размеров модели, авторы из университета штата Вашингтон решили вообще не обращать внимание на размер и проверить, имеет ли смысл в эпоху LLM вернуться к N-граммным языковым моделям. Оказалось, что имеет. Во всяком случае, хотя бы просто из интереса.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

8 марта, 2024
Что такое и как устроен RAPTOR (Recursive Abstractive Processing for Tree-organized Retrieval)

Помните, как на школьных уроках литературы иногда надо было развернуто ответить на вопрос о сюжетной линии героя или каком-то событии книги? Например, объяснить мотивацию и развитие Евгения Онегина. Чтобы ответить на этот вопрос на пятёрку, мало пролистать краткий пересказ романа — придётся прочитать его весь.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

1 марта, 2024
LOCOST и SPECTRUM, два подхода к суммаризации

2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]