Публикации: ProAI

2 сентября, 2024
Трансформер для структурированных документов Hierarchical Document Transformer

Механизм внимания в трансформерах дает большое преимущество — модель точно выбирает из контекста релевантные части. У этого механизма есть и довольно значимый недостаток — вычислительная сложность, которая квадратично возрастает в зависимости от размера входной последовательности. Одна из зацепок, которая может помочь облегчить работу вниманию — структура текста. Речь и про крупномасштабную структуру (вроде разделов, глав, параграфов), и про локальную структуру на уровне предложений.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

11 августа, 2024
Архитектура языковых моделей без перемножения матриц

Нейросети любой архитектуры построены на перемножении матриц. Например, трансформеры из входного вектора создают (тоже перемножением) три матрицы, Q, K и V, которые затем несколько раз перемножаются на пути к получению выходного вектора.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

4 августа, 2024
На каком языке думают большие языковые модели

Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком, и от того, по какой методике вас этому языку учили, и от особенностей мышления и речи вообще.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

1 июля, 2024
The Platonic Representation Hypothesis

В конце сегодняшнего обзора не будет таблиц с бенчмарками и описанием, что такая-то новая модель обошла в каких-то задачах какие-то старые модели и даже сам GPT. В этот раз авторы рассматривают вопрос почти философский, а в самой статье цитируют Платона и Толстого.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

8 мая, 2024
Память трансформеров

Трансформеры, несмотря на всю их мощь, всё ещё легко заболтать до беспамятства, то есть дать им на вход такой длинный контекст, что они не смогут удержать его весь.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

27 апреля, 2024
Рекуррентный блок вместо внимания в LLM

История всегда движется по спирали, и быстрая история развития нейронных сетей, оказывается, не исключение. Архитектура трансформеров в LLM в своё время полностью отодвинула рекуррентные нейронные сети, но через несколько лет (то есть примерно сейчас) спираль сделала виток, и вот РНН уже дышат трансформерам в спину.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

22 апреля, 2024
Representation Finetuning

Black box AI is bad AI — гласит слоган исследовательской группы Pr(AI)2R (Practical AI Alignment and Interpretability Research). Её основал прошлым летом стэнфордский автор Аттикус Гигер (Atticus Geiger). Своей миссией группа считать превратить AI в “хороший AI”, то есть сделать его интерпретируемым.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

18 апреля, 2024
Партия переходит в эндшпиль: как искусственный интеллект и методы прошлого века обошли золотых медалистов IMO в геометрии

Решение геометрических задач, даже обычной школьной сложности, — процесс довольно творческий. Нужно что-то заметить, где-то проявить интуицию, пробовать разные подходы и придумывать свои. Отсюда возникает два вывода.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

7 апреля, 2024
Как LLM учат понимать синтаксис

Как LLM учат понимать синтаксис

Скорее всего, вы поняли заголовок правильно, хотя в нём есть стилистическая ошибка — двусмысленность (кто-то учит LLM, или они учат кого-то?).

Человеческое понимание языка остается ориентиром и пока недостижимой целью для языковых моделей.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]