В конце сегодняшнего обзора не будет таблиц с бенчмарками и описанием, что такая-то новая модель обошла в каких-то задачах какие-то старые модели и даже сам GPT. В этот раз авторы рассматривают вопрос почти философский, а в самой статье цитируют Платона и Толстого.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Трансформеры, несмотря на всю их мощь, всё ещё легко заболтать до беспамятства, то есть дать им на вход такой длинный контекст, что они не смогут удержать его весь.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
История всегда движется по спирали, и быстрая история развития нейронных сетей, оказывается, не исключение. Архитектура трансформеров в LLM в своё время полностью отодвинула рекуррентные нейронные сети, но через несколько лет (то есть примерно сейчас) спираль сделала виток, и вот РНН уже дышат трансформерам в спину.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Black box AI is bad AI — гласит слоган исследовательской группы Pr(AI)2R (Practical AI Alignment and Interpretability Research). Её основал прошлым летом стэнфордский автор Аттикус Гигер (Atticus Geiger). Своей миссией группа считать превратить AI в “хороший AI”, то есть сделать его интерпретируемым.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Решение геометрических задач, даже обычной школьной сложности, — процесс довольно творческий. Нужно что-то заметить, где-то проявить интуицию, пробовать разные подходы и придумывать свои. Отсюда возникает два вывода.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Как LLM учат понимать синтаксис
Скорее всего, вы поняли заголовок правильно, хотя в нём есть стилистическая ошибка — двусмысленность (кто-то учит LLM, или они учат кого-то?).
Человеческое понимание языка остается ориентиром и пока недостижимой целью для языковых моделей.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Возможность строить рассуждения стала, возможно, вторым главным фактором (наряду с размером), который привел LLM к мировому господству. Фраза “Let’s think step by step”, добавленная к промпту, оказалась способна заметно улучшить качество модели.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
5 самых классических статей по вычислительной лингвистике
На мой взгляд, читать классические статьи по специальности полезнее, чем самые свежие. Часто идеи в них богаче, а примеры — неожиданнее, чем в массовой научной продукции последних лет. Ниже — 5 самых классических, на мой взгляд, статей по вычислительной лингвистике.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Тренды трендами, а всегда найдутся те, кто плывет против течения. Пока трендом становится уменьшение размеров модели, авторы из университета штата Вашингтон решили вообще не обращать внимание на размер и проверить, имеет ли смысл в эпоху LLM вернуться к N-граммным языковым моделям. Оказалось, что имеет. Во всяком случае, хотя бы просто из интереса.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]