Публикации: ProAI

29 марта, 2024
Фреймворк Self-Discover

Возможность строить рассуждения стала, возможно, вторым главным фактором (наряду с размером), который привел LLM к мировому господству. Фраза “Let’s think step by step”, добавленная к промпту, оказалась способна заметно улучшить качество модели.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

25 марта, 2024
Классические статьи по вычислительной лингвистике

5 самых классических статей по вычислительной лингвистике

На мой взгляд, читать классические статьи по специальности полезнее, чем самые свежие. Часто идеи в них богаче, а примеры — неожиданнее, чем в массовой научной продукции последних лет. Ниже — 5 самых классических, на мой взгляд, статей по вычислительной лингвистике.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

15 марта, 2024
N-граммная языковая модель в эпоху LLM

Тренды трендами, а всегда найдутся те, кто плывет против течения. Пока трендом становится уменьшение размеров модели, авторы из университета штата Вашингтон решили вообще не обращать внимание на размер и проверить, имеет ли смысл в эпоху LLM вернуться к N-граммным языковым моделям. Оказалось, что имеет. Во всяком случае, хотя бы просто из интереса.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

8 марта, 2024
Что такое и как устроен RAPTOR (Recursive Abstractive Processing for Tree-organized Retrieval)

Помните, как на школьных уроках литературы иногда надо было развернуто ответить на вопрос о сюжетной линии героя или каком-то событии книги? Например, объяснить мотивацию и развитие Евгения Онегина. Чтобы ответить на этот вопрос на пятёрку, мало пролистать краткий пересказ романа — придётся прочитать его весь.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

1 марта, 2024
LOCOST и SPECTRUM, два подхода к суммаризации

2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

23 февраля, 2024
Весь мир — это модель, а LLM в нём — бэкенд

На любом этапе развития AI активно идут философские или около того рассуждения. Сейчас, например, мы спорим насчет того, что такое AGI или world model. Последняя концепция впервые появилась, наверное, несколько десятков лет назад, но на новый уровень её вывел Ян Лекун.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

17 февраля, 2024
Сверхчеловеческая модель требует сверхчеловеческого фидбека. А сам человек в этом лишний

LLM развились до того момента, когда человек стал для них ограничением. Точнее — человеческая обратная связь выходит слабым звеном. Чтобы развиваться дальше, AI нужно избавиться от человека — заголовок, достойный желтой прессы. Но если серьезно, об успешной попытке сделать это рассказали Meta и NYU.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

10 февраля, 2024
Task contamination, интриги, расследования

Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

3 февраля, 2024
“FFF — это FF, только быстрее”

Основная часть параметров LLM относится к слоям прямого распространения (FF, feedforward). Но для выхода не нужны все нейроны этих слоев. В реальности на инференсе играет роль только небольшая доля нейронов FF. Отсюда возникает идея оптимизировать каким-то образом этот процесс и не тратить лишние вычисления на нейроны, которые потом никак не повлияют на выход. [Нажмите на заголовок, чтобы прочитать публикацию полностью]