Возможность строить рассуждения стала, возможно, вторым главным фактором (наряду с размером), который привел LLM к мировому господству. Фраза “Let’s think step by step”, добавленная к промпту, оказалась способна заметно улучшить качество модели.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
5 самых классических статей по вычислительной лингвистике
На мой взгляд, читать классические статьи по специальности полезнее, чем самые свежие. Часто идеи в них богаче, а примеры — неожиданнее, чем в массовой научной продукции последних лет. Ниже — 5 самых классических, на мой взгляд, статей по вычислительной лингвистике.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Тренды трендами, а всегда найдутся те, кто плывет против течения. Пока трендом становится уменьшение размеров модели, авторы из университета штата Вашингтон решили вообще не обращать внимание на размер и проверить, имеет ли смысл в эпоху LLM вернуться к N-граммным языковым моделям. Оказалось, что имеет. Во всяком случае, хотя бы просто из интереса.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Помните, как на школьных уроках литературы иногда надо было развернуто ответить на вопрос о сюжетной линии героя или каком-то событии книги? Например, объяснить мотивацию и развитие Евгения Онегина. Чтобы ответить на этот вопрос на пятёрку, мало пролистать краткий пересказ романа — придётся прочитать его весь.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
На любом этапе развития AI активно идут философские или около того рассуждения. Сейчас, например, мы спорим насчет того, что такое AGI или world model. Последняя концепция впервые появилась, наверное, несколько десятков лет назад, но на новый уровень её вывел Ян Лекун.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
LLM развились до того момента, когда человек стал для них ограничением. Точнее — человеческая обратная связь выходит слабым звеном. Чтобы развиваться дальше, AI нужно избавиться от человека — заголовок, достойный желтой прессы. Но если серьезно, об успешной попытке сделать это рассказали Meta и NYU.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Основная часть параметров LLM относится к слоям прямого распространения (FF, feedforward). Но для выхода не нужны все нейроны этих слоев. В реальности на инференсе играет роль только небольшая доля нейронов FF. Отсюда возникает идея оптимизировать каким-то образом этот процесс и не тратить лишние вычисления на нейроны, которые потом никак не повлияют на выход. [Нажмите на заголовок, чтобы прочитать публикацию полностью]