Механизм внимания в трансформерах дает большое преимущество — модель точно выбирает из контекста релевантные части. У этого механизма есть и довольно значимый недостаток — вычислительная сложность, которая квадратично возрастает в зависимости от размера входной последовательности. Одна из зацепок, которая может помочь облегчить работу вниманию — структура текста. Речь и про крупномасштабную структуру (вроде разделов, глав, параграфов), и про локальную структуру на уровне предложений.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Нейросети любой архитектуры построены на перемножении матриц. Например, трансформеры из входного вектора создают (тоже перемножением) три матрицы, Q, K и V, которые затем несколько раз перемножаются на пути к получению выходного вектора.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком, и от того, по какой методике вас этому языку учили, и от особенностей мышления и речи вообще.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
В конце сегодняшнего обзора не будет таблиц с бенчмарками и описанием, что такая-то новая модель обошла в каких-то задачах какие-то старые модели и даже сам GPT. В этот раз авторы рассматривают вопрос почти философский, а в самой статье цитируют Платона и Толстого.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Трансформеры, несмотря на всю их мощь, всё ещё легко заболтать до беспамятства, то есть дать им на вход такой длинный контекст, что они не смогут удержать его весь.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
История всегда движется по спирали, и быстрая история развития нейронных сетей, оказывается, не исключение. Архитектура трансформеров в LLM в своё время полностью отодвинула рекуррентные нейронные сети, но через несколько лет (то есть примерно сейчас) спираль сделала виток, и вот РНН уже дышат трансформерам в спину.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Black box AI is bad AI — гласит слоган исследовательской группы Pr(AI)2R (Practical AI Alignment and Interpretability Research). Её основал прошлым летом стэнфордский автор Аттикус Гигер (Atticus Geiger). Своей миссией группа считать превратить AI в “хороший AI”, то есть сделать его интерпретируемым.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Решение геометрических задач, даже обычной школьной сложности, — процесс довольно творческий. Нужно что-то заметить, где-то проявить интуицию, пробовать разные подходы и придумывать свои. Отсюда возникает два вывода.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]
Как LLM учат понимать синтаксис
Скорее всего, вы поняли заголовок правильно, хотя в нём есть стилистическая ошибка — двусмысленность (кто-то учит LLM, или они учат кого-то?).
Человеческое понимание языка остается ориентиром и пока недостижимой целью для языковых моделей.
[Нажмите на заголовок, чтобы прочитать публикацию полностью]