Публикации: ProAI

25 апреля, 2025
Как мы сделали всевидящее ВеКо — систему отслеживания внимания сотрудников досмотра в аэропорту

Система отслеживания внимания создавалась под конкретную задачу — для одного из московских аэропортов. Там, на досмотровых постах, операторы смотрят на экраны интроскопов, проверяя багаж. Работа монотонная, требующая постоянной концентрации, а отвлечение — потенциальный риск для безопасности. Нужно было понять, когда человек действительно теряет фокус: отвернулся, задремал, отвёл взгляд или вообще вышел из поля зрения камеры.

7 марта, 2025
Не горе от ума, а ум от голода — откуда LLM такие умные

Когда большие языковые модели начали неожиданно хорошо отвечать на абсолютно разные вопросы и даже вроде бы выходить за те рамки, на которых их обучали, все, конечно, сильно обрадовались. Настолько обрадовались, что наращивать мощности и получать новые крутые результаты оказалось интереснее, чем выяснять, почему вообще LLM работают, как именно они хранят знания и хранят ли их вообще.

21 февраля, 2025
Встретились как-то диффузионная модель и LLM — получилось Diffusion Forcing. Как оно устроено и зачем нужно?

“Встречу” придумали авторы из MIT, их идея была в том, чтобы попробовать объединить лучшее из двух, пока что редко пересекающихся, вселенных — диффузионных моделей с Full-Sequence Diffusion и нейросетей с Teacher Forcing. На пересечении этих названий и получилось Diffusion Forcing.

29 января, 2025
Energy-based diffusion language models — откуда берутся, зачем нужны и как работают

Авторегрессионные языковые модели, которые продолжают удивлять своими возможностями, занимают сейчас почти всё AI-пространство и забирают на себя почти всё внимание. В тени этого триумфа, однако, продолжают развиваться альтернативные подходы. Один из самых ярких — дискретные диффузионные модели для генерации текста.

2 сентября, 2024
Трансформер для структурированных документов Hierarchical Document Transformer

Механизм внимания в трансформерах дает большое преимущество — модель точно выбирает из контекста релевантные части. У этого механизма есть и довольно значимый недостаток — вычислительная сложность, которая квадратично возрастает в зависимости от размера входной последовательности. Одна из зацепок, которая может помочь облегчить работу вниманию — структура текста. Речь и про крупномасштабную структуру (вроде разделов, глав, параграфов), и про локальную структуру на уровне предложений.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

11 августа, 2024
Архитектура языковых моделей без перемножения матриц

Нейросети любой архитектуры построены на перемножении матриц. Например, трансформеры из входного вектора создают (тоже перемножением) три матрицы, Q, K и V, которые затем несколько раз перемножаются на пути к получению выходного вектора.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

4 августа, 2024
На каком языке думают большие языковые модели

Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком, и от того, по какой методике вас этому языку учили, и от особенностей мышления и речи вообще.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

1 июля, 2024
The Platonic Representation Hypothesis

В конце сегодняшнего обзора не будет таблиц с бенчмарками и описанием, что такая-то новая модель обошла в каких-то задачах какие-то старые модели и даже сам GPT. В этот раз авторы рассматривают вопрос почти философский, а в самой статье цитируют Платона и Толстого.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]

8 мая, 2024
Память трансформеров

Трансформеры, несмотря на всю их мощь, всё ещё легко заболтать до беспамятства, то есть дать им на вход такой длинный контекст, что они не смогут удержать его весь.

[Нажмите на заголовок, чтобы прочитать публикацию полностью]