ProAI | Компания НТР

HRM — миниатюрная модель, которая легко решает задачи ARC-AGI

Alexandra Koroleva — Sat, 13 Sep 2025 07:32:44 +0000

В конце июля вышла статья с описанием новой архитектуры для reasoning-моделей — Hierarchical Reasoning Model (HRM). В её основе — двухуровневая рекуррентная система с «быстрой» и «медленной» частями. Первая, рабочая, отвечает за мелкие и детальные вычисления, вторая — за что-то вроде выработки стратегии. Модель невероятно маленькая — всего 27 миллионов параметров. Это настолько мало, что в комментариях постоянно спрашивают: не опечатка ли это? Нет, не миллиардов — миллионов. HRM демонстрирует отличные результаты на задачах из Abstraction and Reasoning Corpus (ARC), который считается основным бенчмарком для AGI. Модель также легко решает судоку и проходит лабиринты, на которых модели с классическим chain of thought проваливаются.

The post HRM — миниатюрная модель, которая легко решает задачи ARC-AGI first appeared on Компания НТР.

Заново изобретая вертолёт: как мы сделали дрон для полётов внутри помещений

Alexandra Koroleva — Tue, 29 Jul 2025 07:30:42 +0000

Почему летает вертолет? Он поднимается вверх за счёт подъёмной силы винта — это ясно. Ещё в своих набросках Леонардо да Винчи описал подобный принцип, а спустя полторы тысячи лет, в 1907 году, французский инженер Поль Корню впервые поднялся на такой машине на целых 30 сантиметров над землей и зависнул там на целых несколько секунд — прорывное достижение для того времени.
Но почему современный вертолёт, который мы знаем, может не просто зависать, а лететь управляемо? Всё дело в том, что в нём можно менять угол наклона лопастей главного ротора: они не зафиксированы под постоянным углом, а поворачиваются, становясь более пологими или крутыми по отношению к встречному потоку.

Решил эту сложную инженерную задачу студент Императорского Московского технического училища (ныне МГТУ им. Баумана) Борис Юрьев в 1911 году. Ради справедливости тут небольшая оговорка: первенство Юрьева в этом вопросе вроде бы общепризнано, особенно в русскоязычной литературе, но есть и другие мнения: в патенте того же самого Поля Корню тоже описывается механизм наклона винтов, уже довольно близкий к автомату перекоса Юрьева. Правда, Корню после удачного полета переключился на велосипеды, а Юрьев посвятил вертолетостроению всю жизнь.

The post Заново изобретая вертолёт: как мы сделали дрон для полётов внутри помещений first appeared on Компания НТР.

ИИ против русского налогового права: тестируем топовые reasoning LLM на RuTaR.

Alexandra Koroleva — Fri, 18 Jul 2025 07:28:00 +0000

В прошлой статье мы рассказали о RuTaR — большом открытом датасете на русском языке, разработанном для оценки способностей LLM к рассуждению в сфере налогового права. Среди прочего, мы тогда запустили серию тестов, чтобы выяснить, как сильные модели справляются с задачами, требующими логического вывода с использованием RAG или без него, в варианте “из коробки”.

Однако, как вполне справедливо отметили некоторые читатели, мы не протестировали «настоящие» reasoning-модели — те, что спроектированы специально для выполнения сложных логических рассуждений, и занимают верхние строчки в соответствующих бенчмарках.

Мы решили исправиться

The post ИИ против русского налогового права: тестируем топовые reasoning LLM на RuTaR. first appeared on Компания НТР.

Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права

Alexandra Koroleva — Fri, 27 Jun 2025 07:23:58 +0000

Все привыкли к тому, что ChatGPT, DeepSeek, Llama и другие коммерческие LLM способны быстро и умеренно качественно генерировать текст практически любого стиля и содержания. Однако, потенциал использования языковых моделей давно не ограничивается лишь пресловутым копирайтингом и написанием курсовых за одну ночь. Современные модели‑трансформеры всё чаще демонстрируют эмерджентные способности, выражающиеся в их способности к сложному пошаговому рассуждению.

Само устройство этих «рассуждений» (англ. reasoning) забавно перекликается с гипотезой лингвистической относительности Сепира‑Уорфа. Её строгая версия предполагает, что человеческое мышление является формой «внутреннего монолога». Но если наш мозг оказался устроен несколько сложнее, чем думали Сепир и Уорф, то в случае с LLM всё буквально так — модель рассуждает, когда «говорит», т. е. генерирует текст.

На текущий момент мы уперлись в потолок развития LLM привычным путём. Данные для их обучения кончились ещё год назад, а продолжать наращивать и без того огромные вычислительные мощности попросту нет смысла. Поэтому самым перспективным направлением разработок в области ИИ выступает развитие того самого reasoning — умения модели рассуждать.

И хотя за последние полгода появилось множество систем, сделавших большой шаг в сторону продвинутого reasoning (например, DeepSeek R1, о1 от OpenAI), тестируются они всё так же — на математике, шахматных задачках и головоломках. А вот насколько хорошо они справляются с задачами в сфере права или, скажем, комплексного текстуального анализа никто не знает — в большинстве бенчмарков полностью игнорируется способность LLM рассуждать в плоскости гуманитарного знания.

The post Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права first appeared on Компания НТР.

Как заставить ИИ писать по-человечески — атака от противного

Alexandra Koroleva — Fri, 20 Jun 2025 07:22:20 +0000

В синем углу ринга — детекторы ИИ. В красном углу ринга — мы, по крайней мере, на ближайшие 10 минут прочтения этого текста. Как обойти детекторы, которые обнаруживают текст, написанный ИИ? Как учит нас любой голливудский боевик — нужно найти слабое место противника. Исследователи из Университета Цинхуа предполагают, что нашли такое место, и, соответственно, нашли способ пробить эту уязвимость.

Идея в следующем — детекторы просто знают слова, которые чаще всего используют GPT и другие модели. Честно сказать, мы все и сами уже эти шаблоны хорошо выучили за последние пару лет. Например, иронично, но один из таких признаков — длинное тире, и тут вы его часто встретите. Но это авторский стиль, ИИ ни при чем — честно. Так вот существующие способы обхода детекторов разными путями пытаются заставить LLM выдавать более человекоподобные тексты. Можно обучить отдельную нейросеть перефразировать текст, можно на входе просить сеть “пиши как живой человек”, можно пословно просеивать текст и заменять типичные ИИ-слова на что-то более общепринятое.

The post Как заставить ИИ писать по-человечески — атака от противного first appeared on Компания НТР.

Внимание! Механизм внимания в трансформерах, который уже много лет “is all we need”, оказывается не таким уже незаменимым.

Alexandra Koroleva — Fri, 06 Jun 2025 07:16:06 +0000

Это, конечно, не очень правдивый заголовок, но зато привлекает внимание. На самом деле речь пойдет о различных попытках заменить или хотя бы облегчить механизм внимания в трансформерах. Он во многом обеспечил успех моделей последних лет, но он же остается одним из узких мест. Дело в квадратичной сложности вычислений, из-за которой приходится ограничивать размеры входной последовательности. Ну и вообще, несмотря на все преимущества внимания, хотелось бы, чтобы оно, как основной двигатель моделей, было более экономично.

The post Внимание! Механизм внимания в трансформерах, который уже много лет “is all we need”, оказывается не таким уже незаменимым. first appeared on Компания НТР.

Как мы сделали всевидящее ВеКо — систему отслеживания внимания сотрудников досмотра в аэропорту

Alexandra Koroleva — Fri, 25 Apr 2025 20:03:33 +0000

Система отслеживания внимания создавалась под конкретную задачу — для одного из московских аэропортов. Там, на досмотровых постах, операторы смотрят на экраны интроскопов, проверяя багаж. Работа монотонная, требующая постоянной концентрации, а отвлечение — потенциальный риск для безопасности. Нужно было понять, когда человек действительно теряет фокус: отвернулся, задремал, отвёл взгляд или вообще вышел из поля зрения камеры.

На старте у нас был базовый прототип на MediaPipe, оставшийся от научной работы по смежной тематике определения утомления оператора. Этот фреймворк хорошо справляется с задачами вроде отслеживания поз, рук, контрольных точек на лице. Но для точного анализа взгляда он оказался не слишком подходящим. Мы пробовали построить 3D-направление взгляда по ключевым точкам и вычислить угол относительно монитора — чтобы определить, смотрит ли человек туда, куда должен. Однако результаты оказались недостаточно точными и медленно обновлялись. Направление головы он определял хорошо, но оно не всегда совпадает с направлением глаз — а нам нужен именно взгляд. Возможно, при более высоком разрешении камеры можно было бы добиться лучшего качества, но на практике пришлось искать другие решения.

Подписывайтесь на телеграм-канал «ProAI»

The post Как мы сделали всевидящее ВеКо — систему отслеживания внимания сотрудников досмотра в аэропорту first appeared on Компания НТР.

Не горе от ума, а ум от голода — откуда LLM такие умные

Alexandra Koroleva — Fri, 07 Mar 2025 20:58:03 +0000

Когда большие языковые модели начали неожиданно хорошо отвечать на абсолютно разные вопросы и даже вроде бы выходить за те рамки, на которых их обучали, все, конечно, сильно обрадовались. Настолько обрадовались, что наращивать мощности и получать новые крутые результаты оказалось интереснее, чем выяснять, почему вообще LLM работают, как именно они хранят знания и хранят ли их вообще. Этот вопрос интерпретируемости LLM так или иначе стоял всегда, но теперь, когда мы все попривыкли к впечатляющим результатам новых моделей, стал заметнее.

Макс Тегмарк предложил использовать механистический подход к интерпретируемости, но применять его не к алгоритмам внутри LLM, а к самим знаниям. То есть попробовать выяснить, есть ли внутри моделей какая-то закономерность запоминания или даже понимания. Сразу спойлер (а на самом деле — название статьи) — модели умны от “голода”, это “intelligence from starvation”. Причем это общий вывод для разных моделей.

Подписывайтесь на телеграм-канал «ProAI»

The post Не горе от ума, а ум от голода — откуда LLM такие умные first appeared on Компания НТР.

Встретились как-то диффузионная модель и LLM — получилось Diffusion Forcing. Как оно устроено и зачем нужно?

Alexandra Koroleva — Fri, 21 Feb 2025 20:57:56 +0000

“Встречу” придумали авторы из MIT, их идея была в том, чтобы попробовать объединить лучшее из двух, пока что редко пересекающихся, вселенных — диффузионных моделей с Full-Sequence Diffusion и нейросетей с Teacher Forcing. На пересечении этих названий и получилось Diffusion Forcing.

Принудительное обучение (teacher forcing) хорошо зарекомендовало себя в моделях, которые последовательно угадывают токены по одному, основываясь на предыдущей последовательности (она при этом считается опорной истиной). Таким способом получается генерировать, вообще говоря, бесконечное число токенов, если добавить сюда авторегрессию. При этом нет возможности каким-то образом направить выборку, чтобы, допустим, минимизировать какую-то дополнительную целевую функцию. И конечно, всё это хорошо работает только на дискретных данных, а на непрерывных быстро теряет устойчивость. Авторегрессионная генерация видео через несколько кадров начинает уходит куда-то не туда. Вероятно, поэтому авторегрессионая модель Cosmos от NVIDIA выдает не больше 32 кадров. Есть и другой подход, где последовательно генерируются не кадры, а всё лучшее разрешение, но об этом, возможно, расскажем отдельно.

Подписывайтесь на телеграм-канал «ProAI»

The post Встретились как-то диффузионная модель и LLM — получилось Diffusion Forcing. Как оно устроено и зачем нужно? first appeared on Компания НТР.

Energy-based diffusion language models — откуда берутся, зачем нужны и как работают

Alexandra Koroleva — Wed, 29 Jan 2025 20:54:00 +0000

Авторегрессионные языковые модели, которые продолжают удивлять своими возможностями, занимают сейчас почти всё AI-пространство и забирают на себя почти всё внимание. В тени этого триумфа, однако, продолжают развиваться альтернативные подходы. Один из самых ярких — дискретные диффузионные модели для генерации текста. Понятно, что у авторегрессионных моделей множество принципиальных недостатков, которые вряд ли получится устранить в рамках той же архитектуры. Поэтому параллельно нужно не только совершенствовать этот подход, но и развивать совсем другие направления. Когда (или если) текущие триумфаторы упрутся в потолок своих возможностей, понадобится альтернатива.

Читать дальше про EDLM — диффузионные текстовые модели, которые впервые приблизились к авторегрессионным

Подписывайтесь на телеграм-канал «ProAI»

The post Energy-based diffusion language models — откуда берутся, зачем нужны и как работают first appeared on Компания НТР.