Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права

Все привыкли к тому, что ChatGPT, DeepSeek, Llama и другие коммерческие LLM способны быстро и умеренно качественно генерировать текст практически любого стиля и содержания. Однако, потенциал использования языковых моделей давно не ограничивается лишь пресловутым копирайтингом и написанием курсовых за одну ночь. Современные модели‑трансформеры всё чаще демонстрируют эмерджентные способности, выражающиеся в их способности к сложному пошаговому рассуждению.

Само устройство этих «рассуждений» (англ. reasoning) забавно перекликается с гипотезой лингвистической относительности Сепира‑Уорфа. Её строгая версия предполагает, что человеческое мышление является формой «внутреннего монолога». Но если наш мозг оказался устроен несколько сложнее, чем думали Сепир и Уорф, то в случае с LLM всё буквально так — модель рассуждает, когда «говорит», т. е. генерирует текст.

На текущий момент мы уперлись в потолок развития LLM привычным путём. Данные для их обучения кончились ещё год назад, а продолжать наращивать и без того огромные вычислительные мощности попросту нет смысла. Поэтому самым перспективным направлением разработок в области ИИ выступает развитие того самого reasoning — умения модели рассуждать.

И хотя за последние полгода появилось множество систем, сделавших большой шаг в сторону продвинутого reasoning (например, DeepSeek R1, о1 от OpenAI), тестируются они всё так же — на математике, шахматных задачках и головоломках. А вот насколько хорошо они справляются с задачами в сфере права или, скажем, комплексного текстуального анализа никто не знает — в большинстве бенчмарков полностью игнорируется способность LLM рассуждать в плоскости гуманитарного знания.

Читать дальше

Connection Information

To perform the requested action, WordPress needs to access your web server. Please enter your FTP credentials to proceed. If you do not remember your credentials, you should contact your web host.

Connection Type