ИИ против русского налогового права: тестируем топовые reasoning LLM на RuTaR.

В прошлой статье мы рассказали о RuTaR — большом открытом датасете на русском языке, разработанном для оценки способностей LLM к рассуждению в сфере налогового права. Среди прочего, мы тогда запустили серию тестов, чтобы выяснить, как сильные модели справляются с задачами, требующими логического вывода с использованием RAG или без него, в варианте “из коробки”.

Однако, как вполне справедливо отметили некоторые читатели, мы не протестировали «настоящие» reasoning-модели — те, что спроектированы специально для выполнения сложных логических рассуждений, и занимают верхние строчки в соответствующих бенчмарках.

Мы решили исправиться

Connection Information

To perform the requested action, WordPress needs to access your web server. Please enter your FTP credentials to proceed. If you do not remember your credentials, you should contact your web host.

Connection Type