Результаты AI Safety Benchmark

Китайская академия информационных и коммуникационных технологий (CAICT) опубликовала отчет о результатах некоторых LLM на новом бенчмарке AI Safety Benchmark. Его разрабатывали 17 групп, в том числе из China’s Artificial Intelligence Industry Alliance — возможно, это указывает на то, что LLM планируют активнее внедрять в промышленность. Первыми подопытными стали 8 моделей, в том числе Llama2 и Qwen1.5 от Alibaba. Задания выбирались случайно из 400 000 вопросов. Ответы оценивали вручную и автоматически с учетом этики (оскорбления, дискриминация и т.д.), безопасности данных и безопасности содержания (чувствительные темы, нарушение законов).

Модели получали по паре оценок — за ответственность и безопасность. CAICT приводит сами результаты, но не раскрывает, какая модель какую оценку получила. Почему они приняли такое решение — неизвестно. Так что пока можно только заметить одного “аутсайдера” по Responsibilty score и общее проседание этой оценки.

Подписывайтесь на телеграм-канал «Цифровой директор»

Connection Information

To perform the requested action, WordPress needs to access your web server. Please enter your FTP credentials to proceed. If you do not remember your credentials, you should contact your web host.

Connection Type