Как заставить ИИ писать по-человечески — атака от противного

ProAI

В синем углу ринга — детекторы ИИ. В красном углу ринга — мы, по крайней мере, на ближайшие 10 минут прочтения этого текста. Как обойти детекторы, которые обнаруживают текст, написанный ИИ? Как учит нас любой голливудский боевик — нужно найти слабое место противника. Исследователи из Университета Цинхуа предполагают, что нашли такое место, и, соответственно, нашли способ пробить эту уязвимость.

Идея в следующем — детекторы просто знают слова, которые чаще всего используют GPT и другие модели. Честно сказать, мы все и сами уже эти шаблоны хорошо выучили за последние пару лет. Например, иронично, но один из таких признаков — длинное тире, и тут вы его часто встретите. Но это авторский стиль, ИИ ни при чем — честно. Так вот существующие способы обхода детекторов разными путями пытаются заставить LLM выдавать более человекоподобные тексты. Можно обучить отдельную нейросеть перефразировать текст, можно на входе просить сеть “пиши как живой человек”, можно пословно просеивать текст и заменять типичные ИИ-слова на что-то более общепринятое.