Научно-технический вебинар “Автоматическая оценка качества машинного перевода без использования реферальных значений”

25 мая 2021, 13:00 MCK

О вебинаре

  • Спикер

    Марина Фомичева, Университет Шеффилда, Шеффилд, Великобритания

  • Тема

    Научно-технический вебинар “Автоматическая оценка качества машинного перевода без использования реферальных значений”

  • Подробнее про вебинар

    Спикер о вебинаре:

    Большинство современных подходов к автоматической оценке систем генерации естественного языка (NLG) рассматривают оцениваемую модель как черный ящик. В этом выступлении я представлю альтернативный подход, в котором мы заглядывает внутрь модели, чтобы получить представление о качестве сгенерированных выходных данных, на примере нейронного машинного перевода (MT). Благодаря использованию последних достижений в области оценки неопределенности для нейронных сетей, мы предлагаем метод, который не требует дополнительных ресурсов или данных для обучения и в то же время обеспечивает точность, сопоставимую со специализированными системами оценки качества перевода.

    Запись: https://youtu.be/g950lB8AW30

    Презентация: https://drive.google.com/file/d/14mo2ROkhuIB8D-OQCj1zMV4KYDJOiZH_/view?usp=sharing

    (00:00:00) (Начало записи.)

    Николай Михайловский: Добрый день! Я Николай Михайловский, генеральный директор компании «НТР». И я приветствую вас на очередном научно-техническом вебинаре, который «НТР» проводит вместе с Высшей IT-школой Томского государственного университета.

    До того, как наш сегодняшний выступающий Марина Фомиче́ва начнет.

    Марина Фомичева: Николай, спасибо большое за приглашение. Я очень рада участвовать в вебинаре. И я постдок в университете Шеффилда, и занимаюсь машинным переводом, и более конкретно занимаюсь автоматической оценкой машинного перевода. Если можно, я буду рассказывать на английском, потому что на русском я изучала только лингвистику и переводоведение очень-очень давно, а потом уехала, поэтому говорить про машинный перевод на русском мне сложно.

    Николай Михайловский: Пожалуйста, рассказывайте на английском.

    (00:01:20–00:45:50) (Доклад на английском языке.)

    Николай Михайловский: Марина, спасибо! Действительно, у нас уже есть вопросы. Григорий Сапунов.

    Григорий Сапунов: Спасибо за доклад. Очень классный. Очень интересно, на самом деле. У меня два вопроса сходу возникло.

    Первый вопрос. Интересный подход про multi-hypothesis (00:46:26). Не пытались его совмещать одновременно с multi-reference? И какой профит от совместного использования и multi-reference, и multi-hypothesis, если это проверяли? Интересно, насколько эти вещи ортогональны.

    Марина Фомичева: Спасибо. Логичный вопрос. Если честно, мы не пробовали взять multiple hypothesis, и еще и human references вместе. Я думаю, что улучшение было бы marginal в этом случае, то есть совсем небольшим. Я думаю, что бо́льшую часть улучшений, которые мы можем получить, мы получаем, когда используем несколько, то есть multiple hypothesis из системы перевода. Хотя интересно было бы посмотреть.

    Проблема просто в том, что очень мало датасетов, где есть multiple human references. То есть мы собрали эти данные, собрали два человеческих перевода для оригинальных предложений. Но данных очень мало. Плюс еще данных, где были бы multiple references, и еще был бы доступ к системе машинного перевода – этого совсем почти нет. Мы поэтому и собирали весь этот датасет, потому что мы других таких не нашли.

    Николай Михайловский: Продолжая то, что говорил Григорий, ведь когда у вас есть, например, несколько коммерческих систем машинного перевода, они могут использоваться в качестве данных multi hypothesis. И если у вас есть фреймворк для оценки качества гипотез в multi-hypothesis framework, you can use that to estimate the quality of each hypothesis by leaving one out. And, actually, there’s long standing result in classification, that you can like order the quality of classifiers, if you have three of more classifiers.

    Марина Фомичева: Да-да-да, я полностью согласна. На самом деле, когда действительно есть доступ к нескольким коммерческим системам, использовать переводы разных систем… На самом деле, мы можем получить такие же преимущества, как те, которые я обсуждала сейчас в презентации, потому что эти системы тренируются похожими данными. И, по сути, используют похожую архитектуру. То есть у нас не было бы этого estimation of uncertaincy, которую мы получаем, когда смотрим на одну и ту же модель. Но я думаю, что as an approximation результат получился бы хороший.

    На самом деле, была работа, которая делает очень похожую штуку, которая называется Pseudo references in machine translation evaluation (00:49:24) [The Role of Pseudo References in MT Evaluation], или что-то подобное. Очень давно, по-моему, в каком-то 2007 году. Они делают что-то, очень похожее на то, что вы говорите, и тоже показывают, что результат намного лучше, чем если использовать один человеческий перевод для оценки.

    Григорий Сапунов: Второй вопрос. Я не очень сходу понял, статью не успел прочитать про Bergamot-Latte. У вас под каждую языковую пару отдельная модель обучалась с нуля, или это какая-то универсальная мультиязычная модель, которая сразу без fine tuning работает на всех этих парах и дает свои оценки?

    Марина Фомичева: Вы имеете в виду которая Bergamot-Latte. Наш похожий approach, который делал то же самое, они лучше результаты вместе с нами получили на shared task. То есть мы пробовали и то, и другое делать, на самом деле, поскольку эти representations, они multilingual, то, в принципе, можно за’train’ить систему на отдельной каждой паре языков. Можно взять все пары языков, то есть все данные, и за’train’ить одну multilingual модель.

    (00:50:51)

    У нас есть статья на эту тему – Exploring multilingual quality estimation, или что-то в этом духе, где как раз мы пробуем подобные разные сценарии. Опять же, это возможно, потому что у нас multilingual representations, которые в принципе позволяют нам иметь multilingual quality estimation систему.

    Единственное, что поскольку я покажу, что distribution human scores для разных пар языков очень разная, потому что качество перевода очень разное, то тренировать на каждой конкретной паре языков работает лучше, потому что помимо input features есть же еще output distribution, и она очень сильно отличается. Поэтому в этом смысле, по крайней мере в случае этого датасета, результаты лучше, если тренировать отдельно на каждой паре языков.

    Николай Михайловский: Спасибо. Тимур Ахинко (00:52:00) – если я правильно интерпретирую фамилию – спрашивает: «А можно ли такие же подходы использовать не только для машинного перевода и MLE, но и для компьютерного зрения, и так далее?

    Марина Фомичева: Мне сложно сейчас представить конкретно в отношении компьютерного зрения, но я предполагаю, что можно. Опять же, вся работа по uncertaincy estimation in neural networks, то есть статьи, которые мы смотрели, они вообще работают с computer vision больше, чем с естественным языком. И не только. Количество задач… Фактически любая нейронная сеть как для задач классификации, так и для regression, можно применять uncertaincy estimation method, чтобы получить proxy к качеству сгенерированного output.

    Николай Михайловский: Позволю себе немножечко добавить к тому, что сказала Марина. Действительно, методы основанные как на drop out, так и на ансамблировании, широко используются для оценки неопределенности в самых разных местах машинного обучения. То есть те же самые мы пробовали с помощью тех же методов dropout оценивать неопределенность для систем распознавания речи, но для нас методы, связанные с dropout, работают слишком медленно. Грубо говоря, вы хотите прогнать четыре раза через систему с разными dropout. Это значит, что не меньше, чем в четыре раза медленнее у вас система начинает работать. Возможно, для коллег в их сеттинге, или в научном, или в прикладном, замедление в четыре раза не критично, а для промышленных систем оно достаточно критично.

    Буквально на прошлом вебинаре у нас был здесь Дмитрий Ветров, который рассказывал про ансамблирование в первую очередь для классификации изображений. И там речь шла на более глубоком уровне с точки зрения математики как раз про то, как неопределенности ансамблирования работают в классификации, как это связано с функциями потерь, и так далее. Я очень призываю. У нас выложены все вебинары. И тем, кто интересуется, я передаю очень интересный рассказ Дмитрия Ветрова из Высшей школы экономики.

    (00:55:23)

    Мужчина: У меня два вопроса.

    Первый. Вы упоминали подходы, которые используют предсказания _____ (00:55:28) самой модели, грубо говоря, считает ли сама модель сгенерированный перевод хорошим или плохим. Правильно ли я понимаю, что в таком случае речь идет об оценке не столько модели, сколько декодирующей стратегии, то есть о том, способна ли декодирующая стратегия приблизиться к оптимуму во всем пространстве гипотез, или же перевод, который модель сгенерировала – это не самый лучший перевод в пространстве гипотез, потому что мы плохо умеем ее искать? Это первое.

    Марина Фомичева: Думаю, и то, и другое: и декодирующая стратегия, и confidence модели.

    Николай Михайловский: Марина, если позволите, я тоже маленькое дополнение к вопросу и ответу дам. На самом деле, многое может быть связано с тем метрическим вложением, с тем embedding, который используется, потому что именно эмбеддинги, в которых участвует soft max, они very spiky, они очень острые, они генерируют, они генерируют высокую _____ (00:56:49). Тогда как эмбеддинги, связанные, например, с triplet loss, они существенно более гладкие, и такие эмбеддинги, по крайней мере в задачах классификации, они независимо от способа расшифровки – а там могут быть разные способы расшифровки как с софт максами поверх этого, так и какими-нибудь KNN классификаторами, они существенно более гладкие дают ответы, нежели чем… Поэтому это может быть еще и свойство метрического вложения.

    Марина Фомичева: Но еще тоже дополнение есть – интересная работа Малинина at all (00:57:31). Как раз она вышла немножко позже в Айклиэ, чем наша статья, где они обсуждают более principled и с более теоретической точки зрения uncertaincy in auto-regressive models на примере нейронного машинного перевода и speech recognition, и предлагают несколько метрик uncertaincy, в их случае derived from assembly (00:57:55). Essentially тут то же самое.

    Они вполне правильно говорят о том, что нужно было бы сделать для того, чтобы estimate uncertaincy в случае structured prediction – это не брать Top-1 перевод или beam search, а делать сэмплинг из модели. И они его делают, но это, опять же, с точки зрения времени и технически довольно сложно, и в итоге они говорят, что это нужно было бы делать так, но мы берем beam search as an approximation. Поэтому тоже в дополнение, если интересно, можно статью посмотреть.

    Мужчина: Возможно, вы уже упоминали, но дело в том, если я правильно понял цель вашей работы – это какая-то более-менее единая оценка качества машинного перевода. Качество машинного перевода, насколько я понимаю, на самом деле, складывается из нескольких разных качеств. Например, то, насколько хорошо передает содержимое оригинального сообщения, и то, насколько сгенерированное сообщение грамматично в целевом языке. Я занимаюсь контролируемым nature language generation, и оценка этих генераций – это очень сложная тоже штука. Поэтому мне было бы интересно послушать про то, что именно можно мерить. Не просто абстрактные качества, а какие сорта качества.

    Марина Фомичева: По-моему, это очень долгий разговор в том смысле, что исторически очень много разных способов люди обсуждали, как именно измерять качество машинного перевода. В частности, в самом начале я упомянула, что один из самых традиционных подходов к измерению качества, с которого мы начинали – это adequacy and fluency scales. То есть adequacy scale, где на шкале от 1 до 5 просят указать, насколько хорошо передано значение оригинала. И fluency scale, опять же, на шкале от 1 до 5 – насколько fluent текст в языке перевода.

    (01:00:18)

    Потом от этой оценки отошли, потому что заметили, что люди очень часто смешивают adequacy и fluency, и разграничить их четко в случае по крайней мере перевода довольно сложно в некоторых случаях. И поэтому сейчас традиционный стандартный способ оценки перевода – это единая шкала, где overall более intuitively качество перевода оценивается.

    Также есть аннотация специфических ошибок, скажем, ошибки в терминологии, ошибки в грамматике, ошибки в значении дисамбигуации и так далее.

    Есть другой способ оценки, где мы просто просим людей исправлять перевод, и смотрим, сколько слов они исправили.

    Еще в связи с этим есть очень интересное направление работы – это probing наших quality estimation моделей, где мы оцениваем performance quality estimation модели, когда как input мы даем ей только target. То есть есть так называемый partial hypothesis Bayes (01:01:34), что система, на самом деле, делает predictions на основании исключительно перевода, и не смотрит вообще на оригинал. И есть некоторые интересные работы, которые изучают, насколько это действительно так. И отчасти это действительно так, и это, в общем, закономерно, потому что зачастую сказать, что перевод плохой, можно, только посмотрев на сам перевод, даже не заглядывая в оригинал. Хотя есть очень важные специальные случаи, например, когда система _____ (01:02:05) и генерирует текст, не связанный с оригиналом. И тогда как раз fluency недостаточно, чтобы определить, что перевод плохой, потому что он может очень fluent звучать на языке перевода, но при этом не иметь никакого отношения к оригинальному предложению. Такие случаи как раз, особенно сейчас с нейронным переводом, очень важно иметь возможность определить автоматически.

    Николай Михайловский: «Прибудьте на младенце» – перевод “come on, baby”.

    Марина Фомичева: Да-да.

    Мужчина: Спасибо.

    Таисия: Здравствуйте! Спасибо большое за презентацию, Марина, Николай. У меня тоже два вопроса. Один уже был частично озвучен про pseudo references. Вы показывали, там был слайд с результатами для English, и там были пары для multi-reference case. Там мы говорим, что используются human references. Интересно посмотреть, сохранилось ли бы то же значение personal (01:03:26) correlation для paraphrases или для postedits. Потому что, мне кажется, тут довольно высокие для перевода personal correlation. Я частично с этим работаю сейчас, и 055 кажется чем-то высоким. Интересно, влияет ли как-то nature of references на качество? Да. Оно сильно влияет, в смысле в зависимости от того, какую human reference мы используем, корреляция может быть хуже или лучше. В принципе, в зависимости от того, насколько вольным является человеческий перевод. В данном случае мы в multi-reference результатах у нас два человеческих перевода. Я здесь не показываю результаты корреляции отдельно с каждым из них, но с одним из reference переводов корреляция лучше. Обычно, если он более близок к оригиналу и меньше переводчик позволяет себе отступлений, тогда удобнее использовать для оценки машинного перевода.

    Так же, как, например, в случае, о котором я сказала в самом начале, последний человеческий перевод в этом примере but you can’t choose that как перевод оригинального предложения, которое дословно переводится however this all totally beyond the control of you, если использовать последний референс для оценки машинного перевода, будет работать плохо, потому что здесь явно переводчик руководствуется какими-то экстралингвистическими факторами, которые системе перевода, по крайней мере в их современном состоянии, недоступны.

    Таисия: Получается, теоретически, если мы возьмем псевдореференсы, которые очень похожи на перевод, но при этом чуточку отличаются, то, по идее, если взять те же, например, первые три hypothesis here (01:05:47), они плюс-минус похожи. Если мы возьмем псевдореференсы, которые примерно такие же, то качество, скорее всего, будет хорошее. Но если мы возьмем pseudo references, которые сильно отличаются, то результат будет такой же как с последним примером здесь, правильно?

    Марина Фомичева: В случае pseudo references – думаю, смотря откуда мы их берем. Думаю, в нашем случае основная интуиция в том, что если качество перевода плохое, то pseudo references… В данном случае pseudo references – это hypotheses, которые мы генерируем системой перевода, они все будут очень разные, в данном случае нонсенсетли (01:06:32) разными. В то же время, как если перевод качественный, то они все будут похожими.

    То есть по крайней мере это причина, почему эта метрика, которая основана на подсчете схожести между разными переводами, она работает.

    Таисия: Спасибо. И второй вопрос. Вы упоминали, что humans course вы используете DA’s (01:06:57). Недавно еще был выпущен датасет, по-моему, «Гуглом», Markus Freitag, с MQM для двух языковых пар: English-German и Chinese-English, по-моему. Вы не смотрели на эти human innovations, или _____ (01:07:13)?

    Марина Фомичева: Да-да, я видела эту статью. Мне очень интересно. У меня пока еще не дошли руки посмотреть на их данные. То есть проблем с MQM error annotation – это очень богатый источник информации, потому что это значит, что мы для каждой ошибки в переводе указываем не только, что это ошибка, но и какого типа это ошибка. То есть это очень informative своего рода способ делать оценку перевода. Проблема с ним в том, что обычно уровень inter-annotator agreement довольно низкий в таких случаях. Поэтому в последнее время немножко комьюнити отстранилось от этого вида оценки, потому что люди очень часто один и тот же машинный перевод, когда делают разметку, по-разному аннотируют ошибки, скажем, разные категории присваивают или разный span слов аннотируют как ошибку. То есть кто-то одно слово, кто-то три слова. То есть очень много вариаций. Но в случае этой статьи особенно мне очень интересно посмотреть как раз таки на уровень inter-annotator agreement, а потом просто сравнить с нашей DA inspired. То есть это не совсем DA аннотация, как ее определили изначально авторы этой идеи, но, скажем, с нашей аннотацией этих данных и с MQM аннотацией.

    Таисия: Понятно, спасибо большое.

    Николай Михайловский: Коллеги, нам уже надо закругляться. Григорий, давайте последний вопрос, последний ответ, и мы закруглимся.

    Григорий Сапунов: Тогда я спрошу свой самый главный вопрос. В принципе, вся эта деятельность по оценке, так или иначе, по сути, мне кажется, близка к тому, что сейчас называется contrastive learning, когда мы пытаемся найти, ну, embedding, не embedding, в общем, тренировать в таком особом фреймворке, который ориентируется на близости и дальности различных объектов в очень правильном (01:09:11) эмбеддинге. Но при этом это слово contrastive learning как-то нигде не называется, как правило. В лучшем случае triplet loss, а то и его не слышно. Знаете ли вы какие-нибудь кейсы, когда именно подход contrastive learning в machine translation, в оценке machine translations себя как-то начал показывать, или это пока всё в основном в картинках засело, и до NLP как такового не добралось?

    Марина Фомичева: Короткий ответ – нет. Более длинный: да, я знаю про эту работу, и мы как раз looking into it немного. Но пока, насколько мне известно, не применялось.

    Николай Михайловский: Я отвечу, что применялось. Люди делают следующее. Они делают контрастивное обучение между первой гипотезой beam search и остальными гипотезами beam search. Буквально недавно статья такого рода была в области распознавания речи. То есть идея в том, что языковую модель в распознавании речи учат не на традиционной метрике, а учат различать гипотезы beam search.

    Марина Фомичева: Не слышала про эту работу. Интересно.

    Николай Михайловский: Я вам пришлю.

    Марина Фомичева: Спасибо.

    Николай Михайловский: Коллеги, я чувствую, у нас здесь некое прямо сообщество образовалось тех, кто интересуется данной тематикой. Тематика действительно дико интересная и очень важная. Она в практическом применении машинного обучения, с моей точки зрения, просто таки главная – уметь на новом датасете неразмеченном клиентском понимать, насколько хорошо работает твоя модель. Поэтому я призываю всех общаться, обмениваться информацией и так далее. Слайды и видео всем, кто участвовал, более того, всем, кто зарегистрировался, будут разосланы. И если кто-то захочет с кем-то связаться, это, наверное, тоже можно будет как-то сделать.

    На этом я с вами прощаюсь. Марина, большое спасибо! Надеюсь, что вы с новыми работами к нам тоже придете. В следующий раз у нас, как я уже говорил, про сети Хопфилда, тоже жутко интересная тема. Всем спасибо! До свидания!

    (01:11:52) (Конец записи.)