Спикер о работе:
Модели редактирования текста стали в последнее время заметной альтернативой моделям seq2seq для таких задач генерации текста как исправление грамматических ошибок, упрощение текста, и перенос стиля. Эти задачи объединяет одно свойство — большое пересечение между оригинальным и желаемым текстом. Модели редактирования используют эту особенность, и учатся генерировать желаемый текст предсказывая операции редактирования применительно к оригинальному тексту. Такие модели имеют ряд преимуществ перед моделями seq2seq, включая более высокую скорость предсказания, более эффективное обучения на данных небольшого размера, и лучший контроль и интерпретируемость выходного текста. В этом докладе мы проведём обзор моделей редактирования текста и современных подходов, а также проанализируем их плюсы и минусы.
Ссылки на материалы, которые упомянул Александр во время выступления:
1) Alammar, J (2018). The Illustrated Transformer [Blog post]. https://jalammar.github.io/illustrated-transformer/
2) Multi-lingual T5 (mT5): [Xue et al. 2020] (checkpoints)
3) LaserTagger model: Malmi, Krause, Rothe, Mirylenka, Severyn. “Encode, Tag, Realize: High-Precision Text Editing”. In Proc. EMNLP’19 (pdf)
4) Felix (a follow-up paper to LaserTagger): Mallinson, Severyn, Malmi and Garrido. “Felix: Flexible Text Editing Through Tagging and Insertion”. Findings of EMNLP’20 (pdf)
5) Applications:
1. Sentence Splitting: Botha et al. Learning To Split and Rephrase From Wikipedia Edit History (pdf)
2. Text Summarization: Dernoncourt et al., 2018 (pdf)
3. Text Style Transfer: Li et al., 2018 (pdf)
4. Grammar Error Correction (a paper from Grammarly): Omelianchuk et al., 2020 (pdf)
Примечания:
1) Язык мероприятия: английский;
2) Презентация опубликована не будет.
Запись: https://youtu.be/EWOwO_mZgwk