Спикер о вебинаре:
Кастомизация с настройкой на словарь пользователя требуется во многих системах распознавания речи и представляет особую проблему для end-to-end систем, не давая им заменить гибридные системы в продакшене. В докладе я рассмотрю основные подходы к кастомизации, более подробно остановлюсь на подходе Microsoft[5], который работает наподобие спеллчекера и представлю нашу новую модель, которую я делала для опенсорсной библиотеки Nvidia NeMo.
Дополнительные ссылки:
[1] Sim et al. 2019 Personalization of end-to-end speech recognition on mobile devices for named entities
[2] Jain et al. 2020 Contextual RNN-T for open domain ASR
[3] Yang et al. 2023 Two stage contextual word filtering for context bias in unified streaming and non-streaming transducer
[4] Zhao et al. 2019 Shallow-Fusion End-to-End Contextual Biasing
[5] Wang et al. 2022 Towards Contextual Spelling Correction for Customization of End-to-end Speech Recognition Systems
Видео: https://youtu.be/1LRhdxoTnYQ
Презентация: https://drive.google.com/file/d/1lfTjbpCPAMAaSC2JOcVfKHPSTgXerVdC/view?usp=sharing