Спикер о работе:
Модель BERT в свое время показала наилучший результат в нескольких задачах обработки естественного языка. Однако, причины эффективности этой модели недостаточно исследованы. В нашей работе мы устанавливаем, как архитектура и процесс обучения (а именно, моделирование языка с восстановлением случайно испорченных слов) влияют на геометрические свойства векторных представлений модели, и исследуем пригодность промежуточных представлений для задач классификации.
Материалы:
Про дрифт векторных представлений — формальное описание эффекта есть в section 3.3 статьи https://aclanthology.org/2021.naacl-main.403.pdf
Презентация: https://drive.google.com/file/d/11CnPd1bbOaQPfTj3HCQTnINUzXVGKH4i/view?usp=sharing
Запись: https://youtu.be/Bgui8Qpln-M