Научно-технический вебинар «Доброкачественное переобучение в моделях, дополненных поиском по хранилищу»

8 ноября 2022, 13:00 MCK

О вебинаре

  • Спикер

    Женисбек Ассылбеков, Назарбаев Университет, Нур-Султан, Казахстан

  • Тема

    Научно-технический вебинар «Доброкачественное переобучение в моделях, дополненных поиском по хранилищу»

  • Подробнее про вебинар

    Спикер о вебинаре:
    Теория длинного хвоста Фельдмана (STOC 2020) утверждает, что запоминание редких/атипичных примеров неизбежно при обучении на естественных данных. Несмотря на то, что современные глубокие нейронные сети имеют возможность запоминать (почти) всю обучающую выборку, при обучении с SGD они этого не делают. Напротив, они доброкачественно переобучаются, то есть делают точные прогнозы на новых данных, несмотря на идеальную подгонку к обучающей выборке.
    Грубо говоря, все это происходит из-за неявной предвзятости к простоте: SGD предпочитает более простые и надежные модели и использует возможности нейронной сети для запоминания, чтобы подгоняться к нетипичным/редким примерам только в случае необходимости.
    В то же время специалисты по машинному обучению (особенно в области обработки естественного языка) придумали, как использовать эту возможность для более эффективного обучения: модели, дополненные поиском по хранилищу данных (kNN-LM, RETRO) явно запоминают (часть) обучающей выборки в хранилище и, таким образом, пытаются (частично) снять нагрузку запоминания с нейронной сети. Насколько мне известно, в настоящее время нет теоретического анализа доброкачественного переобучения в таких моделях.
    В своем выступлении я предложу несколько возможных исследовательских вопросов, касающихся доброкачественной переобучения в моделях, снабженных поиском по хранилищу, для дальнейшего обсуждения с участниками вебинара.

    Видеозапись: https://youtu.be/YBXShQsiWsM
    Презентация: https://drive.google.com/file/d/10Auhws68kt3ztopd-pAulVK-mKtsQ5j0/view?usp=sharing