Научно-технический вебинар «Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным»

9 ноября 2021, 17:00 MCK

О вебинаре

  • Спикер

    Александр Новиков, DeepMind, Лондон, Великобритания

  • Тема

    Научно-технический вебинар «Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным»

  • Подробнее про вебинар

    Спикер о работе:

    Behavior cloning (BC) хорошо справляется с задачей imitation learning так как делает возможным обучение политики оффлайн и без доступа к ревордам, с помощью обучения с учителем на демонстрациях решения целевой задачи. Однако на практике часто доступно лишь небольшое число демонстраций высокого качества (и их не хватает для обучения с помощью BC), но дополнительно имеется большой корпус траекторий смешанного качества которые не могут быть напрямую использованы для BC обучения. Такие траектории могут быть получены с помощью записи демонстраций людей которые решают другую задачу, траекторий простых политик основанных на правилах, или траекторий других RL агентов исполняющихся на той же среде / роботе.

    В данном докладе я разберу несколько трюков позволяющих эффективно использовать такие данные для обучения оффлайн RL агентов. Основная идея заключается в том, чтобы сначала выучить реворд функцию контрастируя демонстрации и неразмеченные данные, затем аннотировать все данные обученной реворд функцией и наконец обучить агента с помощью оффлайн RL методов.

    Презентация: https://drive.google.com/file/d/122uRrSw2sgOusT0blY2WRVQOcRMH9nQw/view?usp=sharing

    Запись: https://youtu.be/UJASafYH_Fc