Научно-технический вебинар «Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным»

9 ноября 2021, 17:00 MCK

О вебинаре

  • Спикер

    Александр Новиков, DeepMind, Лондон, Великобритания

  • Тема

    Научно-технический вебинар «Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным»

  • Подробнее про вебинар

    Спикер о работе:

    Behavior cloning (BC) хорошо справляется с задачей imitation learning так как делает возможным обучение политики оффлайн и без доступа к ревордам, с помощью обучения с учителем на демонстрациях решения целевой задачи. Однако на практике часто доступно лишь небольшое число демонстраций высокого качества (и их не хватает для обучения с помощью BC), но дополнительно имеется большой корпус траекторий смешанного качества которые не могут быть напрямую использованы для BC обучения. Такие траектории могут быть получены с помощью записи демонстраций людей которые решают другую задачу, траекторий простых политик основанных на правилах, или траекторий других RL агентов исполняющихся на той же среде / роботе.

    В данном докладе я разберу несколько трюков позволяющих эффективно использовать такие данные для обучения оффлайн RL агентов. Основная идея заключается в том, чтобы сначала выучить реворд функцию контрастируя демонстрации и неразмеченные данные, затем аннотировать все данные обученной реворд функцией и наконец обучить агента с помощью оффлайн RL методов.

    Презентация: https://drive.google.com/file/d/122uRrSw2sgOusT0blY2WRVQOcRMH9nQw/view?usp=sharing

    Запись: https://youtu.be/UJASafYH_Fc

Connection Information

To perform the requested action, WordPress needs to access your web server. Please enter your FTP credentials to proceed. If you do not remember your credentials, you should contact your web host.

Connection Type