Научно-технический вебинар «Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным»

О вебинаре

Спикер

Александр Новиков, DeepMind, Лондон, Великобритания
Тема

Научно-технический вебинар «Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным»
Подробнее про вебинар

Спикер о работе:

Behavior cloning (BC) хорошо справляется с задачей imitation learning так как делает возможным обучение политики оффлайн и без доступа к ревордам, с помощью обучения с учителем на демонстрациях решения целевой задачи. Однако на практике часто доступно лишь небольшое число демонстраций высокого качества (и их не хватает для обучения с помощью BC), но дополнительно имеется большой корпус траекторий смешанного качества которые не могут быть напрямую использованы для BC обучения. Такие траектории могут быть получены с помощью записи демонстраций людей которые решают другую задачу, траекторий простых политик основанных на правилах, или траекторий других RL агентов исполняющихся на той же среде / роботе.

В данном докладе я разберу несколько трюков позволяющих эффективно использовать такие данные для обучения оффлайн RL агентов. Основная идея заключается в том, чтобы сначала выучить реворд функцию контрастируя демонстрации и неразмеченные данные, затем аннотировать все данные обученной реворд функцией и наконец обучить агента с помощью оффлайн RL методов.

Презентация: https://drive.google.com/file/d/122uRrSw2sgOusT0blY2WRVQOcRMH9nQw/view?usp=sharing

Запись: https://youtu.be/UJASafYH_Fc

Научно-технический вебинар «Оффлайн обучение RL агентов по демонстрациям и неразмеченным данным»

О вебинаре

Спикер

Тема

Подробнее про вебинар