В докладе будет рассмотрена проблема обобщения и переобучения в обучении с подкреплением (RL). Рассмотрим различные типы определения обобщенной стратегии и подходы к повышению генерализующей способности методов RL. Уделим особое внимание одному из таких подходов — использование отдельных блоков памяти и применение современных трансформерных архитектур. Рассмотрим последние алгоритмы и методы, работающие как в онлайн, так и в оффлайн режиме.
Читать презентацию на странице исследования (англ.): https://rairi.frccsc.ru/products/13
Смотреть презентацию на канале Центра когнитивных исследований МФТИ (c 1:03:53):
Панов А. И. Генерализация, память и трансформерные модели в обучении с подкреплением // XXIV Международная научно-техническая конференция «Нейроинформатика-2022». — М.: НИЯУ МИФИ, 2022.