Обучение с подкреплением с использованием модели среды является гибридным подходом, объединяющим планирование и безмодельное обучение, одним из главных преимуществ которого является высокая эффективность взаимодействия интеллектуального агента со средой при поиске оптимального поведения. Подходы, использующие модель среды, применяют её либо для дополнительного обучения стратегии на сгенерированных по модели траекториях, либо для получения более точной аппроксимации функции полезности состояний, с помощью которой оценивается полезность действий вдоль многошаговых модельных траекторий. В работе предлагается новый подход интеграции модели среды в качестве критика в архитектуры семейства акторкритик для оценки полезности действий. Эксперименты с гибридными алгоритмами, использующими модель среды с упреждающим поиском по дереву в качестве критика, на средах со сложным набором подцелей показали, что предлагаемая интеграция может ускорить обучение стратегии при определенных условиях.
Скачать сборник материалов конференции (PDF) на eLibrary (требуется регистрация): https://www.elibrary.ru/item.asp?id=50346284
Панов А. И., Угадяров Л. А. Модель среды для актора и критика в обучении с подкреплением // Двадцатая Национальная конференция по искусственному интеллекту с международным участием, КИИ-2022 (Москва, 21–23 декабря 2022 г.). Труды конференции. В 2 т. Т. 2. — М.: Издательство МЭИ, 2022. — С. 39–54.