Модель среды для актора и критика в обучении с подкреплением

Авторы

Панов А. И. , Угадяров Л. А.

Аннотация

Обучение с подкреплением с использованием модели среды является гибридным подходом, объединяющим планирование и безмодельное обучение, одним из главных преимуществ которого является высокая эффективность взаимодействия интеллектуального агента со средой при поиске оптимального поведения. Подходы, использующие модель среды, применяют её либо для дополнительного обучения стратегии на сгенерированных по модели траекториях, либо для получения более точной аппроксимации функции полезности состояний, с помощью которой оценивается полезность действий вдоль многошаговых модельных траекторий. В работе предлагается новый подход интеграции модели среды в качестве критика в архитектуры семейства акторкритик для оценки полезности действий. Эксперименты с гибридными алгоритмами, использующими модель среды с упреждающим поиском по дереву в качестве критика, на средах со сложным набором подцелей показали, что предлагаемая интеграция может ускорить обучение стратегии при определенных условиях.

Внешние ссылки

Скачать сборник материалов конференции (PDF) на eLibrary (требуется регистрация): https://www.elibrary.ru/item.asp?id=50346284

Ссылка при цитировании

Панов А. И., Угадяров Л. А. Модель среды для актора и критика в обучении с подкреплением // Двадцатая Национальная конференция по искусственному интеллекту с международным участием, КИИ-2022 (Москва, 21–23 декабря 2022 г.). Труды конференции. В 2 т. Т. 2. — М.: Издательство МЭИ, 2022. — С. 39–54.