Integration into the Actor-Critic methods to estimate the state-action value
Обучение с подкреплением с использованием модели среды является гибридным подходом, объединяющим планирование и безмодельное обучение, одним из главных преимуществ которого является высокая эффективность взаимодействия интеллектуального агента со средой при поиске оптимального поведения. Подходы, использующие модель среды, применяют её либо для дополнительного обучения стратегии на сгенерированных по модели траекториях, либо для получения более точной аппроксимации функции полезности состояний, с помощью которой оценивается полезность действий вдоль многошаговых модельных траекторий.
Мы предлагаем новый подход интеграции модели среды в качестве критика в архитектуры семейства актор-критик для оценки полезности действий. В качестве критика мы рассматриваем вариант модели TreeQN, которая задействует модель динамики среды для построения функции полезности действий. Эксперименты с гибридными алгоритмами, использующими модель среды с упреждающим поиском по дереву в качестве критика, на средах со сложным набором подцелей показали, что предлагаемая интеграция может ускорить обучение стратегии при определённых условиях.