В работе рассматривается способ формирования набора умений агента без использования информации о поставленной перед ним цели. В обучении с подкреплением подобные способы относят к методам внутренней мотивации. Предложенный в настоящей работе алгоритм берет за основу вычисление взаимной информации между действиями агента и его состояниями. Такой подход позволяет конструировать умения, приводящие к наиболее равномерному достижению возможных состояний. В работе представлены формируемые алгоритмом умения на примере непрерывного управления движением агента. Проанализирована применимость получаемых умений для решения задач обучения с подкреплением.
Латышев А. К., Панов А. И. Формирование умений агента по принципу достижимости в обучении с подкреплением // XXI Национальная конференция по искусственному интеллекту с международным участием (КИИ-2023). Труды конференции. В 2-х томах. Т.1. – Смоленск: Принт-Экспресс, 2023. – С. 264–274.