Possible options of applying memory units and modern transformers
Темой данного исследования яляется проблема обобщения и переобучения в обучении с подкреплением (Reinforcement Learning), в частности, различные типы определения обобщённой стратегии и подходы к повышению генерализующей способности методов RL. Особое внимание уделено одному из таких подходов — использованию отдельных блоков памяти и применению современных трансформерных архитектур. Также будут рассмотрены последние алгоритмы и методы, работающие как в онлайн, так и в оффлайн режиме.