Ещё одна новость из мира ИИ вызвала нешуточный резонанс на прошлой неделе: Международная конференция Сбера по искусственному интеллекту «Путешествие в мир искусственного интеллекта», или AIJ 2023. По заявлению самого Сбера, главное событие года в российской IT-индустрии. И рациональное зерно в этом, безусловно, присутствует. Организация и трансляция выступлений — на высочайшем уровне, максимальный охват тем при умеренном, но тщательно подобранном количестве спикеров. Статусности придавало участие Германа Грефа и Максима Орешкина в качестве модераторов, не говоря уже о визите Владимира Путина в последний день конференции, взорвавшем информпространство.
Но кто же наполнял форму содержанием? Кто они? Разумеется, учёные Института проблем искусственного интеллекта, на сей раз трое сотрудников 71 отдела, герои семинара по робототехнике 23 ноября. Александр Панов первым представил обзор современных мультимодальных нейронных сетей для планирования действий робота (ссылка), поведав, прежде всего, о больших языковых моделях, новом и жутко перспективном направлении, которым отдел вплотную занят последние годы. БЯМ прочат славу одного из главных инструментов ИИ будущего, даже там, где их внедрение вообще не предполагалось.
Александр перечислил примеры модификации стандартной трёхуровневой архитектуры управления мобильным роботом при помощи виртуальных сред, позволяющих превратить языковую инструкцию в план действий, между делом упомянув соревнование Habitat и победу нашей сборной в этом году (о чём грех не напомнить). При этом порядка 50% действий, выдаваемых языковой моделью, не применимы, и для повышения эффективности требуется предоставить обратную связь. Лучшее решение он усмотрел в использовании мультимодальных архитектур, описав две техники: Fromage и GILL. И далее рассказал о том, как, собственно, можно приспособить их для генерации поведения роботов с помощью Perceiver-Actor, VIMA, LAVA, DeL-TaCo, RT, а также одной из самых мощных и дорогих архитектур PaLM-E.
В заключение он презентовал ноу-хау — PlanFormer с переносом обученной в симуляторе модели на реального агента, функционирующего в двух спецрежимах: sim2real, т. е. классический перенос из симулятора в реальность, и sim2real2sim, где сенсорную информацию с камер робота транслируют в симулятор для получения более точного представления ситуации, а уже затем выполняют действие в реальной среде. Помогла токенизация и один из стандартных энкодеров изображений, а эмбеддинг действия переводился через заимствованный из VIMA декодер в движение железяки. Увеличение мощности дало ощутимое преимущество, вырос и показатель успеха, что убедительно показали эксперименты с различным количеством параметров в роботехническом центре ФИЦ ИУ РАН.
Дуэт Алексея Ковалёва и Александра Корчемного, выступавший следом, также апеллировал к большим языковым моделям, но с иной подоплёкой: «Обратная связь при планировании с LLM на примере сортировки роботом бытовых повседневных вещей» (ссылка). Алексей с порога раскрыл суть планирования поведения, разбив его по двум ключевым этапам: формулировка задачи и построение плана по задаче. Важным направлением он назвал воплощённый искусственный интеллект, когда агент, выполняя задачу, активно взаимодействует с пользователем на естественном языке. Причём он должен уметь переключаться в режим диалога и задавать уточняющие вопросы, если у него что-то не клеится. Для проверки тестирования авторы используют бенчмарки ALFRED или, в случае диалога, TEACh. По умолчанию модели, обученные на большом корпусе текстов, содержат информацию о мире, т. е. у ИИ достаточно знаний, чтобы построить свой план действий.
Но как использовать БЯМ для планирования? Алексей предложил три подхода на выбор и сравнил их при помощи ALFRED. В первом и самом простом банально составляют текстовый план и запускают модель в базовом режиме авторегрессионной регенерации. Если действие названо не тем словом (например, синонимом), то извините: робот его не поймёт и опозорится. Подход пошаговой регенерации более выигрышный, ведь он позволяет продумать каждый шаг отдельно, добавить его в текущий план и заново провести генерацию. Третий подход пошаговой оценки плана также величают SayCan в честь модели, где его впервые обкатали, а оценивают результативность того или иного действия. При большом количестве действий или объектов процесс замедляется, зато за агента можно быть спокойным, не подведёт.
Александр подхватил эстафету и с головой ушёл в описание видов обратной связи при планировании с БЯМ: SayCan, Inner Monologue, псевдокод для формулирования плана ProgPromt, ChatGPT for Robotics (улучшение промпта от Microsoft), LLM-Brain, Language Models Meet World Models для получения обратной связи не только от среды, но и от человека, говорящая Robots That Ask For Help, диалог между двумя роботами RoCo и уже упомянутый дорогой PaLM-E для корректировки плана по изображению.
Наконец, Александр перешёл к обещанному роботу-сортировщику. Раскатывает такой, бывало, по дому, пытается собрать разбросанные игрушки в ящик, но не может из-за отсутствия обратной связи. Модель авторов с планировщиком более высокого уровня призвана исправить ситуацию. Она сама понимает, чего не хватает в описании задачи для успешного решения. В данном случае происходит двухуровневое планирование: языковая модель запрашивает список объектов, которые являются игрушками, ей дают список и делят один высокоуровневый план на несколько низкоуровневых на естественном языке. А после уже добавляется низкоуровневый планировщик, способный разбить одну простую задачу на действия. В итоге игрушки в ящике, дети вовремя уложены, мать довольна, все счастливы.
Конечно, для более глубокого погружения в тему стоит прослушать сами лекции. В день премьеры любой мог это сделать, просто зайдя на официальный сайт. Записи не сохранялись, но после визита Президента организаторы пообещали в скором времени вновь выложить их в открытый доступ. Поэтому запасаемся терпением и следим за обновлениями!
Ссылки по теме: