About the creative heritage of Gennady Osipov, Memorial Evening 13/10/23

22.01.2024

 

Свет увидел последний, 4-й выпуск журнала ФИЦ ИУ РАН «Искусственный интеллект и принятие решений» за 2023 год. И радует он сразу двумя статьями наших авторов. Алексей Петровский совместно с коллегами из ВолгГТУ представил информационную модель распознавания, анализа и оценки взаимодействия людей из разных целевых групп по эмоциональным реакциям (ссылка). Модель использует изображения лиц и звуки голосов, снятые при помощи патентованной автоматизированной системы видеонаблюдения за перемещением и контактами в замкнутом пространстве, для определения эмоций и качества взаимодействия индивидуумов. А вот в составлении другой, куда более массивной публикации «Искусственный интеллект и когнитивное моделирование: творческое наследие Г. С. Осипова» (ссылка), приняла участие добрая половина Института во главе с Олегом Григорьевым.

 

 

В ней, как несложно догадаться, очерчены основные вехи научной биографии Геннадия Семёновича, без которого не было бы ни Института проблем искусственного интеллекта, ни ИИ, каким мы его сегодня знаем. Таким образом товарищи решили ещё раз почтить память дорогого им человека, чей 75-летний юбилей справили 13 октября в узком семейном кругу. Далее — наш скромный репортаж с вечера памяти. Он проходил в большом зале ФИЦ ИУ РАН в формате семинара с участием всех отделов и поколений ИПИИ, а к онлайн-трансляции подключались кафедры МФТИ и РУДН, где когда-то преподавал юбиляр. Ученики Школы Осипова делились актуальными наработками (за прошедшие месяцы многие из них эволюционировали до полноценных продуктов), и у каждого звучала тема преемственности.

 

 

Открывал вечер Константин Яковлев. Рассуждая о методах эвристического поиска и машинного обучения в задачах планирования траектории (ссылка), он напомнил об одном из первых проектов 71 отдела (в девичестве 4-го отделения «Искусственный интеллект и принятие решений» ИСА РАН) для РНФ (ссылка) под общим руководством Геннадия Семёновича, в частности, о публикации по многоуровневой архитектуре управления БПЛА (ссылка), заложившей фундамент для нынешних исследований. И перешёл к интеграции обучения и эвристического поиска для одноагентных и многоагентных случаев. Про одноагентные системы мы писали, и не раз. Концепция зиждется на постановке и решении двух ключевых задач: как должна выглядеть эвристическая функция, и что нейросеть даёт науке.

 

 

Про многоагентную навигацию мы, кажется, писали ещё чаще, в том числе в ноябрьском обзоре лекции Константина для DataStart. Он схематично разобрал пример с постоянной сменой цели, требующей кооперации между роботами, и модель A* + PRO на основе обучения с подкреплением: действие формирует нейросеть из локальной области видимости, где содержится глобальный кусок пути, построенный с помощью классического алгоритма. Яркий пример нейросимвольной интеграции, также подсказанный Геннадием Осиповым... Когда микрофон перешёл к заведующему отделом, выяснилось, что неугомонный Александр Панов к тому времени успел сбежать на другую конференцию, и его речь передвинули.

 

Зато уж когда подошла очередь, Александр разразился классным рассказом о планировании действий агента с языковыми моделями мира (ссылка). Ведь комплексные системы управления роботами с помощью языковых команд — направление крайне увлекательное, стремительно прогрессирующее, почему наши планировщики и не спускают с него глаз последние два года, регулярно делясь успехами. С аналогичными сообщениями они уже выступали и в Летней школе РАИИ, и на HAIS в Саламанке, и на AIJ 2023, а буквально через неделю на ROS Meetup 2024 поедет доклад «Многокомпонентные системы управления с языковыми моделями в ROS» (ссылка). Но, конечно, главным образом тирада была обращена к Геннадию Семёновичу, много тёплых слов прозвучало в адрес учителя и наставника.


 

Вспоминал его и заведующий 72 отделом Иван Смирнов: вместе они изучали синтаксемы, семантические роли и связи, рассматривая текст как моделируемое множество неоднородных семантических сетей. Иван пришёл к выводу, что с помощью реляционно-ситуационной модели можно моделировать и высказывания, содержащиеся в тексте, что и натолкнуло его на идею семантического анализа. Презентуя свою монографию «Интеллектуальный анализ текстов на основе методов разноуровневой обработки естественного языка» (ссылка), вышедшую буквально накануне, автор затронул и другие методы. Например, реляционно-ситуационный анализ по мотивам словаря предикатных слов — его коллектив составлял на протяжении нескольких лет. Или метод с обучением на специально размеченном корпусе семантической и синтаксической разметки по чертежам семантико-синтаксического анализа, тоже намеченного Осиповым.

 

 

Он же разъяснил каверзы древовидной структуры для перехода к дискурсивному анализу текстов с ориентацией на специфику русского языка, что потребовало новых подходов. Результаты изысканий предстали в докладе Елены Чистовой «End-to-End анализ связей между структурами аргументации и риторическими структурами» (ссылка), ранее прозвучавшем на конференции Annual Meeting of the Association for Computational Linguistics (ACL 2023) в Торонто, о чём мы писали в новости от 21 июля. Кстати, именно по поводу последних выступлений разгорелись наиболее жаркие баталии: старожилы (Олег Георгиевич, Михаил Геннадьевич, Вячеслав Михайлович) от души засыпали молодёжь вопросами, словно члены диссертационного совета на защите, заставив тех изрядно попотеть. Коллеги коллегами, а субординация — субординацией!

 

 

Дмитрий Девяткин на всякий случай предупредил, что его междисциплинарный подход к исследованию корпусов текста: от статистической к аналитической модели текста» (ссылка) пока скорее теоретический и призван повысить качество трансформеров для классификации текстов на естественном языке в прикладных задачах. Из недостатков он выделил функцию потерь, подверженную атакам из-за большого количества локальных экстремумов, отсутствие механизмов контроля достоверности и учёта взаимосвязи разноуровневых признаков из-за уязвимости методов интерпретации получения подобных моделей. Выявлять проблемы желательно ещё на этапе построения на получающих наборах данных. Геннадий Осипов пробовал идентифицировать параметры реляционно-ситуационной модели высказывания на основе информации, извлечённой после обучения в сети с архитектурой трансформера.

 

 

Да и Дмитрий работал с моделью в задаче появления реакции на фрустрацию, только вот описание формировал филолог-лингвист. Теперь же авторы удумали обучить набор линейных отображений для формирования множеств сочетаний языковых средств разноуровневых морфологических, синтаксических, семантических признаков и применить к нему некий метод выявления частотных подграфов, который позволил бы видеть фрагменты неоднородной сети, относящиеся к целевому классу. Для чего пришлось технически модифицировать сеть, представив все морфологические характеристики синтаксем как отдельные вершины и введя атрибутивные связи. А затем использовать метод тематической значимости для привязки к вершинам сети лемм, связанных с использованием подсети в определённых текстах определённого класса.

 

 

Помимо Дмитрия, от 73 отдела выдвинулся Василий Ядринцев с двумя схожими, но такими разными приложениями: «Открытая библиотека ExactusSemVectors для формирования кросс-языковых векторных представлений текстов и их фрагментов на основе глубокого обучения для решения задач информационного поиска и классификации текстовой информации» (ссылка) и «Открытая библиотека ExactusVectorIndex для распределённой индексации и поиска в сверхбольших массивах векторных представлений (эмбеддингов) с применением машинного обучения для преобразования векторных пространств и выборки данных» (ссылка). В общем-то, обе библиотеки, созданные при поддержке Фонда содействия инновациям, успешно прошли испытания, во многом превзойдя аналоги, сданы в эксплуатацию и лежат в свободном доступе.

 


А за весь 75 отдел отдувался один Алексей Молодченков. Заявленный им эксперимент «Базы знаний для интеллектуальных систем на основе неоднородных семантических сетей» (ссылка) зародился в споре с Геннадием Семёновичем: «Докажите, чем ваши технологии лучше, чем то же самое машинное обучение!». И уже доказал, что таки да, лучше. База знаний состоит из узлов, разделов и атрибутов. Узлами могут быть утверждения, ситуации, результаты наблюдений, факты и процессы, а делятся они на узлы-признаки, описывающие некоторые факты и влияющие на ход рассуждений, вспомогательные узлы для реализации логических конструкций И/ИЛИ (либо некоторые синхронокомплексы), и на целевые узлы, участвующие в формировании решения на базе этой неоднородной семантической сети.

 

В проекте использованы четыре типа отношений доработанного алгоритма Осипова. А именно, к трём типам — TRA («При наблюдении узла е: всегда наблюдается узел e:»), RS («При наблюдении узла e: может наблюдаться узел e:») и S («При наблюдении узла e: отсутствует узел e:») — добавили тип «При наблюдении узла e: может присутствовать узел e:». К главным задачам отнесён вывод на базе знаний (решатель) и её обучение. Для чего тот же Осипов создал алгоритм на основе аргументационного вывода, позволяющего строить минимальное количество множества, которое объясняет наблюдаемое событие (вывод всех болезней, максимально объясняющих их проявления, если берём задачи диагностики).

 

 

Сортировкой множества гипотез, или ранжированием, Геннадий Семёнович уже не занимался, и отделу пришлось разрабатывать свой алгоритм. Вначале по множеству транзитивных связей множество гипотез разбивают на несколько подмножеств групп, внутри каждой группы ранжируют по количеству положительных либо отрицательных связей, а в случае, если присутствуют и те, и другие, для них рассчитывают метод ранжирования внутри этих групп за счёт гибкости настроек, в зависимости от задач и результатов. Наглядным пособием и венцом творения стала легендарная система формирования персонализированного плана профилактических мероприятий ИИ-ГИППОКРАТ.

 

 

Но сюрпризы не закончились. Неожиданно к микрофону прорвался Илья Тихомиров — один из любимцев Осипова, в недавнем прошлом сотрудник ФИЦ ИУ РАН, сделавший карьеру крупного госслужащего. В своём выступлении «Уровни готовности технологий, поддержка научных исследований и искусственный интеллект» Илья не приоткрыл никакой завесы и поведал ровно о том, о чём планировал: о применении ИИ для автоматизированной оценки и анализа упоминаний УГТ. Правда, в конце не удержался и взял группу анализа текстов на слабо: «А слабо автоматически построить цикл хайпа Gartner, где исходные данные — просто большие, абсолютно разные массивы текста?». На что Илья Соченков моментально парировал: «Да вообще без проблем, сделаем лучше, чем у «Гартнера» — тем более, у них AI в корне поменялся в 2020-м и 2023-м годах. Но для этого мне нужно два года и два миллиона долларов».

 

 

Впрочем, обстановка располагала и к увлечённым спорам, и к дружеским подтруниваниям, вечер с запланированных двух часов незаметно растянулся до трёх, но усталости никто не ощущал. Далее последовала банкетная часть, так сказать, не под камеры. И где бы ни был Геннадий Семёнович, мы уверены, в тот момент он был с Институтом, и отвечал на обращённые к нему слова и взоры, и радовался, и грустил со всеми, и гордился своими учениками, которые достойно продолжают дело всей его жизни.