В Коломне завершилась XII Международная научно-практическая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (ИММВ-2024). Машинное обучение, гибридные и киберфизические системы, генетические алгоритмы, когнитивное и вероятностное моделирование — за три дня учёные успели обсудить двухгодичный запас тем и даже провести ряд выездных мероприятий. Больше всего выкладывались организаторы из ФИЦ «Информатика и управление» РАН и Российской ассоциации искусственного интеллекта. Открывали встречу и модерировали пленарное заседание Борис Аркадьевич Кобринский и президент РАИИ Вадим Владимирович Борисов.
Не обошёлся без них и круглый стол «Эволюция и перспективы развития нейросетей», и дискуссия «Мифы и реальности искусственного интеллекта», в которой также активно участвовали студенты Коломенского института Московского Политеха (пара фотографий позаимствована из их официальной группы VK, за что наше отдельное спасибо). Были обозначены дата и место проведения Летней школы РАИИ-2024: она состоится тут же, в Коломне, с 7 по 14 июля, и тоже при поддержке Коломенского института и ФИЦ ИУ РАН; подробности читайте на сайте школы по ссылке. А 16 мая сотрудники 75 отдела Института проблем искусственного интеллекта представили свои труды сразу в двух секциях.
В секции «Нечёткие модели, мягкие вычисления, измерения и оценки» выступил Николай Благосклонов с докладом «Принятие диагностических решений экспертной системой в условиях неполноты или избыточности данных» (ссылка). В качестве примера неполных данных в медицине он привёл не до конца обследованного пациента, истинно избыточных данных — информационный шум, условно избыточных — симптомы других заболеваний. Все они создают угрозу неопределённости и, как следствие, ошибочности гипотез. И если человек способен восполнить часть информации за счёт знаний, опыта, интуиции, анализа прецедентов, то интеллектуальным системам принимать решения гораздо сложнее. Помочь им призвана экспертная система для диагностики наследственных заболеваний ГенДиЭС (ссылка).
Истинно избыточные данные она отсекает ещё на ранних этапах обработки первичных данных. Для обработки же условно избыточных признаков заболеваний был придуман и испытан алгоритм на основе данных пациента, состоящий из трёх ключевых шагов. Сперва происходит определение и подсчёт признаков «за» (соответствие эталонному описанию), «против» и «вне эталона» (условно избыточные) для каждой гипотезы. Далее идёт группировка отобранных гипотез в кластеры с учётом признаков «вне эталона», с ранжированием по рангам и по степени сходства с эталоном. А в конце решатель ранжирует гипотезы по уровню сходства в порядке рангового места кластеров и формирует единое пространство — перечень из пяти гипотез-диагнозов, оптимального для редких генетических заболеваний.
Николай также привёл результаты испытаний на выборке из 110 пациентов по текущей и ранней версии алгоритма, где отсутствовали последние два шага. Если прежняя версия диагностировала лишь 64 случая заболеваний, то новая — 97 случая, что повысило точность дифференциальной диагностики ГенДиЭС с 58,18% до 88,18%. В ответах на вопросы участие принял и соавтор исследования Борис Аркадьевич.
После чего поспешил на секцию «Интеллектуального анализа данных, инженерии знаний и онтологии», где уже спустя 5 минут зачитывал новый доклад «Вероятностное представление измеряемых признаков и их отражение в системах искусственного интеллекта» (ссылка) о применении формальных структур для решения проблем анализа неопределённости и отражения информации о неточности числовых значений признаков. В медицине такие ситуации возникают при измерении артериального давления, уровня глюкозы или концентрации загрязняющих веществ в воздухе, либо при проведении анализов.
В СИИ, которую разрабатывают учёные, используется фреймовое представление формализованных данных, из-за чего пришлось расширить необходимые для описания признаки триады (имя слота или признака, его характеристика и значение) четвёртым признаком: погрешностью числового значения. Возможность учёта расплывчатых понятий и погрешностей оценки измерений команда хотела бы реализовать на основе распределения вероятностей значений признаков. Необходимым условием для введения формальных интервалов является и квантование изменений в состоянии здоровья с возрастом, когда человек едва переступил определённый рубеж.
Непосредственно техническую часть раскрыл Артём Николаев. В постановке задачи он определил СИИ как функцию f(x1,...,xn+m) = y, где (x1,...,xn+m) — это набор признаков, передающихся на вход, а y — некоторое решение из множества Y, результат работы СИИ для некоторого набора значений признаков. Воспользовавшись информацией об их возможном отклонении, он построил распределение этой функции на примере из нашей системы ИИ-ГИППОКРАТ (ссылка), реализованном на неоднородной семантической сети для пациента, которому накануне стукнуло 40 лет. Обладая данными о его давлении с тонометра, Артём получил решение в виде гипотезы H1, а затем рассчитал вероятность её получения в случае, если вместо условно точных входных данных нам будет известно распределение вероятностей для рассматриваемых признаков. Вот и вышло, что в условиях недоучёта распределения значений признаков гипотеза H2 в принципе не рассматривается как возможное решение.