«Диалог-2023» Ивана Смирнова и Елены Чистовой: о разрешении кореферентности на RuCoCo

16.06.2023

 

В феврале-марте Елена Чистова и Иван Смирнов из 72 отдела интеллектуального анализа информации ИПИИ приняли участие в популярном в кругах NLP-инженеров турнире по идентификации референциальных цепочек (слов и выражений, относящихся к одному объекту реального мира) в русскоязычных текстах новостей RuCoCo. Ничего общего с некогда модным стилем барокко он не имеет и переводится как «Российское соревнование по разрешению кореферентности». А завлекает RuCoCo большим датасетом (более миллиона слов для обучения), хорошим качеством разметки и исполнения.

 

Оно и не мудрено, ведь организатором является старейшая национальная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог» (в этом году — 48 лет!). Собственно, на ней же и подводят итоги, и раздают награды, и предлагают поделиться поисковым опытом. «Диалог-2023» проходил 14–16 июня в онлайн-формате и как раз подвёл финальную черту. К сожалению, команде института не удалось вырвать победу.

Зато ребята подготовили прекрасный пост мортем «Разрешение кореференции для русского языка с использованием признаков иерархического дискурса» (ссылка), где рассказали о системе CorefHD (Coreference in Hierarchical Discourse), созданной специально для состязания, а также мультиязычной языковой модели LUKE, подходах и методах её тренировки, возникших трудностях и достигнутых результатах. Кроме того, исходный код был выложен в открытый доступ на GitHub. Реализовать задумку помог проект № 9 «Искусственный интеллект и большие данные в технических, промышленных, природных и социальных системах», направление 9.3 «Разработка и исследование технологий искусственного интеллекта для профилактической медицины, психодиагностики и биометрии» Национального центра физики и математики (ссылка), в который активно вовлечён Институт проблем искусственного интелекта.

Прозвучал на конференции и ещё один знаковый доклад коллег из ФИЦ ИУ РАН, включая ведущего научного сотрудника 73 отдела ИПИИ Илью Соченкова: «Кто кому отвечает? Моделирование взаимоотношений сообщений в асинхронных чатах на русском языке» (ссылка). Учёные формализовали задачу восстановления ответов как базовый блок в решении вышеописанной проблемы и постарались применить полученную модель восстановления ответа к проблеме реконструкции тредов сообщений, используя полученные эвристики. Работа была выполнена при поддержке Минобрнауки России в рамках соглашения № 075–15–2020–907. В общем, никто не остался в накладе.


Cсылки по теме:

RuCoCo на сайте «Диалог-2023»

RuCoCo на CodaLab

RuCoCo-2023 на GetHub