Разрешение кореференции для русского языка с использованием признаков иерархического дискурса

Авторы

Смирнов И. В. Чистова Е. В.

Аннотация

Разрешение кореференции – это задача выявления и группировки упоминаний, относящихся к одному и тому же объекту реального мира. При решении задачи методами глубокого обучения в первую очередь обращают внимание на проблемы обучения векторных представлений сущностей и оценки вероятности наличия референциальной связи между ними. Однако существующие методы не позволяют в явном виде учитывать референциальный выбор в иерархическом дискурсе. В данной работе оценивается важность признаков, полученных на основе автоматического риторического анализа, применительно к нейросетевым моделям. В качестве базового метода реализована end-to-end архитектура с использованием мультиязычной языковой модели LUKE, учитывающей при кодировании текста границы сущностей. Лучшая модель, в которой используется признак риторического расстояния между сущностями, занимает первое место на валидационной (74.6% F1) и второе место на тестовой (73.3% F1) выборке соревнования RuCoCo-2023.

Внешние ссылки

DOI: 10.28995/2075-7182-2023-22-34-41

Скачать PDF статьи на сайте конференции «Диалог 2023» (англ.): https://www.dialog-21.ru/media/5887/chistovaeplussmirnovi109.pdf

Скачать PDF сборника конференции на сайте «Диалог 2023» (англ.): https://www.dialog-21.ru/digest/2023/articles/

Скачать PDF статьи на arXiv.org (англ.): https://arxiv.org/abs/2306.01465

Исходный код и модели на GitHub: https://github.com/tchewik/corefhd

ResearchGate: https://www.researchgate.net/publication/371290963_Light_Coreference_Resolution_for_Russian_with_Hierarchical_Discourse_Features

Ссылка при цитировании

Чистова Е. В., Смирнов И. В. Light Coreference Resolution for Russian with Hierarchical Discourse Features // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22. 2023. C. 34–41.