Разрешение кореференции – это задача выявления и группировки упоминаний, относящихся к одному и тому же объекту реального мира. При решении задачи методами глубокого обучения в первую очередь обращают внимание на проблемы обучения векторных представлений сущностей и оценки вероятности наличия референциальной связи между ними. Однако существующие методы не позволяют в явном виде учитывать референциальный выбор в иерархическом дискурсе. В данной работе оценивается важность признаков, полученных на основе автоматического риторического анализа, применительно к нейросетевым моделям. В качестве базового метода реализована end-to-end архитектура с использованием мультиязычной языковой модели LUKE, учитывающей при кодировании текста границы сущностей. Лучшая модель, в которой используется признак риторического расстояния между сущностями, занимает первое место на валидационной (74.6% F1) и второе место на тестовой (73.3% F1) выборке соревнования RuCoCo-2023.
DOI: 10.28995/2075-7182-2023-22-34-41
Скачать PDF статьи на сайте конференции «Диалог 2023» (англ.): https://www.dialog-21.ru/media/5887/chistovaeplussmirnovi109.pdf
Скачать PDF сборника конференции на сайте «Диалог 2023» (англ.): https://www.dialog-21.ru/digest/2023/articles/
Скачать PDF статьи на arXiv.org (англ.): https://arxiv.org/abs/2306.01465
Исходный код и модели на GitHub: https://github.com/tchewik/corefhd
Чистова Е. В., Смирнов И. В. Light Coreference Resolution for Russian with Hierarchical Discourse Features // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22. 2023. C. 34–41.