Создание лексикона дискурсивных коннекторов является одной из актуальных задач при разработке систем автоматического анализа дискурса. Описание коннекторов также играет немаловажную роль в теоретических исследованиях связности текста. В целях создания соответствующего лексикона для русского языка мы провели корпусное исследование коннекторов, выделенных экспертами в корпусе Ru-RSTReebank. Этот корпус представляет собой 79 научно-популярных и новостных текстов, размеченных в терминах теории риторических структур (Mann, Thompson 1988). Вопрос о том, как устроен класс маркеров риторических отношений в русском рассматривается на примере каузальных отношений, в частности, на примере отношения “причина-эффект”. Некоторые коннекторы (первичные коннекторы) представлены в грамматиках и словарях. Как правило, они маркируют связи внутри предложения. Однако существует достаточно обширный класс менее грамматикализованных коннекторов (вторичные коннекторы), которые исследованы в меньшей степени. В частности, в качестве коннекторов используются конструкции с полнозначными лексическими единицами (например, по причине). Многие из таких коннекторов маркируют связи между предложениями и дискурсивными единицами большего объема. Таким образом, настоящая работа посвящена анализу коннекторов, которые обеспечивают связь между дискурсивными единицами в русском языке. Особое внимание уделяется менее грамматикализованным коннекторам, в том числе коннекторам, обеспечивающим связность на меж-сентенциальном уровне. В работе мы предлагаем схему описания маркеров риторических отношений, разработанную на основе проведенного анализа, описываем основные модели образования свободных конструкций, с помощью которых список коннекторов может быть расширен с использованием неразмеченного корпуса текстов. Также в статье рассматриваются результаты сравнения двух классов коннекторов (первичных и вторичных). Между данными классами наблюдается статистически значимая разница в отношении ряда признаков, таких, например, как положение внутри ядра/сателлита, тенденция к маркированию внутрисентенциальных vs. меж-сентенциальных отношений и др.
PDF на сайте международной конференции «Диалог» (на англ.): http://www.dialog-21.ru/media/4338/toldovas.pdf
РИНЦ: https://www.elibrary.ru/item.asp?id=35737656
Публикации ВШЭ: https://publications.hse.ru/chapters/222860597
Toldova S., Pisarevskaya D., Kobozeva M., Vasilyeva M. The cues for rhetorical relations in Russian: “cause–effect” relation in Russian rhetorical structure treebank // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2018”. – Moscow, May 30–June 2, 2018.