С 9 по 14 июля в Торонто в 61-й раз прошла Annual Meeting of the Association for Computational Linguistics (ACL 2023) — старейшая и престижнейшая международная конференция по компьютерной лингвистике. Кого только она не повидала на своём веку... А в этом году ряды её спикеров пополнились и учёными Института проблем искусственного интеллекта в лице Елены Чистовой — молодой, но очень самоотверженной сотрудницы 72 отдела, которая на протяжении последних пяти лет занимается углублёнными исследованиями в области обработки естественного языка (NLP).
Статья «End-to-End анализ связей между структурами аргументации и риторическими структурами» (ссылка) была включена в программу секции «Полученные данные: дискурс с точки зрения прагматики» и получила высокую оценку профессионалов. А как иначе, ведь все предыдущие опыты, направленные на сравнения двух деревьев для одних приёмов текстов, всегда опирались на одно риторическое описание текста, что не вполне верно, поскольку одна и та же аргументационная структура может быть разобрана риторически многими способами.
В своём труде Елена произвела отцепку связей между двумя рекурсивными моделями при помощи нескольких риторических деревьев. Проверялись гипотезы при помощи биаффинного анализатора зависимостей (Biaffine Argument Parser) и анализатора, дополненного дискурсионным подходом (DBAP). Впервые эксперименты проводились на корпусе аргументативных микротекстов — коротких фраз или слов для корпуса на русском и английском языках. В итоге было получено по два варианта текста на каждом языке обратным автоматическим переводом с русского на английский и с английского на русский — всего четыре дерева. Поскольку русско- и англоязычные парсеры руководствуются разными интерпретациями теории риторических структур, для каждого языка проводился отдельный эксперимент.
Написанный Еленой Чистовой анализатор (кстати, заблаговременно выложенный в свободный доступ на GitHub) во многом уникален. Так, множественные версии риторических структур для исследования взаимоотношений между дискурсом и аргументацией, в том числе для извлечения аргументации из текстов на русском языке, никогда и нигде ранее не применялись. Не говоря уже о том, что это — первые результаты аргументационного анализа, полученные на научной версии корпусов. Посильную помощь в испытаниях оказал и проект № 9 «Искусственный интеллект и большие данные в технических, промышленных, природных и социальных системах», направление 9.3 «Разработка и исследование технологий искусственного интеллекта для профилактической медицины, психодиагностики и биометрии» (ссылка).
Cсылки по теме:
На сайте ACL 2023