Методы кросс-языкового поиска похожих документов

Авторы

Соченков И. В. , Зубарев Д. В.

Аннотация

В этой статье сравниваются различные методы кросс-языкового поиска похожих документов. Для сравнения используется русско-английская языковая пара. Сравниваются известные методы, такие как CL-ESA, с методами, основанными на кросс-языковых эмбеддингах. Для поиска документов используется приближенный поиск ближайшего соседа (ANN), использующий расстояния между векторами, представляющими документы. Также применяется более традиционный подход с использованием инвертированного индекса, с дополнительным шагом: отображение ключевых слов с одного языка на другой с помощью кросс-языковых эмбеддингов. Для экспериментальной оценки всех методов используются русские статьи из Википедии, которые имеют аналоги в англоязычной версии. Проведенные эксперименты показывают, что подход с инвертированным индексом показывает лучшие результаты по двум метрикам: полнота и средняя точность (MAP).

Внешние ссылки

DOI: http://dx.doi.org/10.15514/ISPRAS-2019-31(5)-9

Презентация Дениса Зубарева на ISPRAS OPEN-2019 (также смотрите на YouTube):

PDF на сайте журнала «Труды Института системного программирования РАН» (англ.): https://ispranproceedings.elpub.ru/jour/article/view/1221

PDF на сайте Института системного программирования им. В.П. Иванникова РАН (англ.): https://www.ispras.ru/proceedings/docs/2019/31/5/isp_31_2019_5_127.pdf

РИНЦ: https://www.elibrary.ru/item.asp?id=41588878

PDF на MathNet (англ.): http://mi.mathnet.ru/tisp458

Ссылка при цитировании

Zubarev D. V., Sochenkov I. V. Cross-lingual similar document retrieval methods. Proceedings of the Institute for System Programming, vol. 31, issue 5, 2019, pp. 127-136 DOI: 10.15514/ISPRAS-2019-31(5)-9.