В этой статье сравниваются различные методы кросс-языкового поиска похожих документов. Для сравнения используется русско-английская языковая пара. Сравниваются известные методы, такие как CL-ESA, с методами, основанными на кросс-языковых эмбеддингах. Для поиска документов используется приближенный поиск ближайшего соседа (ANN), использующий расстояния между векторами, представляющими документы. Также применяется более традиционный подход с использованием инвертированного индекса, с дополнительным шагом: отображение ключевых слов с одного языка на другой с помощью кросс-языковых эмбеддингов. Для экспериментальной оценки всех методов используются русские статьи из Википедии, которые имеют аналоги в англоязычной версии. Проведенные эксперименты показывают, что подход с инвертированным индексом показывает лучшие результаты по двум метрикам: полнота и средняя точность (MAP).
DOI: http://dx.doi.org/10.15514/ISPRAS-2019-31(5)-9
Презентация Дениса Зубарева на ISPRAS OPEN-2019 (также смотрите на YouTube):
PDF на сайте журнала «Труды Института системного программирования РАН» (англ.): https://ispranproceedings.elpub.ru/jour/article/view/1221
PDF на сайте Института системного программирования им. В.П. Иванникова РАН (англ.): https://www.ispras.ru/proceedings/docs/2019/31/5/isp_31_2019_5_127.pdf
РИНЦ: https://www.elibrary.ru/item.asp?id=41588878
PDF на MathNet (англ.): http://mi.mathnet.ru/tisp458
Zubarev D. V., Sochenkov I. V. Cross-lingual similar document retrieval methods. Proceedings of the Institute for System Programming, vol. 31, issue 5, 2019, pp. 127-136 DOI: 10.15514/ISPRAS-2019-31(5)-9.