Открытая библиотека doc_enc для формирования кросс-языковых векторных представлений текстов

Authors

Sochenkov I. Zubarev D. Ryzhova A.

Annotation

В статье представлена библиотека с открытым исходным кодом doc_enc, позволяющая осуществить перевод сравнительно объёмных текстов в векторные представления. В библиотеке реализована возможность конфигурации разных способов представления объёмных текстов в векторном пространстве: от простой последовательности токенов до иерархических архитектур, состоящих из нескольких уровней. Библиотека поддерживает обучение кросс-языковых векторных представлений текстов, при которых сходные по смыслу тексты на разных языках представляются близкими векторами в смысле заданной метрики. Векторные модели, включённые в состав библиотеки, обучены на задаче поиска тематически похожих документов. В статье также представлены экспериментальные исследования, в которых сопоставлялось несколько вариантов представления документа и сравнивались различные методы-кодировщики (энкодеры). В результате экспериментов наилучшие результаты на задачах сопоставления документов и поиска тематически похожих документов показала легковесная трехуровневая модель. В библиотеке реализованы инструменты оценки качества и производительности обученных моделей в соответствии с общепринятыми метриками. В ходе работы был создан и опубликован репрезентативный набор данных для обучения на задаче поиска тематически похожих документов, а также представлена методология обучения кросс-языковых моделей на примере русско-английской языковой пары.

External links

DOI: 10.53921/itas2024_64

Download the article (PDF) at eLibrary (in Russian, registration required): https://elibrary.ru/item.asp?id=78751873

Reference link

Ядринцев В. В., Соченков И. В., Рыжова А. А. Открытая библиотека doc_enc для формирования кросс-языковых векторных представлений текстов // ИТиС 2024: Сборник трудов 48-й междисциплинарной школы-конференции ИППИ РАН «Информационные технологии и системы 2024». — Москва: Институт проблем передачи информации им. А. А. Харкевича РАН, 2024. — 523 c. — С. 64–76.