Библиотека создана при поддержке Фонда содействия инновациям (договор № 6ГУКодИИС12-D7/72695 о предоставлении гранта на выполнение проекта открытых библиотек от 26 декабря 2021 г.)
Название: Открытая библиотека ExactusSemVectors для формирования кросс-языковых векторных представлений текстов и их фрагментов на основе глубокого обучения для решения задач информационного поиска и классификации текстовой информации
Руководитель проекта: Шелманов Артём Олегович
Исполнитель: Зубарев Денис Владимирович
Организация финансирования: Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Срок выполнения: 2021–2023
Ссылка на готовый проект: http://gitlab.com/semvectors/doc_enc
Открытая библиотека ExactusSemVectors может применяться в различных областях для решения задач семантического анализа естественно-языковых текстов, в которых требуется преобразование больших объёмов текстов в единое векторное представление (эмбеддинги). К числу таких задач относятся:
Сферой применения библиотеки могут быть промышленные наукоёмкие решения:
В рамках проекта был создан фреймворк, позволяющий конфигурировать разные способы представления объёмных текстов в векторном пространстве, начиная с простых моделей (простая последовательность токенов) и заканчивая иерархическими моделями. Плмимо этого она позволяет
Также подготовлены кросс-языковые обученные модели, применимые в сфере информационного поиска.
Новизна проекта. Отличительными особенностями библиотеки является:
Описание технологии. Иерархическая модель состоит из нескольких уровней:
На каждом уровне иерархии применяется свой энкодер. В рамках эксперимента были опробованы предобученные энкодеры из библиотек (Transformers, Sentence-transformers), обученные энкодеры (LSTM, GRU), а также обученные трансформеры и его варицаии (Fnet, трансформер с локальным вниманием). Было проведено мультизадачное обучение с помощью двойного энкодера в поиске переводных предложений (если уровень предложений присутствует в модели) и в поиске похожих текстов. Также были подготовлены новые датасеты для обучения на задаче поиска тематически похожих документов (SimEnWiki, SimRuWiki, ParalWiki, SimEnSci).