Анализ методов выявления искусственно сгенерированных текстов

Authors

Volkov S.

Annotation

Современные модели генерации текстов показывают достаточно хорошие результаты в ряде задач, связанных с написанием небольших текстовых фрагментов. Результаты использования данных моделей могут быть использованы в том числе с целью создания большого количества фейковой информации (новости, рецензии, отзывы, и т. п.). В связи с этим, возникает необходимость разработки алгоритмов, способных отличать тексты, написанные человеком, от автоматически сгенерированных. Данная работа посвящена исследованию методов машинного обучения в решении задач генерации текстов, а также анализу методов, способных выявлять искусственно синтезированные тексты. Рассматриваются существующие подходы к генерации текстов и варианты их практического применения. Приводится разбор существующих наборов данных для анализа эффективности работы методов выявления искусственно синтезированных текстов. Также рассматривается подход к созданию собственного набора данных для решения данной задачи.

External links

DOI: 10.47581/2024.Oblokj-Raspredelenie-OPBC-2023

Download the article (PDF) at eLibrary (in Russian, registration required): https://elibrary.ru/item.asp?id=76209791

Download the conference proceedings (PDF) at eLibrary (in Russian, registration required): https://elibrary.ru/item.asp?id=76207991&selid=76209791

Reference link

Волков С. С. Анализ методов выявления искусственно сгенерированных текстов // Облачные и распределенные вычислительные системы в электронном управлении. ОРВС – 2023: сборник трудов 4-й международной научно-технической конференции (28 ноября — 1 декабря 2023 года) / ред. кол.: И.И. Курочкин [и др.]; ИПС РАН. Переславль-Залесский. — Курск: Изд-во ЗАО «Университетская книга», 2024. — 127 с. — С. 27–30.