Our authors along with the BERT LLM identified speech genres for the Speech Genres journal

10.03.2025

 

Международный научный журнал «Жанры речи» был учреждён Саратовским государственным университетом давно, в 1997 году, и посвящён он, как следует из названия, актуальным направлениям изучения речевых жанров. Всегда приятно обнаружить объёмную и, что важно, коллективную статью наших учёных в подобном солидном издании. Чтобы рассказать о «Больших языковых моделях и жанрово-речевой системности» (ссылка), свои силы объединили сотрудники 72 и 73 отделов Института проблем искусственного интеллекта Наталья Чудова, Дмитрий Девяткин и Анастасия Рыжова, а также большой друг ФИЦ ИУ РАН Владимир Салимовский. Ну а возглавил делегацию сам Олег Григорьев.

 

Авторы решили установить базовые закономерности функционирования лингвистического модуля БЯМ, дабы обеспечить интерпретируемость предоставляемых ею данных. Для этого они исследовали глубокую нейронную сеть с трансформенной архитектурой BERT при решении ею классификационной задачи — а конкретно задачи идентификации речевых жанров. И в качестве «экспериментального поля» для изучения и проверки гипотез в области компьютерного когнитивного моделирования выбрали научные тексты. Ведь в них как нигде больше отчётливо видны не только результаты, но и этапы познавательного процесса, образуемые системами воспроизводимых ментальных действий.

Материалом послужили тексты двух речевых жанров: «Описание нового для науки явления» (главным образом публикации по ботанике, зоологии, минералогии) и «Экспликация научного понятия» (теоретические разделы всех областей знания). Соответственно, были подготовлены две обучающие выборки объёмом 7719 и 7320 словоупотреблений, соответственно. Туда вошли фрагменты текстов публикаций из различных научных сфер, т. н. субтексты (сверхфразовые единства), в явном виде воплощающие жанрообразующие познавательные действия.

По словам наших специалистов, декодирование внутреннего состояния БЯМ точно воспроизводит состав и частоту употребления лексических средств, образующих созданные на материале текстов каждого из двух жанров обучающие выборки. А умение объяснять данные, полученные с использованием BERT, открывает путь их применению в тех областях, где из-за недоказанности результатов это считается недопустимым или нецелесообразным.

Исследование стало ещё одним кирпичиком для закладки масштабного проекта «Математические модели и численные методы как основа для разработки робототехнических комплексов, новых материалов и интеллектуальных технологий конструирования» (ссылка) под руководством Игоря Соколова. Ранее мы уже писали об эксперименте «PRISM-TopoMap: онлайновом топологическом картировании с распознаванием места и сопоставлением сканов» (ссылка) сотрудников 71 отдела , также «взлетевшим» при содействии Минобрнауки.


Cсылки по теме:

читать «Жанры речи»