Данное исследование основано на наборе данных CLEF/eRisk 2017, который состоит из коллекций текстовых сообщений 887 пользователей англоязычной социальной сети Reddit, где 135 из них идентифицированы как люди с депрессивным расстройством. В работе представлены классификационные модели, построенные для задачи обнаружения депрессии у этих пользователей. В качестве основных признаков для классификации рассматриваются 3 различные группы: tf-idf метрика, векторное представление слов и биграммы. Также, оценена эффективность морфологических и стилистических признаков, выделенных для улучшения качества классификации. Проведено сравнение с результатами других работ, основанных на наборе данных CLEF/eRisk 2017.
DOI: http://dx.doi.org/10.5220/0006598604260431
PDF сборника трудов на сайте ИУСА-2018: http://2018.icsa-conf.ru/wp-content/uploads/2018/06/Труды-ИУСА-2018-электронный-сборник.pdf
Станкевич М. А., Исаков В. А., Девяткин Д. А., Смирнов И. В. Построение классификационных моделей для задачи обнаружения депрессии у пользователей социальных сетей // В сборнике: Информатика, управление и системный анализ Труды V Всероссийской научной конференции молодых ученых с международным участием. 2018. С. 237-246.