抑郁症被认为是造成全球残疾的最大原因,也是自杀的主要原因。 它会影响书面文本中反映的语言使用情况。 我们研究的主要目标是检查Reddit用户的帖子,以发现任何可能揭示相关在线用户的抑郁态度的因素。 为此,我们采用自然语言处理(NLP)技术和机器学习方法来训练数据并评估我们提出的方法的效率。 我们确定在沮丧帐户中更常见的术语词典。 结果表明,我们提出的方法可以显着提高性能精度。 最好的单一功能是使用支持向量机(SVM)分类器的双字母组,可以以80%的准确度和0.80 F1的分数检测抑郁症。 多层感知器(MLP)分类器最成功地证明了组合特征(LIWC + LDA + bigram)的强度和有效性,从而使抑郁症检测的顶级性能达到91%的准确度和0.93 F1分数。 根据我们的研究,可以通过选择适当的特征及其多个特征组合来实现更好的性能改进。
1