自杀情绪分析
使用的算法:准确性(运行代码仅使用准确性测试数据)
逻辑回归
随机森林
支持向量机
纳维·贝叶斯(Navie Bayes)提出的方法论
通过Kaggle网站( 获得的数据集正向推文通过Git中心存储库获得的负向推文正向推文标记为0负向推文标记为1余额数据集创建了5000条积极的推文5000条负面的推文
数据预处理
删除了推文中的URL和标点符号
代币化
抽干-抽干机PorterStemmer
词法分解-使用的词法分解器是WordNetLemmatizier
收集词和词法后,收集唯一的单词(指定代码中使用的函数名称)
使用代码中提到的功能删除停用词删除停用词后,唯一词
删除较少的频率词删除较少的频率词后的字数
特征提取去除频率较低的单词后,通过去除数字来形成新列表2使用了方法
CountVectorizer(定义公式)用于将唯一和频繁的单词转换为矢量
在删除频率较低的单
1