Word2Vec和LDA
使用Word2Vec和LDA和Humır数据集进行文本分析(正负)的示例
通常,我们将经历4个主要步骤(我将按照自己的步骤添加这些步骤);
功能控制
特征创建
模型训练
选型
1)功能控制
我们快速探索将要使用的数据集的阶段;
读取数据
提供列名
以5个内容为例
学习行数和列数
学习有关数据集的一般信息(信息,描述)
一些列的内容中有多少个不同的值
分离我们不会在数据集中使用的数据
将数据集分离为训练和测试
在数据集的测试部分中学习信息
在数据集训练部分中学习信息
可视化正面和负面评论的数量
可视化注释中使用的单词的数字分布
评论和包含250个以上单词的评论中使用的最大,最小,平均单词数
浏览带有1、2、3个字的评论
2)特征创建
自然语言处理中通常的方法是先清除文本。 当两个不同的词表达相似的事物时,我们必须确保我们的模型理解相似性。 我
2022-09-04 21:55:16
254KB
Python
1