上传者: 38617602
|
上传时间: 2021-03-14 19:24:10
|
文件大小: 1.31MB
|
文件类型: PDF
python 文本聚类分析案例说明摘要1、结巴分词2、去除停用词3、生成tfidf矩阵4、K-means聚类5、获取主题词 / 主题词团
说明
实验要求:对若干条文本进行聚类分析,最终得到几个主题词团。
实验思路:将数据进行预处理之后,先进行结巴分词、去除停用词,然后把文档生成tfidf矩阵,再通过K-means聚类,最后得到几个类的主题词。
实验说明:如何用爬虫获取数据可以参考其他博客,这里我们直接用一个周杰伦的歌词文本为例进行分析,把28条歌词聚成3个类。
摘要
实验源数据放在文件sourceData中,中间文件放在resultData中。
源文件:
结果:
1、结巴分词
直接上代码,