上传者: 38746442
|
上传时间: 2022-03-15 16:37:57
|
文件大小: 72KB
|
文件类型: -
思路:
1.读取所有文章标题;
2.用“结巴分词”的工具包进行文章标题的词语分割;
3.用“sklearn”的工具包计算Tf-idf(词频-逆文档率);
4.得到满足关键词权重阈值的词
结巴分词详见:结巴分词Github
sklearn详见:文本特征提取——4.2.3.4 Tf-idf项加权
import os
import jieba
import sys
from sklearn.feature_extraction.text import TfidfVectorizer
sys.path.append(../)
jieba.load_userdict('userdictTest.t