思路: 1.读取所有文章标题; 2.用“结巴分词”的工具包进行文章标题的词语分割; 3.用“sklearn”的工具包计算Tf-idf(词频-逆文档率); 4.得到满足关键词权重阈值的词 结巴分词详见:结巴分词Github sklearn详见:文本特征提取——4.2.3.4 Tf-idf项加权 import os import jieba import sys from sklearn.feature_extraction.text import TfidfVectorizer sys.path.append(../) jieba.load_userdict('userdictTest.t
2022-03-15 16:37:57 72KB jieba python3 tf-idf
1
NULL 博文链接:https://java--hhf.iteye.com/blog/2181919
2022-02-27 15:16:45 5.15MB 源码 工具
1
flask-ponywhoosh:Flask全文搜索引擎
2022-02-11 21:08:59 3.77MB python search-engine flask whoosh
1
这是我的jieba库的压缩包,有需要的可以直接下载,已经安装完毕的,解压可以直接用。拿走不谢哈哈,希望你们安装成功,不要被这种小事情伤脑筋呀。
2022-02-09 20:45:01 35.09MB python
1
jieba-0.42.1.tar.gz下载 jieba-0.42.1.tar.gz下载 jieba-0.42.1.tar.gz下载
2022-01-17 11:54:26 18.32MB jieba 分词
1
分析三国演义和红楼梦,进行中文分词,统计人物出场频次,生成词云图。分享给广大python爱好者学习交流。
2022-01-08 22:54:06 10.73MB python wordcloud jieba
1
jieba分词jieba分词jieba.NET-master.zip
2021-12-29 20:29:44 5.13MB jieba jieba分词 C#
1
最新版本的开源jieba分词java版本,有关键词提取功能!!
2021-12-28 23:24:01 7.37MB 主题提取 最新版本
1
文件内包含 jieba 百度60万+分词词库(带词性权重和不带词性权重的文件各一份),附带停用词词库,词性和权重由机器学习等技术手段生成,持续优化中,欢迎私信提供宝贵意见。
2021-12-27 16:04:54 5.78MB python nlp jieba 分词
前段时间奉俊昊的《寄生虫》在奥斯卡上获得不少奖项,我也比较喜欢看电影,看过这部电影后比较好奇其他人对这部电影的看法,于是先用R爬取了部分豆瓣影评,jieba分词后做了词云了解,但是如果不登录豆瓣直接爬取影评只可以获得十页短评,这个数据量我认为有点少,于是整理了python模拟登录豆瓣,批量爬取数据,制作特别样式词云的方法。 一、 用到的Python库 import os ##提供访问操作系统服务的功能 import re ##正则表达式 import time ##处理时间的标准库 import random ##使用随机数标准库 import requests ##实现登录 import n
2021-12-22 08:27:28 847KB jieba python 豆瓣
1