搜索引擎 爬虫 python实现 scrapy+jieba+whoosh,具体看我的blog scrapy分布式爬虫+jieba+whoosh实现搜索引擎
2021-07-19 16:39:55 17.01MB 爬虫 搜索引擎 jieba+whoosh
1
机器学习算法中自然语言处理常用数据集(新闻数据集news.csv)及jieba_dict字典、停用词等相关文件,包括以下文件 data/news.csv jieba_dict/dict.txt.big jieba_dict/stopwords.txt jieba_dict/stopwords_s.txt
2021-07-19 15:41:33 3.94MB 新闻数据集 自然语言处理数据集
1
统计《水浒传》常用词语使用频率,且对于频率高的无效词语或无意义词语做停用词处理,对于不同称谓的同一对象需要能做同一化处理。
2021-07-13 16:04:40 793KB python 词频
1
中文停用词表, 哈工大停用词表, 百度停用词表, 四川大学机器智能实验室停用词库四份停用词表进行了合并去重
2021-07-10 09:10:01 16KB 数据分析 jieba分词 情感分析
1
列举出常用的汉字3550个,还有生僻字
2021-07-10 09:10:01 12KB jieba分词 评论分析 情感分析
1
最新的TensorFlow 中文数据集 基于 jieba 的中文处理工具 模型训练,模型保存,模型估计的完整实现
爬取豆瓣影评、清洗、jieba分词、做词云图 本程序主要分为3个过程。 1、抓取网页数据 使用Python爬虫技术获取豆瓣电影中最新上映电影的网页,其网址如下: https://movie.douban.com/cinema/nowplaying/qingdao/ 正在上映的电影 每个电影的ID和名称 通过其HTML解析出每部电影的ID号和电影名,获取某ID号就可以得到该部电影的影评网址,形势如下: https://movie.douban.com/subject/26900949/comments https://movie.douban.com/subject/26871938/comments 其中,26900949、26871938就是电影《天使陷落》、《灭绝》的ID号,这样仅仅获取了20哥影评,可以指定开始号start来获取更多影评,例如: https://movie.douban.com/subject/26900949/comments?start=40&limit=20 这意味着获取从第40条开始得20个影评。 2、清理数据 通常将某部影评信息存入eachCommentList列表中。为便于数据清理和词频统计,把eachCommentList列表形成字符串comments,将comments字符串中的“也”“太”“ 的”等虚词(停用词)清理掉后进行词频统计。 3、用词云进行展示 最后使用词云包对影评信息进行词云展示。
2021-06-23 19:07:33 9.91MB jieba 清洗 词云图 豆瓣影评
通过python及其jieba三方库,筛选关键词,整合《红楼梦》人物出场排名,也可整合《红楼梦》词汇使用情况,从而分析《红楼梦》的角色戏份及用语习惯。
2021-06-22 19:14:29 2KB python jieba
1
本篇文章主要介绍了python jieba分词并统计词频后输出结果到Excel和txt文档方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
2021-06-22 10:15:22 61KB python jieba分词 python jieba词频统计
1
python_情感分析基于jieba库,测试python3可直接运行,只需要jieba库,io库和numpy库,这三个基础库,就可以完成python的情感分析
2021-06-21 20:07:43 258KB python_情感分析基于jie
1