角斗士词频分级词库txt文本格式,共二十级约1万8的词汇量。可以方便的编辑和导入其他背单词软件。绝对是背单词的不可多得的好词库。
2021-06-30 15:09:54 289KB 角斗士 词频 分级 词库
1
基于Hadoop2.2.0的词频统计的例子。包含一个大概十万以上单词的测试数据文件。重写了Partitioner和Combiner,供学习之用。 访问博文 http://blog.csdn.net/zythy/article/details/17852579 以查看详细讲解。
2021-06-29 16:59:47 151KB Hadoop MapReduce Partitioner Combiner
1
搜狗输入法官网上的所有细胞词典,截止到2020年5月20号,并且转换为txt形式。有需要的同学自取。共11104个。 搜狗输入法官方词库地址:https://pinyin.sogou.com/dict/cate/index/1
2021-06-25 09:49:19 99.16MB 搜狗词典 搜狗细胞词库
1
对语料进行词频统计,计算每个词出现的频数,统计出所有词的总数,求和
2021-06-23 16:33:35 943KB entropy
1
用于文件出现频率统计和分析
2021-06-23 09:05:32 2.32MB 词频分析工具
1
bilibili弹幕分析,包含爬虫、词云分析、词频分析、情感分析、构建衍生指标,可视化 **** **主要依赖库** > selenium > pandas > lxml > json > requests > pyecharts > jieba > snownlp > wordcloud **信息爬取**   1.1 爬取bilibili某一个分区(可通过url定义)特定日期下按照视频热度降序排序的视频信息,包含:href、视频时长、名称、BV号、播放量、弹幕数、up主、up主id   1.2 通过BV号获取视频评论Cid,解析xml网页,简单获取各个视频的弹幕内容(注意:条数有限制,xml的弹幕条数不超过1000条)   1.3 通过up主id,获取up主在爬取时的粉丝数,此粉丝数可以精确到个位数   1.4 通过BV好获取视频评论Cid,获取详细的弹幕内容,包括:弹幕出现时间、弹幕模式、字号、弹幕颜色、弹幕池、发送者加密id、弹幕id **数据分析--词云**   2.1 全区弹幕词云分析,可以通过自己编写剔除单字、去除停用词、调整分词模型进行优化   2.2 分频道弹幕词云分析 **数据分析--弹幕条数**   3.1 分析全区弹幕前十视频,使用pyecharts柱状图进行可视化   3.2 分析各频道平均/最高视频弹幕数 **数据分析--指标构建**   构建指标:互动指数:弹幕数 / 播放量 * 100               粉丝响应指数:up主粉丝数 / 播放量   4.1 全区互动指数最高前十视频   4.2 各频道最高/平均互动指数   4.3 全区粉丝响应指数最高前十视频   4.4 各频道最高/平均粉丝响应指数 **数据分析--情感分析**   5.1 分析全区所爬取的所有视频的所有弹幕的情感分布情况,获取总体情感指数印象   5.2 分析各个视频的情感分析,对每一条弹幕进行情感分析,输出弹幕的情感分析指数Excel表   5.3 分析各个频道的情感分析指数分布图
2021-06-22 19:18:59 25.68MB bilibili 词云分析 爬虫 词频分析
通过python及其jieba三方库,筛选关键词,整合《红楼梦》人物出场排名,也可整合《红楼梦》词汇使用情况,从而分析《红楼梦》的角色戏份及用语习惯。
2021-06-22 19:14:29 2KB python jieba
1
本篇文章主要介绍了python jieba分词并统计词频后输出结果到Excel和txt文档方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
2021-06-22 10:15:22 61KB python jieba分词 python jieba词频统计
1
这可以用来做词频词云分析素材。分析红楼梦中人物出场频率,前八十回和后四十回的风格有什么差异,是不是曹雪芹一人完成。
2021-06-21 14:56:19 2.52MB 词频词云分析素材
1
分类词频是文本分析中非常重要的内容。本资源把常用的分类词收集起来,方便大家在做文本分析时使用。有了本资源,大家可以提高文本分析的效率
2021-06-19 17:48:27 2.12MB 汉语预料,分类词频
1