使用scrapy框架对csdn热榜前100的标题热词爬虫,并且统计关键词词频。注意一下,该项目是2021年10月开发,如果页面有变动,xpath需要稍微调整。
2021-11-15 17:02:55 60KB scrapy 爬虫 jieba关键词提取 selenium
1
以下是关于小说的中文词频统计 这里有三个文件,分别为novel.txt、punctuation.txt、meaningless.txt。 这三个是小说文本、特殊符号和无意义词
2021-11-12 20:13:02 108KB 中文词频 统计 Python
1
读取文件中的英语文章,用c++实现对文件的读取,从而统计不同单词个数,最后用堆排序,实现频率从大到小的排列,结果写入文件
2021-11-11 16:57:50 7KB 读取文章 实现统计排序
1
美国语料库5000词频列表,虽然不比20000的,但是真的全部掌握了也差不多够用了。
2021-11-10 10:25:25 193KB 英语 单词
1
(1)词频统计软件 a.从文本中读入英文数据; b.不区分大小写,去除特殊字符; c.统计每个单词的个数; d.根据单词的个数进行排序; e.输出词频最高的 N个单词和个数
2021-11-09 17:11:12 14.64MB 结对编程 C# 大学实验课
主要介绍了Python实现统计英文文章词频的方法,结合实例形式分析了Python针对英文单词频率统计的相关原理、实现方法及具体操作技巧,需要的朋友可以参考下
2021-11-07 15:41:21 47KB Python 统计 英文文章 词频
1
import re import numpy as np import pandas as pd import nltk.tokenize as tk import nltk.corpus as nc handel_file = 'health_handel.csv' #分词好要保存的数据文件路径 #读取数据 data=pd.read_excel('health.xlsx') print(data.head(10)) stopwords = nc.stopwords.words('english') #停用词 tokenizer=tk.WordPunctTokenizer() #分词器
2021-11-04 21:22:31 513KB 健康 分词 词性标注
1
美国当代英语语料库COCA词频20000 高频2W,pdf格式, 研究语言的人可以参考下。
2021-11-02 00:16:54 14.75MB pdf
1
搜狗标准词库词典,txt格式,不含词频
2021-10-28 22:05:08 3.74MB 词典,nlp,搜狗
1
作者:刘邵博 版本:v1 此词典为个人综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。 词典结构为:词语\t词性\t词频词频是用ansj分词对270G新闻语料进行分词统计词频获得。 本人感觉需要特别说明的是词典整理过程中存在部分词汇无法确定是什么词性,对词性进行特别标注:nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。 注:此资源为转载网络资源,我发现其他很多都需要收费,所以免费分享出来!同志们,生产资料共有共享万岁!
2021-10-25 18:09:37 22.96MB 中文 词库 分词词库 中文词库
1