关键提取是自然语言研究领域的基础和关键点,在很多领域都有广泛的应用。以本校图书馆提供的8045篇《红色中华》新闻为源数据,首先对数据进行数据清理,去除其中的噪声数据,然后对每篇新闻进行数据结构解析,在解析的基础上计算了语的TFIDF权重、位置权重、性权重、长权重和跨度权重,综合考虑这些权重计算出语的综合权重,以综合权重最大的前8个语作为新闻的关键。从准确度、召回率及F1值3个指标对改进算法、经典的TFIDF算法和专家标注进行对比,发现改进算法在3个指标上均优于经典的TFIDF算法,与专家标注比较接近,值得推广应用。
2022-03-06 15:04:53 1.61MB TFIDF; 词性; 词跨度; 词长;
1
以中国知网学术期刊网络出版总库中2003―2012年的水资源学科核心期刊论文为基础,采用Bibexcel统计关键频次,采用Ucinet和Netdraw绘制共网络,运用SPSS进行共聚类分析与多维尺度分析,研究高频关键之间的内在联系,评述水资源学科的研究热点与研究现状。 研究结果表明,水资源学科在研究过程中形成了水资源可持续利用、社会可持续、水资源系统和水资源管理四大类群体,并且四者之间具有较强的关联性。
2022-03-05 20:22:16 1005KB 工程技术 论文
1
ROUGE 2.0 ROUGE 2.0是用于自动汇总任务的易于使用的评估工具包。 它使用度量标准系统,该系统通过将自动生成的摘要或翻译与一组参考摘要(通常是人为生成的)进行比较来工作。 ROUGE是计算自动生成的摘要的有效性的标准方法之一。 要了解ROUGE的工作原理,请。 产品特点 最新版本的ROUGE 2.0支持以下功能: 评估ROUGE-N(字母,二元组,三元组等) 评估ROUGE-L(总水平LCS) 对ROUGE-S和ROUGE-SU的评估(带有单字的跳字和跳字) 一次性评估多个ROUGE指标 不同语言的干 使用可自定义的停用删除停用 unicode文本的评估(例如波斯
2022-03-05 10:40:09 226.81MB java nlp metrics evaluation
1
《Global Positioning System_Theory and Applications》这本书相信研究过GPS的都了解吧,号称GPS中的经典,蓝宝书。 1. 英文PDF,可取。 2. 分为上下册,第一册800来页;第二册660多页。 3. 有书签,很清晰
2022-03-03 22:03:14 35.57MB GPS
1
如下所示: #!/usr/bin/python2.6 # -*- coding: utf-8 -*- import time class Node(object): def __init__(self): self.children = None # The encode of word is UTF-8 def add_word(root,word): node = root for i in range(len(word)): if node.children == None: node.children = {} node.chil
2022-03-01 10:49:08 52KB python python算法 敏感词
1
作为爬虫小白,代码偏向简单,大佬勿喷~ 本次使用语言:Python 本次使用库:requests、wordcloud、jieba 思路 通过尝试,在网页版微博死活找不出文本url(可能是能力有限),在移动端微博找到了,所以推荐大家爬取移动端微博数据。 移动端微博网址:https://m.weibo.cn/ 1.此次爬取的是“方方”的文本,进入开发者模式,找到名为”getIndex…“的接口。可以看到Preview里有id和text。 2.进入此url,发现没有中文text,对此疑惑不解。搜索id发现有多个匹配,推断id为微博的编号。 此外,在url后加上”&page=”可以实现翻页。 3.
2022-02-27 20:56:55 1.04MB 实战 数据 爬虫
1
据说是百度屏蔽的敏感.意思就是很有可能百度会因为这个,而对用户不展示你的内容
2022-02-26 15:29:24 70KB 敏感词
1
毕业典礼朗诵.doc
2022-02-25 14:04:14 25KB 资料
日语修订版第一册单(含例全).docx
2022-02-25 14:02:56 161KB 事业编
闲的没事学着用Python做了一个爬弹幕的,然后可以生成云,做着玩。。。想要就拿走吧。。。好麻烦啊,为什么CSDN摘要必须大于五十字
2022-02-24 20:40:33 163KB B站弹幕 爬虫 词云 快速
1