关键词提取是自然语言研究领域的基础和关键点,在很多领域都有广泛的应用。以本校图书馆提供的8045篇《红色中华》新闻为源数据,首先对数据进行数据清理,去除其中的噪声数据,然后对每篇新闻进行数据结构解析,在解析的基础上计算了词语的TFIDF权重、词位置权重、词性权重、词长权重和词跨度权重,综合考虑这些权重计算出词语的综合权重,以综合权重最大的前8个词语作为新闻的关键词。从准确度、召回率及F1值3个指标对改进算法、经典的TFIDF算法和专家标注进行对比,发现改进算法在3个指标上均优于经典的TFIDF算法,与专家标注比较接近,值得推广应用。
2022-03-06 15:04:53 1.61MB TFIDF; 词性; 词跨度; 词长;
1
特征驱动的关键词提取算法综述
2021-12-24 15:33:19 768KB 研究论文
1
首先我们来提取排名前十的热点话题。 因为话题并不等同于关键词,而更像是一些关键词的组合,所以像上面那样直接 提取关键词作为话题似乎并不科学。所以我们这里用LDA(隐含狄利克雷分布) 来进行文本主题抽取。 LDA 在主题模型中占有非常重要的地位,常用来文本分类。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以 将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取 出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。 机器学习的模型分为两种,一种是基于策略,即不能给出明确的数据分布的,一 种是基于模型,可以给出分布的形式,但是超参数不知道。kmeans,dbscan是 基于性能和密度的,基于策略寻找最优聚类方案,而PLSA和LDA是基于多项式 分布和狄利克雷分布的,基于参数迭代寻找最优聚类方案的。 来总结一下热点话题形成的特点和关键因素。 首先当然是微博大V发布和转发的消息会更容易成为热点话题,而从大V的用户 画像中可以看出来自北京、上海、广东等发达地区的大V数量更多,他们引起的 热点话题也就多。 其次是一条微博的转发量。转发量越多,自然话题变成热点话题的概率也就更 大。 还有就是各种重大节日和事件的发生。比如像是情人节,恋爱、感情就会变成热 点话题,而如果是奥运会开幕这种事件,运动员就会变成热点话题。热点话题是 随着时间和事件的发生决定的。 而关于工作、生活、学习之类的事情,其实一直都是热点话题,一直被人们所讨 论。 同时,男性和女性各自的热点话题也会有所差异。 以上就是我的微博大V数据分析报告。详细代码见ipynb文档。
2021-12-22 17:08:58 2.13MB python
python:2019新年贺词的词云制作以及基于TF-IDF的关键词提取-附件资源
2021-12-14 09:28:26 106B
1
DataVisualizerHack 我在#HackIllinois的骇客 动机-帮助用户在搜索时更好地理解评论。 简介-致力于分析yelp数据集中的评论,执行关键词提取,情感分析并生成词云,以更好地总结/可视化评论。 该系统的通用功能将使其可以与任何数据集一起使用。 脚步 - 您可以从下载数据集 设置并运行Elasticsearch。 处理数据集并为所需数据编制索引。 帮助程序脚本可以执行各种任务,例如-处理数据,从数据集中加载数据,关键字提取和情感分析,用于Elasticsearch批量处理的拆分数据,searchapi和flask服务器。 对于UI使用的引导程序 使用的外部API 用于高级文本分析的Alchemy API。 用户界面的引导程序。 烧瓶以RESTful方式服务请求。 ElasticSearch用于索引和搜索。 NLTK用于语言建模 输出为词云形式
2021-12-13 00:40:12 220KB Python
1
jieba分词器包含关键词提取(java版,可以使用scala调用)
2021-12-02 16:38:26 7.31MB jieba分
1
本资源采用scala代码来实现textTank,进行文本关键词的提取。
2021-11-30 10:57:08 4.29MB textRank
1
神策杯2018高校算法大师赛(中文关键词提取)第二名代码方案
2021-11-17 13:52:23 34.84MB Python开发-机器学习
1
使用scrapy框架对csdn热榜前100的标题热词爬虫,并且统计关键词词频。注意一下,该项目是2021年10月开发,如果页面有变动,xpath需要稍微调整。
2021-11-15 17:02:55 60KB scrapy 爬虫 jieba关键词提取 selenium
1
简易关键词提取,自动摘要代码,运行速度快
2021-11-13 14:02:12 24KB 关键词提取
1