包含课题的python源码,实验报告以及测试数据。 对于给定文本库,用户提交检索关键词(例如: NBA, basket, ball),在文本库中查询与检索关键词最相关的 k 个文本(例如 k=5),并根据文本与检索关键词的相关度,对这 k 个文本进行排序,将排序后的结果返回给用户。 使用TF-IDF权值衡量关键词对于某篇文章的重要性,从而根据关键词挑选出相关性较高的文本。首先程序加载文本库,并对数据进行处理,用户输入一个或多个关键词,分别输出前五的各检索关键词的文本排序序列。
1
里面有TFIDF的实现过程,配有详细的注释
2021-05-06 23:34:10 2KB C# TFIDF
1
主要介绍了TF-IDF理解及其Java实现代码实例,简单介绍了tfidf算法及其相应公式,然后分享了Java实现代码,具有一定参考价值,需要的朋友可以了解下。
2021-05-02 15:34:38 226KB tf idf算法java实现 java实现tf idf
1
我的博客:TF-IDF原理及算法实现https://blog.csdn.net/weixin_34566605/article/details/106228012。该资源是有关中文文章的数据集,适合进行TF-IDF词频分析,数据集中的词已经用分词工具按空格切割过,可以直接使用,代码实现部分在博客中有写
2021-04-28 20:18:52 901KB TF-IDF
1
python实现knn、naive bayes、vsm、tf-idf模型。并包含数据集
2021-04-19 22:12:54 40.90MB python knn naive bayes
1
文本分类中计算文档中每一个词的tf-idf的值
2021-04-03 19:56:06 4KB tf-idf python
1
基于TF-IDF和SVM的恶意URL识别,莫玉力,亓峰,随着互联网尤其是移动互联网的快速发展,全球范围内出现了越来越多带欺诈和破坏性质的站点。本文通过分析URL的文本特征和站点特征,�
2021-03-23 15:09:52 454KB 网络安全
1
IK分词全名为IK Analyzer,是由java编写的中文分词工具包,目前在lucene以及solr中用的比较多,本系列的文章主要对ik的核心源码进行解析讲解配套的资源,http://blog.csdn.net/a925907195
2021-03-19 08:43:40 67.28MB IK TF IDF lucene
1
带词性和tf-idf词频统计小巧中文分词词库.rar
2021-03-16 17:00:20 772KB 带词性
1
在我的工作中自己总结完善的停用词词典,包含一些无意义的词语,短语等。通过剔除文章中的停用词,你可以大大减少LDA,TF-IDF等算法中词典的大小
2021-03-16 16:49:42 31KB LDA stopwords TF_IDF
1