简单搜索引擎的设计与实现,该搜索引擎可以搜索c:\documents\下从00.txt-31.txt的32个英文txt文件,采用空格作为分词技术,没有去掉虚词。-s为远程搜索,-l为本地搜索,远程搜索请确保系统安装了IIS并把32个文本文件按原名(00.txt-31.txt)放到c:\wwwroot下。 只是一个做着玩的小东西,用来体会一下TFIDF算法而已。 havefun.c0de4fun
2022-03-05 08:31:30 10.47MB 搜索引擎 TF IDF Search
1
kNN(k-nearest neighbors algorithm) 此专案以新闻分类进行kNN范例之实作 kNN Introduction: 最近鄰居法(KNN演算法,又譯K-近鄰演算法)是一種用於分類和回歸的無母數統計方法,KNN常用來做資料分類。 KNN是一種監督式學習(Supervised Learning),監督式學習需透過資料訓練出一個model,但KNN沒有做training的動作。 K為使用者自己定義的常數,KNN就是選擇離自己最近的K的鄰居(Data),之後觀察哪一種類別(Tag)的鄰居最多就將自己也當成該類別。 Input: 测试文章: 1.使用ETtoday新聞作為訓練集分類。 2.使用Jieba作為分詞,取出Top 100 Words 作為每篇文章的關鍵詞。 3.取出k=3個最近鄰居作為分類依據,此外對最近的第一個鄰居作為加權*2 Output:
2022-03-04 15:56:12 605KB news tf-idf cosine-similarity knn
1
LED驱动TF-A3控制软件下载.rar
2022-03-01 15:45:33 879KB LEd
1
tensorflow serving部署单模型,多模型,热更新,BERT部署
2022-03-01 11:15:51 945KB nlp bert tf-serving tensorflow模型部署
1
利用TF-IDF策略的中文文本分类算法比较,刘昕玥,王敬,本文基于TF-IDF特征选取方法,分别使用朴素贝叶斯、随机森林与支持向量机算法对中文文本语料库进行分类实验。实验表明,支持向量机
2022-02-24 20:56:18 538KB 首发论文
1
统计词频,和对文档进行分词处理,计算tf-idf值。
2022-02-12 12:12:48 1.2MB tf-idf
1
sdtf卡id读取工具
2022-02-07 12:53:39 462KB tf
1
在使用TF-IDF算法进行自然语言处理时,大家在处理文本时会首先进行切割,生成包含所有词的词典,但此时往往会有许多重复的词,这些词可能是经常使用的词,比如”的“,这样的词语太多会影响处理效果,因此需要去掉这些停用词在进行处理,在此提供停用词表!
2022-01-30 17:40:38 21KB TF-IDF 停用词
1
SD Formatter 对 SD/SDHC/SDXC 卡进行格式化的目的,就是为了最大限度地发挥 SD/SDHC/SDXC 卡的性能。对 SD/SDHC/SDXC 卡格式化时,我们不提倡使用操作系统附带的格式化工具,竭诚推荐使用该 SD Formatter。 通常,操作系统附带的格式化工具能够格式化包括 SD/SDHC/SDXC 卡在内的各种记录媒介,但不能确保 SD/SDHC/SDXC 卡的最优化,其性能有时往往低于使用 SD Formatter 时的性能。
2022-01-27 22:12:26 866KB SD TF 格式化 工具
1
在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TF-IDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高.
1