本文提出了结合主题和各主题下关键特征的文本相似度算法,目的在于更准确的挖掘被描述对象的近邻对象集。本文首先介绍卡方统检验特征统计法,并利用改进的卡方检验,计算训练集中已知主题的文本的特征;而后介绍了最小编辑距离算法、余弦相似度算法和杰卡德相似系数,在论证了主题对文本相似度的重要性后,又针对难提取主题的文本加以改进,最终提出了基于主题和特征的文本相似度算法;然后对各个算法在测试集上的相似度计算结果进行分析,证明本文提出的算法在速度和精确度上明显优于其他算法;最后将该算法应用于股票的概念股题材标注上,分析结果
2022-05-28 10:41:26 1MB 工程技术 论文
1
用ceemd分解信号IMF分量,用峭度相关原则筛选噪声,用样本熵进行特征提取
2022-05-28 10:11:16 61KB CEEMD 样本熵CEEMD 相关峭度 提取熵
hadoop之MapReduce实现二度好友算法,包含输入数据demo,完整运算代码,在windows10下成功运行,输出结果为cat hello:2,hadoop:2,mr:1,world:1类似。
1
主要实现winform窗体透明度及bitmap的使用。
2022-05-27 14:47:48 148KB winform透明度
1
算法复杂度——时间复杂度和空间复杂度.doc
2022-05-27 09:08:47 32KB 算法 文档资料
字符串相似度的计算及算法实现.doc
2022-05-26 14:07:36 126KB 算法 文档资料
一种相似度矩阵的社团挖掘算法.doc
2022-05-25 19:06:41 178KB 矩阵 算法 文档资料 线性代数
有关背离的描述,您可以查看: http://en.wikipedia.org/wiki/Kullback-Leibler_divergence
2022-05-25 09:02:47 656B matlab
1
经过人群调查得出适合于江淮地区人体舒适度指数公式及预报指标。综合利用T106数值预报产品和地面常规资料,采用MOS预报的方法和天气气候统计方法预报出气温、风速、日照等与舒适度指数有关的气象要素。研制了合肥市人体舒适度预报系统,该系统具有明显的地方特色,和客观实用,易于操作等特点。
2022-05-25 01:34:22 264KB 自然科学 论文
1
渗透测试整理,比较粗的颗粒度整理
2022-05-24 16:00:06 231KB 综合资源
1