针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。
2021-04-30 17:02:54 1.21MB 语义 文本特征 分层聚类
1
Matlab特征提取代码 实现7中特征提取
2021-04-29 16:18:58 487KB Matlab
1
为了快速准确地识别轴承故障,研究了轴承振动信号时域特征和小波包能量特征提取方法,通过实验分析最终选择的轴承故障特征为无量纲时域特征和小波包能量特征,并采用"一对多"支持向量机分类算法对轴承的正常、外圈故障、内圈故障和滚动体故障四类数据进行了故障诊断实验,诊断准确率为96%。
2021-04-28 20:29:54 542KB 行业研究
1
数字图像形状特征提取canny算法源程序,可以运行,已经检验无误,非常简明。可读性强。
2021-04-28 17:49:25 71KB canny C++
1
共三篇论文,包括了adabooost算法检测人脸,并提出了快速定位人脸五官定位算法,供大家参考学习。
2021-04-28 17:39:51 623KB 人脸检测 特征提取
1
详细介绍文本数据的四种表示模型,以及常见的6种文本数据的特征选择方法。
2021-04-27 14:43:31 492KB 机器学习 文本特征 特征提取
1
matlab植物背景分离RGB和HSV特征提取案例,包括详细的代码资料和讲解注释
2021-04-27 13:44:02 26KB matlab 植物背景分离 特征提取
1
提出一种基于随机森林和转导推理的特征提取方法, 步骤如下: 1)利用带标签的训练样本建立随机森林模型; 2) 将无标签的测试数据导入随机森林模型中,生成全体数据(训练样本和测试数据)的相似性矩阵; 3)对该相似性矩阵进行 多维尺度变换得到全体数据的低维数据表示,即低维特征,使得原高维数据在低维空间中具有更好的可分性. UCI 数据 库的实验结果表明: 与主成分分析方法相比, 该方法将无标签测试集的数据分布信息转移到相似性矩阵中,更好地刻画 整个样本空间上的数据分布特性,从而提高分类器的性能,是一种行之有效的特征提取方法. 最后还讨论了特征提取维 数对模型准确率的影响,为实际应用提供参考.
2021-04-27 12:09:17 357KB 随机森林 特征提取
1
脉搏波信号时域特征提取与算法的研究,脉搏波提取,脉率计算
1
基于偏最小二乘(PLS)的田纳西伊士曼(TEP)故障检测,包含已经处理过的TEP(田纳西伊士曼过程)数据,可直接运行程序,附有详细说明!数据包括正常建模数据和测试数据两部分,适合故障检测与诊断,大数据分析,特征提取方向的研究人员,也可以以此为基础进行扩展性研究!