针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。
2021-04-30 17:02:54 1.21MB 语义 文本特征 分层聚类
1
提出一种基于随机森林和转导推理的特征提取方法, 步骤如下: 1)利用带标签的训练样本建立随机森林模型; 2) 将无标签的测试数据导入随机森林模型中,生成全体数据(训练样本和测试数据)的相似性矩阵; 3)对该相似性矩阵进行 多维尺度变换得到全体数据的低维数据表示,即低维特征,使得原高维数据在低维空间中具有更好的可分性. UCI 数据 库的实验结果表明: 与主成分分析方法相比, 该方法将无标签测试集的数据分布信息转移到相似性矩阵中,更好地刻画 整个样本空间上的数据分布特性,从而提高分类器的性能,是一种行之有效的特征提取方法. 最后还讨论了特征提取维 数对模型准确率的影响,为实际应用提供参考.
2021-04-27 12:09:17 357KB 随机森林 特征提取
1
6种常用纹理特征提取方法:LBP、GLCM、GLDS、GMRF、Gabor等 纹理特征的提取分为基于结构的方法和基于统计数据的方法。一个基于结构的纹理特征提取方法是将所要检测的纹理进行建模,在图像中搜索重复的模式。
2021-04-14 20:44:26 223KB matlab
1
介绍文本分类中特征提取方法的比较与分析,信息增益、卡方等方法
2021-04-08 21:30:48 479KB 文本分类
1
是JPEG隐写检测的经典算法,用matlab实现
2021-04-03 21:06:39 5KB JPEG隐写检测
1
适用于字符识别,数字识别以及车牌识别的特征提取方法,采用多种方法相结合的方式,提高识别率。
2021-04-03 13:59:42 583KB 特征提取 字符识别 结合法
1
概述 语音识别是当前人工智能的比较热门的方向,技术也比较成熟,各大公司也相继推出了各自的语音助手机器人,如百度的小度机器人、阿里的天猫精灵等。语音识别算法当前主要是由RNN、LSTM、DNN-HMM等机器学习和深度学习技术做支撑。但训练这些模型的第一步就是将音频文件数据化,提取当中的语音特征。 MP3文件转化为WAV文件 录制音频文件的软件大多数都是以mp3格式输出的,但mp3格式文件对语音的压缩比例较重,因此首先利用ffmpeg将转化为wav原始文件有利于语音特征的提取。其转化代码如下: from pydub import AudioSegment import pydub def MP3
2021-03-26 10:41:32 104KB python python函数 方法
1
基于2-D Gabor滤波器的光学定穴体表特征提取方法
2021-03-17 20:12:41 1.13MB 研究论文
1
一种新型的铜浮选泡沫图像局部光谱特征提取方法
2021-02-24 18:05:16 1.12MB 研究论文
1
这是MATLAB程序(带测试程序); 思路很清楚的; 提取图像特征采用ZerNike不变矩
2021-01-04 16:30:30 1KB ZerNike;不变矩
1