关键词提取是诸多文本挖掘任务的前置任务,其精度直接影响了下游任务的性能。 以中文专利为研究对象,针对专利文本的特点,将关键词提取问题转换成词向量聚类问题,提出了一种基于cw2vec词向量的关键词提取方法,称为KEC。该方法首先利用科技文献的关键词以及开源词典构建领域词典;接着,基于领域词典对专利文本进行预处理获取候选关键词,并采用构建cw2vec模型获得候选关键词的词向量表示;最后,采用聚类算法提取最终的关键词。在真实的专利数据集上进行了实验验证,结果表明KEC在精确率、召回率、综合指标F1等指标项上优于现有的其他基于词聚类的关键词提取方法
2021-04-30 17:03:00 1.29MB 中文专利 词向量 关键词提取
1
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。
2021-04-30 17:02:54 1.21MB 语义 文本特征 分层聚类
1
提出一种基于随机森林和转导推理的特征提取方法, 步骤如下: 1)利用带标签的训练样本建立随机森林模型; 2) 将无标签的测试数据导入随机森林模型中,生成全体数据(训练样本和测试数据)的相似性矩阵; 3)对该相似性矩阵进行 多维尺度变换得到全体数据的低维数据表示,即低维特征,使得原高维数据在低维空间中具有更好的可分性. UCI 数据 库的实验结果表明: 与主成分分析方法相比, 该方法将无标签测试集的数据分布信息转移到相似性矩阵中,更好地刻画 整个样本空间上的数据分布特性,从而提高分类器的性能,是一种行之有效的特征提取方法. 最后还讨论了特征提取维 数对模型准确率的影响,为实际应用提供参考.
2021-04-27 12:09:17 357KB 随机森林 特征提取
1
6种常用纹理特征提取方法:LBP、GLCM、GLDS、GMRF、Gabor等 纹理特征的提取分为基于结构的方法和基于统计数据的方法。一个基于结构的纹理特征提取方法是将所要检测的纹理进行建模,在图像中搜索重复的模式。
2021-04-14 20:44:26 223KB matlab
1
介绍文本分类中特征提取方法的比较与分析,信息增益、卡方等方法
2021-04-08 21:30:48 479KB 文本分类
1
针对测试环境下偏振光分布模式复杂,特征点发散造成最小二乘法拟合太阳子午线时精度降低的问题,提出了一种基于Hough变换的太阳子午线提取方法。搭建了偏振光分布模式测试系统,利用Stokes矢量原理得到偏振光方位角分布模式,通过设置特征阈值获取太阳子午线特征区域。使用Canny算子检测特征区域边缘,运用Hough变换检测边缘直线方向,结合对称性分布关系获取太阳子午线方位角。通过测试实验,对比分析了所提方法与最小二乘法的测量精确度。实验结果表明,在特征阈值为3
2021-04-07 10:32:49 10.91MB 大气光学 航向角 太阳子午 Hough变换
1
针对双折射太阳敏感器多光斑和重叠光斑问题,提出一种基于椭圆拟合的高精度光斑中心提取方法。对多光斑图像进行预处理,分割出不同的目标区域;通过检测目标区域的光斑形状特征后,迅速分辨并分割重叠光斑;利用椭圆拟合法分别提取各光斑的中心坐标。仿真结果表明该方法能快速分辨重叠光斑,计算出光斑数量和半径,实现圆形和椭圆形光斑的亚像素级中心坐标提取。这种方法对光斑大小、数量没有限制,对不完整光斑也能得到较好的结果。
2021-04-06 10:37:44 5.44MB 图像处理 中心提取 多光斑 重叠光斑
1
是JPEG隐写检测的经典算法,用matlab实现
2021-04-03 21:06:39 5KB JPEG隐写检测
1
适用于字符识别,数字识别以及车牌识别的特征提取方法,采用多种方法相结合的方式,提高识别率。
2021-04-03 13:59:42 583KB 特征提取 字符识别 结合法
1
自然语言处理,关键词提取,机器学习,人工智能,深度学习
2021-04-03 09:25:40 10KB 自然语言处理
1