针对词向量文本分类模型记忆能力弱, 缺少全局词特征信息等问题, 提出基于宽度和词向量特征的文本分类模型(WideText): 首先对文本进行清洗、分词、词元编码和定义词典等, 计算全局词元的词频-逆文档频度(TF-IDF)指标并将每条文本向量化, 将输入文本中的词通过编码映射到词嵌入矩阵中, 词向量特征经嵌入和平均叠加后, 和基于TF-IDF的文本向量特征进行拼接, 传入到输出层后计算属于每个分类的概率. 该模型在低维词向量的基础上结合了文本向量特征的表达能力, 具有良好的泛化和记忆能力. 实验结果表明, 在引入宽度特征后, WideText分类性能不仅较词向量文本分类模型有明显提升, 且略优于前馈神经网络分类器.
2022-01-07 09:59:39 995KB Word2Vec FastText WideText 文本分类
1
支持向量机是一种在统计学习理论的基础上发展而来的机器学习方法[1],通过学习类别之间分界面附近的精确信息,可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以使类与类之间的间隔最大化,因而有较好的泛化性能和较高的分类准确率。由于支持向量机具有小样本、非线性、高维数、避免局部最小点以及过学习现象等优点,所以被广泛运用于故障诊断、图像识别、回归预测等领域。
2022-01-07 08:53:06 208KB 自动测试系统
1
煤与瓦斯危险性的准确预测一直是矿山安全领域的关键技术难题和重大研究课题。支持向量机是在瓦斯预警中广泛使用的一种技术,以统计学习理论和支持向量机为基础,通过研究基于模糊支持向量机的多类分类方法,对原算法进行改进,采用模糊多类支持向量机,并构造模糊隶属函数,同时使用序列最小最优化算法进行求解,以期提高算法的精度和速度。
2022-01-04 14:17:29 506KB 行业研究
1
颜色是一种重要的视觉信息属性,与纹理、形状等其他图像特征相比,颜色特征非常稳定,对于旋转、平移、尺度变化,甚至各种形变都不敏感,表现出相当强的鲁棒性。同时,由于颜色特征的计算相对简单,因此成为现有基于内容的检索系统中应用最广泛的特征。常用的颜色特征组织形式有一阶直方图方法[1]、累计直方图法[2]、颜色矩[2]方法、颜色对直方图法[3,4]、颜色相关向量法(Color Coherence Vector,CCV)[5]以及具有不变性的颜色特征[6]等等,其中直方图是最常用的组织形式。颜色直方图通过计算不同颜色所包含的像素数目来反映颜色的统计特性,通过测量颜色直方图之间的相似性达到图像检索的目的。根据直方图所在的颜色空间的不同,研究者常常使用RGB颜色直方图和HSV颜色直方图。基于直方图的算法归纳起来,是对颜色的统计信息进行描述和度量,既没有反映颜色的位置信息,也没有反映颜色的结构信息,因此在应用上存在着固有的缺陷。而传统的颜色相关向量法虽然可以反映颜色的结构信息,但是其计算量大,并且无法反映位置信息,所以也难以广泛使用。近年来,随着研究的不断深入,许多基于颜色特征的新方法也不断涌现。
1
互联网已经成为现代生活中不可或缺的一部分,网络上的信息量也在以数倍的速度快速增长。无论是企事业单位,学校,或者科研院校等等机构中,都积累了非常多的资料,这些资料绝大多数都以文档的形式存在。所以,如何将数以万计且排序混乱的文本信息,按照一定的规则和形式进行统一的管理,以达到方便使用和管理的目的成为了一个不得不去解决的问题。本文就是在SVM,即支持向量机方法的基础上,设计了一个中文文本分类系统。介绍了系统的需求分析,并对系统进行了详细设计,从概念的初始化设计到之后的详细设计,实现了基于SVM的中文文本分类系统的最终目的,达到了设计要求。
1
支持向量机多类分类算法新研究.pdf
2022-01-01 12:01:29 364KB 分类算法 数据结构 算法 参考文献
传感器节点定位是无线传感器网络领域应用的研究热点之一。 本文提出了一种基于改进的支持向量机的大规模无线传感器网络定位算法。 对于大规模无线传感器网络,基于支持向量机的定位算法面临着大规模学习样本的问题。 大规模的训练样本将导致训练的负担重,计算,过度学习和分类准确性低。 为了解决这些问题,本文提出了一种新颖的规模化的训练样本约简方法(FCMTSR)。 FCMTSR以训练样本为点集,通过分析点与集之间的关系,得到潜在的支持向量,并去除混合的非边界离群数据。为减少计算量,在模型中采用了模糊C均值聚类算法。 FCMTSR。 通过FCMTSR,可以减少训练时间并提高定位精度。 通过仿真,评估了基于FCMTSR-支持向量机的定位性能。 实验结果表明,与不带FCMTSR的支持向量机的现有定位算法相比,该算法的定位精度提高了2%,训练时间减少了55%。 支持FCMTSR的向量机定位算法还可以有效解决边界问题和覆盖漏洞。 最后,讨论了所提出的定位算法的局限性,并提出了今后的工作。
2021-12-31 14:18:46 1.25MB Wireless sensor networks localization
1
repDNA:Python包,通过结合用户定义的理化特性和序列顺序效应来生成DNA序列的各种特征向量模式
2021-12-31 01:28:34 87KB 研究论文
1
SIMD 基准测试 测试基本矩阵和向量运算与其 SIMD 对应物的相对性能。 每个操作的时间平均超过 10000 次运行。 使用随机单精度浮点数的 4x4 矩阵或 4D 向量。 对 AVX 128 位 (XMM) 和 256 位 (YMM) 寄存器执行的单独计算。 AVX2/FMA3(128 位)指令集(融合乘加)需要 Intel Haswell CPU 。 所有操作都经过了相当大的优化。 SIMD 矩阵乘法使用线性组合方法。 在带有 Intel i5-4278u 2.6 GHz 双核 Haswell CPU 的 2014 rMBP 上进行测试。 操作系统:在 VMWare Fusion 7 上运行的 Windows 8.1。 使用 MSVC++ 2012 编译: x64 mode 、 /arch:AVX 、 /fp:Fast 通过__rdtsc()在 CPU 时钟周期中计时。 (也可以
2021-12-30 21:26:05 10KB C++
1
约束优化算法实现SVM 约束优化算法概述 阅读文章前,我希望你应该知道约束优化问题的KKT条件,KKT条件能够给出一组方程,并且是最优解的必要条件,在这些解里做遍历并用二阶条件判断是一种解决问题的方式,但对一些并不容易计算的非线性方程组和hessian矩阵,这种方法并不高效。因此我们来介绍一些简单的解决一般约束优化问题的算法。 支持向量机算法推导 Python实现 import numpy as np import random from copy import deepcopy from matplotlib import pyplot as plt 这里使用0.1的起始γ,
2021-12-30 20:39:16 402KB 优化 支持向量机 最优化
1