【转发】【引用】【论文】随着计算机技术的发展和普及,计算机病毒带来的危害日趋严重。传统 N-Gram 算法难以提取不同长度的特征,导致有效特征缺失,并产生庞大的特征集合,造成空间的浪费。针对这些问题,提出一种改进的基于 N-Gram 的特征码自动提取方法。该方法在原有 N-Gram 特征才是取算法的基础上引入变长 N-Gram 特征,才是取不同长度的有效特征,生成不定长病毒特征码。综合考虑特征频率的相关性,利用特征浓度对 N-Gram 特征进行有向筛选,生成数据字典,节省存储空间。实验结果表明,与羊纯使用定长 N-Gram 的算法相比,该方法能有效降低特征码自动提取的误报率。
1