针对传统机器学习方法不能有效地提取恶意代码的潜在特征,提出了基于栈式自编码(stacked auto encoder,SAE)的恶意代码分类算法。其次从大量训练样本中学习并提取恶意代码纹理图像特征、指令语句中的隐含特征;在此基础上,为提高特征选择对分类算法准确性的提高,将恶意代码纹理特征以及指令语句频度特征进行融合,训练栈式自编码器和softmax分类器。实验结果表明,基于恶意代码纹理特征以及指令频度特征,利用栈式自编码分类算法对恶意代码具有较好的分类能力,其分类准确率高于传统浅层机器学习模型(随机森林、支持向量机),相比随机森林的方法提高了2.474%,相比SVM的方法提高了1.235%。
1