现在,全球已进入互联网时代,在各个领域都能收集到丰富多样的数据信息.通过对这些数据信息的处理,可以更加丰富,具体的描述客观对象,帮助人们找到事物的本质规律,以致做出正确的判断与措施来提高社会资源利用率.但在实际问题应用中,这些海量的高维数据之间往往存在大量冗余.因此,如何对这些数据进行处理,找到数据之间的内在联系,已成为人们日益关注的问题.传统的主成分分析方法是很受欢迎的处理高维数据的降维工具,但其提取的主成分的元素大都是非零的,这就很难去解释主成分对应的具体特征是什么.稀疏主成分分析是在主成分分析的基础上得到的提取稀疏主成分的算法.但稀疏主成分分析是线性分类工具,不能处理非线性数据,故本文将其与核函数结合得到了稀疏核主成分分析方法.文章主要分以下三个方面叙述.1.介绍了一些相关的范数定义,主成分分析(PCA),核主成分分析(KPCA),交替方向法(ADM),矩阵收缩法.此外,本文还总结了稀疏主成分分析算法的七种优化模型.2.稀疏主成分分析(SPCA)的目的是提取一些原始数据变量的线性组合并且这些组合在稀疏的同时尽可能多地保留原来的信息.本文考虑了测量方差的2L和L_1范数,诱导稀疏的L_0和L_1范数,以及约束和惩罚两种用途得到新的两种SPCA最优模型.然后将这两种模型与交替方向法结合得到了新的稀疏主成分分析方法.并在人工数据和真实数据上做了实验,最终证明了算法的有效性.3.由于生活中的数据大都是非线性的,因此本文根据主成分分析向核主成分分析推广的思想,将稀疏主成分分析与核函数结合,得到了稀疏核主成分分析算法(SKPCA).在实验部分,本文分别使用了30个省市的农民家庭消费状况数据和二维人工生成样本数据来进行实验仿真.实验证明,这种方法可以有效的提取非线性数据的稀疏主成分.
1