特征降维能够有效地提高机器学习的效率,特征子集的搜索过程以及特征评价标准是特征降维的两个 核心问题 。综述国际上关于特征降维的研究成果 ,总结并提出了较完备的特征降维模型定义 ; 通过列举解决特 征降维上重要问题的各种方案来比较各种算法的特点以及优劣 ,并讨论了该方向上尚未解决的问题和发展 趋势。
1
现有过滤型特征选择算法并未考虑非线性数据的内在结构,从而分类准确率远远低于封装型算法,对此提出一种基于再生核希尔伯特空间映射的高维数据特征选择算法。首先基于分支定界法建立搜索树,并对其进行搜索;然后基于再生核希尔伯特空间映射分析非线性数据的内部结构;最后根据数据集的内部结构选择最优的距离计算方法。对比仿真实验结果表明,该方法与封装型特征选择算法具有接近的分类准确率,同时在计算效率上具有明显的优势,适用于大数据分析。
1
高维数据聚类 (HDDC) 工具箱包含用于高维数据的高效无监督分类器。 该分类器基于适用于高维数据的高斯模型。 参考:C. Bouveyron、S. Girard 和 C. Schmid,高维数据聚类、计算统计和数据分析,2007 年
2022-09-17 16:48:22 40KB matlab
1
高维数据子空间聚类算法研究.pdf
2022-07-12 14:08:03 892KB 文档资料
人工智人-家居设计-高维数据可视化研究及在商业智能中的应用.pdf
2022-07-09 18:02:51 1.48MB 人工智人-家居
T-SNE可视化高维数据
2022-07-05 12:05:49 2KB T-SNE可视化高维数据
Note:由房价预测例子的学到,用Stacking的思维来汲取两种或者多种模型的优点 ipython的代码和数据集在我的GitHub中,链接在下面,下面的代码是在pycharm里运行的,差别不大。 #Step 1: 检视源数据集 import numpy as np import pandas as pd from sklearn.linear_model import Ridge from sklearn.model_selection import cross_val_score from sklearn.ensemble import RandomForestRegressor imp
2022-06-17 15:08:54 131KB kaggle le 分类
1
常规相似度测量方法的性能受到高维数据维数诅咒的严重影响,原因是稀疏维数和噪声维数之间的数据差异占据了很大一部分相似度,从而导致任何结果之间的差异。提出了一种基于归一化净格子空间的高维数据测量方法,将每个维的数据范围划分为几个区间,将不同维的分量映射到对应的区间上,只有相同或相邻区间的分量为了验证该方法,为验证该方法,使用了三种数据类型,并比较了七种常见的相似性测量方法。 实验结果表明,该方法的相对差异随维数的增加而增加,比常规方法高出约两个或三个数量级。此外,该方法在不同维度上的相似范围为[0,1 ],适合进行降维后的相似性分析。
2022-05-16 13:24:21 1.75MB high-dimensional data the curse of
1
高维数据的惩罚复合分位数回归,李玉杰, 胡涛,在不同的科学领域中, 经常会遇到厚尾的高维数据. 此时经典的最小二乘回归的结果将变的很差. 本文章考虑模型假设为线性模型时, 模型�
2022-05-08 14:32:24 280KB 首发论文
1
大数据-算法-高维数据子空间聚类算法研究.pdf
2022-05-05 14:05:17 1.97MB 算法 聚类 big data