常规相似度测量方法的性能受到高维数据维数诅咒的严重影响,原因是稀疏维数和噪声维数之间的数据差异占据了很大一部分相似度,从而导致任何结果之间的差异。提出了一种基于归一化净格子空间的高维数据测量方法,将每个维的数据范围划分为几个区间,将不同维的分量映射到对应的区间上,只有相同或相邻区间的分量为了验证该方法,为验证该方法,使用了三种数据类型,并比较了七种常见的相似性测量方法。 实验结果表明,该方法的相对差异随维数的增加而增加,比常规方法高出约两个或三个数量级。此外,该方法在不同维度上的相似范围为[0,1 ],适合进行降维后的相似性分析。
2022-05-16 13:24:21 1.75MB high-dimensional data the curse of
1
高维数据的惩罚复合分位数回归,李玉杰, 胡涛,在不同的科学领域中, 经常会遇到厚尾的高维数据. 此时经典的最小二乘回归的结果将变的很差. 本文章考虑模型假设为线性模型时, 模型�
2022-05-08 14:32:24 280KB 首发论文
1
大数据-算法-高维数据子空间聚类算法研究.pdf
2022-05-05 14:05:17 1.97MB 算法 聚类 big data
大数据-算法-高维数据的降维理论及应用.pdf
2022-05-05 09:07:02 7.09MB big data 算法 文档资料
大数据-算法-高维数据的聚类方法研究.pdf
2022-05-05 09:07:02 6.37MB 算法 聚类 文档资料 big
大数据-算法-高维数据分析中的降维方法研究.pdf
2022-05-05 09:07:01 2.82MB big data 算法 数据分析
大数据-算法-高维数据集合索引技术.pdf
2022-05-05 09:07:00 2.26MB big data 算法 文档资料
大数据-算法-高维数据几何分析理论算法与应用研究.pdf
2022-05-05 09:06:59 5.69MB 算法 big data 文档资料
大数据-算法-高维数据索引及其查询处理技术研究.pdf
2022-05-05 09:06:59 5.94MB 文档资料 big data 算法
pyHSICLasso pyHSICLasso是希尔伯特·施密特(Hilbert Schmidt)独立标准套索(HSIC Lasso)的软件包,这是一种考虑了非线性输入和输出关系的黑匣子(非线性)特征选择方法。 HSIC Lasso可以看作是广泛使用的最小冗余最大相关性(mRMR)特征选择算法的凸变体。 HSIC套索的优势 可以有效地找到与非线性相关的特征。 可以找到非冗余功能。 可以获得全局最优的解决方案。 可以通过内核处理回归和分类问题。 功能选择 监督性特征选择的目标是找到负责预测输出值的输入特征子集。 通过使用它,您可以补充非线性输入和输出的依赖性,并且可以有效地计算高维问题的最优解。 通过针对数以千计的特征进行分类和回归的特征选择实验证明了其有效性。 在许多实际应用中,例如从微阵列数据中选择基因,文档分类和假体控制,在高维监督学习中寻找功能的子集是一个重要的问题。 安装
1