高中位数 您是否知道没有数学方法将的概念扩展到更高维度的独特方法? 高维中位数存在各种定义,并且此Python软件包提供了这些定义的许多快速实现。 中值因其高的击穿点(高达50%的污染)而非常有用,并且在机器学习,计算机视觉和高维统计中有许多不错的应用。 该软件包当前具有和实现,并支持使用NaN丢失数据。 安装 软件包的最新版本始终在可用,因此可以通过键入以下命令轻松安装: pip3 install hdmedians 类固醇 给定一个有限集 的 维观测向量 ,类 这些观察结果由 medoid的当前实现是在矢量化Python中实现的,可以处理支持的任何数据类型。 如果您希望算法处理编码为nan的缺失值,则可以使用nanmedoid函数。 例子 创建一个6 x 10的随机整数观测值数组。 >>> import numpy as np >>> X = np.random.randin
1
我们目前正处于一场数据革命之中。在科学、健康甚至日常生活中产生的海量和不断增长的数据集将影响社会的许多领域。许多这样的数据集不仅大,而且是高维的,每个数据点可能包含数百万甚至数十亿个数字。以成像为例,一张图像可能包含数百万个或更多的像素;一段视频可能很容易包含10亿个“体素”。为什么在高维空间学习具有挑战性,这是有根本原因的(“维度诅咒”)。跨越信号处理、统计和优化的一个基本挑战是在高维数据集中利用低维结构。低维信号建模推动了理论和应用领域的发展,从医学和科学成像,到低功耗传感器,再到生物信息学数据集的建模和解释,这只是其中的一小部分。然而,大量的现代数据集带来了额外的挑战:随着数据集的增长,数据收集技术变得越来越不受控制,经常会遇到严重错误或恶意破坏,以及非线性。传统的技术在这种情况下完全崩溃,需要新的理论和算法。 为了应对这些挑战,在过去的二十年里,高维空间中低维结构的研究取得了爆炸性的发展。在很大程度上,代表性低维模型的几何和统计性质(如稀疏和低秩及其变体和扩展)现在已经被很好地理解。在何种条件下,这些模型可以有效地和高效地从(最小数量的抽样)数据恢复已经明确的特征。为了从高维
2022-06-13 11:06:01 89.87MB 人工智能
常规相似度测量方法的性能受到高维数据维数诅咒的严重影响,原因是稀疏维数和噪声维数之间的数据差异占据了很大一部分相似度,从而导致任何结果之间的差异。提出了一种基于归一化净格子空间的高维数据测量方法,将每个维的数据范围划分为几个区间,将不同维的分量映射到对应的区间上,只有相同或相邻区间的分量为了验证该方法,为验证该方法,使用了三种数据类型,并比较了七种常见的相似性测量方法。 实验结果表明,该方法的相对差异随维数的增加而增加,比常规方法高出约两个或三个数量级。此外,该方法在不同维度上的相似范围为[0,1 ],适合进行降维后的相似性分析。
2022-05-16 13:24:21 1.75MB high-dimensional data the curse of
1
This book brings together methodological concepts, computational algorithms, a few applications and mathematical theory for high-dimensional statistics.
2021-11-13 22:55:41 8.51MB Statistics
1
ppmlhdfe :具有多个固定效应水平的泊松伪似然回归 当前版本: 2.2.0 02aug2019 跳转到: 另请参见: | | | | | ppmlhdfe是一种Stata软件包,可实现具有多重固定效应的Poisson拟最大似然回归(PPML),如。 由于在开发了程序,因此所采用的估计器对于统计分离和收敛问题具有鲁棒性。 最近更新 2.2版02aug2019:由于提高了IRLS加速度(请参见)以及更快地进行了分离检查,从而大大提高了速度。 2.1版04apr2019:增加了实验。 对于Poisson模型,它不像其他GLM那样有用,因此默认情况下已关闭。 您可以通过包含选项use_step_halving(1)来启用它。 您可以设置的其他选项是step_halving_memory(0.9)和max_step_halving(2) (括号中的默认值)。 引文 (在此处下载Bib
1
datamicroarray:小样本,高维微阵列数据集的集合,用于评估机器学习算法和模型
2021-09-23 21:04:59 90.52MB machine-learning r cancer high-dimensional-data
1
High-Dimensional Data Analysis with Low-Dimensional Models-.pdf
2021-06-10 10:13:14 65.34MB DataAnalysis
1
深入浅出的介绍了流形学习的主要方法,强烈推荐
2021-03-19 15:04:40 64.72MB big data machine learning
1
This paper proposes a new method to weight subspaces in feature groups and individual features for clustering high-dimensional data. In this method, the features of high-dimensional data are divided into feature groups, based on their natural characteristics. Two types of weights are introduced to the clustering process to simultaneously identify the importance of feature groups and individual features in each cluster. A new optimization model is given to define the optimization process and a ne
2021-02-20 20:09:53 963KB 研究论文
1
This paper presents a Crotch Ensemble classification model for high dimensional data. A Crotch Ensemble is obtained from a decision cluster tree built by calling a clustering algorithm recursively. A crotch is an inner node of the tree together with its direct children. If the children of a crotch h
2021-02-20 20:09:19 640KB 研究论文
1