MatlabRobustNonlinLsq:健壮的非线性最小二乘法的MATLAB函数
2022-04-19 11:55:20 146KB matlab lsq outliers robust
1
给定数据点的列向量 X,此函数创建两个向量,一个包含非异常值 Y,另一个包含异常值 out。 用户可以选择两种不同的方法之一,Grubbs的检验统计量或四分位间距法。 用户还可以选择去除异常值时的严格程度。 在这两种方法中,严格程度与参数 alpha 呈负相关(即 alpha 越高,识别和删除的异常值越少)。
2022-03-18 10:43:16 2KB matlab
1
给定一个样本,该例程会查找异常值并返回在输入向量中标识它们的索引。 该例程允许指定临界概率(alpha,默认值为 0.01 = 1%),可以管理 NaN,并且默认情况下,它使用对异常值具有鲁棒性的统计数据(双权重),因为样本均值和标准偏差不是。 如果需要,还会创建一个显示数据值和异常值的图。 测量不确定性(第一部分,ASME PTC 19.1 1998)推荐使用修正的 Thompson's Tau 来区分一组重复测量中的异常值。 像往常一样,建议的 alpha 从 0.1(表示所有中等可疑的异常值)到 0.01(仅表示较大的可疑值)甚至更小(允许甚至非常大的值并仅表示较大的值)。 要获得您正在寻找的结果,您可以调整 alpha; 否则,如果预计数据非常偏斜,则必须使用另一个测试或通过非线性变换来变换数据。 已实现的版本可以使用或不使用统计工具箱,但在最后一种情况下,alpha 的值
2021-10-21 18:25:56 4KB matlab
1
皮诺玛利 PyNomaly是LoOP(局部异常值)的Python 3实现。 LoOP是Kriegel,Kröger,Schubert和Zimek提出的基于局部密度的离群值检测方法,可提供[0,1]范围内的离群值,这些分数可直接解释为样本是离群值的概率。 每个样本的离群值称为本地离群值概率。 它测量给定样本相对于其邻居的密度的局部偏差作为局部离群值因子(LOF),但提供范围为[0,1]的归一化离群值。 这些离群值可直接解释为对象成为离群的概率。 由于本地异常值提供的评分范围为[0,1],因此从业人员可以根据应用程序自由解释结果。 像LOF一样,它是局部的,异常分数取决于样本相对于周围邻域的隔离程度。 局部性由k个最近的邻居给出,其距离用于估计局部密度。 通过将样本的局部密度与其邻域的局部密度进行比较,可以识别出与邻域相比密度较低的区域中的样本,从而根据其局部离群概率来识别离群的样本。
1
这篇论文是Breunig于2000年发表在Proc. ACM SIGMOD 2000 Int. Conf. On Management of Data的关于LOF算法的经典论文,需要了解该算法的同学可以详细读一读。
2021-07-03 17:50:16 221KB LOF算法 异常检测 论文 机器学习
1
分类客户流失 在这里,使用数据集对客户是否流失进行分类。 使用数据集EDA已完成。 在执行此操作时,我们将 使用iqr和z-scores方法处理outliers 使用backward elimination功能进行特征选择 目录 入门 该可在Kaggle上使用,可在创建该笔记本的相同环境中使用,即使用所使用的相同版本的软件包等。 EDA 相关矩阵 计数图(数据集的不平衡程度) 模型表现 不同模型的交叉验证分数 学习曲线 混淆矩阵,无归一化 执照 APACHE许可,版本2.0
2021-07-03 12:00:00 1.48MB eda kaggle classification outliers
1