影响个人信用的因素很多。 将套索技术引入个人信用评估,分别建立套索逻辑,套索支持向量机和组套索逻辑模型。 变量选择和参数估计也同时进行。 根据某贷款平台的个人信用数据集,可以通过实验得出结论,与全变量Logistic模型和逐步Logistic模型相比,Group Lasso-Logistic模型的变量选择能力最强,其次是套索物流和套索SVM。 这三个基于套索变量选择的模型都具有比逐步选择更好的过滤能力。 同时,组套索逻辑模型可以消除或保留相关的虚拟变量作为一个组,以方便模型解释。 在预测准确性方面,Lasso-SVM在训练集中对默认用户的预测准确性最高,而在测试集中,Group Lasso-logistic对默认用户的分类准确性最高。 无论是在训练集中还是在测试集中,套索逻辑模型对于非默认用户都具有最佳分类精度。 基于套索变量选择的模型还可以更好地筛选出影响个人信用风险的关键因素。
1
由于神经网络很容易实现从输入空间到输出空间的非线性映射,因此,神经网络应用者往往未考虑输入变量和输出变量之间的相关性,直接用神经网络来实现输入变量与输出变量之间的黑箱建模,致使模型中常存在冗余变量,并造成模型可靠性和鲁棒性差。提出一种透明化神经网络黑箱特性的方法,并用它剔除模型中的冗余变量。该方法首先利用神经网络释义图可视化网络;再利用连接权法计算神经网络输入变量的相对贡献率,判断其对输出变量的重要性;最后利用改进的随机化测验对连接权和输入变量贡献率进行显着性检验,修剪模型,并以综合贡献度和相对贡献率均不显着的输入变量的交集为依据,剔除冗余变量,实现NN模型透明化及变量选择。实验结果表明,该方法增加了模型的透明度,选择出了最佳输入变量,剔除了冗余输入变量,提高了模型的可靠性和鲁棒性。因此,该研究为神经网络模型的透明化及变量约简提供了一种新的方法。
1
用于变量选择的自举软收缩 (BOSS) 方法
2021-12-17 10:12:54 1.55MB matlab
1
之字形回旋镖 概述 马尔可夫链蒙特卡罗(MCMC)方法用于从概率分布中进行采样,例如贝叶斯模型中的后验分布。 在ZigZagBoomerang.jl中实现的分段确定性蒙特卡洛(PDMC)方法具有相同的目标,不同的是,此处的分布是通过粒子的连续运动而不是一次移动一个点来进行探索的。 在此,粒子在随机时间改变方向,并在确定性轨迹上移动(例如,沿着恒定速度的直线,请参见图片) 校准随机方向的变化,以使粒子的轨迹采样正确的分布; 从轨迹可以估算出感兴趣的量,例如后均值和标准差。 是否改变方向的决定仅需要评估偏导数,该偏导数依赖于很少的坐标-坐标在马尔可夫毯子中的邻域。 这样就可以使用Julia的多线程并行性(或其他形式的并行计算)来利用多个处理器内核。 约里斯·比尔肯(Joris Bierken)的“以及我们关于话语是ZigZagBoomerang.jl所涵盖方法的理论和应用的良好起点。
1
一种称为变量迭代空间收缩方法 (VISSA) 的变量选择方法。 参考资料:邓登峰,尹玉华,梁玉中,易建中,一种使用加权二进制矩阵抽样迭代优化变量空间的新颖变量选择方法,《分析》,第139期,2014年,第4836-4845页。
2021-12-10 14:32:31 995KB matlab
1
多元标定中基于变量空间连续收缩的混合变量选择策略https://doi.org/10.1016/j.aca.2019.01.022 近红外光谱多元分析中的变量选择方法概述https://doi.org/10.1016/j.trac.2019.01.018 在本研究中,我们提出了一种基于变量空间连续收缩的混合变量选择策略,这是变量组合种群分析(VCPA)的核心思想。 基于VCPA的混合策略在第一步中不断地将变量空间从大到小收缩,并在修改后的VCPA的基础上进行优化。 然后,它采用迭代保留信息变量 (IRIV) 和遗传算法 (GA) 在第二步中进行进一步优化。 它充分利用了 VCPA、GA 和 IRIV,弥补了它们在变量数量多时的不足。 三个 NIR 数据集和三个变量选择方法,包括两种广泛使用的方法(竞争性自适应重加权采样、CARS 和遗传算法-区间偏最小二乘法、GA-iPLS)和一种混
2021-11-17 14:42:38 788KB matlab
1
岭回归分析0 载入库1 数据预处理2 普通线性回归和岭回归2.1 最小二乘法,参数估计2.2 岭回归,参数估计,固定岭参数2.3 岭回归,按 CV 标准自动选择岭参数2.4 列举岭参数的值,计算回归参数,画出岭迹图,计算 VIF 0 载入库 载入 sklearn 模块中的线性回归与岭回归的函数 import numpy as np import matplotlib.pyplot as plt import pandas as pd np.set_printoptions(suppress=True) #不用科学计数法输出 from sklearn.linear_model import Li
2021-11-06 13:06:09 160KB alpha 变量 回归
1
部分线性模型的adaptive group lasso变量选择,牛银菊,,本文对部分线性模型的aglasso (adaptive group lasso)参数估计及变量选择进行研究。构造了aglasso惩罚最小二乘估计,研究了在一定条件下估计�
2021-10-30 15:15:32 408KB 首发论文
1
变量(波长或特征)选择技术已成为分析具有大量变量和相对较少样本的数据集的关键步骤。 在这项研究中,提出了一种新的变量选择策略,即变量组合种群分析(VCPA)。 该策略由两个关键程序组成。 首先,采用指数递减函数(EDF),这是达尔文自然进化论“适者生存”的一个简单有效的原则,用于确定变量的数量,以保持并不断缩小变量空间。 其次,在每次 EDF 运行中,二元矩阵抽样 (BMS) 策略为每个变量提供相同的选择机会并生成不同的变量组合,用于生成子集总体以构建子模型总体。 然后,采用模型总体分析(MPA)来寻找交叉验证均方根误差(RMSECV)较低的变量子集。 计算每个变量出现在最好的 10% 子模型中的频率。 频率越高,变量越重要。 使用三个真实的 NIR 数据集研究了所提出程序的性能 结果表明,与四种高性能变量选择方法相比,VCPA 是一种很好的变量选择策略:遗传算法 - 偏最小二乘法 (GA
2021-10-17 21:55:10 12.43MB matlab
1
sure independence screening 的matlab代码。
2021-10-14 11:14:10 10KB SIS变量选择
1