随机梯度下降的稳定性和最优性
这是正在进行的论文的方法和算法的随附代码实现。
维护者
Dustin Tran < >
参考
弗朗西斯·巴赫 (Francis Bach) 和埃里克·穆林 (Eric Moulines)。 收敛速度为 O(1/n) 的非强凸平滑随机近似。 神经信息处理系统的进展,2013 年。
杰罗姆·弗里德曼、特雷弗·哈斯蒂和罗伯特·蒂布希拉尼。 通过坐标下降的广义线性模型的正则化路径。 统计软件杂志,33(1):1-22, 2010。
瑞·约翰逊和张彤。 使用预测方差减少加速随机梯度下降。 神经信息处理系统的进展,2013 年。
大卫·鲁珀特。 来自缓慢收敛的 robbins-monro 过程的有效估计。 技术报告,康奈尔大学运筹学和工业工程,1988 年。
魏旭。 使用平均随机梯度下降实现最优的一次通过大规模学习。 arXiv 预印本 , 2011。
2021-12-11 18:47:04
34KB
R
1