确定性清洁机器人的基于模型的值迭代算法。 这段代码是值迭代算法的一个非常简单的实现,对于强化学习和动态规划领域的初学者来说,它是一个有用的起点。 确定性清洁机器人 MDP:清洁机器人必须收集用过的罐子,还必须为电池充电。 状态描述了机器人的位置,动作描述了运动的方向。 机器人可以向左或向右移动。 第一个 (1) 和最后 (6) 个状态是终止状态。 目标是找到一种最佳策略,以使任何初始状态的收益最大化。 这里是 Q-iteration(基于模型的值迭代 DP)。 参考:算法 2-1,来自: @book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}, 作者={Busoniu,Lucian 和 Babuska,Robert 和 De Schutter,Bart 和 Ernst,Damien}, 年={2010}, 出版商={CRC Pre
2021-06-18 10:14:57 5KB matlab
1
平行平面腔自再现膜的Fox-Li数值迭代解法的matlab代码,没有额外调用函数,全部在一个m文件运算,迭代次数可调,最后输出最后一次迭代的波模图形和所有迭代的叠加图形,也可以微调代码改变输出
2021-06-17 19:52:01 1KB Matlab 光学
1
数值计算方法中关于Newton迭代和弦截法解非线性方程的通用c++程序源代码
2021-06-17 10:45:43 2KB Newton迭代 弦截法 非线性方程 c++
1
20210616-天风证券-电气设备行业专题研究:从技术迭代和供需关系看铜箔板块投资机会.pdf
2021-06-17 09:03:35 947KB 行业
KMV的MATLAB的代码distance_to_default 该代码使用幼稚,直接和迭代的方法来求解1970年至2015年公司的违约距离和违约概率。该代码使用的数据可在链接中找到。 方法1:天真 DD = (log(E + F/F) + (annret − σV^2 /2)T)/(σV * sqrt(T)) 在哪里 - σV = (E/E+F) * σE + (F / E + F)*(0.05 + 0.25 * σE) - annret is the annual returns from the previous year 方法2:直接求解 等式1: E = V * N(d1) − exp(−r * T) + F * N(d2) 在哪里 - E is the market value of the firm’s equity - F is the face value of the firm’s debt - r is the instantaneous risk-free rate - N() is the cumulative standard normal distribu
2021-06-16 09:15:57 474KB 系统开源
1
我的博客《小网格环境下的迭代策略评估的价值计算以及python实现(可视化)》的配套源码,包括实现博客内的全部功能,有不懂的可以给我留言哦 博客链接 https://blog.csdn.net/Accelerato/article/details/90452638 压缩包里面的mufont.ttf是字体文件,解压在和代码想吐目录下就好
1
采用迭代函数系统算法,从外部输入参数,并根据参数不同生成多种分形图。
2021-06-14 14:52:15 26KB 分形,迭代函数系统
1
1.double my_sqrt(double c);求平方根 。 假设浮点数在计算机中按IEEE标准表示。而c是一个整的规格化浮点数。令 为c的尾数。使用如下的牛顿迭代格式: 请详细论证p,q的选取,实得仅使用三次迭代就能达到双精度浮点数(double)的精度。 2.unsigned my_sqrt(unsigned c);求整数平方根 。 使用牛顿迭代法求 。 3.double my_inverse(double c);求倒数 。 假设浮点数在计算机中按IEEE标准表示。而c是一个非零的规格化浮点数。令 为c的尾数。使用如下的牛顿迭代格式: 请详细论证p,q的选取,得出达到双精度浮点数(double)精度要求需要的迭代次数。 4.unsigned my_inverse(unsigned c);求模 的逆 。其中c为奇数。 使用牛顿迭代法求
2021-06-14 13:37:02 226KB 北邮 数值 符号计算
1
内含拉格朗日插值,牛顿迭代法和四阶龙格塔库程序
1
Gauss-Seidel迭代法
2021-06-11 18:03:13 758B Gauss-Seidel迭代法3
1