上传者: 38565818
|
上传时间: 2022-03-15 13:07:50
|
文件大小: 279KB
|
文件类型: -
与上一篇文章相同之处
对于交易策略,与上一篇文章相同,当发出买入指令时,一次性全部买入;当发出卖出指令时,一次性全部卖出。还没有添加加减仓操作。
模型仍然用的是DQN模型。
新增内容
在之前的基础上加入了交易手续费、印花税等。
在强化学习这个领域中,reward函数是一个需要精心设计的函数。目前暂时没有好的reward设计思路,但还是修改了之前的reward函数。(其实之前的reward的设计也是错的)
首先将第二天的股票价格的涨跌幅当做reward。
reward =(self.trend[self.t + 1] - self.trend[self.t]) / self.trend[self