评估奖励
evaluating_rewards是一个用于比较和评估奖励函数的库。 随附的论文描述了在这个存储库中实现的方法。
入门
安装
要安装evaluating_rewards ,请克隆存储库并运行:
pip install evaluating_rewards/
要在开发人员模式下安装以便立即可以进行编辑:
pip install -e evaluating_rewards/
该软件包与 Python 3.6 及更高版本兼容。 不支持 Python 2。
计算 EPIC 距离
evaluating_rewards.analysis.dissimilarity_heatmaps.plot_epic_heatmap脚本提供了一个方便的前端来生成奖励模型之间 EPIC 距离的热图。 例如,要从论文中复制图 2(a),只需运行:
python -m evaluating_rewar
2023-03-29 11:40:46
260KB
Python
1