本文来自于csdn,本文中通过探讨状态空间的利用和探索,来进行人工智能中的强化学习。在有监督学习(supervisedlearning)中,训练数据中包含了数据样本的目标。不过现实中可没有上帝一样的监督者给出这些目标或答案!强化学习(reinforcementlearning)是人工智能(AI)的一个重要分支,它也是DeepMind的阿尔法狗(AplhaGo)得以实现的一块基石。在强化学习中,虽然没有现成的答案,但是代理(agent)仍然必须决定如何行动(action)来完成它自己的任务。在没有训练数据的情况下,代理从经验中学习。它通过反复的试错来收集训练样本(“这个动作很好,那个动作很糟糕”
1