强化学习
-
2026年春江苏开放大学强化学习形考作业3答案
一、2026年春江苏开放大学强化学习形考作业3单选题答案 1、DQN中用到的技巧有()。 A、目标网络、利用 、经验回放 B、目标网络、探索、经验回放 C、Q网络、利用 、经验回放 D、V网络、探索 、经验回放 正确答案:B 2、基于策略的方法(Policy-based Methods)与值函数方法(Value-based Methods)最主要的区别是: …
-
2026年春江苏开放大学强化学习形考作业1答案
一、2026年春江苏开放大学强化学习形考作业1单选题答案 1、在最优控制理论中,贝尔曼方程的作用是什么? A、确定初始状态的策略 B、描述动态规划中递归地求解最优值函数的方法 C、预测环境的变化趋势 D、计算每个状态的即时奖励 正确答案:B 2、价值函数可以这样理解()。 A、有一种价值函数:Q 函数。Q 函数里面包含两个变量:状态和动作。 B、…