注意:因为学习平台题目是随机,选择题选项也是随机,一定注意答案对应的选项,同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目,还是不懂的话可以看这个:快速答题技巧
一、2026年春江苏开放大学强化学习形考作业3单选题答案
1、DQN中用到的技巧有()。
A、目标网络、利用 、经验回放
B、目标网络、探索、经验回放
C、Q网络、利用 、经验回放
D、V网络、探索 、经验回放
正确答案:B
2、基于策略的方法(Policy-based Methods)与值函数方法(Value-based Methods)最主要的区别是:
A、基于策略的方法直接优化策略,而值函数方法通过估计状态或状态-动作值来间接优化策略
B、基于策略的方法依赖于奖励函数,而值函数方法不依赖于奖励函数
C、基于策略的方法只在离散空间中有效,而值函数方法在连续空间中有效
D、基于策略的方法只能应用于强化学习中,而值函数方法可以应用于监督学习
正确答案:A
3、REINFORCE算法的主要缺点是:
A、它依赖于即时奖励来更新策略
B、它是基于值的方法,而不是基于策略的方法
C、它具有高方差,训练过程中可能不稳定
D、它不能处理连续的动作空间
正确答案:C
4、Actor-Critic算法中的”Actor”和”Critic”各自的作用是什么?
A、Actor负责选择动作,Critic负责计算价值函数并评估Actor的策略
B、Actor负责计算奖励,Critic负责选择最佳动作
C、Actor负责计算值函数,Critic负责选择动作
D、Actor和Critic共同负责选择最优奖励
正确答案:A
5、DDPG算法是()算法和()算法的结合。
A、DPG AC
B、DP AC
C、Sarsa Q-learning
D、AC Q-learning
正确答案:A
6、以下说法是否正确:为了保证强化学习的训练效果,需要打破训练样本数据之间的相关性。
A、正确
B、错误
正确答案:A
7、以下说法是否正确:强化学习的数据存在马尔可夫性,满足训练神经网络需样本独立同分布的假设前提。
A、正确
B、错误
正确答案:B
8、DDPG算法一共有()个神经网络。
A、1
B、2
C、3
D、4
正确答案:D
9、确定性策略梯度算法(DPG)的核心思想是什么?
A、通过最大化当前状态的Q值来选择最优动作
B、通过最小化策略的损失函数来更新策略
C、直接通过策略梯度优化确定性策略的参数
D、通过生成随机动作来更新策略
正确答案:C
10、在REINFORCE算法中,策略更新是如何进行的?
A、通过贪心选择来更新策略
B、通过最大化当前状态的价值函数来更新策略
C、使用策略的梯度与回报的乘积来更新策略
D、使用Q值来直接更新策略参数
正确答案:C
二、2026年春江苏开放大学强化学习形考作业3多选题答案
1、DQN的经验回放会构建一个回放缓冲区,每个经验的形式包括以下内容:()。
A、某个状态st
B、在st采取的动作at
C、得到的奖励rt
D、下一步采取的动作at+1
E、进入的下一状态st+1
正确答案:A;B;C;E
2、DQN算法是基于()算法,结合了价值函数近似与神经网络技术,并采用目标网络和()等方法进行网络训练。
A、深度学习的SarsA、B、当前网络
C、深度学习的Q-learning
D、经验回放
未经授权,禁止转载,发布者:形考达人
,出处:https://www.xingkaowang.com/32221.html
免责声明:本站不对内容的完整性、权威性及其观点立场正确性做任何保证或承诺!付费为资源整合费用,前请自行鉴别。
免费答案:形考作业所有题目均出自课程讲义中,可自行学习寻找题目答案,本站内容可作为临时参考工具,但不应完全依赖,建议仅作为辅助核对答案的工具,而非直接使用!