2026年春江苏开放大学强化学习形考作业3答案

注意:因为学习平台题目是随机,选择题选项也是随机,一定注意答案对应的选项,同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目,还是不懂的话可以看这个:快速答题技巧

一、2026年春江苏开放大学强化学习形考作业3单选题答案

1、DQN中用到的技巧有()。

A、目标网络、利用 、经验回放

B、目标网络、探索、经验回放

C、Q网络、利用 、经验回放

D、V网络、探索 、经验回放

正确答案:B

2、基于策略的方法(Policy-based Methods)与值函数方法(Value-based Methods)最主要的区别是:

A、基于策略的方法直接优化策略,而值函数方法通过估计状态或状态-动作值来间接优化策略

B、基于策略的方法依赖于奖励函数,而值函数方法不依赖于奖励函数

C、基于策略的方法只在离散空间中有效,而值函数方法在连续空间中有效

D、基于策略的方法只能应用于强化学习中,而值函数方法可以应用于监督学习

正确答案:A

3、REINFORCE算法的主要缺点是:

A、它依赖于即时奖励来更新策略

B、它是基于值的方法,而不是基于策略的方法

C、它具有高方差,训练过程中可能不稳定

D、它不能处理连续的动作空间

正确答案:C

4、Actor-Critic算法中的”Actor”和”Critic”各自的作用是什么?

A、Actor负责选择动作,Critic负责计算价值函数并评估Actor的策略

B、Actor负责计算奖励,Critic负责选择最佳动作

C、Actor负责计算值函数,Critic负责选择动作

D、Actor和Critic共同负责选择最优奖励

正确答案:A

5、DDPG算法是()算法和()算法的结合。

A、DPG AC

B、DP AC

C、Sarsa Q-learning

D、AC Q-learning

正确答案:A

6、以下说法是否正确:为了保证强化学习的训练效果,需要打破训练样本数据之间的相关性。

A、正确

B、错误

正确答案:A

7、以下说法是否正确:强化学习的数据存在马尔可夫性,满足训练神经网络需样本独立同分布的假设前提。

A、正确

B、错误

正确答案:B

8、DDPG算法一共有()个神经网络。

A、1

B、2

C、3

D、4

正确答案:D

9、确定性策略梯度算法(DPG)的核心思想是什么?

A、通过最大化当前状态的Q值来选择最优动作

B、通过最小化策略的损失函数来更新策略

C、直接通过策略梯度优化确定性策略的参数

D、通过生成随机动作来更新策略

正确答案:C

10、在REINFORCE算法中,策略更新是如何进行的?

A、通过贪心选择来更新策略

B、通过最大化当前状态的价值函数来更新策略

C、使用策略的梯度与回报的乘积来更新策略

D、使用Q值来直接更新策略参数

正确答案:C

二、2026年春江苏开放大学强化学习形考作业3多选题答案

1、DQN的经验回放会构建一个回放缓冲区,每个经验的形式包括以下内容:()。

A、某个状态st

B、在st采取的动作at

C、得到的奖励rt

D、下一步采取的动作at+1

E、进入的下一状态st+1

正确答案:A;B;C;E

2、DQN算法是基于()算法,结合了价值函数近似与神经网络技术,并采用目标网络和()等方法进行网络训练。

A、深度学习的SarsA、B、当前网络

C、深度学习的Q-learning  

D、经验回放

剩余内容需解锁后查看

您需要付费解锁才能查看当前内容

黄金VIP黄金VIP免费
已付费?登录刷新

禁止转载未经授权,禁止转载,发布者:形考达人黄金VIP,出处:https://www.xingkaowang.com/32221.html

免责声明:本站不对内容的完整性、权威性及其观点立场正确性做任何保证或承诺!付费为资源整合费用,前请自行鉴别。

免费答案:形考作业所有题目均出自课程讲义中,可自行学习寻找题目答案,本站内容可作为临时参考工具,但不应完全依赖,建议仅作为辅助核对答案的工具,而非直接使用!

(0)
上一篇 2026年2月27日 下午5:59
下一篇 2026年3月14日 下午4:23

相关推荐

  • 2026年春江苏开放大学强化学习形考综合大作业答案

    一、2026年春江苏开放大学强化学习形考综合大作业单选题答案 1、在强化学习过程中,学习率越大,表示采用新的尝试得到的结果比例越(),保持旧的结果的比例越() A、大,小 B、大,大 C、小,大 D、小,小 正确答案:A 2、在epsilon-greedy算法中,epsilon的值越大,采取随机动作的概率越(),采用当前Q函数最大动作的概率越()。 A、小,…

    强化学习 2026年3月14日
  • 2026年春江苏开放大学强化学习形考作业2答案

    一、2026年春江苏开放大学强化学习形考作业2单选题答案 1、Q表格的概念中,() A、表格中每一个坐标点对应某时刻智能体的状态 B、以每执行若干步,就对Q表格进行更新 C、与时间差分法毫无关系 D、其表示形式是表格,其中表格的横轴为动作(智能体的动作),纵轴为环境的状态。 正确答案:D 2、Q表格中Q函数的意义是() A、在强化学习里面,我们可以每走一步更…

    2026年3月14日
  • 2026年春江苏开放大学强化学习形考作业1答案

    一、2026年春江苏开放大学强化学习形考作业1单选题答案 1、在最优控制理论中,贝尔曼方程的作用是什么? A、确定初始状态的策略 B、描述动态规划中递归地求解最优值函数的方法 C、预测环境的变化趋势 D、计算每个状态的即时奖励 正确答案:B 2、价值函数可以这样理解()。 A、有一种价值函数:Q 函数。Q 函数里面包含两个变量:状态和动作。  B、…

    强化学习 2026年2月27日

发表回复

登录后才能评论
作业指导 实习指导
年费权益

年费权益

整理期末复习资料备考

每学期代写2门课程作业

定制毕业实习

可单独实践报告、小论文定制

QQ:994370779

售后反馈
微信公众号
微信公众号
分享本页
返回顶部