2026年春江苏开放大学强化学习形考作业3答案

注意:因为学习平台题目是随机,选择题选项也是随机,一定注意答案对应的选项,同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目,还是不懂的话可以看这个:快速答题技巧

一、2026年春江苏开放大学强化学习形考作业3单选题答案

1、DQN中用到的技巧有()。

A、目标网络、利用 、经验回放

B、目标网络、探索、经验回放

C、Q网络、利用 、经验回放

D、V网络、探索 、经验回放

正确答案:B

2、基于策略的方法(Policy-based Methods)与值函数方法(Value-based Methods)最主要的区别是:

A、基于策略的方法直接优化策略,而值函数方法通过估计状态或状态-动作值来间接优化策略

B、基于策略的方法依赖于奖励函数,而值函数方法不依赖于奖励函数

C、基于策略的方法只在离散空间中有效,而值函数方法在连续空间中有效

D、基于策略的方法只能应用于强化学习中,而值函数方法可以应用于监督学习

正确答案:A

3、REINFORCE算法的主要缺点是:

A、它依赖于即时奖励来更新策略

B、它是基于值的方法,而不是基于策略的方法

C、它具有高方差,训练过程中可能不稳定

D、它不能处理连续的动作空间

正确答案:C

4、Actor-Critic算法中的”Actor”和”Critic”各自的作用是什么?

A、Actor负责选择动作,Critic负责计算价值函数并评估Actor的策略

B、Actor负责计算奖励,Critic负责选择最佳动作

C、Actor负责计算值函数,Critic负责选择动作

D、Actor和Critic共同负责选择最优奖励

正确答案:A

5、DDPG算法是()算法和()算法的结合。

A、DPG AC

B、DP AC

C、Sarsa Q-learning

D、AC Q-learning

正确答案:A

6、以下说法是否正确:为了保证强化学习的训练效果,需要打破训练样本数据之间的相关性。

A、正确

B、错误

正确答案:A

7、以下说法是否正确:强化学习的数据存在马尔可夫性,满足训练神经网络需样本独立同分布的假设前提。

A、正确

B、错误

正确答案:B

8、DDPG算法一共有()个神经网络。

A、1

B、2

C、3

D、4

正确答案:D

9、确定性策略梯度算法(DPG)的核心思想是什么?

A、通过最大化当前状态的Q值来选择最优动作

B、通过最小化策略的损失函数来更新策略

C、直接通过策略梯度优化确定性策略的参数

D、通过生成随机动作来更新策略

正确答案:C

10、在REINFORCE算法中,策略更新是如何进行的?

A、通过贪心选择来更新策略

B、通过最大化当前状态的价值函数来更新策略

C、使用策略的梯度与回报的乘积来更新策略

D、使用Q值来直接更新策略参数

正确答案:C

二、2026年春江苏开放大学强化学习形考作业3多选题答案

1、DQN的经验回放会构建一个回放缓冲区,每个经验的形式包括以下内容:()。

A、某个状态st

B、在st采取的动作at

C、得到的奖励rt

D、下一步采取的动作at+1

E、进入的下一状态st+1

正确答案:A;B;C;E

2、DQN算法是基于()算法,结合了价值函数近似与神经网络技术,并采用目标网络和()等方法进行网络训练。

A、深度学习的SarsA、B、当前网络

C、深度学习的Q-learning  

D、经验回放

剩余内容需解锁后查看

您需要付费解锁才能查看当前内容

黄金VIP黄金VIP免费
已付费?登录刷新

禁止转载未经授权,禁止转载,发布者:形考达人黄金VIP,出处:https://www.xingkaowang.com/32221.html

免责声明:本站不对内容的完整性、权威性及其观点立场正确性做任何保证或承诺!付费为资源整合费用,前请自行鉴别。

免费答案:形考作业所有题目均出自课程讲义中,可自行学习寻找题目答案,本站内容可作为临时参考工具,但不应完全依赖,建议仅作为辅助核对答案的工具,而非直接使用!

(0)
上一篇 1天前

相关推荐

  • 2026年春江苏开放大学强化学习形考作业1答案

    一、2026年春江苏开放大学强化学习形考作业1单选题答案 1、在最优控制理论中,贝尔曼方程的作用是什么? A、确定初始状态的策略 B、描述动态规划中递归地求解最优值函数的方法 C、预测环境的变化趋势 D、计算每个状态的即时奖励 正确答案:B 2、价值函数可以这样理解()。 A、有一种价值函数:Q 函数。Q 函数里面包含两个变量:状态和动作。  B、…

    强化学习 1天前

发表回复

登录后才能评论
联系我们

邮件:xingkaowang@163.com

QQ:994370779

工作时间:周一至周五,9:30-17:30,节假日休息

人工解题

人工解题

会员学期新增题免费解答

年费享实践作业、小论文定制

可单独实践报告、小论文定制

解题QQ:994370779

售后反馈
微信公众号
微信公众号
分享本页
返回顶部