注意:因为学习平台题目是随机,选择题选项也是随机,一定注意答案对应的选项,同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目,还是不懂的话可以看这个:快速答题技巧
一、2026年春江苏开放大学强化学习形考作业1单选题答案
1、在最优控制理论中,贝尔曼方程的作用是什么?
A、确定初始状态的策略
B、描述动态规划中递归地求解最优值函数的方法
C、预测环境的变化趋势
D、计算每个状态的即时奖励
正确答案:B
2、价值函数可以这样理解()。
A、有一种价值函数:Q 函数。Q 函数里面包含两个变量:状态和动作。
B、价值函数的值是对当下及时奖励评价。
C、价值函数就是评估动作好坏的函数。
正确答案:A
3、强化学习中的策略的含义是()
A、我们不能把策略看做是一个函数。
B、策略是智能体的动作模型,它决定了智能体的动作。
C、策略把输入的状态变为价值。
D、策略只有随机的形式。
正确答案:B
4、下列关于动态规划思想的说法中,不正确的⼀项是( )
A、三连棋游戏不同的状态虽然很多,但是状态的转移其实是有⽅向性的
B、动态规划将问题在时间维度上进⾏拆分,称为时间差分,即利⽤下⼀时刻状态的价值计算当前时刻
状态的价值,直到计算出所有状态的价值
C、动态规划要将⼤的问题拆分成若⼲个⽐较⼩的问题,分别求解这些⼩问题,再⽤这些⼩问题的结果
来解决⼤问题
D、对于三连棋游戏,可以按照从前往后的顺序依次找出各种状态的价值
正确答案:D
5、下列选项关于⻢尔可夫过程与MDP的对⽐说法错误的是( )
A、⻢尔可夫过程反映的是客观规律,MDP反映的是具体问题
B、⻢尔可夫过程体现宏观性质,MDP体现主观操作
C、⼯程中很多实际问题适合被定义为⻢尔可夫过程⽽⾮MDP
D、MDP关注的是如何对⼀个具体的问题采取措施,使得获得的效果最好
正确答案:C
6、以下对有模型强化学习和免模型强化学习说法正确的是()
A、目前,大部分深度强化学习方法都采用了有模型强化学习。
B、针对是否需要对真实环境建模,强化学习可以分为有模型强化学习和免模型强化学习。
C、有模型强化学习不需要进行真实环境建模,用数据驱动学习。
D、免模型强化学习是指对环境只进行虚拟环境建模并与虚拟环境交互来学习到最优策略。
正确答案:B
7、在三连棋游戏中,位于状态s0,采⽤策略,然后有1/3的概率会达到获胜的状态,有2/3的概率到达中间状态s1;之后这个中间状态在该策略下会有3/4的概率到达获胜的状态, 1/4的概率到达平局的状态,若获胜的价值为1,平局价值为0,则该策略下状态s0的价值为( )
A、2/3
B、1/2
C、5/6
D、1/3
正确答案:C
8、对于强化学习中模型的理解是()。
A、马尔可夫决策过程中可以有模型,也可以没有模型。
B、它由状态、动作、状态转移概率和奖励函数几个部分组成。
C、模型决定了下一步要采取的动作。
D、模型中的奖励函数是指我们在当前状态采取了某个动作,可以得到多大的奖励。
正确答案:D
9、下列关于MAB的简单策略和贪⼼策略的说法错误的是()
A、贪⼼策略总是选择当前期望奖励估计最⼤的摇臂进⾏操作
B、两种策略都需要⾸先对每个摇臂进⾏⼀定次数的操作,对期望奖励进⾏预估
C、两种策略都利⽤了游戏过程的反馈对期望奖励估计表进⾏更新
D、简单策略的尝试操作次数有限,存在对期望预估不准确的问题
正确答案:C
10、强化学习智能体的组成成分()。
A、都包含策略、价值函数和模型
B、只有策略和模型
C、只有策略和价值函数
D、可能有策略、价值函数、模型中的一个或多个成分
正确答案:D
11、下列关于epsilon-greedy策略的说法正确的是( )
A、每次游戏中产⽣服从0到10之间均匀分布的随机数
B、每次游戏中产⽣服从0到1之间正态分布的随机数
C、每次游戏中产⽣服从0到10之间正态分布的随机数
D、每次游戏中产⽣服从0到1之间均匀分布的随机数
未经授权,禁止转载,发布者:形考达人
,出处:https://www.xingkaowang.com/32219.html
免责声明:本站不对内容的完整性、权威性及其观点立场正确性做任何保证或承诺!付费为资源整合费用,前请自行鉴别。
免费答案:形考作业所有题目均出自课程讲义中,可自行学习寻找题目答案,本站内容可作为临时参考工具,但不应完全依赖,建议仅作为辅助核对答案的工具,而非直接使用!