注意:因为学习平台题目是随机,选择题选项也是随机,一定注意答案对应的选项,同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目,还是不懂的话可以看这个:快速答题技巧
一、2026年春江苏开放大学强化学习形考作业2单选题答案
1、Q表格的概念中,()
A、表格中每一个坐标点对应某时刻智能体的状态
B、以每执行若干步,就对Q表格进行更新
C、与时间差分法毫无关系
D、其表示形式是表格,其中表格的横轴为动作(智能体的动作),纵轴为环境的状态。
正确答案:D
2、Q表格中Q函数的意义是()
A、在强化学习里面,我们可以每走一步更新一次Q表格,用下一个状态的Q值来更新当前状态的Q值。
B、Q表格,一般它的行数是所有动作的数量。
C、最开始的时候,Q表格会全部初始化任意值。
正确答案:A
题型:单选题客观题分值5分难度:简单得分:0
3、下列关于策略下状态价值vπs的表达式正确的是()
注:下列选项中π表示策略,v表示折扣因⼦,Rt表示t时刻奖励,St表示t时刻状态,At表示t时刻动作。

学生答案:C(错的)
4、在蒙特卡洛方法中,估计一个问题的期望值通常依赖于:
A、通过穷举所有可能的情况来计算期望
B、随机生成多个样本,并计算它们的平均值
C、通过公式直接计算期望
D、使用动态规划来避免重复计算
正确答案:B
5、Bellman方程在计算Q(s,a)时,折扣因子γ的作用是什么?
A、它决定了未来奖励的重要性
B、它用来衡量当前奖励的重要性
C、它是奖励的直接来源
D、它只影响状态的转换
正确答案:A
6、下列哪个是Q-learning算法的特点?
A、需要知道环境的转移概率和奖励函数
B、依赖于策略的梯度方法
C、是一种无模型的强化学习方法
D、只能处理离散动作空间
正确答案:C
7、Sarsa和Q-learning的主要区别是:
A、Sarsa是基于策略的,而Q-learning是基于值的
B、Q-learning是基于策略的,而Sarsa是基于值的
C、Sarsa更新时采用当前策略的动作,而Q-learning采用最优动作
D、Sarsa通过回放来更新Q值,而Q-learning不使用回放
正确答案:C
8、蒙特卡洛方法()
A、蒙特卡洛方法需要马尔可夫决策过程的状态转移函数和奖励函数。
B、蒙特卡洛方法需要更新多条轨迹的状态。
C、适用于环境未知的情况。
D、蒙特卡洛方法与动态规划是一个概念。
正确答案:C
9、Q-learning算法中,Q函数是
A、状态-动作值函数
B、状态函数
C、估值函数
D、奖励函数
正确答案:A
10、在三连棋游戏中,如果玩家的第⼀步棋选择⾛中间,那么下列分析错误的是()

A、电脑下⼀步选择⻆或边的概率各为1/2。
B、若电脑选择边,则⼈类玩家有必胜策略。
C、若电脑选择⻆,则⼈类玩家的最佳动作是选择边,有的概率可以获胜。
D、可以获得的期望奖励为1*1/2+1*(1/2)*(2/3)=5/6。
正确答案:C
题型:单选题客观题分值5分难度:一般得分:0
11、下列关于状态价值V(s)的表达式正确的是()
注:下列选项中π表示策略,v表示折扣因⼦,rt表示t时刻奖励,s表示t时刻状态,a表示t时刻动作。

学生答案:A(错的)
12、动态规划的核心思想是什么?
A、通过分治将问题拆分为更小的子问题
B、通过试探和回溯来探索所有可能的解决方案
C、将问题拆解为子问题并通过存储子问题的解来避免重复计算
D、通过贪心选择每次局部最优解来得到全局最优解
正确答案:C
二、2026年春江苏开放大学强化学习形考作业2多选题答案
1、策略迭代法的核⼼步骤包括哪两个部分()
A、策略评估
B、状态价值计算
C、策略提升
D、使⽤贪心策略
正确答案:A;C
题型:多选题客观题分值5分难度:简单得分:0
2、下列哪些是常见的用于强化学习实验的环境和框架?
A、OpenAI Gym
B、TensorFlow
C、PyTorch
D、Scikit-learn
E、Unity ML-Agents
F、Pandas
G、Keras
学生答案:A;B;E(错的)
3、在强化学习中,以下哪些因素会影响状态-动作价值函数Q(s,a)的计算?
A、当前状态s和动作a
B、状态转移概率
C、即时奖励R(s,a)
D、折扣因子γ
E、未来状态s’及其对应的动作a’的价值
未经授权,禁止转载,发布者:形考达人
,出处:https://www.xingkaowang.com/32966.html
免责声明:本站不对内容的完整性、权威性及其观点立场正确性做任何保证或承诺!付费为资源整合费用,前请自行鉴别。
免费答案:形考作业所有题目均出自课程讲义中,可自行学习寻找题目答案,本站内容可作为临时参考工具,但不应完全依赖,建议仅作为辅助核对答案的工具,而非直接使用!