注意:因为学习平台题目是随机,选择题选项也是随机,一定注意答案对应的选项,同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目,还是不懂的话可以看这个:快速答题技巧
一、2026年春江苏开放大学强化学习形考综合大作业单选题答案
1、在强化学习过程中,学习率越大,表示采用新的尝试得到的结果比例越(),保持旧的结果的比例越()
A、大,小
B、大,大
C、小,大
D、小,小
正确答案:A
2、在epsilon-greedy算法中,epsilon的值越大,采取随机动作的概率越(),采用当前Q函数最大动作的概率越()。
A、小,小
B、大,小
C、大,大
D、小,大
正确答案:B
3、Q-learning算法中,Q函数是()。
A、状态-动作值函数
B、状态函数
C、估值函数
D、奖励函数
正确答案:A
4、在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励。
A、利用,探索
B、探索,利用
C、利用,输出
D、探索,输出
正确答案:B
5、Q(s,a)是指在给定状态s的情况下,采取行动a之后,后续的各个状态所能得到的回报()
A、总和
B、最大值
C、最小值
D、期望值
正确答案:D
二、2026年春江苏开放大学强化学习形考综合大作业多选题答案
1、强化学习包含的元素有()。
A、Reward
B、Agent
C、State
D、Action
正确答案:A;B;C;D
三、2026年春江苏开放大学强化学习形考综合大作业简答题答案
题型:简答题主观题分值50分难度:简单得分:40
1、题目:基于Q-Learning算法实现冰湖(FrozenLake-v1)游戏
基于Q-Learning算法,完整实现OpenAI Gym中FrozenLake-v1(4×4非滑溜版)环境的智能体训练与测试代码(15分);
训练过程中实时记录每一轮的奖励值,训练完成后绘制训练奖励曲线图(横轴为训练轮数,纵轴为每轮奖励值,需包含滑动平均曲线)(15分);
训练完成后,使用训练好的Q表进行至少100轮测试,记录每轮测试奖励值并绘制测试奖励曲线图(10分);
对训练曲线、测试曲线的趋势和结果进行详细分析,包括但不限于:奖励值变化规律、算法收敛性、智能体性能表现等(10分)。
学生答案:
未经授权,禁止转载,发布者:形考达人
,出处:https://www.xingkaowang.com/32972.html
免责声明:本站不对内容的完整性、权威性及其观点立场正确性做任何保证或承诺!付费为资源整合费用,前请自行鉴别。
免费答案:形考作业所有题目均出自课程讲义中,可自行学习寻找题目答案,本站内容可作为临时参考工具,但不应完全依赖,建议仅作为辅助核对答案的工具,而非直接使用!