2025年4月3日,人工智能系列读书班活动迎来了2025年第七场报告会,方徽星博士做了“强化学习”的内容分享,分享了强化学习的概念、难点与基本设置,介绍了马尔科夫决策过程MDP(智能体所处的环境、状态空间、动作空间、状态转移概率、奖励函数,策略)、有模型学习(策略评估、值函数、最优策略、最优状态-动作值函数、策略改进、策略迭代等)、免模型学习(蒙特卡罗强化学习、轨迹、策略改进、同策略蒙特卡罗强化学习算法、异策略蒙特卡罗强化学习算法)、贝尔曼方程与SARSA、Q学习算法、值函数近似、神经网络形式的SARSA算法等。
图 方徽星博士主持“强化学习”讨论会
自由讨论环节,大家讨论了强化学习中使用的Bellman等式,逐步迭代计算的方式,在多尺度特征计算中常常使用到;强化学习(交互式任务中,如智能体、机器人、无人机等交互任务学习)与增强学习(少样本数据情况下,使用的训练策略,包括数据增强,模型增强,联合增强等)的区别,强化学习与有监督学习的区别等。
增强学习在大模型训练中常常被用到,包括Deepseek中用到的RLHF强化学习人类反馈(多模态反馈整合、动态奖励模型)、自博弈与语言模型结合、高效稀疏奖励处理、分布式强化学习架构等。
(总结:沈来信教授)