适于电力系统的深度强化学习方法探索张翔昱电气工程学院,东南大学2024年10月@江苏省电工技术学会学习辅助型优化求解模型预测控制+值函数学习(用作终端成本)学习加速型ADMM:利用循环神经网络预测ADMM的收敛轨迹可微规划(DifferentiableProgramming)利用深度学习框架(如PyTorch)求解优化问题原始-对偶可微预测控制(考虑显式约束、基于模型的策略训练)混合式算法+结合两者优势(无模型)强化学习适于电力系统的策略训练方法:全局-局部两阶段策略搜索基于课程学习的策略搜索超算集群中的强化学习训练强化学习优势发掘(如端到端考虑不确定性的优化问题)基于多代理强化学习的分布式优化问题·基于纯数据无探索的强化学习基于学习型优化方法+快速实时响应+对系统模型形式无要求十学习需要大量数据最优性、约束无法严格保障关注问题电力系统中具有强时序相关性的多步决策优化问题。传统优化方法·模型预测控制(MPC)传统基于优化方法+最优性保障+显式约束表达十系统模型可能需简化需实时计算前期相关研究概况1.1强化学习背景03相比于传统优化方法,基于强化学习的方法在工程应用中具有如下优势:√快速决策√轻量部署√适于复杂问题该问题可由马尔可夫决策过程(MDP)进行描述,包含状态空间S(st∈S)、决策空间A(at∈A)、环境动态过程f,奖励函数R等。针对多步长决策优化问题,通过训练获得策略πg*(at|st),也作at=πg+(st)来最大化控制周期(T)内的奖励期望为解决复杂电网问题提供了新方法atRLAgentπg·(at|st)EnvironmentSt+1=f(st,at,()rt=R(St,at,St+1)强化学习概念Stt<t+1St+1,rtComputerScience计算机科学(机器学习)神经科学(奖励系统)NeuroscienceMachineLearningOptimalRewardControlSystemReinforcementLearningClassicalOperantConditioningBoundedPsychology心理学(条件反射)经济学(理性、博弈)Economics1.1强化学习背景04TrustRegionPolicyOptimization(TRPO)ProximalPolicyOptimization(PPO)AsynchronousAdvantageActor-Critic(A3C)DeepDeterministicPolicyGradient(DDPG)TwinDelayedDeepDeterministic(TD3)Actor-CriticwithExperienceReplay(ACESoftActor-Critic(SAC)强化学习所研究范围是多学科高度交叉的领域(图来自DavidSilver-ReinforcementLearning课件)MonteCarloPolicyGradient(REINFORCE)AugmentedES-RLRandomSearch(ARS)On-policyOff-policy(稳定性更好)(样本效率更好)Q-learningDQNandallitsvariants工程学(最优控制)EngineeringMathematics数学(运筹)Off-policyPolicyGradient强化学习算法概况Policy-basedActor-CriticOperationsResearchValue-basedRationalitySARSAR)合理建模针对某一问题能否使用强化学习,对该问题是否具有优势?状态与动作的建模(较为直观,可用信息→状态,决策变量→动作)动态环境的建模,是否涉及仿真工具?奖励的设置(rewardshaping)(直观部分:将优化目标转化为奖励;复杂部分:是否将约束越限化为奖励的一部分)的如策略训练安全保障高效训练算法的选择On-policy一Off-policy-Offline(Noexploration,akabatchRL)如何决定适合不同平台的计算加速构架(单机/集群,有无GPU等)?如何合理地引导策略搜索过程,跳脱局部最优?考虑安全保障的训练(最终策略安全还是探索过程安全)可靠策略策略可靠性、安全性等定义及要求可靠性、安全性的保障方法、手段策略行为是否具有可解释性等1.2强化学习在电力系统中应用05强化学习在电力系统中应用需考虑的问题安全保障对系统动态或奖励设置的影响MDP建模●电网问题的复杂性、强不确定性和多重约束,且深度强化学习训练过程本质上是一个非凸优化问题,使得在高维参数、复杂问题的情况下,获得一个有效的策略存在困难,其表现为控制效果不佳。●需开发适于电力系统问题的具有普适性与实用性的训练方法。1.2强化学习在电力系统中应用6训练方法低适应性强化学习策略搜索电力系统复杂约束电力系统强不确定性口训练方法难普适口遍历式超参调试强化学习策略训练难点口源荷不确定性口事件不确定性口高维参数空间口非凸寻优曲面口物理特性约束口时空耦合约束研究动机AlphaGo难以复制问题:针对电力系统复杂特性,如何更快...