第54卷第7期中国电力Vol.54,No.72021年7月Jul.2021ELECTRICPOWER基于生态博弈的含云储能微电网多智能体协调优化调度李咸善,陈奥博,程杉,陈敏睿(梯级水电站运行与控制湖北省重点实验室(三峡大学),湖北宜昌443002)摘要:分布式储能可以缓解分布式电源大量接入微电网所带来的随机性问题,但高昂的初装成本和运维困难限制了其大规模推广应用。在微电网中引入“云储能”为用户提供高效的“虚拟分布式储能”服务,基于自然界生态系统思想,提出了含云储能微电网多智能体生态博弈协调优化调度模型。根据利益诉求关系,构建了微电网系统多智能体结构,得到微电网运营商、常规负荷代理、云储能运营商以及云储能用户四大智能体,建立了其优化模型;构建了微电网电力生态系统,建立了各智能体之间以及电力生态系统之间的博弈优化模型;采用基于纳什均衡的强化学习算法对多智能体生态博弈模型进行求解。算例结果表明,云储能服务优化了负荷曲线、降低了用电成本、云储能运营商也获得了收益,达到多方共赢效果。关键词:云储能;多智能体;生态博弈;纳什均衡;强化学习DOI:10.11930/j.issn.1004-9649.2020050040引言学储能的复合能源系统,并使用深度强化学习算法研究其协调控制方法。分布式可再生电源在微电网中的渗透率越来越高,其随机性、波动性的特点使能量生产曲线然而目前储能装置成本较高,意外安全事故与用户的负荷曲线无法同步,带来能量利用率处理困难,运行维护控制耗时费力,这些因素制低、用户利益受损等一系列问题。分布式储能与约了分布式储能的广泛应用,也使得上述研究成分布式可再生能源的联合运行将是今后绿色微电果难以实施。为了解决这一问题,文献[5]基于网的重要发展方向[1]。储能共享模式,采取微服务构建方法,提出了一种分布式储能网络化运营平台架构;文献[6]提储能技术可改变能量的时空特性,是分布式出了云储能商业模式并分析其有效运营方式;文电源参与微电网优化调度的技术基础,分布式储献[7]构建了以产消者以及云储能为主体的虚拟能也成为分布式电源健康发展的重要支撑。目前电厂,并基于非合作博弈理论研究能源共享的协已有很多学者对分布式储能技术展开研究。文调运行方法;文献[8]建立了分布式储能网络共献[2]详细说明了分布式储能的规划方法、运营享平台模型。云储能是“共享经济”的一种体模式、核心设备研发及商业模式4个重点研究方现,主要思想为运营商将原本分散在用户侧的储向;文献[3]在考虑电价趋势的情况下,协调优能装置集中到云端,以较低的价格通过云端电池化调度直流微电网中的分布式各储能装置的充放为用户提供虚拟储能服务的商业模式来代替用户电功率;文献[4]研究了光伏高渗透率配电网中侧的实体储能[6],用户在享受分布式储能功能的多点分布式储能系统选址和定容的双层优化方同时免去安装维护储能设备的烦恼。共享经济的法;文献构建了同时包含光伏、储氢设备以及化运营模式在资源整合方面具有显著优势,能够很大程度上提高社会效用,将云储能运营商引入微收稿日期:2020−05−06;修回日期:2020−10−20。电网系统,可大幅提高分布式电源与储能设备的基金项目:国家自然科学基金资助项目(51607105);湖北联动效应,使系统内分布式发电资源得到充分利省自然科学基金资助项目(2016CFA097)。用[9-10];同时,云储能运营商作为市场主体参与166第7期李咸善等:基于生态博弈的含云储能微电网多智能体协调优化调度微电网优化调度,依据微电网及配电网分时电价钥查询自己所拥有的云端电池的状态以及历史交制定合理的充放电策略获取利益,形成云储能运易信息[14]。系统基本架构如图1所示。营商、微电网、电能用户多方共赢的局面。客户端1控制指令汇聚分析层调度决策层在上述研究的基础上,本文构建了含云储能控制指令用户指令加总用户需求调度的智能微电网系统架构,对其进行智能体划分并客户端2控制指令用电习惯预测充放电策略依据利益博弈关系建立微电网多智能体生态博弈控制指令可调度容量预测对外交易策略模型,最后使用基于Nash均衡的Q-Learning算法客户端3对模型进行求解[11-13]。智能微电网中,云储能运…营商、微电网运营商、云储能用户以及常规负荷均可作为具有理性决策能力的智能体直接参与微客户端N电网优化调度,各智能体利益诉求不尽相同,在调度过程中能够通过调整自身决策来影响其他智区块链技术支撑能体的策略,从而最大化自身利益;参考自然界生态系统动态平衡的概念,云储能运营商同产消云储能用户1双向电表硬件执行层外部电网者用户构成云储能生态系统,其他负荷消费者同双向电表外部微电网微电网管理的电力生产者构成普通微电网生态系云储能用户2双向电表统,在此基础上考虑生态系统内部的相互制约以云储能用户3配电网及生态系统之间的能量平衡,建立新型微电网多双向电表智能体协调优化调度模型,引入基于Nash均衡…信息流;能量流的Q-Learning算法对模型进行求解;最后,通过云储能用户N实例分析验证所提模型和方法的有效性与实用性。图1云储能系统架构1云储能在微电网中的应用Fig.1Cloudenergystoragesystemarchitecture1.1云储能服务系统架构1.2云储能系统运营模式在传统微电网中,分布式储能装置因其成本本文研究中,主要考虑云储能系统在运行时较高以及运维困难等因素无法大规模普及,缺少参与微电网系统的优化调度问题。储能装置的分布式电源用户在电能富余时只能听云储能运营商主要客户来源于拥有分布式发从调度中心指令,与微电网运营商进行即时交易或直接舍弃富余电能,不但使分布式电源用户利电设备的产消者用户,以及小部分期望通过峰谷益受损,还造成电能浪费。本文在新型微电网中电价差获取利益的电能用户。云储能用户理性行引入云储能运营商来为用户提供价格低廉、双方为通常表现为:在自己拥有的分布式电源出力大共赢的“虚拟分布式储能”服务。于用电需求时利用富余电能对云端电池进行充电;在存在用电缺额时利用云端电池放电弥补;云储能运营商建有集中式储能设备或拥有一在电价低谷期从微网购电对云端电池进行充电;定容量分布式储能设备,用户通过租赁的形式购在电价高峰期控制云端电池放电对外出售。本文买一定电能容量及一定功率容量的云储能套餐来假设用户自有分布式电源所产生的能量优先满足享受运营商提供的储能服务,由于不存在本地硬自己的用电需求,富余的电能再优先存储到云端件设备,这种虚拟分布式储能服务使用户在控制电池中,只有当富余的电能小于充电需求时才会云端电池时不必考虑保护硬件而限制电池放电深从微电网中购买电能进行充电;同样,当用户无度,用户可以自主控制云端电池的充放电状态,法满足自己的用电需求时,将优先使用云端电池云端电池每一次电量变化以及相关交易信息可通中储存的电能。过区块链技术记录在分布式账本上,用户通过私云储能运营商在运行过程中应实时满足用户的充放电需求,使用户能够享受同本地分布式储能装置的控制体验,否则就违背了云储能服务的初衷,在此准则下,云储能运营商对用户指令的响应模式为:实时响应云端电池与用户之间的充放电指令;优化决策后响应云端电池与外部电网167中国电力第54卷的充放电指令。∑T[]考虑到不同用户之间的用电习惯有所差异而IMGO=minCMOMGO,t+CMSTGO,t+CES,t+CMEXGO,t产生互补效应,一般情形下,云储能运营商在满t=1足所有云储能用户充放电需求时,还拥有一定的储能余量,云储能运营商能够通过优化自身充放(1)电策略从与外部电网进行电能交易的过程中获利。其中:2多智能体微电网优化调度模型OM∑N()(2)2.1微电网多智能体划分CMGO,t=∆tλiPi,t(3)本文以微电网内不同主体在调度过程中利益(4)i诉求不同的现象作为参考,并结合实际情况对利益诉求相近的主体做聚合处理,将微电网划分为{()以下智能体[8]:微电网运营商(microgridoperator,CES,t=∆tPcd,t+Ebloss,tλESMGO),作为微电网系统的运营方,是系统内主要电能生产者,同时能够在系统功率缺额或富余Ebloss,t=Ebc,tγloss时向配电网购、售电;常规负荷代理(generalloadaggregators,GLA),作为微电网内各类负荷CMEXGO,t=∆t(PEMXG.gO,tλgrid,t+PEMXG.cO,tλmg,t)的总代理,负责聚合各类未接入云储能服务的负荷需求信息,并在需要时产生需求侧响应,是系式中:T为一个调度周期的时段总数;CMOMGO,t为统内主要电能消费者;云储能运营商(cloudt时段MGO中可控电源总运维成本;CMSTGO,t为t时energystorage,CES),拥有一定容量的储能装段MGO中可控电源启停成本;CES,t为t时段MGO置,能够为微电网云储能用户提供“虚拟分布式中储能设备损耗成本;CMEXGO,t为t时段MGO与配储能”服务;云储能用户(cloudstorageusers,电网及云储能系统的总交易成本/收益;N为可控CSU),接入云储能服务的用户,假设微电网中所有分布式电源用户均接入云储能服务。将多智电源总数;λi为第i台设备运维成本系数;Pi,t为能体理论引入微电网优化调度,更加贴合微电网的实际运营方式并为博弈模型建立基础。第i台发电设备t时段的出力;Ebloss,t为t时段自放2.2微电网运营商电损失电量;λES为储能设备损耗成本系数;Ebc,t为t时段储能设备剩余电量;γloss为储能设备自放在系统中处于主导地位,包含一定容量的光电率;PEMXG.gO,t为t时段MGO与配电网之间的交互伏、微型燃气轮机以及储能设备,是微电网主要功率,从配电网买进电能时为正值,向配电网卖电能来源,在满足负荷需求的前提下通过配置各时段可调节设备出力与储能设备充放电状态,以出电能时为负值;λgrid,t为配电网t时段交易电实现发电成本最低。当系统内出现功率缺额时,价,分为配电网售电电价λsgrid,t和配电网购电电价MGO可选择向云储能运营商或配电网购买电能,λbgrid,t;PEMXG.cO,t为t时段MGO与云储能系统之间的系统内有功率富余时,MGO可选择向云储能运营交互功率,云储能向微电网放电时为正值,云储商或配电网出售电能。由于配电网侧购售电价为固定分时电价,MGO能通过调整微电网侧交易电能从微电网购电时为负值;λmg,t为微电网t时段交价来与云储能运营商博弈以获取优先交易。易电价,分为微电网售电电价λsmg,t和微电网购电2.2.1目标函数电价λbmg,t。2.2.2约束条件微电网运营商以运行周期T内的发电成本最低为目标,即(1)系统功率平衡约束。考虑云储能运营商的作用,微电网运营商必须保证微电网系统内电能供需达到平衡,即PGLA,t+PCSU,t=PMGO,t+PES,t+PEMXG.gO,t+PEMXG.cO,t(5)式中:PGLA,t为t时段常规负荷需求;PCSU,t为t时段MGO与云储能用户电能交易功率,从微电网购电时为正值,向微电网售电时为负值;PMGO,t为t时段微电网运营商旗下所有发电设备出力之和;PES,t为t时段微电网运营商旗下储能设备充放电功率,放电时为正值,充电时为负值。(2)发电机运行约束。168第7期李咸善等:基于生态博弈的含云储能微电网多智能体协调优化调度本文微电网运营商中的可控机组为微型燃气应创造了有利条件。轮机,其功率需满足出力上下限。2.3.1目标函数Pi,min≤Pi,t≤Pi,max(6)常规负荷代理的优化目标是一个调度周期式中:Pi,min为第i台发电设备出力下限;Pi,max为内参与需求响应后减少的用电成本最大,目标函第i台发电设备出力上限。数为(3)发电机爬坡约束为∑T[()]sIGLA=max∆tλmg,tPLO,t−PGLA,t+λILPIL,t−∆Pi,dec≤Pi,t−Pi,t−1≤∆Pi,inc(7)t=1式中:∆Pi,dec为第i台发电设备减小出力爬坡速度;∆Pi,inc为第i台发电设备增加出力爬坡速度。(11)(4)储能设备电量上下限约束。式中:PLO,t为原始负荷需求;PGLA,t为主动响应之为保护储能设备需设置放电深度,储能电量后的负荷功率;λIL为可中断负荷补偿单价;PIL,t需满足最低电量以及最高电量限制。为t时段中断负荷功率。2.3.2约束条件SSOCmin·EES≤Ebc,t≤SSOCmax·EES(8)常规负荷模型的约束条件主要包括转移负荷式中:SSOCmin为最小荷电量;SSOCmax为最大荷电量。功率约束以及可中断负荷功率约束。(1)负荷转移功率约束为(5)储能设备充放电功率约束为P∆L,t≤P∆L,max(12)Pc,max≤Pcd,t≤Pdc,max(9)式中:Pc,max为储能设备最大充电功率,取负值进PGLA,t=PLO,t+P∆L,t−PIL,t(13)行计算;Pdc,max为储能设备最大放电功率,取正式中:P∆L,t为t时段负荷转移功率,转移出为负值,转移进为正值;P∆L,max为最大负荷转移功率。值进行计算。(2)中断负荷功率约束为(6)电价峰谷差约束。为保证用电侧在电价峰谷期有足够的调节积PIL,t≤PIL,max(14)极性,需设置电价峰谷差限制,例如式中:PIL,max为最大可中断负荷功率。2.4云储能用户λsmg,max−λsmg,min≥0.7(10)假设本文微电网系统中的云储能用户均购买式中:λsmg,max为微电网峰时售电电价;λsmg,min为微一定容量(包括电量容量以及功率容量)的云储电网谷时售电电价。能服务,同时CSU还包含部分希望通过储能系统2.3常规负荷代理改善自身负荷曲线以降低用电成本的用户。CSU在满足自身用电需求的前提下将富余电能存作为没有发电能力且未接入云储能系统的普入云端电池,通过在电价高峰期控制云端电池放通用电负荷的总代理,根据微电网运营商的激励电,电价低谷期对云端电池充电来降低自身用电政策来制定负荷侧需求响应策略,主要考虑2种成本。需求侧响应方式。2.4.1目标函数(1)基于分时电价的激励型需求响应,用户云储能用户将富余电能存入云端电池以及控将高峰电价时段的部分负荷转移至低谷电价时制云端电池放电来满足自身用电需求的这部分成段,在减少用电成本的同时可以产生削峰填谷的本已包含在购买云储能服务时的套餐费用中,本作用;文不做考虑;CSU与微电网直接产生电能交互以及控制云端电池与微电网进行电能交互的过程存(2)基于负荷中断补偿的补偿型需求响应,在成本或收益,其购电费用减去售电费用即为用用户在用电高峰期中断或削减部分负荷以获得相电成本,CSU以一个调度周期内用电成本最低为应补偿。目标,目标函数为微电网系统中往往含有大量空调、新风、供暖等负荷,这些负荷所占比例较大且具有十分可观的可调节空间,此类型的柔性负荷为需求侧响169中国电力第54卷∑T()余容量以及电量富余容量,本文主要考虑云储能ICSU=min∆tCCCS,oU,t+CCmSgU,t(15)(16)运营商通过优化这部分富余容量的充放电策略使t=1(17)PCC,SoU,tλsmg,t,PCC,SoU,t>0自身利益最大化。CCCS,oU,t=PCC,SoU,tλbmg,t,PCC,SoU,t<02.5.1目标函数云储能运营商的优化目标是一个调度周期内PmCSgU,λsmg,t,PmCSgU,>0与外部电网电能交互收益最大,目标函数为CCmSgU,t=ttPmg∑T(EX,gEX,mg)λb,Pmg<0ICES=max∆tCCES,t+CCES,tCSU,tmg,tCSU,t(22)t=1式中:CCCS,oU,t为t时段CSU控制云端电池与外部微电网进行电能交易的成本/收益;PCCS,oU,t为t时段式中:CCEXES,g,t为CES与配电网的电能交互收益;CSU控制云端电池与外部微电网的电能交互功CCEXES,m,tg为CES与微电网的电能交互收益。其中率;CCmSgU,t为t时段CSU与微电网直接进行电能交易的成本/收益;PmCSgU,t为t时段CSU与微电网直接PECXES,g,tλbgrid,t,PECXES,g,t>0(23)CCEXES,g,t=PECXES,g,tλsgrid,t,PECXES,g,t<0进行的电能交互功率。2.4.2约束条件CCEXES,m,tg=PECXES,m,tgλbmg,t,PECXES,m,tg>0PECXES,m,tgλsmg,t,PECXES,m,tg<0云储能用户模型主要考虑在自身分布式电源、(24)云端电池以及微电网的作用下满足自身负荷需式中:PECXES,g,t为CES与配电网的交互功率,CES向配电网放电时,PECXES,g,t为正;CES从配电网充电求,同时云端电池需满足电量容量约束以及功率时,PECXES,g,t为负;PECXES,m,tg为CES与微电网的交互功率,CES向微电网放电时,PECXES,m,tg为正;CES从容量约束。微电网充电时,PECXES,m,tg为负。(1)自身负荷需求约束为PlCoSadU,t=PdCpSU,t+PmCSgU,t+PCC,SiU,t(18)(2)云端电池电量容量约束为(19)2.5.2约束条件ECCSEUS,t≤ECCS,mUax(1)云储能服务功率约束。(3)云端电池功率容量约束为云储能运营商必须保证所有云储能系统内用PCC,SoU,t≤PCC,SmUax(20)户的充放电需求得到满足,并且充放电功率需满PCC,SiU,t≤PCC,SmUax(21)足功率容量约束。(25)PECXES,i,t=PCC,SiU,t+PCCS,oU,t式中:PlCoSadU,t为t时段CSU负荷需求;PdCpSU,t为t时PECXES,i,t+PECXES,o,t≤PECXES,max(26)段分布式电源出力;PCCS,iU,t为t时段CSU控制云端电池对用户自身的充放电功率;PCCS,oU,t为t时段式中:PECXES,i,t为t时段云储能运营商对云储能系统内的总充放电功率;PCCS,iU,t为t时段CSU控制云端CSU控制云端电池与外部微电网的电能交互功电池对用户自身的充放电功率;PCCS,oU,t为t时段CSU率;ECCSEUS,t为t时段云端电池荷电量;ECCS,mUax为用户购买的云端电池容量;PCCS,mUax为用户购买的云端控制云端电池与外部微电网的电能交互功率;PECXES,o,t为云储能运营商对外部电网的总充放电功电池功率容量。率;PECXES,max为云储能运营商联络线最大功率容量。2.5云储能运营商(2)云储能电量容量约束为为微电网系统中的云储能用户提供虚拟分布式储能服务,其主要收益来源于用户购买储能套餐的费用以及运行过程中向微电网或配电网售卖ECES,max·DDODmax≤ECES,t≤ECES,max(27)富余电能的费用,由于用户充放电行为存在互补式中:DDODmax为最大放电深度;ECES,max为云储能运营商最大储能容量。性,云储能系统运行过程中往往存在部分功率富170第7期李咸善等:基于生态博弈的含云储能微电网多智能体协调优化调度3基于强化学习的多智能体生态博弈模型除部分预留容量后即为云储能对外充放电可调度生物学中对生态系统(ecosystem,ECO)的容量,计算公式为∑∑定义为:在自然界的一定的空间内生物与环境构成的统一整体,在这个统一整体中,生物与环境PmEXax,t=PcCaEpS−PCCSU,t−PDCSU,t−PrCeEsS,t(28)之间相互影响、相互制约,并在一定时期内处于相对稳定的动态平衡状态,生态系统需要不断输式中:PmEXax,t为云储能运营商对外充放电可调度容量;入能量来防止系统崩溃。云储能运营商增加了微电网中市场主体的多样性,使系统内能量流动路∑径变得更加复杂,若直接考虑四大智能体之间的博弈关系将使计算变得十分困难,因此本文在微PcCaEpS为云储能运营商安装的最大功率容量;PCCSU,t电网系统中引入生态系统的概念,构建由利益相关的智能体所组成的电力生态系统,先分析电力∑生态系统内智能体之间的博弈关系,再考虑电力生态系统之间的能量互济问题。为云储能用户充电需求总和;PDCSU,t为云储能用户放电需求总和;PrCeEsS,t为云储能运营商预留功率容量。微电网运营商是微电网系统中的主要生产者,常规负荷用户是微电网系统中的主要消费微电网普通用户生态系统为竞争型ECO,云者,两者共同组成比较稳定的微电网普通用户生储能生态系统为非竞争型ECO,两者之间构成主态系统;云储能运营商与云储能用户均为产消从博弈关系:CSU与CES的充放电策略均受到分者,两者共同组成具有一定自治能力但规模较小时电价的影响,将CSU与CES对微电网运营商所的云储能生态系统,需要同外部电网进行能量交表现的充放电策略加和为云储能生态系统对普通换来维持能量平衡。在调度决策的过程中先考虑用户生态系统的充放电决策;微电网普通用户生电力生态系统内部的能量流动,再考虑生态系统态系统可根据自身需求调整系统内智能体决策以之间的能量互济。影响云储能生态系统的对外充放电计划;生态系3.1博弈主体分析统收益为其所包含的智能体收益之和。微电网中各主体博弈关系如图2所示。在微电网普通用户生态系统中,微电网运营商与常规负荷代理之间构成主从博弈关系,MGO微电网运营商云储能用户为主体,GLA为从体:MGO依据当前光伏预测曲线以及负荷曲线制定分时售电电价以及负荷转优化目标:发电成本最低优化目标:用电成本最低移激励政策;GLA获取当前电价信息以及负荷转移激励信息后进行主动响应决策,即确定负荷转决策变量:分时电价分决策变量:充放电策略移功率或负荷中断功率,以等效负荷曲线的形式反馈给MGO;随后,MGO基于修正的负荷曲线时充放电指令以及新能源机组预测出力决策可控机组出力方激励政策等效负荷购案,存在功率余缺或可控机组不经济情况时,面第0轮向云储能生态系统发布分时购电电价信息[15-17]。电在云储能生态系统中,云储能运营商为避免常规负荷代理电云储能运营商违约行为,必须充分满足云储能用户的充放电指令,两者为单向服从,并不构成博弈关系。优化目标:用电成本最低价优化目标:售电收益最大CES通过CSU侧所安装的智能电表分析其用电习惯来获取预测负荷曲线,减去所有CSU发布的充决策变量:负荷曲线决策变量:充放电策略放电指令总和,可计算得到云储能剩余容量,扣微电网普通用户博弈ECO云储能非博弈ECO充放电策略微电网运营商云储能用户优化目标:用电成本最低优化目标:发电成本最低决策变量:充放电策略决策变量:分时电价分时激励政策等效负荷购充放电指令第1轮电云储能运营商优化目标:售电收益最大常规负荷代理电决策变量:充放电策略优化目标:用电成本最低价云储能非博弈ECO决策变量:负荷曲线微电网普通用户博弈ECO微电网运营商充放电策略第n轮输出:分时电价,自我优化云储能用户后各机组出力输出:充放电策略常规负荷代理充放电指令输出:等效负荷曲线云储能运营商微电网普通用户博弈ECO输出:充放电策略云储能非博弈ECO图2各主体博弈关系Fig.2Gamerelationshipdiagramofeachsubject171中国电力第54卷在博弈过程中当微电网运营商、常规负荷代开始数据初始化和参数设置理、云储能运营商以及云储能用户之间任意主体生成各博弈主体的状态空间与动作空间博弈主体进行独立优化(第n轮)改变决策方案后都无法获取更大利益时,两个电力生态系统达到利益最大值,此时博弈达到均衡状态。从上述博弈关系中可以看出,多智能体微电网系统的协调优化调度问题与传统的统一目标优微电网运营商云储能用户优化目标:用电成本最低化问题不同,各智能体拥有不同的利益诉求并在优化目标:发电成本最低决策变量:充放电策略调度过程中相互博弈,最终在Nash均衡状态下得决策变量:分时电价分充放电指令时云储能运营商优化目标:售电收益最大到的动作集为所求的优化策略。激励政策等效负荷购决策变量:充放电策略电3.2考虑Nash均衡的Q学习算法电常规负荷代理价Q学习算法的核心是智能体与环境进行交优化目标:用电成本最低互,在不断交互过程中智能体(agent)对每次所决策变量:负荷曲线微电网普通用户ECO云储能ECO充放电决策处的状态值(s)以及用上一状态的奖励值(r)确定当前要执行什么动作(a)。执行动作要达否到最大化奖励值r,在此过程中不断更新Q值判断是否达到均衡表,直到最终算法收敛,所得的决策集(policy)是输出各博弈主体决策方案就是一系列动作a的序列。Q学习算法中矩阵Q的更新方式为结束Q(s,a)←Q(s,a)+α(r(s,s‘,a))+(29)图3算法流程γmax(Q(s‘,a)−Q(s,a))Fig.3Algorithmflowcharta∈A式中:s和s‘分别为环境所处的当前状态和下一时步骤2:数据预处理。为适应强化学习算刻状态;α为智能体的学习率;A为当前状态下的动作集合;折扣因子γ为未来奖励值的衰减值[16]。法,需要将连续的动作变量与状态变量离散化处在多智能体博弈环境中,不同智能体所对应理,并根据各智能体的特性建立其状态空间与动的状态空间与动作空间并不相同;在博弈过程中,某一智能体的状态空间会受到其他智能体决作空间。其中,离散化处理部分把负荷需求、各策结果的共同作用,状态空间的更新即为各智能体每一次决策行动的历史组合;而各智能体在学发电机组出力、储能设备充放电功率等连续变量习迭代的过程中,用于决策选择的动作空间并不会受到其他智能体的影响。划分为若干区间,各区间长度可表示为基于以上考虑,将各智能体的学习过程独立∆P=Pmxax−Pmxinx(30)进行,每个智能体拥有自己对应的Q值表,各智Mx能体依据博弈决策顺序在一轮学习之后输出其最终动作策略并更新Q值表,所有智能体完成一轮即依据设备的特性将第x台设备出力划分为学习之后判断博弈是否达到均衡状态。Mx个区间,配合算法进行后续的迭代计算。3.3多智能体生态博弈求解流程步骤3:在每次动作决策之前对各动作变量求解流程如图3所示,其中Q学习算法具体值进行校验,从中寻找满足约束条件的动作变量求解过程如下。来组成可行动作空间。步骤1:设置参数并初始化各智能体Q值步骤4:根据Q学习算法的决策方法进行动表,离线训练阶段将Q值表初始化为全0。作选择,并计算各智能体的立即奖励值;同时,预测未来状态。步骤5:根据迭代公式对Q值表进行更新并得到更新后的状态空间S,当状态空间S满足终止条件时停止本轮决策计算。172第7期李咸善等:基于生态博弈的含云储能微电网多智能体协调优化调度步骤6:计算各智能体的效用函数值,并判表1系统内设备参数表断各智能体是否达到Nash均衡,当智能体效用函Table1Deviceparametersinthesystem数值在相邻两次迭代过程中得到的最优解相同则表明在该策略下,任何参与者都不能通过改变自类型额定容量/功率Pmin/kWPmax/kWKx/(元·kW–1)身策略来获得更优结果,若没有达到均衡则令微电网侧光伏4800kWk=k+1并返回步骤4再次迭代。微电网侧储能800kW·h048000.02微型燃气轮机10000kW步骤7:输出最优解。均衡状态下各智能体并网联络线—06000.03动作集合为最优结果。分布式光伏800kW云储能运营商1350kW·h7200100000.354算例分析01200基于电价4.1算例概况以中国某高新技术园区微电网为例,其物理08000结构如图4所示,各设备参数如表1所示[18-20]。0580基于电价配电网表2分时电价Table2Electricityprice时段峰时段平时段元/(kW·h)从配电网购电0.650.38谷时段向配电网售电0.410.270.270.12电价调控中心微电网运营商储能设施的功率容量和能量容量分别为580kW电能交互中心和1350kW·h;Q学习算法参数设置为:学习率发电设备电能转移α为0.01;折扣因子γ为0.8;贪婪系数ε为0.8;调度中心单位调度时段为1h。在数据预处理方面,对系统内各设备出力/状态连续变量做离散化处理:光伏可控电源微网光伏出力不可控且在此案例中保证被系统完全消纳;所有微型燃气轮机作为整体参与调度,在此博弈云储能服务生态常规负荷代理模型中不考虑每台微型燃气轮机的出力分配问题,同时顾及燃气轮机经济运行要求与最佳工况云储能运营商云储能用户指标,将其出力从72%至100%额定功率划分为20个离散空间;储能设备包括充电/闲置/放电3种分布式光伏空调负荷写字楼生产基地状态,将其出力从正到负划分为20个离散空间;信息传输;需求响应各智能体依据设备种类确定各自的动作决策空间。电能交易;电能流向;4.2Q学习算法训练结果分析图4园区微电网物理结构示意以图5所示典型日负荷及光伏出力曲线作为Fig.4Schematicdiagramoftheparkmicrogrid日前调度仿真对象,在完成一天的优化调度决策配电网侧电价时段划分情况:峰时段为1210:00—15:00和18:00—21:00;平时段为07:00—10:00,15:00—18:00和21:00—23:00;9云储能用户负荷;谷时段为00:00—07:00和23:00—24:00,分时电价如表2所示。功率/MW用户侧光伏;假设园区所有拥有分布式发电设备的用户均6常规负荷;接入云储能服务,再随机选取10%常规用户接入云储能服务,根据文献[5]中建立的云储能运营微电网侧光伏商投资规划模型对上述用户购买的最优容量以及云储能运营商建设的最优容量进行计算,得到用3户所购买的云端储能总计功率容量和能量容量分别为810kW和1650kW·h,云储能提供商的实际004:0008:0012:0016:0020:0024:0000:00时刻图5典型日负荷及光伏出力曲线Fig.5Typicaldailyloadandphotovoltaicoutputcurve173中国电力第54卷后计算各智能体的博弈效用函数,经过若干次的真计算中,对典型日数据进行1000轮离线训练学迭代搜索,各智能体效用函数值趋于收敛,同习,各智能体效用函数值(成本/利润)散点分布时,各智能体的Q值也会收敛到Nash均衡点。仿如图6所示。成本/万元70成本/万元176515成本/万元60成本/万元13551150459407501002003004005006007008009001000迭代次数/次01002003004005006007008009001000迭代次数/次a)微电网运营商发电成本b)云储能用户用电成本21212020191918181717161615151414130100200300400500600700800900100013迭代次数/次01002003004005006007008009001000c)普通用户用电成本迭代次数/次d)云储能运营商利润图6各智能体效用函数值Fig.6Valueofeachagent'sbenefitfunction对Q学习算法训练结果分析,在学习初始阶经过1000轮训练之后,效用函数值稳定在纳段,各智能体的效用函数值(成本/利润)在一定什均衡点附近,此算法已具有为各智能体做出合范围内杂乱分布,这是预学习阶段开始时将各智理决策的能力。能体的Q值表初始化为0,各智能体在满足约束4.3各智能体决策结果分析的前提下进行随机决策所得到的结果。云储能用户控制云端电池对自身及微电网充当训练过程进行到中期时各智能体效用函数放电指令总和如图7所示,图7中CES对MGO充值散点分布逐渐变得规律且集中,在经过大约放电以及CES对CSU充放电分别表示云储能用户300轮训练之后,效用函数值逐渐收敛到Nash均控制云端电池对微电网及自身的充放电功率。充衡点附近一定范围内,并不断向最优均衡解逼电功率用正值表示,放电功率用负值表示。用户近,各智能体的决策能力不断提高。500CES对MGO放电;MGO对CES充电;随着训练过程进入到末期,各智能体的效用250CES对CSU放电;CSU对CES充电;函数值趋于稳定,Q学习算法经过不断试错积累理论SOC经验,最终获得比较理性的决策能力。在训练末0100期,仍然能够发现一些跳动的点,这是由于为防−250止Q学习算法陷入局部最优而设置的贪婪系数80ε为0.8(即80%概率选择当前状态下Q值最大的动作),使各智能体每次决策都有20%概率进行60完全随机的决策。当训练完成后进入在线决策阶段时,贪婪系数ε设置为1,即完全依据行为准则40进行决策。20功率/kWSOC/%−50004:0008:0012:0016:0020:00000:00时刻24:00图7云储能用户充放电指令总和Fig.7Charging/dischargingdemandsofCSU174第7期李咸善等:基于生态博弈的含云储能微电网多智能体协调优化调度的理性决策主要受到微电网分时电价以及分布式价低谷期从微电网购电对云端电池进行充电,在光伏出力的影响,云储能用户在用户侧光伏高发白天电价高峰期控制云端电池对自身进行放电,期选择用富余电能向云端电池充电,在电价低谷以降低用电成本,云储能的加入一定程度上减小期发布云端电池从微电网购电的充电指令,在电了微电网系统中整体负荷需求峰谷差。价高峰期发布云端电池向微电网售电的放电指令。对于云储能用户来说,直接与云端电池进行的14微电网侧光伏;并网联络线;充放电行为是免费的,其控制云端电池对微电网充12微电网侧储能;燃气轮机;放电过程产生的交易由云储能运营商定期进行结算。10云储能-微电网;常规负荷;8等效负荷云储能运营商在获取用户充放电指令后计算6可调度余量,最终充放电决策结果如图8所示,功率/MW4图8中CES对MGO放电以及MGO对CES充电表2示云储能收到的用户控制指令,对用户指令加总004:0008:0012:0016:0020:0024:00后优化决策得到CES对MGO实际充放电曲线,−2时刻表示云储能对微电网的实际充放电功率,从微电00:00网购电为正值,向微电网售电为负值。从图8中可知,云储能运营商充放电行为受分时电价影响图9电功率平衡情况较大,以满足云储能用户控制云端电池对自身直Fig.9Electricpowerbalance接进行的充放电需求为基本前提,在谷电价时段尽可能多从微电网购电,在峰电价时段尽可能多为验证云储能运营商对微电网各主体产生的向微电网售电。影响,将不含云储能的微电网系统优化结果与加入云储能后的微电网系统优化结果进行对比,各主体成本/收益如表3所示。CES对MGO放电;MGO对CES充电;表3加入云储能前后各主体成本/收益CES对MGO实际充放电;实际SOCTable3Cost/benefitofeachentitywith/withoutCES400100微电网运营商常规负荷云储能用户云储能运营商发电成本/元用电成本/元用电成本/元收益/元20080—83154.2107384.16169.8功率/kWSOC/%6074750.2103979.44904.41535.6040−20020−40004:0008:0012:0016:0020:000云储能的加入弥补了微电网中分布式电源用00:00时刻24:00户安装的储能容量不足的情况,使微电网中弃光率显著降低;云储能用户还可通过合理的充放电图8云储能运营商充放电决策策略获取利益,用电成本降低20.6%;云储能可Fig.8Charging/dischargingstrategyofCES以平滑负荷曲线,降低微电网运营商的机组启停成本。微电网ECO中电能平衡情况如图9所示,流入微电网ECO电功率为正值,流出微电网5结语ECO电功率为负值。由图9可知:在08:00—11:00期间系统内光伏出力不足,负荷需求较大,云储能是共享经济在电力系统中进行应用的微电网运营商发布激励政策诱使负荷向光伏高发新理念,通过这种商业模式降低储能设备的使用时间段12:00—15:00转移;在10:00—15:00时门槛,使更多的分布式电源用户以及普通电能用间段,光伏出力较高,并且处于电价高峰期,微户能够轻松享受分布式储能设备的诸多优点。本电网运营商选择将部分电能通过并网联络线向配文将云储能运营商引入微电网系统中,建立基于电网售出。从图9中还可以看出,电能主要从微云储能技术的微电网系统框架,探索了一种针对电网ECO流向云储能ECO,这是由于用户侧分布含云储能运营商的多智能体微电网优化调度方式光伏装机容量较小,更多的用户选择在夜间电175中国电力第54卷法。算例表明云储能服务使微电网中的能量流发KUANGYi,WANGXiuli,WANGJianxue,etal.Virtualpower生时空转移,既能降低用户的用电成本又能优化plantenergysharingmechanismbasedonstackelberggame[J].用户的负荷曲线,同时,通过合理规划云储能充PowerSystemTechnology,2020,445(12):101–109.放电策略使云储能运营商从中获益,微电网中各[8]慈松.能量信息化和互联网化管控技术及其在分布式电池储能系主体达到多方共赢的和谐运行状态。统中的应用[J].中国电机工程学报,2015,35(14):3643–3648.CISong.Energyinformatizationandinternet-basedmanagementand参考文献:itsapplicationsindistributedenergystoragesystem[J].ProceedingsoftheCSEE,2015,35(14):3643–3648.[1]赵伟,肖祥,郑耀东,等.分布式储能网络化运营平台架构与控制策[9]WANGJ,ZHONGH,QINJ,etal.Incentivemechanismforsharing略[J].高电压技术,2019,45(10):3256–3262.distributedenergyresources[J].JournalofModernPowerSystemsZHAOWei,XIAOXiang,ZHENGYaodong,etal.ArchitectureandandCleanEnergy,2019,7(4):837–850.controlstrategyofdistributedenergystoragenetworkedoperation[10]胡鹏,艾欣,杨昭,等.考虑电能共享的综合能源楼宇群日前协同优platform[J].HighVoltageTechnology,2019,45(10):3256–3262.化调度[J].电力自动化设备,2019,39(8):239–245.HUPeng,AIXin,YANGZhao,etal.Day-aheadoptimalscheduling[2]李建林,马会萌,袁晓冬,等.规模化分布式储能的关键应用技术研forclusterbuildingwithintegratedenergysystemconsideringpower究综述[J].电网技术,2017,41(10):3365–3375.sharing[J].ElectricPowerAutomationEquipment,2019,39(8):LIJianlin,MAHuimeng,YUANXiaodong,etal.Overviewonkey239–245.appliedtechnologiesoflarge-scaledistributedenergystorage[J].[11]MORSTYNT,HREDZAKB,AGELIDISV.Cooperativemulti-PowerSystemTechnology,2017,41(10):3365–3375.agentcontrolofheterogeneousstoragedevicesdistributedinaDCmicrogrid[J].IEEETransactionsonPowerSystems,2016,31(4):[3]孙偲,陈来军,邱欣杰,等.基于合作博弈的发电侧共享储能规划模2974–2986.型[J].全球能源互联网,2019,2(4):360–366.[12]修晓青,李建林,李文启,等.储能系统商业模式及其优化规划方SUNCai,CHENLaijun,QIUXinjie,etal.Co-generationgame-法[J].电力建设,2019,40(6):41–48.basedsharedenergystorageplanningmodelforpowergeneration[J].XIUXiaoqing,LIJianlin,LIWenqi,etal.ResearchonbusinessGlobalEnergyInternet,2019,2(4):360–366.modelandoptimizationplanningmethodofenergystoragestation[J].ElectricPowerConstruction,2019,40(6):41–48.[4]陶琼,桑丙玉,叶季蕾,等.高光伏渗透率配电网中分布式储能系统[13]杨永标,于建成,李奕杰,等.含光伏和蓄能的冷热电联供系统调峰的优化配置方法[J].高电压技术,2016,42(7):2158–2165.调蓄优化调度[J].电力系统自动化,2017,41(6):6–12,29.TAOQiong,SANGBingyu,YEJilei,etal.OptimalconfigurationYANGYongbiao,YUJiancheng,LIYijie,etal.OptimalloadmethodofdistributedenergystoragesystemsindistributionnetworklevelingdispatchofCCHPincorporatingphotovoltaicandstorage[J].withhighpenetrationofphotovoltaic[J].HighVoltageTechnology,AutomationofElectricPowerSystems,2017,41(6):6–12,29.2016,42(7):2158–2165.[14]张宁,王毅,康重庆,等.能源互联网中的区块链技术研究框架与典型应用初探[J].中国电机工程学报,2016,36(15):4011–4023.[5]张自东,邱才明,张东霞,等.基于深度强化学习的微电网复合储能ZHANGNing,WANGYi,KANGChongqing,etal.Blockchain协调控制方法[J].电网技术,2019,043(006):1914–1921.techniqueintheenergyinternet:preliminaryresearchframeworkandZHANGZidong,QIUCaiming,ZHANGDongxia,etal.Atypicalapplication[J].ProceedingsoftheCSEE,2016,36(15):coordinatedcontrolmethodforhybridenergystoragesystemin4011–4023.microgridbasedondeepreinforcementlearning[J].PowerSystem[15]项顶,宋永华,胡泽春,等.电动汽车参与V2G的最优峰谷电价研Technology,2019,043(006):1914–1921.究[J].中国电机工程学报,2013,33(31):15–25,2.XIANGDing,SONGYonghua,HUZechun,etal.Researchon[6]刘静琨,张宁,康重庆.电力系统云储能研究框架与基础模型[J].optimaltimeofusepriceforelectricvehicleparticipatingV2G[J].中国电机工程学报,2017,37(12):3361–3371,3663.ProceedingsoftheCSEE,2013,33(31):15–25,2.LIUJingkun,ZHANGNing,KANGChongqing.Researchframeworkandbasicmodelsforcloudenergystorageinpowersystem[J].ProceedingsoftheCSEE,2017,37(12):3361–3371,3663.[7]匡熠,王秀丽,王建学,等.基于stackelberg博弈的虚拟电厂能源共享机制[J].电网技术,2020,445(12):101–109.176第7期李咸善等:基于生态博弈的含云储能微电网多智能体协调优化调度[16]孙孝峰,郝彦丛,王宝诚,等.微电网分布式储能单元荷电状态平衡国电机工程学报,2015,35(14):3569–3576.和电压恢复[J].中国电机工程学报,2016,36(15):4047–4055.LIZhengmao,ZHANGFeng,LIANGJun,etal.OptimizationonSUNXiaofeng,HAOYancong,WANGBaocheng,etal.State-of-microgridwithcombinedheatandpowersystem[J].ProceedingsofchargebalancingofdistributedenergystorageunitsandvoltagetheCSEE,2015,35(14):3569–3576.restorationinmicrogrid[J].ProceedingsoftheCSEE,2016,36(15):[20]栗然,党磊,董哲,等.分时电价与风储联合调度协调优化的主从博4047–4055.弈模型[J].电网技术,2015,35(11):3247–3253.LIRan,DANGLei,DONGZhe,etal.Coordinatedoptimizationof[17]孙毅,刘迪,崔晓昱,等.面向居民用户精细化需求响应的等梯度迭time-of-usepriceanddispatchingmodelcombiningwindpowerand代学习激励策略[J].电网技术,2019,43(10):3597–3605.energystorageunderguidanceofmaster-slavegame[J].PowerSUNYi,LIUDi,CUIXiaoyu,etal.EqualgradientiterativelearningSystemTechnology,2015,35(11):3247–3253.incentivestrategyforaccuratedemandresponseofresidentusers[J].PowerSystemTechnology,2019,43(10):3597–3605.作者简介:李咸善(1964—),男,教授,博士生导师,从事微电[18]刘国静,韩学山,王尚,等.基于强化学习方法的风储合作决策[J].网运行与控制、电力系统运行与控制、水电站仿真与控制电网技术,2016,40(9):2729–2736.等研究,E-mail:lixianshan@ctgu.edu.cn;LIUGuojing,HANXueshan,WANGShang,etal.Optimaldecision-陈奥博(1996—),男,通信作者,硕士研究生,从事makinginthecooperationofwindpowerandenergystoragebased电力系统运行与控制、微电网优化调度等研究,E-mail:onreinforcementlearningalgorithm[J].PowerSystemTechnology,cabbiu@outlook.com。2016,40(9):2729–2736.(责任编辑蒋东方)[19]李正茂,张峰,梁军,等.含电热联合系统的微电网运行优化[J].中Multi-agentCoordinationandOptimalDispatchofMicrogridwithCESBasedonEcologicalGameLIXianshan,CHENAobo,CHENGShan,CHENMinrui(HubeiProvincialKeyLaboratoryofOperationandControlofCascadeHydropowerStations,ChinaThreeGorgesUniversity,Yichang443002,China)Abstract:Distributedenergystoragecanalleviatetherandomnessproblemcausedbyalargenumberofdistributedpowersourcesconnectedtomicro-grid,buthighinitialinstallationcostandoperationandmaintenancedifficultieslimititslarge-scalepromotionandapplication.Inthispaper,“cloudenergystorage”systemisintroducedtomicro-gridtoprovideuserswithefficient“virtualdistributedenergystorage”services.Basedontheideaofnaturalecosystems,amulti-agentecologicalgamecoordinationoptimizationdispatchingmodelformicrogridswithCESisproposed.Accordingtointerestappealingrelationship,themulti-agentstructureofthemicrogridsystemisconstructedwithfourintelligentagents,includingmicro-gridoperator,generalloadaggregators,cloudenergystorageandcloudstorageusers,andtheiroptimizationmodelsweredevelopedrespectively.Themicro-gridpowerecosystemwasconstructed,andthegameoptimizationmodelamongagentsandamongpowerecosystemswasestablished.ThereinforcementlearningalgorithmbasedontheNashequilibriumwasusedtosolvethemulti-agentecologicalgamemodel.Thesimulationresultsshowthatthecloudenergystorageserviceoptimizestheloadcurve,reducestheelectricitycost,andcloudenergystorageoperatorsalsogainbenefits,achievingamulti-partywin-wineffect.ThisworkissupportedbytheNationalNaturalScienceFoundationofChina(No.51607105)andtheNaturalScienceFoundationofHubeiProvince(No.2016CFA097).Keywords:cloudenergystorage;multi-agent;ecologicalgame;Nashequilibrium;reinforcementlearning177