深度强化学习应用于电力系统的研究现状
一、技术概述 二、研究现状 三、应用案例
融合注意力机制与SAC算法的虚拟电厂多能流低碳调度
虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难等问题。针对这些问题,文中提出一种融合注意力机制(attention mechanism,AM)与柔性动作评价(soft actor-critic,SAC)算法的VPP多能流低碳调度方法。首先,根据VPP的随机碳流特性,面向动态参数建立基于贝叶斯优化的改进阶梯型碳交易机制。接着,以经济效益和碳排放量为目标函数构建含氢VPP多能流解耦模型。然后,考虑到该模型具有高维非线性与权重参数实时更新的特征,利用融合AM的改进SAC深度强化学习算法在连续动作空间对模型进行求解。最后,对多能流调度结果进行仿真分析和对比实验,验证了文中方法的可行性及其相较于原SAC算法较高的决策准确性。
基于深度学习的电力系统虚假数据注入攻击检测综述
虚假数据注入攻击(false data injection attack, FDIA)是针对电力系统的一种常见网络攻击,可以通过终端链路或设备注入异常数据,绕过不良数据检测机制,进而引发电力系统的异常运行,造成严重的经济损失。近年来深度学习技术在FDIA检测方面取得诸多进展,通过大量的数据训练和强大的模型学习能力,能够自动学习和提取攻击数据特征,相对于传统方法具有更高的准确率和鲁棒性。总结了近年来基于深度学习的电力系统FDIA检测研究进展,涵盖卷积神经网络、循环神经网络、图神经网络、生成对抗网络和深度强化学习等典型深度学习模型。首先分析各类深度学习模型的FDIA检测原理,并介绍相关技术方法。然后从鲁棒性、评估指标和可扩展性等方面对上述技术进行对比分析,总结其应用范围及存在不足。最后探讨了当前研究中存在的挑战和未来的研究发展方向。
基于深度强化学习的多能流楼宇低碳调度方法
建筑减排已成为中国达到“双碳”目标的重要途径,智慧楼宇作为多能流网络耦合的综合能源主体,面临碳排放量较多、多能流网络耦合程度高、负荷用能行为动态特性明显等问题。针对这一问题,提出基于深度强化学习的多能流楼宇低碳调度方法。首先,根据智慧楼宇的实际碳排放量,建立了一种奖惩阶梯型碳排放权交易机制。其次,面向碳市场和多能流耦合网络,以最小化运行成本为目标函数,建立多能流低碳楼宇调度模型,并将该调度问题转换为马尔可夫决策过程。然后,利用Rainbow算法进行优化调度问题的求解。最后,通过仿真分析验证了优化调度模型的可行性及有效性。 Building emissions reduction has become a crucial pathway for China to achieve its 'dual-carbon' goals.As an integrated energy entity coupled with multi-energy flow networks, smart buildings face challenges such as high carbon emissions, a high degree of coupling in multi-energy flow networks, and distinct dynamic characteristics in load energy consumption behavior. In response to these challenges, a low-carbon scheduling method for multienergy flow buildings based on deep reinforcement learning(deep RL) is proposed. Firstly, a reward and punishment ladder-type carbon emissions trading mechanism is established based on the actual carbon emissions of smart buildings. Secondly, targeting the carbon market and multi-energy flow coupling networks, a low-carbon scheduling model for multi-energy flow buildings is developed, aiming to minimize operating costs as the objective function, and the scheduling is transformed into a Markov decision process(MDP). Subsequently, the Rainbow algorithm is employed to solve the optimal scheduling. Finally, the feasibility and effectiveness of the optimal scheduling model are verified through simulation analysis.
基于深度强化学习的电力CPS联合防御方案
为解决电力系统中可能发生的协同攻击事件,文章提出包含单点防御、级联防御和全局防御的三级联合防御模型,配合攻防推演模块和策略规约模块,能够实现针对电力系统协同攻击的有效防御。三级防御分析器分别基于攻击防御树、连锁故障和深度强化学习实现,其核心为基于多智能体行动者-注意力-评论家框架(multi-agent actor attention critic,MAAC)的全局防御分析模型,MAAC能够考虑攻击者与防御者之间的竞争协作关系进而给出防御策略,使其更加适合电力信息物理系统(cyber physical systems,CPS)复杂的攻防场景分析。实验采用IEEE总线系统为基础构造电力CPS,环境中的数据从实际电力系统引入,使MAAC的训练学习面向真实环境。实验结果表明,该模型在收敛速度和防御性能上均优于其他模型,证明所提出的联合防御模型能够有效提升电力CPS面对复杂协同攻击场景的防御能力。
基于深度强化学习的Π型阻抗匹配网络多参数最优求解方法
针对电力线信道阻抗变化复杂、负载阻抗不匹配造成通信质量差等问题,提出一种基于深度强化学习的Π型阻抗匹配网络多参数最优求解方法,并验证分析了深度强化学习对于寻找最优匹配参数的可行性。首先,建立Π型网络结构,推导窄带匹配和宽带匹配场景下的最优匹配目标函数。其次,采用深度强化学习,利用智能体的移动模拟实际匹配网络的元件参数变化,设置含有理论值与最优匹配值参数的公式作为奖励,构建寻优匹配模型。然后,分别仿真验证了窄带匹配和宽带匹配两种应用场景并优化模型的网络参数。最后,仿真结果证明,经过训练后的最优模型运行时间较短且准确度较高,能够较好地自动匹配电力线载波通信负载阻抗变化,改善和提高电力线载波通信质量。
基于深度强化学习的有源配电网电压分层控制策略
分布式电源发电的随机性和波动性,给有源配电网(active distribution network,ADN)的电压控制带来了严峻的挑战,在此背景下,亟需一种高效的电压控制策略来保证ADN的安全运行。 方法 基于深度强化学习方法,提出了一种双层区域配电网电压控制策略。首先,以调压设备的调节特性和可控元素复杂化的特点为前提,针对ADN辐射网架结构,设计了区域协调控制区域和本地自治控制区域,分别构建每个区域的电压控制模型;然后,通过深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法对该模型进行求解,以实现实时跟踪电压变化的目的,有效解决了ADN运行过程中电压控制问题;最后,通过IEEE 33节点仿真算例对该方法进行了验证。 结果 利用DQN算法和DDPG算法分别求解协调控制区域和本地自治区域的控制变量,实现了ADN系统电压调节的实时决策,解决了ADN潮流双向流动、电压复杂多变的问题。 结论 所提控制策略控制电压偏差效果明显,具有很强的准效性和实用性。