EPTC电力技术协作平台

共 5条 BERT

论文

电力非结构化大文本特征提取研究

发布日期：2024-07-22

电力大文本中存在大量专业词汇缩写和别名等不规则表达，现有分词工具无法有效识别电气工程领域专业词汇，这对非结构化文本的分析和利用造成很大影响。首先，根据电气工程领域非结构化文本特点，提出一种电气工程领域词汇索引规则，基于该索引规则构建的索引集进行分词能够有效改善分词效果，为电力文本特征提取提供基础。其次，利用有效的长文本分割算法保留原始文本语义信息，将基于BERT模型提取的文本特征信息与Word2Vec提取的电力词汇特征信息进行联合嵌入，从而提取到准确的电力非结构化大文本特征。最后，通过实验证明了所提出的电力非结构化大文本特征提取方法的有效性。

关键词：

特征提取,BERT

549次浏览

论文

面向SDH光传输系统告警排查的领域知识图谱构建方法

发布日期：2023-09-26

SDH光传输系统是支撑大电网安全运行的关键电力通信设施,当前对于实时严重告警的排查主要依赖通信调度人员的经验开展关联分析,该模式存在排查速度慢、业务协同差等不足。为了解决以上问题,提出了一种面向SDH光传输系统告警的领域知识图谱构建方法。针对告警文本中实体嵌套和边界难以确定的问题,构建BERT+Bi-LSTM+CNN模型进行命名实体识别。采用Multi-Attention+TextRNN模型进行关系抽取,并基于GCN+Self-Attention进行知识图谱融合。以某线路的通信设备告警文本为实验对象,采用所提出的方法进行知识抽取和融合,实体识别准确率达到91.42%,知识融合的hits@1能达到38.1%,验证了针对SDH光传输系统告警场景的领域知识图谱构建方法的有效性。

关键词：

SDH光传输系统,告警排查,知识抽取,知识融合,BERT,TextRNN

419次浏览

论文

基于改进BERT预训练模型的电力标准命名实体识别方法研究

发布日期：2024-12-18

近年来,电力行业高质量发展与数字化转型工作的重要性逐步凸显,对电力标准的数字化转型研究提出新的需求,也为电力标准的管理、实施和监督带来新的挑战和机遇。电力领域作为社会经济发展的重要支撑,其术语和专有名词具有很高的特定性和复杂性,传统的基于规则与特征工程的命名实体识别方法在处理电力领域的标准文档时存在识别准确率低、术语难分割、依赖专家经验的局限性。为了克服这些问题,文章提出改进BERT的命名实体识别模型,通过引入领域内的电力术语语料库、词特征与词汇信息,在电力标准语料上对10种电力实体进行识别,F1达到了81%,实现对于电力领域长术语实体的有效识别,提高电力标准文档的处理效率和准确性,为电力标准的信息处理和应用提供支持。通过文章的研究能够促进电力标准文档的自动化处理能力,提高电力行业的数字化水平,为电力行业的规范制定、知识管理和决策支持等方面提供有力的技术支撑。

关键词：

自然语言处理,标准,数字化,电力标准

274次浏览

论文

基于BGAS模型的电网服务质量提升方法研究

发布日期：2024-10-11

通过数据挖掘任务掌握用户痛点，以及构建电力AI客服是国家电网公司提升服务质量的两大途径。实现上述途径面临如何针对电力文本实现准确高效分类的问题。现有文本分类技术通常使用深度学习模型进行特征表示，之后使用Softmax层作为分类器实现分类。但有时SVM作为分类器在对高维复杂的文本张量进行分类时效果可能更佳，而直接使用SVM进行分类无法对进行特征表示的深度学习模型进行参数调优。基于上述背景和技术现状，文章提出了一种基于BGAS(BERT-BiGRU-Attention-SVM/Softmax)模型的文本分类方法，先使用Softmax层对特征表示部分进行参数调优，再将分类器替换为SVM，以达到最佳的文本分类效果。为检验BGAS模型的性能，分别设计了分类实验和鲁棒性实验。实验中F1值分别达到了0.844 1和0.733 5，与最佳基线模型相比F1值分别提升了0.024 5和0.019 4。

关键词：

自然语言处理,BERT

176次浏览

论文

基于MacBERT-BiLSTM-CRF模型的继电保护装置缺陷知识图谱构建方法

发布日期：2024-11-05

电网发展至今积累了大量继电保护装置缺陷文本数据，尚未被有效挖掘利用。此外，继电保护装置的缺陷排除工作过度依赖运行人员的专业能力，现场运维工作难度大。针对上述问题，提出基于MacBERT-BiLSTM-CRF模型的继电保护装置缺陷知识图谱构建方法。首先，分析继电保护装置缺陷文本的记录特点，对非结构化文本进行数据清洗、数据标注以及数据增强处理。其次，基于BERT-BiLSTM-CRF模型构建MacBERT-BiLSTM-CRF模型进行实体抽取任务。然后，定义继电保护装置缺陷文本的关系抽取规则，结合实体抽取模型共同完成关系抽取任务。最后，构建继电保护装置缺陷知识图谱的模式层，并利用Neo4j图数据库实现知识图谱数据层的存储。算例分析表明，所提数据处理方法能够得到高质量BIO标注数据集。相比于传统BERT-BiLSTM-CRF模型，MacBERT- BiLSTM-CRF模型的实体抽取效果更好。基于模式层完成了继电保护装置缺陷知识图谱的构建与可视化展示，并提出继电保护装置缺陷辅助决策的应用流程与知识图谱的更新方法。

关键词：

继电保护装置,知识图谱

147次浏览