电力非结构化大文本特征提取研究
电力大文本中存在大量专业词汇缩写和别名等不规则表达,现有分词工具无法有效识别电气工程领域专业词汇,这对非结构化文本的分析和利用造成很大影响。首先,根据电气工程领域非结构化文本特点,提出一种电气工程领域词汇索引规则,基于该索引规则构建的索引集进行分词能够有效改善分词效果,为电力文本特征提取提供基础。其次,利用有效的长文本分割算法保留原始文本语义信息,将基于BERT模型提取的文本特征信息与Word2Vec提取的电力词汇特征信息进行联合嵌入,从而提取到准确的电力非结构化大文本特征。最后,通过实验证明了所提出的电力非结构化大文本特征提取方法的有效性。
面向SDH光传输系统告警排查的领域知识图谱构建方法
SDH光传输系统是支撑大电网安全运行的关键电力通信设施,当前对于实时严重告警的排查主要依赖通信调度人员的经验开展关联分析,该模式存在排查速度慢、业务协同差等不足。为了解决以上问题,提出了一种面向SDH光传输系统告警的领域知识图谱构建方法。针对告警文本中实体嵌套和边界难以确定的问题,构建BERT+Bi-LSTM+CNN模型进行命名实体识别。采用Multi-Attention+TextRNN模型进行关系抽取,并基于GCN+Self-Attention进行知识图谱融合。以某线路的通信设备告警文本为实验对象,采用所提出的方法进行知识抽取和融合,实体识别准确率达到91.42%,知识融合的hits@1能达到38.1%,验证了针对SDH光传输系统告警场景的领域知识图谱构建方法的有效性。
基于BGAS模型的电网服务质量提升方法研究
通过数据挖掘任务掌握用户痛点,以及构建电力AI客服是国家电网公司提升服务质量的两大途径。实现上述途径面临如何针对电力文本实现准确高效分类的问题。现有文本分类技术通常使用深度学习模型进行特征表示,之后使用Softmax层作为分类器实现分类。但有时SVM作为分类器在对高维复杂的文本张量进行分类时效果可能更佳,而直接使用SVM进行分类无法对进行特征表示的深度学习模型进行参数调优。基于上述背景和技术现状,文章提出了一种基于BGAS(BERT-BiGRU-Attention-SVM/Softmax)模型的文本分类方法,先使用Softmax层对特征表示部分进行参数调优,再将分类器替换为SVM,以达到最佳的文本分类效果。为检验BGAS模型的性能,分别设计了分类实验和鲁棒性实验。实验中F1值分别达到了0.844 1和0.733 5,与最佳基线模型相比F1值分别提升了0.024 5和0.019 4。
基于MacBERT-BiLSTM-CRF模型的继电保护装置缺陷知识图谱构建方法
电网发展至今积累了大量继电保护装置缺陷文本数据,尚未被有效挖掘利用。此外,继电保护装置的缺陷排除工作过度依赖运行人员的专业能力,现场运维工作难度大。针对上述问题,提出基于MacBERT-BiLSTM-CRF模型的继电保护装置缺陷知识图谱构建方法。首先,分析继电保护装置缺陷文本的记录特点,对非结构化文本进行数据清洗、数据标注以及数据增强处理。其次,基于BERT-BiLSTM-CRF模型构建MacBERT-BiLSTM-CRF模型进行实体抽取任务。然后,定义继电保护装置缺陷文本的关系抽取规则,结合实体抽取模型共同完成关系抽取任务。最后,构建继电保护装置缺陷知识图谱的模式层,并利用Neo4j图数据库实现知识图谱数据层的存储。算例分析表明,所提数据处理方法能够得到高质量BIO标注数据集。相比于传统BERT-BiLSTM-CRF模型,MacBERT- BiLSTM-CRF模型的实体抽取效果更好。基于模式层完成了继电保护装置缺陷知识图谱的构建与可视化展示,并提出继电保护装置缺陷辅助决策的应用流程与知识图谱的更新方法。