电力NLP:指令票规范识别

news/2024/5/18 20:43:26/文章来源:https://blog.csdn.net/kobeyu652453/article/details/130535406

文章目录

    • 任务目的
    • 想法讲解
    • 数据集介绍
      • 1电气主语
      • 2操作任务判断数据集
      • 3操作内容判断数据集
      • 4错误词数据集
    • 解法讲解
    • 程序、数据集下载链接


任务目的

识别调度指令票(或者其它操作票)是否规范。

想法讲解

按石第2014—16号定值单投入石双西线161开关6区保护
将石双西线161开关由热备用转冷备用
合上石双西线161开关操作电源空开
苍湖站110千伏周苍线143开关由冷备用转热备用
退出白清站110kV分段101开关分段备自投
栾北站2号主变中压侧312开关由热备用转运行

观察以上几句调度指令,发现都有共同点。

  • 1 都有一个电气主语。如“开关”。
  • 2 整句指令意思是 (那个的)(电气主语)(做了什么)。 上述几个指令中(那个的)指“线、分段、主变”是名词;(电气主语)指“开关”是名词;(做了什么)指“投入、由热备用转冷备用、合上、由冷备用转热备用、退出、由热备用转运行”。
  • 3 观察指令,发现(那个的)必须在(电气主语)前面;(做了什么)可以在(电气主语)前面,也可以在(电气主语)后面。
    思路如下:

在实际中,电气主语只有那几个,如“开关、刀闸、主变、线、主变、站用变、接地线、保护、PT、电容器、电抗器”等。首先准备好每个“电气主语”的“那个的”或者“做了什么”词语搭配规则文件,见数据集文件。

以 “将石双西线161开关由热备用转冷备用”为例。

  • 第一步:首先找到该文本的“电气主语”为“开关”。如果不存在“电气主语”,说明该句文本不是指令。

  • 第二步:在规则文件中判断该“电气主语”是否有“那个的”和“做了什么”两种词语搭配。有些电气主语人为只设置了一种词语搭配。

  • 第三步: 如果规则文件中该“电气主语”存在“那个的”词语搭配。则在指令中该“电气主语”的前半部分,如“将石双西线161开关”文字中,寻找是否有词语属于该“电气主语”的“那个的”。如果没找到,说明有错。本例子找到词语为“线”。

  • 第四步: 如果规则文件中该“电气主语”存在“做了什么”词语搭配。在整句指令寻找是否有词语属于该“电气主语”的“做了什么”。如果没找到,说明有错。本例子找到词语为“由热备用转冷备用”。

  • 第五步:针对整句指令,判断该指令是否有明显错误词,如“kV”,如果有则说明指令有错。

    针对指令票中的每一句文本都应用以上方法。

数据集介绍

1电气主语

表格名称命名为“电气词汇.xls”
里面只有一列数据。为电气专业的设备名称。
示例数据如下,可以自定义添加修改数据,注意表格格式保持一致即可。

开关
刀闸
主变
线
站用变
接地线
保护
PT
电容器
电抗器

2操作任务判断数据集

表格名称命名为“题目调度规程.xls”
里面有4列数据。分别为“关键词、正确搭配、编号、解释”。
“关键词”为“电气主语”。“正确搭配”为在一句调度指令中,常常和关键词一起出现的词汇。“编号”为表示该“正确搭配”为“关键词”的“那个的”还是“做了什么”,我用1表示“那个的”,2表示“做了什么”(并不是所有“关键词”都必须2种,如可以只设置“那个的”或者“做了什么”,则该电气主语的词语搭配规则只有一种)。“解释”为对该行规则进行注释(方便阅读),可以写可以不写。
部分示例数据如下,可以自定义添加修改数据。

关键词 正确搭配 编号 解释
开关 由运行转热备用 2 搭配必须有“由转”
开关 由运行转冷备用 2 搭配必须有“由转”
开关 由热备用转运行 2 搭配必须有“由转”
开关 由热备用转冷备用 2 搭配必须有“由转”
开关 由冷备用转热备用 2 搭配必须有“由转”
开关 由冷备用转运行 2 搭配必须有“由转”
开关 线 1 设备双层编号
开关 主变 1 设备双层编号
开关 分段 1 设备双层编号
开关 母联 1 设备双层编号
开关 内桥 1 设备双层编号
开关 站用变 1 设备双层编号
开关 电容器 1 设备双层编号
开关 电抗器 1 设备双层编号
线 千伏 1 加电压等级
母联 千伏 1 加电压等级

3操作内容判断数据集

表格名称命名为“内容调度规程.xls”
里面有4列数据。分别为“关键词、正确搭配、编号、解释”。
“关键词”为“电气主语”。“正确搭配”为在一句调度指令中,常常和关键词一起出现的词汇。“编号”为表示该“正确搭配”为“关键词”的“那个的”还是“做了什么”,我用1表示“那个的”,2表示“做了什么”(并不是所有“关键词”都必须2种,如可以只设置“那个的”或者“做了什么”,则该电气主语的词语搭配规则只有一种)。“解释”为对该行规则进行注释(方便阅读),可以写可以不写。
部分示例数据如下,可以自定义添加修改数据。

关键词 正确搭配 编号 解释
开关 由运行转热备用 2 必须有“由转”,开关不能写转检修
开关 由热备用转冷备用 2 必须有“由转”,开关不能写转检修
开关 由热备用转冷备用 2 必须有“由转”,开关不能写转检修
开关 由冷备用转热备用 2 必须有“由转”,开关不能写转检修
开关 由热备用转运行 2 必须有“由转”,开关不能写转检修
开关 倒 2 1母倒2母
开关 投入 2 保护指令
开关 合上 2 空开
开关 断开 2 空开
开关 线 1 设备双层编号
开关 主变 1 设备双层编号
开关 分段 1 设备双层编号
开关 母联 1 设备双层编号
开关 内桥 1 设备双层编号
状态 确认 1 确认非检查
母联 千伏 1 加电压等级
分段 千伏 1 加电压等级
旁路 千伏 1 加电压等级
SVC 千伏 1 加电压等级
电容器 千伏 1 加电压等级
电抗器 千伏 1 加电压等级
PT 千伏 1 加电压等级
刀闸 拉开 2 拉开、合上刀闸
刀闸 合上 2 拉开、合上刀闸
二次空开 断开 2 断开、合上二次空开
二次空开 合上 2 断开、合上二次空开

4错误词数据集

表格名称命名为“错误词.xls”
里面有2列数据。分别为“词汇、解释”。
只有调度指令里有错误词,则认为该调度指令有错。
部分示例数据如下,可以自定义添加修改数据。

词汇 解释
检查 要写成“确认”
#站用变、主变要写成阿拉伯数字,禁止#1、#2
1母 要写成罗马数字
2母 要写成罗马数字
kv 电压等级为汉字
KV 电压等级为汉字
Kv 电压等级为汉字
kV 电压等级为汉字

解法讲解

数据集处理部分
1 首先应用程序得到“操作任务 规范字典”,该字典有1个字典。
命名为“result”,result 类似于{‘开关’: {2: [‘由运行转热备用’, ‘由热备用转冷备用’, ‘由冷备用转热备用’, ‘由热备用转运行’, ‘合上’, ‘断开’, ‘投入’, ‘倒’], 1: [‘线’, ‘主变’, ‘分段’, ‘母联’, ‘内桥’, ‘外桥’]},‘状态’: {1: [‘确认’]}, ‘母联’: {1: [‘千伏’]}, ‘分段’: {1: [‘千伏’]}, ‘旁路’: {1: [‘千伏’]},‘SVC’: {1: [‘千伏’]}, ‘电容器’: {1: [‘千伏’]}, ‘电抗器’: {1: [‘千伏’]}, ‘PT’: {1: [‘千伏’]},‘刀闸’: {2: [‘拉开’, ‘合上’]}, ‘二次空开’: {2: [‘断开’, ‘合上’]}, ‘保险’: {2: [‘取下’, ‘装上’]},‘接地线’: {2: [‘装设’, ‘挂’, ‘拆除’]}, ‘保护’: {2: [‘投入’, ‘退出’], 1: [‘开关’, ‘主变’, ‘母差’]},‘集控站’: {2: [‘站’]}, ‘监控’: {2: [‘站’]}, ‘县调’: {2: [‘站’]}, ‘空开’: {2: [‘合上’, ‘断开’]}}。可以发现result是一个嵌套字典,第一层的键为“关键词”如开关,对应电气主语;第二层的键为“编号”如1,对应“那个的”(开关有1,2);第二层键对应的值为“正确词语搭配”是列表形式。

2 同理应用程序得到“操作内容 规范字典”,该字典也有1个字典,和上面类似。
3 应用程序得到“错误词 字典”,类似于{‘检查’: [‘要写成“确认”’, ‘要写成确认’], ‘1母’: [‘要写成罗马数字’],…}。该字典的键存储的是电气调度术语中规定的错误词。该键对应的值存储的为注释。
4 应用程序得到“电气主语”词组。类似于
[开关,刀闸,主变,线,主变,站用变,接地线,保护,PT,电容器,电抗器]

判断部分
1 操作任务规范性判断:
第一步:遍历指令每一行,如果在当前行找到“操作任务”这个词则认为该句指令为操作任务。则进行后续几步。
第二步:遍历“操作任务 规范字典”中的每一个键(电气主语),用正则方法判断该句指令是否含有该键,如果含有该键(电气主语),则找到该行文本的“电气主语”。
第三步:判断该“电气主语”是否含有“编号1”,如果有,则在该行文本该“电气主语”的前半部分文字用正则方法寻找是否有词语属于该电气主语“那个的”的词语搭配。如果有,则说明指令没错。
第四步:判断该“电气主语”是否含有“编号2”,如果有,则在该行文本该“电气主语”的整句文字用正则方法寻找是否有词语属于该电气主语“做了什么”的词语搭配。如果有,则说明指令没错。
同时,查看该行文本是否有词语属于“错误词数据集”,如果有则该行文本有错。

示例:操作任务 110石双西线由双桂站供电倒至石马站供电
(1)首先从当行找到“操作任务”,则认定为该行文本为任务。
(2)从该行找到的电气主语为“线”。从“操作任务判断数据集”找到电气主语“线”只有一个编号1。
(3)从“线”的前半部分文本“操作任务 110石双西线”寻找正确词语搭配,发现没有一个词语属于“线”编号1的”正确词语搭配“,则判断该指令有错。
(4)从”错误词数据集“没有找到一个错误词语存在于该行指令。

2 操作内容规范性判断
遍历每一行,如果在当前行没有找到“操作任务”且同时从找到一个“电气主语(如开关或者主变)”则认为该句为操作任务,然后判断方法类似同上。

程序操作讲解
1将几个规则表格(“电气词汇.xls”、“题目调度规程.xls”、“内容调度规程.xls”、“错误词.xls”)和软件放在同一个文件夹。
2打开软件,自动生成几个规则文件路径(这几个规则文件路径目录为程序所在文件目录)

3 以表格或者txt或复制粘贴(CTRL+A(全选),CTRL+V)调度指令票内容。

4 在软件右侧进行 操作任务和操作内容规范识别。

5 帮助界面

优势
规则文件内容可以自定义添加修改,可以完成各种场景需要。
程序中查找是以“字典”进行,比for循环快。
不足之处
无法识别逻辑错误。毕竟需要专业知识
未来可以提升的点
可以加入爬虫程序,实现输入“调度指令票网址”,然后自动完成规范性识别。

程序、数据集下载链接

电力NLP(指令票规范识别)程序文件

在这里插入图片描述
作者:余登武

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_296900.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

突发!ChatGPT王炸级更新!支持GPT-4联网 Code Interpreter!

4月30日,OpenAI官方悄悄发布了联网版GPT-3.5。虽然名字变了,但使用体验却是换汤不换药,还是那套。 然而,万万没想到的是,刚过去没几天,昨天5月4日,鱼哥发现自己的Plus账号竟然多了一些能力&…

树莓派硬件介绍及配件选择

目录 树莓派Datasheet下载地址: Raspberry 4B 外观图: 技术规格书: 性能介绍: 树莓派配件选用 电源的选用: 树莓派外壳选用: 内存卡/U盘选用 树莓派Datasheet下载地址: Raspberry Pi …

C++11多线程:std::thread创建线程和std::async创建异步任务的区别,std::async创建异步任务后没有被推迟执行。

系列文章目录 文章目录 系列文章目录前言一、thread和async的区别1.1 新线程和异步任务1.2 std::async和std::thread最明显的不同,就是async有时候并不创建新线程。1.3 std::async和std::thread的区别1.4 std::async不确定性问题的解决 二、使用方法2.1 std::async创…

JVM学习随笔02——虚拟机内存区组成与内存溢出异常

一、Java虚拟机内存区组成图 1、程序计数器: 每个线程独占一个计数器,用来指示该线程下一条要执行的指令的地址。这一部分不会导致内存异常。PS:如果一个线程进入的是一般的Java方法,计数器指示的是下一条指令地址;如果…

浅谈“孔乙己”的长衫

书中的孔乙己 孔乙已是鲁迅笔下人物,穷困流倒还穿着象征读书人的长衫,迁腐、麻木。最近,大家自我调佩是“当代孔乙己”,学历成为思想负担,找工作时高不成低不就。 当代的“孔乙己” 如今社会,从小学开始每…

C# 学习abstract

abstract 顾名思义:抽象 从微软官方文档来看:abstract 修饰符指示被修改内容的实现已丢失或不完整。 abstract 修饰符可用于类、方法、属性、索引和事件。 在类声明中使用 abstract 修饰符来指示某个类仅用作其他类的基类,而不用于自行进行…

L4公司进军辅助驾驶,放话无图也能跑遍中国

作者 | Amy 编辑 | 德新 高阶智能驾驶走向规模量产,高精地图成为关键的门槛之一。今年,多家车企和智驾公司都喊出「不依赖高精地图,快速大规模落地」的口号。 华为、小鹏、元戎以及毫末等,可能是最快在国内量产 无高精图智…

服务器的基本概念与初始Ajax

1. 客户端与服务器 1.1 上网的目的 刷微博、看新闻、听歌、看电影。。。 本质目的:通过互联网的形式来获取和消费资源 1.2 服务器 上网过程中,负责存放和对外提供资源的电脑,叫做服务器。 1.3 客户端 上网过程中,负责获取…

nginx(七十三)nginx与Location响应头细节探讨

一 nginx与Location响应头细节探讨 ① 重定向和Location回顾 多种重定向跳转方式的差异 nginx之absolute_redirect、server_name_in_redirect、port_in_redirect 共同控制Location响应头 ② STS响应头导致307重定向 "第一次访问 http://www.baidu.com" 观察…

个人博客系统调试详细过程

系统功能的详细说明和源代码见以下链接:https://blog.csdn.net/shooter7/article/details/121180333相关的源码数据库文件、软件安装包可以联系博主koukou(壹壹23七2五六98) 调试过程如下: 文章目录 调试过程如下:一、数据库安装二、sql数据文件的导入三…

yolov5图像识别voc转yolo代码解析

https://github.com/ultralytics/JSON2YOLO https://blog.csdn.net/qq_51831335/article/details/127237772 目标检测数据集标签转换COCO2VOC、YOLO2VOC、JSON2YOLO <annotation><folder>VOC2007</folder><filename>000001.jpg</filename><s…

【2023/05/06】EDSAC

Hello&#xff01;大家好&#xff0c;我是霜淮子&#xff0c;2023倒计时第1天。 Share 去成为你本该成为的人&#xff0c;任何时候都不会太晚。 &#xff08;出处&#xff1a;乔治艾略特&#xff09; Day1 EDSAC&#xff1a;存储程序式计算机的开山之作。 part1 EDSAC&…

Linux进程状态及优先级

本文已收录至《Linux知识与编程》专栏&#xff01; 作者&#xff1a;ARMCSKGT 演示环境&#xff1a;CentOS 7 进程状态及优先级 前言正文进程状态就绪运行状态R阻塞睡眠状态 S休眠状态D挂起 暂停状态T前台与后台进程待追踪暂停状态t 死亡状态 X僵尸状态 Z 孤儿进程进程优先级查…

《Java虚拟机学习》 java代码的运行过程

1. Java文件转换 当我们保存java文件后&#xff0c;首先由编译器编译成class文件&#xff0c;然后通过Java虚拟机将class文件转换成字节码文件 2.Java虚拟机是怎么运行Java文件 首先将java文件加载到java虚拟机中&#xff0c;然后由虚拟机将类元信息存储在 虚拟机的方法区中。…

华为OD机试 - 各位相加(Java)

一、题目描述 给定一个非负整数 num&#xff0c;反复将各个位上的数字相加&#xff0c;直到结果为一位数。 二、思路与算法 各位相加&#xff0c;使用递归&#xff0c;出口是结果的长度等于1。 三、Java算法源码 public static int addDigits(int num) {recursion(num);re…

Maven 3.9.1下载安装配置一条龙(无压力)亲测

这里写自定义目录标题 前言一、下载 Apache Maven 3.9.11.1、请先检查自己的IDEA是否有这个条件&#xff0c;是否兼容1.2、Maven下载 二、Windows安装配置Maven2.1、解压2.2、新建 repository 本地仓库2.3、配置环境变量MAVEN_HOME 软件路径M2_HOME 本地仓库路径配置Path2.3.1新…

【BIM+GIS】Supermap打开BIM Revit模型的方式

Revit导出Supermap GIS格式数据的方法通常有三种:插件式导出、直接导入和标准交换格式(IFC)导出。 文章目录 一、Revit安装Supermap插件1. 安装Supermap插件2. UDB导出模型3. 打开模型二、Revit导出IFC格式1. Revit导出IFC2. Supermap导入IFC一、Revit安装Supermap插件 1. …

【TCP 重传、滑动窗口、流量控制、拥塞控制】

文章目录 重传机制超时重传快速重传SACK方法Duplicate SACK 滑动窗口流量控制那操作系统的缓冲区&#xff0c;是如何影响发送窗口和接收窗口的呢&#xff1f;窗口关闭 拥塞控制慢启动拥塞避免拥塞发生快速恢复 重传机制 TCP 实现可靠传输的方式之一&#xff0c;是通过序列号与…

大学校友会管理APP系统开发 重温同学梦再叙校园情

互联网技术的深入发展&#xff0c;让各行各业对网络的依赖都逐渐加深&#xff0c;可以说网络在今天已经成为无数个你我他不可或缺的平台。学生时代是一生中最美好的时期&#xff0c;校友是社会高效重要的社会资本和无形资产&#xff0c;校友与校友之间信息交流也需要依靠互联网…

破事精英2◎爬向未来

胡强的2033未免有些过去可怕&#xff0c;海星果然又是反派。 只剩“脑子”的胡强 400百斤只剩“嘴”的庞小白 将自己身体分成一个个“方块”的苏克杰 苍蝇满天飞“衣服堆”的金若愚 “脑子”送到月球打两份工的沙乐乐 有机器人或者分身帮我们干活赚钱&#xff0c;我们去吃喝玩…