gradio简单搭建——关键词匹配筛选【进一步优化】

news/2024/5/3 23:26:12/文章来源:https://blog.csdn.net/qq_34758157/article/details/137603117

gradio简单搭建——关键词匹配筛选[进一步优化]

    • 任务回顾
    • 新的想法:无效元素筛选
    • 界面搭建
    • 数据处理与生成过程
    • 交互界面展示

任务回顾

apply \text{apply} apply方法的使用一节中,简单提到了任务目标:通过关键词的形式,在文本数据中体现出主体的工作类型

但这个目标执行之前,可以尝试对数据先一步进行清洗:如果文本数据满足一些关键词构成的模板,这种数据更容易地被查找出与工作性质相关的信息,而不需要去观察文本数据的其他位置。例如如下几组关键词组成模板:

mode = {1:['进行','作业'],2:['进行','工作'],3:['操作','时'],4:['操作','过程中']
}

在一些示例中,可以轻松地通过这些模板推理出主体对应的工作性质。例如:

某人在车间内操作钻床,不小心被铁屑蹭伤。

结合上述模板,可以直接观察出:主体的工作性质和钻床相关。从而引出上一节使用展示工具gradio实现一个通过单元素/多元素顺序匹配筛选表格数据的简单交互平台,本节将对其进行进一步优化
初始版本展示

新的想法:无效元素筛选

单元素/多元素思路的启发后,想起了《三体3:死神永生》中的低光速黑域

若星球被低光速黑域笼罩,外星文明远远地看上一眼,就知道是绝对安全的——光都无法逃离出来,黑域内的生物自然无法逃离,这就是宇宙安全声明。

言归正传,在文本数据中是否也可能存在这种情况——“远远”地看上一眼,就可以知道:文本内信息对于主体工作性质的描述几乎无关联。例如:

某人在上班途中,与电动车相撞受伤。

分析:首先文本中并没有直接描述主体的工作性质信息(岗位、职位),其次可以通过推理:上班途中,意味着其没有到达预定岗位开始工作,可以归纳出:上班途中发生的事情,大概率与主体的工作性质无关。
也存在极个别情况~但减轻工作量的目的确实达到了。

想法有了,继续使用展示工具gradio对交互平台进行优化,包含两个方面:

  • 加入无效元素筛选功能:只要数据中出现关键词,将该数据在本次匹配筛选过程中去除
  • 关键词模板功能不冲突:各自可以单独执行,也可以混用。

界面搭建

import gradio as gr
from file_generator import generate_fileclass CONST:file_type_list = ['xlsx']def submit(input_file,invalid_task,invalid_keyword_input,task,keyword_input,desc):print(f'task:{task}')print(f'keyword_input:{keyword_input}')print(f'invalid_task:{invalid_task}')print(f'invalid_keyword_input:{invalid_keyword_input}')# 输入文件格式设置if '\\' in input_file:input_file = input_file.replace('\\','/')suf = input_file.split('.')[-1]if suf not in CONST.file_type_list:raise gr.Error('不支持的格式:{},请检查文件格式'.format(suf))if not invalid_task and not task:raise gr.Error('[无效元素匹配]与[单/多元素匹配]至少选择一个')else:# [无效元素匹配]逻辑描述if invalid_task:if invalid_keyword_input:if invalid_task == '禁用':raise gr.Error('无效元素匹配[禁用]时,无法输入无效元素') # 选择禁用时,文本框不可用else:if ',' in invalid_keyword_input:invalid_keyword_input = invalid_keyword_input.replace(',',',')if ',' in invalid_keyword_input:invalid_keyword_list = invalid_keyword_input.split(',')else:invalid_keyword_list = [invalid_keyword_input]else:if invalid_task == '启用':raise gr.Error('无效元素匹配[启用]时,请输入无效元素') # 选择启用时,文本框内必须输入无效元素else:invalid_keyword_list = list()else:invalid_keyword_list = list() # 未选择使用[无效元素匹配]# [单/多元素匹配]逻辑描述if task:if not keyword_input:raise gr.Error('请输入匹配关键词')  # 已选择[单/多元素匹配]条件下,文本框内必须输入匹配元素else:if ',' in keyword_input:keyword_input = keyword_input.replace(',',',')if ',' in keyword_input:if task == '单元素匹配':raise gr.Error('单元素匹配模式不支持输入多个关键词')else:keyword_list = keyword_input.split(',')else:if task == '多元素匹配':raise gr.Error('多元素匹配模式不支持输入单个关键词')else:keyword_list = [keyword_input]else:task = '无元素匹配'keyword_list = list() # 未选择使用[单/多元素匹配]output = generate_file(input_file,task,invalid_task,keyword_list,invalid_keyword_list)return outputdescription = """
1. 单元素匹配:筛选出包含输入元素的样本;
2. 多元素匹配:筛选出按输入元素顺序,包含输入元素的样本;3. 无效元素匹配:元素匹配过程中,一旦出现无效元素,则不包含该样本;
一次性可以输入多个元素,使用逗号(英文)分隔;
例: 上班途中,下班途中,...4. [无效元素匹配]与[单/多元素匹配]操作之间可单独使用,也可混用;
"""demo = gr.Interface(fn=submit,inputs = [gr.File(file_count="single",label="上传文件",file_types=CONST.file_type_list),# 无效元素匹配gr.Radio(choices=['启用','禁用'],label='无效元素匹配'),gr.Textbox(label='无效关键词',placeholder='可以一次输入多个数据,使用逗号(英文)间隔;若选择禁用,文本框为空'),# 匹配元素单选框gr.Radio(choices=['单元素匹配','多元素匹配'],label='选择元素匹配模式'),gr.Textbox(label='匹配关键词',placeholder='请输入匹配关键词'),gr.Text(description,label='使用说明')],outputs=gr.File(label='输出文件'),title='单元素/多元素匹配筛选数据',examples=[['测试文件.xlsx','启用','上班途中,下班途中','',''],['测试文件.xlsx','禁用','','',''],['测试文件.xlsx','','','单元素匹配','作业时'],['测试文件.xlsx','','','多元素匹配','操作,过程中'],['测试文件.xlsx','启用','上班途中,下班途中','多元素匹配','操作,时']]
)demo.launch(share=True, server_name='0.0.0.0',server_port=8706)

数据处理与生成过程

import pandas as pd
import osdef sorted_keywords_update(df,task,invalid_task,keyword_list,invalid_keyword_list):def sorted_keywords(str_input,sorted_word_list):"""查找列表中的关键词,如果关键词有序地匹配成功返回True,否则返回False"""count = 0while count < len(sorted_word_list):if sorted_word_list[count] in str_input:str_input = "".join(str_input.split(sorted_word_list[count])[1:])count += 1else:breakif count == len(sorted_word_list):return Trueelse:return Falsedef eliminate_invalid(df_input,invalid_keyword_list):"""无效元素匹配[启用]状态下,筛除包含invalid_keyword_list内词对应的行"""for invalid_word in invalid_keyword_list:df_input = df_input[~df_input['文本信息'].str.contains(invalid_word)]return df_inputdef mode_2_rules(row):"""多元素匹配模式规则"""return sorted_keywords(row['文本信息'],keyword_list) == Truedef mode_1_rules(df_input, keyword_list):"""单元素匹配模式规则"""assert len(keyword_list) == 1contain_df = df_input[df_input['文本信息'].str.contains(keyword_list[0])]return contain_df# 删除字段中的空元素sub_df = df[~df['文本信息'].isna()]# 筛选无效元素过程if invalid_task == '启用':invalid_sub_df = eliminate_invalid(sub_df,invalid_keyword_list)else:invalid_sub_df = sub_df #[禁用/未选择]时不做处理;# 元素匹配过程if task == '单元素匹配':contain_df = mode_1_rules(invalid_sub_df,keyword_list)elif task == '多元素匹配':contain_df = invalid_sub_df[invalid_sub_df.apply(mode_2_rules,axis=1)]else:contain_df = invalid_sub_df #同上,[未选择]时不做处理;# 创建输出文件夹并输出文件output_dir = f'./output/match_keyword/{task}'output_path = f'{output_dir}/{task}_res.xlsx'os.makedirs(output_dir, exist_ok=True)contain_df.to_excel(output_path,index=False)return output_pathdef generate_file(file_path,task,invalid_task,keyword_input,invalid_keyword_input):"""file_path: 待优化数据文件路径task: 匹配模式:[单模式匹配,多模式匹配]invalid_task: 无效匹配模式:[启用,禁用]keyword_input: 匹配关键词invalid_keyword_input: 无效匹配关键词"""df = pd.read_excel(file_path)# 数据生成平台output_file_path = sorted_keywords_update(df,task,invalid_task,keyword_input,invalid_keyword_input)return output_file_path

交互界面展示

初始状态下,交互界面的展示效果如下:
试了几个例子~
初始状态界面
执行结束后,交互界面的展示效果如下:
执行结束界面

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1045730.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三维点云:对原始点云数据进行体素化

文章目录 一、原始点云二、对原始点云进行体素化三、结果展示 一、原始点云 &#x1f349;原始点云为.pts文件&#xff0c;内容为x, y, z的坐标 原始点云展示 二、对原始点云进行体素化 使用open3d库实现&#xff0c;如果没有需要在命令行执行pip install open3d import o…

【STL】vector

目录 1. vector的使用 1.1 vector的定义 1.2 vector iterator 的使用 1.3 vector 空间增长问题 1.4 vector 增删查改 1.5 vector 迭代器失效问题&#xff08;重点&#xff09; 2.vector模拟实现 1. vector的使用 1.1 vector的定义 1.2 vector iterator 的使用 1.3 vecto…

【PDF-XSS攻击】Java项目-上传文件-解决PDF文件XSS攻击

文章目录 背景解决pdfbox依赖控制器代码PdfUtils工具类 验证最后源码参考 背景 上传xss-pdf造成存储型xss因为在浏览器直接预览的PDF&#xff0c;而不是预览&#xff0c;所以安全部门认为会有XSS漏洞 解决 安全部门修复建议 1、根据白名单的标签和属性对数据进行过滤&#…

linux大文件IO

在Linux中处理大文件&#xff08;通常指大小超过2GB的文件&#xff09;时&#xff0c;需要使用特定的系统调用和标志&#xff0c;以确保程序能够正确地处理大文件的读写。这主要是因为在32位系统上&#xff0c;传统的文件偏移量和文件大小使用off_t类型表示&#xff0c;它通常是…

揭秘ChatGPT预训练数据集

自大语言模型引领新一代的AI浪潮之后&#xff0c;对于Open AI发布的GPT系列LLM使用的数据集一直是行业内的谜&#xff0c;我们都知道&#xff0c;随着模型的参数量提升&#xff0c;预训练数据的使用量也同步增加&#xff0c;下面就让我们从相关论文和分析从探索GPT-X大模型的预…

地理信息系统(ArcGIS)在水文水资源、水环境中的应用

刘老师&#xff08;副教授&#xff09;&#xff1a;来自北京重点高校资深专家&#xff0c;长期从事水资源与水环境、流域污染控制与管理、非点源模拟与控制、环境信息系统开发、环境遥感与GIS应用等领域的研究&#xff0c;发表多篇Sci论文、具有资深的技术底蕴和专业背景。 1、…

wps可以打钩的框框

方法一&#xff1a; 输入2611&#xff0c;按下altx 方法二&#xff1a; R 选中后->开始->字体wingdings字体

自动驾驶硬件系统-激光雷达(Lidar)测量模型

自动驾驶硬件系统-激光雷达(Lidar)测量模型 激光雷达(Lidar, Light Detection And Ranging)是Google系自动驾驶技术路线广泛应用的硬件传感器。 附赠自动驾驶学习资料和量产经验&#xff1a;链接 1、激光雷达(Lidar)的工作原理 通过持续不断的发射激光束&#xff0c;激光束遇…

winform入门篇3 -- 手工创建窗口

手工创建窗口 Form, 窗口 可以手工创建一个窗口类 class MyFrom : Form { } 1.创建一个windows 窗体应用 这样就自动创建了一个窗体应用Form1 现在不使用这个自动创建的&#xff0c;手工写一个 2.手动创建 1.删除Form1.cs 2.添加 新建MyForm 类 让该类继承Form 在构造…

爬虫 新闻网站 以湖南法治报为例(含详细注释) V1.0

目标网站&#xff1a;湖南法治报 爬取目的&#xff1a;为了获取某一地区更全面的在湖南法治报已发布的宣传新闻稿&#xff0c;同时也让自己的工作更便捷 环境&#xff1a;Pycharm2021&#xff0c;Python3.10&#xff0c; 安装的包&#xff1a;requests&#xff0c;csv&#xff…

Unity类银河恶魔城学习记录12-8 p130 Skill Tree UI源代码

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释&#xff0c;可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili UI.cs using UnityEngine;public class UI : MonoBehaviour {[SerializeFi…

Python:如何对FY3D TSHS的数据集进行重投影并输出为TIFF文件以及批量镶嵌插值?

完整代码见 Github&#xff1a;https://github.com/ChaoQiezi/read_fy3d_tshs&#xff0c;由于代码中注释较为详细&#xff0c;因此博客中部分操作一笔带过。 01 FY3D的HDF转TIFF 1.1 数据集说明 FY3D TSHS数据集是二级产品(TSHS即MWTS/MWHS 融合大气温湿度廓线/稳定度指数/…

【智能算法】省时方便,智能算法统计指标——一键运行~

目录 1.常用统计指标2.参数统计检验3.结果展示4.自定义修改测试框架 1.常用统计指标 测试智能算法性能时&#xff0c;常常会用到以下5种常用指标&#xff0c;简单不赘述&#xff1a; 最优值、最差值、均值、中位数、标准差 2.参数统计检验 单纯依靠常用统计指标说服力不足&…

结构型模式--3.组合模式【草帽大船团】

1. 好大一棵树 路飞在德雷斯罗萨打败多弗朗明哥之后&#xff0c;一些被路飞解救的海贼团自愿加入路飞麾下&#xff0c;自此组成了草帽大船团&#xff0c;旗下有7为船长&#xff0c;分别是&#xff1a; 俊美海贼团75人 巴托俱乐部56人 八宝水军1000人 艾迪欧海贼团4人 咚塔塔海…

notification+Android笔记

notification通知应用UI之外的消息并显示即推送&#xff1b; NotificationManager负责管理通知&#xff0c;例如显示取消&#xff0c;删除等&#xff1b; import android.app.Notification; import android.app.NotificationChannel; import android.app.NotificationManager;…

【SpringBoot3】Bean管理

1.Bean扫描 1.1传统Spring 标签&#xff1a;<context:component-scan base-package"com. example "/>注解&#xff1a;ComponentScan(basePackages "com.example") 1.2SpringBoot SpringBoot默认扫描启动类所在的包及其子包 2.Bean注册 如果要注…

水牛社:互联网赚钱秘籍,免费项目,你真敢要吗?

免费是最贵的。真正理解并使用这句话的只有少数人&#xff0c;今天在网上分享一下免费项目背后的逻辑&#xff0c;抛开现象&#xff0c; 本质是最重要的。 我从事互联网工作15年。不管是过去还是现在&#xff0c;总有人喜欢问有没有免费项目&#xff1f; 其实我平时懒得回答…

如何使用 ChatGPT

原文&#xff1a;How To Use Chatgpt 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 总体介绍 在人工智能和在线创业不断扩张的世界中&#xff0c;ChatGPT 的出现为寻求利用 AI 推动在线成功的个人和企业开辟了令人兴奋的新途径。本书《如何使用 ChatGPT&#xff1a;…

【Linux】进程初步理解

个人主页 &#xff1a; zxctscl 如有转载请先通知 文章目录 1. 冯诺依曼体系结构1.1 认识冯诺依曼体系结构1.2 存储金字塔 2. 操作系统2.1 概念2.2 结构2.3 操作系统的管理 3. 进程3.1 进程描述3.2 Linux下的PCB 4. task_struct本身内部属性4.1 启动4.2 进程的创建方式4.2.1 父…

3 突破编程_前端_SVG(rect 矩形)

1 rect 元素的基本属性和用法 在SVG中&#xff0c;<rect> 元素用于创建矩形。 <rect> 元素有一些基本的属性&#xff0c;可以用来定义矩形的形状、位置、颜色等。以下是这些属性的详细解释&#xff1a; x 和 y &#xff1a;这两个属性定义矩形左上角的位置。 x …