一次直播和图像识别技术应用的探索之旅

news/2024/4/13 11:27:25/文章来源:https://blog.csdn.net/xinyebudaoshi/article/details/136506287

背景

Think Better

很多行业都在“卷”,作为金融科技行业的信也,也不例外。除了卷云计算、大数据和人工智能这些非常有深度的技术以外,信也向着技术融合创新的方向逐步探索,做得更好一些,为用户提供更好的价值,才是卷的目的。

起因

在金融科技行业的业务场景中,有一个比较常见的业务就是”授信“,例如给用户提高额度,那么就需要用户提交一些资料,来证明其还款能力,以提高授信额度。常见有的:提交车辆信息、税务记录、工资卡流水记录或学历认证等等。一般在产品功能设计中,给用户提供上传截图的功能,获取相应的资料,再通过风控系统与业务系统的核验,以满足业务流程的需   要。某些业务场景在对反欺诈诉求要求比较高的情况下,人工介入审核资料也是比较普遍的做法,但实际上,这是一个“斗智斗勇”的过程,因为收集到的资料很有可能是不是用户本人或是 PS  过的,很难保证真实性。在传统的业务模式中,风控系统的成本很高,上传多张截图并进行后续识别认证,用户体验也不是太好。

一个思考就来了:怎么能够降低风控成本,提升用户体验?

仔细想来,前面说的过程实际上就是一个“静态”的资料提交审核过程。这种“静态”的过程是个黑盒,一是无法得知用户获取资料的过程信息,二是资料获取后,难以进行违规操作的检测,避免造假。

如果整个过程中,有“一个人”在指导用户操作,并且全程检测呢?

用一个“程序”去看直播

将静态过程转变为动态过程

前面提到的老流程,是黑盒,难以实时风控策略,如果设计一套系统,让程序像一个人一样,从一开始就介入,指导着用户   现场操作,并全程录制并检测违规操作,那么就可以大大提高用户体验,增强反欺诈能力。思考这个程序的功能,可以得出,其须有识别和录制的功能:

  1. 用户操作的整个过程,可以使用屏幕直播推流的技术,让这个程序从一开就看到用户的屏幕,并记录整个过程
  2. 程序可以通过语音,告诉用户应该如何操作,跳转到哪个网页或者打开哪个 App
  3. 当用户达到指定的页面的时候,程序则可以将业务系统需要的信息截取保存下来
  4. 这个程序必须聪明点儿,它看着直播,还得能看懂直播,必须能仔细观察,看到哪些行为是违规的,理解力则依赖:图像识别技术

直播的选型与实践

主流直播的技术方向有两个:

  1. RTMP+CDN
  2. RTC+SD-RTN

特点

RTC

RTMP

用途

实时通信,如实时音视频通话、实时消息传递

实时媒体流传输,如直播、点播

特点

RTC

RTMP

传输方式

使用 UDP(User Datagram Protocol)传输

使用 TCP(Transmission Control Protocol)传输

延迟

低延迟,通常在数百毫秒以下

相对较高的延迟,通常在数秒钟左右

适用场景

实时互动应用,如视频会议、在线游戏

直播平台、视频点播平台

编码支持

支持多种音视频编码格式,如 VP8、H.264、Opus 等

支持多种音视频编码格式,如 H.264、AAC 等

扩展性

支持扩展性较强,可以通过插件或自定义开发功能

部分支持扩展性,但相对较为有限

安全性

支持端到端的加密和安全传输

支持基本的加密功能,但安全性较低

设备兼容性

兼容性较好,支持在不同设备和平台上使用

兼容性较好,但在某些设备和平台上可能存在兼容性问题

开发成本

相对较高的开发成本,需要处理实时音视频传输的复杂性

相对较低的开发成本,易于集成和使用

实时性

较高的实时性,适用于对实时性要求较高的场景

相对较高的实时性,但在网络条件不理想时可能出现缓冲和延迟

选型一般要考虑使用场景,直播的场景一般为一个主播推流,上万人观看,但我们这个场景稍微不同,是一个程序在 “看”,没有其他观众,并且对实时性要求较高,所以 RTC 是首选。

一个 RTC 的数据包数据格式如下:

RTC   在移动网络下,最大的挑战是弱网或断网下的稳定性表现,发生卡顿和中断会影响用户体验。解决这类问题,业内一般使用多链路传输技术,例如苹果的 MPTCP(Multi-Path TCP) ,在手机网络切换 Wifi 和蜂窝网络或网络网络丢包较高的情况发生时,多链路的使用,可以大大增强稳定性。但这种技术也带来了高功耗和高流量。那么使用 弱网冗余传输 来就可以优化这种情况,即在 RTC 检测到弱网环境下才开启双链路的传输。

另外,还需要使用 FFMPEG 来当做看的“眼睛”。但很遗憾,FFMPEG 并不支持直接对 RTC 视频流的读取,那么就必须将 RTC 转换为 RTMP 协议,因为 RTMP 在大规模观看的时候需要启用 CDN 网络来进行分发,而 RTC 转 RTMP 在服务端侧完成内网转发,则避免了这个问题,FFMPEG 在使用的过程中类似于如下命令:

ffmpeg -i "rtmp://boliu.koofenqi.com/koo-tuiliu-test/testneo?auth_key=1684307737-0-0- 52941de184ba86a371f8fd36d030b723" -vframes 1 -r 1 -q:v 2

拿到视频流信息则可以交给识别部分来让程序理解当前屏幕上的内容。这部分的流程如下图:

识别技术的实践

当源源不断得到屏幕的视频画面的时候,如何识别当前的画面是目标页面或者是存在违规行为的画面,那么有两种实现思路:

  1. OCR 图像转换为文本,使用正则表达式来达到检测目标文本特征或异常文本特征
  2. 利用特征提取技术,识别图像中是否存在目标元素特征

OCR  技术有一个问题:即页面较为复杂的时候,文本转换时间不可控,不太满足实时性的要求。那么利用体征提取技术, 则可以避免此类问题的发生。

在此种图像识别技术方案下,一般分为如下子任务:

  • (a)Image Classification图像分类,用于识别画面中元素的类别(如:bottle、cup、cube)
  • (b)Object Localization: 目标检测,用于检测图像中每个元素的类别,并准确标出它们的位置。
  • © Semantic Segmentation图像语义分割,用于标出图像中每个像素点所属的类别,属于同一类别的像素点用一个颜色标识。
  • (d) Instance Segmentation实例分割,值得注意的是,(b)中的目标检测任务只需要标注出物体位置,而(d) 中的实例分割任务不仅要标注出物体位置,还需要标注出物体的外形轮廓。

当预设目标页面的元素出现,则可将图像的语义转换为置信度、风险度等结果输出给程序,进行业务判定。

这个“程序”有点普通但也有点意思

一个流程引擎,支援业务流程的执行

这个程序像一个引导用户做流程的业务员一样,那么它具备以下功能:

  1. 熟悉各种业务流程,按照业务流程的规定,进行业务流程的执行
  2. 一直维持着与客户端的通讯
  3. 指挥客户端、直播服务、图像识别服务、反欺诈服务进行协调工作

那么这个程序实际上就是一个流程引擎,在整个流程引擎的架构设计中,需要考虑如下几个方面:

  • 长连接性能指标,例如:
  • 吞吐(Thoughput) >= 1000
  • Latency <= 100ms
  • Concurrent >= 500
  • Error Rate <= 1%
  • 保证安全性
  • websocket 握手令牌校验
  • 消息体二进制编码
  • 流程适配性强
  • 业务节点配置化
  • 客户端预置指令模块化
  • 全程做到实时监控
  • websocket 通讯监控
  • 流程执行监控
  • 客户端异常监控
  • 服务异常监控
  • 客户端兼容性达标
  • iOS/Android/HarmonyOS 兼容覆盖
  • 主流机型兼容覆盖
  • 各种网络异常兼容覆盖
  • 稳定性强
  • 业务单元执行异常恢复
  • 网络通讯异常恢复
  • 客户端与服务端的系统异常恢复

整个流程引擎的架构设计如下:

在前面,流程引擎维持与客户端的通讯,使用 websocket 长连接服务。一个典型的长连接服务如下图:

在安全性方面,使用令牌技术,在  websocket  连接发起的时候,检测令牌是否有效,避免非法客户端的连接,并且数据传输防止信息泄露,通讯的数据包使用二进制流,那么在编码方面,选用  protocolbuf,来实现客户端与服务端的传输数据的序列化和反序列化。

多技术的融合应用达到的效果

一套 WebSokcet/RTC/FFMEPG/ImageRecognition 的技术组合

将这些技术进行融合以后,例如需要用户通过自己的机动车信息来提升额度的话,就可以这样完成:

  1. 用户手机通过 websocket 连接上服务端
  2. 流程引擎启动,指引客户端发起屏幕 RTC 推流
  3. 根据业务流程配置,使用 FFMPEG 处理屏幕视频画面
  4. 图像识别服务将画面进行标定与检测,确认业务信息的截取
  5. 服务端对整个视频画面进行录制保存
  6. 流程引擎时时刻刻执行反欺诈策略,检测用户操作是否存在违规和欺诈行为

当这样一个融合多种技术方案的探索落地以后,便诞生了可以满足各个业务场景使用的 _ 推流认证平台 _。

目前,* 推流认证平台  *正服务于一些对风险要求较高的流程中,该平台可以让用户不再手动操作繁琐的流程,只需要听着语音点一点,平台将自动获取资料,完成后续流程。

这样的多技术融合的探索,是一种有意思也有相当业务价值的尝试!

探索的脚步永不停歇

未来,将会有更多有意思有价值的探索持续进行,创新的源泉来自热衷思考,敢实践,不怕失败的解决各种问题。展望未来,后期还有更多可以持续优化创新的地方:

  1. 业务流程引擎使用 webassembly 技术,形成安全的二进制程序,结合边缘网络(Edge  Network),实现离线的流程执行
  2. 图像识别采用卷积神经网络,训练更优秀的识别模型,为风险识别提供更多的基础能力
  3. 使用移动端的机器学习技术,利用手机本身的 AI 算力,加载图像识别模型,进一步缩短业务流程时间

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_996458.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NodeJS实现插入排序算法

NodeJS实现插入排序算法 以下是使用Node.js实现插入排序算法的示例代码&#xff1a; function insertionSort(arr) {const n arr.length;for (let i 1; i < n; i) {let key arr[i];let j i - 1;// 将比key大的元素向右移动一位while (j > 0 && arr[j] >…

如何一键批量采集拼多多商品图片?无压缩高清主图/sku图/详情和视频下载|拼多多商品数据采集接口

大家好&#xff0c;这期我教下大家怎么下载拼多多上面的商品主图、详情页图、SKU图、主图视频、详情页视频的下载教程~~ 运营一个多多电商店铺&#xff0c;上架商品&#xff0c;我们都需要采集大量的商品图片进行分析和参考&#xff0c;一张张下载的话将耗费大量时间和精力&am…

(3)(3.3) MAVLink高延迟协议

文章目录 前言 1 配置 2 说明 3 消息说明 前言 ArduPilot 支持 MAVLink 高延迟协议(MAVLink High Latency)。该协议专为卫星或 LoRA 等低带宽或高成本链路而设计。 在此协议中&#xff0c;每 5s 只发送一次 HIGH_LATENCY2 MAVLink 信息。对 MAVLink 命令或请求&#xff08…

word转PDF的方法 简介快速

在现代办公环境中&#xff0c;文档格式转换已成为一项常见且重要的任务。其中&#xff0c;将Word文档转换为PDF格式的需求尤为突出&#xff0c;将Word文档转换为PDF格式具有多方面的优势和应用场景。无论是为了提高文档的可读性和稳定性、保障文档的安全性和保护机制、还是为了…

【STM32详解FLASH闪存编程原理与步骤】

STM32详解FLASH闪存编程原理与步骤 FLASH编程注意事项FLASH编程过程STM32的FLASH擦除过程FLASH全片擦除FLASH操作总结锁定解锁函数写操作函数擦除函数获取状态函数等待操作完成函数读FLASH特定地址数据函数 FLASH编程注意事项 1.STM32复位后&#xff0c;FPEC模块是被保护的&am…

力扣经典题目解析--滑动窗口最大值

原题地址: . - 力扣&#xff08;LeetCode&#xff09; 给你一个整数数组 nums&#xff0c;有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动窗口中的最大值 。 示例 1&#xff1a;…

【docker基础学习之】镜像相关

下面是在工作过遇到的一些实际例子&#xff0c;谨以此作为笔记参考 目录 1.背景2. 寻找方案3. 如何解决4.解决步骤4.1 DockerFile4.2 现在要做的 1.背景 部署&#xff08;迁移&#xff09;项目时发现&#xff0c;项目的excel导出功能报错&#xff0c;错误如下&#xff1a; 问…

[C语言]——分支和循环(2)

目录 一.逻辑操作符&#xff1a;&& , || , &#xff01; 1.逻辑取反运算符! 2.与运算符&& 3.或运算符 4.练习&#xff1a;闰年的判断 5.短路 二.switch语句 1.if语句和switch语句的对比 2.switch语句中的break 3.switch语句中的default 4.switch…

微服务day03-Nacos配置管理与Nacos集群搭建

一.Nacos配置管理 Nacos不仅可以作为注册中心&#xff0c;可以进行配置管理 1.1 统一配置管理 统一配置管理可以实现配置的热更新&#xff08;即不用重启当服务发生变更时也可以直接更新&#xff09; dataId格式&#xff1a;服务名-环境名.yaml&#xff0c;分组一般使用默认…

【vue】ant-design弹出框无法关闭和runtimecore提示isFucntion is not function的问题修复

【vue】ant-design弹出框无法关闭和runtimecore提示isFucntion is not function的问题修复&#xff0c;初步分析是vue发布3.4版本以后引起的兼容性问题。 问题截图&#xff1a; 1.isFucntion is not function&#xff0c;是由于vue升级后众多插件版本不匹配造成的问题 2.弹框…

18.网络游戏逆向分析与漏洞攻防-网络通信数据包分析工具-数据分析工具数据与消息配置的实现

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 上一个内容&#xff1a;17.数据分析工具配置功能的实现 码云地址&#xff08;master 分支&#xff09;&#xff1a;https://gitee.com/dye_your_fingers/titan…

HBase 的安装与部署

目录 1 启动 zookeeper2 启动 Hadoop3 HBase 的安装与部署4 HBase 高可用 1 启动 zookeeper [huweihadoop101 ~]$ bin/zk_cluster.sh start2 启动 Hadoop [huweihadoop101 ~]$ bin/hdp_cluster.sh start3 HBase 的安装与部署 &#xff08;1&#xff09;将 hbase-2.0.5-bin.tar.…

探索设计模式的魅力:深入解析解释器模式-学习、实现与高效使用的全指南

​&#x1f308; 个人主页&#xff1a;danci_ &#x1f525; 系列专栏&#xff1a;《设计模式》 &#x1f4aa;&#x1f3fb; 制定明确可量化的目标&#xff0c;并且坚持默默的做事。 探索设计模式的魅力&#xff1a;解析解释器模式学习、实现与高效使用全指南 文章目录 一、案…

06.Promise的状态和基本使用

一.认识Promise 1. 什么是 Promise &#xff1f; Promise 对象用于表示一个异步操作的最终完成&#xff08;或失败&#xff09;及其结构值 2. Promise 的好处是什么&#xff1f; 逻辑更清晰&#xff08;成功或失败会关联后续的处理函数&#xff09; 了解 axios 函数内部运作…

基于Python实现银行卡识别

在本文中将介绍如何使用Python和深度学习技术来实现银行卡识别功能。银行卡识别是一个在金融、安全等领域具有重要应用的问题&#xff0c;将使用深度学习模型来实现银行卡图像的识别和分类。 目录 引言数据集准备预处理和特征提取模型选择与训练模型评估与性能优化部署与应用 引…

Redis--线程模型详解

Redis线程模型 Redis内部使用的文件事件处理器&#xff08;基于Reactor模式开发的&#xff09;file event handler是单线程的&#xff0c;所以Redis线程模型才叫单线程模型&#xff0c;它采用IO多路复用机制同时监听多个socket&#xff0c;当被监听的socket准备好执行accep、r…

【Java面试/24春招】技术面试题的准备

Spring MVC的原理 Mybatis的多级缓存机制 线程池的大小和工作原理 上述问题&#xff0c;我们称为静态的问题&#xff0c;具有标准的答案&#xff0c;而且这个答案不会变化&#xff01; 如果没有Spring&#xff0c;会怎么样&#xff1f;IOC这个思想是解决什么问题&#xff1f…

男人的玩具系统wordpress外贸网站主题模板

垂钓用品wordpress外贸模板 鱼饵、鱼竿、支架、钓箱、渔线轮、鱼竿等垂钓用品wordpress外贸模板。 https://www.jianzhanpress.com/?p3973 身体清洁wordpress外贸网站模板 浴盐、防蚊液、足部护理、沐浴液、洗手液、泡澡用品wordpress外贸网站模板。 https://www.jianzhan…

基于OpenCV的图形分析辨认02

目录 一、前言 二、实验目的 三、实验内容 四、实验过程 一、前言 编程语言&#xff1a;Python&#xff0c;编程软件&#xff1a;vscode或pycharm&#xff0c;必备的第三方库&#xff1a;OpenCV&#xff0c;numpy&#xff0c;matplotlib&#xff0c;os等等。 关于OpenCV&…

关于比特币的AI对话

【ChatGPT】 比特币源码开源吗&#xff1f; 是的&#xff0c;比特币的源码是开源的。比特币项目是在MIT许可证下发布的&#xff0c;这意味着任何人都可以查看、修改、贡献和分发代码。比特币的源码托管在GitHub上&#xff0c;可以通过下面的链接进行访问&#xff1a; https://g…