对《网站非法内容监听系统的构想》的回复——我谈非法内容核查方法

news/2024/5/9 0:23:24/文章来源:https://blog.csdn.net/weixin_34148456/article/details/90192906

刚才看了谢慧琦(是个MM??)的《网站非法内容监听系统的构想》一文,觉得其中所述的想法与我之前的设想非常相像,所以我忍不住也想说几句了,嘿嘿:


我原先的设想就是在用户提交时,对提交内容进行危险程度核查,也是予以评分。

无危险的内容直接发布;

有一定危险的内容也会发布,但在发布的同时会在后台提请管理员进行人工审查;

高危险度的内容延迟发布并通知管理员。


对于关键字的危险度分值我觉得可以采用1-10的数字来表述,简单明了,一般一个文章评分达到10就应当算作高危了,所以可以把一些高危词语直接设为10分。

文章评分方面不应太复杂,会影响效率,而且也很难找到太精确的算法。我觉得就是关键字出现则加入其分值,如再重复出现,则每次只增加其分值的1/10。


关键字检索方面也不需要太复杂的语言分析技术, 正则表达式就足以胜任,看我这个示例:


表达式中的“6”就是模糊值,表示脏字之间可能插入6个以内的干扰符号,这个可以由程序员通过配置参数控制,整个表达式可以由程序来根据关键字自动生成。

其效果应该是不错的,除非用通假字、错别字、同音字、火星文来写,或者竖版写、逆向写~~,当然逆向写还是可以通过程序简单处理一下,其他的就麻烦了。


我非常不赞成用关键字替代的方法去使内容合法化,原因如下:

一、这种方式经常出错。比如魔兽世界里说“奥格瑞玛银行门口交易”就会变成“奥格瑞玛银行门^&*#$#易”,“金色魔线”发出来都会变成“金%##*线”,当然这在即时聊天中可能是唯一可行的方案了,用户不可能说出去话之后等待GM审核后才能真正发出。

二、这是一种掩耳盗铃的行为。大多数情况下,尽管关键字被抹去,读者依然可以通过上下文了解到发布者的大略意图,比如谩骂和攻击性言语。

三、这有可能会引起误会。结合一和二两条,假如在正当的使用情况下被过滤掉了部分文字,而这时上下文又恰巧可以被理解为其他的意思,这时很容易引发读者的误解。比如某人给你发来一条带有过滤符号的消息,你很可能以为他在使用不文明的语言攻击你。

四、用户会想方设法蒙混过关。比如你把“和谐”屏蔽了,用户就会尝试加入一些干扰符号,或者采用“河蟹”这类自造词来自行替代,这样都不会对读者理解造成太大干扰,而管理员绝不会坐视不管,所以不久之后“河蟹”也被和谐了。这就形成了一场竞赛,管理员和用户都在不断扩充自己的关键字库来实现胜出。而在一次次编辑、重发、扩充、审核之中,用户和管理员都浪费了精力与时间。


我觉得对于网站来说,人机协作的审核机制是就最好的:

一来大多网站都不要求时效性;

二来用户发布的内容如果未通过机审及人审,他也很难通过多次尝试来蒙混过去,首先人审在时间上造成了尝试间隔,其次他很可能已被加入黑名单受到高度关注;

第三就是如果用户知道有人工参与审查,多半会放弃发布不良信息的念头。

而且人机协作仍然能保证不错的效率,因为绝大多数正规的内容都会直接通过机审而发布出去,这样用户就感觉不到有什么不同。


对于应用方式,谢慧琦所说的数据库层面的核查理念的确不错,但是我感觉可能会在部署时有些难度,程序要一直监视数据库的话,应该不是一般的网站权限能达到的吧。

我觉得就是作为一个独立的类库来编写就能保证很好的复用性和通用性。使用的时候还是应该用在业务逻辑层,在提交时审核并决定处理方式。


欢迎其他朋友也参与到讨论中来,我们甚至可以搞一个开源项目,一起维护代码和关键字过滤库哈:)  


本文转自斯克迪亚博客园博客,原文链接http://www.cnblogs.com/SkyD/archive/2008/09/14/1290701.html,如需转载请自行联系原作者

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_813556.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux怎么操作mysql数据库实例_实例 - Linux下用Perl进行MySQL数据库开发_数据库技术_Linux公社-Linux系统门户网站...

四、perl进行MySQL开发实例上述都安装完后,就可以进行实际开发了。首先在test数据库中新建一个表mysql> create table address (-> id int(5) not null,-> name varchar(40) not null,-> email varchar(50) not null,-> telephone int(12) null);Que…

qq浏览器网页翻译_海淘网站英文页面翻译办法

很多刚刚海淘的朋友,遇到的第一个问题,往往就是,看懂不懂,面对满屏的英文,它认识我,我不认识它,更别提要海淘下单了。接下来,小编分别介绍手机端和电脑端英文页面翻译办法。1、手机端…

wordpress表单数据验证_30分钟搭一个wordpress网站

我是一个着迷于产品和运营的技术人,乐于跨界的终身学习者。欢迎关注我哟~每周五早6点 按时送达~我的第「88」篇原创敬上因为最近工作比较忙,没太多时间思考和写东西。所以今天偷个懒,发一篇实操类文章。这篇文章非常“…

window服务如何通过程序如何打开谷歌浏览器并登陆指定网站_亚马逊如何看listing销量,亚马逊如何看销量排名...

我做跨境电商也有六年的时间了,在电商这个行业也有自己的一些经验。经验也许没有其他大卖家丰富,但会将我知道的都进行分享。如果有不懂得亚马逊问题可以我(V:772024802)。我这里给大家安排一堂直播课,可以系统的帮你解决做亚马逊…

seo扣费系统源码_关键词按天扣费就一定靠谱吗?

最近几年,SEO行业的形势不断变化,各种新出的SEO计费方式和营销模式花样百出。现在大多数SEO公司都打着按天扣费的模式,吸引客户。其实按天扣费模式的猫腻也很多,今天优化君让你们知道一家公司的按天扣费的套路,希望能帮…

python爬虫反爬机制_Python3爬虫学习之应对网站反爬虫机制的方法分析

本文实例讲述了Python3爬虫学习之应对网站反爬虫机制的方法。分享给大家供大家参考,具体如下: 如何应对网站的反爬虫机制 在访问某些网站的时候,网站通常会用判断访问是否带有头文件来鉴别该访问是否为爬虫,用来作为反爬取的一种策…

全面进入HTTPS网站加速新时代,CDN上线免费证书

点击访问折扣活动 点击了解相关专题与HTTPS技术直播 活动推荐 【TechDay】阿里云CDN Tengine开源技术沙龙-上海站,将在8月29日下午阿里虹桥中心展开,多位专家现场探讨CDN QUIC、TLSv1.3、直播、Tengine实践等话题,参与活动即可赢取阿里云定制…

网站服务器停止服务,DDoS攻击是如何让网站停止服务的?

DDoS攻击,是一种耗尽攻击目标的系统资源,导致攻击目标无法响应正常的服务请求的网络攻击方式。虽然,大规模的DDoS攻击占据了大部分的头条新闻,但实际上,较小的DDoS攻击在网络安全环境中更为常见。在没有做好充分的防护…

php实现飘窗,JS实现网站图片飘窗效果,JavaScript悬浮广告(附详细代码)

JS实现网站图片飘窗效果,JavaScript悬浮广告,飘窗效果-丁光辉博客(www.dingguanghui.com)*{margin:0px;padding:0px}#ad{position:absolute;left:0px;top:0px;}//通过ID获取imgaddocument.getElementById("ad");//定义横纵坐标x0;y0;//设置初始…

大型网站技术架构(六)网站的伸缩性架构

2019独角兽企业重金招聘Python工程师标准>>> 网站系统的伸缩性架构最重要的技术手段就是使用服务器集群功能,通过不断地向集群中添加服务器来增强整个集群的处理能力。“伸”即网站的规模和服务器的规模总是在不断扩大。 1、网站架构的伸缩性设计 网站的…

Visual Studio2017 的项目发布与 IIS 网站部署

Visual Studio2017 的项目发布 1.首先打开自己的本地项目,重新生成解决方案必须无报错 2.然后右键选中的项目,点击发布 3.第一次发布需要配置发布的相关信息,如果第N次发布可直接跳过,配置信息如下 3.1 点击连接 发布方法&…

IIS网站部署后,让小伙伴也能查看网站-防火墙配置

前言 上一篇文章讲述了 Visual Studio2017 的项目发布和 IIS 网站的部署,但是部署之后只能在自己的电脑上浏览网站。为了让自己电脑上的网站也能被别人访问,可以对防火墙做一些手(配)脚(置)~ 链接&#x…

IIS网站运行报错:无法识别的属性“targetFramework”。请注意属性名称区分大小写。

报错信息如下: IIS网站运行报错:无法识别的属性“targetFramework”。请注意属性名称区分大小写。 报错原因大概是:程序的.netframework版本为4.8,应用池的版本为2.0 ,版本不一致所以报错。 修改步骤1:应用…

IIS安装 部署网站

以下是操作文档,均已录制 点此观看bilibili操作视频 第一步:找到位置 控制面板->查看方式选择:类别->卸载程序->启用或关闭windows功能 第二步:勾选 勾选Internet information Services和Internet information Servic…

IIS中的网站访问excel

打开【启用32位应用程序】

IIS部署网站-网站设置起始页

选中网站->默认文档看到有index.html 可以在网站的根目录新建index.html 然后在index.html界面中 设置跳转界面即可 新建index.html 设置跳转 <meta HTTP-EQUIVREFRESH CONTENT"0; URL跳转路径">

icon制作无白色背景_这80个无版权素材网站收好,再来多少视觉XX都不怕!

一张黑洞照片让视觉中国彻底凉凉&#xff0c;虽然社会的版权意识加强是一个好现象&#xff0c;但这种漫天要价的钓鱼执法实在不可取。因此&#xff0c;就看APP为大家整理了80个无版权素材网站&#xff0c;除了图片&#xff0c;还有免费的视频、icon、配色以及矢量图&#xff0c…

到网站进过的服务器 命令,进入服务器命令

进入服务器命令 内容精选换一换如果Windows操作系统云服务器未安装密码重置插件&#xff0c;可以参见本节内容重新设置密码。本节操作介绍的方法仅适用于修改Windows本地账户密码&#xff0c;不能修改域账户密码。Linux操作系统请参见重置Linux云服务器密码(未安装重置密码插件…

帝国站长php主动推送,帝国CMS网站主动推送链接到百度的代码

使用帝国CMS网站的朋友有很多&#xff0c;但是有许多网站更新后不能及时收录&#xff0c;在百度站长平台提供了几种网站链接提交方法可以让百度蜘蛛抓取网站。分别是自动提交、主动推送、网站地图以及手动提交。其中主动推送可以最及时的让百度蜘蛛发现网站最新链接。在之前&am…

基于java jsp的音乐歌曲网站设计

音乐网站设计能够方便地进行音乐及音乐信息的网上发布和更新&#xff0c;并且可以检索到符合查询条件的音乐信息&#xff1b;用户可以将音乐信息实现上传&#xff0c;并能够对各类音乐及音乐信息进行网上查询。该系统具有较强的操作权限管理功能。充分发挥互联网的便利性,使招聘…