使用libsvm对政府网站访问数据的分析和预测

news/2024/5/9 20:26:37/文章来源:https://blog.csdn.net/u010882234/article/details/103740637

创新性

选取题材,政府网站访问数据。想通过使用人工智能的方法,根据已有数据建立模型,对新的访问数据进行鉴别,区分网站访问是否为正常访问,从而进行一些业务处理。更进一步,预测哪些是危险访问(网络攻击),从而能及时做出一些策略应对,保障政府网站的安全,保障正常网民的访问。

实验完整性

数据描述

相关约定

  • 此处正常访问,定义为网民的正常访问,其余皆为垃圾访问
  • 垃圾访问可能来自网站扫描(死链检测等)、网页抓取、恶意攻击等,都不算是正常的访问数据
  • 以一个月某ip访问是否超过3000次(30天,每天100次)为临界值,判定是否为正常有效的访问,高于3000,认为是垃圾访问。

数据及来源

  • 选取的是某市政府网站访问数据。数据库总数据量6000多万,其中2019年3月份数据320万左右。
  • 现在只取3月1日-10日的数据中,session id尾号为1的,4万2000多条
    原始数据
    处理之后的

数据处理

  • 把访问记录的一些维度,通过sql脚本数据处理,转为数字,方便构造测试样本
  • 原始数据:导出的mysql脚本 huainan_guest_statistic190310.sql
  • 超过3000的ip:ip3000.xls
  • 处理过程:数据处理1.sql 数据处理2.sql
-- 根据统计出的一月访问量超过3000的认为是垃圾数据,对数据加标签
UPDATE cms_site_chart_main_copy1 set IS_GOOD = 1;
UPDATE cms_site_chart_main_copy1 set IS_GOOD = 0 where ip in ('45.194.128.134','220.178.96.24','121.41.29.248','183.166.59.35','120.78.131.13','59.111.104.146','183.166.61.6','183.166.61.1','203.207.121.14','60.171.44.29','58.242.245.178','59.111.104.158','183.166.61.13','203.207.121.3','203.207.121.13','218.22.156.219','183.166.61.2','203.207.121.8','59.111.104.147','112.26.205.196','43.249.175.170','114.255.59.101','218.22.163.50','183.166.61.7','203.207.121.9','203.207.121.1','119.23.27.3','59.111.104.49','210.45.123.30','183.166.61.10','203.207.121.5','203.207.121.2','59.111.104.115','59.111.104.137','183.166.59.149','60.166.58.227','59.111.104.134','183.166.61.3','60.21.221.203','119.23.40.231','59.111.104.138','59.111.104.75','203.207.121.11','183.166.61.14','59.111.104.135','59.111.104.44','183.166.61.5','220.178.199.10','59.111.104.132','120.77.240.164','59.111.104.14','59.111.104.148','221.231.138.216','183.166.79.204','203.207.121.7','58.242.245.179','183.166.61.8','58.242.245.180','220.178.96.26','183.166.24.222','220.178.96.25','218.22.161.170','111.39.184.24','59.111.104.127');-- 处理is_pc字段,转为0,1
UPDATE cms_site_chart_main_copy1 set IS_PC = 1 where IS_PC = 'true';
UPDATE cms_site_chart_main_copy1 set IS_PC = 0 where IS_PC = 'false' or IS_PC is null or IS_PC = '';-- 处理国家字段,转为数字
SELECT COUNTRY,count(1) FROM cms_site_chart_main_copy1 GROUP BY COUNTRY;
UPDATE cms_site_chart_main_copy1 set COUNTRY = '-1' where COUNTRY is null or COUNTRY = '';		
UPDATE cms_site_chart_main_copy1 set COUNTRY = '0' where COUNTRY = '未分配或者内网IP';
UPDATE cms_site_chart_main_copy1 set COUNTRY = '1' where COUNTRY = '中国';
UPDATE cms_site_chart_main_copy1 set COUNTRY = '2' where COUNTRY = '俄罗斯';		
UPDATE cms_site_chart_main_copy1 set COUNTRY = '3' where COUNTRY = '加拿大';			
UPDATE cms_site_chart_main_copy1 set COUNTRY = '4' where COUNTRY = '印度';	
UPDATE cms_site_chart_main_copy1 set COUNTRY = '5' where COUNTRY = '巴拿马';			
UPDATE cms_site_chart_main_copy1 set COUNTRY = '6' where COUNTRY = '新加坡';			
UPDATE cms_site_chart_main_copy1 set COUNTRY = '7' where COUNTRY = '日本';
UPDATE cms_site_chart_main_copy1 set COUNTRY = '8' where COUNTRY = '柬埔寨';			
UPDATE cms_site_chart_main_copy1 set COUNTRY = '9' where COUNTRY = '比利时';			
UPDATE cms_site_chart_main_copy1 set COUNTRY = '10' where COUNTRY = '沙特阿拉伯';			
UPDATE cms_site_chart_main_copy1 set COUNTRY = '11' where COUNTRY = '泰国';		
UPDATE cms_site_chart_main_copy1 set COUNTRY = '12' where COUNTRY = '爱尔兰';			
UPDATE cms_site_chart_main_copy1 set COUNTRY = '13' where COUNTRY = '美国';			
UPDATE cms_site_chart_main_copy1 set COUNTRY = '14' where COUNTRY = '英国';	
UPDATE cms_site_chart_main_copy1 set COUNTRY = '15' where COUNTRY = '荷兰';			
UPDATE cms_site_chart_main_copy1 set COUNTRY = '16' where COUNTRY = '菲律宾';			
UPDATE cms_site_chart_main_copy1 set COUNTRY = '17' where COUNTRY = '越南';			
UPDATE cms_site_chart_main_copy1 set COUNTRY = '18' where COUNTRY = '韩国';		
UPDATE cms_site_chart_main_copy1 set COUNTRY = '19' where COUNTRY = '香港';	
UPDATE cms_site_chart_main_copy1 set COUNTRY = '20' where COUNTRY = '马来西亚';		-- 处理语言
SELECT `LANGUAGE`,count(1) FROM cms_site_chart_main_copy1 GROUP BY `LANGUAGE` HAVING count(1) > 10;
UPDATE cms_site_chart_main_copy1 set `LANGUAGE` = '-1' where `LANGUAGE` is null or `LANGUAGE` = '' or `LANGUAGE` not in ('en-US','zh-CN','zh-Hans-CN');	
UPDATE cms_site_chart_main_copy1 set `LANGUAGE` = '0' where `LANGUAGE` = 'en-US';
UPDATE cms_site_chart_main_copy1 set `LANGUAGE` = '1' where `LANGUAGE` = 'zh-CN';
UPDATE cms_site_chart_main_copy1 set `LANGUAGE` = '2' where `LANGUAGE` = 'zh-Hans-CN';-- 处理省份 
SELECT PROVINCE,count(1) FROM cms_site_chart_main_copy1 GROUP BY `PROVINCE` HAVING count(1) > 20;
UPDATE cms_site_chart_main_copy1 set PROVINCE = '-1' where PROVINCE is null or PROVINCE = '';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '0' where PROVINCE = '上海市';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '2' where PROVINCE = '内蒙古自治区';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '2' where PROVINCE = '北京市';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '3' where PROVINCE = '四川省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '4' where PROVINCE = '天津市';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '5' where PROVINCE = '安徽省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '6' where PROVINCE = '山东省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '7' where PROVINCE = '山西省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '8' where PROVINCE = '广东省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '9' where PROVINCE = '江苏省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '10' where PROVINCE = '江西省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '11' where PROVINCE = '河北省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '12' where PROVINCE = '河南省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '13' where PROVINCE = '浙江省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '14' where PROVINCE = '湖北省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '15' where PROVINCE = '湖南省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '16' where PROVINCE = '福建省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '17' where PROVINCE = '贵州省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '18' where PROVINCE = '辽宁省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '19' where PROVINCE = '重庆市';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '20' where PROVINCE = '陕西省';
UPDATE cms_site_chart_main_copy1 set PROVINCE = '21' where PROVINCE = '黑龙江省';-- 处理信息来源
SELECT SOURCE_TYPE,count(1) FROM cms_site_chart_main_copy1 GROUP BY `SOURCE_TYPE` HAVING count(1) > 20;
UPDATE cms_site_chart_main_copy1 set SOURCE_TYPE = '0' where SOURCE_TYPE = '其他外部链接';
UPDATE cms_site_chart_main_copy1 set SOURCE_TYPE = '1' where SOURCE_TYPE = '标签或浏览器输入地址';
UPDATE cms_site_chart_main_copy1 set SOURCE_TYPE = '2' where SOURCE_TYPE = '站内链接';-- 处理操作系统
SELECT OS,count(1) FROM cms_site_chart_main_copy1 GROUP BY `OS` HAVING count(1) > 20;
UPDATE cms_site_chart_main_copy1 set OS = '0' where OS = 'Linux';
UPDATE cms_site_chart_main_copy1 set OS = '1' where OS = 'Mac';
UPDATE cms_site_chart_main_copy1 set OS = '2' where OS = 'Windows';
UPDATE cms_site_chart_main_copy1 set OS = '3' where OS = 'Windows 10';
UPDATE cms_site_chart_main_copy1 set OS = '4' where OS = 'Windows 2003';
UPDATE cms_site_chart_main_copy1 set OS = '5' where OS = 'Windows 7';
UPDATE cms_site_chart_main_copy1 set OS = '6' where OS = 'Windows 8';
UPDATE cms_site_chart_main_copy1 set OS = '7' where OS = 'Windows XP';
UPDATE cms_site_chart_main_copy1 set OS = '8' where OS = 'Windows+7';
UPDATE cms_site_chart_main_copy1 set OS = '9' where OS = 'Windows7';
UPDATE cms_site_chart_main_copy1 set OS = '10' where OS = 'X11';-- 导出结果和需要的维度
SELECT IS_GOOD,COUNTRY,PROVINCE,SOURCE_TYPE,OS,COLOR_DEPTH,`LANGUAGE`,IS_PC FROM cms_site_chart_main_copy1
UPDATE cms_site_chart_main_copy1 set IS_GOOD = -1 where IS_GOOD = 0;
UPDATE cms_site_chart_main_copy1 set IS_GOOD = '+1' where IS_GOOD = 1;-- 查出少于20的,舍弃
SELECT PROVINCE,count(1) FROM cms_site_chart_main_copy1 GROUP BY `PROVINCE` HAVING count(1) <= 20;
DELETE FROM cms_site_chart_main_copy1 WHERE PROVINCE in ('云南省','吉林省','宁夏回族自治区','广西壮族自治区','新疆维吾尔自治区','海南省','甘肃省','西藏自治区','青海省','香港特别行政区')SELECT CONCAT(IS_GOOD,' ', '1:',COUNTRY,' 2:',PROVINCE,' 3:',SOURCE_TYPE,' 4:',OS,' 5:',COLOR_DEPTH,' 6:',`LANGUAGE`,' 7:',IS_PC)  FROM cms_site_chart_main_copy1 LIMIT 40000;SELECT CONCAT(IS_GOOD,' ', '1:',COUNTRY,' 2:',PROVINCE,' 3:',SOURCE_TYPE,' 4:',OS,' 5:',COLOR_DEPTH,' 6:',`LANGUAGE`,' 7:',IS_PC) FROM cms_site_chart_main_copy1 ORDER BY ID desc LIMIT 1000;
  • 处理之后的数据:mysql脚本文件 cms_site_chart_main_copy1.sql 和excel文件的处理好的数据.xls
  • 处理之后的数据文件:
    训练数据:trainfile
    测试数据:testfile
    sql处理拼接

实验条件

  • Centos7
  • Windows7
  • Mysql
  • libsvm
  • Python
  • gnuplot

实验过程

支持向量机 SVM(多组实验)
使用libsvm库(中国 台湾 林智仁教授封装的SVM库)
支持向量机(support vector machine,SVM)是目前最好的有监督学习算法之一。
Linux上实验

实验结果

cd /home/yyl/libsvm-3.24
./svm-train trainfile
./svm-predict -q testfile trainfile.model outputs1
在这里插入图片描述

实验分析

某次执行结果截图
某次执行产生的图像

PPT展示

下载地址:https://download.csdn.net/download/u010882234/12122680

参考

  • https://www.cnblogs.com/mfmdaoyou/p/7258707.html
  • https://www.csie.ntu.edu.tw/~cjlin/
  • http://blog.sciencenet.cn/blog-713101-797917.html
  • http://www.360doc.com/content/18/0516/15/54605916_754421513.shtml
  • https://www.cnblogs.com/leezx/p/5668702.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_854350.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

看透 Spring MVC 源代码分析与实践——网站基础知识

每天都会分享Java架构文章&#xff0c;喜欢的朋友关注我。ps&#xff1a;文末有彩蛋&#xff0c;惊喜等着你 网站架构及其演变过程 基础结构 网络传输分解方式&#xff1a; 标准的 OSI 参考模型TCP/IP 参考模型海量数据的解决方案 缓存和页面静态化缓存通过程序直接保存在内…

用户在电商网站中购买成功了,那么在微服务中经历了什么?

当我傻啊&#xff0c;用户在电商网站购买成功&#xff0c;还在微服务中&#xff0c;那肯定就是有一套微服务架构的电商系统。 设计一套电商系统还不简单 简单想象一下&#xff0c;既然是一个电商系统&#xff0c;有用户去购买&#xff0c;就肯定得有一个用户模块&#xff0c;…

JAVA爬取网站查询网络IP所在地

JAVA爬取网站查询网络IP所在地 网络中我们上网都是一个ip地址&#xff0c;在获取对象网络ip的时候&#xff0c;如果想查询他所在网络的地址怎么搞呢&#xff1f;上代码 1.写一个方法通过站长工具网站查询到你输入的ip的地址&#xff0c;需要用URL去爬取网站数据 /**ip就是需要…

建站技术是一锤子买卖,而建站服务则是长久性的共赢吗?

近年来&#xff0c;服务外包需要越来越多&#xff0c;业务也越来越多样化&#xff0c;特别是IT服务外包。随着资本市场的进入&#xff0c;人力成本的提升&#xff0c;素质教育与实际工作环境的脱钩&#xff0c;可谓是一将难求&#xff0c;所以很多公司或单位开始将目光关注到第…

手机微信小程序公众号交友平台网站定制开发,相亲网站系统建设,婚恋相亲网站制作

10几年的技术团队&#xff0c;专业定制交友网站开发&#xff0c;交友平台网站建设&#xff0c;婚恋网站平‌‌‌‌台开发建设&#xff0c;可仿百合网&#xff0c;世纪佳缘网&#xff0c;支持电脑版手机版微信版小程序版APP版&#xff0c;由10年的技术团队专业定制&#xff0c;需…

网站站内、站外链接优化技巧与作用

其实网站站内链接优化和站外链接优化一样重要&#xff0c;两者是相辅相成的&#xff0c;可能在对不同的搜索引擎的时候有些不一样&#xff0c;在相同条件下百度更加注重的是内容&#xff0c;谷歌更加注重的是链接&#xff0c;所以这两个都要同时做好才能让网站对搜索引擎更加友…

国际版云购网站代码开发实现案例

最近把之前的中文版元购夺宝网站做了改变&#xff0c;感觉还是比较不错的&#xff0c;算是高大上国际版云购网站代码开发实现案例&#xff0c;现在分享给大家看看。 预览效果图&#xff1a; function is_php($version 5.0.0){static $_is_php;$version (string)$version;if …

Google有三个.cn网站可以访问了,但它们只面向开发者

12 月 8 日&#xff0c;Google 在北京举办了一场规模空前的开发者活动&#xff0c;推出了三个不需科学上网就能访问的子站点。 developers.google.cn firebase.google.cn developer.android.google.cn 虽然 Google 早在 2010 年就正式退出了中国市场&#xff0c;但它在开发者…

Nginx之坑:完全理解location中的index,配置网站初始页

文章目录index指令的作用index指令详解基本内容&#xff08;中文文档和官方文档都可见&#xff09;&#xff1a;核心内容&#xff08;中文文档没有或一笔带过&#xff0c;而官方文档作详细解释&#xff09;&#xff1a;实例Nginx中文文档Nginx官方文档吐槽index指令的作用 在前…

2019fresco依赖_在2019年建立一个无依赖网站

我的新改进个人网站的屏幕截图 经过几年的基本无视后&#xff0c;我最近决定是时候刷新我的个人站点了 。 先前的迭代结合了Gulp和Bower&#xff0c;并结合了Susy&#xff08;网格系统的Sass库&#xff09;&#xff08;版本2&#xff0c;而不是最新的版本3&#xff09;。 我上一…

2007最牛X网站收集

50. 经典桌面 这个名叫东子的偏执狂不知花了多少工夫&#xff0c;mydeskcity.com的内容量达到了40G&#xff0c;很多图片都是站长本人在国外搜集后&#xff0c;自己进行加工的作品。 http://www.mydeskcity.com/ 49. 画猪头 在指定的对话框里面随便画一个猪头&#…

纯css实现网站导航条下拉效果

不用javascript效果实现导航条的下拉效果。 纯css属性实现&#xff0c;主要应用到绝对定位中的left&#xff1a;auto和 left&#xff1a;-9999px&#xff1b;来隐藏或者鼠标经过的时候显示下拉菜单。 下面是代码&#xff1a; <!DOCTYPE html> <html> <head&g…

网站右侧导航条的玩法

最近心情很不好&#xff0c;各种工作生活上面的事情&#xff0c;让我很是受伤&#xff0c;刚出来工作感觉程序员确实是个神奇的行业&#xff0c;一个个都觉得自己的智商挺高的&#xff0c;哎&#xff0c;每天起早贪黑的上下班&#xff0c;还天天受气&#xff0c;真是日了够了&a…

谷歌浏览器调试网站技巧教程

1.样式的调试&#xff0c;盒子模型。 2找到hover样式 3 4.样式所对应的标签&#xff0c;所在文件名

mouseover事件,鼠标移上去数据出不来且数据错乱

我要做如下的效果&#xff0c;就是鼠标移上去有一个信息提示框 但是我用mouseover一直就是鼠标移上去第一下&#xff0c;直接位置那里是空的&#xff0c;然后再次移动之后&#xff0c;数据一直都是错乱的&#xff0c;比如&#xff0c;从第一个人移动到第二个人那里&#xff0c;…

MySQL在大型网站的应用架构演变

可扩展性 架构的可扩展性往往和并发是息息相关&#xff0c;没有并发的增长&#xff0c;也就没有必要做高可扩展性的架构&#xff0c;这里对可扩展性进行简单介绍一下&#xff0c; 常用的扩展手段有以下两种&#xff1a; Scale-up : 纵向扩展&#xff0c;通过替换为更好的机器…

互联网网站架构升级----消息中间件的实现方案

消息中间件对目前大中型互联网来说是非常重要的&#xff0c;在业务数据流动中仅次于RPC服务调用&#xff0c;担负着越来越复杂的网站业务从主流程上解耦的重要责任&#xff1b; 伦理片 http://www.gxuy.com/ 从目前互联网对消息中间件的需求来看应该分为两种类型&#xff0…

20 步打造完美网站布局设计

英文原文&#xff1a;Pro tips: 20 steps to the perfect website layout&#xff0c;编译&#xff1a;蝶月猋欢yeeyan Claudio Guglieri 在纽约广告公司 B-Reel 任职总监&#xff0c;他撰写了本网站设计培训指南&#xff0c;旨在帮助您了解设计网站布局的全过程。 开始讲述设计…

Bootstrap Jetstrap-快速构建你的网站

Boostrap来自于Twitter&#xff0c;是一个基于html&#xff0c;css&#xff0c;javascript的时尚的、直观的、强大的流行前端框架及交互组件集&#xff0c;可用于快速&#xff0c;简单构建你的网站。 Bootstrap拥有以下特性&#xff1a; 由匠人建&#xff0c;为匠人用 和您一样…

HTML一键打包IPA(苹果IOS应用)工具 网站打包 APP

工具简介 HTML一键打包IPA&#xff08;苹果应用&#xff09;工具可以把本地HTML项目或者网站打包为一个苹果应用IPA文件&#xff0c;无需编写任何代码&#xff0c;支持在苹果设备上安装运行。 打包工具群&#xff1a;429338543 下载地址&#xff1a; 点击进入下载页面 加群获…