网站经常崩溃,企业应该如何做好监控?

news/2024/5/20 15:11:30/文章来源:https://blog.csdn.net/wangpeng198688/article/details/83895855

近些年,我们的生活因互联网发生了翻天覆地的改变。从搜索引擎到即时通讯,从电子购物再到文化娱乐,从吃饭住宿到旅游出行,互联网已经渗透到我们生活的方方面面。但网站、应用崩溃的事情似乎每天都在发生,而且节假日发生系统崩溃的几率更高。
在这里插入图片描述
国庆后第一天上班,深圳市政府的网站全部沦陷。特别是近些年网站崩溃的问题,似乎时刻都在发生,而且很多都是直接影响民生的重要机构,比如今年6月25日,黑龙江高考查分通道网站崩溃;4月15日,河南沁阳市政府官网访问激增后台崩溃;2014年11月27日,12306网站崩溃3小时;2014年2月26日,北京小客车摇号指标系统网站崩溃…

究其原因,很大层面是因为我们当下的互联网环境已经变得异常复杂,网络、服务器、操作系统,还有应用及组件都可能导致网站崩溃问题。即使我们投入大量的人力物力,做了很多细致的保障工作,也难免7×24小时100%地保证网站的正常运转。那么,如何高效地利用互联网资源来实时完成线上的监控工作,已经成为企业运维人员最为关注的话题。

内部服务端监控和外部业务可用性监控

一般而言,企业监控的维度主要分两个方面:内部服务端监控和外部业务可用性监控。针对内部服务端监控,很多公司采用Zebbix、Nagios、Prometheus、Smokping、Grafana、Cacti、PageDuty等工具进行综合性的数据采集。而分析内容主要包括网络、操作系统、中间件、应用、数据库等等。从一定意义上讲,内部的监控体系建立的越完善,出现服务问题的概率就越低。

但是,内部监控体系只是解决了内部网络及服务端的问题,当外部访问监控缺失时,偶发性的故障就会出现,稍有疏忽就会出现类似假日期间网站不能访问的问题。如何有效地杜绝真实用户外网访问的异常问题,及时发现系统故障呢?我们首先从以下几个问题分析故障产生的一些常见原因,同时也会给出一些建议:

网络拥塞丢包率高

造成网络拥塞造丢包率高、网络包重传频繁的原因,一般来说主要是路由器入口带宽被大量占用网络资源不足造成的。并发用户容量评估不充分应用系统访问量过高时,导致网络接入带宽超载,每逢节假日很多票务网站流量激增,都会出现类似问题,像汽车摇号网站就会出现周期性高峰值阻塞的现象。

建议:网站接入带宽做好充分预估,建议外网接入入口根据历史同比数据,提前做好资源扩充准备。如果带宽扩充较困难,建议网络层入口做好限流准备,保证已连接用户的业务稳定性。

服务端内存泄漏

服务端有较严重Bug,当系统长时间使用时会出现细碎的内存泄漏。一般来说,出现此类问题的主要原因是应用长时间稳定性测试,没有进行验证或验证的不充分。所以当系统长时间使用过程中,内存资源就会耗尽,最终导致应用崩溃。

建议:在系统投产前,我们建议在外部网络进行超过72小时的稳定性测试,保证写入数据和生产一个月左右的数据量相同。主要观察应用系统是否可以正常释放资源,持续稳定的提供服务,如有问题尽早发现尽早解决。

外网DNS劫持

DNS劫持又称域名劫持,是指在劫持的网络范围内拦截域名解析的请求,把真实IP地址映射为虚假IP地址,从而达到让访问用户分流到虚假的网站。最终目的是分流用户后从事一系列的非法行为,如盗取用户账号,获取用户的隐私信息等。DNS劫持已经超出了内部监测的范畴,应用服务提供商一般无法阻止或控制影响范围。

建议:采用多域名接入方式,接入域名的解析服务依托两家以上的服务提供商;采用分布式DNS监测服务,定期监测服务器DNS解析的效率建立完善的DNS白名单,出现异常访问时,及时进行告警。

业务系统故障

导致业务系统故障原因很多,如系统做大范围更新时,参数配置错误导致用户地址跳转到非指定地址,虽然HTTP返回码正确,但业务却无法访问;业务系统的部分模块异常,导致局部业务无法正常访问。如某个证券公司把生产地址配置成了测试库地址,导致用户数据全部被污染,交易正常但是业务数据全部错误。一般来说,这样的问题如果没有外部访问监测系统很难被发现,监控过程中需要实时分析服务端返回数据,进而判断业务是否正常。

其实,在系统投入生产前,我们建议从以下几个维度提前考虑应用系统的稳定性及性能问题:

  • 网络入口带宽是否充足?
  • 外网应用系统是否使用CDN加速将静态资源与业务应用分离?
  • 网络负载均衡是否配置合理,是否能够完成动态的容量扩充?
  • 操作系统及应用参数是否做了针对应用系统的局部或全局优化?
  • 数据库是否使用读写分离,提高了用户访问时的并发性能?
  • 数据库SQL语句是否做过深度调优?
  • 应用系统是否可以经受3-5倍以上的并发用户压力?
  • 应用系统是否支持动态扩容,扩容效率在5分钟以内完成?

如果在系统上线的测试阶段已经做到了以上内容的检查和优化,那么系统已经进入了一个比较良性的健康工作状态。接下来的工作就可以进入到线上运维的监控期,而针对线上运维监控,建议监控如下的内容:

  • 基础网络监控:延时、抖动、丢包、平均响应时间、上传速率、下载速率;
  • DNS监控:解析时间、解析正确、匹配正确、可用性、错误率;
  • CDN监控:总响应时间、重定向时间、DNS时间、建立连接时间、SSL时间、后端响应时间、内容下载时间、可用率、错误率、下载速度、下载文件大小;
  • API监控:可用性、平均可用率、加载时间、不可用错误率、运营商指标、错误分类(连接超时、响应超时、连接失败、连接被断开)、监控阈值设定;
  • 事务监控:可用性、可用性区域、加载时间、不可用错误率、运营商指标、请求详细信息分析、监控阈值设定;
  • 业务可用性监控:业务响应时间、业务发送速率、业务接收速率、业务成功率、业务失败率、不同区域的业务运行状态、业务数据错误详细分析等。

综上所述,监控系统的核心要求就是能够及时对异常数据进行报警,以及对大量数据的秒级收集、分类、分析和展示。因此多维的通知体系和智能的告警通知是保证业务正常持续运行的重要环节。

作为国内领先的 IT 运维管理软件厂商。OneAPM始终秉承「让运维更加智能」的企业使命,致力于为中国的企业级用户提供一体化的智能运维解决方案。而业务监测平台CT就能够很好的帮助企业实现7*24小时监控网站,真正为企业提供高效、稳定的智能运维管理服务。
业务质量监测平台核心功能介绍

Ping监控:能够记录全国各个监控点访问服务的网络平均响应时间、可用性以及丢包率。


DNS监控:能够实时记录全国的监测点访问DNS服务器性能状态信息,包括平均响应时间、解析错误、DNS劫持状态等等,可以从运营商、地域信息不同维度进行数据分析。


CDN监控:主要指标包括平均响应时间、可用率、内容加载时间,错误监控信息主要包括HTTP错误、网络故障、访问超时等错误,业务质量监测平台能够智能分析CDN节点信息运行状态,自动白名单过滤功能可最大限度避免CDN被劫持修改,保证了外部用户访问系统的安全性。

API监控:监控全国区域调用API接口的平均响应时间、可用率、网络连接时间、错误率等信息。如果在 API 监控的结果里设置了匹配响应码,就会进行响应码内容比对操作,当响应码不匹配时就会在应答监控中提示错误,有效的监控了接口的实时可用性。


事务监控:使用XUL和XPCOM技术及对应组件进行开发,业务质量监测平台通过模拟浏览器,记录用户访问过程中的操作行为,最终将采集数据整合,保存为运行脚本。脚本记录用户在浏览器中操作的一系列流程,事务监测过程中可调用不同区域的全国节点模拟用户的真实访问,记录每个步骤的成功失败状态和响应时间。


业务可用性监控:可通过录制或手工编写业务脚本的方式,生成真实用户端的全流程业务监测脚本,通过线上多监测点测试生产系统的可用性,监测内容包含业务响应时间、业务吞吐量、业务成功率、业务失败率、错误详情等信息,详情分析页通过服务端的返回报文监测匹配功能可一键定位系统错误的真实原因。


报警设置:所有业务类型均可设置报警阈值,阈值内容包括平均响应时间、可用性、错误类型等信息,当监测数据符合告警阈值时,告警数据可通过邮件、短信、微信、语音等多种通知方式实时通知运维人员,有效降低处理问题时间窗口,最大限度的降低企业损失。

总结

总的来说,业务质量监测平台能够实现链路级、业务级的主动探测功能,同时能够按时、按需、按地域的定制化监控内容。此外,丰富的阈值设置也便于企业实现灵活、动态、全天候的监控管理,真正做到快速定位问题,精准分析故障,同步推送告警的一体化模式。

值得一提的是,经过近10年的技术积累与沉淀,OneAPM公司的产品和服务在运营商、金融、政府、互联网、教育、能源、交通、军工等多个行业获得了广泛应用和一致好评,目前拥有企业客户超过1000多家,包括中国移动、中国电信、李宁、上汽集团、太平洋保险、国家电网、优信二手车、福田汽车、长城汽车、中泰证券、银信财富等等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_783052.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker 初识之二(简单发布ASP.NET Core 网站)

docker 初识之二(简单发布ASP.NET Core 网站) 原文:docker 初识之二(简单发布ASP.NET Core 网站)在发布ASP.NET Core网站以前,先介绍一下DaoCloud 一个免费的docker云容器服务平台。登陆官方网站,创建一台d…

SEO|搜索引擎优化(如何让你的网站排名靠前)

如何让你的网站排名靠前 网站做好了,怎样才能让你的网站在各大搜索引擎中排名靠前呢?网上的帖子很多,通过搜索和总结,整理出了一套自己行之有效的方法,写出来供大家参考 成功案例推荐:天气预报、43997k7k小…

都说网站搜索聚合页很有效?到底有没有效,看完这一篇你就懂了!

一,天天都说搜索聚合页面很有效,那到底有没有效?说多无益,上例子: 1.1,有名的SEO讨论网站搜外网,有一个帖子,大家可以看看:https://ask.seowhy.com/question/16714 1.2&a…

Github以及其他网站访问慢或者图片加载不出来解决办法(Windows)

下面为Windows的解决办法,修改hosts文件。 现象:ping网站(github.com)请求超时。 原理:访问网址时先搜索hosts文件,如果在hosts文件中有网址对应的ip则不需要dns域名解析,因此可以将网址的ip配成…

使用VS2012开发的网站或者webservice在IIS6.0上发布的注意事项

由于新版的VS2012的出现,很多人转而使用VS2012作为开发工具,微软每次新的版本都会新增一些功能,带给我们不少的惊喜,但是在VS2012或者VS2010下开发的网站或者webservice在部署时要注意了,由于VS2010以上版本的.net fra…

如何在首页只显示所有子网站的特定通知

我们设置好了在首页显示所有子网站(部门网站)的通知。但是,正常情况下,部门网站中的通知会包括发布到整个公司的通知以及本部门内部的通知。而在首页中显示的应该是针对整个公司的通知,下面我们就来进行一些设置。 在顶…

真假平安保险网站

KAO,骗子的仿真度太高了,以前没去过平安保险的网站,刚在挂马列表中发现这个http://www.pingan-china.com.cn/index.asp,进去网盾报告有毒,还以为是真的平安保险被挂了,而实际上这只是个钓鱼站点。这个站才是…

引用其它网站php文件,防止其它网站引用自己网站的链接

时间:2014-03-22 发布人:SHX 浏览次数:2149 评论:0网站的图片被盗链,是一件让人非常郁闷的事情。盗链不仅盗用图片,更直接的问题是用户在下载盗链人网站上的图片时,会给服务器带来压力&#…

10容易实现基于Flash的MP3播放器为您的网站

闪存MP3播放器酷的,因为他们让Web开发人员和博客嵌入音乐播放器,并在网站上建立定制点唱机。 与这些在线音乐播放器,您可以轻松添加歌曲列表和JavaScript代码嵌入到您的网站。这些音乐播放器,大多是定制的,你可以有你赢…

卢松松:12306网站订票详细攻略

短短数日全球ALEXA排名260,日订单量有望第一、不愁销售额、转化率,甚至有很多用户的钱被吞了,还是不甘心,再次冲进去购买,当之无愧的第 一。它界面丑陋、UI粗糙、服务器不稳定、用户体验更是烂到极点,未做一…

html地图百度提交,使用百度网站地图插件(sitemap)向百度提交链接

百度sitemap提交现在已经开放了,在很久之前这个功能是内测版需要申请的,这里向大家介绍一下如何利用WordPress插件向百度提交sitemap(网站地图)。网站地图(sitemap)或者称为站点地图,是什么来自百度百科的站点地图说明:(http://ba…

php.ini网站空白,php配置问题:拷贝php.ini后,测试页面无法显示(显示空白)

1、一般我们安装完php后,会需要测试也:两个方法:1、会在网站目录下新建一个php的测试页,然后在流浪器里访问查看php的相关信息:[rootlocalhost_002 111.com]# cat index.phpphpinfo();?>2、使用php自带程序 /usr/local/php7/bin/php -i|g…

win10如何搭建php网站,win10如何安装和搭建php开发环境

本篇文章介绍了在win10下安装和搭建php开发环境,过程也比较详细,有需要的朋友可以看一下。我们首先搭建PHP的运行环境,然后进行PHP的安装和配置。下面就来具体介绍。Apache 安装1、下载安装包点击链接进入下载官网http://httpd.apache.org/do…

网站相关技术探究keepalive_timeout:

网站相关技术探究keepalive设多少: /proc/$PID/fd/$number0:标准输入 1:标准输出2:标准错误Test:[rootKTQT ~]# ll /proc/12857/fdtotal 0 lrwx------ 1 root root 64 Apr 4 17:49 0 -> /dev/nulllrwx------ 1 root root 64 Apr 4 17:49 1 -> /dev/nulllrwx…

美食网站主页java代码,基于jsp的美食网-JavaEE实现美食网 - java项目源码

基于jspservletpojomysql实现一个javaee/javaweb的美食网, 该项目可用各类java课程设计大作业中, 美食网的系统架构分为前后台两部分, 最终实现在线上进行美食网各项功能,实现了诸如用户管理, 登录注册, 权限管理等功能, 并实现对各类美食网相关的实体进行管理。该美食网为一个…

新网打开php显示404,网站404页面是什么

网站404页面是什么?出现网页404页面的原因有很多,所以问题反馈时会显示很多不同的问题编码,大家知道网站404页面吗?404页面是客户端在浏览网页时,服务器无法正常提供信息,或是服务器无法回应,且不知道原因…

JavaScript网站设计实践(六)编写live.html页面 改进表格显示

一、编写live.html页面,1、JavaScript实现表格的隔行换色,并且当鼠标移过时当前行高亮显示;2、是输出表格中的abbr标签的内容 实现后的效果图是这样的: 1、实现思路 在输出表格的时候,给出一个判断,如果偶数…

企业网站服务器的配置研究背景,ftp服务器研究背景

ftp服务器研究背景 内容精选换一换当服务器配套有X722板载网卡时,需要参考此章节安装服务器板载网卡驱动。本文以CentOS 7.3为例介绍如何安装服务器板载网卡驱动,其他操作系统的安装方法类似。将准备工作中获取的“NIC-X710_XL710_X722-CentOS7.3-i40e-2…

mysql linux搭建网站_linux下网站搭建

我们知道windows网站搭建一般是:IISAspSqlserver,而 linux网站搭建是:ApachephpMysql。两者之间个有千秋,但是为什么我们许多的门户网站搭建都选择linux— apachephpmysql呢?当然是其的安全性了,Apache 是世…

嵌入式linux 教程,基础知识 - 嵌入式Linux教程_Linux教程_Linux公社-Linux系统门户网站...

一、交叉开发模式1、运行嵌入式Linux开发时分3个步骤:(i)在主机上编译Bootloader,通过烧写工具烧入开发板(ii)在主机上编译嵌入式Linux内核,通过串口连接写入单板(iii)在主机上编译各种应用程序,通过网络连接写入单板2、主机与目标…