快播CEO认罪,成人网站对技术的要求有多高?

news/2024/5/19 7:59:39/文章来源:https://blog.csdn.net/weixin_34176694/article/details/90566262

0?wx_fmt=jpeg

快播涉传播淫秽物品案昨日在海淀法院开庭审理。快播公司、王欣、张克东、牛文举均表示认罪悔罪。吴铭表示快播公司犯罪成立。


庭前法院委托鉴定机关,对涉案的四台缓存服务器的硬盘数据是否受到改写污染问题进行了鉴定。鉴定结论是:未发现硬盘中的视频文件在2013年11月18日被行政机关扣押后,有从外部拷入和修改的痕迹。


再次开庭,王欣的态度和半年前截然不同。在2016年1月的庭审中,王欣则是否认快播传播淫秽视频,王欣称,涉案四台服务器是加速服务器。服务器留存的文件是缓存文件,快播无法轻易辨别。


在整场快播案庭审的剧目中,王欣那句“技术无罪”,博得了无数网友的同情和支持。大数据文摘今日也只从技术角度探讨,从数据规模、基础设施等方面说明,成人网站对技术的要求到底有多高。



 ◆ 

成人网站对技术的要求到底有多高


上网之人,多少都会接触过成人网站。这是一个举世公认的事实。


不过这是一个难以洞察的领域,因为相关数据少之又少。我们知道成人网站都是那些在互联网上有着超高流量的网站。根据 Google DoubleClick 的 Ad Planner 服务(通过cookie跟踪网民)显示,全球 Top 500 网站中,就有数十个成人网站。全球最大的色情网站 Xvideos 每月网页浏览量(Page Views,PV)高达 44 亿,是 CNN 或 ESPN 新闻网站的 3 倍,是 Reddit 的 2 倍。LiveJasmin 也不小。除了 Google 和 Facebook 等大站,其他网站在YouPorn、Tube8 和 PornHub 面前都是小巫见大巫。


虽然网页浏览量是一个很好的起始点,但它们仅告诉我们某些色情网站比某些非色情网站要受欢迎。40亿的PV,听起来很多,但当我们把那些X站用户实际在做的事考虑进来,成人网站的大小和规模就有点明朗了。


 ◆ 

规模


640?

色情网站和非色情网站的主页区别是访客的平均停留时间。诸如 Engadget 等新闻网站的平均停留时间是 3 – 6 分钟,大约是是阅读 1 – 2 篇文章。然而色情网站的停留时间,大约是在 15 – 20 分钟。


大部分网站的内容主要是文本和图像,而成人大站则是视频。EXT首页完全加载大约是几兆数据,打开一篇文章,大约是500kb数据。访问色情网站,假设是打开一个 480×200 低分辨率的视频,每秒传输 100 kb 数据。15 分钟的话,那就大约是 90 MB 数据了。


XVDO 每月有 3.5 亿访问次数,乘以 90 MB,那就每月传输大约 29 PB 数据,也就是每秒传送数据约 50 GB。做个对比,你家网络连接可能每秒传送两兆(2 MB),XVDO是你家的 25,000 倍。


简而言之,色情网站是在处理天文数字级别的数据。在原始带宽(Raw Bandwidth)方面,能与之匹敌的网站,也就只有 YouTube 或 Hulu,而 YouPorn 却又是 Hulu 的 6 倍。


 ◆ 

基础设施


就支持视频所需的资源,数据存储器、CPU 周期、I/O 和带宽,远超过文本和图像所需要的资源。


当然了,虽然每个网站的情况又不一样了,但大部分成人站点都有 50 至 200 TB 的成人资料。对一个网站来说,这是个大数目(Google、Facebook、Blogger 和 Youtube 之流存储的数据比这还要多),好在现在 2 TB 的硬盘便宜。


CPU 周期和 I/O 会影响视频流和 PV 数量。首先,色情网站要提供动态、可搜索的海量视频数据库,然后点播视频时,从硬盘读取文件,再网络上传输。如果你有过在局域网传送大量大文件的经历,你就会知道网络系统的压力有多大了。


硬件设备情况,实际上我们几乎无法知晓,因为色情网站也没公布过。虽然如此,但我们讨论的大型色情网站会有四核服务器、千兆交换机、负载均衡器。在软件方面,大部分大型色情网站都会使用超高吞吐量的数据库(比如 Redis )来存储和提供视频,还有轻量级的 HTTP 服务器(比如 Nginx )。


最后说带宽。还是以 Xvideos 为例(基于 Ad Planner 的数据估测),大型色情网站必须有足够的连通性(connectivity)来支撑每秒 50 GB(400Gbps )。这还只是平均传输速率。在高峰期间,Xvideos 或许要 1,000Gbps  (1Tbps) ,或更高 。在伦敦和纽约直接的连通性也才 15Tbps。

有很多方法来处理高流量:自己搞个数据中心,或者去大数据中心租赁几排架的服务器,或者使用诸如 Amazon AWS 和 Microsoft Azure 之类的云服务。


 ◆ 

真实案例


YPN是全球第二大的色情网站,足够提供研究数据。另外要说一下,DoubleClick  的 Ad Planner 中的估测数据比实际数据要低很多的。


YPN有“超过 100 TB 的干货”,每天网页浏览量超过 1 亿。总而言,这相当于每天传送 950 TB 数据(大部分都是视频流),每月大约传送 29 PB。Xvideos 肯定不止 28 PB 这个估测值了,它可能是每月 35 – 40 TB。

640?

在高峰期,YPN每秒得响应 4000 个网页,相当于有每秒 100 GB 或(800 Gbps )的突发流量。这相当月每秒传送 10+ 张双层 DVD。


在软件方面,YPN的主数据库是 Redis,用 MySQL 作为管理工具,用于管理和向 Redis 簇中添加数据。后端是 Perl 和 MySQL,不过在 2011 年改成了 PHP + Redis。HTTP 服务器是 Nginx,同时用 HAProxy  和 Varnish  做负载均衡。Redis 服务器可以每秒处理 30 万请求,每小时记录下 8 – 15 GB数据,包括访客日志、行为数据等。据说 Redis 可以抗住 2 亿的日 PV。


(译注:2012年2月份,YPN的技术人员 Eric Pickup 在 Google 群组宣告他们网站改用 Redis DB 后。扛住了每天1亿PV浏览量,每秒30万请求,已经坚持 2 周。Eric 还将去加拿大一个技术大会分享经验。)


令人悲伤的是,YPN拒绝透露硬件设备信息。从 YPN的 CDN 的 IP 地址来看,它应该没有使用云服务,应该托管在某地的大型数据中心。


互联网每天大约处理 1/2 EB 数据,相当于每秒处理 50Tb, YPN的 800Gbps 这个数字,几乎就占了互联网中每秒流量的 2%。而全球有几十个和 YouPorn 规模相当的色情网站。互联网流量中色情内容占据了 30%,这个说法也就不是不现实的哦。

 原文发布时间为:2016-09-10

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_781911.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

收录高的网站关键词一定要这么布局

随着互联网的高速发展,网站几乎成了每一家企业后者公司不可缺少的一部分,网站也成了公司或者企业的第二个基地——线上展示。这个在网站建设的时候需要先给网站定位好,因为需要提前做好关键词的布局准备,虽然行业千千万&#xff0…

提供在线linux的网站,谁能提供一个在线免费学习Linux的网站?

楼主发表于:2008-04-21 19:46:20求一个可以在线学习LINUX 并且可以在线练习很多常用命令的网站 就是不用装linux 也可以练习linux的网站 谢谢。 对我有用[0]丢个板砖[0]引用举报管理TOP 回复次数:8 fox000002(糊糊。。楼主发表于:2008-04-21 19:46:20求一个可以在线学习LINUX 并…

为hexo 网站加上live2d看板娘

为网站加上live2d看板娘hexo-helper-live2d看板娘终极进化,可换装hexo-helper-live2d 下载hexo-helper-live2d github地址 这是官网效果 好了虽然上面已经给出官网地址 但是还是给你讲解一下 打开dos命令 切换到你博客目录执行 npm install --save hexo-helper-…

为你网站添加上评论系统

为你网站添加上评论系统想想你看过next后你会发现hexo有很多评论系统1.多说 2.网易云跟帖 3.畅言 4.来必力(LiveRe) 5.Disqus 6.Hypercomments 7.valine 等等等~~~~~~很多 但是我都看了一遍都贼麻烦只有这一个比较简单 首先开启valine 打开next的配置文件…

hexo网站使用next主题

hexo网站使用next主题网站使用next主题准备网站使用next主题 上一篇我记录了怎么使用hexonext搭建GitHub的个人网站,飞机票 准备 首先我们要下载安装next 如何下载这里给两个方法,https://github.com/iissnan/hexo-theme-next这个github地址进去之后直…

网站地图(站点地图)详细介绍以及如何制作

原文链接 什么是网站地图 网站地图,又叫站点地图,它就是一个列出了你网站上所有页面地址的清单文件,一般来说分为2种,一种是给搜索引擎看的,一种是给用户看的,前者帮助搜索引擎更好地收录你的网站&#xff…

docker-compose管理Hexo急速建站-Hexo建站(二)

上回介绍了如何在 Linux 服务器上急速建站 本节主要介绍使用 docker 作为容器 docker-compose 进行容器编排达到快速建站的目的. 以下是这套建站方案带来的其它优点: docker 容器优秀的隔离性, 能让我们的服务器环境更加整洁docker-compose 方便在服务器迁移、硬盘损坏等意外情…

nginx 代理 hexo 及域名配置-Hexo建站(三)

先前我们将 Hexo 通过 docker-compose 成功将 hexo 部署进了我们的服务器, 拥有域名的同学一定不希望他人在访问 Hexo 时还使用http://<host>:4000这种形式. 这一节, 主要演示使用阿里云控制台购买的域名并配置 nginx 代理实现域名访问 Hexo Blog 的实战 安装条件 生产环…

Hexo 安装 Next 主题-Hexo建站(四)

安装条件 生产环境(Linux服务器): hexo 未安装 hexo 的同学可以参考前两节的内容. 将 hexo 部署起来 安装步骤 注意: 以下工作空间根目录为 Linux 服务器 hexo 安装路径根目录 下载 Next 主题 这里我选择的是最后一次发布的主线版本. cd <your_hexo_path> mkdir t…

大型网站的 HTTPS 实践(四)——协议层以外的实践

详见&#xff1a;http://blog.yemou.net/article/query/info/tytfjhfascvhzxcyt390 1 前言 网上介绍 https 的文章并不多&#xff0c;更鲜有分享在大型互联网站点部署 https 的实践经验&#xff0c;我们在考虑部署 https 时也有重重的疑惑。 本文为大家介绍百度 HTTPS 的实践和…

机器学习实战(一):使用k-近邻算法改进约会网站的配对效果

示例:使用k-近邻算法改进约会网站的配对效果 我的朋友海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的 人选&#xff0c;但她没有从中找到喜欢的人。经过一番总结&#xff0c;她发现曾交往过三种类型的人&#xff1a; 不喜欢的人魅力一般的人极其…

Django项目实践4 - Django网站管理(后台管理员)

http://blog.csdn.net/pipisorry/article/details/45079751 上篇&#xff1a;Django项目实践3 - Django模型 Introduction 对于某一类站点&#xff0c; 管理界面 是基础设施中很重要的一部分。这是以网页和有限的可信任管理者为基础的界面&#xff0c;它能够让你加入&#xff0…

大型网站架构系列:负载均衡详解(3)

本次分享大纲 软件负载均衡概述Ngnix负载均衡Lvs负载均衡Haproxy负载均衡本次分享总结一、软件负载均衡概述 硬件负载均衡性能优越&#xff0c;功能全面&#xff0c;但是价格昂贵&#xff0c;一般适合初期或者土豪级公司长期使用。因此软件负载均衡在互联网领域大量使用。常用的…

监控网站URL是否正常

测试一下&#xff1a;#!/bin/shfunction usage() { #<甯姪鍑芥暟echo $"usage:$0 url"exit 1}function check_url() { #<妫€娴婾RL鍑芥暟銆? wget --spider -q -o /dev/null --tries1 -T 5 $1 #<閲囩敤wget杩斿洖鍊兼柟娉曪紝杩欓噷鐨?1灏辨槸鍑…

网站性能优化小结和spring整合redis

现在越来越多的地方需要非关系型数据库了&#xff0c;最近网站优化&#xff0c;当然从页面到服务器做了相应的优化后&#xff0c;通过在线网站测试工具与之前没优化对比&#xff0c;发现有显著提升。 服务器优化目前主要优化tomcat,在tomcat目录下的server.xml文件配置如下内容…

网站流量日志数据分析系统1

1、点击流数据模型 1.1、点击流概念 点击流&#xff08;Click Stream&#xff09;是指用户在网站上持续访问的轨迹。这个概念更注重用户浏览网站的整个流程。用户对网站的每次访问包含了一系列的点击动作行为&#xff0c;这些点击行为数据就构成了点击流数据&#xff08;Clic…

Hexo+GitHub网站搭建

HexoGitHub网站搭建前言前期准备Git 下载和安装Node.js注册Github账号并建库第一步&#xff1a;Git和GitHub的初步配置设置本地Git用户名设置和Github的SSH传输密钥第二步&#xff1a;安装Hexo安装Hexo第三步&#xff1a;建立博客并上传到Github建立Hexo博客设置_config.yml生成…

建站手册-语义网:语义网安全

ylbtech-建站手册-语义网&#xff1a;语义网安全1.返回顶部 1、http://www.w3school.com.cn/semweb/semantic_security.asp2、2.返回顶部1、有关语义网的话题 语义网实例语义网首页这里列出了一些有关语义网的话题。 语义网代理 语义网不是可供搜索的免费文本。如希望搜索或访问…

《SEO深度解析——全面挖掘搜索引擎优化的核心秘密》

《SEO深度解析——全面挖掘搜索引擎优化的核心秘密》 基本信息 作者&#xff1a; 痞子瑞 出版社&#xff1a;电子工业出版社 ISBN&#xff1a;9787121224041 上架时间&#xff1a;2014-2-28 出版日期&#xff1a;2014 年3月 开本&#xff1a;16开 页码&#xff1a;560 版次&…

Web项目部署(3)——开发准备以及简单的页面展示(简单的博客网站)

在eclipse里新建一个dynamic web project&#xff08;可能需要在file->new->other里面找一下&#xff09; 这里有一个提示问你是不是要打开java ee视图&#xff1a; This kind of project is associated with the Java EE perspective.Do you want to open this perspect…