网站跟踪(web tracking)的原理

news/2024/5/12 12:37:07/文章来源:https://blog.csdn.net/zdavb/article/details/47149183

网站跟踪并不是什么新的技术,而只是一种比较常见的应用,甚至都谈不上新。这里想跟大家分享一下,里面有我的一些想法和思考,如果有不准确的地方,还请不吝赐教。

为什么要跟踪

现在大家对隐私都比较敏感,而且对互联网流氓都比较警惕,所以一旦提到“跟踪”字眼就会觉得很不舒服。那我们先谈谈为什么会有网站跟踪。

  • 作为服务提供商,我们当然会希望知道用户对所提供服务的态度,这在任何行业都是明显的,对传统行业而言,销量就是最直接的消费者态度。但是对于互联网而言,并不大直接明显。
  • 当对用户的数据进行搜集之后,服务提供商可以对这些数据进行挖掘,进行数据推荐等等来更加吸引用户或者增加收入(比如广告推荐等等)。

如何跟踪

作为服务提供商,如何知道用户的行为呢?

  1. 传统方法:在服务端代码中使用日志。日志系统有简单有复杂的,基本原理都是当有请求访问时,服务器创建线程并执行代码,然后将一些日志信息存储到文件系统中。其中日志信息基本都来自于HTTP请求报头。
  2. 在HTML页面中插入一段代码,该代码可以记录一些信息:用户访问页面的title、URL、用户点击链接、用户在页面停留的时间等等等等。

这两种方法各有利弊吧,但是第二种优点更多

  1. 首先,它直接面向用户,所有的数据都是准确的,而且信息会更全。这比第一种方法获取的数据量会少一些(第一种包含了爬虫的信息)。
  2. 其次,它可以统计出有多少用户访问您的主页达到多次,这个可以用来衡量有多少忠实用户,但是对于第一种方法,就可能无法做到。因为,web页面很可能在访问第一次之后就被缓存起来,因此,访问第二次或更多时,日志系统是不起作用的。
  3. 从代码可维护性角度而言,第二种方法也比第一种好太多了, 第一种在每个需要统计的地方都要插入日志语句,即便归纳为类,可维护性仍然很差。
  4. 总的来说,第二种跟踪方法面向“真实”的用户,而第一种是面向的“服务请求”。所以如果需要统计爬虫的信息,那么还是采用第一种方法。

我们能做什么

由此可见,网站跟踪主要目的并非是窥探用户隐私,而只是做类似于市场调研的事情。按照李彦宏的说法,企业并不会对某个个人用户的数据感兴趣,而是对“大量”的个人数据感兴趣。
所以,如果你的确不希望服务提供商知道你在干什么,那么最好的方法就是不登陆(注销),这样,对于服务提供商而言,它拿到的仅仅是一个客户的统计数据,而无法将你与你的名字(张三)挂上勾。

当然,现在很多浏览器(firefox)都会有什么“隐私浏览”、”告诉服务提供商不希望被跟踪“等等。它实现的方法也不是禁止cookie啥的,而是在HTTP报头中加入一个字段,告诉服务提供者不要插入跟踪js代码,但是它并没有强制作用,只是靠道德或自觉,服务提供商可以选择性忽略。

跟踪工具

现在已经有了很多tracking server。比如google analysis, StatCounter或者opentracker等等等等,它们的基本原理都一样。以google analysis为例,它为你提供一段小的js代码,然后你可以把它插入到你的HTML页面中,这段小的js代码,将替你获取用户的行为分析,然后将数据传送到google的track server中,然后你有权去查看Google提供的统计信息。当然作为Google,它获取的信息也是巨大的。

作恶怎么办

俗话说的好,人心隔肚皮,谁也不能保证别人不会做什么事?所以,问题来了,那他们利用这段代码作恶怎么办?一般来说,真没办法,你浏览的网站是别人的,代码是别人给的,里面有什么东西,你怎么能知道呢?
一个小的建议是,尽量访问比较正规的、访问量大的网站,因为它们作恶的成本太高,所以我们可以选择相信他们。

当然从学术的角度看:我们担心隐私泄露,其实更多的是js代码去访问其他网站或系统内容,比如浏览历史、正在访问的其他网页等等。传统的浏览器架构如下:
这里写图片描述
由此可知,对于一些存储如cookie和cache或者HTML5 local storage是公共的。也即任何代码都可以直接访问。因此,保护安全的一种显然的方法是将存储内容与页面主体作一隔离。
这里写图片描述

通过在存储与页面之间加一中间层,来对js代码所请求数据进行一层过滤。比如,只允许访问同一域名下的数据信息(比如photo.goolge.com可以访问play.google.com的信息,而拒绝访问baidu.com的信息)。

此外,还可以看到在架构的下方还有一层。这一层可以根据一些黑名单,当数据被发送出去前,过滤掉一些常见的字段数据,这样,即使数据被拿走,也是无效的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_764710.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

反网站跟踪的原理

这是一篇论文的读书笔记“I DO Not Know What You Visited Last Summer: Protecting Users from Third-party Web Tracking With TrackingFree Browser”原文链接 overview 因为该作者致力于解决网站跟踪问题,首先得明确什么是网站跟踪,请参考博客&…

php搭建锁机网站,C/C++轻松写电脑锁机程序

首先得知道cmd界面中可以对windows用户帐号进行操作在c/c中用system("")就能直接与cmd进行通信下面是代码,很简单,不再解释,我们从演示来看这两句代码的功能!# include # include # include int main(){int i 1;int a;…

url获取网站信息不包含网页源文件内的标签_爬虫入门一:爬取一个网页

首先,我们提出一个问题:网页是什么?在我看来,网页就是信息,是我们请求一个公司或者个人发给我们的信息。我们举一个例子,我们在浏览器中输入http://www.baidu.com 然后回车,就会看到我们很熟悉的…

照片欣赏网站php,php照片相册共享系统

照片相册共享系统使用的设是PHP技术和mysql数据库技术开发.该系统是高校计算机专业的毕业设计题目,主要是针对高校毕业设计进行题目的设计,系统功能简单,模块清晰,想要的朋友可以联系我.总体功能模块1 图片管理图片管理应该包括的…

nginx 使用gizp压缩提高网站的传输速度

网站的css,js ,xml,html 在传输的时候可以使用gzip压缩,提高访问速度, 网站上的图片,视频等其它多媒体文件,因为压缩效果不好,所以对于图片没有必要支压缩, 如果想要优化,可以图片的生命周期设…

增加索引会锁表吗_企业为什么要建设网站?你的网站这些问题存在吗?

原标题:企业为什么要建设网站?你的网站这些问题存在吗?如今是创业的人越来越多。很多人纷纷都注册了自己的公司,想自己创业,而多数人创业的时候,想到的第1点就是先建立一个自己的网站。那么你建立自己网站的…

flask session_用Flask写一个图书作者管理网站(附完整代码)

这次给大家带来的是一个非常小的Flask案例,首先看一下做出来的效果:我们主要分为两部分来做,这两部分分别是上图的上部分的表单和下面的列表展示。如果你还没用过 flask,可以先看一下其官方文档的快速入门:http://docs…

PHP 伪静态seo,伪静态、静态、动态网站对SEO的影响有多大?

我看过非常多的关于伪静态、静态、动态网站方面的一些知识,网上有非常多的说法,里边很多不懂装懂的人,胡说八道。甚至是有很多人转载别人的文章加工一下,就开始卖弄学问。最终的结果是,非常多的人不知道到底怎么做才对…

html 居中_SEO小龙人:HTML+CSS之display:inline-block实现三个标签并排居中显示

实现效果&#xff1a;<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns"http://www.w3.org/1999/xhtml"><head><meta http-equiv…

具体案例 快速原型模型_产品经理笔试知识点:白盒测试、开发模型、网站跳失率和RFM模型...

概述现今互联网产品经理的岗位的招聘原来越热门&#xff0c;笔者把网上搜集到的产品经理笔试易错题做了完整的解析和举例说明&#xff0c;每篇4道互联网产品经理笔试易错题&#xff0c;分析知识点&#xff0c;提升IT视野见识。本文主要介绍白盒测试&#xff0c;软件的几种常见开…

提升工作效率的那些网站——私藏工具推荐

提升工作效率的那些网站——私藏工具推荐 有哪些网站能提升你的工作效率&#xff1f; 分享一下那些能大幅提高工作效率的网站&#xff0c;都是我们一直在用并且认为在同类型中比较好用的。希望也能帮助到你。 梅花网—灵感素材 关于文案、新媒体的聚合网站&#xff0c;干货满…

推荐一个好玩网站,黑白照片上色、人脸识别都不是问题!

欢迎关注我的微信公号&#xff1a;小张Python! 大家好&#xff0c;我是 zeroing ~&#xff0c;今天给大家分享一个好玩的网站&#xff0c;只需把本地老照片上传&#xff0c;接下来网站就自动对黑白照片进行上色 老照片上色技术 其实已经出来很早了&#xff0c;去年 5 月份时 B…

词云绘制,推荐三种 Python包外加一个在线网站!

词云是文本可视化的重要方式&#xff0c;可将大段文本中的关键语句和词汇高亮展示&#xff0c; 本篇文章先介绍几种制作词云的 Python 库&#xff0c;分别是 WordCloud、StyleCloud、Pyecharts&#xff1b;再加一个在线词云制作网站&#xff1b;最后通过代码实操和可视化效果对…

Vue + Django + PaddleOCR 实现一个在线OCR 识别网站,一键上传快速识别

大家好&#xff0c;我是小张~ 之前写过一篇博文介绍了一款OCR 识别库&#xff0c;识别精度能达到商用级别&#xff0c;并且支持多语言识别&#xff0c;使用详情请参考文章&#xff1a;文本OCR&#xff0c;这个Python库识别效果不输于商用&#xff01;&#xff0c; 除了Paddle…

写一个简单的网站首页,初识 CSS 中 Flex 布局

之前一直用 VUE 写后台管理界面&#xff0c;对前端 CSS 这块一直是半知半解&#xff0c;为了巩固这方便知识&#xff0c;抽空写一些基础页面来巩固一下 今天带来的是一个简单的网站首页&#xff0c;源于《深入解析CSS》中的案例&#xff0c;首页做了简单的自适应&#xff0c;但…

印象笔记如何分享链接_杭州诠网科技分享seo优化如何做好网站的反向链接

几乎所有的网站管理员都希望自己的网站能够在百度、谷歌和其他搜索引擎中排名靠前。因为在搜索引擎排名靠前可以给网站带来很多新客户&#xff0c;这有利于网站产品或服务的营销和网站品牌的提升。虽然我们还没有找到一个神奇的公式来提高网站在搜索引擎中的排名。但是很多例子…

linux网站宝塔无法访问ipv6,centos7宝塔面板服务器开启纯IPV6访问

随着互联网世界日新月异的发展&#xff0c;ipv6好像已经成为一种必不可少的趋势&#xff0c;但是当前国内机房大部分还不能支持ipv6&#xff0c;腾讯云亦如此。同时&#xff0c;现在有部分程序在服务器上运行的时候&#xff0c;需要服务器能监听一个ipv6地址才行&#xff0c;因…

【伸手党福利】【第一弹】jeecg-boot前端主要更改位置(网站标题栏图标、logo、登录后的logo、显示的标题文字、用户头像)

【伸手党请光看标题】 网站标题栏图标 位置 ant-design-vue-jeecg\public\index.html 1、index.html标题在head第9行替换掉&#xff0c;然后复制ico到/public <link rel"shortcut icon" href"<% BASE_URL %>favicon.ico" type"image/x-ic…

关于百度机器人搜索你网站的页面权限设置

百度robots.txt上加 User-agent: * Disallow: / 这可能涉及到公司的网站是否存在信息泄露的风险

git 在线学习网站

Learn Git Branchinghttps://learngitbranching.js.org/?NODEMO&localezh_CN