想获得网站访问者的联系方式吗,这篇文章全讲透了

news/2024/5/12 3:51:09/文章来源:https://blog.csdn.net/weixin_34406796/article/details/92449004

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

随着大数据和人工智能的火爆,网络爬虫也被大家熟知起来。随之也出现一个问题,爬取隐私数据是违法的。其实,网络爬虫作为一门技术,技术本身是不违法的,且在大多数情况下,大家都可以放心的使用。但也有特殊情况,就是涉及到隐私数据。

触碰底线的隐私数据:

· 我想要访问某网站的手机号码,可以吗?

· 我想要朋友圈数据

今天跟大家说说隐私数据的问题,弄清楚了这些你才算是懂得大数据采集/网络爬虫技术,从而恰当好处地运用。

隐私数据包括哪些?

1.个人登录的身份、健康状况。网络用户在申请上网开户、个人主页、免费邮箱以及申请服务商提供的其他服务(购物、医疗、交友等)时,服务商往往要求用户登录姓名、年龄、住址、居民身份证编号、工作单位等身份和健康状况,服务商有义务和责任保守个人秘密,未经授权不得泄露。

如“凤凰网站”隐私权保护声明中指出:“本网站将对您所提供的资料进行严格的管理及保护,本网站将使用相应的技术,防止您的个人资料丢失、被盗用或遭篡改。”

2.个人的信用和财产状况,包括信用卡、电子消费卡、上网卡、上网帐号和密码、交易帐号和密码等。个人在上网、网上消费、交易时,登录和使用的各种信用卡、帐号均属个人隐私,不得泄露。

3.邮箱电址,邮箱地址同样是个人隐私,用户大多数不愿将之公开。掌握、搜集用户的邮箱并将之公开或提供给他人,致使用户收到大量的广告邮件、垃圾邮件或遭受攻击而不能正常使用,使用户受到干扰,显然也侵犯了用户的隐私权。

4.网络活动踪迹。个人在网上的活动踪迹,如IP地址、浏览踪迹、活动内容,均属个人的隐私。

所以,以上触碰底线的隐私数据,前嗅都做不到。浏览器不能公开访问的内容,属于黑客行为。

前嗅能为您做的,即所有公开数据。大家可以在互联网上看见的、都属于公开的数据。

前嗅都可以采集什么内容?

新闻类网站

新闻类网站,所有网站上能看到的东西都是可以采集的哦~

可以采集的内容包括:标题;作者;发布时间;新闻来源;二级标题;摘要;内容;视频网址;图片链接;语言;新闻类型;发布状态;删除状态;网址;网站名;内容源码等。

论坛类网站

论坛类网站,能采集到的,包括:帖子;发帖人;发帖时间;发帖数;发帖人关注数;发帖内容,回复内容等。

招聘类网站

招聘类网站,需要重点强调一下,需要付费才能看到的简历,不能采集!非公开的应聘者简历不能采集!

能采集的包括:公司名;招聘岗位;网页链接;职位分类;工作地点;专业需求;公司介绍;投递地址;所属行业;工作内容;工作要求;其他信息等。

企业信息类网站

应相关法律法规要求,全国工商信息系统,不能采集! 可以采集的网站中,能采集的内容包括:统一信用代码;纳税人识别号;注册号;组织机构代码;企业类型;所属行业;核准日期;登记机关;所属地区;英文名;曾用名;参保人数;人员规模;营业期限;企业地址;经营范围;法人公司分布等。

电商类网站

电商网站是否可以采集需要提前与技术顾问沟通,浏览电商网站某产品的用户手机号码不能采集!

可以采集的内容:价格;名字;关键词;图片链接;付款人数;链接地址等。

黄页类网站

黄页类网站和新闻类网站相同,基本上所有公开的信息都可以采集~ 可以采集的内容:联系人;联系电话;公司名;网址等。

搜索引擎类

搜索引擎需要用户提供登录账号以及关键词,配置很简单,采集的时候无效数据会比较多。采集的内容当然也是能看到的啦~

海量网站配置

这个海量网站配置就有点厉害了,这项主要针对需要采集整个行业信息网站的用户,可以将上万个网站放入软件中,通过软件强大的处理功能,进行数据采集,从而获取全面的行业信息。

转载于:https://my.oschina.net/forespider/blog/3050494

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_764714.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大型网站技术架构(五)网站高可用架构

2019独角兽企业重金招聘Python工程师标准>>> 网站的可用性(Avaliability)描述网站可有效访问的特性。 1、网站可用性的度量与考核 网站不可用时间(故障时间)故障修复时间点-故障发现(报告)时间点…

网站跟踪(web tracking)的原理

网站跟踪并不是什么新的技术,而只是一种比较常见的应用,甚至都谈不上新。这里想跟大家分享一下,里面有我的一些想法和思考,如果有不准确的地方,还请不吝赐教。 为什么要跟踪 现在大家对隐私都比较敏感,而…

反网站跟踪的原理

这是一篇论文的读书笔记“I DO Not Know What You Visited Last Summer: Protecting Users from Third-party Web Tracking With TrackingFree Browser”原文链接 overview 因为该作者致力于解决网站跟踪问题,首先得明确什么是网站跟踪,请参考博客&…

php搭建锁机网站,C/C++轻松写电脑锁机程序

首先得知道cmd界面中可以对windows用户帐号进行操作在c/c中用system("")就能直接与cmd进行通信下面是代码,很简单,不再解释,我们从演示来看这两句代码的功能!# include # include # include int main(){int i 1;int a;…

url获取网站信息不包含网页源文件内的标签_爬虫入门一:爬取一个网页

首先,我们提出一个问题:网页是什么?在我看来,网页就是信息,是我们请求一个公司或者个人发给我们的信息。我们举一个例子,我们在浏览器中输入http://www.baidu.com 然后回车,就会看到我们很熟悉的…

照片欣赏网站php,php照片相册共享系统

照片相册共享系统使用的设是PHP技术和mysql数据库技术开发.该系统是高校计算机专业的毕业设计题目,主要是针对高校毕业设计进行题目的设计,系统功能简单,模块清晰,想要的朋友可以联系我.总体功能模块1 图片管理图片管理应该包括的…

nginx 使用gizp压缩提高网站的传输速度

网站的css,js ,xml,html 在传输的时候可以使用gzip压缩,提高访问速度, 网站上的图片,视频等其它多媒体文件,因为压缩效果不好,所以对于图片没有必要支压缩, 如果想要优化,可以图片的生命周期设…

增加索引会锁表吗_企业为什么要建设网站?你的网站这些问题存在吗?

原标题:企业为什么要建设网站?你的网站这些问题存在吗?如今是创业的人越来越多。很多人纷纷都注册了自己的公司,想自己创业,而多数人创业的时候,想到的第1点就是先建立一个自己的网站。那么你建立自己网站的…

flask session_用Flask写一个图书作者管理网站(附完整代码)

这次给大家带来的是一个非常小的Flask案例,首先看一下做出来的效果:我们主要分为两部分来做,这两部分分别是上图的上部分的表单和下面的列表展示。如果你还没用过 flask,可以先看一下其官方文档的快速入门:http://docs…

PHP 伪静态seo,伪静态、静态、动态网站对SEO的影响有多大?

我看过非常多的关于伪静态、静态、动态网站方面的一些知识,网上有非常多的说法,里边很多不懂装懂的人,胡说八道。甚至是有很多人转载别人的文章加工一下,就开始卖弄学问。最终的结果是,非常多的人不知道到底怎么做才对…

html 居中_SEO小龙人:HTML+CSS之display:inline-block实现三个标签并排居中显示

实现效果&#xff1a;<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns"http://www.w3.org/1999/xhtml"><head><meta http-equiv…

具体案例 快速原型模型_产品经理笔试知识点:白盒测试、开发模型、网站跳失率和RFM模型...

概述现今互联网产品经理的岗位的招聘原来越热门&#xff0c;笔者把网上搜集到的产品经理笔试易错题做了完整的解析和举例说明&#xff0c;每篇4道互联网产品经理笔试易错题&#xff0c;分析知识点&#xff0c;提升IT视野见识。本文主要介绍白盒测试&#xff0c;软件的几种常见开…

提升工作效率的那些网站——私藏工具推荐

提升工作效率的那些网站——私藏工具推荐 有哪些网站能提升你的工作效率&#xff1f; 分享一下那些能大幅提高工作效率的网站&#xff0c;都是我们一直在用并且认为在同类型中比较好用的。希望也能帮助到你。 梅花网—灵感素材 关于文案、新媒体的聚合网站&#xff0c;干货满…

推荐一个好玩网站,黑白照片上色、人脸识别都不是问题!

欢迎关注我的微信公号&#xff1a;小张Python! 大家好&#xff0c;我是 zeroing ~&#xff0c;今天给大家分享一个好玩的网站&#xff0c;只需把本地老照片上传&#xff0c;接下来网站就自动对黑白照片进行上色 老照片上色技术 其实已经出来很早了&#xff0c;去年 5 月份时 B…

词云绘制,推荐三种 Python包外加一个在线网站!

词云是文本可视化的重要方式&#xff0c;可将大段文本中的关键语句和词汇高亮展示&#xff0c; 本篇文章先介绍几种制作词云的 Python 库&#xff0c;分别是 WordCloud、StyleCloud、Pyecharts&#xff1b;再加一个在线词云制作网站&#xff1b;最后通过代码实操和可视化效果对…

Vue + Django + PaddleOCR 实现一个在线OCR 识别网站,一键上传快速识别

大家好&#xff0c;我是小张~ 之前写过一篇博文介绍了一款OCR 识别库&#xff0c;识别精度能达到商用级别&#xff0c;并且支持多语言识别&#xff0c;使用详情请参考文章&#xff1a;文本OCR&#xff0c;这个Python库识别效果不输于商用&#xff01;&#xff0c; 除了Paddle…

写一个简单的网站首页,初识 CSS 中 Flex 布局

之前一直用 VUE 写后台管理界面&#xff0c;对前端 CSS 这块一直是半知半解&#xff0c;为了巩固这方便知识&#xff0c;抽空写一些基础页面来巩固一下 今天带来的是一个简单的网站首页&#xff0c;源于《深入解析CSS》中的案例&#xff0c;首页做了简单的自适应&#xff0c;但…

印象笔记如何分享链接_杭州诠网科技分享seo优化如何做好网站的反向链接

几乎所有的网站管理员都希望自己的网站能够在百度、谷歌和其他搜索引擎中排名靠前。因为在搜索引擎排名靠前可以给网站带来很多新客户&#xff0c;这有利于网站产品或服务的营销和网站品牌的提升。虽然我们还没有找到一个神奇的公式来提高网站在搜索引擎中的排名。但是很多例子…

linux网站宝塔无法访问ipv6,centos7宝塔面板服务器开启纯IPV6访问

随着互联网世界日新月异的发展&#xff0c;ipv6好像已经成为一种必不可少的趋势&#xff0c;但是当前国内机房大部分还不能支持ipv6&#xff0c;腾讯云亦如此。同时&#xff0c;现在有部分程序在服务器上运行的时候&#xff0c;需要服务器能监听一个ipv6地址才行&#xff0c;因…

【伸手党福利】【第一弹】jeecg-boot前端主要更改位置(网站标题栏图标、logo、登录后的logo、显示的标题文字、用户头像)

【伸手党请光看标题】 网站标题栏图标 位置 ant-design-vue-jeecg\public\index.html 1、index.html标题在head第9行替换掉&#xff0c;然后复制ico到/public <link rel"shortcut icon" href"<% BASE_URL %>favicon.ico" type"image/x-ic…