python反反爬虫教学_Python3爬虫学习之应对网站反爬虫机制的方法分析

news/2024/5/16 1:02:11/文章来源:https://blog.csdn.net/weixin_39974409/article/details/110044861

本文实例讲述了Python3爬虫学习之应对网站反爬虫机制的方法。分享给大家供大家参考,具体如下:

如何应对网站的反爬虫机制

在访问某些网站的时候,网站通常会用判断访问是否带有头文件来鉴别该访问是否为爬虫,用来作为反爬取的一种策略。

例如打开搜狐首页,先来看一下Chrome的头信息(F12打开开发者模式)如下:

2018121283652151.png?2018111283812

如图,访问头信息中显示了浏览器以及系统的信息(headers所含信息众多,具体可自行查询)

Python中urllib中的request模块提供了模拟浏览器访问的功能,代码如下:

from urllib import request

url = 'http://www.baidu.com'

# page = request.Request(url)

# page.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

page = request.Request(url, headers=headers)

page_info = request.urlopen(page).read().decode('utf-8')

print(page_info)

可以通过add_header(key, value) 或者直接以参数的形式和URL一起请求访问,

urllib.request.Request()

urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

希望本文所述对大家Python程序设计有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_789734.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

seo日常工作表_中小企业网站做SEO优化需要多久 - 超级蜘蛛池

原出处:最蜘蛛池原文链接:中小企业网站做SEO优化需要多久? - 最蜘蛛池SEO优化推广外包优化周期评估需要考虑哪些因素呢?下面跟最蜘蛛池小编一起去看看吧!一、网站的状态首先,SEO优化人员要对网站站点进行初…

linux mysql统计次数_按条件计数 - MySQL统计函数记录_数据库技术_Linux公社-Linux系统门户网站...

问题描述为使讨论简单易懂,我将问题稍作简化,去掉诸多的背景。从前有一个皇帝,他有50个妃子,这些妃子很没有天理的给他生了100,000个儿子,于是,皇帝很苦恼,海量的儿子很难管理,而且&…

php-gene邮箱,生信分析网站(基因组学分析)

生信论文的套路ONCOMINE从全景、亚型两个维度做表达差异分析;临床标本从蛋白水平确认(或HPA数据库),很重要;Kaplan-Meier Plotter从临床意义的角度阐明其重要性;cBio-portal数据库做基因组学的分析(机制一);STRING互作…

域名该怎样选_有了域名怎么建网站,角点科技为你详解建站流程

有了域名怎么网站呢?这个问题当然有两个方面的答案,首先是定制的网站,这个网站就是符合你的风格,有自己的特点。还有一种就是仿制网站,拿一些自己喜欢的网站来模仿,做出一个相似的网站。那么二者的建造流程…

ideaspringmvc连接mysql,使用IntelliJ IDEA开发SpringMVC网站(三)数据库配置

六、数据库配置下面,就要通过一个简单的例子,来介绍SpringMVC如何集成Spring Data JPA(由 Hibernate JPA 提供),来进行强大的数据库访问,并通过本章节的讲解,更加深刻地认识Controller是如何进行请求处理的&#xff0c…

对外汉语偏误语料库_干货收藏!最全对外汉语教学资源网站

快上研究生的你会面临成为新手教师的困难!很多新手教师在每次备课的时候,都要花费大量的时间和精力在找素材上。学姐们为大家准备了资源网站集锦,希望能够帮助各位老师更高效地备课。教学网站篇网络孔子学院网络孔子学院,这个网站…

mysql投票网站_PHP+Mysql实现网站顶和踩投票功能实例

PHPMysql实现网站顶和踩投票功能实例,通过记录用户IP,判断用户的投票行为是否有效,该实例也可以扩展到投票系统中。首先我们在页面上放置“顶”和“踩”的按钮,即#dig_up和#dig_down,按钮上分别记录了投票的票数以及所…

php支付宝异步回调验签失败,thinkphp网站支付宝异步回调验签失败问题_PHP开发框架教程...

了解Redis这个核心数据类型_PHP开发框架教程string字符串tring类型是二进制安全的,即string中可以包含任何数据,Redis 中的普通string采用rawencoding 即原始编码方式,该编码方式会动态扩容,并通过提前预分配冗余空间,…

java扶贫,java精准扶贫捐赠网站ssm框架

本精准扶贫网站管理系统主要包括系统用户管理模块、捐赠信息管理模块、投诉信息管理、扶贫资讯管理、登录模块、和退出模块等多个模块,系统采用了jsp的mvc框架,SSM(springMvcspringMybatis)框架进行开发,本系统使用mysql,独立运行,不依附于其他系统,可移…

重定向 header_[SEO名词]网站301重定向是什么?

301转向(或叫301重定向,301跳转)是当用户或搜索引擎向网站服务器发出浏览请求时,服务器返回的HTTP数据流中头信息(header)中的状态码的一种,表示本网页永久性转移到另一个地址。301重定向对网站真正的用途很大一部分是为了用户而设置的&#…

美国服务器网站怎么黑屏了,关于美国服务器IP的常见问题的详细解答!

原标题:关于美国服务器IP的常见问题的详细解答!在租用服务器时,与之密切相关的一个要素就是IP,关于IP的问题总是有人问起,这里列举几项常见的问题,以供参考。一、IP收费吗?一般情况下&#xff0…

从前慢-SEO

SEO 1 广告 商家给相应公司钱,就有了广告,每点击一下,就会耗费商家的钱, 这里的广告也叫SEM2 百度快照 符合SEO标准,被百度收录,显示百度快照。 这里的百度快照也叫SEO3 搜索引擎概述 搜索引擎是指根据一定的策略、运用特定的计算机程序,从 互联网上搜…

Linux下如何禁止浏览器访问某些网站

cd 到/etc sudo vim hosts 修改hosts文件 在如下位置插入 127.0.0.1 Tab键 需要屏蔽的网址 保存退出,被屏蔽的网站已无法访问

基于openerp的erpcmsone:可当网站程序可当内部知识管理及ERP,及前后端合一的通用网站程序选型,设计与部署

本文关键字:openerp website,erp backend website,erp based portal,netdisk storage based blog,uniform www and erp system 作为一个自己不断尝试建站自用的vps和虚机重度用户,我需要的是一个外能当个人博客用内能当云存储使用的网站程序&#xff0c…

python在线实战_实战 - 廖雪峰的官方网站

看完了教程,是不是有这么一种感觉:看的时候觉得很简单,照着教程敲代码也没啥大问题。 于是准备开始独立写代码,就发现不知道从哪开始下手了。 这种情况是完全正常的。好比学写作文,学的时候觉得简单,写的时…

一种设想:打造小程序版本公号和自托管的公号,将你的网站/blog做到微信/微信公号里且与PC端合一

本文关键字:打造小程序版本公号,打造微网站版本公号,,从私有云到私流,微信移动生态,微信开发者号注册,将你的网站做到微信,微信blog微网站/小程序,将认证后端做在网盘中,,将你的网站…

一个netdisk storage backend app webos和增强的全功能网站云设想

本文关键字:利用网盘空间,network filesystem代替静态网站空间,做成静态网站的动态模块,利用v2y,nginx给onedriveonemanager做自动cdn,利用网盘代替函数计算 在前面《利用大容量网盘onedrive配合公有云做你的nas及做站》我们说到用网盘空间达成网站云和用网盘做附件…

vue seo关键词设置_SEO 技术指南

从搜索引擎出现之初,SEO 就一直是个避不开的话题,许多产品将搜索引擎看做一个潜在的获客渠道,希望通过”流量“为产品带来价值。搜索一下”SEO“这个关键词,会出现大把的推广公司,甚至有专门的 SEO 工程师,…

如何利用铁威马NAS搭建网站服务器?

利用铁威马NAS,你可以将TNAS架设成一个网站服务器。如需启用网站服务器功能,请前往 TOS 桌面 > 控制面板 > 网络服务 > 网站服务器。 1.勾选“启用网站服务器”; 2.设置网站服务器的端口号,设置网站根目录(…

教你利用铁威马NAS轻松搭建网站服务器

在铁威马NAS中,你可以将TNAS架设成一个网站服务器。如需启用网站服务器功能,需要开启网站服务器。 1.登录TOS系统; 2.单击TOS桌面-控制面板-网络服务-网站服务器; 3.勾选启用网站服务器; 4.设置网站服务器端口号&am…