python利用requests自定义user-agent爬取网站

news/2024/5/9 3:10:57/文章来源:https://blog.csdn.net/F_hawk189/article/details/80681928
前一段写了一个爬取墨迹天气的小爬虫,今天突然发现不能用了,因为是墨迹天气,反爬机制应该没有那么严格,应该解决一下user-agent的问题就可以了,写这篇博客,说一下requests的自定义user-agent的方式。

首先登录你想要爬取的网站:
python利用requests自定义user-agent爬取网站

我使用的是Chrome,按F12或者右键检查,进入开发者工具,点击network,可以看到,下面是空的:

python利用requests自定义user-agent爬取网站

然后随便点击一下,比如,点击一下今天,可以看到发送的数据包:

python利用requests自定义user-agent爬取网站

任意点击一个数据包,然后在右侧headers选项中,找到user-agent:
python利用requests自定义user-agent爬取网站

接下来就是代码实现了,看下面代码
url = 'https://tianqi.moji.com/weather/china/henan/'+city
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'}
cook = {"Cookie":'BAIDUID=FE0F97F1FC37C47792091A2523CD945F:FG=1; HMACCOUNT=CC6D0E280C842123'}
response = requests.get(url, cookies=cook, headers=headers).content
     url定义要爬取网址,然后headers是user-agent,cook是cookie,cookie就是你登录一个网页时提交的密码,密码向网页提交的登陆数据,简单来说,cookie就是制作一个假身份骗过海关.
    利用get函数提交url、cookies和headers
然后接下来就可以肆无忌惮爬取你想要的数据了。

      当然网站会有很多的反爬机制,需要随机应变,至于为什么要使用我写的这个办法爬取网站,是因为很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)。如果遇到了这类反爬虫机制,可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_805705.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大型网站架构之分布式消息队列

大型网站架构之分布式消息队列 以下是消息队列以下的大纲,本文主要介绍消息队列概述,消息队列应用场景和消息中间件示例(电商,日志系统)。 本次分享大纲 消息队列概述消息队列应用场景消息中间件示例JMS消息服务常用…

网站备案地点选择_香港免备案服务器适合哪些行业租用?

香港服务器免备案吗?由于中国实行的是一国两制,中国香港作为特别行政区,和内地的一些政策不相同,内地相关部门规定网站需要备案,而它是不涉及香港特别行政区的,所以香港没有规定网站需要备案,因…

网页设计 尺寸 html5,网页设计一般至少设置多少高度?制作网站时网页的尺寸是多少?网页的屏幕尺寸是多少?...

网页设计一般至少设置多少高度?制作网站时,网页的尺寸是多少?可以让各种用户看到。网页的屏幕尺寸是多少?下面就和小编一起来看看吧!网页设计一般至少设置多少高度?大致高度如下:WindowXP的靠前个屏幕大小580pxWindow7的靠前个屏幕大小710px的具体原因如下:网页…

网站建设技术方案_b2c网站建设方案怎么做?

随着做b2c商城网站的商家越来越多,很多企业也开始转型向线上电商发展。在做网上商城开发之前,首先要做好b2c网站建设方案,那么b2c网站建设方案怎么做呢?具体就一起跟HiShop移动云商城小编来了解一下。b2c网站建设方案怎么做?1、了解用户需求…

使用网站模板快速建站_教你用懒人建站素材快速生成一个网站

当个人不懂代码,不懂设计,也没有太多时间和资金的时候,如何搭建一个功能比较完善的网站呢?对于新手来说,比较方便的方法是使用自助建站系统,通常这些建站系统都会自带网页建站素材,你不用做太多…

电子邮件服务器的ip地址_网站建设选择什么服务器?

很多企业在建设网站时,很纠结于服务器的选择。他们不知道FTP是更好还是独立主机,因为服务器的质量对网站非常重要。一般的web服务器分为四种类型:虚拟主机、VPS、云主机、独立主机。1、 虚拟主机虚拟主机是在网络服务器上划分一定数量的磁盘空…

python学习网站_国外顶级程序员都在用的Python编程网站

程序员书库(ID:CodingBook) 猿妹编译链接:https://medium.com/for-self-taught-developers/10-best-tutorials-for-python-today-badc8428b950每个程序员都有自己的学习方式,我认为编程学习不仅要看视频教程,而且还要阅读和学习文…

ajax后台返回数据中文乱码_实战:爬取中文网站遇到乱码时怎么办?

阅读时间约8分钟在爬取中文网站时,相信大家或多或少会遇到返回的是一堆乱七八糟、人类无法读懂的字符(如下图)。刚入门的菜鸟可能花大量时间在网上各种搜索、或者各种尝试后仍然和原来一样,甚至有些人可能以为返回内容被加密了,花大量时间搜索…

java网站怎么启动_javaweb小项目如何启动一个Java Web应用

javaweb小项目如何启动一个Java Web应用1、查看自己下载的项目目录通过文件夹结构,你能够看出来你下载的是一个maven项目,还是一个非maven项目,是eclipse的,还是myeclipse的,或者idea的,这些信息会决定你的…

php做网站步骤_手机做网站建设的步骤有哪些?

手机做网站步骤相当于建立pc网站所采取的步骤,假如你建立属于自己的网站,那就需要一定的实力技巧,外加你要有一定的财力,我们就可以在互联网上查看数据,自己做,接下来让我们来看看移动网站建设的步骤有哪些…

swot分析模板_常用的办公模板哪里找?只要拥有这个网站,便能一键下载

作为职场人士,如果想在工作中脱颖而出,那你可能需要用到一些实用的办公网站,以此来提高工作效率,下面小编就介绍一个实用的办公网站给你们。一、常用办公模板1、Word模板首先【办公资源网】里面有海量的Word模板,比如简…

php企业网站带模块,DouPHP模块化企业网站管理系统(含小程序/公众号) v1.6 Release 20200818...

源码标题:DouPHP模块化企业网站管理系统(含小程序/公众号) v1.6 Release 20200818源码描述:授权方式:开源软件界面语言:简体中文文件大小:2.82 MB更新时间:2020-08-19资源类型:国产软件推荐等级…

修改网站首页批处理_网站改版后SEO应注意的问题

事实上,在一定程度上,网站不会被改版和升级,因为对于一个网站来说,改版有更多的东西需要注意,所以今天我们将分析网站改版应该注意什么。1、不要更换网站域名。网站更新版本后,请记住不要更改域名。这会丢失…

php团购实现,团购网站的设计与实现(PHP,MySQL)(含录像)

团购网站的设计与实现(,MySQL)(含录像)(任务书,开题报告,外文翻译,毕业论文14800字,程序代码,MySQL数据库,答辩PPT,答辩视频录像)摘 要随着电子技术和互联网以及移动互联网络的发展,信息技术以一种工具方式被引入到现在的商贸活动中,从而产生了电子商务(…

linux 建站命令,Linux 服务器建站新手教程(小白宝塔建站全流程)-不需要敲一行命令,...

Linux 服务器建站新手教程(小白宝塔建站全流程)-不需要敲一行命令,Linux 服务器配置、运行、不用敲命令WordPress 建站攻略——助力新手快速利用Linux系统建立属于自己的站点——给新手节省宝贵的时间,避免采坑!1Linux —— 一个非常轻便的系…

网站同时在线人数_数据监测网站“BiliOB”因侵权B站关闭

撰文 | 周敏萱内容总策划 | 郭 楠2020年11月10日,“BiliOB观测者”网站负责人“Jannchie见齐”于网站首页发布公告,宣布因收到哔哩哔哩侵权告知函,根据函件要求将于近期关闭网站并停止所有数据观测查询服务。(“BiliOB观测者”网站截图)“B…

能爬旅游景点数据的知名网站_【泽零一SEO】一文让你明白网站友链

友情链接作为网站不可缺少的组件,也是优化中很重要的一部分,全文900字,简单分享一下友情链接的知识一.友链链接的好处1.增加用户体验2.吸引蜘蛛友情链接本质是A标签,如果对方网站有你的网站友链,蜘蛛在爬取对方网站时会…

无法找到该证书的颁发者_如何查看网站正在使用的SSL证书品牌

打开一个网站,在其地址栏处有安全锁标志,地址栏以https://开头,就表示该域名拥有SSL证书。如果有人想知道您的站点用了哪个品牌的证书,在哪儿查看呢?首先,在地址栏输入拥有SSL证书的域名(网址),…

php添加公告代码,纯代码实现WordPress添加网站公告功能

有些网站会带有网站公告功能,可以发布活动及动态更新,这时候就需要在明显位置通知所有用户,今天分享一下纯代码实现WordPress添加网站公告功能,以下是具体实现方法:将以下代码插入主题function.php文件中。添加以下代码…

首页面太大怎么样快速加载_使用 CDN 加速网站加载

前几天找到一个看起来挺好看的主题,当然了,只是好看肯定没什么好说的。01不使用 CDN 使用本地文件的话,打开我的网站首页需要 4s 左右才能完全加载,使用上这个主题感觉访问速度快了好多好多,我的网站首页打开耗时在 0.…