QQ空间Python爬虫(1)---网站分析

news/2024/5/11 5:56:30/文章来源:https://blog.csdn.net/weixin_34190136/article/details/92855318

闲来无事准备写一个爬虫来爬取自己QQ空间的所有说说和图片-。-

 

首先准备工作,进入手机版QQ空间,分析页面:

 

 

 

 

我们发现,手机版空间翻页模式是采用瀑布流翻页(查看更多),而非传统翻页模式,所以我们需要来分析一下点击“查看更多”时发送的请求:

 

 

 

可以发现,上面红框中的xhr就是点击“查看更多”时发送的请求,我们再进一步分析:

 

 

 

如图,红框中的request urlrequest headers是我们需要的信息,首先我们在代码中加入请求头headers:

1 headers = {
2     'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
3     'accept-encoding': 'gzip, deflate, br',
4     'accept-language': 'zh-CN,zh;q=0.8',
5     'cache-control': 'max-age=0',
6     'cookie': 'xxxxxx',
7     'upgrade-insecure-requests': '1',
8     'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Mobile Safari/537.36'
9 }

cookie可以用来模拟登陆,但是注意此处的cookie会过期,需要每隔一段时间更新cookie内容,比较麻烦,需要找一个更好的解决方案-。-

 

 

 

进一步分析Request URL:

经分析得知,关键在于红线的两个地方,%3D后面的数字代表说说条数,范围0-1758(本人一共1758条说说-。-),count代表单次请求加载的说说数,试验得知最大为count=40。

 

 

访问此url,我们发现返回了全为json数据的页面:

 

 

由此,我们可以大概确定爬虫的编写思路,访问此Url,以最大加载量40为单位,循环到1758,解析每次访问所得的json数据即可爬取我们的空间说说和图片信息了。

 下一章:

QQ空间Python爬虫(2)---分析json

 

转载于:https://www.cnblogs.com/neilshi/p/7879592.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_717877.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

01-19asp.net网站--关于“应用程序中的服务器错误(需添加JqueryScriptRescourseMapping)”...

一般打开网页进行加载时(有缓存),会弹出以下对话框。 但是如果网页加载后出现以下错误,就是应用程序的问题了。如果出现这种问题,就需要在安装Csharp的根目录下,找到一个名为.dll结尾的Jquery程序集&#x…

记一个爬虫加密网站算法的解密

为什么80%的码农都做不了架构师?>>> 网站就不发了具体过程呢: 通过阅读晦涩无比的代码发现它使用的是AESgzip压缩实现的加密 首先加密数据是17WSPeYwQFufy74vaYJ4base64的超长字符串 首先用base64解码 我们把加密的base64复制到本地txt 然后…

推荐计算机图形学习网站

计算机图形学是研究用计算机表示、生成、处理和显示图形的学科。它涉及将几何模型和数据转变为图形的各种算法和技术。目前,计算机图形学已经成为计算机科 学与技术中最为活跃的学科分支之一,并在众多领域(如:汽车和飞机的设计与制…

Jenkins与网站代码上线

第1章 引入1.1 开发写代码的演变l 一个开发单打独斗,撸代码,开发网站,自由自在;l 多个开发同时开发一个网站,同时改一份代码。但是同时改一个文件会导致冲突。l 采用分支结构,每天上班第一件事克隆代码&…

nginx网站服务(上)

第1章 web网站服务介绍1.1 常用来提供静态Web服务的软件u Apache:这是中小型Web服务的主流,Web服务器中的老大哥。u Nginx:大型网站Web服务的主流,曾经Web服务器中的初生牛犊,现已长大。Nginx的分支Tengine&#xff08…

程序员一般喜欢浏览哪些网站呢?

2019独角兽企业重金招聘Python工程师标准>>> 作为一名非标准程序员我先来说说我的: 技术类 ①云栖社区 ②掘金 ③芋道源码 ④如梦技术 ⑤纯洁的微笑 ⑥码云github ⑦CSDN博客园 运营类 ①虎嗅网 ②36氪 ③雷锋网 科普类 ①果壳网 贴吧看的甚少&#xff0…

一些开源的论坛网站

2019独角兽企业重金招聘Python工程师标准>>> symphony,这个我觉得还挺好的,就是采用了一些自己封装的技术,不如spring 来的开放。 D / symphonyhttps://sym.b3log.org/ hsweb 企业后台管理基础框架 我对其中的一个框架还挺感兴趣的hs-web/hsw…

31.网站数据监控-2(scrapy文件下载)

31.网站数据监控-2(scrapy文件下载) 温州数据采集这里采集网站数据是下载pdf:http://wzszjw.wenzhou.gov.cn/col/col1357901/index.html(涉及的问题就是scrapy 文件的下载设置,之前没用scrapy下载文件,所以…

小型网站项目完整部署流程(Windows操作系统)

前言 笔者近期接手一个第三方公司提供的基于Java web技术栈开发的后台前台项目。由于第一次做这么系统的开发,想着将项目开发的具体模块记录下来。从环境搭建到开发再到项目打包部署进行全开发链记录。本系列包含三篇博客,分别为环境搭建、项目开发、项…

小型网站开发环境搭建流程(Maven管理,Java技术栈)

前言 笔者近期接手一个第三方公司提供的基于Java web技术栈开发的后台前台项目。由于第一次做这么系统的开发,想着将项目开发的具体模块记录下来。从环境搭建到开发再到项目打包部署进行全开发链记录。本系列包含三篇博客,分别为环境搭建、项目开发、项…

小型网站项目完整部署流程(Linux操作系统——CentOS7.5)

前言 网络服务器以Linux操作系统的居多,因其天然的底层框架优势。笔者因为项目需求要在Linux操作系统服务上部署Java web项目,手头上没有该操作系统的服务器,因此使用虚拟机技术虚拟出一台CentOS7.5的虚拟服务器,并以此为基础进行…

如何编程登录有验证码的网站

看到论坛有人在问如何编程登录有验证码的网站题,于是专门研究了一下。文章后有源码下载地址。 注:验证码还是要人来辨认。 有几种处理办法,一是使用WebBrowser控件,一是使用WebClient或者WebRequest控件来处理。 本文中使用 Web…

网站漏洞渗透检测过程与修复方案

2019独角兽企业重金招聘Python工程师标准>>> 什么是网站渗透测试? 该如何做网站安全检测 网站的渗透测试简单来 说就是模拟攻击者的手法以及攻击手段去测试网站的漏洞,对网站进行渗透攻击测试,对网站的代码漏洞进行挖掘&#xff0…

m_Orchestrate learning system---网站的语言选择功能(中文英文)

m_Orchestrate learning system---网站的语言选择功能(中文英文) 一、总结 一句话总结:有两种方法,一是sessionjs端代码,而是sessionphp端代码。 推荐使用sessionphp端代码 用函数最方便,最简便&#xff0c…

如何用色彩制造出具有专业感的网站

如何用色彩制造出具有专业感的网站来源:yeeyan 作者:译:Srandy 发布时间: 2010-03-19 15:34:50是什么使得某个设计看起来协调、井然有序并且具有专业感?答案是:“色彩”。并不是所有的项目都需要用保守的黑…

如何让你的网站地址在发送到QQ朋友的时候显示绿色安全图标呢?...

今天教大家如何申请网址过QQ绿色安全打勾认证!网址获得了QQ安全认证过后就是把网址发给QQ好友或者QQ群的时候,我们的网址前面会有一个绿色的打勾标志! 首先介绍一下加V标示和不加V标示的区别: 加V绿标域名展示:官方认证,可放心访问。这种绿标…

安装好IIS后发布网站

首先,进行网站发布是需要IIS支持的,此处默认已经安装好IIS,并进行了Asp.net注册过程(此步骤必需 ,因为我是先安装的 .net 环境 ,再安装的IIS)。 其次,以下步骤可以方便指导新手如何…

安装好IIS后发布网站

首先,进行网站发布是需要IIS支持的,此处默认已经安装好IIS,并进行了Asp.net注册过程(此步骤必需 ,因为我是先安装的 .net 环境 ,再安装的IIS)。 其次,以下步骤可以方便指导新手如何…