使用Scrapy爬取知乎网站马化腾所有粉丝的信息

使用Scrapy爬取知乎网站马化腾所有粉丝的信息

news/2024/5/10 3:59:44/文章来源:https://blog.csdn.net/weixin_30823001/article/details/101396183

采集网址：https://www.zhihu.com/people/ponyma/followers

爬虫文件

import scrapy
import jsonclass ZhihuSpider(scrapy.Spider):name = 'zhihu'allowed_domains = ['zhihu.com']start_urls = [f'https://www.zhihu.com/api/v4/members/ponyma/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset={offset}0&limit=20'for offset in range(0, 200, 20)]def parse(self, response):# 打印请求头# print(response.request.headers)json_data = json.loads(response.text)if json_data.get("data", False):for data in json_data['data']:item = datayield item

此网址采用抓包方式爬取

步骤一：打开采集网址右边右键选择检查或者F12打开开发者模式

步骤二：

步骤三：点击页面中的下一页，注意不用刷新整个页面

步骤四：点击Headers找到对应请求网址

管道文件（pipelines.py）

import jsonclass ZhihuspiderPipeline(object):def __init__(self):# 打开文件self.file = open("zhihu.json", "a", encoding="utf-8")def process_item(self, item, spider):self.file.write(json.dumps(item, ensure_ascii=False) + "\n")return itemdef close_spider(self, spider):# 关闭文件self.file.close()

　　

配置文件(settings.py)

步骤一：关闭网址的robotstxt协议

步骤二：设置请求头

步骤三：激活管道文件

运行程序

方法① ：使用终端执行文件

　　进入文件的目录下使用命令：scrapy crawl 爬虫名

方法② ：使用文件运行

　　在文件的目录下创建run_spider.py 文件，这里的文件名可以随意起

转载于:https://www.cnblogs.com/renshaoqi/p/11201675.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.luyixian.cn/news_show_728617.aspx

如若内容造成侵权/违法违规/事实不符，请联系dt猫网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

网站漏洞检测之用户密码找回网站漏洞的安全分析与利用

网站漏洞检测之用户密码找回网站漏洞的安全分析与利用

2019独角兽企业重金招聘Python工程师标准>>> 我们SINE安全在对网站，以及APP端进行网站安全检测的时候发现很多公司网站以及业务平台,APP存在着一些逻辑上的网站漏洞，有些简简单单的短信验证码可能就会给整个网站带来很大的经济损失&#xff0…

阅读更多...

Docker 基于 php:7.2-apache 搭建微擎网站，及 GD 扩展开启方法

Docker 基于 php:7.2-apache 搭建微擎网站，及 GD 扩展开启方法

2019独角兽企业重金招聘Python工程师标准>>> 下载微擎源码 http://s.we7.cc/store-static-install.html 下载稳定离线版本解压至文件夹：/var/www/we7_test/web docker 构建 php:7.2-apache 容器 docker run -d -p 8881:80 --name we7test --link mysql:…

阅读更多...

在windows平台下在IIS上部署网站

在windows平台下在IIS上部署网站

1.首先你需要检查一下你的电脑是否安装了asp.net core模块。 （如果点击搜索输入IIS并未找到，可能是你的电脑还未开启IIS服务，你需要勾选控制面板——程序——程序和功能——打开或关闭Windows功能中的IIS（Internet Information S…

阅读更多...

【壹加壹SEO】提升百度收录：三个提升百度收录的方法

【壹加壹SEO】提升百度收录：三个提升百度收录的方法

【壹加壹SEO】提升百度收录：三个提升百度收录的方法 1。创造稀缺的内容资源目前，互联网上的内容具有高度的重复性，相互抄袭尤为严重。任何能生产稀缺内容的人都能生存。创建稀缺内容可以从以下几点开始。谈谈你对事物的看法和看法&#xff…

阅读更多...

python3.6+scrapy下载一个网站全部产品网页的源码

python3.6+scrapy下载一个网站全部产品网页的源码

scrapy 一个很好用的python爬虫框架开发环境：python3.6 centos 7 安装scrapy： pip install scrapy 爬虫网站: http://www.bsriceones.ga 首先我们创建一个工程: scrapy startproject bsriceones 然后我们cd bsriceones 进入这个工程，在改…

阅读更多...

python 网站使用表单和模板

python 网站使用表单和模板

如果像前面那么做网站，也太丑陋了。并且功能也不多。在实际做网站中，现在都要使用一个模板，并且在用户直接看到的页面，用html语言来写页面。在做网站的行业里面，常常将HTMLCSSJS组成的网页，称作“前端”。…

阅读更多...

TP5实现支付宝电脑网站支付学习笔记

TP5实现支付宝电脑网站支付学习笔记

这两天在公司做一个小型WEB项目,需要有支付功能。第一次做支付宝的支付，踩了点小坑，还算顺利。激动的我赶紧记下实现的流程。第一步当然是在支付宝开放平台申请公钥私钥APPID等，支付宝关官方文档都有详细介绍，这里就省略。申请完了…

阅读更多...

Jenkins与网站代码上线解决方案

Jenkins与网站代码上线解决方案

1.1 前言 Jenkins是一个用Java编写的开源的持续集成工具。在与Oracle发生争执后，项目从Hudson项目独立。 Jenkins提供了软件开发的持续集成服务。它运行在Servlet容器中（例如Apache Tomcat）。它支持软件配置管理（SCM）…

阅读更多...

大型网站技术架构（五）网站高可用架构

大型网站技术架构（五）网站高可用架构

2019独角兽企业重金招聘Python工程师标准>>> 网站的可用性（Avaliability）描述网站可有效访问的特性。 1、网站可用性的度量与考核网站不可用时间（故障时间）故障修复时间点-故障发现（报告）时间点…

阅读更多...

19款资源整合类网站推荐：每一个网站都堪称以一敌百

19款资源整合类网站推荐：每一个网站都堪称以一敌百

强烈推荐这19个资源聚合网站，每一个网站都足以堪称“以一敌百”！因为每一个网站都聚合了相当多不同类型、不同领域的网站资源，并且做了分类导航方便大家查找使用~所以，与其收藏那么多零碎的网址，不如收藏下面这些网站资…

阅读更多...

百度竞价逐渐淘汰行业网站

百度竞价逐渐淘汰行业网站

最近松松编辑杰哥从百度站长论坛一位圈内站长爆料发帖了解到，百度竞价落地页正在逐渐剔除企业网站，主推自家积木鱼平台和阿里店铺作为竞价推广落地页，逐渐淘汰企业官网! 根据杰哥从站长发帖内容得知，该站长表示，不知道…

阅读更多...

曾经的四大门户网站之一，新浪，这些年错过了三个重要的成长机会

曾经的四大门户网站之一，新浪，这些年错过了三个重要的成长机会

曾经的互联网四大门户网站，新浪、网易、搜狐、腾讯，在最初新浪应该是占据首要位置的，因为新浪曾经在中国互联网发展历史上创造过多个第一。例如，1997年10月，新浪网的前身四通利方获得了一笔数百万美元的风险投资&…

阅读更多...

突发丨网站欠费、Netlify故障，BSC上多个项目官网访问异常

突发丨网站欠费、Netlify故障，BSC上多个项目官网访问异常

从昨天下午开始，BSC上多个项目官网访问异常。先是24号上线的Curve仿盘椭圆金融（ellipsis.finance）在昨天中午无法打开，这个项目在不到一天的时间里就吸引9亿美元资金入场。昨晚10点多，pancakeswap也无法打开。pancakes…

阅读更多...

页面放在哪_企业全网营销型网站建设的重点有哪一些？

页面放在哪_企业全网营销型网站建设的重点有哪一些？

企业全网营销型网站建设的重点有哪一些？营销型网站建设，要注重实效，注重客户的需求点，企业做出来营销型网站，不是给自己看的，是给客户看的，这个所有企业都要弄明白，一个网站&#xf…

阅读更多...

对csdn网站本身的一些建议

对csdn网站本身的一些建议

首先，表明自己的立场：我从5月份开始在csdn写博客，前段时间写的不多，但是最近越来越迷上了这个地方，是csdn的忠实用户。其次，我以下提的建议，都是善意的建议，目的是让csdn越来越好&am…

阅读更多...

2006年主流建站系统及其典型网站演示（CMS篇）

2006年主流建站系统及其典型网站演示（CMS篇）

CMS系统已经成为个人站长建站过程中必不可少的工具，现在已经基本看不到多少站长还在靠手工写HTML页面，究其原因无非是因为CMS具有使用简单，维护方便等众多优点。CMS的发展也带来了个人网站的长足发展！各色各样的网站使网络世界更加…

阅读更多...

如何将JSP的网页部署到网上变成网站

如何将JSP的网页部署到网上变成网站

我们都知道我们做的JSP项目，JSP网页只能在本地（自己电脑）或者局域网（内网）访问，如何让所有人都能访问呢？ 一. 常见有几大建站语言，有php，ASP，ASP.NET&#…

阅读更多...

如何将JSP的网页部署到网上变成网站

如何将JSP的网页部署到网上变成网站

我们都知道我们做的JSP项目，JSP网页只能在本地（自己电脑）或者局域网（内网）访问，如何让所有人都能访问呢？ 一. 常见有几大建站语言，有php，ASP，ASP.NET&#xf…

阅读更多...

JavaWeb学习笔记（三）--Web应用组织结构和搭建网站

JavaWeb学习笔记（三）--Web应用组织结构和搭建网站

一、Web应用的组成结构开发web应用时，不同类型的文件有严格的存放规则，否则不仅可能会使web应用无法访问，还会导致web服务器启动报错。 web.xml文件是整个web应用中最重要的配置文件，必须放置在WEB-INF目录中。在开发web应用时&a…

阅读更多...

大型网站技术架构（五）网站高可用架构

大型网站技术架构（五）网站高可用架构

2019独角兽企业重金招聘Python工程师标准>>> 网站的可用性（Avaliability）描述网站可有效访问的特性。 1、网站可用性的度量与考核网站不可用时间（故障时间）故障修复时间点-故障发现（报告）时间点…

阅读更多...

推荐文章

最新文章