为了防止这个网站消失,我连夜用Python离线了上万张图片

news/2024/5/15 7:41:26/文章来源:https://blog.csdn.net/fei347795790/article/details/125052178

文章目录

  • 吐槽一下
  • 事前准备
    • 1、环境配置**
    • 2、模块使用
    • 3、如何配置pycharm里面的python解释器?
    • 4、pycharm如何安装插件?
    • 5、基本流程
  • 代码解析
    • 1、模块导入
    • 2、发送请求
    • 3、获取数据
    • 4、解析数据
    • 5、保存数据

吐槽一下

之前好多高质量网站都不见了,肯定是你们整活整多了,趁你们不注意,我先悄悄多保存点~

事前准备

让我们开始今天的操作

1、环境配置**

安装一个Python和pycharm就好了,没有的话,我放在文末。

2、模块使用

requests    # 数据请求
parsel   # 解析模块 (提取数据)

这两个模块没有安装的话,先安装一下,win+R 输入cmd 按回车弹出命令提示符窗口,输入 pip install 加上模块名即可 , 如:pip install requests 然后按回车即可安装成功,详细教程见置顶文章,我有详细介绍。

3、如何配置pycharm里面的python解释器?

  1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
  2. 点击齿轮, 选择add
  3. 添加python安装路径

4、pycharm如何安装插件?

  1. 选择file(文件) >>> setting(设置) >>> Plugins(插件)
  2. 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese
  3. 选择相应的插件点击 install(安装) 即可;
  4. 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效;

5、基本流程

基本上所有的爬虫都是这个步骤

一. 数据来源分析

  1. 抓取网站是什么?想要获取网站什么样数据内容?比如爬取图片,从一张图片去分析,通过开发者工具进行抓包分析, 对比我们想要图片url地址一些参数;

二. 代码实现步骤:

  1. 发送请求, 对于分析得到url地址发送请求;
    请求网址
    请求方式
    请求头参数 >>> 伪装 可以把python代码伪装成浏览器(客户端)发送请求;
    如果不进行伪装会有什么后果 >>> 不会给你返回你想要数据;
    2. 获取数据,获取response服务器返回响应数据;
    3. 解析数据,提取我们想要数据内容,图片url地址以及图片标题;
    4. 保存数据,把图片数据保存到本地;

代码解析

开始展示代码吧,不然大家想打我了~

在这里插入图片描述

1、模块导入

首先把我们需要用的模块导入进去,导入数据请求模块和数据解析模块,导入模块没有使用, 灰色待机状态。

import requests  
import parsel  

2、发送请求

headers 请求头参数, 可以开发者工具里面直接进行复制, 其次headers字典数据类型, 键值对;
user-agent: 用户代理 表示浏览器基本身份标识;
cookie: 用户信息, 检测用户是否有登陆账号;

for page in range(2, 11):url = f'因为地址敏感我放在评论区置顶了/woman/{page}.html'headers = {'cookie': 't=f2cf055ce8713058cbfdbd1561c38e86; r=1281; Hm_lvt_86200d30c9967d7eda64933a74748bac=1645625923,1646892448; Hm_lpvt_86200d30c9967d7eda64933a74748bac=1646894465','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'}response = requests.get(url=url, headers=headers)   #  <Response [200]> 返回响应对象 200状态码标识请求成功

3、获取数据

获取服务器返回数据内容, 获取响应对象文本数据/字符串数据。

返回数据内容和我们在开发者工具里面看到不一样,说明你被服务器识别出来是你爬虫程序,所以他没有给你返回数据。

print(response.text)

4、解析数据

css选择器 xpath re 三种解析方式都可以去用选择最适合;
css选择器: 根据标签属性提取数据内容;
对于获取response.text 进行数据类型转换 转成 selector 对象
attr() 属性选择器 .egeli_pic_li .egeli_pic_dl dd a img 都是定位标签, 告诉它是哪一个标签
img::attr(src) 取img标签里面的src属性数据
getall() 获取所有标签内容数据 返回列表数据类型

 selector = parsel.Selector(response.text)src = selector.css('.egeli_pic_li .egeli_pic_dl dd a img::attr(src)').getall()alt = selector.css('.egeli_pic_li .egeli_pic_dl dd a img::attr(alt)').getall()for img_url, title in zip(src, alt):img_url = img_url.replace('edpic_360_360', 'edpic_source')

5、保存数据

img_content = requests.get(url=img_url, headers=headers).content  # 获取二进制数据内容
with open('img\\' + title + '.jpg', mode='wb') as f:f.write(img_content)
print(img_url, title)

好了,代码就到这里结束了,采集结果我也不知不觉给大家展示在文中了,大家细细品味~

兄弟们,敲代码要勤快,永远不要用战术上的勤奋,来掩饰战略上的懒惰。

记得点赞收藏~

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_732854.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

除了 P 站,程序员居然还喜欢上这些网站?快来摸鱼呀!

说到p站&#xff0c;估计不知道的人已经很少了&#xff0c;除了p站还有哪些站&#xff1f;应该很多人思考过这个问题了 二次元可是有ABCDEFGHJKNMT站…等等诸多圣地的&#xff01;外面的世界很精彩&#xff0c;别抱着一个站啃了~ 1、A站 Acfun AcFun&#xff0c;中国第一家…

干货 | 程序员必备的16个实用的网站

最近看到很多网友分享了好多比较酷炫的网站&#xff0c;好多都放进小艾的收藏夹了&#xff0c;(__) 嘻嘻……看的我也忍不住想分享了&#xff0c;因为是IT行业&#xff0c;所以分享几个收集的比较实用而且酷炫的网站O(∩_∩)O~ 1.“Hello World”大全 网站一共收集了大约481种…

别去送si了!Selenium 与 Puppeteer 能被网站探测的几十个特征

很多人喜欢使用Selenium 或者 Puppeteer(Pyppeteer)通过模拟浏览器来编写爬虫&#xff0c;自以为这样可以不被网站检测到&#xff0c;想爬什么数据就爬什么数据。 但实际上&#xff0c;Selenium 启动的浏览器&#xff0c;有几十个特征可以被网站通过 JavaScript 探测到。Puppe…

Yii2.0 网站开发流程记录 反馈网页统计

2019独角兽企业重金招聘Python工程师标准>>> 这里不再多说&#xff0c;欢迎各位踊跃提意见&#xff0c;书籍第一部分草稿在&#xff1a; http://download.csdn.net/detail/bubifengyun/9541785 后续还在添加中。 谢谢。转载于:https://my.oschina.net/bubifengyun/b…

java 企业门户网站 源码 自适应响应式 freemarker 静态引擎 html5 SSM

前台&#xff1a; 支持五套模版&#xff0c; 可以在后台切换系统介绍&#xff1a;1.网站后台采用主流的 SSM 框架 jsp JSTL&#xff0c;网站后台采用freemaker静态化模版引擎生成html2.因为是生成的html&#xff0c;所以访问速度快&#xff0c;轻便&#xff0c;对服务器负担小3…

我的天,适合程序员的史上醉强“摸鱼”网站!!!

分享8个提升学习能力以及工作效率的神奇网站&#xff0c;谁用谁知道。 1、 IData-知识检索 大学生涯中大家都会用到各种文献资料往往都是从知网下载的&#xff0c;但如果不在学校或者学校没有购买知网权限&#xff0c;我们就需要一个新的文献下载工具——IData。 如果需要查询相…

Crazy!这个算法可视化网站真的是太棒了!

最近在学习算法的时候&#xff0c;发现一个非常不错的编程网站&#xff0c;特别适合学习算法&#xff0c;感官体验十分不错。 这个网站是「VisuAlgo」&#xff0c;它是一个算法可视化网站。 谁这么良心&#xff0c;免费搞这么优质的动画算法教程网站呢&#xff1f; 这个网站是…

使用LNMP架构部署动态网站环境。 Linux+PHP

1、配置php服务 &#xff08;1&#xff09;yasm源码包&#xff0c;其解压、编译、安装过程. &#xff08;2&#xff09;libmcrypt源码包&#xff0c;其解压、编译、安装过程. &#xff08;3&#xff09;libvpx源码包&#xff0c;其解压、编译、安装过程.libvpx源码包的后缀是.t…

程序员接私活月入2万?分享10个接私活的网站快收藏~

最近&#xff0c;在和身边的程序员聊天中&#xff0c;听不少朋友分享了自己接私活的经历&#xff0c;那收入真是让我“瞠目结舌” … 程序员A&#xff1a;我Java程序员&#xff0c;工作两年&#xff0c;月薪13K&#xff0c;私活20K。 程序员B&#xff1a;之前在单位上班&#…

网站title标题被改并被百度网址安全中心提醒的解决办法

国庆假日期间我们Sine安全接到众多网站站长求助网站标题被改导致在百度搜索中百度安全中心提醒被拦截,导致网站正常用户无法浏览网站被跳转到一些菠菜du博网站&#xff0c;而且很明显的一个特征就是在百度中搜索关键词的网站快照标题被修改成了一些与网站本身内容不相关的页面,…

github网站介绍、并使用git命令管理github(详细描述)

本章学习: 1)熟悉github网站2)通过git命令远程管理github,3)git命令使用ssh key密钥无需输入账号密码 1.首先我们来熟悉github网站 1.1 注册github 登录http://github.com/,然后点击sign up,来注册账户: 注册好了,以及验证邮箱后,然后进入github主页: 1.2点击start a project(启…

十周后,62%的PHP网站将运行在一个不受支持的PHP版本上

根据W3Techs的统计数据&#xff0c;目前约有78.9&#xff05;的网站使用PHP开发。\\但是&#xff0c;PHP 5.6.x的安全支持将在2018年12月31日正式停止&#xff0c;这标志着对古老的PHP 5.x分支版本的支持都将结束。\\也就是说&#xff0c;从明年开始&#xff0c;大约62&#xf…

常见的网站服务器架构有哪些?

初始阶段的网站架构一般来讲&#xff0c;大型网站都是从小型网站发展而来&#xff0c;一开始的架构都比较简单&#xff0c;随着业务复杂和用户量的激增&#xff0c;才开始做很多架构上的改进。当它还是小型网站的时候&#xff0c;没有太多访客&#xff0c;一般来讲只需要一台服…

快速用Discuz搭建论坛网站教程

Discuz! 是全球成熟度最高、覆盖率最大的论坛软件系统之一。自 2001 年 6 月面世以来&#xff0c;Discuz! 已拥有 15 年以上的应用历史和 200 多万网站用户案例。目前&#xff0c;Discuz! 已经发展成为一个以社区为基础的专业建站平台&#xff0c;让论坛&#xff08;BBS&#x…

刚学编程的程序员必备这5大编程网站,你知道几个?

一个好的网站&#xff0c;就是程序员学编程的基地。虽说新手程序员也许知道一些在线编程网站&#xff0c;但是质量上乘的编程网站又知道几个呢?下面就来给大家推荐5个质量上乘的编程网站&#xff1a;0、LeetcodeLeetCode是大名鼎鼎的在线刷题网站&#xff0c;通过该网站的刷题…

大型网站技术架构(五)网站高可用架构

2019独角兽企业重金招聘Python工程师标准>>> 网站的可用性&#xff08;Avaliability&#xff09;描述网站可有效访问的特性。 1、网站可用性的度量与考核 网站不可用时间&#xff08;故障时间&#xff09;故障修复时间点-故障发现&#xff08;报告&#xff09;时间点…

仿海康网页版做一个在线的实时监控网站(2)-- 视屏显示和云台控制

在上一篇博客仿海康网页版做一个在线的实时监控网站&#xff08;1&#xff09;中讲了侧边站点选择栏的生成&#xff0c;这篇博客主要说一下视屏插件的摆放和一些云台控制的操作函数 首先海康的摄像头可以找他们要一个网页版的开发Demo&#xff0c;如果没有我提供一个&#xff1…

快速排序查询第k大元素C语言,福建十三水下载苹果 -官方网站

NioEventLoop启动触发条件: 1.服务端绑定本地端口 2.新连接接入通过chooser绑定一个NioEventLoop 服务端绑定本地端口 绑定本地端口,使用下面方法; ChannelFuture future bootstrap.bind(host, port).sync(); 最终会调用doBind0()方法: private static void doBind0(final Cha…

一步步教你为网站开发Android客户端

本文面向Android初级开发者&#xff0c;有一定的Java和Android知识即可。文章覆盖知识点&#xff1a;HttpWatch抓包&#xff0c;HttpClient模拟POST请求&#xff0c;Jsoup解析HTML代码&#xff0c;动态更新ListView 背景介绍&#xff1a;客户端(Client)或称为用户端&#xff0c…

批量getshell工具全自动_网站推广_网站推广软件_网络推广_免费网站推广工具_下载列表...

网站推广 | 共享版 | 大小: | 环境:XP/2003/Vista/Win7/win10 | 人气:28石青抖音运营专家是一款面向抖音推广者和抖商的运营、推广工具。石青抖音运营专家是一款整合了自动养号&#xff0c;互粉&#xff0c;取关&#xff0c;搜索加人&#xff0c;附近人推广&#xff0c;互动营销…