python最新官网图片_Python轻松爬取Rosimm写真网站全部图片

news/2024/5/20 7:22:37/文章来源:https://blog.csdn.net/weixin_39707693/article/details/110320235

RosimmImage

942621-20180704090305137-1532496093.jpg

有图有真相

942621-20180704090314134-2145846698.png

def main_start(url):

"""

爬虫入口,主要爬取操作

"""

try:

r = requests.get(url+'.html', headers=HEADERS, timeout=10).text

print(url+'.html')

name_index = 0

# 套图名,也作为文件夹名

folder_name = BeautifulSoup(r, 'lxml').find(

'h1',class_='article-title').find('a').text.encode('ISO-8859-1').decode('utf-8')

with lock:

if make_dir(folder_name):

# 套图张数

max_count = BeautifulSoup(r, 'lxml').find(

'div',class_='pagination2').find_all('li')[-2].find('a').get_text()

print('-------max_count-----'+max_count)

# 套图页面

page_urls=[]

for i in range(1,(int(max_count)+1)):

if i==1:

page_urls.append(url + '.html')

else:

page_urls.append(url + '_' + str(i)+'.html')

# 图片地址

for index, page_url in enumerate(page_urls):

print('-----page_url-----'+page_url)

result = requests.get(

page_url, headers=HEADERS, timeout=10).text

img_url=BeautifulSoup(result,'lxml').find('article',class_='article-content').find_all('img')

for s_img_url in img_url:

real_img='http://www.rosimm8.com'+s_img_url.get('src')

print('-----real_img-----'+real_img)

name_index=name_index+1

save_pic(real_img,name_index)

except Exception as e:

print(e)

仅供学习参考使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_762292.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows 8.1——将网站固定到开始菜单,自定义图标、颜色和Windows推送通知

记得在IE 9和Windows 7刚出来那会儿我写过一篇文章来介绍如何自定义网站将其固定到Windows的任务栏上,同时自定义图标及任务内容。那个功能在IE 9中被称之为JumpList。http://www.cnblogs.com/jaxu/archive/2010/11/17/1879617.html Windows 8对该功能进行了增强&am…

万字长文带你 搞定 linux BT 宝塔面板 之外网上快速搭建苹果CMS电影网站

文章目录万字长文带你搞定宝塔面板一、本地搭建宝塔面板及安装ecshop1.1前言1.2面板特色功能1.3安装环境说明1.4安装BT面板1.5常用管理命令1.6 BT面板一键安装LAMP/LNMP 环境1.7 BT 面板建站及使用技巧二、阿里云上部署高清电影网站2.1. 如何购买阿里云服务器2.2.快速优化阿里云…

ubuntu 忘记密码_WordPress建站:使用宝塔Linux面板,忘记宝塔面板密码的解决方案...

越来越多的人使用宝塔Linux面板来管理我们的服务器网站,最主要他是可视化的操作方式更加符合我们的一般用户习惯,同时对于没有技术知识的人来说就算是解决了大大的问题了。Linux面板那么其实网上关于Linux面板的工具还是有好多的,但笔者使用觉…

Windows Azure 网站上的 WordPress 3.8

编辑人员注释:本文章由 Windows Azure 网站团队的项目经理 Sunitha Muthukrishna 和 Windows Azure 网站开发人员体验合作伙伴共同撰写。 WordPress 3.8 的代号“Parker”是为了纪念bebop创新者Charlie Parker,现已在 Windows A…

基于mysql的许愿墙网站的搭建

首先需要两个服务器(也可以用一台,但不推荐) 1服务器用yum安装Apachephpphp-mysql 2服务器用yum安装mysql 1服务器 用yum安装Apache和phpphp-mysql yum install httpd -y yum install php -y yum install php -mysql 完成后必须关闭防火墙和…

ffmpeg视频网站 php,Linux+php+ffmpeg搭建视频网站

最近用Linuxphpffmpeg搭建视频网站,这过程中遇到很多难道,查了很多资料,现在来总结一下。1、Linuxphp实现大文件上传php配置文件默认上传最大为2M,可是为了上传大文件怎么办呢,下面就来说一下具体的修改的方法。打开ph…

如何在ASP.NET 网站项目中使用C# 6?

https://www.zhihu.com/question/48864375 .NET框架版本是4.6.1,Visual Studio版本是2015,系统是Window 7,为什么在使用C# 6语法的时候得到如下提示?其他C# 6语法也是同样的问题。请问如何切换到C# 6?在Visual Studio里…

陕西省计算机证书查询官方网站,陕西省专业技术人员资格证书查询系统正式上线...

原标题:陕西省专业技术人员资格证书查询系统正式上线近日,陕西省人社厅发布了专业技术人员资格证书查询系统正式上线的相关资讯,资讯指出,为加快推进“互联网政务服务”工作,进一步简化办事流程,陕西省专业…

非服务端渲染页面如何做SEO

前段时间对公司的社区h5网站,进行改版(整站重写)。老版本的网站是在一套古老的php框架下开发的,包含很多模板文件,大部分页面都是后端模板渲染,前端开发时要与后端沟通模板逻辑的编写,前后端耦合…

全球钓鱼网站调查报告:近半恶意注册域名针对国内银行企业

本文讲的是全球钓鱼网站调查报告:近半恶意注册域名针对国内银行企业,据最新报告显示,黑客越来越多地开始滥用那些高度分散的网络域名注册系统来购买可用于网络钓鱼攻击的互联网地址了。 他们所设计的骗局往往会使用合法获取的地址来设置模仿银…

知名网站的 404 页面长啥样?你的404长啥样?

每天浏览各大网站,难免会碰到404页面啊。你注意过404页面么?猿妹搜罗来了下面这些知名网站的404页面,以供大家欣赏,看看哪个网站更有创意: 新浪 新浪微博 优酷 腾讯 网易 淘宝 京东 搜狐 知乎 美团 饿了么 segmentfaul…

200个化工网站批量爬取

Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spma1z38n.10677092.0.0.482434a6EmUbbW&id564564604865 顺利100网站64秒 200网站570秒就搞不懂了,差距太大了。。 # -*- coding: utf-8 -*- """ Cre…

学SEO你其实只需要半个钟

网站上线之前: 关键词的分析以及选择: 关键词在我们网站的每个页面:首页,栏目页,文章都存在,它定位了你的网站的这个页面是做什么的,有什么内容,也是SEO中的最重要的部分。 网站必须…

黑客是怎样入侵你的网站的

这个问题很难回答,简单的来说,入侵一个网站可以有很多种方法。本文的目的是展示黑客们常用的扫描和入侵网站的技术。假设你的站点是:hack-test.com让我们来ping一下这个服务器:我们得到了一个IP地址:173.236.138.113 –…

vs中正常IIS发布网站后css样式、图片丢失jQuery报错 $ is not defined

问题描述: VS运行能够正常看到样式和图片 ,IIS发布后样式丢失、图片不显示。并且jQuery报错“$ is not defined”。 问题分析: 1、首先怀疑是样式文件、图片等发布的时候没有发布出来,缺少文件,检查发布后的文件后&…

电商网站架构案例(3)

本文章是电商网站架构案例的第三篇,主要介绍数据库集群,读写分离,分库分表,服务化,消息队列的使用,以及本电商案例的架构总结。 6.5数据库集群(读写分离,分库分表) 大型网…

如何解决ASP.NET网站'__doPostBack' is undefined的脚本错误

最近碰到一个很奇怪的问题! 新发布一个ASP.NET的网站,基于.net 4.0 framework,基本没有用到什么特别新的技术,但是由于给客户预览用的服务器比较老,操作系统用的是Windows 2003,上面默认只支持IIS 6。将网站…

【网站安全】网站被挂木马与777权限的奥妙

某天站长平台的微信群里的一位同学说网站被人挂马了,查了半天也查不到原因。艺龙SEO负责人刘明问了一句“是不是技术把linux系统里网站的核心目录设置777文件权限了”,同学查后发现果然如此。那么,777是什么?老虎机吗?…

分布式网站隔离术

隔离是将系统或资源分隔开,系统隔离是为了在系统发生故障时,能限定传播范围和影响范围,即发生故障后不会出现滚雪球效应,从而保证只有出问题的服务不可用,其他的服务还是可用的。在此介绍的隔离手段有,线程…

不用 PS 和 AI,5个网站能做出更好看的设计

要完成漂亮的设计,一定要掌握 PS、AI、Sketch 等专业的做图工具才可以。其实,现在有很多网站可以帮助不会专业设计工具的我们,做出很多很漂亮的设计,完成自己的设计需求。今天,我们就来介绍一下这些网站。 原型设计 ST…