python爬虫真假网址,python爬取福利网站图片完整代码,懂得人都懂

news/2024/5/9 11:18:01/文章来源:https://blog.csdn.net/weixin_30129661/article/details/116190056

网址需要自己替换懂的人都懂512*2,主要学习简单的爬虫,别乱用,否则后果自负!

015428viot2vxxyyz66ix2.png

[Python] 纯文本查看 复制代码

import requests,bs4,re,os,threadingclass MeiNvTu: def __init__(self): self.url_main='https://网址保密,不能乱发哈哈/pw/' self.url=f'{self.url_main}thread.php?fid=' def getPageMax(self,typeID=14): try: res = requests.get(f'{self.url}{typeID}') res.encoding = 'utf-8' soup = bs4.BeautifulSoup(res.text, 'lxml') pageNum = soup.select('#main > div > span.fl > div.pages.cc > span') pageNum = int(re.search('/(.*?)Go', str(pageNum)).group(1)) return pageNum except: return 0 def getTitleList(self,typeID=14,page=1): ''' 爬取栏目里某一页的列表,网络错误返回False :param typeID: :param page: :return: ''' try: res=requests.get(f'{self.url}{typeID}&page={page}') res.encoding= 'utf-8' soup=bs4.BeautifulSoup(res.text,'lxml') listTitle=soup.select('tr > td > h3') lists=[] for item in listTitle: if 'html_data' in item.a['href'] : d={} d['href']=self.url_main+item.a['href'] d['title']=item.a.text lists.append(d) return lists except: return False def downImg(self,url,path): ''' 下载一整个页面的图片 :param url: :param path: :return: ''' global pool_sema res = requests.get(url) res.encoding = 'utf-8' soup = bs4.BeautifulSoup(res.text, 'lxml') imgs=soup.select('#read_tpc > img') lists=[] try: for i,item in enumerate(imgs): imgUrl=re.search("window.open\('(.*?)'\);", str(item['onclick'])).group(1) imgData=requests.get(imgUrl).content typ=imgUrl.split('.')[-1] with open(f'{path}{i}.{typ}','wb')as f: f.write(imgData) except: print('\033[31m[下载失败!网络异常] ' + path) pool_sema.release() return #将下载好的情况记录下来,下次可以跳过 textpath='' for item in path.split('\\')[0:3]: textpath=textpath+item+'\\' mutex.acquire() try: with open(textpath+'log.txt','a')as f: f.writelines(path.split('\\')[3]+'\n\r') except: pass mutex.release() # 完成后线程池记录-1 print('\033[31m[完成下载] '+path) pool_sema.release() def get_typeTitle(self,id): ''' 返回类型的标题 :param id: :return: ''' if id==14: return '唯美写真' if id==15: return '网友马赛克' if id==16: return '露出马赛克' if id==49: return '街拍马赛克' if id==21: return '丝袜美腿' if id==114: return '欧美马赛克' def downloadthe(self,title,path): ''' 判断是否已经下载过,下载过返回True,没下载过返回False :param title: :param path: :return: ''' try: with open(path+'log.txt', 'r')as f: text = f.read() if title in text: return True else: return False except: return False def get_Page_History(self,path): ''' 读取上一次结束 的页码 :param path: :return: ''' try: with open(path+'pagelog.ini','r')as f: return int(f.read()) except: return 0if __name__ == '__main__': # 限制线程数量 pool_sema = threading.BoundedSemaphore(70) # 创建互斥体 mutex = threading.Lock() #创建爬取对象 mnt=MeiNvTu() #栏目id typeID=21 #获得最大页数 page_max=mnt.getPageMax(typeID) if page_max==0: print('\033[31m网络错误!,总页数为0') else: path_main= f"D:\\爬取的网站图片\\{mnt.get_typeTitle(typeID)}\\" if os.path.isdir(path_main) != True: os.makedirs(path_main, mode=0o777) #爬取某页的列表 page_History=mnt.get_Page_History(path_main) for i in range(page_max): #跳过之前下载过的页码 if i+1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_766688.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎样把本地html传到网上,如何制作自己的网页链接?教你怎么把自己制作的网站发布到网上?...

如何制作自己的网页链接?教你怎么把自己制作的网站发布到网上?下面就来一起看看吧!确定网页架构。要确定我们要做的网页内容,必须确定一个框架形式。一般比较流行,大部分网页都是。①网站页眉网站导航栏内容版块。一般新浪的网页和部分浏览器都采用这种…

做10个网站用多大的服务器,【教你搭建服务器系列】(10)利用Docsify搭建个人笔记网站...

写文档的工具非常多,但是作为程序员,大部人还是偏爱Markdown的,有时需要写一份开发文档,以供自己或者他人查看,那如何把 Markdown 文件转换成文档呢?docsify 就可以做到了,docsify 可以直接加载…

更换php版本_PHP与SEO,应用curl及正则获取搜狗搜索相关关键词

PHP是世界上最好的语言,来吧,入坑吧,我们一起来拍(pai)黄(huang)片(pian),Sorry,手抖,打错字了,当然是学习简写的,php啦!PHP即“超文本预处理器”,是一种通用…

php开源代码推荐,非常好用的源代码网站推荐,用这些开源代码就够了

原标题:非常好用的源代码网站推荐,用这些开源代码就够了作为一个开发人员写代码是工作的日常,在这个万物互联的时代,有问题马上百度、谷歌、知乎一下等等,代码也不例外,借鉴别人的代码同样可以事半功倍。下…

服务器运行环境查看,如何查看linux环境变量_网站服务器运行维护

linux如何查看进程端口是多少_网站服务器运行维护linux查看进程端口的方法是:1、首先执行命令【ps -ef | grep 进程名】,查看进程pid;2、然后执行命令【netstat -nap | grep 进程pid】,通过pid查看进程端口。首先执行如下命令&…

div 隐藏_隐藏文本与隐藏链接对SEO的影响!

对于SEO行业而言,隐藏文本(HiddentText)是一个古老而又久远的话题,它早期主要用于提高页面对特定关键词的相关性,由于这部分内容对用户不可见,常常被算法识别为作弊行为。 但即便如此,仍有众多用户对其乐此不疲&#…

如何抓取一个网站的分页_如何让网站更符合搜索引擎的抓取规则 - 百度蜘蛛池博客...

原出处:蜘蛛池博客原文链接:如何让网站更符合搜索引擎的抓取规则? - 蜘蛛池博客如果一个网站能够经常被搜索引擎抓取,就表示搜索引擎对这个网站非常信任,从而赋予网站的权重也就非常高,关键词排名、网站流量…

php html5 cms,建站教程|CMS教程|PHP教程|html5教程 - 站长图库

2021-03-1147有时候项目中需要进行多个字段搜索就可以用到此方法在Laravel中的可以同时使用多个where,所以我们可以每个字段分配一个where()然后在每个where()中去闭包判断$username ;2021-03-1187下面给大家介绍thinkphp withCredentials 跨域问题解决思路,希望对…

登陆系统 怎么做_中小企业网站推广怎么做 - 神马快排系统

原出处:超级排名系统原文链接:www.chaojipaiming.com 中小企业网站推广怎么做? - 超级排名系统首先,我们应该要知道,推广网站并不是我们的最终目的,它只是工具和手段,企业做网站推广的唯一目的&…

动态网站的技术路线_世界能源技术展望2020—钢铁技术路线图(旗舰报告,强烈推荐,执行摘要翻译,文末含全文下载地址)...

国际能源署发布《世界能源技术展望2020—钢铁技术路线图》(旗舰报告,强烈推荐,执行摘要翻译,文末含全文下载地址)ERR能研微讯(左)丨ERR能研君(右)阅前须知1.网站或订阅号转载文章需隔天(发布时间24小时以后),且须明确注明作者与来…

动态网站的技术路线_动态IP与静态IP

IP是能使连接到网上的所有计算机网络实现相互通信的一套规则,规定了计算机在因特网上进行通信时应当遵守的规则。动态IP需要在连接网络时自动获取IP地址以供用户正常上网,而静态IP是网络服务提供商在装机时分配给用户的IP地址,可以直接连接上…

linux服务器无法识别u盘,linux无法识别U盘_网站服务器运行维护

win7只能上qq不能上网怎么解决_网站服务器运行维护win7只能上qq不能上网解决方法:1、在开始菜单中打开运行,然后运行cmd,输入netsh winsock reset命令,然后按提示重启电脑。2、把DNS设置为自动。1、插入u盘,执行如下命…

msdn itellyou_知名微软系统镜像网站itellyou迎来全新改版

相信许多热爱装机或者对于电脑系统有过一定研究装过系统的小伙伴们都知道,有一个大家都熟知的非常良心干净的微软系统镜像网站,那就是itellyou。Itellyou这个网站一直以来都致力于提供微软官方纯净原版系统,从Windows XP一直到最新的Windows …

体育直播网站源码_正在直播!火箭主场迎战雷霆,某知名体育网站进行比分直播...

北京时间10月29号,NBA常规赛继续进行。今天,火箭主场迎来一位特别的“客人”,他就是克里斯-保罗。在今年夏天,火箭将保罗交易至雷霆,威少加盟火箭与哈登重聚。这笔交易对于保罗来说,里面掺杂着爱恨情仇。当…

大型网站seo方案_一份合格的seo网站优化方案需要做哪些内容?

制定一份完美的SEO优化方案,企业网站才可以发挥出更好的作用。那么,该怎么制定一份合格的seo网站优化方案?需要做哪些内容呢?第一、网站定位要清晰:网站定位是什么?也就是说,您需要服务的是哪些对象,客户群是谁?确…

网站服务器的容量怎么看,网站服务器空间大小会对我们产生什么影响?要怎么选择?...

网站服务器空间大小通俗来讲也就是网站服务器的硬盘大小,它决定着我们的网站可以存储多少数据等等。当我们选择网站服务器空间时,如果过小,势必会对网站的运行产生一定的不良影响,过大也会造成资源浪费。那么究竟该如何选择呢&…

提示网站服务器403,浏览器打开网页时出现http 403 禁止访问错误是什么原因?

浏览器打开网页时出现http 403 禁止访问错误是什么原因?http 403 错误大多都发生在新站中,这类网站还处于建设过程,403也算是常见的访问错误了,另外,我们来看看出现http 403 禁止访问错误的原因。浏览器打开网页时出现…

git上传网站到服务器上,git上传到远程服务器

git上传到远程服务器 内容精选换一换代码托管服务支持您将本地的代码进行Git初始化并上传到CodeHub仓库。不选择“选择gitignore”。不勾选“允许生成README文件”。如果原来是来自SVN服务器的,建议参考 将SVN代码库迁移到Git代码库。如果原来没有纳入过任何的版本系…

html网站制作教案,用Html做制作态网页_教案.doc

_____用Html做制作静态网页_____教学设计课题名称用html制作一个静态网站设计者专业类别课时3使用教材教学对象中职二年级学生教学目标知识与技能掌握html制作页面的方法;理解html制作网页的标签;灵活运用各类标签制作各式的网面。过程与方法教师和学生共…

怎么避免后台被搜索_【亚马逊SEO】如何选择及优化关键词以提高自然搜索排名?...

亚马逊是一个客户至上的平台,它将客户体验置于一切之上。根据亚马逊的说法,买家找到产品的速度越快,其购物体验就会越好。因此,亚马逊A9算法被设计用来寻找带有对客户购物体验有价值的关键字的listing。如果你想提高你的自然排名&…