2021-08-30-CR-006 Python爬虫 使用requests和BeautifulSoup爬取网站上的代理服务器列表,每天一个爬虫小技巧

news/2024/5/21 4:08:51/文章来源:https://amoor.blog.csdn.net/article/details/119996751

这里爬取西拉代理的高匿服务器列表
先分析页面的格式

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

这里可以看出来页面的第几页就是链接后面加数字和斜杠
然后测试下第一页也是可以的,2000页就是一个循环即可调整url
需要的数据在网页源代码的table里面,用BeautifulSoup即可选择 出来

代码:

import codecs
import reimport requests
from bs4 import BeautifulSoup as bfsimport   csv
#T1
f = codecs.open('daili.csv','a','gbk')
w = csv.writer(f)
w.writerow(["IP",'协议'])#T2
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}for ii in range(1,2001):r = requests.get("http://www.xiladaili.com/gaoni/"+str(ii)+'/')# print(r.text)# print(r.text)soup=bfs(r.text,'html.parser')trs=soup.select('tbody > tr')# print(trs)
#T3for tr in trs:tds=  tr.find_all('td')ip=tds[0].get_text()type=tds[1].get_text()#httphttp = ''.join(re.findall(r'[A-Za-z]', type))print(http)if http=='HTTPHTTPS':http='HTTP'#T4proxies = {http: f'{http}://' + ip}try:r = requests.get('https://www.ip.cn/', headers=headers,proxies=proxies, timeout=3)html = r.textexcept:print('fail-%s' % ip)else:print('success-%s' % ip)soup = bfs(html, 'lxml')div = soup.find(class_='well')if div:print(div.text)w.writerow([ip, http])print(ip + '写入成功')

解析:

T1部分是设置保存到的文件
T2开始爬取,设置用户代理,爬取每一个页面里面的tbody下面的tr列表,这是根据页面的格式选择的
在这里插入图片描述

T3开始逐个解析这个tr,这里相当于解析每页上面的这个表格
取出前两个单元格的值
第二的格子表示的是代理的类型,提取其中的英文,或者直接根据网页上的几个字进行判断来区分类型
T4测试这个代理,如果成功就把这个代理写入到文件里
步骤就是这样了

这个测试有时候一个ip会有问题,第一次不通过,第二次又能通过,所以 并不能保证所有的可用ip都被保存了下来
这里可以先不写进文件里,保存到 列表里,然后通过循环多运行几遍,每次 判断是否存在或者 直接最后转换为集合,再写入到文件里面 。
如果追求的是高质量ip,那么可以对取得的ip再重新测试几遍 ,去掉出过错的ip,这样留下来的就 都是好用的ip了。

ip的通畅与否和当前时点的状态有关,所以 不保证以后用起来是一样的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_825494.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

创建个人网站(一) 如何申请一个网站

文章来源:http://jingyan.baidu.com/article/aa6a2c14df86650d4c19c4ce.html 建一个网站不需要多少钱,但用途是很多的。如果你经营有方,完全可以通过广告挣出网站费用。今天小编就告诉大家如何在万网申请并建立一个网站。 小编提示&#xff…

创建个人网站(二) 网站备案

来源:http://jingyan.baidu.com/article/358570f661b3a6ce4724fcf0.html 本系列上一篇经验我们学习了如何申请一个网站,包括申请域名和购买空间等。但是购买的网站域名和空间是不可以直接用的。我们国家规定所有国内网站必须先进行备案。 现在我们就学…

个人网站建立-1.1

1.使用 HBuilder X写出大致框架 开头添加了一个图片链接 <img src"../img/1.img.webp"/ width"100%" alt"背景图"> 2.用css描述样式&#xff1a; 3.效果图:

个人网站建立-1.2

&#xff08;遇到问题1&#xff1a;如何实现页面内跳转且导航栏保留&#xff09; 1.想到一个笨办法:把每个页面都写上导航栏代码&#xff08;后期再优化&#xff09; 这样跳转到其他部分导航栏也在&#xff0c;问题解决. &#xff08;后续补充每个板块内容&#xff09;

个人网站建立-1.3

优化-使用background语法设置背景图&#xff0c;更改背景图为高清图 删除原‘wx’类&#xff0c;在body里添加background 效果图&#xff1a;

个人网站建立-1.4

主页丰富&#xff08;脑子容量有限&#xff0c;见谅&#xff09; 添加介绍&#xff1a;欢迎来到我的个人网站~~ 在主页html里添加&#xff1a; <div id"text"> <p>欢迎来到我的个人网站~~</p> </div> 用css修…

个人网站建立-1.5

细节优化 和 添加单独css 及 代码注释添加 1.细节优化: 更改‘主页html’名字为-homepage.html 2.添加单独css分类命名: 3.添加必要注释

个人网站建立-1.6

1.主页继续丰富 &#xff08;使用position&#xff1a;fixed进行定位&#xff09; 2.板块自我介绍丰富 1.使用iframe标签进行内嵌框架 <div class"self"> <iframe frameborder"0" align"top" src"me1.html"…

个人网站建立-1.7

1.常用网站板坏丰富 1.统计常用网站的网址和图片 2.添加图片超链接&#xff1a; <div id"self"> <h3>生活网站</h3> <hr /> <a href"http://www.baidu.com" target"_bl…

个人网站建立-1.8

1.板块我的照片丰富 1.使用iframe标签添加框架 <div id"p"> <iframe frameborder"0" align"top" src"picture1.html" width"560px" height"550px"></iframe> <…

个人网站建立-1.9

板块联系方式丰富&#xff1a; 1.html代码&#xff1a; <div class"information"> <p><span>QQ:</span>888</p> <p><span>邮箱&#xff1a;</span>888qq.com</p> …

个人网站建立-2.0

板块留言丰富&#xff1a; 1.html代码&#xff1a; <form name"message" method"post" target"_blank"> <p id"p1">请写下要对我说的话吧&#xff1a;</p> <textarea c…

个人网站建立-2.1

&#xff08;分享板块暂时还没想好写啥&#xff0c;就暂时放着&#xff09; 网站现在就大致成型了&#xff0c;但只能自己本地登录查看就很难受&#xff0c;所以: 我就用了Appserv来解决这个问题&#xff01; 优点&#xff1a;操作简单 缺点&#xff1a;只能在自己电脑打开…

互联网协会 推出的中国网站流量监测公益性服务(带软件下载)

软件下载: http://www.chinarank.org.cn/download/ptxz.html?urlzg 中国网站排名是由 中国互联网协会 推出的中国网站流量监测公益性服务&#xff0c;为网民免费提中文网站的流量分析统计&#xff0c;让您及时、全面了解网站的综合数据变化。只要您安装中国网站排名工具条&am…

风云榜 -人气网站

(转自&#xff1a;电脑报&#xff08;总策划) &#xff09;网络宽带在国内大中小城市均完成了全面普及&#xff0c;国内网民数量陡增。面对如火如荼的网络市场&#xff0c;各大网站媒体也纷纷使出十八般武艺&#xff0c;创新不断&#xff0c;以此来搏得自己的网络市场份额。面对…

【好用的工具】搭建个人博客网站(域名备案 + https免费证书)

前言 为什么选择搭建个人博客&#xff1f;一方面是各个平台经常下架原创文章&#xff0c;另一方面是为了熟悉整个建站流程。 通过搭建个人博客&#xff0c;我们可以自由的发表文章不用担心下载&#xff0c;而且可以锻炼个人的SEO优化能力&#xff0c;不管是运维还是运营这块对…

新手如何最低成本搭建自己的网站

要说建站&#xff0c;可能很多人会因为网站空间的费用望而生畏&#xff0c;本文笔者分享几个容易上手而且价格非常有优势的网站空间&#xff0c;零基础也可以搭建博客&#xff0c;甚至搭建一个企业网站。 搭建网站并没有我们想象中的那么难&#xff0c;只要选择了方向&#xf…

【转载】大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了

大学四年&#xff0c;看课本是不可能一直看课本的了&#xff0c;对于学习&#xff0c;特别是自学&#xff0c;善于搜索网上的一些资源来辅助&#xff0c;还是非常有必要的&#xff0c;下面我就把这几年私藏的各种资源&#xff0c;网站贡献出来给你们。主要有&#xff1a;电子书…

【转载】130 个相见恨晚的超实用网站,一次性分享出来

文末没有公众号&#xff0c;只求 点赞 关注 搞学习 CSDN&#xff1a; https://www.csdn.net/TED&#xff08;最优质的演讲&#xff09;&#xff1a;https://www.ted.com/知乎&#xff1a;www.zhihu.com大学资源网&#xff1a;http://www.dxzy163.com/简答题&#xff1a;http:…

SEO优化,需要避免出现这5个错误操作!

福州seo推广文章目录 链接冒进错误重定向动态参数导出链接网站内链 当我们在做SEO的过程中&#xff0c;我们总是思考如何更快的让网站排名得到提升&#xff0c;而在实际操作中&#xff0c;由于自身对于SEO基础知识&#xff0c;没有深度的研究&#xff0c;而总是“盲从”&#…