python爬虫代理ip可以随便写吗_写一只独立的python爬虫-浅谈用爬虫自行抓取代理ip网站信息...

news/2024/5/12 18:21:58/文章来源:https://blog.csdn.net/weixin_39588206/article/details/113672589

【作者:0han 未经授权请不要转载】

8/29更新:

由于发现昨天的代码所爬的网站资源太少,而且没有翻页,所以换了一个网站,kuaidaili,并且使用loop in loop 实现逐页逐行爬取,并且前面的代码有个小错误,proxy={}这个字典应该放置在循环之外,否则文件只会储存爬取的最后一个结果,修改后的代码如下:

yIvINn.PNG 更新

#disp只是方便在运行时实时看爬取的进展

这个loop in loop 抽象理解为当n=0时打开第n+1也就是第1页,然后在第一页逐行抽取表格中的第j+1栏的信息,cuz j begins 0. for j in range(10) 是因为那个网站每页代理ip有10栏。

===================================

okay 这篇文章所述内容是为了我另一篇文章《ins水军来袭…》写的,ip代理是爬虫中很重要的一个部分所以分开来写。因为我发现那个脚本在批量注册ins账号时,注册两三个后就开始失败了,所以我意识到有可能是ins对ip频繁post请求一类的有所注意和采取措施。所以有必要给ins爬虫准备代理ip。网上有很多给python爬虫装备代理ip的教程,但他们大多都避开了代理ip来源的问题,你当然可以自己准备一个一堆ip地址和port的list供爬虫装备。但是我选择再写一个爬虫脚本自动从一些代理ip网站上爬代理ip列表。

环境:python3 + 谷歌浏览器

使用的库: requests+beautifulsoup4+pickle(序列化)

Talk is cheap, 上代码:

iuQvIj.PNG 主要代码

首先是一个循环,用函数的方式(go(i)). get请求用requests库,用bs4的css选择器进行筛选(我花时间最长的地方)。目标网站是cn-proxy.com,一个提供代理ip的网址。

爬取之前不要忘了加header。先创建一个空字典proxy={},是为了讲爬好的ip:port装进去方便ins爬虫使用。下面这幅图是使用谷歌浏览器的开发者工具分析网页元素:

u2I7Fj.PNG 图片中所选择的地方是随机找了一栏

可以发现ip地址的标签位于tr > td下,port的位置也位于tr > td 下。通过右键这个位置,copy-selector, 在粘贴到sublime里看是这个样子:

IjeaIz.PNG 开发者工具结果

可以发现这个地址虽然都是tr > td, 但是靠括号()里的数字不同来区分不同的元素。根据几次报错,bs4里要表示这种“隐藏的分类”使用“nth-of-type(数字)”而不能直接写成 td: nth-child(数字) 所以关于css选择器,最后的代码如下:

VVjA3m.PNG css选择器 select想要的元素,也就是选择出ip和端口

中间我用了str(n+1),结合上面的代码你会发现n为if循环中的第n次。n+1是因为第一个n的值是0,不是1,tr标签中括号的最小值是(1),所以用n+1,这样第一次开始就是tr:nth-of-type(1).

在主要代码的最后会发现我加了一个openfile()函数,那主要是为了测试pickle这个库,在go()函数的最后我不仅将爬到的每一次结果都保存到了txt文件里,同时利用pickle库dump到了一个后缀名为pickle的文件中,这是为了在ins爬虫里方便直接提取代理数据。关于pickle的用法请谷歌pickle库

openfile()函数主要就是测试是否能正常提取pickle文件中刚刚爬到的数据,所以我把循环设置成了一次来做实验,结果如下图所示:

2EJz22.PNG 运行结果

成功了,如何利用代理数据还请移步《ins水军来袭》那篇文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_789829.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站收集

2019独角兽企业重金招聘Python工程师标准>>> 算法: 协同过滤(CF)算法详解和实现 梯度与方向导数的关系 linux: Linux三剑客之awk命令 python: python dot(a,b) 矩形运算规则解析 mysql: SQL优化指南 centos7安装mysql …

大型网站技术架构(七)网站的可扩展性架构

2019独角兽企业重金招聘Python工程师标准>>> 扩展性是指对现有系统影响最小的情况下,系统功能可持续扩展或提升的能力。 设计网站可扩展架构的核心思想是模块化,并在此基础上,降低模块间的耦合性,提供模块的复用性。模…

大型网站技术架构(四)网站的高性能架构

2019独角兽企业重金招聘Python工程师标准>>> 网站性能是客观的指标,可以具体体现到响应时间、吞吐量、并发数、性能计数器等技术指标。 1、性能测试指标 1.1 响应时间 指应用执行一个操作需要的时间,指从发出请求到最后收到响应数据所需要的时…

参加google com的送钱广告计划--- 全面发挥贵网站的创收潜力

Google.com的金字招牌作保证,放心去作,不再担心上当受骗了。以下是Google自己的介绍“全面发挥贵网站的创收潜力。 Google Ad是一个快速简便的方法,可以让各种规模的网站发布商为他们的网站展示与网站内容相关的 Google广告并获取收入。由于所…

前端SEO解决方案

前言 通常在"HTML语义化的好处",这样的问题中,有一点是“有利于SEO”,那什么是SEO呢? 搜索引擎优化(SEO) SEO,全名为 Search Engine Optimization ,译为搜索引擎优化 这…

java jsoup爬取动态网站_Jsoup简明教程

jsoup是一个操纵HTML的Java库。它提供了很多便利的API&#xff0c;我们可以用HTML5 DOM方法和CSS选择器来获取URL&#xff0c;提取和操作数据。先看一个简单的例子&#xff0c;新建一个Maven项目&#xff1a;在项目的pom.xml文件中添加如下依赖&#xff1a;<!-- https://mvn…

iframe中的右键 禁止_js代码如何禁止复制粘贴网站内容?

(给100素材网点亮★号&#xff0c;提升开发技能)1、使右键和复制失效方法1&#xff1a;在网页中加入以下代码&#xff1a; document.oncontextmenunew Function("event.returnValuefalse"); document.onselectstartnew Function("event.returnValuefalse"…

nginx返回404_解决网站404页面返回200状态码问题

看日志的时候&#xff0c;我发现有大量请求到了站点其实并不存在的地址&#xff0c;但是返回码居然是 200&#xff1f;&#xff1f;这就不正常了&#xff0c;于是手工访问了一下一个不存在的页面&#xff0c;虽然 站点 在前台给我展示了一个 404 页面&#xff0c;但是浏览器显示…

php不同洁面使用json_网站防攻击策略 针对于JSON网站的安全解决方案

网站,APP越来越多,安全问题也面临着严重挑战,我们在对客户网站做安全服务的同时,发现很多客户网站都有使用JSON的交互方式来进行数据的传输,包括JSON调用,在使用JSON同时发生的安全问题以及如何做好JSON的网站安全防护,下面我们跟大家来分享一下.首先我们要理解一下什么是JSON?…

css和html写个人网站,手把手教用你DIV和CSS建个人网站

原标题&#xff1a;手把手教用你DIV和CSS建个人网站本文讲述了一个静态网站的设计到重构到架设全部流程&#xff0c;还讲述了一个蛋疼设计师的诙dan谐teng日常&#xff0c;嘛&#xff0c;表在意后面这一句就是了。。。(丝路教育微信公众号&#xff1a;silujy)嘿嘿嘿嘿嘿嘿~~~~~…

nas怎么做网站服务器,如何在群晖nas搭建自己的网站?

1.下载如下5个软件Web starion&#xff1a;用来配置WEB服务器&#xff0c;将来绑定域名就需要在这里进行。MariaDB:必须要安装的基础程序&#xff0c;不然phpmyadmin无法运行。Phpmyadmin&#xff1a;用于管理网站的数据库&#xff0c;不管您用哪款建站程序&#xff0c;都必须要…

简单随机选人网站设计

简单随机选人网站设计 一、 设计目的 解决班级活动选人问题&#xff0c;随机选择参加人员。 二、 网站功能 实现对班级成员的随机选择&#xff0c;且上次被选的人才能选择下次活动人选。 三、 使用流程 1. 网址&#xff1a;http://3406ff11.nat123.cc/Project01/进入登陆…

MOSS2007开发Demo系列(1)——用TreeView显示SharePoint网站文件夹结构(SPFolder)

TreeView控件的节点加载一般有两种方式&#xff0c;静态加载与动态加载&#xff0c;下面分别进行实现。 &#xff08;1&#xff09; 静态加载节点&#xff0c;一次加载所有节点 创建用户控件FolderTree1.ascx &#xff0c;在ascx页面拖一个Button和TreeView上去&#xff0c;cs页…

利用其他网站的搜索结果_网站优化 SEO 的好处

网站优化 SEO 的好处 做网站制作或者网络推广的人估计没有谁不知道SEO的&#xff0c;即搜索引擎优化&#xff0c;这是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。由于不少研究发现&#xff0c;搜索引擎的用户往往只会留意搜索结果最前面的几个…

部分网站为什么上不去_为什么网站SEO优化没有效果?

其实大部分从事SEO优化的站长&#xff0c;必定都遇到网站优化效果大起大落&#xff0c;甚至毫无起色的情况&#xff0c;即便是每天都在不断的更新原创内容和优质外链&#xff0c;关键词的布局也没有问题&#xff0c;但是关键词的排名始终上不去&#xff0c;尤其是近期&#xff…

大流量网站的底层系统架构

from:http://chenge.diandian.com/post/2011-10-30/6366412 动态应用&#xff0c;是相对于网站静态内容而言&#xff0c; 是指以c/c、php、Java、perl、.net等 服务器端语言开发的网络应用软件&#xff0c;比如论坛、网络相册、交友、BLOG等常见应用。动态应用系统通 常与数据库…

Windows Azure 和必应地图通过交互的网站将Speilberg的“War Horse”的历史带进生活...

Steven Spielberg的最新电影War Horse 讲述了一匹马前往第一次世界大战时的佛兰德斯战场的行军之路。为了帮助宣传影片并将该历史带到现实中来&#xff0c;Shoothill 的英国开发人员开发了这个网站——The War Horse Journey。使用Deep Zoom 技术、必应地图和Windows Azure&…

切图网——用html5建站的10大好处

2019独角兽企业重金招聘Python工程师标准>>> 我相信你听说过网站建设&#xff0c;但是你听说过html5网站建设吗&#xff1f; 据调查99%的人都不理解html5网站建设的概念。这类似于90%的人都不知道5d电影的概念一样。 html5建站是用到了最新的html5技术和 一系列htm…

关于Vue中对所做网站ico的解决办法

今儿在做项目中&#xff0c;老大让处理一下网站图标对问题&#xff08;之前自己网站没有ico&#xff09;。 由于自己的网站是用vue进行开发的。所以必须考虑到如何用vue进行解决。 第一 我们得先找到一个制作网站ico的网站&#xff0c;在这里我就先给大家提供一个吧&#xf…

公司网站被挂马后的处理

2019独角兽企业重金招聘Python工程师标准>>> 昨天公司网站所有php代码文件被植入一段代码&#xff0c;代码的含义是将从bing和google过来的ip跳转到指定的网址&#xff0c;因为其中没有百度&#xff0c;估计是国外黑客所为。黑客&#xff0c;这个词听起来就让人很激…