Python爬虫之网站验证码识别(三)

news/2024/5/20 13:54:30/文章来源:https://blog.csdn.net/HG0724/article/details/116099789

视频链接:Python爬虫7天速成(2020全新合集)无私分享 Python: 章节p29-p31

文章目录

  • 前言
  • 一、云打码平台使用流程
    • 操作流程
  • 二、代码编写⭐
    • 2.1 使用超级鹰云平台
    • 2.2 实战演练⭐
  • 总结


前言

  • 验证码和爬虫之间的爱恨情仇?

门户网站所提供的一种反爬机制:验证码

  • 应用场景

识别下图中的验证码

在这里插入图片描述

爬取基于用户的相关信息时,我们需要在爬取数据之前做登录的操作:

  • 浏览器中进行登录操作很简单只需要输入相关信息后点击登录即可
  • 用requests模块登陆操作时,可能需要提交验证码
  • 如何做

识别验证码图片中的数据,用于模拟登陆操作:

  • 人工肉眼识别(不推荐)
    有些验证码干扰线少,肉眼可以识别清楚,而有些肉眼无法识别清除,需要切换验证码识别,效率低下
  • 第三方自动识别(推荐⭐)
    云打码:http://www.yundama.com/demo.html 需要收费(已经无法使用了)

一、云打码平台使用流程

由于该平台已经无法使用,我们先在此记录使用流程,然后使用其他的平台(推算:不同平台之间的使用流程应该相差无几,但是具体平台要具体分析

操作流程

  1. 注册

普通用户和开发者用户(两种都要注册)

  1. 登录
  • 普通用户的登录

登录成功后,你需要:

  • 查看登陆积分
    有积分则继续使用,没有积分则充值
  • 开发者用户登录

登录成功后,你需要:

  1. 创建一个软件
    点击【①我的软件】–>【②添加新软件】–>【③录入软件名称】最后点击提交即可
    成功提交后,提供的信息:-软件名称 -软件ID -通讯密钥【ID和密钥是后续编码需要使用的】

  2. 点击开发文档
    ①下载示例代码】–> 【②点此下载:云打码接口DLL】–> 【③选择Python语言示例下载】–> 【④解压缩下载好的文件并copy当前文件】–> 【⑤修改下载好的.py文件

  • 修改下载好的.py文件

注意事项⭐(按顺序看文章可能不理解,但没关系请往下看):

  1. 用户名和密码需要录入普通用户(普通用户登录有积分,商家扣除才会有收入)
  2. 软件ID和密钥需要换成我们录入软件所提供的ID和密钥
  3. 要对想要被识别的验证码进行下载
  4. 指定验证码类型,查看云平台的价格表【价格表中有类型】
  5. 指定超时时间【允许验证码平台识别耗时的最大时间】,一般指定15-20s

修改上述参数即可

  • 修改之前
    修改参数
  • 修改之后
    在这里插入图片描述
  • 验证码类型
    在这里插入图片描述
  1. 图解登录流程
  • 普通用户的登录
    在这里插入图片描述
  • 开发者用户登录
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

二、代码编写⭐

这个章节只是提供思路,视频中的验证码识别平台已经无法使用了(已经倒闭),但是问题的处理思路是一样的

2.1 使用超级鹰云平台

我在网上找了一个可以使用的验证码识别平台:超级鹰官方网站,相对于视频教程中不仅需要普通用户,还需要开发者用户方便许多,这个超级鹰云平台只需要注册一个账号即可,而且我充值了一块钱作为测试使用(其实一毛钱就够用,每次需要10积分,1元=1000积分,但是平台最低充值1元钱( ╯□╰ ))

  1. 注册
    在这里插入图片描述

  2. 创建软件ID
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  3. 下载测试Demo
    在这里插入图片描述
    在这里插入图片描述

  4. 修改测试代码

  • Demo内部
    Demo内部
  • 测试图片
    测试图片
  • 具体修改
    在这里插入图片描述
  • Demo测试
    在这里插入图片描述

2.2 实战演练⭐

  • 主要代码

超级鹰网站下载的API我没有放到博客里,自己去官网下载即可

import requests
from lxml import etree
from chaojiying import getCodeTextif __name__ == "__main__":headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'}url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'page_text = requests.get(url=url,headers=headers).text# 解析验证码图片img中src属性值tree = etree.HTML(page_text)code_img_src = 'https://so.gushiwen.cn'+ tree.xpath('/html/body/form[1]/div[4]/div[4]/img/@src')[0]print('image url:',code_img_src)img_data = requests.get(url=code_img_src,headers=headers).content  # 二进制数据with open('./code.jpg','wb') as fp:fp.write(img_data)# 运用云打码平台进行验证码解析img_code = getCodeText('./code.jpg')print(img_code)
  • 识别结果

由于每次的验证码图片都不一样。因此执行一次程序,结果显示也都会不同

  • 第一次测试
    在这里插入图片描述
  • 第二次测试
    在这里插入图片描述
  • 第三次测试
    在这里插入图片描述

综上三次测试可知该平台的识别效果还是不错的


总结

初步了解了如何通过第三方平台进行网站验证码的识别,进一步了解了爬虫能做的事情。

此外,如果大家想使用我的账号、密码欢迎私信我

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_746656.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

asp.net 1.1网站开发配置出现”Visual Studio .NET 无法创建或打开应用程序”解决方法...

可能的解决方案: 1.注册.net framework 1.1 C:\WINDOWS\Microsoft.NET\Framework\v1.1.4322\aspnet_regiis /i 2,如果配置的改网站端口以前曾经有其他网站占用过改端口,删除一下目录 C:\Documents and Settings\Administrator\VSWebCache\[计算机名]-[端…

IIS企业案例系列之四:发布多个网站之方案二

方案2:多端口发布网站到外网,默认发布不加密的网站是80端口,下面我们测试用81端口发布一个新的网站:www.iSusan.com,并绑定IP地址192.168.2.20,具体步骤如下:1、下面添加一个新的网站Susan在C盘Susan文件夹…

黄聪:WordPress 多站点建站教程(一):怎样开启WordPress多站点功能,实现手机移动端主题开发,与主站用户数据共享...

为了开发手机移动端的wordpress&#xff0c;需要使用Wordpress的多站点功能。 1、打开WordPress根目录下的wp-config.php文件&#xff0c; 在文件的任何位置加上以下内容&#xff1a; define(WP_ALLOW_MULTISITE, true); // 建议加到<code>/* Thats all, stop editing! H…

建站过程中服务器系统卡顿,网站卡顿和服务器有关系吗?

首先我们收一下网站出现卡顿的情况&#xff0c;主要有以下几种前况&#xff1a;1、是百网速原因;2、是浏览器缓存原因&#xff0c;清一下浏览器缓存就好;3、是服务器原因;服务器不稳定影响的。但是网站卡顿和服务器有关系吗?怎么解决服务器卡的问题第一&#xff0c;您要是本地…

服务器怎么解绑网站域名,服务器解绑ip

服务器解绑ip 内容精选换一换通过将弹性公网IP与弹性网卡绑定&#xff0c;您可以构建更灵活&#xff0c;扩展性更强的IT解决方案。弹性网卡本身提供一个私网IP&#xff0c;与弹性公网IP绑定后&#xff0c;相当于同时具备了私网IP和公网IP。弹性网卡和弹性公网IP的绑定关系不随弹…

洛奇英雄传老福单机版服务器不显示,洛奇英雄传官方网站

这一次叫老福跪下唱征服&#xff01;《洛奇英雄传》公开强化系统全球首发&#xff0c;更有一系列的强化福利、强化活动等你来玩&#xff01;国庆小长假&#xff0c;我们一起围观砰砰砰&#xff01;公开强化系统全球首发本次更新之后&#xff0c;至指定地点进行强化的玩家&#…

html+css静态网站_什么是Web开发?什么是静态站点?

在九十年代初期&#xff0c;浏览网站内容的浏览器相对简单&#xff0c;所以网站必须也相应地简单易用。而当时网站主要是没有字体类型的文本&#xff0c;任何形式的图像都很重要。最早期的网站是静态的&#xff0c;无法提供交互式、动画或个性化等内容。为了追求更复杂的Web内容…

Python爬虫抓取某音乐网站MP3(下载歌曲、存入Sqlite)

Python爬虫抓取某音乐网站MP3&#xff08;下载歌曲、存入Sqlite&#xff09; 最近右胳膊受伤&#xff0c;打了石膏在家休息。为了实现之前的想法&#xff0c;就用左手打字、写代码&#xff0c;查资料完成了这个资源小爬虫。网页爬虫&#xff0c; 最主要的是协议分析&#xff08…

关于onMouseOver出现提示文字的多行处理办法

有时候我们需要对超链接<a href"路径" title"提示文字">链接文字</a>里边的提示文字使用换行&#xff08;即需要多行提示&#xff09;&#xff0c;可是title,alt之类里边的提示内容是不支持HTML书写的&#xff0c;怎么解决&#xff1f;很容易&…

大型网站架构演化发展历程

前面已经描述了大型网站系统的特点&#xff0c;而对一个大型网站系统&#xff0c;其架构也是重要的一个环节。 大型网站技术主要的挑战来自于庞大的用户、高并发以及海量的数据这三个方面。大型网站的形成就像一颗大树的成长&#xff0c;历尽长时间的磨练&#xff0c;最后枝繁叶…

【推荐】腾讯android镜像(做Android开发的得好好利用下这个网站,国内的大公司还是可以滴……)...

原文地址&#xff1a;http://android-mirror.bugly.qq.com:8080/include/usage.html ☀ Windows I. Open Android SDK Manager II. Config User Defined Sites Add this url to "User Defined Sites": http://android-mirror.bugly.qq.com:8080/android/repository/…

网站创建过程(一)

今天一天都在上班啊&#xff0c;我觉得我也没有玩啊&#xff0c;怎么自己的项目就没有一点进展呢。。。。我方了 今天就用django创建了一个项目然后连上mysql 建了一个表。这也就证明我的django是可以读取数据库哒~~开心 具体步骤 一、新建一个文件夹 这个文件夹用来存放项目&a…

转帖:网站服务架构

原文地址&#xff1a;http://www.cnblogs.com/jiekzou/p/4677994.html 服务器划分 对于访问量大的网站而言&#xff0c;将网站的各个部分拆分分别部署到不同服务器上是很有必要的。例如将图片和web站点分开。一般而言&#xff0c;在网站的整个服务器部署上分为如下几种类型&…

WSS无编程网站建设(1)-客户需求分析

今天&#xff0c;和ABC公司的老总&#xff08;老黄&#xff09;谈了一笔生意&#xff0c;做一个企业外网&#xff0c;功能结构就是和所有企业网站一样。 一、网站结构图 谈完后,到公司财务拿钱开始做了. 1,服务器: 下表列出为独立安装部署 Windows SharePoint Services 3.0 时所…

网站后台 服务器,网站后台数据 服务器

网站后台数据 服务器 内容精选换一换华为云云市场搭建了包括基础软件市场、企业应用市场、建站市场、安全市场、服务市场、解决方案市场、人工智能市场、物联网市场8大子市场&#xff0c;种类丰富&#xff0c;产品众多&#xff0c;用户可以在华为云云市场找到适合自己业务的软件…

PHP来编写网站评论系统

2019独角兽企业重金招聘Python工程师标准>>> 首先打开Dreamweaver cc,安装MySQL数据库。 这里有三个文件&#xff1a;comments.php, 是用来显示评论的, commentadd.php, 用来处理评论内容的, commentform.html 通过FROM来提交评论。 首先建立一个数据库&#xff0c…

网站总访问人数和当前在线人数

做网站肯定会要求实现这样的需要&#xff0c;相信对绝大部分程序员同行来说都很easy。其实只要我们对ASP.NET的内置对象的生命周期了解的话&#xff0c;很容易想到解决的办法。 在项目的根目录下新建global.asax文件&#xff0c;下面是我当年所写的代码&#xff1a; 代码 1 voi…

(转)大型网站架构系列:负载均衡详解(4)

三、LVS负载均衡 LVS是一个开源的软件&#xff0c;由毕业于国防科技大学的章文嵩博士于1998年5月创立&#xff0c;用来实现Linux平台下的简单负载均衡。LVS是Linux Virtual Server的缩写&#xff0c;意思是Linux虚拟服务器。 基于IP层的负载均衡调度技术&#xff0c;它在操作系…

夺命雷公狗ThinkPHP项目之----企业网站26之网站前台列表页的显示和完成分页功能...

我们用大I接收到我们get过来的栏目页的id然后通过文章的ar_cateid 来判断是不是属于该栏目下的&#xff0c;如果文章表ar_cateid 栏目表的cate_id 那么就可以选出我们要查找的信息&#xff0c; 然后再遍历到视图即可。。。 <?php namespace Home\Controller; use Think\Co…

纪念一下我在2009年开发的一款网站客户端软件[winform]

时间过的真快&#xff0c;虽然目前该网站暂时停止运行了&#xff0c;但还是为自己开发的这款客户端软件感到自豪&#xff0c;要知道&#xff0c;这是在我的UI架构下产生的第一个商业软件哦。 让思绪飞一会儿~~~~~~~~~~ 登录界面&#xff1a; 主界面&#xff1a; 菜单显示&#…