【验证码的识别】—— 点触式验证码的识别

news/2024/4/26 23:59:01/文章来源:https://blog.csdn.net/BROKEN__Y/article/details/129127403

一、前言

大家好,不知不觉的我来csdn已经又一周年了,在这一年里,我收获了很多东西,我是2022年2月22日入驻CSDN的,一开始只是为了方便浏览文章的,后来,我也有事没事发发文章,创作了100多篇文章,有近三分之一是高质量文章,在这个不到一年里,我收获了1066位粉丝,其实,我写文章不是为了粉丝数量,只是在这个平台把自己的知识分享给别人。在新的一年里,我可以继续努力,日出万物生,日落满天星。新的一年依然记得仰望星空。2022年6月16日,那时候我才2个粉丝。虽然现在的粉丝不多,2000都没有。但是,这些都是次要的,主要是我在这里学到了很多东西。

今天借这个机会表达一下,我在csdn一周年的纪念。为了回馈粉丝长久以来的支持,博主决定开始给大家送福利了。在爬虫时,网上的免费代理IP不好用,怎么办?不要慌,我给大家争取到了一个福利,点击下面链接即可免费领取七天测试
        http://suo.nz/2zmKBG
        白嫖不要不要的

二、引文

目前,许多网站采取各种各样的措施来反爬虫,其中一个措施便是使用验证码。随着技术的发展,验证码的花样越来越多。验证码最初是几个数字组合的简单的图形验证码,后来加入了英文字母和混淆曲线。有的网站还可能看到中文字符的验证码,这使得识别愈发困难。

后来 12306 验证码的出现使得行为验证码开始发展起来,用过 12306 的用户肯定多少为它的验证码头疼过。我们需要识别文字,点击与文字描述相符的图片,验证码完全正确,验证才能通过。现在这种交互式验证码越来越多,如极验滑动验证码需要滑动拼合滑块才可以完成验证,点触验证码需要完全点击正确结果才可以完成验证,另外还有滑动宫格验证码、计算题验证码等。

验证码变得越来越复杂,爬虫的工作也变得愈发艰难。有时候我们必须通过验证码的验证才可以访问页面。本章就专门针对验证码的识别做统一讲解。

接下来会涉及的验证码有普通图形验证码、极验滑动验证码、点触验证码、微博宫格验证码,这些验证码识别的方式和思路各有不同。了解这几个验证码的识别方式之后,我们可以举一反三,用类似的方法识别其他类型验证码。

三、点触验证码识别

除了极验验证码,还有另一种常见且应用广泛的验证码,即点触验证码。

可能你对这个名字比较陌生,但是肯定见过类似的验证码,比如 12306 就是典型的点触验证码,直接点击图中符合要求的图。所有答案均正确,验证才会成功。如果有一个答案错误,验证就会失败。这种验证码就称为点触验证码。

3.1. 本节目标

我们的目标是用程序来识别并通过点触验证码的验证。

3.2. 准备工作

我们使用的 Python 库是 Selenium,使用的浏览器为 Chrome。请确保已经正确安装好 Selenium 库、Chrome 浏览器,并配置好 ChromeDriver,相关流程可以参考我其他的博文。

3.3. 了解点触验证码

与 12306 站点相似,不过这次是点击图片中的文字而非图片。点触验证码有很多种,它们的交互形式略有不同,但其基本原理都是类似的。

3.4. 识别思路

第一步:如果依靠图像识别点触验证码,则识别难度非常大。例如,某网站的识别难点有两点,第一点是文字识别,第二步:图像的识别。将图像重新转化文字,可以借助各种识图接口,但识别的准确率非常低,经常会出现匹配不正确或无法匹配的情况。而且图片清晰度不够,识别难度也会更大。

3.5. 解决办法

此类验证码该如何识别?互联网上有很多验证码服务平台,平台 7×24 小时提供验证码识别服务,一张图片几秒就会获得识别结果,准确率可达 90% 以上 ,例如超级鹰平台:

超级鹰平台提供了如下一些服务:

  • 1.英文数字:提供最多 20 位英文数字的混合识别
  • 2.中文汉字:提供最多 7 个汉字的识别
  • 3.纯英文:提供最多 12 位的英文的识别
  • 4.纯数字:提供最多 11 位的数字的识别
  • 5.任意特殊字符:提供不定长汉字英文数字、拼音首字母、计算题、成语混合、 集装箱号等字符的识别
  • 6.坐标选择识别:如复杂计算题、选择题四选一、问答题、点击相同的字、物品、动物等返回多个坐标的识别

这里我们需要处理的就是坐标多选识别的情况。我们先将验证码图片提交给平台,平台会返回识别结果在图片中的坐标位置,然后我们再解析坐标模拟点击即可

3.6. 获取 API

在官方网站下载对应的 Python API,链接为:https://www.chaojiying.com/api-14.html。此 API 是 Python 2 版本的,是用 requests 库来实现的。我们可以简单更改几个地方,即可将其修改为 Python 3 版本。

修改之后的 API 如下所示:

import requests
from hashlib import md5class Chaojiying(object):def __init__(self, username, password, soft_id):self.username = usernameself.password = md5(password.encode('utf-8')).hexdigest()self.soft_id = soft_idself.base_params = {'user': self.username,'pass2': self.password,'softid': self.soft_id,}self.headers = {'Connection': 'Keep-Alive','User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',}def post_pic(self, im, codetype):"""im: 图片字节codetype: 题目类型 参考 http://www.chaojiying.com/price.html"""params = {'codetype': codetype,}params.update(self.base_params)files = {'userfile': ('ccc.jpg', im)}r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)return r.json()def report_error(self, im_id):"""im_id: 报错题目的图片 ID"""params = {'id': im_id,}params.update(self.base_params)r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)return r.json()

这里定义了一个 Chaojiying 类,其构造函数接收三个参数,分别是超级鹰的用户名、密码以及软件 ID,保存以备使用。

最重要的一个方法叫作 post_pic(),它需要传入图片对象和验证码类型的代号。该方法会将图片对象和相关信息发给超级鹰的后台进行识别,然后将识别成功的 JSON 返回。

另一个方法叫作 report_error(),它是发生错误的时候的回调。如果验证码识别错误,调用此方法会返回相应的题分。

3.7.模拟登陆

利用selenium模拟以账号登陆方式模拟登陆某网站。

from chaojiying import Chaojiying
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import time
from io import BytesIO
# from urllib import request
from PIL import Image
import logging
logging.basicConfig(level=logging.DEBUG, format='%(asctime)s-%(levelname)s-%(message)s')
logger = logging.getLogger('spider')class Jianshu():def __init__(self,cjy_username,cjy_password,cjy_softid,cjy_kind):self.url = 'https://www.jianshu.com/sign_in'# self.browser = webdriver.Chrome()self.browser = webdriver.PhantomJS()self.wait = WebDriverWait(self.browser,20)self.cjy_kind = cjy_kindself.chaojiying = Chaojiying(cjy_username,cjy_password,cjy_softid)def __del__(self):self.browser.close()def open(self,js_username,js_password):"""打开网页输入用户名密码:return: None"""self.browser.maximize_window()self.browser.get(self.url)self.browser.implicitly_wait(10)self.browser.find_element_by_link_text('登录').click()login_name = self.wait.until(EC.presence_of_element_located((By.XPATH,"//input[@type='text' and @id='session_email_or_mobile_number']")))login_name.send_keys(js_username)login_password = self.browser.find_element_by_xpath('//input[@type="password" and @id="session_password"]')login_password.send_keys(js_password)def get_button(self):button = self.browser.find_element_by_class_name('sign-in-button')return buttondef get_element(self,name='captch.png'):element = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'.geetest_widget')))self.element = elementlocation = element.locationsize = element.size#获取验证码左上角位置,以及验证码的宽和高(取它的位置和宽高,随后返回其左上角和右下角的坐标)left_y, right_y, left_x, right_x = location['y'], location['y'] + size['height'], location['x'], location['x'] + size['width']# print(left_x,right_x,left_y,right_y)#获取屏幕截图,以二进制形式存入内存中scrsnap = self.browser.get_screenshot_as_png()scrsnap = Image.open(BytesIO(scrsnap))#裁剪图片crop方法传入参数依次为(图片左上角x,图片左上角y,图片右下角x,图片右下角y)captcha = scrsnap.crop((left_x,left_y,right_x,right_y))captcha.save(name)return captchadef get_point(self,result):# result = {'err_no': 0, 'err_str': 'OK', 'pic_id': '3108110014436000003', 'pic_str': '47,127|56,124', 'md5': '6e5164aa4f99e6f25dfd95fd12e30e1c'}#pic_str依次为需要识别的文字的坐标,是以字符串形式返回的,每个坐标都以|分隔pic_strs = result.get('pic_str').split('|') #['47,127', '56,124']# locations = [[int(number) for number in group.split(',')] for group in pic_str]locations = []for pic_str in pic_strs:location = [int(number) for number in pic_str.split(',')]# print(locations) [[47, 127], [56, 124]]locations.append(location)return(locations,len(locations))def click_action(self,locations):for location in locations:print(location)#调用动作链move_to_element_with_offset(o_element,xoffset,yoffset)方法,移动到某个元素的某个坐标上ActionChains(self.browser).move_to_element_with_offset(self.element,location[0],location[1]).click().perform()time.sleep(1)try:self.browser.find_element_by_class_name('geetest_commit').click()except Exception as error:print(error)def run_task(self,js_username,js_password):self.open(js_username,js_password)button =  self.get_button()button.click()image = self.get_element()#创建操作二进制的内存流byte_flow = BytesIO()  #<class '_io.BytesIO'>#将image对象以png格式存入byte_flow文件流中image.save(byte_flow,format='PNG')result = {'err_no': 0, 'err_str': 'OK', 'pic_id': '3108110014436000003', 'pic_str': '116,173|47,127|56,124','md5': '6e5164aa4f99e6f25dfd95fd12e30e1c'}# result = self.chaojiying.post_pic(byte_flow.getvalue(),self.cjy_kind)locations,length = self.get_point(result)self.click_action(locations)login_status = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,"#q")))if login_status:logger.info("登录成功")else:logger.error("登录失败")if __name__ == '__main__':#超级鹰用户名、密码、软件 ID、验证码类型cjy_username = ''cjy_password = ''cjy_softid = ''cjy_kind = js_username = ''js_password = ''Jianshu(cjy_username,cjy_password,cjy_softid,cjy_kind).run_task(js_username,js_password)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_72547.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

leetcode 1011. Capacity To Ship Packages Within D Days(D天内运送包裹的容量)

数组的每个元素代表每个货物的重量&#xff0c;注意这个货物是有先后顺序的&#xff0c;先来的要先运输&#xff0c;所以不能改变这些元素的顺序。 要days天内把这些货物全部运输出去&#xff0c;问所需船的最小载重量。 思路&#xff1a; 数组内数字顺序不能变&#xff0c;就…

Python 自动化测试必会技能板块—unittest框架

说到 Python 的单元测试框架&#xff0c;想必接触过 Python 的朋友脑袋里第一个想到的就是 unittest。的确&#xff0c;作为 Python 的标准库&#xff0c;它很优秀&#xff0c;并被广泛应用于各个项目。但其实在 Python 众多项目中&#xff0c;主流的单元测试框架远不止这一个。…

【C ++】C++入门知识(二)

C入门&#xff08;二&#xff09; 作者&#xff1a;小卢 专栏&#xff1a;《C》 喜欢的话&#xff1a;世间因为少年的挺身而出&#xff0c;而更加瑰丽。 ——《人民日报》 1.引用 1.1.引用的概念及应用 引用&#xff08;&&#xff09; 引用不是新定义一个变量&#xff0…

C语言格式化输出总结:%d,%c,%s,%f, %lf,%m.nd,%m.nf,%m.ns 以及sprintf函数

凡事发生必将有益于我&#xff0c;高手&#xff0c;从来都不仅仅是具备某种思维的人&#xff0c;而是那些具备良好学习习惯的人&#xff0c;成为高手&#xff0c;无他&#xff0c;手熟尔&#xff01;加油在最近的学习之中&#xff0c;对于格式化输出这个知识点&#xff0c;这里…

Spring自动装配的底层逻辑

Spring是如何自动装配Bean的&#xff1f;看源码一些自己的理解&#xff0c;如有错漏&#xff0c;请指正 使用Spring之前我们要先去web.xml中设置一下Spring的配置文件&#xff0c;在Spring的配置文件中&#xff0c;是通过component-scan扫描器去扫描base-package底下所有的类装…

google hacker语句

哎&#xff0c;我就是沾边&#xff0c;就是不打实战(&#xffe3;o&#xffe3;) . z Z 文章目录前言一、什么是谷歌Docker&#xff1f;二、受欢迎的谷歌docker语句谷歌docker的例子日志文件易受攻击的 Web 服务器打开 FTP 服务器SSH私钥电子邮件列表实时摄像机MP3、电影和 PDF…

Rocky 9.1操作系统实现zabbix6.0的安装部署实战

文章目录前言一. 实验环境二. 安装zabbix过程2.1. 安装zabbix源2.2 安装zabbix相关的软件2.3 安装数据库并启动2.4 开始初始化数据库&#xff1a;2.5 创建数据库实例及对应的用户2.6 导入官网提供的数据2.7 配置zabbix 服务的配置文件2.8. 启动服务2.9 从网页进行安装2.10 登陆…

从0开始学python -37

Python3 错误和异常 作为 Python 初学者&#xff0c;在刚学习 Python 编程时&#xff0c;经常会看到一些报错信息&#xff0c;在前面我们没有提及&#xff0c;这章节我们会专门介绍。 Python 有两种错误很容易辨认&#xff1a;语法错误和异常。 Python assert&#xff08;断…

单元测试面试秘籍分享

1. 什么是单元测试 “在计算机编程中&#xff0c;单元测试又称为模块测试&#xff0c;是针对程序模块来进行正确性检验的测试工作。程序单元是应用的最小可测试部件。在过程化编程中&#xff0c;一个单元就是单个程序、函数、过程等&#xff1b;对于面向对象编程&#xff0c;最…

代码随想录NO49 | 动态规划 _LeetCode1143.最长公共子序列 1035.不相交的线 53. 最大子序和

动态规划 _LeetCode1143.最长公共子序列 1035.不相交的线 53. 最大子序和今天继续子序列问题&#xff01; 1143.最长公共子序列 给定两个字符串 text1 和 text2&#xff0c;返回这两个字符串的最长 公共子序列 的长度。如果不存在 公共子序列 &#xff0c;返回 0 。 一个字符…

从功能测试(点点点)到进阶自动化测试,实现薪资翻倍我只用了3个月时间

前言 从事测试工作已3年有余了&#xff0c;今天想聊一下自己刚入门时和现在的今昔对比&#xff0c;虽然现在也没什么成就&#xff0c;只能说笑谈一下自己的测试生涯&#xff0c;各位看官就当是茶余饭后的吐槽吧&#xff0c;另外也想写一写自己的职场感想&#xff0c;希望对刚开…

如何使用 ESP-PROG 板的 Program 接口为 ESP32-S3-WROOM-1 系列的模组烧录固件?

ESP-PROG 是一款乐鑫推出的开发调试工具&#xff0c;具有自动下载固件、串口通信、JTAG 在线调试等功能。具体使用说明参见&#xff1a;ESP-Prog 下载与调试板介绍 。 ESP-Prog 采用 FTDI 公司的 FT2232HL 为 USB Bridge Controller 芯片&#xff0c;可通过配置将 USB 2.0 接口…

分布式链路追踪-skywalking

一、分布式调用链随着业务的高速发展&#xff0c;服务之间的调用关系愈加复杂线上每一个请求会经过多个业务系统&#xff0c;并产生对各种缓存或者DB 的访问&#xff0c;业务流会经过很多个微服务的处理和传递。问题&#xff1a;• —次请求的流量从哪个服务而来&#xff1f;最…

在CentOS-7.9配置vsftpd服务

文章目录一 vsftpd简介二 环境准备三 服务部署3.1 安装软件3.2 编写配置文件3.3 用户授权3.4 启动服务3.5 文件传输测试3.5.1 Windows到Linux3.5.2 filezilla3.5.3 从Linux到Linux一 vsftpd简介 FTP是 File Transfer Protocol 文件传输协议的简称。 VSFTP是 Very Security FTP…

ESP32-C3 BLE5.0 扩展蓝牙名称长度的流程

蓝牙设备名称长度受限于蓝牙广播数据包的长度&#xff0c;如果广播数据包的长度不能包含完整的设备名称&#xff0c;则只显示短名称&#xff0c;其余不能容纳的部分将被截断。ESP32-C3 支持 BLE5.0&#xff0c;最大广播包长支持 1650 字节&#xff0c;可通过 esp_ble_gap_confi…

PTA L1-054 福到了(详解)

前言&#xff1a;内容包括&#xff1a;题目&#xff0c;代码实现&#xff0c;大致思路&#xff0c;代码解读 题目&#xff1a; “福”字倒着贴&#xff0c;寓意“福到”。不论到底算不算民俗&#xff0c;本题且请你编写程序&#xff0c;把各种汉字倒过来输出。这里要处理的每…

【python】argparse 模块的使用、Pycharm中使用argparse

目录1、简介2、使用步骤1&#xff09;导入argparse模块&#xff0c;并创建解释器2&#xff09;添加所需参数3&#xff09;解析参数3、使用 pycharm 传递参数给 argparse1、简介 argparse 模块是 Python 标准库中提供的一个命令行解析模块&#xff0c;它可以让使用者以类似 Uni…

编程题(二)

一、N皇后 II n 皇后问题 研究的是如何将 n 个皇后放置在 nn 的棋盘上&#xff0c;并且使皇后彼此之间不能相互攻击。 给你一个整数 n &#xff0c;返回 n 皇后问题 不同的解决方案的数量。 示例 1&#xff1a; 输入&#xff1a;n 4 输出&#xff1a;2 解释&#xff1a;如…

C#使用MQTT通信 .Net实现MQTT通信 java使用MQTT通信 java实现MQTT通信

MQTT是一种轻量级、基于发布/订阅模式的通信协议&#xff0c;通常用于物联网设备间的通信。MQTT协议采用简单的二进制消息格式&#xff0c;能够在不占用过多网络带宽的情况下进行高效的通信。以下是使用MQTT进行通信的一些基本概念&#xff1a;BrokerMQTT通信中的中间件&#x…

一文速学数模-集成预测模型Boost(提升方法)原理以及框架+模型速览

目录 前言 一、Boosting算法起源 强学习 弱学习 二、Boosting算法核心思想 举例案例 类推 三、Boosting算法框架 四、Boosting算法种类 AdaBoost GBDT XGBoost LighGBM 1.数据划分 2.直方图梯度提升决策树&#xff08;Histogram-based Gradient Boosting Decisio…