利用 Win10 + Python 实现属于自己的OCR

2020/1/23 17:42:33 人评论 次浏览 分类:学习教程

时至今日,OCR在我们生活中已经不可获取,通过各种APP开始集成OCR功能可以体现其在我们生活中的重要性,并且电脑端的多为收费,所以决定动手编写一个属于自己的OCR程序(今日已接近年关,但湖北武汉的新型冠状病毒不得不防,为了积极响应卫生组织的公告,宅在家中,开始更新博客😷)

本文的OCR当然不是自己从头开发的,是基于百度智能云提供的API(我感觉是百度在中国的人工智能领域值得称赞的一大贡献),其提供的API完全可以满足个人使用,相对来说简洁准确率高。

代码实现

下面让我们来看一下代码实现。

主要使用的模块有

import os # 操作系统相关
import sys # 系统相关
import time # 时间获取
import signal # 系统信号
import winsound # 提示音
from aip import AipOcr  # 百度OCR API
from PIL import ImageGrab # 捕获剪切板中的图片
import win32clipboard as wc # WINDOWS 剪切板操作
import win32con # 这里用于获取 WINDOWS 剪贴板数据的标准格式

第一步 这里的APP_ID,API_KEY,SECRET_KEY是通过登陆百度智能云后自己在OCR板块申请的, 实现基本的OCR程序,可以通过图片获取文字。

""" 你的 APPID AK SK """
APP_ID = 'xxx'
API_KEY = 'xxx'
SECRET_KEY = 'xxx'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

""" 读取图片 """
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

""" 从API的返回字典中获取文字 """
def getOcrText(txt_dict):
	txt = ""
	if type(txt_dict) == dict:
		for i in txt_dict['words_result']:
			txt = txt + i["words"]
			if len(i["words"]) < 25:
				txt = txt + "\n\n"
	return txt

""" 调用通用/高精度文字识别, 图片参数为本地图片 """
def BaiduOcr(imageName,Accurate=True):
	image = get_file_content(imageName)
	if Accurate:
		return getOcrText(client.basicGeneral(image))
	else:
		return getOcrText(client.basicAccurate(image))
	
""" 带参数调用通用文字识别, 图片参数为远程url图片 """
def BaiduOcrUrl(url): 
	return getOcrText(client.basicGeneralUrl(url))

第二步,实现快捷键获取文字,将识别文字放入剪切板中,提示音提醒以及快捷键退出程序

""" 截图后,调用通用/高精度文字识别"""
def BaiduOcrScreenshots(Accurate=True,path="./temp/"):
	if not os.path.exists(path):
		os.makedirs(path)
	image = ImageGrab.grabclipboard()
	if image != None:
		print("\rThe image has been obtained. Please wait a moment!",end=" ")
		filename = str(time.time_ns())
		image.save(path+filename+".png")
		if Accurate:
			txt = getOcrText(client.basicAccurate(get_file_content(path+filename+".png")))
		else:	
			txt = getOcrText(client.basicGeneral(get_file_content(path+filename+".png")))
		os.remove(path+filename+".png")
		set_clipboard(txt)
		winsound.PlaySound('SystemAsterisk',winsound.SND_ASYNC)
		return txt
	else :
			print("\rPlease get the screenshots by Shift+Win+S !       ",end="")
			
def sig_handler(signum, frame):
    sys.exit(0)

def AutoOcrScreenshots():
	signal.signal(signal.SIGINT, sig_handler)
	signal.signal(signal.SIGTERM, sig_handler)
	print("Please get the screenshots by Shift+Win+S !",end="")
	print("Waiting For Ctrl+C to exit!")
	while(1):
		try:
			BaiduOcrScreenshots(ifauto=True)
			time.sleep(0.1)
		except SystemExit:
			break
		else :
			pass
		finally:
			pass

使用方法

使用Windows 10系统时, 可以使用Shift+Win+S快捷键实现任意区域截取,截取后图片将暂时存放在剪切板中,程序自动使用Windows API获取图片内容,之后使用百度的OCR API获取文字,并将文字放置在剪切版内存中后发出提示音。使用者则可以在开启程序后,使用快捷键截图后静待提示音后使用Ctrl+V将文字内容放置在自己所需的位置。

FlameAlpha
发布了4 篇原创文章 · 获赞 4 · 访问量 324
私信 关注

相关资讯

    暂无相关的资讯...

共有访客发表了评论 网友评论

验证码: 看不清楚?
    -->