腾讯云OCR Python3实现

作者: 年少为云 | 来源:发表于2018-12-20 15:34 被阅读70次

腾讯云OCR Python3实现
阿里云与腾讯云OCR对比
python体验名片识别OCR
身份证、银行卡OCR识别第三方调研
腾讯云OCR-通用印刷体识别
腾讯国际大赛再“亮剑”，腾讯云打开OCR技术场景应用新时代
OCR 初步测试
腾讯Ocr文字识别
react-native上传文件时boundary 引号问题
Flask 部署腾讯云服务器

参考文档：https://www.cnblogs.com/semishigure/p/7690789.html

对于通用印刷体识别，腾讯云只提供API调用，不提供Python-SDK。

签名算法

获取签名信息

appid = '控制台获得'
secret_id = '控制台获得'
secret_key = b'控制台获得'
bucket = 'BUCKET'

expired = time.time() + 2592000
current = time.time()
rdm = ''.join(random.choice("0123456789") for i in range(10))

拼接多次有效签名串

info = "a=" + appid + "&b=" + bucket + "&k=" + secret_id + "&e=" + str(expired) + "&t=" + str(current) + "&r=" + str(
    rdm) + "&f="
info = info.encode("utf-8")

加密编码

signindex = hmac.new(secret_key, info, hashlib.sha1).digest()  # HMAC-SHA1加密
sign = signindex + info
sign = base64.b64encode(sign)  # base64转码

hmac模块介绍
注意此处secret_key和info都要求是bytes格式，如果是str格式，需要进行bytes编码，另外腾讯要求SHA1算法加密后的输出必须是原始的二进制数据，所以应该使用digest(),而不是hexdigest(),也就是输出的signindex也是bytes格式的。

构建请求头和请求体

url = "http://recognition.image.myqcloud.com/ocr/general"
headers = {'Host': 'recognition.image.myqcloud.com',
           "Authorization": sign
           }
files = {'appid': (None, appid),
         'bucket': (None, bucket),
         'image': ('英文.PNG', open(r'英文.PNG', 'rb'), 'image/png')
         }

此处content-type 自动识别为multipart/form-data格式，requests模块会自动转换格式，所以image只需要写成上述元组即可，分别为文件名、文件、文件类型。

请求结果

r = requests.post(url, files=files,headers=headers)
responseinfo = str(r.content,encoding = 'utf-8')#返回结果为bytes型，转为str型
print(responseinfo)
r_index = r'"itemstring":"(.*?)"'  # 做一个正则匹配
result = re.findall(r_index, responseinfo)

for i in result:
    print(i)

下面是测试中文识别的结果，除了有一处换行错了以外，基本正确，识别效果较好。