美文网首页
腾讯云OCR Python3实现

腾讯云OCR Python3实现

作者: 年少为云 | 来源:发表于2018-12-20 15:34 被阅读70次

    参考文档:https://www.cnblogs.com/semishigure/p/7690789.html

    对于通用印刷体识别,腾讯云只提供API调用,不提供Python-SDK。

    签名算法

    获取签名信息

    appid = '控制台获得'
    secret_id = '控制台获得'
    secret_key = b'控制台获得'
    bucket = 'BUCKET'
    
    expired = time.time() + 2592000
    current = time.time()
    rdm = ''.join(random.choice("0123456789") for i in range(10))
    

    拼接多次有效签名串

    info = "a=" + appid + "&b=" + bucket + "&k=" + secret_id + "&e=" + str(expired) + "&t=" + str(current) + "&r=" + str(
        rdm) + "&f="
    info = info.encode("utf-8")
    

    加密编码

    signindex = hmac.new(secret_key, info, hashlib.sha1).digest()  # HMAC-SHA1加密
    sign = signindex + info
    sign = base64.b64encode(sign)  # base64转码
    

    hmac模块介绍
    注意此处secret_key和info都要求是bytes格式,如果是str格式,需要进行bytes编码,另外腾讯要求SHA1算法加密后的输出必须是原始的二进制数据,所以应该使用digest(),而不是hexdigest(),也就是输出的signindex也是bytes格式的。

    构建请求头和请求体
    url = "http://recognition.image.myqcloud.com/ocr/general"
    headers = {'Host': 'recognition.image.myqcloud.com',
               "Authorization": sign
               }
    files = {'appid': (None, appid),
             'bucket': (None, bucket),
             'image': ('英文.PNG', open(r'英文.PNG', 'rb'), 'image/png')
             }     
    

    此处content-type 自动识别为multipart/form-data格式,requests模块会自动转换格式,所以image只需要写成上述元组即可,分别为文件名、文件、文件类型。

    请求结果
    r = requests.post(url, files=files,headers=headers)
    responseinfo = str(r.content,encoding = 'utf-8')#返回结果为bytes型,转为str型
    print(responseinfo)
    r_index = r'"itemstring":"(.*?)"'  # 做一个正则匹配
    result = re.findall(r_index, responseinfo)
    
    for i in result:
        print(i)
    

    下面是测试中文识别的结果,除了有一处换行错了以外,基本正确,识别效果较好。


    中文.PNG
    Tencent中文.PNG

    相关文章

      网友评论

          本文标题:腾讯云OCR Python3实现

          本文链接:https://www.haomeiwen.com/subject/sceykqtx.html