美文网首页干货,实用主义产品经理互联网科技
图片「大爆炸」的小挑战——锤子系统「从图片提取文字」功能的测试

图片「大爆炸」的小挑战——锤子系统「从图片提取文字」功能的测试

作者: 学生六零 | 来源:发表于2016-12-04 16:24 被阅读798次

    锤子科技在12月2日推送了新一版本的系统。在这一版本中,最受关注的就是「Big Bang」加入了「从图片提取文字」的功能。我准备用各种各样的图片去尽量探索这一功能的表现和「边界」。

    为了尽可能的使用各种各样的图片探索它的表现和「边界」,我向朋友征求两种图片:
    1.现在或曾经最需要能「图片中提取文字」的图片。
    2.最想看能不能实现「图片中提取文字」的图片。

    此外在用目前比较流行的使用相同技术(OCR,光学字符识别)的两款软件「扫描全能王」(也是为「Big Bang」提供技术的厂商)和「ABBYY TextGrabber」对某些图片进行对比识别。

    第一幅图:「书」

    (左为原图,右为「Big Bang」,后同)

    (左为「扫描全能王」,右为「ABBYY TextGrabber」,后同)

    将书上的一段文字提取成文本,是大家最常想到也或许是有此功能最常有的一项。我的这位朋友随手拍的一张图有一点弯曲,对文字识别造成了干扰。但在文中「(二)欺诈的构成要件」之后,这三个软件都发挥的不错(注:「扫描全能王」要表现的更为出色一点)。

    那如果我们再认真一点拍一下效果会怎么样呢?
    我找了一本书的某一页。

    在好好拍照的情况下,三个软件的识别率都非常高。

    我们再试试好好拍英文书。


    英文对这三款软件对发挥没有造成阻碍,它们都表现的很出色。(注:「扫描全能王」和「ABBYY TextGrabber」还支持很多其他语种,「Big Bang」目前只支持简体中文和英文。)

    在测试途中,出现一个问题。

    「Big Bang」无法识别出这张照片,也就是说,「Big Bang」对文字大小识别的范围要小于其他两款市面上主流的软件。(注:在这之后测试一个字体比这幅图小的pdf截图时,「Big Bang」虽然识别错误率很高,但是可以识别。笔者没有这样小的中文字体的书和其他材料进一步测试。但是又测了测上图所示书的其他片段发现还是不能识别。猜想或许是字又小又密集造成的。「Big Bang」的识别范围小这一判断没有改变,只是无法确定准确的因素。)

    第一幅图:「书」,代表了我们手头的书本、材料、资料,有时候我们需要把他们转化成文字信息处理。在此种情景下,市面上的软件已经能提供非常出色的服务了。如果你恰好有一台M1,它的激光对焦和「Big Bang」会帮助你更快一点的完成这项任务。


    第二幅图:「网盘」

    这张图片代表的场景是我们需要从一张图片上选取某些文字信息,这样我们可以避免背诵或是来回翻看输入。我又找了一张更为典型的图片。

    三款软件几乎没有压力。但是当图片的质量不好时,这些软件就基本失去了作用,比如下面这张朋友发来的以图片录入的pdf文件截图。

    第二幅图:「网盘」,代表了我们要把图片中的文字提取一部分编辑。在此种情景下,后两款软件需要的操作步骤比「Big Bang」多了一些,显得有些「笨重」了。


    第三幅图:「无法识别」

    以上图片「Big Bang」都无法识别,除了背景不够纯净外,「字体」也影响着它的发挥。

    我又做了如下测试。

    我得出的结论是:当一个字体越接近宋体、黑体这种「板正」的字体时,它的识别率越高,当它越偏离「板正」的字体时,它的识别率越低。


    总结:
    1.「Big Bang」的独特之处在于它是全局状态下的迅速反应(注:在这一版本更新之前,笔者常用的软件中,微信的朋友圈和公众号文章、QQi的好友动态、Chrome浏览器以及Kindle阅读软件都是不能触发的。在这一版本更新后上述都可以触发,且不需要截图就可触发)。也就是说你机会不需要什么时间成本,就可以尝试能不能用更有简便的方法完成你的目的,即便不能,你也只是浪费了1s左右而已。而另两款软件则需要较多的步骤去操作(你需要截图、打开软件、读取图片才能进行识别)。

    2.「Big Bang」在「把图片中的文字提取一部分编辑」的功能上提供的便利性是遥遥领先的,就算是提取全部文字,「Big Bang」的识别率也没有落后于另两款软件多少。

    3.「Big Bang」不是那种给你一个特别明确的场景让你用的功能。它是一个把一件有用的事情变的简单好用。当你有这个功能时,你会经常触发一下,因为它只需要较大的接触面积按压和1秒左右的时间。当你发现可以用到这个功能时,有这个功能和没这个功能的效率差别是巨大的。

    4.也有其他厂商在做类似的软件,锤子科技业也表示过将会开源这个软件。这个功能值得大家的关注。

    相关文章

      网友评论

      本文标题:图片「大爆炸」的小挑战——锤子系统「从图片提取文字」功能的测试

      本文链接:https://www.haomeiwen.com/subject/ziphmttx.html