美文网首页沙漠之鹰Hawk教程-简书版
革命性更新:开源图形化爬虫Hawk5发布

革命性更新:开源图形化爬虫Hawk5发布

作者: desert2017 | 来源:发表于2018-11-14 20:51 被阅读348次

    (Hawk尚未正式发布,本文只做功能性预览和内测使用)

    Hawk从2015年开发至今,已经经历三个版本,但是Hawk5则带来了其历史上最大的一次更新,解决了之前困扰的问题,并提供了社区化的任务市场,多国语言和更强大的调试系统。 因此作者决定直接跳过Hawk4,发布Hawk5。

    Hawk5欢迎界面

    那么Hawk5带来哪些让人兴奋的更新呢? 大招在最后!

    断点续跑和自动保存

    早期Hawk会有诸多的不稳定,导致用户正在编辑任务或处理数据时,Hawk扑街了!

    Hawk5除了自动保存任务的功能,还能保存当前的数据表,甚至执行的位置!一旦关闭软件或遇到崩溃, 不仅历史抓取的数据还在,甚至重启后,任务还能继续从上次断掉的位置继续跑!颤抖吧筒子们!

    自动回补数据

    这是另一革命性功能,在访问网站或其他操作时经常会遇到超时,不可访问等异常,想一次性不重不漏地获取全部数据是非常困难的。

    Hawk5支持了批量补数据功能,当发生异常时,Hawk会记录异常所处的任务位置和上下文,并写入一张数据表。之后Hawk即可智能地重新执行出现错误的位置,将数据不重不漏地回补回来,如下图所示:

    超级文档,自动更新和多国语言

    我只想说,早期版本的Hawk文档都是垃圾。

    Hawk5中,帮助文档获得了极大的增强(这个“极大”用的一点都不夸张),除了丰富和细致到令人发指的在线文档:

    https://ferventdesert.github.io/Hawk/

    在线文档系统

    还提供了内置的文档,各个模块下方都有图文并茂的说明,当你不知道该按钮的作用时,鼠标放在该按钮上保持3秒,就有详细的说明。

    更令人开心的是,当你设计完一个任务后,一键即可生成该任务的手把手帮助文档,新手用户按部就班即可重现你的奇思妙想!

    Hawk5进一步地提供了多国语言功能,能方便地在中文,English或其他任何语言切换,只要在执行目录增加对应的语言文件即可!

    同时,Hawk的自动更新机制,能够让迭代更加敏捷,有新版本的Hawk即可一键更新,妈妈再也不用担心Hawk出现bug了!

    全局参数

    早期的Hawk,涉及到多个任务间协同时会非常复杂,即使有子任务系统的加持也不能好转。

    Hawk5中设计了全局参数系统,你能在任何任务的任何模块中,使用大括号引用你已经配置的参数,并能在多个参数组间切换。

    全局可配置参数

    这有什么用呢?举个栗子,当二手房抓取时,每个城市们页面格式和地址都不相同, 那么就需要改很多参数,使用全局参数后,切换当前配置组并刷新,即可在多个城市间任意切换!

    调试系统和UI交互改进

    早期的Hawk遇到配置错误时,一条数据都出不来,卡住的不仅是Hawk,还有用户的心。

    Hawk5为此增加更加高效和方便的调试系统,每个模块是否正常工作,会以绿色方格提醒,一目了然。当任务中间有某个模块有异常时,还能触发提示。

    超级拷贝功能,使得可以通过shift键,选择多个算子模块,并在多个任务间来回拷贝。你甚至还能将Hawk自动嗅探出的XPath信息一键拷贝为python代码,极大地简化爬虫工程师的工作!

    方便的调试系统

    是否已经被网站封锁?总共进行了多少次请求?全局统计系统能够方便的显示当前总的web请求数,异常数,超时数,当错误数达到阈值时,更能自动暂停所有的任务!

    系统设置

    Hawk内置了埋点系统,当系统出现问题时,会自动上传错误堆栈到远程日志服务中,方便开发者定位问题。

    除此之外,新版的Hawk更是改进了UI设计,例如XPath转换器,能够通过关键字快速定位,几次点选即可获取真实XPath。

    社会化协作:任务市场

    以前所有的Hawk用户只能各自为政,无法共享,学习和沟通。

    在新的Hawk中,你可以浏览和搜索线上任务市场,在软件中直接加载远程任务,直接浏览数据,并在高层方便地组合和调用其他人写的任务。像BT站一样,作者发布爬虫和数据清洗任务后,所有的Hawk用户就会立即受益!

    任务市场主页

    以前想抓取全国二手房数据异常复杂,且网站改版后就不能使用。而Hawk市场只要轻轻点击加载市场任务,即可在全国所有二手房数据中切换,并随时增加自己的修改,所见即所得,一键拉回本地。

    这是Hawk本次更新最重要的功能,它极大地改善了Hawk社会化协作属性,它依赖于GitHub,并可配置任务源。由于账号系统的限制,目前还不能在软件中直接上传任务,如果你希望向主仓库贡献任务,可提交git的pull request。本功能将会在未来的版本中提供。

    在AI时代,通过大量用户使用Hawk的行为和任务市场的积累,我们能够通过强化学习等技术,自动让AI学出自动的数据清洗和转换服务,让Hawk变得更加智能。

    无限想象:自动抢票,翻译,图片识别...

    如果你只以为Hawk就是个爬虫,那就错了,Hawk是个通用的流式计算客户端。未来Hawk市场,不仅会有共享的任务,更会引入第三方插件机制,极大地扩展Hawk流式计算的版图。

    目前正在开发中的浏览器驱动插件,能够让Hawk自动控制浏览器,模拟点击,翻页等一系列操作,你要做的只是做一遍后导入到Hawk。通过配置数据清洗流,能够实现自动抢票,键盘输入等一系列功能。

    未来的插件能够更方便地调用百度识图,翻译转换以及各类服务存储API,让更多用户能够通过Hawk拖拽就能实现丰富的数据处理,并导出成任何格式。

    我们对Hawk的理念,是开源,去中心化和社会化协作。它没有公司去运营,没有中心服务器,只依赖了免费的GitHub仓库,使用文档和教程都是机器自动生成的。但它也在各种艰难中一路走来,但我们对Hawk的愿景是让数据流变得更加智能,让数据工作者变得更加地敏捷方便。

    相关文章

      网友评论

        本文标题:革命性更新:开源图形化爬虫Hawk5发布

        本文链接:https://www.haomeiwen.com/subject/xjdsfqtx.html