更新日志和作者 1.感谢使用 Hawk是沙漠君周六日坐在马桶上“呕心沥血”地改出来的。真的比不上那些商用软件的“妖...[作者空间]
网页采集器 1.快速使用说明 网页采集器 模拟了浏览器的设计,填入网址,点击刷新,即可获取对应地址的html源码。...[作者空间]
数据表和数据库连接 1.数据表 当加载了数据集时,在本视图中,就可对其查看和编辑: 点击右键,可以对数据集进行删除...[作者空间]
数据清洗 数据清洗是一种任务,包括几十个子模块, 这些子模块包含四类:生成, 转换, 过滤和执行。 在输出的文档中...[作者空间]
快速教程 本文给不想看详细教程的同学使用,仔细阅读,可以让你战斗力爆棚: 1.界面和交互 1.1.主工作区 启动后...[作者空间]
常见问题 1.网页采集器 1.1.自动嗅探失败 网页采集器具备自动嗅探功能,本质上是替换掉了底层的代理。因此,所有...[作者空间]
子任务引擎 (早期版本的Hawk称之为子流程,为了简化概念,使用子任务这一说法,下同) 1.基本概念 当流程设计的...[作者空间]
命令行增量和自动化专题 Hawk虽然是图形化软件,但依然支持命令行和自动化抓取,本专题讨论如何增量,和自动化定时抓...[作者空间]
动态页面抓取专题 本文档讨论如何抓取动态页面,包括如何发现真实的数据请求,如何构造并解析请求返回的结果。 1.什么...[作者空间]
主要组件介绍 1.Hawk的关键概念 任务: 系统仅仅提供了两种任务: 网页采集器 和数据清洗,任务可以被新建,...[作者空间]
story2 原本不再打算更新Hawk,直到去年10月的某个晚上,刚上完B站发呆的我收到了升哥的吐槽,远程他的电脑...[作者空间]
story1 本文写于圣诞节北京下午慵懒的午后。本文偏技术向,不过应该大部分人能看懂。 1.五年之痒 2016年,...[作者空间]
欢迎使用Hawk Advanced Crawler ETL tool written in C#/WPF 欢迎使...[作者空间]
Hawk工程 Hawk使用工程(Project)的概念描述一组任务的集合。在工程中,所有的任务可以互相引用,任务也...[作者空间]
Hawk任务市场 为了方便用户间共享高质量的工程,形成良好的社区环境,在Hawk5中提供了市场功能。 在设计任务市...[作者空间]
最近又要租房了,哪里的性价比更高?买房却不知道全国市场的趋势如何?程序员自有办法,抓取网络的房产交易和租房数据来分...[作者空间]
(Hawk尚未正式发布,本文只做功能性预览和内测使用) Hawk从2015年开发至今,已经经历三个版本,但是Haw...[作者空间]
Hawk5 Hawk是一款开源图形化的爬虫和数据清洗工具,GitHub Star超过2k+,前几代版本介绍如下: ...[作者空间]