51job 是几个静态页面,看起来爬取是没有什么难度的,但是没想到在解析页面的时候栽到沟里去了。因为JD页面是由HR定义的,后台编辑页面肯定是可以定义格式的,这就导致最后生成的JD html 不只是一种样式。
这就是目前遇到的BUG了。真实世界的情况是非常复杂的,写代码总结这种现象的规律,然后用代码把规律表达出来。总结规律的起点一定是做假设的。这些假设有的时候会证明是漏洞百出的,所以为了让代码更加健壮,必须对代码中的假设加以检验。
51job 是几个静态页面,看起来爬取是没有什么难度的,但是没想到在解析页面的时候栽到沟里去了。因为JD页面是由HR定义的,后台编辑页面肯定是可以定义格式的,这就导致最后生成的JD html 不只是一种样式。
这就是目前遇到的BUG了。真实世界的情况是非常复杂的,写代码总结这种现象的规律,然后用代码把规律表达出来。总结规律的起点一定是做假设的。这些假设有的时候会证明是漏洞百出的,所以为了让代码更加健壮,必须对代码中的假设加以检验。
本文标题:Go 爬取 51job 总结
本文链接:https://www.haomeiwen.com/subject/eacluftx.html
网友评论