美文网首页
Go 爬取 51job 总结

Go 爬取 51job 总结

作者: 智勇双全的小六 | 来源:发表于2018-07-02 14:51 被阅读0次

    51job 是几个静态页面,看起来爬取是没有什么难度的,但是没想到在解析页面的时候栽到沟里去了。因为JD页面是由HR定义的,后台编辑页面肯定是可以定义格式的,这就导致最后生成的JD html 不只是一种样式。

    这就是目前遇到的BUG了。真实世界的情况是非常复杂的,写代码总结这种现象的规律,然后用代码把规律表达出来。总结规律的起点一定是做假设的。这些假设有的时候会证明是漏洞百出的,所以为了让代码更加健壮,必须对代码中的假设加以检验。

    相关文章

      网友评论

          本文标题:Go 爬取 51job 总结

          本文链接:https://www.haomeiwen.com/subject/eacluftx.html