美文网首页
爬虫任务延期说明(爬虫该如何合理估期?)

爬虫任务延期说明(爬虫该如何合理估期?)

作者: sexy_cyber | 来源:发表于2021-02-18 11:12 被阅读0次

延期说明:

由于开发时间评估忽略众多要素

首先说明以往估期的标准,主要是根据该站点的反扒技术难度来粗略估计(本生就无法精准估计,无法通过经验来精准判断,这是一个对抗的过程,对方所有防御措施难以在段时间内全部掌握清楚)。

然而现实情况的任务复杂性并非仅仅如此,除去反扒的问题还有:

  • 1.网站本身数据结构混乱问题,需要大量跑测试,做兼容方案来提高爬虫的鲁棒性
  • 2.数据维度较多,分析需求,以及在需求细节上沟通核对需要时间
  • 3.在考虑多维度数据如何切割,如何采集,在如何整合,具体的爬虫开发方案的问题解决需要时间
  • 4.数据质量需要数据下游校验,以及具体的数据结构能够对接的上,过程中调整需要耗时
  • 5.在解决第四点之后仍需三方沟通,我数据下游,以及需求方,需要时间
  • 6.自身疏忽问题导致代码存在bug,需要时间修复

后续改进方案:在后面类似任务估期中,需要将以上的因素都考虑进去,才能在保证工程质量的前提下做到不延期

相关文章

网友评论

      本文标题:爬虫任务延期说明(爬虫该如何合理估期?)

      本文链接:https://www.haomeiwen.com/subject/nlmgxltx.html