延期说明:
由于开发时间评估忽略众多要素
首先说明以往估期的标准,主要是根据该站点的反扒技术难度来粗略估计(本生就无法精准估计,无法通过经验来精准判断,这是一个对抗的过程,对方所有防御措施难以在段时间内全部掌握清楚)。
然而现实情况的任务复杂性并非仅仅如此,除去反扒的问题还有:
- 1.网站本身数据结构混乱问题,需要大量跑测试,做兼容方案来提高爬虫的鲁棒性
- 2.数据维度较多,分析需求,以及在需求细节上沟通核对需要时间
- 3.在考虑多维度数据如何切割,如何采集,在如何整合,具体的爬虫开发方案的问题解决需要时间
- 4.数据质量需要数据下游校验,以及具体的数据结构能够对接的上,过程中调整需要耗时
- 5.在解决第四点之后仍需三方沟通,我数据下游,以及需求方,需要时间
- 6.自身疏忽问题导致代码存在bug,需要时间修复
后续改进方案:在后面类似任务估期中,需要将以上的因素都考虑进去,才能在保证工程质量的前提下做到不延期
网友评论