美文网首页
中国土地市场网landchina.com采集心得,有时只是你心态

中国土地市场网landchina.com采集心得,有时只是你心态

作者: 天之洲 | 来源:发表于2017-08-14 13:20 被阅读0次

总结就是,有时不是你技术不行,而是心态

==============

年初接到老板任务,让采集下这个网的数据,我一看是网站觉得简单,就说3天搞定,结果这一搞搞了2-3个月。

就这一折腾,就几个月过去了,才慢慢把土地成交200万数据,抵押,转让,一个40万,一个80万,共300多万数据提取下来。

在这之后,就只要慢慢更新就行了,速度不快,也不会对ip和网站本身产生什么影响。

这个网的问题如下,

1、采集太快禁ip

2、页面有200页限制

3、详细页中没有省份信息

4、用代理采集,可以加快速度,结果网站容易挂

5、后来还加了电子 狗加密。

6、经常网站维护

7、网页看似规则,但有几个字段麻烦,爬多了后来发才现。

我习惯用python + scrapy + mysql,目前没有接redis,基本上也够用了。

代码我就没有放了,因为维护的快,网上也有一些,解析基本上大同小异。当然代码也是要不停维护的。

主要几点心得就是

1、采集大量数据不能猴急,细水长久,慢慢来,不能并发太多,这网太慢了,有时人工查也慢,容易挂。我看到有人弄这个的网的数据,几个月了,也没弄完,其实就是天天说这出问题,那出问题,其实速度放慢就可以,慢慢来。

2、一般要用数据库,去重,记录上次爬取的状态,或分省,分时间段爬取,在爬虫中断后,可以快速的继续上次的状态,而不用重来一次。

3、有时技术,框架什么的可能都不是很重要,实用为上,可以说我是以时间为代价换成果的

4、注意以上几点,其它的就是技术细节的问题了,都不会太麻烦。

相关文章

网友评论

      本文标题:中国土地市场网landchina.com采集心得,有时只是你心态

      本文链接:https://www.haomeiwen.com/subject/ngqurxtx.html