美文网首页PowerQuery数据分析
微软Excel和Python都能爬取网页信息,你该怎么选?

微软Excel和Python都能爬取网页信息,你该怎么选?

作者: PowerQuery | 来源:发表于2019-04-03 08:56 被阅读10次

    最近深度体验了一下Excel(PowerBI Desktop)爬取网页信息的能力,基于这些体验也写了几个帖子,比如在《领导给我一周时间让梳理昆明所有楼盘的信息,我半小时就完成了》中使用了Excel(PowerBI Desktop)来爬取安居客的信息,以及使用Excel(PowerBI Desktop)从民政局爬取信息(《教你如何在一分钟内获取最新最全的全国行政区划信息》)。这两次体验结果,对Excel(PowerBI Desktop)爬取网页的能力基本满意。

    微软Excel和Python都能爬取网页信息,你该怎么选?

    这两天我又折腾了用Excel(PowerBI Desktop)从搜狐焦点和房天下爬取昆明的楼盘信息,不得不说,体验比较糟糕——Excel(PowerBI Desktop)爬取这两个网站的楼盘信息速度慢得让我无法忍受。刷新一次结果至少要两三个小时乃至更多。

    我终于失去耐心,还是重操python大业(太多东西又忘掉了……),爬取同样的信息,python五六分钟就爬取完毕,这个效率的差异可谓一个天上一个地下了。

    微软Excel和Python都能爬取网页信息,你该怎么选?

    所以,我的结论是:

    1.简单爬取,页数不多情况下,用微软的Excel(PowerBI Desktop)不失为一个可行的选项。

    2.大批量爬取,还是使用python这类工具吧(应该还有其他更高效的工具,但我只勉强会用python,所以只能提python)。

    微软Excel和Python都能爬取网页信息,你该怎么选?

    相关文章

      网友评论

        本文标题:微软Excel和Python都能爬取网页信息,你该怎么选?

        本文链接:https://www.haomeiwen.com/subject/pqaobqtx.html