美文网首页我爱编程
爬虫|一只忙里偷闲的小蜘蛛

爬虫|一只忙里偷闲的小蜘蛛

作者: kami1护 | 来源:发表于2018-03-18 20:44 被阅读0次

    应该有3个月没有碰爬虫了,原因:该死的工作!๑乛◡乛๑

    闲话,最近状态

    昨天又加班啦,晚上很开心地去大哥大嫂那蹭饭,提及为什么周六都要加班,对这个问题,我后来在回来的路上还是认真地思考了一下,具体过程本想用一个思维导图来说明,毕竟在下的原则是能用画的说明白的就不用写的,能用写的描述清楚的就不用说的。大概过程是这样的,我是谁?我在哪?……最后结论就是,这块宝地与在下八字不合,嗯!

    此处是一张非常惊奇的思维导图。。。囧rz(ーー;)(ーー;)(ーー;)(ーー;)

    加班 的问题想明白了之后顿时就觉得神清气爽,正是突破魂师进阶魂斗罗,啊不,好好学习知识的大好时候啊!

    趁着兴致,把更新的几部国漫刷完,已是凌晨两点,time to sleep。醒来已是中午10点,几缕阳光在窗前跳跃,嗯,好天气!吃饱喝足回来,擦了擦电脑上厚厚的灰尘,嗯,正常开机。

    正题了

    前几天马爷给我发了个楼盘,想网上看看吧,这房产网,看起来有点费劲啊,嗯,爬了吧!

    写着写着,忽然想起来,这机子刚装的Py3.6啊,其他啥都没有呢,嗯,有点裸。于是重新装各种库,其中pandas花费的时间有点出乎意料,不过还是成功了,贴个图

    由于主要想看下各地区的楼盘分布,所以定下主要抓取数据:楼盘名称,地址,开发商,价格

    网页结构很好爬,但是还是走了点弯路,因为刚开始没有很好的观察网页结构,以至于用BeautifuSoup来解析,总是抓不到想要的数据。后来,仔细向度娘了解了各种标签,把整个网页爬下来贴到notepad++里,XML格式下,仔细分析了下,终于拿到了想要的数据。

    最后用DataFrame格式化一下数据,pandas写入到excel(因为本机无任何数据库(╥╯^╰╥),真不像话!还搞啥数据),最后数据如下:

    好贵啊

    嗯,数据拿到了,但是格式还是不是很标准,价格那块比较明显,还是不利于分析,有待处理,后续分析部分待续。。。今天就到这吧,time for dinner

    哦,粗糙的代码贴一下吧

    嗯,好糙

    待续。。。

    相关文章

      网友评论

        本文标题:爬虫|一只忙里偷闲的小蜘蛛

        本文链接:https://www.haomeiwen.com/subject/qzfyqftx.html